Escolar Documentos
Profissional Documentos
Cultura Documentos
Anova de 1 fator
Anova de 2+ fatores
Testes de comparação múltipla
Anova sobre os postos
O que é a Análise de Variância?
• Até agora, os testes estatísticos que realizámos
incidiam sobre apenas uma população
• Análise de variância (analysis of variance – anova)
é um teste paramétrico que compara parâmetros
de várias populações; quantas quisermos
• Inventada pelo biólogo R. Fisher entre 1920 e
1930, é hoje em dia usada para comparar a
resposta de uma v.a. a tratamentos diversos
j =1 i =1 j =1
• a = n.º de tratamentos
• ni = n.º de observações do tratamento i
• n = n.º total de observações
• SQ: soma quadrática
• GL: graus de liberdade
• MQ: média quadrática
09-12-2009 N.Sousa, ESAC (c) 9
Identidades das somas quadráticas
• Facto 1: a variabilidade total dos dados pode ser escrita como a
soma de dois termos, um devido ao erro e o outro devido ao
tratamento: (SQ = “soma quadrática”)
a ni
SQtotal = ∑∑ ( y ij − y )2 = SQerros + SQtratamentos
i =1 j =1
• Para a definir a estatística de teste da anova precisaremos de
SQerros e SQtratamentos. Todas estas somas quadráticas são fáceis
de obter recorrendo ao Facto 2:
a y i2• y ••2 a ni 2 y ••2
SQtratamentos = ∑ − SQtotal = ∑∑ y ij −
i =1 ni n i =1 j =1 n
a ni 2 a y i2•
SQerros = ∑∑ y ij − ∑
n
i =1 j =1 i =1 i
09-12-2009 N.Sousa, ESAC (c) 10
Tradução para português do Facto 2
y ••2
1. Termo : “Some todas as n medições, eleve ao quadrado e
n
divida por a. Chame ao resultado (1).”
a ni
2. Termo ∑∑ ij : “Pegue em cada uma das n medições,
y 2
i =1 j =1
eleve-a ao quadrado e some sobre todas elas. Chame-lhe (2).”
a
y i2•
3. Termo ∑ : “Some todas as ni medições dentro de um
i =1 ni
grupo, eleve ao quadrado, divida por ni e some sobre todos os
grupos. Chame ao resultado (3).”
4. SQtotal = (2) – (1) SQtratamentos = (3) – (1) SQerros = (2) – (3)
Response: milho
Df Sum Sq Mean Sq F value Pr(>F)
Tratamento 2 22204.8 11102.4 5.2713 0.01846 *
Residuals 15 31593.0 2106.2
---
Signif.codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
• Response: nome da variável resposta
• Residuals: erro
• Df: graus de liberdade (degrees of freedom)
• Sum Sq: soma quadrática (sum of squares)
• Mean sq: média quadrática (mean square)
• F value: valor observado da estatística de teste Fobs
• Pr(>F): valor de prova
1 1 1
ICTukey : ( y i − y j ) ± qa,n − a (1 − α ) MQerro ⋅ +
2 ni n j
• Para cada par de grupos i,j constrói-se um IC para a diferença de médias:
– Se o IC contiver o valor zero, não há diferenças estatisticamente significativas
entre as médias µi ,µj
– Se o IC não contiver o valor zero, então há diferenças significativas
– Construir tabela com todos os pares e identificar grupos desviantes
• A significância α no teste de Tukey é global: a probabilidade de erro I é α
ao fim de todas as comparações
• qa,n − a (1 − α ) : quantil de ordem 1 – α da distribuição studentized range
com GL1 = a e GL2 = n – a graus de liberdade. Tabela T9
• E a tabela anova é:
Fonte de
SQ GL MQ F valor P F crítico
variação
Entre
736,383 2 368,191 0,792 0,471 3,6823
grupos
Dentro de
6973,35 15 464,89
grupos
Total 7709,73 17
• Conclusão: o valor de prova alto (47%) indica que não há evidência estatística
para rejeitar H0 : as populações dos três grupos de dados têm a mesma
variância
09-12-2009 N.Sousa, ESAC (c) 21
Consequências da não validação dos
pressupostos I
• Violações da independência, normalidade e homogeneidade dos erros
levam ao aumento dos erros de tipo I e II. Quando isto acontece, as
conclusões da tabela anova tornam-se duvidosas e devem ser
interpretadas com reservas.
• Independência dos erros. Este pressuposto é crucial. A sua violação
praticamente inviabiliza qualquer anova. Este pressuposto é também
difícil de validar. O utilizador deve usar do seu senso comum para indagar
se no caso em mãos é, ou não, plausível haver independência dos erros.
• Normalidade dos erros. É menos importante. O cálculo da ET da anova usa
médias globais e dos grupos. Quando a dimensão dos grupos é grande (i.e.
ni > 30) o teorema do limite central diz-nos que essas médias terão
distribuição aproximadamente normal. Quando os grupos são pequenos, a
ET é resistente à violação da normalidade. É apenas quando os grupos são
pequenos e a violação de normalidade é grosseira que a não normalidade
dos erros pode perturbar significativamente o resultado da anova.
• Homogeneidade de variâncias. A ET é também resistente à violação de
homogeneidade. A sua não validação trás problemas apenas quando
grupos com variância alta têm médias muito afastadas das restantes.
09-12-2009 N.Sousa, ESAC (c) 22
Consequências da não validação dos
pressupostos II
• Resumindo o dito atrás, há três situações em que a não validação de
pressupostos pode ter consequências gravosas:
1. Independência dos erros não é plausível. Situação de ajuizamento difícil.
Assumiremos sempre independência.
2. Violação grosseira da normalidade quando os grupos são pequenos.
3. Violação de homogeneidade quando grupos de alta variância têm médias
afastadas das restantes.
• Nos casos em que há pressupostos violados de formas menos graves,
pode-se ainda assim executar a anova paramétrica usual. Neste caso, é
apenas se os resultados estiverem na “zona cinzenta” (valores de prova
entre 1 e 10%) que se deve ter cautela na tomada de decisões (p.ex.
recolher mais dados e repetir a anova, ou usar outro tipo de anova). Fora
isso pode-se basear decisões na tabela anova com confiança.
• Quando a violação de pressupostos é grave teremos de recorrer a testes
alternativos à anova paramétrica. Existem vários na literatura, mas aqui
falaremos apenas de um, a anova sobre os postos
n
•••
1 a b 2 y ••• 2
SQint = ∑∑ y ij • − − SQα − SQβ
r i =1 j =1 n
1 a b 2 y ••• 2
SQerro = SQtotal − ∑∑ y ij • −
r
i =1 j =1 n
09-12-2009 N.Sousa, ESAC (c) 29
Regras de cálculo
Regra zero: coloque os níveis do factor α nas linhas e os níveis do factor β nas colunas
2
y ••• “Some todos os dados, eleve ao quadrado e divida por
(1) n.”
n
a b n
“Eleve cada um dos dados ao quadrado e some sobre
∑∑∑ ijk todos os dados.”
y 2
(2)
i =1 j =1 k =1
a
1
br
∑ i ••
y 2
i =1
(3) “Some todos os dados na linha i, eleve ao quadrado,
some sobre todas as linhas e divida por br.”
b
1
ar
∑ • j•
y 2
j =1
(4) “Some todos os dados na coluna j, eleve ao quadrado
e some sobre todas as colunas e divida por ar.”
1 a b 2 “Some todos os dados na linha i e coluna j, eleve ao
∑∑
r i =1 j =1
y ij • (5) quadrado, some sobre todas as linhas e colunas e
divida por r.”
Facto 4: SQα = (3) – (1) , SQβ = (4) – (1) , SQint = (5) + (1) – (3) – (4)
SQerro = (2) – (5) , SQtotal = (2) – (1)
09-12-2009 N.Sousa, ESAC (c) 30
Tabela anova de 2 factores
Fonte de Estatística de
variação SQ GL MQ
teste
SQα MQα
Nível do factor α SQα a–1 MQα = ~ > FGL1,GL 4
a −1 MQerro
SQβ MQβ
Nível do factor β SQβ b–1 MQβ = ~ > FGL 2,GL 4
b −1 MQerro
SQint MQint
Interação SQint (a-1)⋅(b-1) MQint = ~ > FGL 3,GL 4
(a − 1)(b − 1) MQerro
SQerro
Erro SQerro ab⋅ (r – 1) MQerro =
ab(r − 1)
• Conclusões: (a α = 5% de significância)
– Não existe interação significativa
– O tipo de rega não influencia o n.º de grãos
– O fertilizante tem efeitos significativos, reforçando as
conclusões da anova 1f
09-12-2009 N.Sousa, ESAC (c) 33
Diagrama de médias
• Instrumento de ajuda à visualização da resposta da variável dependente y,
como função dos níveis dos fatores.
• Pontos a cheio são médias dos 6 grupos. No eixo xx pode estar qualquer fator
n.º grãos
Rega 1
400
Rega 2
300
• Tabela da anova RT
Fonte var. SQ GL MQ F valor P F crítico
Fertilizante 1264,625 2 632,3125 8,551183 0,001151 3,31583
Rega 173,3611 1 173,3611 2,344478 0,136206 4,170877
Interação 226,6806 2 113,3403 1,532776 0,232371 3,31583
Erros 2218,333 30 73,94444
Total 3883 35