Você está na página 1de 38

ANÁLISE DE VARIÂNCIA

Anova de 1 fator
Anova de 2+ fatores
Testes de comparação múltipla
Anova sobre os postos
O que é a Análise de Variância?
• Até agora, os testes estatísticos que realizámos
incidiam sobre apenas uma população
• Análise de variância (analysis of variance – anova)
é um teste paramétrico que compara parâmetros
de várias populações; quantas quisermos
• Inventada pelo biólogo R. Fisher entre 1920 e
1930, é hoje em dia usada para comparar a
resposta de uma v.a. a tratamentos diversos

09-12-2009 N.Sousa, ESAC (c) 2


Exemplo de problema típico de anova
• Um agricultor usa 3 fertilizantes diferentes numa cultura de
milho. No fim da colheita, para cada tratamento, recolhe 6
espigas (18 no total) e conta o n.º de grãos, tendo obtido:
Fertilizante 1 332 321 353 401 329 395 Média: 355,2
Fertilizante 2 382 354 435 334 325 415 Média: 374,2
Fertilizante 3 453 399 343 459 488 482 Média: 437,3

• Pergunta: será que, estatisticamente, os fertilizantes têm


todos o mesmo efeito? Ou será que produzem efeitos
diferentes?
• i.e. serão as flutuações da média algo de normal ou
indicadoras de uma tendência?

09-12-2009 N.Sousa, ESAC (c) 3


Definições
• Ao fertilizante vamos chamar o fator e aos seus 3 níveis
os tratamentos ou grupos
• O n.º de grãos nas espigas é a variável de resposta, que
é uma v.a.
• Num caso geral, a pergunta a que a anova responde é:
“Será que o tratamento influencia a variável de
resposta?”
• Anova diz:
– “Sim, estatisticamente, há diferenças significativas entre os
diferentes tratamentos”, OU...
– “Não, estatisticamente, não há diferenças significativas
entre tratamentos.”

09-12-2009 N.Sousa, ESAC (c) 4


Modelo anova de efeitos fixos
• Para elaborar um teste estatístico, há que formular uma relação
entre os níveis do fator (i.e. tratamentos) e a variável de resposta
• A anova assume uma relação do tipo (i = 1 ... a , j = 1 ... ni)
y ij = µi + Eij
• yij : j-ésima observação do tratamento i
• µi : efeito do tratamento i (valor fixo)
• Eij : erro, uma v.a., associada à observação yij (valor não fixo!)
• É o erro que dá carácter aleatório a y e que impede ver a olho nu se
há diferença entre tratamentos!
• Existem vários tipos de anova (efeitos fixos, variáveis, mistos, etc.),
que se distinguem por diferentes relações entre a variável de
resposta e os tratamentos e erros, e que dão resposta a diferentes
tipos de problema. Estudaremos apenas anovas de efeitos fixos.

09-12-2009 N.Sousa, ESAC (c) 5


Hipóteses em jogo
• Para o modelo de efeitos fixos yij = µi + Eij , o teste
anova coloca frente-a-frente as seguintes
hipóteses:
H0: estatisticamente, os vários tratamentos são
todos iguais:
µ1 = µ2 = µ3 = ... = µa
vs.
H1: existe pelo menos um tratamento com efeito
diferente dos outros
∃ i,j : µi ≠ µj
09-12-2009 N.Sousa, ESAC (c) 6
Pressupostos da anova
• A análise estatística exige que o erro Eij seja uma
variável aleatória...
– independente e identicamente distribuída, e...
– cuja distribuição seja normal: Eij ~ > IN (0,σ 2 )
• Para verificar a normalidade: teste de Shapiro-Wilk
• Para verificar homogeneidade da variância: teste de Levene
• Se estes pressupostos de normalidade e/ou
homogeneidade não forem satisfeitos, as
conclusões do teste anova poderão ser inváidas
– Alternativa para o caso dos pressupostos não serem
validados: anova sobre os postos (anova on ranks)
09-12-2009 N.Sousa, ESAC (c) 7
Filosofia do teste anova
• A dispersão das observações pode acontecer por
duas razões: o erro e o tratamento
• A anova tenta ver se por detrás da dispersão
causada pelos erros se consegue reconhecer um
padrão de diferença entre os tratamentos
• Ou seja, a anova testa se é estatisticamente
plausível que a variância global das observações
possa vir apenas pelos erros, ou se, por outro
lado, há sinais claros que a variância global não
pode ser completamente explicada sem uma
contribuição adicional do fator tratamento

09-12-2009 N.Sousa, ESAC (c) 8


Glossário e definições preliminares
• Notação dos pontinhos: se um índice tem um pontinho em
vez de uma letra, isso significa: “Somar sobre todos os
valores que essa letra pode tomar, antes de executar
qualquer outra operação!” Exemplos:
2 2
 ni
  a ni

y = ( y i • ) =  ∑ y ij  ,
2
i•
2
y = ( y •• ) =  ∑∑ y ij 
2
••
2

 j =1   i =1 j =1 
• a = n.º de tratamentos
• ni = n.º de observações do tratamento i
• n = n.º total de observações
• SQ: soma quadrática
• GL: graus de liberdade
• MQ: média quadrática
09-12-2009 N.Sousa, ESAC (c) 9
Identidades das somas quadráticas
• Facto 1: a variabilidade total dos dados pode ser escrita como a
soma de dois termos, um devido ao erro e o outro devido ao
tratamento: (SQ = “soma quadrática”)
a ni
SQtotal = ∑∑ ( y ij − y )2 = SQerros + SQtratamentos
i =1 j =1
• Para a definir a estatística de teste da anova precisaremos de
SQerros e SQtratamentos. Todas estas somas quadráticas são fáceis
de obter recorrendo ao Facto 2:
 a y i2•  y ••2  a ni 2  y ••2
SQtratamentos = ∑ − SQtotal =  ∑∑ y ij  −
 i =1 ni  n  i =1 j =1  n
 a ni 2   a y i2• 
SQerros =  ∑∑ y ij  −  ∑ 
n
 i =1 j =1   i =1 i 
09-12-2009 N.Sousa, ESAC (c) 10
Tradução para português do Facto 2
y ••2
1. Termo : “Some todas as n medições, eleve ao quadrado e
n
divida por a. Chame ao resultado (1).”
a ni
2. Termo ∑∑ ij : “Pegue em cada uma das n medições,
y 2

i =1 j =1
eleve-a ao quadrado e some sobre todas elas. Chame-lhe (2).”
a
y i2•
3. Termo ∑ : “Some todas as ni medições dentro de um
i =1 ni
grupo, eleve ao quadrado, divida por ni e some sobre todos os
grupos. Chame ao resultado (3).”
4. SQtotal = (2) – (1) SQtratamentos = (3) – (1) SQerros = (2) – (3)

09-12-2009 N.Sousa, ESAC (c) 11


Estatística de teste da ANOVA
• Tabela anova de 1 fator
Estatística
Fonte de variação SQ GL MQ
de teste
SQtrat MQtrat
Entre tratamentos SQtratamentos a–1 MQtrat = F=
a −1 MQerro
Dentro dos SQerros
SQerros n–a MQerros =
tratamentos (erro) n −a

TOTAL SQtotal n–1

• Facto 3: se H0 for verdadeira, então F ~ > Fa −1,n − a


• Rejeitar H0 à significância α se Fobs > Fa −1,n − a (1 − α )
09-12-2009 N.Sousa, ESAC (c) 12
Exemplo do milho I (Excel)
• Assumindo que o exemplo do milho satisfaz os
pressupostos da ANOVA, temos, fazendo os
cálculos a 5% de significância (via Excel)
Fonte de
SQ GL MQ F valor P F crítico
variação
Entre
22204,78 2 11102,39 5,271289 0,018459 3,68232
grupos
Dentro de
31593 15 2106,2
grupos
Total 53797,78 17

• Conclusão: como Fobs > Fcrítico , rejeitar H0.


• Ou seja: existem diferenças entre os tratamentos.

09-12-2009 N.Sousa, ESAC (c) 13


Exemplo do milho II (software R)
• No software R, o aspeto de uma tabela anova é

Analysis of Variance Table

Response: milho
Df Sum Sq Mean Sq F value Pr(>F)
Tratamento 2 22204.8 11102.4 5.2713 0.01846 *
Residuals 15 31593.0 2106.2
---
Signif.codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
• Response: nome da variável resposta
• Residuals: erro
• Df: graus de liberdade (degrees of freedom)
• Sum Sq: soma quadrática (sum of squares)
• Mean sq: média quadrática (mean square)
• F value: valor observado da estatística de teste Fobs
• Pr(>F): valor de prova

09-12-2009 N.Sousa, ESAC (c) 14


Testes de comparação múltipla
• No exemplo anterior, a anova indicou-nos que há diferenças
significativas entre os fertilizantes
• Se há diferenças, qual é então o melhor, ou pior, deles?
• Para isso recorre-se a testes de comparação múltipla (TCM). Entre
todos os pares i,j de grupos colocamos frente-a-frente:
H0: para i,j µi = µj H0: para i,j µi – µj = 0
vs. (ou) vs.
H1: para i,j µi ≠ µj H1: para i,j µi – µj ≠ 0
• Um TCM pode ser inconclusivo: mesmo que a anova indique
diferenças, pode não se conseguir identificar o(s)
grupo(s)/tratamento(s) responsáveis por essas diferenças
• Por vezes, um estudo descritivo preliminar pode ajudar a identificar
os grupos desviantes (outliers). Pode-se fazer p.ex. as botploxs.
(Outras possibilidades: diagrama de dispersão, diagramas de
resíduos, plots QQ...)
09-12-2009 N.Sousa, ESAC (c) 15
TCM de Tukey HSD
(Honest significant difference)
• Software estatístico apresenta normalmente os testes TCM como
intervalos de confiança
• Para o teste de Tukey, o IC para a diferença de médias é

1 1 1 
ICTukey : ( y i − y j ) ± qa,n − a (1 − α ) MQerro ⋅  + 
2  ni n j 
• Para cada par de grupos i,j constrói-se um IC para a diferença de médias:
– Se o IC contiver o valor zero, não há diferenças estatisticamente significativas
entre as médias µi ,µj
– Se o IC não contiver o valor zero, então há diferenças significativas
– Construir tabela com todos os pares e identificar grupos desviantes
• A significância α no teste de Tukey é global: a probabilidade de erro I é α
ao fim de todas as comparações
• qa,n − a (1 − α ) : quantil de ordem 1 – α da distribuição studentized range
com GL1 = a e GL2 = n – a graus de liberdade. Tabela T9

09-12-2009 N.Sousa, ESAC (c) 16


Teste Tukey no caso do milho
• No nosso exemplo teríamos, a 5% de significância:
Intervalo Lim inf IC Lim sup IC Contém zero? Conclusão
IC para µ1 – µ2 -87,82 49,82 Sim Tratamento 1 = Tratamento 2
IC para µ1 – µ3 -151 -13,34 Não Tratamento 1 < Tratamento 3
IC para µ2 – µ3 -132 5,56 Sim Tratamento 2 = Tratamento 3
• Vemos que:
– O IC 12 contém o zero: não é possível distinguir estatisticamente os
tratamentos 1 e 2
– O IC 13 não contém o zero: o tratamento 3 é estatisticamente superior ao 1
– O IC 23 contém o zero, este valor esteja quase a sair do IC: o tratamento 2 e 3
são, em princípio, equivalentes
• A conclusão não é óbvia, mas o tratamento 3 leva vantagem porque é
claramente superior ao 1. Na verdade, se tivéssemos aumentado a
significância para 10%, o tratamento 3 seria claramente superior ao 1 e 2.
• Se o tratamento 3 fosse muito mais caro que o 2, escolher o tratamento 2
ou 3 seria uma questão de gestão. O teste TCM de Tukey diz-nos apenas
que é claro que o 1 não deve ser o escolhido (isto tudo a α = 5%...)
09-12-2009 N.Sousa, ESAC (c) 17
Dimensão dos grupos
• A anova e os testes TCM tem potência máxima quando
as dimensões das várias amostras (correspondentes
aos diferentes grupos/tratamentos) são iguais.
• Uma anova deve ser planeada antes da execução das
medições, justamente para se tentar ter o mesmo
número de medições para cada grupo/tratamento
• Se isso não for possível, o mal menor é ter pouca
diferença entre as dimensões das amostras.
• Muita diferença entre grupos leva a perda de potência;
ou seja, a dificuldades em identificar diferenças
estatísticas entre grupos.

09-12-2009 N.Sousa, ESAC (c) 18


Fases de elaboração de uma anova
1. Delineamento e recolha dos dados
– Definição do objeto de estudo, estabelecimento das hipóteses
a testar, planeamento do n.º de medições a fazer
– Estudo descritivo preliminar (opcional)
2. Validação de pressupostos e decisão da anova a usar
– Execução dos testes de Shapiro-Wilk e Levene sobre os grupos
– Decisão sobre que anova usar (paramétrica ou por postos)
3. Tabela anova e decisão
– Elaboração da tabela via facto 2 ou por software estatístico
– Cálculo da estatística de teste e decisão estatística
4. TCM (só se a anova identificar diferenças entre grupos)
– Execução do TCM de Tukey e identificar os grupos desviantes
– Tomada de decisão empresarial

09-12-2009 N.Sousa, ESAC (c) 19


Validação da homogeneidade das
variâncias: teste de Levene
• O teste de Levene é ele próprio uma anova de 1 fator a todos os
grupos de dados
• Para executar o teste de Levene, basta fazer uma transformação nos
dados dos a grupos e correr uma anova aos dados transformados
• A transformação é, em cada grupo, substituir as observações yij
pelos seus desvios absolutos dij em relação à média desse grupo:
yi•
y ij → d ij = y ij − y i • , yi• =
ni
• Hipóteses em jogo no teste de Levene:
H0: ∀i,j : σi2 = σj2 vs. H1: ∃i,j : σi2 ≠ σj2
• Vemos que para fazer um teste anova há, na verdade, que fazer
DOIS desses testes:
1º: a do teste de Levene, que é aplicada aos dados dij, e
2º: a anova paramétrica principal, aplicada às observações yij
09-12-2009 N.Sousa, ESAC (c) 20
Exemplo: teste de Levene do milho
• Os dados dij são:
Grupo 1 23,167 34,167 2,167 45,833 26,167 39,833 Média: 28,556
Grupo 2 7,833 20,167 60,833 40,167 49,167 40,833 Média: 36,500
Grupo 3 15,667 38,333 94,333 21,667 50,667 44,667 Média: 44,222

• E a tabela anova é:
Fonte de
SQ GL MQ F valor P F crítico
variação
Entre
736,383 2 368,191 0,792 0,471 3,6823
grupos
Dentro de
6973,35 15 464,89
grupos
Total 7709,73 17

• Conclusão: o valor de prova alto (47%) indica que não há evidência estatística
para rejeitar H0 : as populações dos três grupos de dados têm a mesma
variância
09-12-2009 N.Sousa, ESAC (c) 21
Consequências da não validação dos
pressupostos I
• Violações da independência, normalidade e homogeneidade dos erros
levam ao aumento dos erros de tipo I e II. Quando isto acontece, as
conclusões da tabela anova tornam-se duvidosas e devem ser
interpretadas com reservas.
• Independência dos erros. Este pressuposto é crucial. A sua violação
praticamente inviabiliza qualquer anova. Este pressuposto é também
difícil de validar. O utilizador deve usar do seu senso comum para indagar
se no caso em mãos é, ou não, plausível haver independência dos erros.
• Normalidade dos erros. É menos importante. O cálculo da ET da anova usa
médias globais e dos grupos. Quando a dimensão dos grupos é grande (i.e.
ni > 30) o teorema do limite central diz-nos que essas médias terão
distribuição aproximadamente normal. Quando os grupos são pequenos, a
ET é resistente à violação da normalidade. É apenas quando os grupos são
pequenos e a violação de normalidade é grosseira que a não normalidade
dos erros pode perturbar significativamente o resultado da anova.
• Homogeneidade de variâncias. A ET é também resistente à violação de
homogeneidade. A sua não validação trás problemas apenas quando
grupos com variância alta têm médias muito afastadas das restantes.
09-12-2009 N.Sousa, ESAC (c) 22
Consequências da não validação dos
pressupostos II
• Resumindo o dito atrás, há três situações em que a não validação de
pressupostos pode ter consequências gravosas:
1. Independência dos erros não é plausível. Situação de ajuizamento difícil.
Assumiremos sempre independência.
2. Violação grosseira da normalidade quando os grupos são pequenos.
3. Violação de homogeneidade quando grupos de alta variância têm médias
afastadas das restantes.
• Nos casos em que há pressupostos violados de formas menos graves,
pode-se ainda assim executar a anova paramétrica usual. Neste caso, é
apenas se os resultados estiverem na “zona cinzenta” (valores de prova
entre 1 e 10%) que se deve ter cautela na tomada de decisões (p.ex.
recolher mais dados e repetir a anova, ou usar outro tipo de anova). Fora
isso pode-se basear decisões na tabela anova com confiança.
• Quando a violação de pressupostos é grave teremos de recorrer a testes
alternativos à anova paramétrica. Existem vários na literatura, mas aqui
falaremos apenas de um, a anova sobre os postos

09-12-2009 N.Sousa, ESAC (c) 23


Anova sobre os postos I
(Anova on ranks, RT anova)
• Transformação de posto (rank transformation - RT) é a
substituição dos dados yij por pela posição que os
mesmos ocupam numa amostra ordenada.
Chamaremos a estas posições Rij.
• Se houver empates nos postos: atribuir postos médios
• Anova sobre os postos é simplesmente uma anova
paramétrica usual sobre os dados Rij.
• Hipóteses da anova sobre os postos:
– H0: os grupos têm todos o mesmo posto médio vs...
– H1: há pelo menos um grupo com posto médio diferente
dos outros
• Ou seja: H0: ∀i , j : Ri = R j vs. H1: ∃i , j : Ri ≠ R j

09-12-2009 N.Sousa, ESAC (c) 24


Anova sobre os postos II
(Caso do milho, caso tal anova fosse necessária)
• Transformação de posto yij  Rij produz os dados abaixo:
Fertilizante 1 4 1 7 12 3 10 Média: 6,167
Fertilizante 2 9 8 14 5 2 13 Média: 8,5
Fertilizante 3 15 11 6 16 18 17 Média: 13,83
• Tabela anova para Rij :
Fonte de
SQ GL MQ F valor P F crítico
variação
Entre
185,3333 2 92,66667 4,64624 0,026893 3,68232
grupos
Dentro de
299,1667 15 19,94444
grupos
Total 484,5 17

• Conclusão: a anova RT reforça a ideia de que há diferenças entre grupos


• TCM de Tukey aplicável, mas a comparação é agora entre postos médios Ri
das observações dos grupos, e não entre as médias dos grupos.
09-12-2009 N.Sousa, ESAC (c) 25
Anova de 2 fatores
• A anova de 2+ fatores (ou anova fatorial) é usada quando
desejamos testar o efeito de vários fatores, cada um com
vários níveis
• Exemplo: voltando ao caso do milho, o agricultor repete a
sua experiência: 3 tipos de fertilizante, mas desta feita usa
um método de rega diferente:
– Fator 1: fertilizante (níveis: fert.1, fert.2, fert.3)
– Fator 2: tipo de rega (níveis: método 1, método 2)
• Perguntas:
1. Será que o tipo de fertilizante afeta o n.º de grãos? (Já tínhamos
visto que sim na anova de 1 fator.)
2. Será que o tipo de rega afeta o n.º de grãos?
3. Será que o tipo de rega altera o efeito do fertilizante?

09-12-2009 N.Sousa, ESAC (c) 26


Anova de 2 fatores e efeitos fixos
• Para remodelar o teste anova, de modo a incluir agora dois fatores, há que
reformular a relação entre os fatores e a variável de resposta:
• A anova de 2 fatores e efeitos fixos assume uma relação do tipo
(i = 1 ... a , j = 1 ... b , k = 1 ... r)
y ijk = µ + α i + β j + (αβ )ij + Eijk
• yijk : k-ésima observação da combinação ij dos níveis dos fatores
• µ : parâmetro global, valor fixo (na anova1f podíamos tb. ter escrito y ij = µ + α i + Eij )
• αi : efeito do nível i do fator α (fixo)
• βj : efeito do nível j do fator β (fixo)
• (αβ )ij : efeito da interação da combinação ij dos níveis dos fatores
• r : nº de dados (réplicas) na combinação ij dos níveis dos fatores (valor fixo!!)
• Eij : erro aleatório associado à observação yijk (não fixo)
• Note-se que todos os grupos de dados têm a mesma dimensão, r. Apenas
trataremos este caso. Se as amostras forem desequilibradas uma análise
manual exige demasiados cálculos e torna-se necessário recorrer a software
estatístico.
09-12-2009 N.Sousa, ESAC (c) 27
Anova de 2 fatores:
pressupostos e hipóteses testadas
• Os pressupostos da anova 2f são os mesmos da anova 1f: erros
independentes, normais e identicamente distribuídos: Eijk ~ > IN (0,σ 2 )
• O modelo anova 2f de efeitos fixos testa três hipóteses:
1. H0: não existe interação entre fatores : (αβ )ij = 0 para todo i,j vs
H1: existe interação entre α e β : (αβ )ij ≠ 0 para pelo menos uma combinação i,j

2. H0: todos os níveis do fator α têm o mesmo efeito: αi = 0 para todo i vs


H1: nem todos os níveis de α têm o mesmo efeito: αi ≠ 0 para pelo menos um i

3. H0: todos os níveis do fator β têm o mesmo efeito: βj = 0 para todo j vs


H1: nem todos os níveis de β têm o mesmo efeito: βj ≠ 0 para pelo menos um j
• O teste à interação é o primeiro a fazer. Se a interação for significativa, as
perturbações que esta causa podem mascarar os efeitos dos fatores α e β e
retirar significado aos testes a esses fatores!!
– Pode-se usar os TCM para encontrar a combinação (αβ )ij mais vantajosa. Se se
suspeitar de interação destrutiva, considerar abandonar um dos factores
• Se a interação não existir, ou existir mas não for significativa, executam-se
depois os testes a α e β para determinar eventuais efeitos dos factores
09-12-2009 N.Sousa, ESAC (c) 28
Quantidades a calcular
• Para as estatísticas de teste, vamos precisar
das 4 somas quadráticas à esquerda:
a 2 a b n 2
1 y y
SQα = ∑ y i •• −
2 ••• SQtotal = ∑∑ ∑ y ijk2 − •••
br i =1 n i =1 j =1 k =1 n
b 2
1 y
SQβ =
ar

j =1
y •j• −
2

n
•••

 1 a b 2 y ••• 2

SQint =  ∑∑ y ij • −  − SQα − SQβ
 r i =1 j =1 n 
 1 a b 2 y ••• 2

SQerro = SQtotal −  ∑∑ y ij • − 
r
 i =1 j =1 n 
09-12-2009 N.Sousa, ESAC (c) 29
Regras de cálculo
Regra zero: coloque os níveis do factor α nas linhas e os níveis do factor β nas colunas
2
y ••• “Some todos os dados, eleve ao quadrado e divida por
(1) n.”
n
a b n
“Eleve cada um dos dados ao quadrado e some sobre
∑∑∑ ijk todos os dados.”
y 2
(2)
i =1 j =1 k =1
a
1
br
∑ i ••
y 2

i =1
(3) “Some todos os dados na linha i, eleve ao quadrado,
some sobre todas as linhas e divida por br.”
b
1
ar
∑ • j•
y 2

j =1
(4) “Some todos os dados na coluna j, eleve ao quadrado
e some sobre todas as colunas e divida por ar.”
1 a b 2 “Some todos os dados na linha i e coluna j, eleve ao
∑∑
r i =1 j =1
y ij • (5) quadrado, some sobre todas as linhas e colunas e
divida por r.”
Facto 4: SQα = (3) – (1) , SQβ = (4) – (1) , SQint = (5) + (1) – (3) – (4)
SQerro = (2) – (5) , SQtotal = (2) – (1)
09-12-2009 N.Sousa, ESAC (c) 30
Tabela anova de 2 factores
Fonte de Estatística de
variação SQ GL MQ
teste

SQα MQα
Nível do factor α SQα a–1 MQα = ~ > FGL1,GL 4
a −1 MQerro
SQβ MQβ
Nível do factor β SQβ b–1 MQβ = ~ > FGL 2,GL 4
b −1 MQerro

SQint MQint
Interação SQint (a-1)⋅(b-1) MQint = ~ > FGL 3,GL 4
(a − 1)(b − 1) MQerro

SQerro
Erro SQerro ab⋅ (r – 1) MQerro =
ab(r − 1)

total SQtotal n–1

09-12-2009 N.Sousa, ESAC (c) 31


Milho reloaded
• Depois da nova recolha de dados, temos:
Método de rega 1 Método de rega 2
Fert. 1 332 321 353 401 329 395 323 352 328 379 346 435
Fert. 2 382 354 435 334 325 415 234 234 434 220 223 329
Fert. 3 453 399 343 459 488 482 334 443 473 424 342 495

• Factor α : tipo de fertilizante


• Factor β : método de rega
• E o vencedor é…

09-12-2009 N.Sousa, ESAC (c) 32


Exemplo milho: tabela anova 2f
Fonte de
SQ GL MQ F valor P F crítico
variação
Fertilizante 64626,72 2 32313,36 9,706821 0,000561 3,31583
Rega 11808,44 1 11808,44 3,547216 0,069372 4,170877
Interação 16511,06 2 8255,528 2,479932 0,100756 3,31583
Erros 99868 30 3328,933
Total 192814,2 35

• Conclusões: (a α = 5% de significância)
– Não existe interação significativa
– O tipo de rega não influencia o n.º de grãos
– O fertilizante tem efeitos significativos, reforçando as
conclusões da anova 1f
09-12-2009 N.Sousa, ESAC (c) 33
Diagrama de médias
• Instrumento de ajuda à visualização da resposta da variável dependente y,
como função dos níveis dos fatores.
• Pontos a cheio são médias dos 6 grupos. No eixo xx pode estar qualquer fator
n.º grãos

Rega 1
400

Rega 2
300

Fert 1 Fert 2 Fert 3 Fertilizante


• Nota-se tendência clara de melhoria com Fert 3
• Rega 2 parece levar a menos grãos que rega 1, mas a anova disse-nos que
essa diferença não é estatisticamente significante
09-12-2009 N.Sousa, ESAC (c) 34
Pressupostos da anova 2f
• Como vimos atrás, e tal como no caso da anova de 1 fator, também
na anova 2f se assume que os erros são independentes, normais e
identicamente distribuídos:
Eijk ~ > IN (0,σ 2 )
• Para testar a normalidade dos erros corre-se o teste de Shapiro-wilk
aos dados em cada combinação i,j dos dois factores
• Para testar a homogeneidade das variâncias corre-se o teste de
Levene, que é uma anova de 1 factor sobre os dados
transformados. Ou seja, cada combinação i,j dos factores conta
como um grupo para o teste de Levene
– P.ex. se tivermos 3 níveis i do fator α e 4 níveis j do factor β, o teste de
Levene será uma anova de 1 fator a 12 grupos de dados,
transformados segundo
y ijk → d ijk = y ijk − y ij • , y ij • = y ij • / r
• Não executar anova paramétrica nos mesmos 3 casos
problemáticos da anova 1f (v. slide 23): passar à anova 2f por postos
09-12-2009 N.Sousa, ESAC (c) 35
Anova 2f por postos
• Basta fazer a RT. No caso do milho… (note-se o tratamento dos empates!!)
Método de rega 1 Método de rega 2
Fert. 1 11 5 18 24 9,5 22 6 17 8 20 16 28,5
Fert. 2 21 19 28,5 12,5 7 25 3,5 3,5 27 1 2 9,5
Fert. 3 31 23 15 32 35 34 12,5 30 33 26 14 36

• Tabela da anova RT
Fonte var. SQ GL MQ F valor P F crítico
Fertilizante 1264,625 2 632,3125 8,551183 0,001151 3,31583
Rega 173,3611 1 173,3611 2,344478 0,136206 4,170877
Interação 226,6806 2 113,3403 1,532776 0,232371 3,31583
Erros 2218,333 30 73,94444
Total 3883 35

• As conclusões são praticamente as mesmas da anova paramétrica.


Normalmente só há diferenças quando os pressupostos são violados de
forma grosseira (não é o caso aqui)
09-12-2009 N.Sousa, ESAC (c) 36
Cautelas com a anova 2f por postos
• Numa anova 2f sobre os postos, o teste às interações pode ser
desprovido de significado…
• Quando apenas um dos fatores (ou nenhum) é relevante, o teste às
interações é válido e fiável
• Mas quando ambos os fatores são relevantes, é sabido que a
estatística de teste das interações diverge com a raiz da dimensão
dos grupos, i.e. com r1/2
• O valor Fobs torna-se assim maior do que devia ser, aumentando o
erro I de forma inaceitável. Ou seja, o teste pode detetar existência
de interação mesmo quando ela não existe!!
• Nestes casos de tripla rejeição apenas se deve olhar ao resultado
dos testes aos fatores principais
• Num caso de tripla rejeição, se o leitor necessitar mesmo do teste
às interações terá de procurar na literatura um outro tipo de anova
não paramétrica, como p.ex. a anova ART (aligned rank transform)

09-12-2009 N.Sousa, ESAC (c) 37


Anova fatorial – caso geral
• A anova pode ser generalizada para 3 e mais fatores.
• P.ex., um modelo com 3 fatores e efeitos fixos seria…
y ijkl = µ + α i + β j + γ k + (αβ )ij + (αγ )ik + ( βγ ) jk + (αβγ )ijk + Eijkl
• Vemos aparecer três interações de 2 fatores e uma de 3 fatores!
• O cálculo manual deveras entediante e propenso a erros. É
necessário recorrer a software estatístico especializado
• A análise das conclusões é mais complexa, especialmente se as
interações forem importantes
• Fisicamente, interações relevantes de 3 ou mais fatores, como p.ex.
(αβγ ), são raras. As interações de 2 fatores são muito mais
frequentes e mais fáceis de analisar
• No caso de não validação de pressupostos, pode-se recorrer à
anova sobre os postos, sendo que o teste à interação entre fatores
com efeitos relevantes diverge, não tendo por isso significado
09-12-2009 N.Sousa, ESAC (c) 38

Você também pode gostar