Você está na página 1de 12

Anlise de Varincia (ANOVA) 1 fator

Queremos determinar se a diferena observada entre duas mdias amostrais


devida, apenas, s variaes aleatrias de uma amostra a outra, ou se os dados vm de
populaes onde as mdias so verdadeiramente diferentes. Esse um outro modo de dizer
que ns queremos descobrir se a diferena entre as mdias estatisticamente diferente. Enfim,
mesmo que ns possamos concluir que as mdias so diferentes, ns tambm temos de decidir
se elas diferem o suficiente para poderem ser consideradas de importncia prtica (clnica).
Vamos considerar trs situaes (A, B e C) onde os grupos Controle e Tratado
apresentam a mesma mdia amostral, porm, diferem em termos de variabilidade (em
disperso, ou seja, em desvio-padro).

m m

caso C

caso B

caso A

10
9
8
7
6
5
4
3
2
1
0

C = grupo controle
T = grupo tratado
Caso A: duas mdias diferentes (no podemos dizer outra coisa, seno que diferem
numericamente).
Caso B: as mesmas duas mdias (de A) com valores bem dispersos (a diferena no
estatisticamente significante). Devido disperso, a diferena no muito convincente.
Caso C: as mesmas mdias (as duas de A e B) com valores concentrados (prximos ao valor
mdio). Nesse caso, h diferena estatisticamente significante.

O teste t (de Student) para a diferena entre duas mdias um caso especial de anlise de
varincia (ANOVA 1 fator). A frmula para t pode ser expressa para F. Vale a relao: F = t 2.

2
O problema como decidir quando as mdias so diferentes, em relao
disperso dos valores em cada grupo, a fim de concluir se h diferena estatisticamente
significante entre as mdias.
A anlise de varincia ajuda-nos a responder esta questo.
O que temos a fazer descobrir um modo de avaliar (medir) numericamente o
quo diferentes so as mdias e quanto as observaes se afastam (encontram-se dispersas) ao
redor das respectivas mdias.
Com essas duas medidas (avaliaes) nossa disposio, somos capazes de dizer
se as mdias diferem significantemente ou no.
A idia da Anlise de Varincia
Esta a idia principal para a comparao de mdias: o que importa no o quanto
as mdias amostrais esto distantes , mas o quo distantes esto relativamente variabilidade
de observaes individuais.
A ANOVA compara a variao resultante de fontes especficas com a variao
entre indivduos que deveriam ser semelhantes. Em particular, a ANOVA testa se vrias
populaes tm a mesma mdia, comparando o afastamento entre as mdias amostrais com a
variao existente dentro das amostras.
A ANOVA pressupe que podemos decompor cada valor observado em trs termos
aditivos; ou seja, ns somos capazes de escrever cada observao como uma soma de trs
termos. A decomposio pode ser escrita como:
Valor obtido (x) = mdia geral () + desvio da mdia do grupo em relao mdia geral ( x ) + desvio (ij ) entre o valor observado em relao mdia do grupo ( x - x ) ou
Data = fit + residue (error)
O modelo formal de ANOVA (1 fator ) : xij = + ij + ij

xij so os valores observados em cada grupo


i refere-se ao grupo
j refere-se observao dentro do grupo
uma constante ( a mdia geral)
so os termos residuais (diferena entre o valor observado e o fit, modelo ajustado)

Observao.
Suposies do modelo ANOVA:
(i)
todas as populaes tm o mesmo desvio padro , de valor desconhecido;
(ii) os resduos devem seguir uma curva normal com mdia igual a zero e varincia 2.
A estatstica F da ANOVA
F = variao (entre mdias amostrais)

variao (entre indivduos dentro das amostras)

As medidas de variao no numerador e denominador de F so chamadas de mdias


quadrticas. Uma mdia quadrtica uma forma mais geral de uma varincia amostral. Uma
varincia amostral usual s2 uma mdia dos desvios quadrticos das observaes a partir de
suas mdias, logo se qualifica de mdia quadrtica.
A estatstica F testa a hiptese nula de que todas as I populaes tm a mesma mdia:
Ho: 1 = 2 = 3= .. = G
Ha: nem todos os so iguais
Sob Hiptese Ho, ento, a estatstica F tem distribuio F com G-1 e N-G graus de
liberdade.

4
Exemplo resolvido:
Na Tabela 1, mostrada a seguir, temos cinco grupos com cinco observaes em cada
grupo. Queremos saber as diferenas nas mdias amostrais so variaes aleatrias que
ocorrem apenas devido ao acaso (just by chance) ou se existem diferenas sistemticas entre
as mdias.
Tabela 1. Dados obtidos em cinco grupos num experimento inteiramente casualizado com
cinco rplicas.
B
C
D
E
A
6
7
4
5
3
6
8
4
5
4
6
8
5
6
4
8
8
6
6
4
9
9
6
8
5
x
mdias amostrais ( )
7
8
5
6
4
mdia geral = 6
Observao:
Primeira regra de anlise de dados: make a picture
Segunda regra de anlise de dados: make a picture
Terceira regra de anlise de dados: make a picture
assim, um dot plot, e/ou um box-plot e/ou ou histograma convm serem apresentados!

Dotplot of Valores vs Grupos

Grupos

B
C
D

5
6
Valores

Mean
Mean +- 1 StDev

Dotplot for A-E

E
D
C
B
A

Descriptive Statistics: A, B, C, D, E
Grupos
A
B
C
D
E

N
5
5
5
5
5

10

Mdia DP CoefVar (%)


7.000 1.414
20.20
8.000 0.707
8.84
5.000 1.000
20.00
6.000 1.225
20.41
4.000 0.707
17.68
Obs.: 1.414 o dobro de 0.707

6
Resoluo:

SQ entre grupos: n( x - )2

Grupo A
Incio
6
6
6
6
6

Efeito
tratamento
+1
+1
+1
+1
+1

Grupo
(-x-)
7
7
7
7
7

Efeito
tratamento
+2
+2
+2
+2
+2

Grupo
(-x-)
8
8
8
8
8

Efeito
tratamento
-1
-1
-1
-1
-1

Grupo
(-x-)
5
5
5
5
5

Efeito
tratamento
0
0
0
0
0

Grupo
(-x-)
6
6
6
6
6

Efeito
tratamento
-2
-2
-2
-2
-2

Grupo
(-x-)
4
4
4
4
4

Resduo (jogo)

Final

-1
-1
-1
+1
+2

6
6
6
8
9

1
1
1
1
4

Resduo (jogo)

Final

-1
0
0
0
+1

7
8
8
8
9

1
0
0
0
1

Resduo (jogo)

Final

-1
-1
0
+1
+1

4
4
5
6
6

1
1
0
1
1

Resduo (jogo)

Final

-1
-1
0
0
+2

5
5
6
6
8

1
1
0
0
4

Resduo (jogo)

Final

-1
0
0
0
+1

3
4
4
4
5

1
0
0
0
1

5 (1)2

Grupo B
Incio
6
6
6
6
6

5(2)2

Grupo C
Incio
6
6
6
6
6

5(-1)2

Grupo D
Incio
6
6
6
6
6

5(0)2

Grupo E
Incio
6
6
6
6
6

5(4-6)2 = 5(-2)2

Clculo da Soma de Quadrados

7
SQ Entre grupos =SQE = 5 [12 +22 + (-1)2 + 02 + (-2)2] = 50
SQ Dentro dos grupos = SQD = 2 = 22.
2 = (-1)2 +(-1)2+ (-1)2+ (1)2+ (2)2 + (-1)2+ (0)2 +(0)2+(0)+(1)2 +
(-1)2+(-1)2+(0)2+(1)2+(1)2
+ (-1)2 + (-1)2+(0)2+(0)2+(2)2 +
(-1)2+(0)2+(0)2+(0)2+(1)2 =
2 = 8+ 2 + 4 + 6 + 2 = 22
SQT = Soma de Quadrados Total = SQE + SQD = 50 + 22 = 72
SQT = (x x :mdia geral )2 =
SQT = (x mdia geral )2 = (6-6)2 + (6-6)2 + (6-6)2 +(8-6)2 +(9-6)2 +(7-6)2 + ... +(4-6)2 + (56)2 = 72
(esse valor representa a soma de 25 valores de desvios elevados ao quadrados)
Efetue o teste de Normalidade dos resduos e/ou avaliao grfica.
Observao.
Suposio do modelo ANOVA:
(i)
todas as populaes tm o mesmo desvio padro , de valor desconhecido;
(ii) os resduos devem seguir uma curva normal com mdia igual a zero e varincia 2.

8
Residual Plots for A, B, C, D, E
Normal Probability Plot

Residuals Versus the Fitted Values


N
AD
P-Value

90
50
10
1

25
1.493
<0.005

2
Residual

Percent

99

1
0
-1

-2

-1
0
1
Residual

6
7
Fitted Value

Histogram of the Residuals

Frequency

16
12
8
4
0

-1.0

0.5
Residual

2.0

Nesse nosso caso, estamos diante de um mau exemplo, porque os resduos no seguem
uma distribuio Normal com mdia igual a zero.
O que fazer, ento?
Uma soluo seria submeter os dados a uma transformao logartmica. Outra
possibilidade seria efetuar um teste no paramtrico (anova de Kruskal-Wallis).
Para prosseguirmos em nosso exemplo didtico, vamos fazer de conta que os resduos
seguem uma distribuio Normal, pois o teste F da ANOVA um procedimento robusto. E o
que importa a normalidade das mdias amostrais; assim, a ANOVA torna-se mais segura
medida que os tamanhos das amostras aumentam, devido ao efeito do teorema central do
limite. Quando no houver valores atpicos ( esse o nosso caso) e as distribuies forem
aproximadamente simtricas, podemos usar a ANOVA com segurana para tamanhos de
amostras bem pequenos, como 4 ou 5.
A ANOVA considera que a variabilidade das observaes, medida pelo desvio padro,
seja a mesma em todas as populaes. No fcil verificar a suposio de as populaes
terem desvios-padro iguais. Testes estatsticos de igualdade dos desvios-padro so to

9
sensveis ausncia de normalidade que, na prtica, tm pouco valor. A soluo contar com
a robustez da ANOVA.
Qual a gravidade de os desvios-padro serem desiguais? A ANOVA no muito
sensvel a violaes da suposio, particularmente quando todas as amostras tm tamanhos
iguais ou semelhantes e nenhuma das amostras muito pequena. Ao planejar um estudo, tente
tomar amostras do mesmo tamanho de todos os grupos que pretende comparar. Os desviospadro amostrais estimam os desvios-padro da populao, logo, certifique-se antes de fazer a
ANOVA de que os desvios-padro amostrais so semelhantes entre si. Espera-se que haja certa
variao entre eles devido ao acaso. A seguir apresentamos uma regra prtica que segura em
quase todas as situaes:
Verificao dos Desvios-Padro na ANOVA:
Os resultados do teste F da ANOVA so aproximadamente corretos quando o maior desviopadro amostral no for mais do que duas vezes do que o menor desvio-padro amostral.
]
Um desvio-padro grande muitas vezes ocorre devido a valores atpicos ou assimetria.

Continuemos com a resoluo de nosso exemplo...


Frmulas ANOVA 1 fator
Varincia = SQ/ n
QM = quadrado mdio = varincia = SQ/gl

Entre grupos:
SQ entre/ gl entre = SQ entre grupos/ g-1
No nosso exemplo g=5 e SQ eg = 50 logo, QM entre grupos = 50/4 = 12,50

Dentre grupos (resduo):


SQ dentro/ gl dentro = SQ dentro resduo/ N-g
No nosso exemplo gl = N-g = 25-5 = 20 (5 grupos com n=5)
Logo: QM dentro resduo = 22/20 = 1,1

10
A nossa hiptese (Ho) : sendo as mdias nas populaes das quais procedem as
amostras iguais, qual a probabilidade de obtermos valores Fcalculado to extremos?

Fcalculado = QMentre/ QMdentro = 12,5 / 1,1 = 11,36


O p-valor quantifica a discrepncia entre os dados e Ho: se a probabilidade de F
to discrepante ou mais que Ho.
A nossa hiptese em investigao (ou em estudo) se as mdias diferem
estatisticamente. Usualmente expressa a hiptese estatstica de nulidade (ou igualdade)
assim:

Ho: A = B = C = D = E.
A rigor, Ho, no um teste para verificar a probabilidade de igualdade das mdias,

mas sim para verificar a probabilidade de ocorrncia da estatstica F tendo como condio
verdadeira o fato de que essas amostras procedem de populaes que apresentam o mesmo
valor mdio (no nosso exemplo, = 6). (Ho: hiptese onde quaisquer diferenas encontradas
so devido ao acaso).
Em nosso exemplo, a hiptese em investigao no coincide com a hiptese
estatstica de nulidade (Ho). Assim, se rejeitarmos Ho, ento se pode inferir com cautela que
h uma diferena sistemtica atuando, o que explica a diferena entre os valores amostrais
melhor do que a ao do acaso.
Os resultados obtidos so apresentados de forma resumida na tabela 2:
Tabela 2. ANOVA (1 fator) para os dados da Tabela 1.
Fonte de variao (ou efeito)
Entre grupos
Dentro (resduo)
Total
*p< 0,05

gl

SQ

QM

4
20
24

50
22
72

12,5
1,1

Razo
F
11,36

p-valor
0,00006*

11

Clculo do p-valor associado estatstica F.


Procedimento no Minitab.
Numa tabela F encontrada nos livros de estatstica, obtemos F

gl (4:20)

= 2,87 para

5%. A estatstica F razo de varincia foi calculada. Ela ocorre muito ou pouco num
mecanismo de pura chance (diferenas amostrais devido ao acaso)?
Se uma observao rara (improvvel) sob determinada hiptese (Ho), ento
evidncia contra essa hiptese.
No Minitab (comando CTR + L) temos de digitar o comando CDF (cumulative
distribution function) e, a seguir, o valor da estatstica F calculada para indicar que estamos
considerando a distribuio F e, no por exemplo a Normal. Numa outra linha, os nmeros de
graus de liberdade das varincias entre os grupos (numerador) e dentro dos grupos
(denominador). A constante k1 representa a probabilidade de - at F (= 2.87) e o p-valor a
parte da curva que falta para 100% de probabilidade (rea total da curva); por esse motivo,
para se obter o p-valor, rea do que falta, temos de subtrair do total. O programa Minitab vai
armazenar esse resultado como constante k2
Se quisermos testar esses comandos (como garantia):
Edit>> Command Line Editor:
cdf 2.87 k1;
F 4 20.
let k2 = 1 k1
print k2
( X) Submit Commands:
nesse caso temos p-valor = k2 = 0.05 confirmando como verdadeira a Tabela F.

12
Curva F
gl (numerador) = 4
gl (denominador) = 20

CDF
0.7
0.6
0.5
0.4
0.3
0.2

5%

0.1
0.0

2.87

F calculado (= 11.36) maior que F (= 2.87) tabelado a 5%, ento, rejeita-se Ho

Para se obter o p-valor associado estatstica Fgl(4;20) = 11.36


Edit>> Command Line Editor:
cdf 11.36 k1;
F 4 20.
let k2 = 1 k1
print k2
A resposta ser k2 = p-valor =1-p (=k1) = 0,00006 = < 5%, logo rejeita-se Ho.
Concluso. H evidncia amostral de que as cinco mdias diferem do
ponto de vista estatstico.