Você está na página 1de 11

Anlise de Varincia

Introduo

Anlise de Varincia

 Rejane Sobrino Pinheiro


 Tania Guilln de Torres

 Modelos de anlise de varincia constituem uma classe de modelos


que relacionam uma varivel resposta contnua com variveis
independentes categricas nominais.
 Na verdade, os modelos focam a anlise das mdias e a variabilidade
entre estas mdias.
 As covariveis nos modelos ANOVA designam pertinncia a grupo,
por exemplo raa, gnero, situao de residncia, tipo de tratamento,
situao empregatcia etc.
 Tais covariveis so denominadas fatores ou variveis de classe.
 Determinados valores assumidos por um fator so chamados de
nveis deste fator.
Exemplo:
Genero:
Situao de residncia:
0 = Feminino 1 = Masculino
1 = rural; 2 = subrbio; 3 = urbana

Introduo
 Covariveis deste tipo so especiais, pois a atribuio de valores
numricos arbitrria, representam cdigos apenas.
 Na regresso, diversos so os tipos das variveis independentes
(nominais, ordinais e contnuas).

 A abordagem usada nos modelos de anlise de varincia so


idnticos abordagem usada em anlise de regresso:
 Descrio dos dados
 Formulao do Modelo

 Na ANOVA, os fatores so todos variveis nominais pode ser


pensada como caso especial da anlise de regresso. Porm, permite
anlise sob uma tica diferente.

 Ajuste do modelo e estimativa dos parmetros

Nmero de Fatores

 Anlise de resduos

Modelos ANOVA so classificados segundo o nmero de fatores:


 1 fator one-way ANOVA
 2 fatores two-way ANOVA
 3 fatores three-way ANOVA

 Anlise de varincia (deviance) e inferncia

Existem diferenas de foco nos modelos ANOVA devidos a diferenas


entre fatores e covariveis numricas:
1. Avaliao de diferenas entre grupos e no a associao entre
varivel resposta e covariveis generalizao de um teste-t de
Student para 2 amostras.
2. Nos modelos two-way ANOVA (e maiores), o foco na interao
entre os fatores: O efeito de um fator na varivel resposta muda
para diferentes nveis de outro fator?
fator A = nvel da droga X (1 = controle, 2 = tratamento)
fator B = gnero (1 = masculino, 2 = feminino).

4. Em ANOVA, so realizados muitos testes de significncia para o


mesmo conjunto de dados. Este fato leva ao problema de mltiplas
comparaes e similar ao problema de obteno de intervalos de
confiana para um grande nmero de parmetros numa anlise de
regresso.


O Teste T e apropriado para comparar mdias de dois grupos, quando a


varivel resposta continua.

Comparao de mdias de trs grupos ou mais mais difcil. A tendncia


natural realizar testes T pares de grupos.

Por exemplo a comparao de mdias de 4 grupos nos levaria a realizar 6


testes T (G1 vs. G2, G1 vs. G3, G1 vs. G4, G2 vs. G3, G2 vs. G4, G3 vs.
G4).

Com a anlise de varincia de um fator possvel calcular um nico valorp que responda a pergunta: as mdias dos grupos so iguais?

O valor-p determinado pela variao entre as mdias, o desvio padro


dentro dos grupos e o tamanho das amostras.

(tratamento - controle) masculino = (tratamento - controle) feminino

3. Uma vez que a atribuio dos valores aos nveis de um fator


(categorias) arbitrria, a interpretao das estimativas difere da
interpretao obtida na anlise de regresso. O uso de variveis
dummy unificam metodologicamente.

One Way ANOVA


Suponha que temos p grupos e ni observaes para a varivel resposta
Y no grupo i.

Onde: Yij a j-sima observao do grupo i.

 Anlise exploratria preliminar inclui mdia dos grupos e box plot


para cada grupo. Isto auxilia na visualizao a grosso modo sobre a
igualdade dos grupos e uma avaliao grosseira sobre a
variabilidade intra grupo e entre grupos.

No Stata - banco: ascorbic0.dta

No Stata - banco: ascorbic0.dta

Summaries, tables & test  Tables  Tables of summary statistics (table)

Graphics  Tables  Tables of summary statistics (table)

25

pm
1
1
1
1
1
1
1
2
2
2
2
2
2
2
3
3
3
3
3
3
3

. table pm, contents( median aac mean aac sd aac )

20

aac
19.63
16.25
19.09
14.29
19.1
15.09
16.61
20.06
20.64
18.38
18
19.47
19.07
19.56
25.02
22.74
23.27
20.04
24.04
26.23
23.37

15

---------------------------------------------pm |
med(aac)
mean(aac)
sd(aac)
----------+----------------------------------1 |
16.61
17.15143
2.130778
2 |
19.47
19.31143
.918158
3 |
23.37
23.53
1.94369
----------------------------------------------

Graphs by pm

Estimativas do modelo ajustado


Modelo
Assume-se que as observaes yij so:

Yij = i + e ij

 representativos da populao

Y ij = + i + e ij

 independentes,





 normalmente distribudas

 mdia global, todos os valores em conjunto [ YG ]

 com varincia constante .

i  diferena entre a mdia do grupo i e a mdia global [ Y i Y G ]


eij  termo de erro de cada observao individualmente

A parte sistemtica do modelo a mdia i (populao) Yi


mdia da amostra.
O principal interesse a anlise da diferena entre as mdias dos
grupos.
Analisa-se se a variabilidade interna a cada grupo muito diferente da
variabilidade entre as mdias dos diferentes grupos.

eij ~ N (0, 2)
Ou:

Yij = Yi
Yij = Yij + e ij

(resposta observada = ajuste + resduo)

Escolhe-se a estimativa que minimiza os mnimos quadrados dos resduos:


SSE =

ni

i =1

j =1

( Y ij Yij ) 2

Teste de Hiptese da ANOVA:


H0: 1 = 2 = ... = k
H1: nem todos os i so iguais
Ou:

H0: 1 = 2 = ... = k = 0
H1: pelo menos 1 i 0

Utiliza-se o teste F. Onde o desvio de cada observao Yij para a


mdia global YG pode ser representada por:

Y ij Y G
desvio entre
observao e a
mdia global

( Y ij Y i )
desvio entre
observao e a
mdia do seu
grupo

(Y i Y G )
desvio entre a
mdia de cada
grupos e a
mdia global

variabilidade
intra - grupo

variabilidade
entre - grupos

Teste F

Soma dos quadrados dos desvios:


k

ni

( Y ij Y G )

i =1 j =1

(Y i Y G )

i =1

SST

SSE

ni

(Y ij Y i )

i =1 j =1

SSR
=
MSR =
k 1

(Y

k 1

MSE =

SSR

 Se a variabilidade entre grupos grande e a variabilidade intragrupos pequena, a hiptese H0 pode ser rejeitada
 mdias dos grupos so diferentes.
 Se a variabilidade entre grupos for pequena e a variabilidade intragrupos for grande, ento H0 pode ser aceita
 mdias dos grupos so as mesmas.

SSR

MSR
MSE

SSE
i =1 j =1
=
N k
N k

( SST SSE )

( k 1)
F =
=
SSE /( N k )

F =

ni

(Yij

YG ) 2

( k 1)
SSE /( N k )

Rejeita-se H0 se

F Fk-1,n-k,1-

Yi ) 2

Tabela ANOVA

Anlise dos resduos

e ij = Y ij Yij = Y ij Yi
Se ij =

eij

resduo padronizado

S eij

 Histograma e boxplot geral dos resduos padronizados, permitem


avaliar pressuposto de normalidade e avaliar presena de possveis
outliers
 Boxplots dos resduos por grupos ajudam a avaliar pressuposto de
igualdade de varincia nos grupos.

No Stata

No Stata

Anlise de Varincia de um Fator: Banco ascorbic0.dta"

Anlise de Varincia de um Fator:

Linear Models and related  ANOVA


 ONE-WAY ANOVA

. oneway aac pm, tabulate

Banco ascorbic0.dta"

|
Summary of aac
pm |
Mean
Std. Dev.
Freq.
------------+-----------------------------------1 |
17.151429
2.1307777
7
2 |
19.311428
.91815799
7
3 |
23.53
1.9436904
7
------------+-----------------------------------Total |
19.997619
3.1805078
21
Analysis of Variance
Source
SS
df
MS
F
Prob > F
-----------------------------------------------------------------------Between groups
147.345632
2
73.6728162
24.13
0.0000
Within groups
54.9669604
18
3.05372002
-----------------------------------------------------------------------Total
202.312593
20
10.1156296
Bartlett's test for equal variances:

chi2(2) =

3.7858

Prob>chi2 = 0.151

Problema da comparao mltipla

Se H0 rejeitada, podemos concluir que h diferenas entre as mdias.


Poderamos ter diversas hipteses. Para test-las, teramos k2 hipteses :

Na anlise de varincia, quando encontramos uma estatstica F significante


para um fator (tratamento, por exemplo), natural que queiramos saber
que nveis (quais tratamentos) so diferentes.

H12 = 1 = 2;

Este problema conhecido como o problema das mltiplas comparaes.

H13 = 1 = 3;

... ;

H1k = 1 = k

H23 = 2 = 3;

... ;

H2k = 2 = k

No existe uma alternativa consensual. Existem diversas formas de tratar


este problema.

Hk-1,k = k-1 = k

Consideremos o teste F:
Testar todas estas hipteses pode levar inflacionar os nveis de
significncia. Suponha que temos k hipteses a serem testadas.
Ento:

H0: 1 = 2 = ... = k

P(rejeitar pelo menos 1 de todas as k verdadeiras) =


1 - P (rejeitar nenhuma das k verdadeiras)

H1: nem todos os i so iguais

Probabilidades de obter pelo menos um valor-p significante e nveis de


significncia corrigidos nas Comparaes Mltiplas

Se as hipteses so baseadas em testes estatsticos independentes, temos:


k

P(rejeitar nenhuma das k verdadeiras) = P (de no rejeitar Hi | Hi verdadeira)


i =1

N de Hipteses Nulas
independentes

P*

0.10

0.0253

0.14

0.0170

0.19

0.0127

0.23

0.0102

0.26

0.0085

0.30

0.0073

0.34

0.0064

[1 - P(rejeitar Hi | Hi verdadeira)]

i =1

Se cada hiptese testada a um nvel de significncia , o nvel de


significncia global :
P (rejeitar pelo menos 1 de todas as k verdadeiras) = 1 - (1 - )k
Para = 0.05 e = 0.01, temos os resultados:
No. de testes

= 0.05

= 0.01

.05

.01

.10

.02

.18

.04

0.37

0.0057

10

0.40

0.0051

20

0.64

0.0026

50

0.92

0.0010

100

0.99

0.0005

P* - Probabilidade de obter pelo


menos um (p-valores 0.05)
pelo acaso.
* - Nvel de significncia das
comparaes das comparaes
mltiplas para obter um nvel
de significncia global de = 0.05

.34

.08

16

.56

.15

Nota-se o rpido aumento da probabilidade de erro Tipo I medida que o n. de testes aumenta.

32

.80

.28

Realizando um grande nmero de testes, aumenta grandemente a probabilidade de erro Tipo I.

Desigualdade de Bonferroni

. oneway aac pm, tabulate bonf


|
Summary of aac
pm |
Mean
Std. Dev.
Freq.
------------+-----------------------------------1 |
17.151429
2.1307777
7
2 |
19.311428
.91815799
7
3 |
23.53
1.9436904
7
------------+-----------------------------------Total |
19.997619
3.1805078
21

Para k hipteses H1, H2, ..., Hk:


P(rejeitar pelo menos 1) = P (rejeitar H1 H2 ... Hk)

Analysis of Variance
Source
SS
df
MS
F
Prob > F
-----------------------------------------------------------------------Between groups
147.345632
2
73.6728162
24.13
0.0000
Within groups
54.9669604
18
3.05372002
-----------------------------------------------------------------------Total
202.312593
20
10.1156296

P(rejeitar Hk)
Caso seja desejado um erro , suficiente escolher uma taxa de erro para
comparao de /k.


P(rejeitar pelo menos 1 de H1, H2, ..., Hk) + + ... + =
k
k
k

Bartlett's test for equal variances:

chi2(2) =

3.7858

Prob>chi2 = 0.151

25

Comparison of aac by pm
(Bonferroni)
Row Mean-|
Col Mean |
1
2
---------|---------------------2 |
2.16
|
0.098
|
3 |
6.37857
4.21857
|
0.000
0.001

Mean aac by pm level

P(rejeitar H1) + P(rejeitar H2) + ... +

20

15
1

. regress aac

1.5

2
pm

2.5

pm2 pm3

Source |
SS
df
MS
---------+-----------------------------Model | 147.345632
2 73.6728162
Residual | 54.9669604
18 3.05372002
---------+-----------------------------Total | 202.312593
20 10.1156296

Number of obs
F( 2,
18)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

Interpretao dos coeficientes e do modelo quando a varivel independente categrica.

21
24.13
0.0000
0.7283
0.6981
1.7475

Ajuste o modelo: altura i = + * escola i + i


. regress altura escola
Source |
SS
df
MS
-------------+-----------------------------Model | 65.0020608
1 65.0020608
Residual | 1740.25308
30
58.008436
-------------+-----------------------------Total | 1805.25514
31 58.2340368

-----------------------------------------------------------------------------aac |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------pm2 |
2.159999
.9340725
2.312
0.033
.1975859
4.122413
pm3 |
6.378572
.9340725
6.829
0.000
4.416158
8.340985
_cons |
17.15143
.660489
25.968
0.000
15.76379
18.53906
-----------------------------------------------------------------------------

Number of obs
F( 1,
30)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

32
1.12
0.2982
0.0360
0.0039
7.6163

-----------------------------------------------------------------------------altura |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------escola | -2.873018
2.714065
-1.06
0.298
-8.415878
2.669843
_cons |
144.5444
1.795185
80.52
0.000
140.8782
148.2107
------------------------------------------------------------------------------

Histograma dos resduos e boxplots por grupos


resid
4
.4

Fraction

No caso da varivel independente ser categrica o representa a mdia da altura dos alunos da escola tipo 0 =
Privada e representa a diferena da media da altura da escola rural em relao a privada (i.e. a mdia da altura

.2

dos alunos da escola rural 2.87cm menor que a mdia da altura dos alunos da escola privada.
-2

0
-4

-2

0
resid

-4
1

Total

Anlise de Covarincia ANCOVA

Anlise de Covarincia ANCOVA


 O interesse nesta tcnica pela anlise da relao de uma varivel
resposta contnua e fatores (variveis nominais), controlados por
covariveis (que podem ser variveis de qualquer tipo).

Descrio dos dados:


Temos observaes (Yij, Xi1, Xi2, ..., Xik), onde:
 Yij o j-simo valor da varivel resposta no grupo i.
 Xij o j-simo valor da covarivel no grupo i.

 As razes para a aplicao da ANCOVA so avaliar possveis


interaes, confundimento e melhorar a preciso das estimativas da
associao de interesse.

 Existem k grupos (i = 1,...,k)

 O foco determinar o efeito de fatores de interesse na varivel


resposta, ajustada por variveis de controle.

A tabela apresenta as observaes para o


grupo i, no caso de ter uma nica
covarivel X.

 A ANCOVA permite levar em conta as diferenas na distribuio das


covariveis dentro dos grupos.

 O nmero de observaes no grupo i ni.

school==0

Pobre

school==1

160

 Note que dentro de cada grupo, temos uma regresso linear simples

Rica

100

170

80

150

60

altura (cm)

 O primeiro passo na anlise exploratria seria um grfico para cada


grupo da relao varivel resposta vs covarivel.

Altura (cm)

140
130
110

120

130

140

Total
170

40
0

Total
100

160

80

150

 Se tiver na anlise mais de uma covarivel faa o grafico delas para


investigar colinearidade
 Construa tabelas das medias da varivel resposta por nveis da varivel
categrica
 Se as inclinaes parecem diferentes, isto complicar as anlises e ser
abordado mais na frente.

60
140

40

130
110

120

130

140

Graphs by Tipo de Escola

Graphs by Conteudo de proteina na dieta

. tabulate protein, summ(height)

. tabulate school, summ(height)


Tipo de
|
Summary of Altura (cm)
Escola
|
Mean
Std. Dev.
Freq.
------------+-----------------------------------Rural |
141.67143
6.1205105
14
Particul |
144.54444
8.5861196
18
------------+-----------------------------------Total |
143.2875
7.6311229
32

Conteudo de |
Summary of altura (cm)
proteina na |
dieta
|
Mean
Std. Dev.
Freq.
------------+---------------------------------Pobre |
65.557143
8.375212
14
Rica |
76.676923
14.572414
13
------------+---------------------------------Total |
70.911111
12.850661
27
altura (cm)

Altura (cm)
170

100

160

80
150

60

140

130
Rural

Idade (anos)

Idade (meses)

Particul

40
Pobre

Rica

Inclinaes Iguais

Modelo

Neste caso temos que

As variveis aleatrias Yij so independentes com distribuio normal,

1 = 2 = ... = p
Logo o componente sistemtico do modelo seria:

varincia comum 2 e
E(Yij) = ij

ij = i + xij

Yij = ij +ij ,

ou

onde ij = i + i xij representa a parte sistemtica do modelo.

30
25

O caso trivial seria quando no h diferena entre os grupos e o modelo


seria representado como: ij = + xij

20
15
10
5
0

Os outros dois casos importante ocorrem quando:

6
G1

10

12

G2

 As inclinaes so iguais : ij = i + xij


Obs. A verdadeira diferena entre os grupos medida por

 As inclinaes so diferentes : ij = i + i xij

1 - 2

Inclinaes Diferentes

Modelo

Neste caso espera-se que:


i j para algum par i j
A componente sistemtica do modelo seria expressa como:
ij = i + i xij
Neste caso o valor da diferena esperada entre os grupos depende do
valor da covarivel no qual os dois grupos esto sendo comparados.

Este tipo de anlise pode ser abordado como um problema de regresso


mltipla no qual os fatores de interesse em estudo so considerados como
variveis nominais e as covariveis poder ser medidas em qualquer escala.

60

30

50

25

40

20

30

15

20

10

10

Y = 0 + 1 X + 2 Z +3 XZ +
Onde Y representa a varivel resposta, X a covarivel, Z o fator e XZ o
termo de interao entre a covarivel e o fator.
Duas questes de interesse neste tipo de anlise so:
1. A relao linear entre Y e X a mesma para cada categoria do fator Z?
(Supondo que a regresso linear um modelo apropriado).

0
0

6
G1

8
G2

10

12

... Cont

6
G1

10

12

G2

Obs. - interao entre uma covarivel numrica e um fator significa


que a inclinao da covarivel muda entre os nveis do fator.

2. So os nveis mdios da varivel Y diferentes para cada categoria da


varivel Z, depois de levar em conta o possvel efeito confundidor da
varivel X? (X pode ter distribuio diferente nas categorias da varivel
Z)

Se b) for apropriada diremos que o grupo associado com maior reta
tem os maiores nveis mdios de Y para qualquer valor de X

Ajustando o modelo de regresso linear:


Y = 0 + 1 X + 2 Z +3 XZ +

30
25

Podemos chegar a uma das as seguintes concluses:

20
15
10

a) As linhas coincidem (i.., 2 = 3 = 0)

5
0
0

c) As linhas no so paralelas (i.., 3 0)


Estas concluses influenciam a resposta a segunda questo.
 Se a) for apropriada diremos que os grupos da varivel Z no diferem
no nvel mdio da varivel Y, quando controlada pelo efeito da
varivel X.
50
45
40
35
30
25
20
15
10
5
0

60

30

50

25

40

20

20

0
0

G1

10

12

G2

12

10

10

15

10

15

20

10

8
G2

Se c) for apropriada


e as retas no cruzam, na faixa de valores observados, diremos que o
grupo associado com a reta que apresenta a maior inclinao, tem os
maiores nveis mdios de Y para qualquer valor de X, mais a
diferena vai mudando conforme os valores de X mudam.
Se as retas cruzam diremos que um grupo tem as maiores mdias de
Y para valores pequenos de X e um outro grupo tem as maiores
mdias para valores grandes de X.
30

6
G1

b) As linhas so paralelas (i.., 2 0 e 3 = 0), ou

G1

6
G1

Tabela de anlise de Varincia

age

12

Inclinaes Iguais

Fonte de Variao g.l. Soma de Quadrados


SSX
1
Covarivel
SS(GRUPOS)
p-1
Fator: Grupos
SS(INTERAO)
p-1
Interao
SSE
n - 2p
Residuo
SST
n-1
ToTal
protein

10

G2

Tabela de anlise de Varincia

Inclinaes Diferentes

. anova height

G2

Quadrado Mdio
MSX
MS(GRUPOS)
MS(INTERAO)
MSE

Teste F
MSX / MSE
MS(GRUPOS) / MSE
MS(INTERAO ) / MSE

age*protein, cat( protein)

Number of obs =
27
Root MSE
= 2.27863

R-squared
=
Adj R-squared =

Fonte de Variao g.l. Soma de Quadrados


SSX
1
Covarivel
SS(GRUPOS)
p-1
Fator: Grupos
SSE
n - 2p
Residuo
SST
n-1
ToTal
. anova height

0.9722
0.9686

Source | Partial SS
df
MS
F
Prob > F
-----------+---------------------------------------------------Model | 4174.20658
3 1391.40219
267.98
0.0000
|
protein | 1.21710525
1 1.21710525
0.23
0.6329
age | 3188.86531
1 3188.86531
614.17
0.0000
age*protein | 280.405915
1 280.405915
54.01
0.0000
|
Residual | 119.420006
23 5.19217417
-----------+---------------------------------------------------Total | 4293.62658
26 165.139484

school

age

Quadrado Mdio
MSX
MS(GRUPOS)
MSE

Teste F
MSX / MSE
MS(GRUPOS) / MSE

age*school, cat( school)

Number of obs =
32
Root MSE
= 6.73595

R-squared
=
Adj R-squared =

0.2963
0.2209

Source | Partial SS
df
MS
F
Prob > F
-----------+---------------------------------------------------Model | 534.811372
3 178.270457
3.93
0.0185
|
school | 54.0557846
1 54.0557846
1.19
0.2844
age | 164.541893
1 164.541893
3.63
0.0672
age*school | 67.5730853
1 67.5730853
1.49
0.2325
|
Residual | 1270.44377
28 45.3729918
-----------+---------------------------------------------------Total | 1805.25514
31 58.2340368

. test school*age
Source | Partial SS
df
MS
F
Prob > F
-----------+---------------------------------------------------school*age | 67.5730853
1 67.5730853
1.49
0.2325
Residual | 1270.44377
28 45.3729918

. anova height

school

age, cat( school)


Number of obs =
32
Root MSE
= 6.79253

R-squared
=
Adj R-squared =

0.2588
0.2077

Source | Partial SS
df
MS
F
Prob > F
-----------+---------------------------------------------------Model | 467.238287
2 233.619143
5.06
0.0130
|
school | 207.932822
1 207.932822
4.51
0.0424
age | 402.236226
1 402.236226
8.72
0.0062
|
Residual | 1338.01685
29 46.1385122
-----------+---------------------------------------------------Total | 1805.25514
31 58.2340368