Você está na página 1de 32

An

alise de Vari
ancia simples (One way ANOVA)
Analise de experiencias com varios grupos de observacoes classificados atraves
de um s
o factor (por exemplo grupos de indivduos sujeitos a diferentes
tratamentos para uma mesma doenca).
Muitas vezes tambem se utiliza a palavra tratamento em vez de grupo e
diz-se que a experiencia tem tantos nveis ou efeitos quantos tratamentos (ou
grupos) distintos.
Se os grupos sao pre-determinados `a partida temos uma experiencia com efeitos
fixos.
Se os grupos forem escolhidos aleatoriamente entre um conjunto alargado de
possibilidades temos uma experiencia com efeitos aleat
orios.
Um planeamento diz-se completamente aleatorizado se os indivduos sao
escolhidos aleatoriamente e a distribuicao pelos grupos tambem e aleatoria.

Bioestatstica, 2007

Exemplo:
Um bi
ologo esta interessado em estudar 3 variedades diferentes de trigo. O
objectivo e averiguar se o tamanho medio dos grao se pode considerar igual
para as tres variedades. Para tal foram seleccionados 15 campos considerados
homogeneos (mesmo tipo de solo e de condicoes climaticas) que foram divididos
em tres grupos de 5, de forma aleatoria. As 3 variedades foram atribudas
aleatoriamente a cada um dos grupos de campos e ao fim de 3 meses de
crescimento foi feita uma colheita de graos de cada campo e calculado o peso
medio da cada colheita.

Bioestatstica, 2007

Planeamento equilibrado
Quando o n
umero de observacoes em cada grupo e igual diz-se que temos um
planeamento equilibrado. Por razoes de simplicidade na notacao iremos apenas
apresentar o modelo resultante de um planeamento equilibrado. Refira-se no
entanto, que os resultados sao equivalentes para outros planeamentos.

No que se segue iremos utilizar a seguinte notacao:


Temos
g grupos;
n observacoes em cada grupo (planeamento equilibrado);
total de N = gn observacoes.
Bioestatstica, 2007

An
alise de Vari
ancia simples - Efeitos fixos
As observacoes sao designadas por Yij onde i = 1, . . . , g identifica o grupo e
j = 1, . . . , n identifica a posicao de cada observacao dentro do seu grupo.
Yij = i + ij = + i + ij ,
onde
i representa a media de cada grupo,
representa a media de todos os grupos,
P
ca entre a media total e a media de cada grupo
i representa a diferen
g
( i=1 i = 0), e
ij representa um erro aleatorio de cada observacao sendo estes erros
independentes entre si.

Bioestatstica, 2007

Pressup
oe-se que
ij N (0, ), pelo que

Yij N (i, )

Isto significa que cada grupo provem de uma populacao Normal com uma certa
media i, mas todos com a mesma variancia 2.
Hip
oteses a testar
H0 : 1 = 2 = . . . = g =

vs

H1 : i 6= pelo menos para um i

vs

H1 : i 6= 0 pelo menos para um i

ou equivalentemente
H0 : 1 = 2 = . . . = g = 0

Bioestatstica, 2007

Resumindo:
Pressupostos exigidos:
1.
os
2.
3.

Temos g grupos de observacoes independentes (g amostras aleatorias) sendo


grupos independentes entre si.
Cada grupo de observacoes deve provir de uma distribuicao Normal.
A variancia das g populacoes deve ser a mesma.

Hip
oteses a testar
H0 : 1 = 2 = . . . = g =

vs

H1 : i 6= pelo menos para um i

Modelo:
Yij = i + ij = + i + ij , ij N (0, )

Bioestatstica, 2007

Ideia de base

Para testar estas hip


oteses recorre-se a uma analise das variancias dos varios
grupos e da o nome ANOVA. A ideia de base e a seguinte: Vamos estimar a
variancia 2 por dois metodos diferentes, um que nao depende da veracidade
de H0 e outro que sim. Depois comparamos as duas estimativas. Se os grupos
tiverem todos a mesma media (H0 verdadeiro) as duas estimativas deverao ser
pr
oximas, senao deverao diferir significativamente.

Bioestatstica, 2007

Uma forma de estimar 2, sem depender da veracidade de H0, consiste em


calcular para cada grupo a variancia amostral corrigida (estimativa de 2) e
tomar a media das varias estimativas que se obtem.
Se pensarmos agora que as medias sao todas iguais (H0 verdadeiro) estamos
perante um conjunto de g amostras todas da mesma populacao. Sabemos que
= 2/n e podemos obter uma amostrade g medias amostrais (uma
V ar[X]
para cada grupo). Calculando a variancia amostral desta amostrade medias
amostrais temos uma estimativa de 2/n. Multiplicando por n temos uma
estimativa de 2 .
Mas esta u
ltima estimativa so e boa se H0 for verdadeira. Senao fica muito
inflaccionada. Assim, ao dividir a u
ltima estimativa pela primeira devemos
obter um valor pr
oximo de 1 se H0 for verdadeiro e muito maior que 1 caso
contrario.

Bioestatstica, 2007

Partic
ao da soma de quadrados
Seja
n
X

yij

yi =

yi
n

g X
n
X

yij

y =

y
N

yi =

j=1

y =

i=1 j=1

SST =

g X
n
X
i=1 j=1

g X
n
X

(yij y )2 = n

|i=1 j=1 {z

SST

Bioestatstica, 2007

g
X
i=1

(yij y)2.

(
yi y )2 +
{z

SSG

g X
n
X

(yij yi)2

|i=1 j=1 {z

SSE

}
9

g X
n
X
i=1 j=1

Seja

(yij y )2 = n
{z

SST

g
X
i=1

SSG
,
M SG =
g1

(
yi y )2 +
{z

SSG

g X
n
X
i=1 j=1

(yij yi)2
{z

SSE

SSE
.
M SE =
g(n 1)

Entao,
sob H0

sob H1
2

E[M SG] =
E[M SE ] = 2

E[M SG] = +
E[M SE ] = 2

Pg

2
i=1 i

g1

SST tem N 1 = gn 1 graus de liberdade.


SSG tem g 1 graus de liberdade.
SSE tem g(n 1) graus de liberdade.
Bioestatstica, 2007

10

Pode-se mostrar que sob H0

SSG
2

g1
2

SSE
2

g(n1) ,
2

sendo estas variaveis independentes.


Assim, sob H0
M SG
Fg1,g(n1)
M SE

e podemos efectuar um teste com base nesta estatstica.


Bioestatstica, 2007

11

Tabela de ANOVA

Fonte de Variacao

Soma de
quadrados

g.l.

Media de
quadrados

Fobs

Entre Grupos

SSG

M SG

M SG
M SE

()

Dentro dos grupos

SSE

g1

Total

SST

g(n 1)

M SE

gn 1

Fobs e o valor observado da estatstica de teste F .


p e o p-value do teste.
Bioestatstica, 2007

12

Exemplo:
160 indivduos hiper-tensos divididos em 4 grupos de 40.
4 tratamentos: hiperten, captorex, novo medicamento e placebo.
20

tenso arterial

18

16

14

12

10
N=

40

placebo

40

teste

40

captorex

40

hiperten

tratamento

Bioestatstica, 2007

13

TRATAMENTO:

1,00 placebo

TRATAMENTO:

19,5

2,00 teste

17,0

19,0
16,0

valores esperados

valores esperados

18,5

18,0

17,5

17,0

15,0

14,0

13,0

16,5
12,0
16,0
15,5

11,0

15,5

16,0

16,5

17,0

17,5

18,0

18,5

19,0

19,5

11,0

12,0

valores observados

3,00 Captorex

TRATAMENTO:

17,0

17,0

16,0

16,0

15,0

14,0

13,0

16,0

17,0

4,00 Hiperten

15,0

14,0

12,0
13,0

14,0

15,0

valores observados

Bioestatstica, 2007

15,0

13,0

12,0
12,0

14,0

valores observados

valores esperados

valores esperados

TRATAMENTO:

13,0

16,0

17,0

12,0

13,0

14,0

15,0

16,0

17,0

valores observados

14

Test of Homogeneity of Variances


tenso arterial
Levene
Statistic
1,182

df1
3

df2
156

Sig.
,318

ANOVA
tenso arterial

Between Groups
Within Groups
Total

Sum of
Squares
283,126
150,923
434,049

df
3
156
159

Mean Square
94,375
,967

F
97,550

Sig.
,000

A forma habitual de apresentar os resultados de uma ANOVA num trabalho


cientfico consiste em apresentar caractersticas amostrais de cada grupo (medias
e desvios padr
oes) e depois indicar o valor observado da estatstica de teste F e
o valor do p-value da ANOVA. A tabela de ANOVA propriamente dita podera
vir em anexo.
Bioestatstica, 2007

15

An
alise de Vari
ancia simples - Efeitos aleat
orios
Modelo:
Yij = i + ij = + i + ij ,
onde i e ij sao variaveis aleatorias independentes.
ij N (0, ),

i N (0, ).

Yij N (i = + i,

2 + 2 ).

Hip
oteses a testar
H0 : 2 = 0 vs

Bioestatstica, 2007

H1 : 2 > 0.

16

Mantem-se a relacao
g X
n
X

(yij y )2 = n

|i=1 j=1 {z

SST

g
X
i=1

(
yi y )2 +
{z

SSG

g X
n
X

(yij yi)2

|i=1 j=1 {z

SSE

Agora
sob H0
E[M SG] = 2
E[M SE ] = 2
Sob H0

M SG
F =
Fg1,g(n1).
M SE

2 =

Bioestatstica, 2007

sob H1
E[M SG] = 2+n2
E[M SE ] = 2

M SG M SE
n
17

Exemplo:
Pretende-se estudar se o consumo de combustvel de um automovel da Marca A
depende da velocidade com que o automovel se desloca. Para tal seleccionaramse aleatoriamente 3 valores de velocidade e efectuou-se uma experiencia envolvendo 60 autom
oveis distribudos aleatoriamente em 3 grupos homogeneos.
9

consumo

4
N=

20

20

20

20

45

110

velocidade

Bioestatstica, 2007

18

Descriptives
consumo

Model

Fixed Effects
Random Effects

Std. Deviation
,69847

Std. Error
,09017
,15237

95% Confidence Interval for


Mean
Lower Bound
Upper Bound
6,3366
6,6977
5,8615
7,1727

BetweenComponent
Variance
,04526

ANOVA
consumo

Between Groups
Within Groups
Total

Bioestatstica, 2007

Sum of
Squares
2,786
27,808
30,594

df
2
57
59

Mean Square
1,393
,488

F
2,855

Sig.
,066

19

Comparac
oes m
ultiplas
Uma vez rejeitada H0 o que fazer para procurar identificar quais os grupos que
causam as diferencas?
Considerar todas as comparacoes de pares de medias envolvidos na ANOVA
para procurar detectar quais os grupos que provocam a rejeicao de H0 na tabela
n!
de ANOVA. Em n grupos ha 2!(n1)!
comparacoes de pares de medias distintos.
Dois problemas:
1. Calculo do nvel de significancia de cada comparacao e do nvel de significancia do conjunto de comparacoes que se esta a efectuar em simultaneo.
2. As comparacoes nao sao todas independentes.
Se uma comparacao individual tiver tamanho m, um conjunto de m comparacoes (independentes) tem tamanho = 1 (1 m)m. Por exemplo, em
20 comparacoes, se cada comparacao tiver tamanho 5%, o tamanho total e
64% que e inaceitavel.
Bioestatstica, 2007

20

Importante lembrar:
A analise de comparacoes m
ultiplas nao faz sentido nos modelos de efeitos
aleat
orios e s
o deve ser utilizada nos modelos de efeitos fixos.
A analise de comparacoes m
ultiplas so deve ser efectuada quando se rejeita H0
na tabela da ANOVA.

Existem muitos metodos para efectuar comparacoes m


ultiplas. Iremos apenas
referir alguns, nomeadamente o metodo de Bonferroni, o metodo de Tuckey e
o metodo de Dunnett.

Bioestatstica, 2007

21

M
etodo de Bonferroni
tamanho total das comparacoes m
ultiplas,
m tamanho de cada comparacao individual
Ri = {a i-esima hip
otese nula e rejeitada quando e verdadeira}.
= P {R1 ou R2 ou . . . ou Rm} mm,

O metodo de Bonferroni consiste em considerar para cada comparacao individual


um nvel de significancia m = /m por forma a garantir que o nvel total nao
ultrapassa .
Aplicando este metodo alguns dos pares que eventualmente acusavam diferencas
significativas podem deixar de o fazer.
No SPSS a tabela que e produzida para este metodo fornece p values para
cada comparacao que resultam da multiplicacao dos p-values dos testes por m.
Assim, em vez de compararmos os p-values com /m, comparamos os produtos
m p-value com .
Bioestatstica, 2007

22

Exemplo:
Multiple Comparisons
Dependent Variable: tenso arterial

LSD

(I) tratamento
placebo

teste

captorex

hiperten

Bonferroni

placebo

teste

captorex

hiperten

Bioestatstica, 2007

(J) tratamento
teste
captorex
hiperten
placebo
captorex
hiperten
placebo
teste
hiperten
placebo
teste
captorex
teste
captorex
hiperten
placebo
captorex
hiperten
placebo
teste
hiperten
placebo
teste
captorex

Mean
Difference
(I-J)
3,3540*
2,9099*
2,8540*
-3,3540*
-,4440*
-,5000*
-2,9099*
,4440*
-,0560
-2,8540*
,5000*
,0560
3,3540*
2,9099*
2,8540*
-3,3540*
-,4440
-,5000
-2,9099*
,4440
-,0560
-2,8540*
,5000
,0560

Std. Error
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994

Sig.
,000
,000
,000
,000
,045
,024
,000
,045
,800
,000
,024
,800
,000
,000
,000
,000
,271
,146
,000
,271
1,000
,000
,146
1,000

23

M
etodo de Tuckey
Construcao de intervalos de confianca para todos os pares de comparacoes de
tal forma que o conjunto de todos os intervalos tenha uma certa confianca,
1 .
|(Yi i) (Yj j )|

max
i,j
M SE
onde o maximo e calculado para todos os pares i, j. A distribuicao desta
variavel e denominada studentized range distribution com parametros g
e g(n 1).
No SPSS ap
os a tabela de comparacoes m
ultiplas e produzida uma tabela de
grupo homogeneos. Trata-se de uma tabela que subdivide os g grupos de
observacoes em sub-grupos dentro dos quais podemos considerar que as medias
nao apresentam diferencas significativas.

Bioestatstica, 2007

24

Exemplo:

Multiple Comparisons
Dependent Variable: tenso arterial
Tukey HSD

(I) tratamento
placebo

teste

captorex

hiperten

(J) tratamento
teste
captorex
hiperten
placebo
captorex
hiperten
placebo
teste
hiperten
placebo
teste
captorex

Mean
Difference
(I-J)
3,3540*
2,9099*
2,8540*
-3,3540*
-,4440
-,5000
-2,9099*
,4440
-,0560
-2,8540*
,5000
,0560

Std. Error
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994

Sig.
,000
,000
,000
,000
,185
,109
,000
,185
,994
,000
,109
,994

95% Confidence Interval


Lower Bound
Upper Bound
2,7828
3,9252
2,3388
3,4811
2,2828
3,4252
-3,9252
-2,7828
-1,0152
,1271
-1,0712
,0712
-3,4811
-2,3388
-,1271
1,0152
-,6271
,5152
-3,4252
-2,2828
-,0712
1,0712
-,5152
,6271

*. The mean difference is significant at the .05 level.

Bioestatstica, 2007

25

Teste de Dunnett
Por vezes o objectivo de uma analise de comparacoes m
ultiplas e o de comparar
um grupo particular (muitas vezes o chamado grupo de controlo) com cada um
dos restantes grupo. Neste caso temos apenas g 1 comparacoes a efectuar e
Dunnett prop
os um procedimento para este efeito. A estatstica sugerida por
Dunnett e semelhante `a de Tuckey e os valores crticos encontram-se tabelados.
Este teste esta disponvel no SPSS na mesma janela dos testes de Bonferroni e
de Tuckey: menu Analyze / Compare means / One way ANOVA botao Post
Hoc.

Bioestatstica, 2007

26

Exemplo:
Multiple Comparisons
Dependent Variable: tenso arterial
Dunnett t (2-sided)a

(I) tratamento
teste
captorex
hiperten

(J) tratamento
placebo
placebo
placebo

Mean
Difference
(I-J)
-3,35399*
-2,90994*
-2,85399*

Std. Error
,21994
,21994
,21994

Sig.
,000
,000
,000

95% Confidence Interval


Lower Bound
Upper Bound
-3,8757
-2,8323
-3,4317
-2,3882
-3,3757
-2,3323

*. The mean difference is significant at the .05 level.


a. Dunnett t-tests treat one group as a control, and compare all other groups against it.

Bioestatstica, 2007

27

ANOVA simples n
ao param
etrica Teste de Kruskal-Wallis
Temos
g grupos;
ni observacoes no grupo i;
total de N =

Pg

i=1 ni

observacoes.

Yij = i + ij ,
i = 1, . . . , g, j = 1 . . . , nj onde os erros ij sao v.a.s contnuas com a mesma
distribuicao, e i representa a mediana do grupo i.
Bioestatstica, 2007

28

Pressupostos exigidos:
1.
os
2.
3.
4.

Temos g grupos de observacoes independentes (g amostras aleatorias) sendo


grupos independentes entre si.
As observacoes sao medidas numa escala pelo menos ordinal.
Cada grupo de observacoes deve provir de uma populacao contnua.
As populacoes apenas diferem na localizacao (portanto tem a mesma forma).

Hip
otese a testar
H0 : 1 = 2 = . . . = g =

vs

H1 : i 6= pelo menos para um i,

onde i representa a mediana do grupo i.


Bioestatstica, 2007

29

Procedimento:
Ordenar o total das N observacoes em conjunto, e atribuir ranks `as observacoes.
i a soma e a media
Seja Rij o rank da observacao Yij . Denote-se por Ri e R
dos ranks do grupo i, respectivamente. A Estatstica de teste e dada por

T =

12
N (N + 1)

g
X

i N + 1
ni R
2
i=1

2

12
N (N + 1)

g
X
R2

i=1

ni

3(N 1).

T tem distribuicao aproximadamente 2 com g 1 graus de liberdade, sob H0.


Portanto rejeita-se H0 se T > 1,g1 ao nvel de significancia .
Bioestatstica, 2007

30

Exemplo:
12

10

nivel

0
N=

10

10

10

10

1,00

2,00

3,00

4,00

10

5,00

vinho

Bioestatstica, 2007

31

Ranks

NIVEL

VINHO
1,00
2,00
3,00
4,00
5,00
Total

N
10
10
10
10
10
50

Mean Rank
28,75
22,00
26,85
20,90
29,00

Test Statisticsa,b

Chi-Square
df
Asymp. Sig.

NIVEL
2,901
4
,575

a. Kruskal Wallis Test


b. Grouping Variable: VINHO

Bioestatstica, 2007

32

Você também pode gostar