1 Internet Adicional

An
alise de Vari
ancia simples (One way ANOVA)
Analise de experiencias com varios grupos de observacoes classificados atraves
de um s
o factor (por exemplo grupos de indivduos sujeitos a diferentes
tratamentos para uma mesma doenca).
Muitas vezes tambem se utiliza a palavra tratamento em vez de grupo e
diz-se que a experiencia tem tantos nveis ou efeitos quantos tratamentos (ou
grupos) distintos.
Se os grupos sao pre-determinados à partida temos uma experiencia com efeitos
fixos.
Se os grupos forem escolhidos aleatoriamente entre um conjunto alargado de
possibilidades temos uma experiencia com efeitos aleat
orios.
Um planeamento diz-se completamente aleatorizado se os indivduos sao
escolhidos aleatoriamente e a distribuicao pelos grupos tambem e aleatoria.
Bioestatstica, 2007
Exemplo:
Um bi
ologo esta interessado em estudar 3 variedades diferentes de trigo. O
objectivo e averiguar se o tamanho medio dos grao se pode considerar igual
para as tres variedades. Para tal foram seleccionados 15 campos considerados
homogeneos (mesmo tipo de solo e de condicoes climaticas) que foram divididos
em tres grupos de 5, de forma aleatoria. As 3 variedades foram atribudas
aleatoriamente a cada um dos grupos de campos e ao fim de 3 meses de
crescimento foi feita uma colheita de graos de cada campo e calculado o peso
medio da cada colheita.
Bioestatstica, 2007
Planeamento equilibrado
Quando o n
umero de observacoes em cada grupo e igual diz-se que temos um
planeamento equilibrado. Por razoes de simplicidade na notacao iremos apenas
apresentar o modelo resultante de um planeamento equilibrado. Refira-se no
entanto, que os resultados sao equivalentes para outros planeamentos.
No que se segue iremos utilizar a seguinte notacao:

Temos
g grupos;
n observacoes em cada grupo (planeamento equilibrado);
total de N = gn observacoes.
Bioestatstica, 2007
An
alise de Vari
ancia simples - Efeitos fixos
As observacoes sao designadas por Yij onde i = 1, . . . , g identifica o grupo e
j = 1, . . . , n identifica a posicao de cada observacao dentro do seu grupo.
Yij = i + ij = + i + ij ,
onde
i representa a media de cada grupo,
representa a media de todos os grupos,
P
ca entre a media total e a media de cada grupo
i representa a diferen
g
( i=1 i = 0), e
ij representa um erro aleatorio de cada observacao sendo estes erros
independentes entre si.
Bioestatstica, 2007
Pressup
oe-se que
ij N (0, ), pelo que
Yij N (i, )
Isto significa que cada grupo provem de uma populacao Normal com uma certa
media i, mas todos com a mesma variancia 2.
Hip
oteses a testar
H0 : 1 = 2 = . . . = g =
vs
H1 : i 6= pelo menos para um i
vs
H1 : i 6= 0 pelo menos para um i
ou equivalentemente
H0 : 1 = 2 = . . . = g = 0
Bioestatstica, 2007
Resumindo:
Pressupostos exigidos:
1.
os
2.
3.
Temos g grupos de observacoes independentes (g amostras aleatorias) sendo

grupos independentes entre si.
Cada grupo de observacoes deve provir de uma distribuicao Normal.
A variancia das g populacoes deve ser a mesma.
Hip
oteses a testar
H0 : 1 = 2 = . . . = g =
vs
H1 : i 6= pelo menos para um i
Modelo:
Yij = i + ij = + i + ij , ij N (0, )
Bioestatstica, 2007
Ideia de base
Para testar estas hip

oteses recorre-se a uma analise das variancias dos varios
grupos e da o nome ANOVA. A ideia de base e a seguinte: Vamos estimar a
variancia 2 por dois metodos diferentes, um que nao depende da veracidade
de H0 e outro que sim. Depois comparamos as duas estimativas. Se os grupos
tiverem todos a mesma media (H0 verdadeiro) as duas estimativas deverao ser
pr
oximas, senao deverao diferir significativamente.
Bioestatstica, 2007
Uma forma de estimar 2, sem depender da veracidade de H0, consiste em

calcular para cada grupo a variancia amostral corrigida (estimativa de 2) e
tomar a media das varias estimativas que se obtem.
Se pensarmos agora que as medias sao todas iguais (H0 verdadeiro) estamos
perante um conjunto de g amostras todas da mesma populacao. Sabemos que
= 2/n e podemos obter uma amostrade g medias amostrais (uma
V ar[X]
para cada grupo). Calculando a variancia amostral desta amostrade medias
amostrais temos uma estimativa de 2/n. Multiplicando por n temos uma
estimativa de 2 .
Mas esta u
ltima estimativa so e boa se H0 for verdadeira. Senao fica muito
inflaccionada. Assim, ao dividir a u
ltima estimativa pela primeira devemos
obter um valor pr
oximo de 1 se H0 for verdadeiro e muito maior que 1 caso
contrario.
Bioestatstica, 2007
Partic
ao da soma de quadrados
Seja
n
X
yij
yi =
yi
n
g X
n
X
yij
y =
y
N
yi =
j=1
y =
i=1 j=1
SST =
g X
n
X
i=1 j=1
g X
n
X
(yij y )2 = n
|i=1 j=1 {z
SST
Bioestatstica, 2007
g
X
i=1
(yij y)2.
(
yi y )2 +
{z
SSG
g X
n
X
(yij yi)2
|i=1 j=1 {z
SSE
}
9
g X
n
X
i=1 j=1
Seja
(yij y )2 = n
{z
SST
g
X
i=1
SSG
,
M SG =
g1
(
yi y )2 +
{z
SSG
g X
n
X
i=1 j=1
(yij yi)2
{z
SSE
SSE
.
M SE =
g(n 1)
Entao,
sob H0
sob H1
2
E[M SG] =
E[M SE ] = 2
E[M SG] = +
E[M SE ] = 2
Pg
2
i=1 i
g1
SST tem N 1 = gn 1 graus de liberdade.

SSG tem g 1 graus de liberdade.
SSE tem g(n 1) graus de liberdade.
Bioestatstica, 2007
10
Pode-se mostrar que sob H0
SSG
2
g1
2
SSE
2
g(n1) ,
2
sendo estas variaveis independentes.

Assim, sob H0
M SG
Fg1,g(n1)
M SE
e podemos efectuar um teste com base nesta estatstica.

Bioestatstica, 2007
11
Tabela de ANOVA
Fonte de Variacao
Soma de
quadrados
g.l.
Media de
quadrados
Fobs
Entre Grupos
SSG
M SG
M SG
M SE
()
Dentro dos grupos
SSE
g1
Total
SST
g(n 1)
M SE
gn 1
Fobs e o valor observado da estatstica de teste F .

p e o p-value do teste.
Bioestatstica, 2007
12
Exemplo:
160 indivduos hiper-tensos divididos em 4 grupos de 40.
4 tratamentos: hiperten, captorex, novo medicamento e placebo.
20
tenso arterial
18
16
14
12
10
N=
40
placebo
40
teste
40
captorex
40
hiperten
tratamento
Bioestatstica, 2007
13
TRATAMENTO:
1,00 placebo
TRATAMENTO:
19,5
2,00 teste
17,0
19,0
16,0
valores esperados
valores esperados
18,5
18,0
17,5
17,0
15,0
14,0
13,0
16,5
12,0
16,0
15,5
11,0
15,5
16,0
16,5
17,0
17,5
18,0
18,5
19,0
19,5
11,0
12,0
valores observados
3,00 Captorex
TRATAMENTO:
17,0
17,0
16,0
16,0
15,0
14,0
13,0
16,0
17,0
4,00 Hiperten
15,0
14,0
12,0
13,0
14,0
15,0
valores observados
Bioestatstica, 2007
15,0
13,0
12,0
12,0
14,0
valores observados
valores esperados
valores esperados
TRATAMENTO:
13,0
16,0
17,0
12,0
13,0
14,0
15,0
16,0
17,0
valores observados
14
Test of Homogeneity of Variances

tenso arterial
Levene
Statistic
1,182
df1
3
df2
156
Sig.
,318
ANOVA
tenso arterial
Between Groups
Within Groups
Total
Sum of
Squares
283,126
150,923
434,049
df
3
156
159
Mean Square
94,375
,967
F
97,550
Sig.
,000
A forma habitual de apresentar os resultados de uma ANOVA num trabalho

cientfico consiste em apresentar caractersticas amostrais de cada grupo (medias
e desvios padr
oes) e depois indicar o valor observado da estatstica de teste F e
o valor do p-value da ANOVA. A tabela de ANOVA propriamente dita podera
vir em anexo.
Bioestatstica, 2007
15
An
alise de Vari
ancia simples - Efeitos aleat
orios
Modelo:
Yij = i + ij = + i + ij ,
onde i e ij sao variaveis aleatorias independentes.
ij N (0, ),
i N (0, ).
Yij N (i = + i,
2 + 2 ).
Hip
oteses a testar
H0 : 2 = 0 vs
Bioestatstica, 2007
H1 : 2 > 0.
16
Mantem-se a relacao
g X
n
X
(yij y )2 = n
|i=1 j=1 {z
SST
g
X
i=1
(
yi y )2 +
{z
SSG
g X
n
X
(yij yi)2
|i=1 j=1 {z
SSE
Agora
sob H0
E[M SG] = 2
E[M SE ] = 2
Sob H0
M SG
F =
Fg1,g(n1).
M SE
2 =
Bioestatstica, 2007
sob H1
E[M SG] = 2+n2
E[M SE ] = 2
M SG M SE
n
17
Exemplo:
Pretende-se estudar se o consumo de combustvel de um automovel da Marca A
depende da velocidade com que o automovel se desloca. Para tal seleccionaramse aleatoriamente 3 valores de velocidade e efectuou-se uma experiencia envolvendo 60 autom
oveis distribudos aleatoriamente em 3 grupos homogeneos.
9
consumo
4
N=
20
20
20
20
45
110
velocidade
Bioestatstica, 2007
18
Descriptives
consumo
Model
Fixed Effects
Random Effects
Std. Deviation
,69847
Std. Error
,09017
,15237
95% Confidence Interval for

Mean
Lower Bound
Upper Bound
6,3366
6,6977
5,8615
7,1727
BetweenComponent
Variance
,04526
ANOVA
consumo
Between Groups
Within Groups
Total
Bioestatstica, 2007
Sum of
Squares
2,786
27,808
30,594
df
2
57
59
Mean Square
1,393
,488
F
2,855
Sig.
,066
19
Comparac
oes m
ultiplas
Uma vez rejeitada H0 o que fazer para procurar identificar quais os grupos que
causam as diferencas?
Considerar todas as comparacoes de pares de medias envolvidos na ANOVA
para procurar detectar quais os grupos que provocam a rejeicao de H0 na tabela
n!
de ANOVA. Em n grupos ha 2!(n1)!
comparacoes de pares de medias distintos.
Dois problemas:
1. Calculo do nvel de significancia de cada comparacao e do nvel de significancia do conjunto de comparacoes que se esta a efectuar em simultaneo.
2. As comparacoes nao sao todas independentes.
Se uma comparacao individual tiver tamanho m, um conjunto de m comparacoes (independentes) tem tamanho = 1 (1 m)m. Por exemplo, em
20 comparacoes, se cada comparacao tiver tamanho 5%, o tamanho total e
64% que e inaceitavel.
Bioestatstica, 2007
20
Importante lembrar:
A analise de comparacoes m
ultiplas nao faz sentido nos modelos de efeitos
aleat
orios e s
o deve ser utilizada nos modelos de efeitos fixos.
A analise de comparacoes m
ultiplas so deve ser efectuada quando se rejeita H0
na tabela da ANOVA.
Existem muitos metodos para efectuar comparacoes m

ultiplas. Iremos apenas
referir alguns, nomeadamente o metodo de Bonferroni, o metodo de Tuckey e
o metodo de Dunnett.
Bioestatstica, 2007
21
M
etodo de Bonferroni
tamanho total das comparacoes m
ultiplas,
m tamanho de cada comparacao individual
Ri = {a i-esima hip
otese nula e rejeitada quando e verdadeira}.
= P {R1 ou R2 ou . . . ou Rm} mm,
O metodo de Bonferroni consiste em considerar para cada comparacao individual

um nvel de significancia m = /m por forma a garantir que o nvel total nao
ultrapassa .
Aplicando este metodo alguns dos pares que eventualmente acusavam diferencas
significativas podem deixar de o fazer.
No SPSS a tabela que e produzida para este metodo fornece p values para
cada comparacao que resultam da multiplicacao dos p-values dos testes por m.
Assim, em vez de compararmos os p-values com /m, comparamos os produtos
m p-value com .
Bioestatstica, 2007
22
Exemplo:
Multiple Comparisons
Dependent Variable: tenso arterial
LSD
(I) tratamento
placebo
teste
captorex
hiperten
Bonferroni
placebo
teste
captorex
hiperten
Bioestatstica, 2007
(J) tratamento
teste
captorex
hiperten
placebo
captorex
hiperten
placebo
teste
hiperten
placebo
teste
captorex
teste
captorex
hiperten
placebo
captorex
hiperten
placebo
teste
hiperten
placebo
teste
captorex
Mean
Difference
(I-J)
3,3540*
2,9099*
2,8540*
-3,3540*
-,4440*
-,5000*
-2,9099*
,4440*
-,0560
-2,8540*
,5000*
,0560
3,3540*
2,9099*
2,8540*
-3,3540*
-,4440
-,5000
-2,9099*
,4440
-,0560
-2,8540*
,5000
,0560
Std. Error
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
Sig.
,000
,000
,000
,000
,045
,024
,000
,045
,800
,000
,024
,800
,000
,000
,000
,000
,271
,146
,000
,271
1,000
,000
,146
1,000
23
M
etodo de Tuckey
Construcao de intervalos de confianca para todos os pares de comparacoes de
tal forma que o conjunto de todos os intervalos tenha uma certa confianca,
1 .
|(Yi i) (Yj j )|
max
i,j
M SE
onde o maximo e calculado para todos os pares i, j. A distribuicao desta
variavel e denominada studentized range distribution com parametros g
e g(n 1).
No SPSS ap
os a tabela de comparacoes m
ultiplas e produzida uma tabela de
grupo homogeneos. Trata-se de uma tabela que subdivide os g grupos de
observacoes em sub-grupos dentro dos quais podemos considerar que as medias
nao apresentam diferencas significativas.
Bioestatstica, 2007
24
Exemplo:
Tukey HSD
(I) tratamento
placebo
teste
captorex
hiperten
(J) tratamento
teste
captorex
hiperten
placebo
captorex
hiperten
placebo
teste
hiperten
placebo
teste
captorex
Mean
Difference
(I-J)
3,3540*
2,9099*
2,8540*
-3,3540*
-,4440
-,5000
-2,9099*
,4440
-,0560
-2,8540*
,5000
,0560
Std. Error
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
,21994
Sig.
,000
,000
,000
,000
,185
,109
,000
,185
,994
,000
,109
,994
95% Confidence Interval

Lower Bound
Upper Bound
2,7828
3,9252
2,3388
3,4811
2,2828
3,4252
-3,9252
-2,7828
-1,0152
,1271
-1,0712
,0712
-3,4811
-2,3388
-,1271
1,0152
-,6271
,5152
-3,4252
-2,2828
-,0712
1,0712
-,5152
,6271
*. The mean difference is significant at the .05 level.
Bioestatstica, 2007
25
Teste de Dunnett
Por vezes o objectivo de uma analise de comparacoes m
ultiplas e o de comparar
um grupo particular (muitas vezes o chamado grupo de controlo) com cada um
dos restantes grupo. Neste caso temos apenas g 1 comparacoes a efectuar e
Dunnett prop
os um procedimento para este efeito. A estatstica sugerida por
Dunnett e semelhante à de Tuckey e os valores crticos encontram-se tabelados.
Este teste esta disponvel no SPSS na mesma janela dos testes de Bonferroni e
de Tuckey: menu Analyze / Compare means / One way ANOVA botao Post
Hoc.
Bioestatstica, 2007
26
Exemplo:
Dunnett t (2-sided)a
(I) tratamento
teste
captorex
hiperten
(J) tratamento
placebo
placebo
placebo
Mean
Difference
(I-J)
-3,35399*
-2,90994*
-2,85399*
Std. Error
,21994
,21994
,21994
Sig.
,000
,000
,000
95% Confidence Interval

Lower Bound
Upper Bound
-3,8757
-2,8323
-3,4317
-2,3882
-3,3757
-2,3323
*. The mean difference is significant at the .05 level.

a. Dunnett t-tests treat one group as a control, and compare all other groups against it.
Bioestatstica, 2007
27
ANOVA simples n
ao param
etrica Teste de Kruskal-Wallis
Temos
g grupos;
ni observacoes no grupo i;
total de N =
Pg
i=1 ni
observacoes.
Yij = i + ij ,
i = 1, . . . , g, j = 1 . . . , nj onde os erros ij sao v.a.s contnuas com a mesma
distribuicao, e i representa a mediana do grupo i.
Bioestatstica, 2007
28
Pressupostos exigidos:
1.
os
2.
3.
4.
Temos g grupos de observacoes independentes (g amostras aleatorias) sendo

grupos independentes entre si.
As observacoes sao medidas numa escala pelo menos ordinal.
Cada grupo de observacoes deve provir de uma populacao contnua.
As populacoes apenas diferem na localizacao (portanto tem a mesma forma).
Hip
otese a testar
H0 : 1 = 2 = . . . = g =
vs
H1 : i 6= pelo menos para um i,
onde i representa a mediana do grupo i.

Bioestatstica, 2007
29
Procedimento:
Ordenar o total das N observacoes em conjunto, e atribuir ranks às observacoes.
i a soma e a media
Seja Rij o rank da observacao Yij . Denote-se por Ri e R
dos ranks do grupo i, respectivamente. A Estatstica de teste e dada por
T =
12
N (N + 1)
g
X
i N + 1
ni R
2
i=1
2
12
N (N + 1)
g
X
R2
i=1
ni
3(N 1).
T tem distribuicao aproximadamente 2 com g 1 graus de liberdade, sob H0.

Portanto rejeita-se H0 se T > 1,g1 ao nvel de significancia .
Bioestatstica, 2007
30
Exemplo:
12
10
nivel
0
N=
10
10
10
10
1,00
2,00
3,00
4,00
10
5,00
vinho
Bioestatstica, 2007
31
Ranks
NIVEL
VINHO
1,00
2,00
3,00
4,00
5,00
Total
N
10
10
10
10
10
50
Mean Rank
28,75
22,00
26,85
20,90
29,00
Test Statisticsa,b
Chi-Square
df
Asymp. Sig.
NIVEL
2,901
4
,575
a. Kruskal Wallis Test

b. Grouping Variable: VINHO
Bioestatstica, 2007
32

1 Internet Adicional

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

1 Internet Adicional

Enviado por

Direitos autorais:

Formatos disponíveis

An

No que se segue iremos utilizar a seguinte notacao:

H1 : i 6= pelo menos para um i

H1 : i 6= 0 pelo menos para um i

Temos g grupos de observacoes independentes (g amostras aleatorias) sendo

H1 : i 6= pelo menos para um i

Para testar estas hip

Uma forma de estimar 2, sem depender da veracidade de H0, consiste em

SST tem N 1 = gn 1 graus de liberdade.

Pode-se mostrar que sob H0

sendo estas variaveis independentes.

e podemos efectuar um teste com base nesta estatstica.

Dentro dos grupos

Fobs e o valor observado da estatstica de teste F .

Test of Homogeneity of Variances

A forma habitual de apresentar os resultados de uma ANOVA num trabalho

95% Confidence Interval for

Existem muitos metodos para efectuar comparacoes m

O metodo de Bonferroni consiste em considerar para cada comparacao individual

95% Confidence Interval

*. The mean difference is significant at the .05 level.

95% Confidence Interval

*. The mean difference is significant at the .05 level.

Temos g grupos de observacoes independentes (g amostras aleatorias) sendo

H1 : i 6= pelo menos para um i,

onde i representa a mediana do grupo i.

T tem distribuicao aproximadamente 2 com g 1 graus de liberdade, sob H0.

a. Kruskal Wallis Test

Você também pode gostar