Escolar Documentos
Profissional Documentos
Cultura Documentos
Matemática
Escola Superior de ANÁLISE DE VARIÂNCIA
Tecnologia de Viseu
INTRODUÇÃO
Exemplos
9 Para curar uma certa doença existem quatro tratamentos possíveis: A, B, C e D.
Pretende-se saber se existem diferenças significativas nos tratamentos no que diz
respeito ao tempo necessário para eliminar a doença.
9 ...
Sejam X1, X2, ..., Xk as variáveis aleatórias que representam tal característica nas
populações 1, 2, ...,k, respectivamente.
Hipóteses a testar:
H0: µ1 = µ2 = ... = µk
H1: µi ≠ µj para algum i e algum j tais que i ≠ j.
Exemplo
Para curar uma certa doença existem quatro tratamentos possíveis: A, B, C e D.
Pretende-se saber se existem diferenças significativas nos tratamentos no que diz respeito ao
tempo necessário para eliminar a doença.
Exemplo
Suponhamos agora que existe a suspeita de que uma estação quente é um factor determinante
para uma cura rápida.
Então, o estudo deve ser conduzido tendo em conta este segundo factor, Estação do Ano.
Aqui, a técnica estatística apropriada será a análise de variância com dois factores, também
designada por "two-way ANOVA".
Neste caso, pode-se testar se existe diferença entre os tratamentos e também se existe
diferença entre as estações do ano, no que respeita ao tempo de tratamento até à eliminação da
doença.
Exemplo 1
Representemos por Xi o volume de vendas numa semana na loja i (i = 1,2,3) e por µ i o valor
médio de Xi.
Este exemplo tem apenas um factor de interesse, o factor Loja, e este apresenta três níveis ou
grupos: Loja 1, Loja 2 e Loja 3.
Pretende-se saber se as médias dos três níveis, ou populações, são iguais, isto é, pretende-se
saber se é de rejeitar ou não a hipótese
Exemplo 1
Questão:
Serão as médias amostrais x1 =49, x2 =56 e x3 =51 diferentes porque há diferenças entre
as médias populacionais µ1, µ 2 e µ 3 ?
Não seria possível resolver a questão conduzindo três testes de hipóteses, cada um
comparando duas médias populacionais, utilizando as técnicas vistas no capítulo anterior?
Suponhamos que, de facto, as vendas médias das três lojas são iguais, isto é µ1 = µ 2 = µ 3 .
Carla Henriques Departamento de Matemática — ESTV
7
Dep. Matemática
Escola Superior de ANÁLISE DE VARIÂNCIA
Tecnologia de Viseu
Admitindo a independência entre os três testes e fixando para cada teste um nível de
significância de 0.05, o nível de significância para o conjunto dos três testes, isto é, a
probabilidade de decidirmos erradamente que as três médias não são iguais quando de facto o
são, seria aproximadamente 0.1426.
PRESSUPOSTOS
– Hipótese de Homocedasticidade.
µ
Distribuições populacionais quando H0 é verdadeira (µ1=µ2=µ3=µ).
¾ H0 é falsa – as diferenças observadas entre as médias amostrais são demasiado grandes para
serem devidas unicamente a flutuações amostrais.
As médias das populações não são iguais, ou seja pelo menos duas lojas têm volumes de
vendas médios diferentes. As amostras recolhidas provêm de populações diferentes.
µ3 µ1 µ2
Distribuições populacionais quando H0 é falsa (as médias não são todas iguais).
1
Um teste diz-se robusto quando a probabilidade de erro tipo I se mantém inalterada (e próxima do nível de
significância fixado à priori) e/ou a sua potência é mantida em níveis adequados, mesmo que os pressupostos de
aplicação não sejam válidos. Por outras palavras, o teste produz resultados de confiança mesmo quando aplicado em
condições diferentes daquelas para que foi deduzido.
Carla Henriques Departamento de Matemática — ESTV
12
Dep. Matemática
Escola Superior de ANÁLISE DE VARIÂNCIA
Tecnologia de Viseu
ESTATÍSTICA DE TESTE – F
A estatística de teste mede a razão entre a variação entre grupos e a variação dentro dos
grupos:
Dados e Notação
Os dados, usualmente, vêm representados da seguinte maneira:
Amostra ( j ) Notação:
1 2 3 ... k
x11 x12 x13 ... x1k • k − nº de amostras
Observações ( i ) x21 x22 x23 ... x2k • n j − nº de observações na amostra j
x31 x32 x33 ... x3k
∑ j =1 n j
k
M M M O M • N= (total de observações)
Somas de quadrados
SST= ∑ ∑ (xij − x )2
k n
Æ é a soma de quadrados total e mede a variação total nos dados;
j =1i =1
SSA= ∑ n j (x j − x )
k
2
Æ é a soma de quadrados entre os níveis, ou grupos, do factor e
j =1 mede a variação entre grupos (populações); é por vezes designada
por “variação explicada”, pois ela é explicada pelo facto de as
amostras poderem provir de populações diferentes;
∑ n j (x j − x )
k
2
∑ ∑ (xij − x j )
k nj
2
j =1i =1 SS E Æ Soma média de quadrados dentro dos
MSE = = . grupos ou residual
n1 + n2 + L + nk − k N − k
( )
P Fkk(−n1−1) ≥ pc = α = nível de significância.
SSA= ∑ n j (x j − x )2
k SS A MS A
MS A = F=
Entre grupos j =1 k-1 k −1 MS E
N −k
SSE= ∑ ∑ (xij − x j )2
Dentro dos grupos k nj SS E
MS E =
ou residual
j =1i =1 N −k
N −1
SST= ∑ ∑ (xij − x )
Total k nj
2
j =1i =1
Pode-se provar que SST = SSA+SSE, o que permite verificar os cálculos da Tabela ANOVA.
Exemplo 1
Carla Henriques Departamento de Matemática — ESTV
18
Dep. Matemática
Escola Superior de ANÁLISE DE VARIÂNCIA
Tecnologia de Viseu
j =1i =1
5
∑ ( xi1 − x1 ) = (47 − 49 ) + (53 − 49 ) + (49 − 49 ) + (50 − 49 ) + (46 − 49 ) = 30
2 2 2 2 2 2
i =1
5
∑ ( xi 2 − x2 ) = (55 − 56 ) + (54 − 56 ) + (58 − 56 ) + (61 − 56 ) + (52 − 56 ) = 50
2 2 2 2 2 2
i =1
5
(
∑ i3 3
x − x )2
= (54 − 51)2
+ (50 − 51)2
+ (51 − 51)2
+ (51 − 51)2
+ ( 49 − 51)2
= 14 .
i =1
SSE=30+50+14=94
Cálculo do SSA= ∑ n j (x j − x )2
k
j =1
Se a hipótese H0 é verdadeira,
MS A
F= ~ F122 .
MS E
Carla Henriques Departamento de Matemática — ESTV
20
Dep. Matemática
Escola Superior de ANÁLISE DE VARIÂNCIA
Tecnologia de Viseu
R.C.=[3.89,+∞[
65
O valor observado da estatística F é: Fobs = = 8.3 ∈R.C.
7.83
Há portanto evidência de que existem pelo menos duas lojas com volumes médios de
vendas diferentes. Por outras palavras, o factor Loja exerce uma influência significativa sobre
o volume de vendas.
Exemplo 2
Suponha que é director de marketing de uma empresa que pretende relançar um produto no
mercado. Você estudou três campanhas de marketing diferentes, cada uma deles combina de
Carla Henriques Departamento de Matemática — ESTV
21
Dep. Matemática
Escola Superior de ANÁLISE DE VARIÂNCIA
Tecnologia de Viseu
Seja Xi a v.a. que representa o volume de vendas de uma loja sujeita à campanha i (i=1,2,3).
Admitamos que X1, X2 e X3 têm distribuição normal com iguais variâncias.
R.C.=[6.36,+∞[
Para as amostras recolhidas, tem-se:
Carla Henriques Departamento de Matemática — ESTV
24
Dep. Matemática
Escola Superior de ANÁLISE DE VARIÂNCIA
Tecnologia de Viseu
• x1 = 6.4 , x3 = 6.3333
x2 = 9.5714 , e x = 7.611;
44.03
• SSA= 44.03 e MSA= = 22.015 ;
2
30.2476
• SSE= 30.2476 e MSE= = 2.0165 .
15
22.015
O valor observado da estatística F é: Fobs = = 10.9174 ∈R.C.
2.0165
Existem muitos testes deste tipo, no entanto, aqui vamos abordar apenas dois:
¾ teste HSD (honestly significant difference) de Tuckey
¾ teste de Scheffé
MS E ⎛⎜ 1 1 ⎞⎟
ST (1−α ) . +
2 ⎝ ni n j ⎟⎠
⎜
(k , N − k ) graus de liberdade – ST (k , N - k) :
P (W ≤ ST (1−α ) ) = 1 − α , W ~ ST (k , N - k) .
significativamente diferentes, se
MS E ⎛1 1 ⎞
xi − x j ≥ S T (1−α ) . ⎜ + ⎟.
2 ⎜n n ⎟
⎝ i j ⎠
MS E ⎛⎜ 1 1 ⎞⎟
[IC](1-α ) = (xi − x j ) ± ST ( 1− α ) . +
2 ⎜⎝ ni n j ⎟⎠
Exemplo 1
x1 − x2 = 49 − 56 = 7 ,
x1 − x3 = 49 − 51 = 2
x2 − x3 = 56 − 51 = 5
MS E ⎛⎜ 1 1 ⎞⎟ 7.83 2
ST (1−α ) . + = 3. 77 × =4.718
⎜
2 ⎝ ni n j ⎠⎟ 2 5
Assim, há evidência de que a loja 2 tem um volume médio de vendas diferente das lojas 1 e 3.
Isto é, a média observada para a loja 2 difere significativamente das médias observadas para
as lojas 1 e 3, enquanto que, a diferença registada entre o volume de vendas da loja 1 e da loja
3 não é significativa.
TESTE SCHEFFÉ
Neste teste a hipótese nula H0: µi = µj é rejeitada se
⎛1 1⎞
xi − x j ≥ (k - 1)F(1- α ) . MS E ⎜⎜ + ⎟⎟
⎝ ni n j ⎠
onde, F(1−α ) é o quantil de probabilidade (1-α) da distribuição FNk −−1k :
( )
P FNk −−1k ≤ F(1−α ) = 1 − α .
Intervalo de confiança:
⎛1 1⎞
[IC](1-α ) = (xi − x j ) ± (k - 1)F(1- α ) . MS E ⎜⎜ + ⎟⎟
⎝ ni n j ⎠
Exemplo 2
x1 − x2 = 6.4 − 9.5714 = 3.1714
⎛1 1⎞
• x1 − x2 = 3.1714> ( k − 1) F(1−α ) . MS E ⎜ + ⎟
⎜n n ⎟
⎝ i j⎠
⎛1 1⎞
= 2 × 6.36 . 2.0165⎜ + ⎟ =2.97, → rejeita-se a hipótese H0: µ1= µ2;
⎝5 7⎠
⎛1 1⎞
• x1 − x 3 = 0.0667< 2 × 6.36 . 2.0165⎜ + ⎟ =3.0667 → não se rejeita H0: µ1= µ3;
⎝5 6⎠
Carla Henriques Departamento de Matemática — ESTV
33
Dep. Matemática
Escola Superior de ANÁLISE DE VARIÂNCIA
Tecnologia de Viseu
⎛1 1⎞
• x 2 − x 3 = 3.2318 > 2 × 6.36 . 2.0165⎜ + ⎟ =2.8177, → rejeita-se H0: µ2= µ3.
⎝6 7⎠
Teste de Bartlett
Este teste tem como pressuposto que as populações tenham distribuição normal.
Além disso, só é aplicável quando as diferentes amostras envolvidas tenham dimensões nj não
inferiores a quatro ( n j ≥ 4 , para todo o j).
1⎡ ⎤
( ) ∑ (n j − 1) ln( ) ~ χ k2−1
k sobH 0
Estatística de teste: B = ⎢( N − k ) ln S 2p − S 2j ⎥
C ⎢⎣ j =1 ⎦⎥
onde,
k
¾ N= ∑ n j
j =1
1 n j
¾ S 2j = ∑ ( X ij − X j )
2
n j − 1 i =1
k
∑
1
¾ S 2p = (n j − 1) S 2j
N −k j =1
1 ⎡k 1 1 ⎤
¾ C = 1+ ⎢∑ − ⎥
3(k − 1) ⎢⎣ j =1n j − 1 N − k ⎥⎦
Exemplo 1
Vamos testar a hipótese H0, de igualdade de variâncias das três variáveis consideradas, ao
nível de significância de 0.01.
Sob o pressuposto de H0 ser verdadeira,
1⎡
( ) ( )⎤
B = ⎢( N − k ) ln S p − ∑ (n j − 1) ln S 2j ⎥ ~ χ 22 .
k
2
C⎣ j =1 ⎦
χ 02.99, 2 = 9.21 (quantil de probabilidade 0.99 da distribuição χ 22 )