Você está na página 1de 32

Testes de varincia e Anlise de

Varincia (ANOVA)

Prof. Marcos Vinicius P


Introduo Inferncia Estatstica

Prof. Marcos Vinicius P


Introduo Inferncia Estatstica

TESTE DE VARINCIAS E
DISTRIBUIO F

Prof. Marcos Vinicius P


Testes sobre varincias
Problema: queremos saber se h diferenas estatisticamente
significativas entre os desvios-padro de duas amostras, ou
seja, se elas so ou no homocedsticas

Em termos de teste de hiptese isso significa:


H :
0
2
1
2
2
2

H :
A
2
1
2
2
Teste para varincia usando distribuio
Qui-quadrado (2)
Pode-se testar uma varincia nos mesmos moldes de teste
de mdias, utilizando-se a distribuio 2


n1S 2

A medio de 2Obs determinada por:


2 obs


Obs 2
ref

A regio crtica bicaudal, determinada pelo , de acordo


com os graus de liberdade () determinados pela amostra.

/2
/2

a b
Distribuio qui-quadrado (2)

Prof. Marcos Vinicius P


Teste para varincia utilizando a
estatstica F (Fisher-Snedecor)
Sejam S12 e S22 as varincias de duas amostras, definimos
F como:
2
F S 12
S2
Para um determinado coeficiente de confiana (), temos
o seguinte intervalo de confiana para a razo entre duas
varincias

IC ; f s f s
2 2 2
2 2 2 2 2
2 1

s
1 2 2 2 2
1 s 1 1

Prof. Marcos Vinicius P


Propriedades da distribuio F
Famlia de curvas determinada pelos graus de liberdade no
numerador e no denominador (1 e 2);

So representadas graficamente de forma positiva;

A rea total sob cada curva de uma distribuio F 1;

Valores F so sempre iguais ou maiores que zero;

Para todas as distribuies F, o valor mdio de F


aproximadamente 1.
Prof. Marcos Vinicius P
Exemplo de curvas da distribuio F

F f 1; 2

Fonte: Wikipdia
Prof. Marcos Vinicius P
Exemplo de tabela F: p=2,5%

Prof. Marcos Vinicius P


Exemplo de tabela F: p=5%
Regio Crtica na curva F
Dica prtica: se o maior valor ficar no
numerador, ou seja, F1, os testes
unicaudais sero direita e para os
testes bicaudais basta encontrar o
/2 valor crtico direita.

F ,1 2

f 1 F /2
1, 2,
f 2 : F , , / 2
1 2

1
Como as tabelas so limitadas, lembrar que:
F , ,
1 2

F , ,
2 1

Prof. Marcos Vinicius P


Exemplos
1. Da populao X~N(50; 100) retirou-se uma amostra aleatria simples n=12. Da
populao Y~N(60; 100) retirou-se uma amostra aleatria simples m=8. Obtemos
respectivamente S12 e S22. (baseado em Bussab; Moretin, 2002: 361)
a. Encontre o valor de a, tal que P(S12/S22<a) = 95%
b. Encontre o valor de b, tal que P(S12/S22>b) = 95%

2. Estabelea um intervalo de confiana de 95% () para S12/S22 considerando duas


amostras idnticas e independentes com os seguintes tamanhos: 10; 30; 120

3. Deseja-se comparar a uniformidade da produo de duas fbricas em relao ao


comprimento dos produtos. Tomaram-se duas amostras aleatrias conforme tabela
abaixo. Podemos afirmar que a uniformidade das fbricas a mesma? (baseado em
Bussab; Moretin, 2002: 361)

Estatsticas Fbrica A Fbrica B


Amostra 21 16
Mdia 21,15 21,12
Desvio-padro 0,2030 0,4164

Prof. Marcos Vinicius P


Introduo Inferncia Estatstica

ANOVA

Prof. Marcos Vinicius P


Modelos explicativos estatsticos
Modelos estatsticos visam descrever sinteticamente o
comportamento de variveis. Eles podem ser definidos
como:
Observao = Previsvel + Aleatrio;
ou
Observao = Previsvel x Aleatrio
Assim, um modelo estatstico para uma observao pode
ser definido basicamente por uma equao do tipo:
Onde:
yi ei yi: efeito verificado na i-sima observao
: efeito fixo, comum a todos
ei: erro, devido fatores no explcitos no
modelo, com distribuio ei~N(0;2)

Prof. Marcos Vinicius P


ANOVA e modelos estatsticos
O objetivo dos nossos modelos explicativos estatsticos
diminuir o erro, ou seja, aquilo que no explicado.
At agora os nossos modelos restringiam-se a apenas uma
estimativa:
yi ei ou yi p ei onde ei f ( )
Ser que em alguns casos no diminuiremos a nossa variao
(ou seja, aumentamos a preciso) e reduziremos o erro se
usarmos vrias mdias, relacionadas a outras variveis
explicativas no tratadas no modelo simples?
A ANOVA permite testar e mensurar isso

Prof. Marcos Vinicius P


Utilidades da ANOVA
ANOVA = ANalisys Of Variance

A ANOVA permite fazer a comparao global de diversas


amostras ou subamostras, minimizando a probabilidade
de erro amostral, j que, conforme aumenta o nmero de
amostras, o total de comparaes entre pares aumenta
exponencialmente
Amostras/subamostras Total de comparaes
3 3
4 6
5 10
8 28
10 45
Prof. Marcos Vinicius P
ANOVA de 1 fator (unidirecional)
Objetivo: avaliar se vrias mdias populacionais so iguais
ou se, pelo menos uma, diferente
H0: 1 = 2 = ... = n

Para isso, verificamos como se comporta a variao entre


as mdias das vrias populaes e a variao dentro
dessas populaes.

Prof. Marcos Vinicius P


Pressupostos da ANOVA
Amostras aleatrias simples

Amostras independentes

Populaes normais

As populaes so homocedsticas (se tiver dvida, teste!)

Prof. Marcos Vinicius P


Estatstica do teste ANOVA
Estatstica F (razo F)

Essa estatstica indica o tamanho da diferena entre as


amostras, em funo do tamanho da variao dentro de
cada amostra.

MSe Onde:

F MSe = Varincia entre amostras

MSd MSd = Varincia dentro das amostras

Prof. Marcos Vinicius P


Tabela da ANOVA
Para facilitar o manuseio dos dados, eles so organizados em uma tabela:
n: nmero de amostras
k: nmero de subpopulaes
1 n 2
SQd 1 (ni 1)si SQt 1 x i n x
2 2
SQe 1 n( x
k k 2

xi) (n 1)

Soma dos Quadrados


Graus de
Variao Quadrados das Mdias F
Liberdade
(SQ) (SQM)
Entre populaes/ SQe MQe
SQe gle = k-1 MQe
grupos glN MQd

Dentro das SQd


SQd gld = n-k MQd
populaes/ grupos glD

Total SQt glt = n-1


Prof. Marcos Vinicius P
Exemplo: definio de modelo
explicativo e uso da ANOVA
Um psiclogo deseja avaliar Indivduo
Tempo de Gnero
reao (ms) (M/F)
Idade
(anos)
Acuidade
Visual (%)
explicaes para o tempo de i y w x z
reao das pessoas a determinado 1
2
96
92
M
F
20
20
90
100
estmulo visual. 3 106 M 20 80
4 100 F 20 90
Para isso ele mediu o tempo de 5 98 F 25 100
reao (y) de 20 pessoas e 6
7
104
110
M
M
25
25
90
80
compilou outras variveis que, 8 101 F 25 90
com base nas teorias, podem 9
10
116
106
F
M
30
30
70
90
afetar y. 11 109 M 30 90

Modelo bsico (sempre o mais 12


13
100
112
F
F
30
35
80
90
simples K.I.S.S.): o tempo de 14 105 F 35 80
reao dos indivduos varia 15
16
118
108
M
M
35
35
70
90
aleatoriamente na populao, 17 113 F 40 90
podendo ser explicado apenas 18
19
112
127
F
M
40
40
90
60
pela mdia e a varincia. 20 117 M 40 80
Dados tirados de Bussab, Wilton. Anlise de Varincia
Prof. Marcos Vinicius P e Regresso. 2a. Ed. Editora Atual: So Paulo. 1988
Modelo I: mdia e desvio-padro
Obtenha mdia e desvio-padro do tempo de reao;
Calcule os resduos normalizados [(-yi)/s] e analise-
os.
Calcule a soma dos erros quadrticos [(-yi)2]
O que vocs acham? O modelo explica bem o fenmeno? Por que?
Ser possvel melhorar? Ser que vale a pena melhorar esse modelo
tornando-o mais complexo?

Prof. Marcos Vinicius P


Modelo II: separando por Gnero (duas
populaes)
Adicionamos uma discriminao nos nossos dados: j =
Gnero (M/F2; M=1,F=2...)

yij i eij
Temos agora duas populaes, Masculina e Feminina
Calcular mdia e desvio-padro para ambas.
Calcule a soma dos erros quadrticos de ambas

So estatisticamente diferentes? Ser que o modelo fica

melhor adicionando essa varivel?


M= 110,1; 2M = 74,54; SEQM = 566,9
F = 104,9; 2F = 62,99; SEQF = 670,9
Prof. Marcos Vinicius P
Fazendo a tabela de ANOVA
Precisamos calcular:
Varincia dentro das populaes (SQd)
Soma da soma de erros quadrticos de cada uma das populaes
Varincia entre as populaes (SQe)
SQt = SQe + SQd = SQe = SQt - SQd
Determinar os graus de liberdade
Soma dos Quadrados
Graus de
Variao Quadrados das Mdias F
Liberdade
(SQ) (SQM)
Entre populaes/ 1373-1237,8 SSe MSe
SQe= 1 135,2 1,97
grupos =135,2 gln MSd

Dentro das 566,9 + 670,9 SSd


SQd= =1237,8 n-2 = 18 68,77
populaes/ grupos gl
d

Total 1373,0 n-1 = 19


Prof. Marcos Vinicius P
Medidas que a ANOVA permite

R2: coeficiente de explicao R


2

SQe
SQt

Significa a quantidade de informao que explicada pelo


modelo adotado
No nosso caso, R2 = 135,2/1373 = 9,85%, ou seja, a
separao por gnero explica muito pouco do resultado
p-valor de F: indica a possibilidade de generalizao do
modelo para a populao
Igual ao p-valor de um teste de hiptese, ou seja, o nvel em
que podemos afirmar que o modelo significativo
No nosso caso, F(1,97;1;18) = 0,177, ou seja, o modelo pouco
significativo
Prof. Marcos Vinicius P
Exerccio para a prxima aula
Separar as populaes por idade

Calcular para cada uma


Mdia e desvio-padro (colocar em um quadro comparativo)
Soma dos quadrados dos erros

Colocar na tabela de ANOVA

O que parece? Esse modelo melhora a nossa previso?


Quanto?
Prof. Marcos Vinicius P
Modelo III: Mltiplas populaes
(separao por idade)
Resultado
Total 20 25 30 35 40
mdia 107,5 98,5 103,3 107,8 110,8 117,3
dpad 8,50 5,97 5,12 6,65 5,62 6,85
107,0 78,8 132,8 94,8 140,8
SQDesvios 1373,0
554,0

Prof. Marcos Vinicius P


ANOVA do Modelo III

n: nmero de amostras
k: nmero de populaes
Fc(5%;4;15)= 3,06
p-valor (5,54;4;14) = 0,61%
R2 = 0,587

Soma dos Quadrados


Graus de
Variao Quadrados das Mdias F
Liberdade
(SQ) (SQM)
Entre populaes/ SSe MSe
SSe = 819 k-1 = 4 204,75 5,54
grupos gln MSd

Dentro das SSd


SSd = 554,0 n-k = 15 36,93
populaes/ grupos gl
d

Total 1373,0 n-1 = 19 72,26


Prof. Marcos Vinicius P
Concluses do Modelo III
estatisticamente significativo (ao nvel de menos de 1%)

Possui um bom valor explicativo (57,9%)

Portanto, o modelo III tem qualidades para ser adotado.

Isso significa que a idade um fator explicativo relevante


para o fenmeno observado (tempo de reao).

Prof. Marcos Vinicius P


Exerccios
1. Em um curso de extenso universitria pesquisaram-se
os salrios mensais (em unidades de referncia) e a rea
de formao acadmica dos estudantes, com base em
uma amostra aleatria. Aps eliminar-se os dados
excessivamente destoantes, obteve-se o resultado abaixo.
Podemos considerar que os salrios de cada rea so
iguais?
n Mdia Desvio-padro2
Sociais 21 30,9 19,2
Engenharia 15 34,2 28,2
Biolgicas 7 38,1 22,3

Prof. Marcos Vinicius P


Tabela da ANOVA
Para facilitar o manuseio dos dados, eles so organizados em uma tabela:
n: nmero de amostras
k: nmero de subpopulaes
2

SQe 1 ni ( x xi) SQd 1 (ni 1)si


k k 2

MQe MQd
gle gle glD glD
Soma dos Quadrados
Graus de
Variao Quadrados das Mdias F
Liberdade
(SQ) (SQM)
Entre populaes/ SQe MQe
SQe gle = k-1 MQe
grupos glN MQd

Dentro das SQd


SQd gld = n-k MQd
populaes/ grupos glD

Total SQt glt = n-1


Prof. Marcos Vinicius P
Exerccios
2. Um analista quer determinar se h diferena na mdia de vendas
mensais de quatro regies diferentes. feita uma seleo
aleatria de vendedores de cada regio e cada um fornece os
resultados (em R$ mil) do ms anterior. Com = 5% podemos
concluir que h diferena na mdia de vendas de pelo menos uma
das regies?
Norte Leste Sul Oeste
Varincia total =
68,10 34 47 40 21
28 36 30 30
18 30 41 24
24 38 29 37
44 23
Mdia 26 39 35 27
Varincia 45,33 45 40,67 42,5

Prof. Marcos Vinicius P

Você também pode gostar