Você está na página 1de 24

Inferência para várias populações normais –

análise de variância (ANOVA)

Capítulo 15, Estatística Básica


(Bussab&Morettin, 8a Edição)

9a AULA – 11/05/2015

MAE229 - Ano letivo 2015


Lígia Henriques-Rodrigues

9a aula (11/05/2015) MAE229 1 / 24


Motivação

Ideia chave: Construir um teste para comparar k (k > 2) populações


normais com a mesma variância.

Exemplos:

Para curar uma certa doença existem quatro tratamentos possíveis: A, B,


C e D. Pretende-se saber se existem diferenças significativas nos
tratamentos no que diz respeito ao tempo necessário para eliminar a
doença.

Comparar três lojas quanto ao volume médio de vendas.

. . ..

9a aula (11/05/2015) MAE229 2 / 24


Seja Y a v.a. de interesse de uma determinada população (indivíduos,
animais, empresas....), e admita-se que os elementos da população podem
ser classificados em níveis de um fator.

Exemplo: Consideremos:
Y – altura dos indivíduos (variável de interesse)
P – população constituída por todos os indivíduos,
fator: sexo (com dois níveis F e M) (i = 1, 2).
Extraímos uma amostra de dimensão n1 da população P1 : pessoas do sexo
masculino (y11 , y12 , . . . , y1n1 ).
Extraímos uma amostra de dimensão n2 da população P2 : pessoas do sexo
feminino (y21 , y22 , . . . , y2n2 ),
e suporemos que as amostras recolhidas são independentes

9a aula (11/05/2015) MAE229 3 / 24


Seja:

E(Y ) = µ – a média global da v.a. Y para a população P (média das alturas


de todos os indivíduos)
E(Y |P1 ) = µ1 – a média da v.a. Y para a subpopulação P1 (média das
alturas do homens)
E(Y |P2 ) = µ2 – a média da v.a. Y para subpopulação P2 (média das alturas
das mulheres)

Neste exemplo, a hipótese a testar é,

H0 : µ1 = µ2 = µ versus H1 : µ1 6= µ2

A questão é saber se o factor exerce alguma influência na variação da


característica em estudo.

9a aula (11/05/2015) MAE229 4 / 24


No caso mais geral, admitimos que temos k amostras independentes, de k
subpopulações (populações) P1 , P2 , . . . , Pk , e onde k representa o número
de níveis do fator,

subpopulação P1 =⇒ amostra y11 , y12 , . . . , y1n1


subpopulação P2 =⇒ amostra y21 , y22 , . . . , y2n2
··· ··· ···
subpopulação Pk =⇒ amostra yk 1 , yk 2 , . . . , yknk

onde

P1 ∼ N(µ1 , σ 2 )
P2 ∼ N(µ2 , σ 2 )
··· ··· ···
Pk ∼ N(µk , σ 2 )

9a aula (11/05/2015) MAE229 5 / 24


Sejam:
Yij – v.a.’s que representam as observações (i = 1, . . . , k e j = 1, . . . , ni )
ni – dimensão da subpopulação Pi (i = 1, . . . , k )
k – número de níveis do fator
µi – média da subpopulação Pi (i = 1, . . . , k )
µ – média global (de todas as subpopulações)
Pk
τi = µ − µi – o efeito do nível i ( i=1 τi = 0)
eij – v.a’s que representam o erro aleatório de cada observação e que
supomos independentes entre si (E(eij eim ) = 0 e E(e1j e2m ) = 0), e com
variância σ 2 .
Modelo

Yij = µi + eij , i = 1, . . . , k j = 1, . . . , ni
= µ + τi + eij , i = 1, . . . , k j = 1, . . . , ni

9a aula (11/05/2015) MAE229 6 / 24


Objetivo

Admitindo que temos um fator com k níveis, o objetivo é estimar as médias


de cada uma das subpopulações µi (i = 1, . . . , k ) e testar a hipótese


H0 : µ1 = µ2 = . . . = µk = µ
H1 : µi 6= µj , para algum par (i, j)
ou

H0 : τ1 = τ2 = . . . = τk = 0
H1 : τi 6= 0, para algum i

Nota: O modelo anterior é designado de modelo de efeitos (níveis) fixos uma


vez que as subpopulações, determinadas pelos níveis do fator, são
pré-determinadas.

9a aula (11/05/2015) MAE229 7 / 24


Exemplo: Para curar uma certa doença existem quatro tratamentos
possíveis: A, B, C e D.
Pretende-se saber se existem diferenças significativas nos tratamentos no
que diz respeito ao tempo necessário para eliminar a doença.

Temos apenas um factor, Tratamento, que se apresenta em quatro níveis, A,


B, C e D.

Através da aplicação da análise de variância com um factor ou one-way


ANOVA, podemos saber se os tratamentos produzem os mesmos resultados
no que diz respeito à característica em estudo.

9a aula (11/05/2015) MAE229 8 / 24


Pressupostos:

A aplicação da análise de variância pressupõe a verificação das seguintes


condições:
As amostras devem ser aleatórias e independentes.
As amostras devem ser extraídas de populações normais.
As populações devem ter variâncias iguais σ12 = σ22 = . . . = σk2 , ou seja, o
modelo é homocedástico.

9a aula (11/05/2015) MAE229 9 / 24


Temos então duas situações possíveis:

H0 é verdadeiro: As diferenças observadas entre as médias amostrais são


devidas a flutuações amostrais e portanto todas as amostras provêm de
populações com médias iguais. Como se supôs que todas as populações são
normais e têm variâncias iguais, isto é o mesmo que extrair todas as
amostras de uma única população.

H0 é falso: As diferenças observadas entre as médias amostrais são


demasiado grandes para serem devidas unicamente a flutuações amostrais.
As médias das populações não são iguais e as amostras recolhidas provêm
de populações diferentes.

9a aula (11/05/2015) MAE229 10 / 24


Análise Variância - ANOVA
A análise de variância vai estimar a variância por dois métodos diferentes, um
sob a validade da hipótese nula e o outro não.
As duas estimativas obtidas são depois comparadas para tomarmos uma
decisão: se os grupos tiverem todos a mesma média (isto é, se H0 é
verdadeiro), as duas estimativas devem estar próximas uma da outra, caso
contrário (isto é, se H1 é verdadeiro) devem diferir significativamente.

9a aula (11/05/2015) MAE229 11 / 24


Decomposição da soma de quadrados
Seja
k Pni Pk Pni Pk
X j=1 yij i=1 j=1 yij i=1 ni y i
N= ni , y i = , y= = .
ni N N
i=1

X ni
k X k
X ni
k X
X
(yij − y )2 = ni (y i − y )2 + (yij − y i )2
i=1 j=1 i=1 i=1 j=1
| {z } | {z } | {z }
SQTot SQEnt SQDen

SQTot = SQEnt + SQDen

9a aula (11/05/2015) MAE229 12 / 24


• SQTot –> é a soma de quadrados total e mede a variação total nos dados;
• SQEnt –> é a soma de quadrados entre os níveis, ou grupos, do factor e
mede a variação entre grupos (populações); é por vezes designada por
variação explicada, pois ela é explicada pelo facto de as amostras poderem
provir de populações diferentes;
• SQDen –> é a soma de quadrados dentro dos níveis, ou grupos, do factor e
mede a variação dentro dos grupos (populações); é por vezes designada por
variação não explicada ou residual, pois é atribuída a flutuações dentro do
mesma população, portanto não pode ser explicada pelas possíveis
diferenças entre os grupos (populações).

9a aula (11/05/2015) MAE229 13 / 24


Estimativa entre da variância:
Mostra-se que:
Pk
SQEnt ni (y i − y )2
= i=1
∼ χ2(k −1)
σ2 σ2 H0

e que a estimativa da variância σ 2 é dada por:

SQEnt
QMEnt = .
k −1

Estimativa dentro da variância:


Mostra-se que:
Pk Pni
SQDen i=1 j=1 (yij − y i )2
= ∼ χ2(N−k )
σ2 σ2 H0

e que a estimativa da variância σ 2 é dada por:

SQDen
QMDen = .
N −k
9a aula (11/05/2015) MAE229 14 / 24
Estatística de Teste
A estimativa dentro da variância, QMDen , não é afectada pela veracidade ou
falsidade de H0 .

Ao contrário, a estimativa entre da variância, QMEnt, já o é, sendo


aproximadamente igual a QMDen quando H0 é verdadeira e maior do que
esta se H0 é falsa.
QMEnt
F = ∼ F(k −1,N−k )
QMDen H0

• Se H0 é verdadeira, σ 2 pode ser estimada pelos dois processos e como as


duas estimativas serão aproximadamente iguais, a razão F será próxima de 1.

• Se H0 for falsa, as diferenças nas médias populacionais vão provocar maior


variabilidade nas médias amostrais e portanto QMEnt será também grande
comparativamente com QMDen. A razão F tomará um valor maior que 1.

Região Crítica
RC=(c, +∞), onde P(F(k −1,N−k ) > c) = α

9a aula (11/05/2015) MAE229 15 / 24


Tabela de Análise de Variância

Fonte da graus de SQ QM F
Variação (F.V.) liberdade (g.l.)
SQEnt QMEnt
Entre k −1 SQEnt QMEnt=
k −1 QMDen
grupos
SQDen
Dentro N −k SQDen QMDen=
N −k
dos grupos
Total N −1 SQTot QMTot

9a aula (11/05/2015) MAE229 16 / 24


Fórmulas para cálculo das somas de quadrados
Pk Pni
• SQTot = i=1 j=1 yij2 − Ny 2 ;
Pk Pk P 
ni
• SQDen = 2
i=1 (ni − 1)Si = i=1 j=1 yij2 − ni y 2i
Pk Pk
• SQEnt = i=1 ni (y i − y )2 = i=1 ni y 2i − Ny 2

Dados balanceados
Se n1 = n2 = . . . = nk = n então N = nk .

9a aula (11/05/2015) MAE229 17 / 24


Exemplo (pág. 431): Uma escola analisa seu curso por meio de um
questionário com 50 questões sobre diversos aspectos de interesse. Cada
pergunta tem uma resposta, numa escala de 1 a 5 (a v.a. Y ), em que a maior
nota significa melhor desempenho. Na última avaliação, usou-se uma
amostra de alunos de cada período, e os resultados estão na tabela abaixo.
Existem as indicações estatísticas para dizer que o desempenho no curso
tem uma influencia de período de aplicação do curso?

Período
Manhã Tarde Noite
4,2 2,7 4,6
4,0 2,4 3,9
3,1 2,4 3,8
2,7 2,2 3,7
2,3 1,9 3,6
3,3 1,8 3,5
4,1 3,4
2,8

9a aula (11/05/2015) MAE229 18 / 24


Fator: período com 3 níveis

i = 1 – manhã (n1 = 7)
i = 2 – tarde (n2 = 6)
i = 3 – noite (n2 = 8)

N = 7 + 6 + 8 = 21

Hipóteses: H0 : µ1 = µ2 = µ3 versus H1 : µi 6= µj , para algum par (i, j)


QMEnt
Estatística de Teste: F = ∼ F(2,18)
QMDen H0

TABELA ANOVA

9a aula (11/05/2015) MAE229 19 / 24


Teste de Homocedasticidade
Uma das suposições para a aplicação da técnica da ANOVA é que a
variância é igual em todos os níveis, mas nem sempre é possível garantir que
este pressuposto é válido. Este teste tem como pressuposto que as
populações tenham distribuição normal. Além disso, só é aplicável quando as
diferentes amostras envolvidas têm dimensões ni ≥ 4 (∀i).

Teste de Bartlett
• Hipótese Nula: H0 : σ12 = σ22 = . . . = σk2
• Calcular a variância comum
Pk
2 (ni − 1)Si2 SQDen
S = i=1 = = QMDEn
N −k N −k

• Calcular
k
X
M = (N − k ) ln S 2 − (ni − 1) ln Si2
i=1

9a aula (11/05/2015) MAE229 20 / 24


• Calcular " k #
1 X 1   1 
C =1+ −
3(k − 1) ni − 1 N −k
i=1

• Estatística de Teste (distribuição aproximada válida para amostras grandes):

M
∼ χ2
C H0 (k −1)

• Região Crítica: RC=(c, +∞), com α = P(χ2(k −1) > c).

9a aula (11/05/2015) MAE229 21 / 24


Exemplo: Suponha que é director de marketing de uma empresa que
pretende relançar um produto no mercado. Você estudou três campanhas de
marketing diferentes, cada uma deles combina de modo diferente factores
como o preço do produto, a apresentação do produto, promoções
associadas, etc. Qualquer uma destas campanhas é levada a cabo no ponto
de venda, não havendo qualquer publicidade nos meios de comunicação.
Para saber se há diferença entre as três campanhas relativamente à sua
eficácia, cada uma delas é feita num conjunto de lojas seleccionadas
aleatoriamente, durante um período de duração limitada. Note que as lojas
são seleccionadas de modo a que as três amostras sejam aleatórias e
independentes entre si. As vendas (em unidades monetárias) registradas
durante este período constam da tabela seguinte.

9a aula (11/05/2015) MAE229 22 / 24


Campanha 1 Campanha 2 Campanha 3
8 10 7
6 8 5
5 12 8
6 7 6
7 9 7
10 5
11
Total 32 67 38

Seja Yi a v.a. que representa o volume de vendas da loja sujeita à campanha


i (i = 1, 2, 3).

Estatísticas
y 1 = 6.4; y 2 = 9.5714; y 3 = 6.3333; y = 7.611
SQEnt = 44.04; QMEnt = 22.015; SQDen = 30.2476; QMDen = 2.0165

9a aula (11/05/2015) MAE229 23 / 24


• H0 : σ12 = σ22 = σ32 versus H1 : σi2 6= σj2 , para algum par (i, j)

• QMDen = 22.015

• M = 1.065

• C = 1.09167
M
• ∼ χ2
C H0 (2)
• RC = (9.21, +∞)

• M/C = 0.976 ∈
/ RC

Ao nível de significância de 0.01, não se pode rejeitar a hipótese de que as


três variáveis populacionais tenham iguais variâncias.

TABELA ANOVA

9a aula (11/05/2015) MAE229 24 / 24

Você também pode gostar