Você está na página 1de 10

Capítulo 11 – Análise de Variância (ANOVA)

11-1 Introdução

11-2 ANOVA com um fator

11-3 ANOVA com dois fatores

Seção 11-1 Introdução


 A análise de variância (ANOVA) é um método que permite o teste de
hipótese sobre se as médias de populações (usualmente três ou mais) são
iguais. Na ANOVA o termo variância refere-se ao método usado e não à
estatística que está sendo testada, que é a média.

 Exemplo:
H0: µ1 = µ2 = µ3 = . . . µk
H1: pelo menos uma média é diferente

Atenção! >>> Um teste com 95% de confiança para um grupo de três médias
por exemplo (µ1 = µ2 = µ3), não equivale a três testes com 95% confiança
cada um deles para cada um dos pares encadeados (µ1 = µ2 e µ1 = µ3 e µ2 =
µ3). O nível de confiança conjunto para esse caso seria (0,95)3 = 0,857.
Seção 11-2 ANOVA com um fator
Suponha que temos interesse em uma variável Y (ex: comprimento), e
que poderíamos classificar os dados de acordo com uma característica.

Um fator (ou tratamento em casos experimentais) é uma característica ou


propriedade (exemplo: sexo) que permite classificar os dados em
diferentes “populações” segundo os níveis desse fator (exemplo: fêmea e
macho).

Poderíamos então usar uma ANOVA para testar se as médias de


comprimento de fêmeas e machos são iguais.

Requisitos:

1. As populações têm distribuições aproximadamente normais (ver os


painéis b e c da próxima figura para uma ilustração).

2. As populações têm a mesma variância (σ2e). “Homocedasticidade”

3. Há independência entre as observações dentro de cada população.

4. Há independência entre as observações de uma e outra população.


O objetivo é estimar µ, µi, i=1,…,k
H0: µ1 = µ2 = µ3 = . . . µk (µ único)
H1: µ1 ≠ µ2 para algum par (i,j)
Desenvolvimento da abordagem …
Exemplo para o caso de um fator com
dois níveis (i={1,2}):
Um modelo conveniente para a situação, em que
consideramos uma média para cada caso seria:
yij = µ i + eij “modelo 1”
Assim cada observação y corresponderia à média
do grupo a que ela pertence mais uma medida de
erro (e) em torno da média. Esse erro, como pode
ser visto na figura ao lado, deve seguir uma
distribuição normal com variância igual para todas
os grupos (σ2e).
As estimativas para a média populacional de cada
grupo é a média amostral para o grupo:

µˆ i =1 = y1 µˆ i = 2 = y2
A soma dos quadrados dos resíduos (SQRes) para ambos os grupos, também denominada de soma dos
quadrados devido ao erro ou dentro dos grupos (SQDen), que é uma medida da variação residual se
usamos o modelo 1:
SQDen = SQ Re s = ∑ ( y1 j − y1 ) + ∑ ( y2 j − y2 ) = ∑∑ ( yij − yi )
2 2 2

j j i j

mas como: Si2 = ∑ ( yij − yi ) 2 ( ni − 1) então: SQDen = (n1 − 1) S12 + (n2 − 1) S 22 = ∑ (ni − 1) Si2
j
A partir de SQDen pode ser então estimada uma variância comum a todos os grupos (S2e) como a
média ponderada (com os graus de liberdade como peso) das variâncias dentro de cada um dos grupos.
Esse valor é também denominado de quadrado médio dentro dos grupos (QMDen):
n = ∑ ni
QMDen = S 2
=
∑ (n − 1) S
i i
2

=
SQDen onde
e
∑ (n − 1)
i n−k k = número de grupos
n − k = graus de liberdade
Se optarmos por usar um modelo mais simples, em que consideramos desnecessário usar uma média
para cada um dos i grupos, temos: yij = µ + eij “modelo 2”

A estimativa para a única média populacional é a média amostral de todos os valores: µ̂ = y


Nesse caso a soma dos quadrados é dita total (SQTot), que é uma medida da variação total se usarmos o
modelo mais simples (modelo 2):
SQTot = ∑∑ ( yij − y ) 2 os graus de liberdade para essa soma dos quadrados é n −1
i j
A parcela da variação total eliminada (ou explicada) quando usamos o modelo mais completo (modelo 1)
é denominada de soma dos quadrados entre grupos (SQEnt) ou soma dos quadrado do fator:
SQEnt = SQTot − SQDen = ∑∑ ( yij − y ) 2 − ∑∑ ( yij − yi ) 2 = ∑ ni ( yi − y ) 2
i j i j

Aqui chamamos de coeficiente de explicação a proporção da variação total que pode ser
explicada pelo modelo: 2 SQEnt
R =
SQTot
Os graus de liberdade para SQEnt é obtido pela diferença dos graus de
liberdade de SQTot e SQDen: (n − 1) − ( n − k ) = k − 1

que agora podem ser usados para obtermos uma SQEnt


estimativa de quadrado médio entre grupos: QMEnt =
k −1
Chegamos finalmente a uma estatística que pode ser calculada para testarmos a hipótese de interesse:

SQEnt ∑n (y i − y)2
i
QMEnt com k - 1 graus de liberdade no numerador e n -k
F= = k −1 = k −1
graus de liberdade no denominador
QMDen SQDen ∑ (ni − 1)Si2
n−k n−k
variância entre amostras
F=
variância dentro das amostras
Como você deve imaginar há muitos recursos computacionais que
facilitam esses cálculos. No entanto é importante que você saiba
interpretar os resultados desse tipo de análise!

Independente do recurso computacional utilizado para a análise, usualmente os resultados são


resumidos em uma tabela similar a essa:

Análise de Variância (ANOVA)


Fonte da variação gl SQ MQ F Pr(>F)
Entre (Fator) k-1 SQEnt MQEnt MQEnt/MQDent valor de P
Dentro (Erro) n-k SQDen MQDent
Total n-1 SQTot
A interpretação é que se F estiver na região crítica, ou mais especificamente se o valor de P for
muito pequeno rejeita-se a hipótese nula (H0: µ1 = µ2 = µ3 = . . . µk ou seja de µ único) pois o uso de
mais de uma média resulta na explicação de uma parcela significativa da variação total.
Exemplo: Pesos de uma espécie de peixe em três áreas diferentes
Dadas as informações da tabela use o STATDISK, o Minitab, o Excel, a dados
var1 var2 var3
TI-83 PLUS e o R para testar a afirmativa de que as três amostras 58.2 85.3 69.4
provêm de populações cujas médias não são as mesmas. 73.4 84.3 64.2
73.1 79.5 71.4
H0: µ1 = µ2 = µ3
64.4 82.5 71.6
H1: pelo menos uma das médias difere das demais 72.7 80.2 68.5
89.2 84.6 51.9
43.9 79.2 72.2
76.3 70.9 74.4
As saídas típicas dos diferentes programas contêm resultados similares
76.4 78.6 52.8
aos mostrados na tabela geral abaixo (ver exemplos no próximo slide) 78.9 86.2 58.4
69.4 74.0 65.4
72.9 83.7 73.6

O valor de P é pequeno, portanto rejeitamos Ho e há evidências que dão


suporte à afirmativa de que as amostras provêm de populações que têm
médias diferentes.
Exemplo: Pesos de uma espécie de peixe em três áreas diferentes
Dadas as informações da tabela use o STATDISK, o Minitab, o Excel, a dados
var1 var2 var3
TI-83 PLUS e o R para testar a afirmativa de que as três amostras 58.2 85.3 69.4
provêm de populações cujas médias não são as mesmas. 73.4 84.3 64.2
73.1 79.5 71.4
H0: µ1 = µ2 = µ3
64.4 82.5 71.6
H1: pelo menos uma das médias difere das demais 72.7 80.2 68.5
O valor de P é pequeno, portanto rejeitamos Ho e há evidências que dão 89.2 84.6 51.9
43.9 79.2 72.2
suporte à afirmativa de que as amostras provêm de populações que têm 76.3 70.9 74.4
médias diferentes. 76.4 78.6 52.8
78.9 86.2 58.4
69.4 74.0 65.4
72.9 83.7 73.6

Analysis of Variance Table R


Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x 2 1338.00 669.00 9.4695 0.0005621***
Residuals 33 2331.39 70.65
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Intervalos de Confiança e Comparações entre Médias
Os cálculos de intervalos de confiança para as estimativas das médias seguem dos
princípios já vistos anteriormente.
yi ± Erroi
Erroi = t n − k ,α / 2 ⋅ S e / ni
Para a diferença entre duas médias quaisquer, também podemos adaptar elementos que já
forma vistos antes:
( y1 − y2 ) − ( µ1 − µ 2 )
t= ∴ IC ( µ1 − µ 2 ,1 − α ) ⇒ ( y1 − y2 ) ± Erro
1 1
Se ⋅ +
n1 n2
desigualdade de Bonferroni
1 1
Erro = t n*− k ,α / 2 ⋅ S e ⋅ + α* =α / m m - número de comparações pareadas
n1 n2

Se rejeitamos H0 podemos avaliar quais foram as médias que diferiram entre e que levaram
à rejeição, com o auxílio do intervalo de confiança mostrado acima. Por exemplo se
encontrarmos um Erro = 15 para 95% de confiança. Significa que duas médias cujas
diferenças superam 15 seriam as causas da rejeição de H0 em teste com 95% de confiança.

Teste de Homocedasticidade

Uso do computador para a realização do teste de Bartlett.


Seção 11-3 ANOVA com dois fatores
Exemplo:
Os dados são separados em
categorias usualmente
denominadas de células.

Há interação entre dois fatores


se o efeito de um deles muda
para as diferentes categorias
do outro fator.

Os cálculos para uma ANOVA de dois fatores são trabalhosos e


programas de computador devem ser usados para esse fim.
Teste para a
interação entre os
dois fatores

Pare. Não é
Sim adequado
Há efeitos
considerar os efeito
devido a
de um fator sem
interação ? Rejeita-se Ho
que afirma
levar o outro em
que não há conta.
interação

Não
Não rejeita-se Ho que afirma que não há interação

Teste para a o efeito


do primeiro fator Procedimento para a
avaliação dos resultados
de uma ANOVA para dois
Teste para a o efeito
do segundo fator fatores

Você também pode gostar