Você está na página 1de 53

Docente : Elisete Correia

(ecorreia@utad.pt)
Análise de Variância (ANOVA)

A Regressão Linear visa modelar uma variável resposta


numérica (quantitativa), à custa de uma ou mais variáveis
preditoras, igualmente numéricas.

Mas a variável resposta numérica pode depender de uma


ou mais variáveis qualitativas (categóricas), ou seja, de um
ou mais fatores. Neste caso pode ser útil uma Análise de
Variância, metodologia estatística desenvolvida nos anos 30
por R.A. Fisher.

2
Modelo ANOVA
Modelo de efeitos fixos- os K tratamentos foram selecionados,
especificamente, pelo investigador. As conclusões da análise dizem
respeito somente a estes tratamentos não podendo as conclusões ser
estendidas a outros tratamentos semelhantes que não tenham sido
considerados na análise.

Modelo de efeitos aleatórios- os K tratamentos foram selecionados,


aleatoriamente, de uma população maior de tratamentos. As conclusões
da inferência estatística podem ser estendidas a todos os tratamentos da
população quer tenham ou não sido considerados na análise.

3
Análise de Variância (ANOVA)

O método estatístico apropriado para testar a igualdade dos valores


médios, de mais de dois grupos é a Análise de Variância (ANOVA).

Terminologia:

Variável resposta X: uma variável numérica (quantitativa), que se


pretende estudar e modelar.

Fator : uma variável preditora qualitativa (categórica);

Níveis do fator : os “valores” (distintas categorias) do factor, ou seja,


as diferentes situações onde se poderá fazer leituras do valor de X.

4
ANOVA a um Fator
A variável resposta (numérica) depende de um só fator com k níveis.
São efetuadas observações da variável X nas k diferentes situações
experimentais.

Admite-se que os valores de X poderão variar por corresponderem a


níveis diferentes do fator, ou ainda devido a flutuação aleatória.

Admita-se que temos n observações independentes de X, sendo ni (i =


1, ...,k) correspondentes ao nível i do fator. Logo,

n1+n2+…+nk=n

Obs: Quando o número de observações em cada grupo é igual diz-se que temos um planeamento
equilibrado.

5
ANOVA a um fator efeitos fixos
Modelo
X ij     i   ij , i  1, 2, ..., k, j  1, 2, ..., ni
k
 i  0
i 1

em que:

X ij = é o valor da variável aleatória que representa a resposta do j-ésimo


indivíduo do i-ésimo tratamento
 = média geral das observações
i = representa o efeito do nível i do fator. Desvio médio das observações
do nivel i em relação a 
 ij = erro experimental aleatório associado à ij-ésima observação.
 ij são var. aleatórias normais de variância constante e independentes.

  ij ~ N (0, ). 2
O nome análise da variância deriva da partição da variabilidade total nos dados
(desvio quadrático das observações da sua média) em duas componentes: a
variabilidade devida aos efeitos dos tratamentos e a variabilidade devida aos
erros aleatórios.
SQT
  SQTrat .  SQE


var iabilidade variabilidade variabilidade
total das observações devido ao Trat. devido ao Erro

k ni
numerador da variância amostral, S2x , da totalidade
SQT    ( x ij  x ) 2

i 1 j 1
das n observações de X

k
SQTrat   n i ( x i  x ) 2 medida da variabilidade das k médias de nível
i 1 (variabilidade inter-níveis);

k ni k
SQE    ( x ij  x i ) 2
  i
( n  1)Si
2

i 1 j 1 i 1

soma ponderada das variâncias amostrais de Y em


cada um dos k níveis(variabilidade
intra-níveis) 7
Modelo ANOVA

- A hipótese nula representa a igualdade de médias (não existem


diferenças entre as médias das populações entre os k grupos), ou de
outra forma não existirem efeitos dos tratamentos (efeitos nulos);

- A hipótese alternativa representa a existência de diferenças entre


as médias das populações (pelo menos dois grupos terão valores
significativamente diferentes de média), ou seja,

H 0 : 1   2     k ou 1   2     k  0 
vs
H1 : existe pelo menos um (i, j) tal que i   j

8
Modelo ANOVA

Um teste de significância ao nível  tem como hipótese nula H0


que as médias das K populações são idênticas é dado pela seguinte
regra:

QMTrat.
Rejeitar H 0 se  F( k 1, N  k , )
QMErro

Região critica: unilateral à direita


Apresentando-se os valores numa tabela ANOVA :

TABELA ANOVA
Fonte da Soma de Graus de Quadrados Médios F Ratio
Variação Quadrados liberdade

Entre os SQTrat k–1 QMTrat.=SQTrat./(K-1) F =QMTrat/


Grupos
QMErro

Erro amostral SQErro = n–k QMErro =SQErro/(N-k)

Total SQT n-1


Modelo ANOVA

O valor de QME é usado para estimativa da variância (residual),

SQE
ˆ  QME 
2
NK

pode ser usado para a construção de intervalos de confiança para a


média de um grupo, ou para a diferença de médias de dois grupos:


Xi  X j  i   j ~t
X j   j Z (N k)
Z ~ t (N k) 1 1
MQE  
MQE / n i  ni n j 
 

11
Pressupostos ANOVA

- Temos k grupos de observações independentes (amostras


aleatórias) sendo os grupos independentes entre si.

- Cada grupos de observações deve provir de uma população


Normal
- A variância das k populações deve ser a mesma (homogeneidade de
variâncias).

O teste não é grandemente afetado por violações da hipótese de


normalidade:
• quando as populações são unimodais
• se os tamanhos das amostras são aproximadamente
iguais
12
ANOVA -1 Fator, Efeitos Fixos Exemplo 1
Instituto Custo incorrido/Custo
Previsto
Um determinado departamento
governamental decidiu analisar os A 1.0 0.8 1.9 1.1 2.7
custos associados a diferentes
projetos, calculando, para cada um B 1.7 2.5 3.0 2.2 3.7
deles, a razão entre o custo final
incorrido e o custo inicialmente
C 1.0 1.3 3.2 1.4 1.3
previsto. Para cada projeto, ambos
os custos foram expressos numa
D 3.8 2.8 1.9 3.0 2.5
base constante.

 Fator: instituto- 4 grupos =4 níveis:


Teste ANOVA A, B, C, D; com 5 observações por
H0: μ1= μ2 = μ3 = μ4 vs
grupo.

H1: existe pelo menos uma média  Variável resposta (variável


diferente das restantes. dependente)- X- custos associados
13
ANOVA -1 Fator, Efeitos Fixos Exemplo 1

Antes de realizar a ANOVA paramétrica convém comparar graficamente


a distribuição dos dados, através da construção do diagrama de
extremos e quartis

Por análise do gráfico


observa-se que as
medianas dos três grupos
são diferentes e que em
termos de variabilidade
dos dados também
existem diferenças.

14
ANOVA- Exemplo 1

Antes de realizar a ANOVA paramétrica devemos verificar se as observações de


cada grupo provém de uma distribuição normal

Pressuposto da normalidade: Teste K-S.


Qualquer que seja o grupo o p-value>0.05, logo podemos afirmar que os
dados do grupo i, i=1, 2, 4 provêm de uma população Normal.
15
ANOVA Paramétrica-Teste de Levene

 O teste de Levene é um teste bastante robusto que para comparar as


variâncias dos grupos recorre a uma análise de variâncias aos
módulos das diferenças das observações em relação à sua média
(dentro de cada grupo.)

 Quando os grupos têm tamanhos idênticos, a ANOVA é robusta


quanto à violação do pressuposto da igualdade de variâncias dos
grupos.

 Quando os grupos têm tamanhos e variâncias diferentes é


preferível realizar testes mais robustos de igualdade de médias
utilizando a estatística de Brown-Forsythe ou Welsh .
Teste de Levene-SPSS
Teste de Levene- Exemplo 1

Conclusão:

p-value=0.938>0.05, as variâncias dos 3 grupos podem ser assumidas


como iguais.

19
ANOVA -1 Fator, Efeitos Fixos Exemplo 1

O valor de prova= P(F>Fobs|H0), é 0.038 < 0.05 rejeitamos a


hipótese nula, ou isto é existe pelo menos uma média diferente das
restantes.
Observações:
A variabilidade entre os
Fobs.= QMTrat/QMErro = 2,209/0,620=3,563 grupos é 3,563 vezes maior
do que a variabilidade
dentro dos grupos
20
ANOVA 1 Fator- SPSS
22
Após a ANOVA o quê?

Se a análise de variância conduz à rejeição da hipótese nula de


igualdade das médias dos diversos tratamentos, somos levados a
concluir que os efeitos dos tratamentos não são todos iguais. Então
quais são exatamente os tratamentos que diferem entre si?

O processo mais simples para abordar algumas destas questões é o


velho teste t-Student que vai permitir, apenas para cada par , decidir
se há ou não igualdade. Mas, vários testes t-Student simultâneos
aumentam drasticamente o erro tipo I .

Solução: Devemos usar inferência estatística apropriada para


comparações múltiplas de médias.
Testes de Comparações Múltiplas
Os testes de comparação múltipla são procedimentos estatísticos
desenvolvidos especificamente para examinar simultaneamente pares
de médias amostrais.

A maior parte destes testes baseiam-se no conceito de diferença


mínima significativa (d.m.s.) entre duas médias que estabelece como
critério de decisão que as médias amostrais de dois tratamentos são
consideradas estatisticamente diferentes caso a sua diferença, em
valor absoluto, seja pelo menos o valor da diferença mínima
significativa considerada.
Testes de comparações múltiplas
Método de Fisher ou das diferenças mínimas significativas
(muitas comparações t aumenta o erro tipo I)

Método de Duncan (ANOVA balanceada (equilibrada) e usa tabela


própria de comparações (tabela de Duncan)

Método de Dunnett (ANOVA balanceada e só se aplica para


comparar tratamentos com um controlo)

Método de Scheffé (mais robusto a ligeiros desvios da normalidade e


de homocedasticidade)

Método de Tukey (originalmente desenvolvido para ANOVA


balanceada é no entanto robusto a desvios moderados deste
pressuposto. (Para amostras com igual tamanho o teste de Tukey é
mais adequado do que o teste de Scheffé).
A primeira coluna da tabela contém para cada um dos testes pedidos todas as
comparações de pares de médias distintas. A segunda coluna contém a diferença
entre as médias dos dois grupos (Mean Difference), a estimativa do desvio padrão
dessa diferença (Std Error), os p-values (Sig.) dos testes bilaterais e um intervalo
de confiança para cada diferença de médias. Na coluna (Mean Difference)
podemos ver que é colocado um asterisco sempre que o teste conduz à rejeição da
hipótese nula, ou seja quando a diferença entre as médias é considerada
significativa, ao nível de significância especificado. 26
ANOVA- Considerações finais
 Numa ANOVA é conveniente que as unidades experimentais nas
quais se recolhemos dados sejam tão homogéneas quanto possível.

 Qualquer variabilidade não controlada nas unidades experimentais


considerada no modelo como variação aleatória, pelo que irá
contribuir para aumentar o valor de SQE e de QME.

 Aumentar QME significa, no teste aos efeitos do fator, diminuir o


valor calculado da estatística F, afastando-a da região crítica.
Assim, numa ANOVA heterogeneidade não controlada nas unidades
experimentais contribui para esconder a presença de eventuais
efeitos do fator.

27
ANOVA – Um fator efeitos aleatórios

Por vezes os grupos que se consideram numa ANOVA são


escolhidos aleatoriamente entre um conjunto vasto de possibilidades
em vez de serem pré-determinados (fixos).

Neste tipo de contexto o modelo de ANOVA diz-se com efeitos


aleatórios e escreve-se da seguinte forma:

X ij     i   ij , i  1, 2, ..., k, j  1, 2, ..., ni

onde i e  ij são variáveis aleatórias


independentes.

Assume-se que:
  i ~ N (0, 2 ).

  ij ~ N (0, 2 ).
28
ANOVA um fator efeitos aleatórios
Num modelo de efeitos aleatórios a forma mais apropriada de testar a
igualdade das médias é através das hipóteses.

H 0 : σ 2τ  0 vs H1 : σ 2τ  0.

Note-se que se os efeitos tiverem variância nula então a média dos


grupos não poderá variar . Para este modelo mantém-se válida a
decomposição da variabilidade total

SQT  SQTrat .  SQErro


 
variabilidade variabilidade
devido ao Trat. devido ao Erro
ANOVA um fator efeitos aleatórios
Agora tem-se

E[QM Trat ]   2  n 2
E[QM E ]   2

 Tal como no modelo de efeitos fixos, sob a hipótese nula, ambas as


estatísticas QMTrat e QME são estimadores centrados de  2, pelo
que continuamos a utilizar a razão

F = QMTrat / QME
para testar as hipóteses.

 A hipótese é rejeitada para valores elevados da estatística de teste, F.


ANOVA um fator efeitos aleatórios

 Num modelo de ANOVA com efeitos aleatórios é costume


apresentar para além da tabela ANOVA uma estimativa da variância
dos efeitos. Essa estimativa é dada por

QM Trat  QM E
 
2

 Dada a natureza aleatória dos grupos, num modelo de efeitos


aleatórios não faz sentido efetuar uma análise de comparações
múltiplas.
Violações aos pressupostos da ANOVA

Considerações gerais:

 O teste F da ANOVA e o teste de HSD de Tukey são de um modo


geral robustos a desvios à hipótese da normalidade.

 Violações ao pressuposto da homogeneidade das variâncias são


geralmente poucos graves no caso de delineamentos
equilibrados, o mesmo não se verifica em delineamentos não
equilibrados.

 A não independência dos erros é a violação mais grave, a qual


pode ser evitada com a escolha do delineamento experimental
adequado.
32
Análise de variância com dois ou mais fatores -
planeamento fatorial
Na maioria das situações, quando estamos interessados em
estudar a influência de dois ou mais factores numa variável,
utilizamos uma ANOVA fatorial.

Quando um modelo tem todos os fatores com efeitos fixos diz-se que
temos uma ANOVA de efeitos fixos ou um Modelo I de ANOVA.

Quando um modelo tem todos os fatores com efeitos aleatórios diz-


se que temos uma ANOVA de efeitos aleatórios ou um Modelo II de
ANOVA.

Quando um modelo tem alguns fatores com efeitos fixos e outros


com efeitos aleatórios diz-se que temos uma ANOVA de efeitos
mistos ou um Modelo III de ANOVA.
33
ANOVA fatorial - interação entre fatores

Linhas paralelas indicam modelos sem interação entre os fatores


(modelo aditivo).
34
Análise de Variância a dois fatores

Na situação da análise de variância dupla com repetições em cada


célula (réplicas), a forma mais natural de modelar um delineamento
com dois fatores é a de prever a existência de um terceiro tipo de
efeitos: os efeitos de interação.

A ideia é incorporar na equação base do modelo para Xijk uma


parcela
 ij
que permita que em cada célula haja um efeito específico da
combinação dos níveis i do Fator A e j do Fator B.

35
Modelo ANOVA a dois fatores- Modelo I (efeitos fixos)

Modelo estatístico :

X ijk     i   j   ij  eijk , i  1,...,a; j  1,...,b; k  1,...,nij ,

X ijk ~ N ( ij ,  ),
2

2 a b n
eijk ~ N (0,  ),   i    j    k  0
i.i.d i 1 j1 k 1

36
Modelo ANOVA a dois fatores- Modelo I (efeitos fixos)

onde,

 - representa a média global,

 i - representa o efeito do nível i do fator A,


 j - representa o efeito do nível j do fator B,

 ij - representa o efeito da interacção dos fatores A e B

eijk - representa um erro aleatório de cada observação

37
Análise de Variância a dois fatores (efeitos fixos)
Pressupostos:

- ab grupos de observações independentes sendo os grupos


independentes entre si.
- As observações devem provir de uma distribuição normal.
- A variância da todas as populações deve ser a mesma.

Hipóteses a testar:
H0: 1 = 2 = ... = a=0 vs H1: Existe pelo menos um i diferente
de zero (efeito do fator A).

H0: 1 =  2 = ... =  b=0 vs H1: Existe pelo menos um j diferente


de zero (efeito do fator B).

H0: 11 = 12 = ... = 22 =0 vs H1: Existe pelo menos um ij diferente
de zero (efeito da interação).
38
Decomposição da Soma de Quadrados Total
As estatísticas de teste para cada um destes testes obtêm-se a partir
da decomposição da Soma de Quadrados Total em parcelas
convenientes.

Mede a variabilidade
do fator A

Mede a variabilidade
total das obs. Mede a variabilidade
do fator B

Mede os efeitos da
interação

Mede a variabilidade nos


dados devida a fatores
aleatórios: variabilidade não
explicada. 39
Tabela ANOVA
Fonte de Soma de Quadrados g.l. Quadrados F
Variação Médios
QMA
QMA 
SQA Fobs 
Fator A SQA a-1 a 1 QME

QMB
Fator B SQB b-1 QMB 
SQB Fobs 
b 1 QME

QMAB
Interação SQAB (a-1)(b-1) QMAB 
SQAB Fobs 
(a  1)(b  1) QME

SQE
Erro SQE ab(n-1) QME 
abn  1

Total SQT abn-1

40
Regra de decisão

Fator A QM A
Rejeitar H 0 se  Fa 1,ab ( n 1),
QM E

Fator B
QM Blo cos
Rejeitar H 0 se  Fb 1,ab ( n 1),
QM E

Fator Interação
QM AB
Rejeitar H 0 se  F( a 1)(b 1),ab ( n 1),
QM E

onde F v1,v2,  é o valor associado a uma distribuição F Snedecor com


g.l. (v1 , v2 ) cuja probabilidade acumulada acima desse valor é  .
Análise de Variância múltipla no SPSS
A ANOVA com dois ou mais factores pode ser realizada no SPSS no
menu Analyze / General Linear Model / Univariate.

 Na janela principal seleciona-se a variável em estudo (dependent


variable) e selecionam-se os fatores (fixos ou aleatórios) para as
respectivas janelas.

 Por defeito o SPSS assume o modelo fatorial completo (com todas


as interações entre os fatores). Se quisermos especificar um modelo
que não seja este podemos fazê-lo através do botão Model.

42
ANOVA dois fatores Efeitos Aleatórios - Modelo II

Agora para equação do modelo, ter-se-á:

X ijk     i   j   ij  eijk , i  1,...,a;j  1,...,b;k  1,...,n,

 i ~ N (0,   ); 2
 j ~ N (0,   );2
i .i .d ' s i .i .d ' s

 ij ~ N (0,   ) ; eijk ~ N (0,  )


2 2
i .i .d ' s i .i .d ' s

sendo  i ,  j ,  ij , eijk independentes entre si.

43
ANOVA dois fatores Efeitos Aleatórios - Modelo II

Note-se que a variância de qualquer resposta é dada por:

 
V X ijk            , sendo
2 2 2 2
2 ,  2 ,  2 ,  2 ,

designadas por componentes da variância.


Hipóteses a testar
1. H 0 : 2  0 vs H1 : 2  0 (factor A)

2 0
2. H 0 :   vs 2  0 (factor B)
H1 :  

3. H 0 :  2  0 vs H1 :  2  0 (factor AB).

As estatísticas de teste para testar as hipóteses 1, 2 e 3 são as do


Modelo 1
44
ANOVA dois fatores Efeitos Aleatórios - Modelo II

Demonstrar-se que os valores esperados dos quadrados médios são da


forma:

  QM E
ˆ 2
QM AB  QM E
 
2

n

QM A  QM E QM B QM E
ˆ 

2

bn
  2
 an

45
A distribuição das médias de células

2
Como X ij . ~ N ( ij , ), ij , temos
nij

Yij.  ij
~ N (0, 1)
 2
nij

Substituindo a variância residual, σ², pelo seu estimador centrado


QME, obtemos uma distribuição t-Student com graus de liberdade
iguais aos do SQE
X ij .  ij
~ t ab(n  1) 
QM E
nij
46
Intervalo de confiança para médias de
célula
A partir deste resultado obtém-se um intervalo de confiança (1-α)x
100% de confiança para a média populacional da célula (i,j), μij.

 QM E QM E 
 X ij.  t  / 2; ab ( n 1) , X ij.  t  / 2; ab ( n 1) 
 n ij n ij 

47
Testes de hipóteses para a média μij da célula (i,j)
Sendo válido o Modelo ANOVA a 2 Fatores, com interação, tem-se:


H 0 : ij  c vs H1 : ij  c

Estatística de teste

X ij .   ij H 0
T  ~ t ab( n  1) 
QM E / nij

48
Região crítica: Rejeitar H0 se

Tcalc  t , ab(n 1) unilateral esquerdo 


Tcalc  t / 2, ab(n 1) bilateral 

Tcalc  t , ab(n 1) unilateral direito 

Pressupostos da ANOVA-SPSS

Para averiguar o pressuposto da homogeneidade das variâncias


podemos utilizar o teste de Levene disponível no SPSS:
Analize>General Linear Model>Univariate >Options> Homogeneity
tests.
49
ANOVA- Comparações Múltiplas

Tal como na ANOVA 1 fator, quando se rejeita a hipótese nula


pode-se proceder a testes de comparações múltiplas para averiguar
quais os pares de níveis que apresentam diferenças significativas.

No SPSS estes testes estão disponíveis na opção Post Hoc do


menu ANOVA .

50
Métodos não paramétricos de tipo ANOVA
Métodos não paramétricos são métodos em que não se exigem hipóteses tão
fortes como os métodos clássicos, como seja a hipótese de normalidade. A
sua maior generalidade tem como contrapartida uma menor capacidade de
rejeitar as hipóteses nulas caso elas sejam falsas (i.e., têm menor potência),
quando os pressupostos adicionais dos métodos clássicos são válidos.

Embora nem sempre, com grande frequência os métodos não paramétricos


substituem os valores observados da variável resposta pelas ordens (ranks)
dessas observações. As estatísticas de teste são então funções dessas ordens.

Os métodos não paramétricos são uma alternativa viável quando haja


violação grave dos pressupostos dos modelos ANOVA clássicos.

51
Métodos não paramétricos de tipo ANOVA

O teste de Kruskal-Wallis é uma alternativa não paramétrica à


ANOVA 1 Fator, em que:

 Cada observação é substituída pela sua ordem;

A estatística de teste compara as ordens médias em cada nível do


factor com a ordem média global.

A hipótese nula é que nos vários níveis do fator as observações


seguem a mesma distribuição.

A hipótese alternativa é que a distribuição dos vários níveis difere


apenas nas suas localizações (medianas).

52
Métodos não paramétricos de tipo ANOVA

O teste de Friedman é uma alternativa não paramétrica à ANOVA


com blocos, ou seja, a fatores, sem interação, nem repetições nas
células, em que:

Cada observação é substituída pela sua ordem no seio do seu bloco;

A estatística de teste compara as ordens médias em cada nível do


fator com a ordem média global.

A hipótese nula é que nos vários níveis do fator as observações


seguem a mesma distribuição, excepto devido a translações associadas
a cada bloco.

A hipótese alternativa é que a distribuição dos vários níveis difere


também devido a translações associadas aos níveis do fator.
53