Você está na página 1de 17

UNIVERSIDADE FEDERAL DO PARÁ

INSTITUTO DE TECNOLOGIA
FCULDADE DE ENGENHARIA QUÍMICA

Prof. Lênio J. G. de Faria

ANÁLISE DE VARIÂNCIA (ANOVA) COM UM FATOR - PARTE B

COMPARAÇÃO DE MÉDIAS: TESTES ESTATISTICOS


(TESTES “t” e de TUKEY)

Quais são as médias que diferem entre si, quando a ANOVA


indica que elas não são estatisticamente iguais?

Para obter a “diferença mínima significante”, ou dms,


estabelecida pelo teste t e pelo teste de Tukey, basta calcular:

a) Para r constante (mesmo número de repetições):

Teste “t”:

Onde o valor de t (tabelado) é obtido em função de alfa (α/2) e


dos graus de liberdade do resíduo; QMR é o quadrado médio do
resíduo da ANOVA e r é o número de repetições de cada tratamento.
Teste de Tukey:

Onde o valor de q (amplitude estudentizada - tabelado) é obtido


em função de alfa, dos graus de liberdade do resíduo e do número de
tratamentos; QMR é o quadrado médio do resíduo da ANOVA e r é o
número de repetições de cada tratamento.

a) Para r diferente (número diferente de repetições):

Teste “t”:

Teste de Tukey:

Toda vez que o valor absoluto da diferença entre duas médias é


igual ou maior que o valor da dms, as médias são estatisticamente
diferentes, ou seja:

são diferentes
EXEMPLO

Um fabricante de papel usado para fabricar sacos está interessado na


resistência do produto à tração. A engenharia do produto pensa que a
resistência à tração seja uma função da concentração de fibras
vegetais na polpa e que a faixa prática de interesse das concentrações
de fibras esteja entre 5 e 20%. Decide então investigar quatro níveis de
concentração de fibras: 5%, 10%, 15% e 20%. São construídos seis corpos-
de-prova para cada nível de concentração, usando uma planta-piloto.
Todos os 24 corpos-de-prova são testados, em uma ordem aleatória, em
um equipamento de teste de laboratório. Os dados desse experimento
são mostrados na Tabela 1.
Tabela 1. Resistência do papel à tração (lbf/in2)
Concentração de fibras Observações
Totais Médias
(%) 1 2 3 4 5 6
5 7 8 15 11 9 10 60 10,00
10 12 17 13 18 19 15 94 15,67
15 14 18 19 17 16 18 102 17,00
20 19 25 22 23 18 20 127 21,17
383 15,96

a) Faça a análise de variância para a resistência à tração do


papel;
b) Faça um teste hipóteses e interprete os resultados. Use α = 0,05;
c) Faça uma comparação entre as médias dos tratamentos;
d) Faça a análise de resíduos.

Solução:

A) Graus de Liberdade:
De tratamento: k – 1 = 4 – 1 = 3
Do total: n – 1 = 24 – 1 = 23
Do resíduo: n – k = 24 – 4 = 20
B) Valor de C:

C)

D)

E) SQR = 512,96 – 382,79 = 130,17

F) QMTr = (382,79 / 3) = 127,60

G) QMR = 130,17 / 20 = 6,51

H) F = 127,60 / 6,51 ≈ 19,60

Assim, por meio de cálculo analítico, obtêm-se os dados da Tabela 2:


Tabela 2. ANOVA a partir dos dados do Exemplo
Causas de variação GL SQ QM F
Tratamentos 3 382,79 127,60 19,60
Resíduo 20 130,17 6,51
Total 23 512,96

Hipóteses:

H0: A resistência mecânica dos sacos de papel é igual. Os


tratamentos não influenciam a resistência à tração dos sacos de papel
fabricados com as 4 concentrações de fibras utilizadas.

H1: Pelo menos um dos sacos de papel apresenta resistência


mecânica à tração, em média, diferente dos demais.

Usando a distribuição F, para o nível de confiança 95%, com 3


graus de liberdade para o numerador (tratamentos) e 20 graus de
liberdade para o denominador (resíduo), temos:
F0,05; 3; 20 = 3,10 (F tabelado )
O valor de F calculado na ANOVA é: 19,60
Conclui-se então pela rejeição da hipótese nula, ou seja, pelo
menos um dos sacos de papel apresenta resistência mecânica à
tração, em média, diferente dos demais.

Teste de Tukey:

Sabendo-se que alfa é igual a 0,05; QMR vale 6,51 (Tabela da


ANOVA), GL do resíduo vale 20, r (réplicas) é igual a 6 e k = 4 (número
de tratamentos), o valor de q tabelado e a dms são:

q0,05;4;20 = 3,96

Assim, as médias são estatisticamente diferentes se:

As diferenças de médias são:

A Figura 1 mostra o gráfico de médias para o experimentos:


Médias (resistência a tração) versus tratamentos (concentração de
fibras).
24

22

Resistência Mecânica à Tração 20

18

16

14

12

10

8
5 10 15 20

Concentração de Fibras

Figura 1. Gráfico de médias

Verifica-se que as médias correspondentes a 2 e 3 são


estatisticamente iguais e que a menor e maior média são 1 e 4,
respectivamente. Como se deseja maximizar a resistência mecânica à
tração dos corpos de prova, a média ótima é a maior, ou seja, a com
20% de fibras.

MODELO DO EXPERIMENTO

Os dados obtidos de um experimento inteiramente ao acaso, ou


seja, as respostas das unidades dos tratamentos podem ser escritos na
forma do modelo:

Resposta = Média do Tratamento + Erro

Ou formalmente pela equação:

O modelo indica que uma resposta de uma unidade


experimental do tratamento é dada pela média verdadeira de todas as
respostas possíveis (µi) acrescida de uma quantidade εij, denominada
de erro.
A análise de variância de um experimento inteiramente ao acaso
exige que sejam feitas algumas pressuposições sobre os erros, sem as
quais os resultados da análise não são válidos. As pressuposições são:

a) Os erros são variáveis aleatórias independentes;


b) A variância é constante;
c) A distribuição dos erros é normal ou aproximadamente normal.

ANÁLISE DE RESÍDUOS:

Não é possível conhecer as médias verdadeiras dos tratamentos


nem os erros. No entanto se fazem experimentos para se obter as
estimativas dessas médias. Da mesma forma não se conhecem os erros
porque eles são definidos em função das médias verdadeiras. Contudo
os erros também podem ser estimados fazendo-se a diferença entre
cada dado experimental e a média do tratamento a que ele pertence.

O modelo da análise de variância de um critério (ou de fator


único) supõe que as observações sejam distribuídas normal e
independentemente, com a mesma variância em cada tratamento ou
nível do fator. Essas hipóteses devem ser verificadas pelo exame dos
erros ou resíduos.

Define-se então o erro ou resíduo como sendo a diferença entre o


valor de uma observação e a média do tratamento correspondente:

O cálculo dos resíduos para o exemplo em questão, consta na


Tabela 3:

Tabela 3. Resíduos em função dos tratamentos

Concentração Resíduos
de Fibras 1 2 3 4 5 6
5% -3,00 -2,00 5,00 1,00 -1,00 0,00
10% -3,67 1,33 -2,67 2,33 3,33 -0,67
15% -3,00 1,00 2,00 0,00 -1,00 1,00
20% -2,17 3,83 0,83 1,83 -3,17 -1,17

DADOS DISCREPANTES
Um dado discrepante é um valor muito maior ou menor do que o
valor esperado. Em um gráfico de resíduos padronizados versus
tratamentos, cerca de 67% dos resíduos padronizados devem estar no
intervalo -1 e +1 e cerca de 95% devem estar no intervalo -2 e +2.
Valores fora do intervalo -3 e +3 são suspeitos. Todo valor suspeito deve
ser discutido e se houver erros de registro ou de medida, eles devem
ser corrigidos.

Resíduo Padronizado:

O resíduo padronizado (Zij) é dado por:

Onde eij são os resíduos e QMR é o quadrado médio dos resíduos,


dado na tabela da ANOVA. Sua raiz quadrada corresponde ao
desvio-padrão amostral.

Tabela 4. Resíduos (para a construção das Figuras 1 e 2)

Concentração Resíduo
Resíduo
de Fibras Padronizado
5 -3,00 -1,18
5 -2,00 -0,78
5 5,00 1,96
5 1,00 0,39
5 -1,00 -0,39
5 0,00 0,00
10 -3,67 -1,44
10 1,33 0,52
10 -2,67 -1,05
10 2,33 0,91
10 3,33 1,31
10 -0,67 -0,26
15 -3,00 -1,18
15 1,00 0,39
15 2,00 0,78
15 0,00 0,00
15 -1,00 -0,39
15 1,00 0,39
20 -2,17 -0,85
20 3,83 1,50
20 0,83 0,33
20 1,83 0,72
20 -3,17 -1,24
20 -1,17 -0,46

Pela análise do gráfico da Figuras 1 conclui-se que não há dados


discrepantes (outlier), pois todos os resíduos padronizados encontram-
se no intervalo entre -2 e +2.

2,0

1,5

1,0
RESÍDUOS PADRONIZADOS

0,5

0,0

-0,5

-1,0

-1,5

-2,0
5 10 15 20

TRATAMENTOS

Figura 1. Resíduo padronizado versus tratamentos

INDEPENDÊNCIA DOS RESÍDUOS

Ao se fazer a Análise de Variância (ANOVA) é preciso pressupor


que os erros ou resíduos são variáveis aleatórias independentes. Se não
forem, a ANOVA estará seriamente comprometida. Para se avaliar a
independência dos resíduos faz-se um gráfico dos resíduos
padronizados contra a ordem em que as observações foram
coletadas, no tempo ou no espaço. No caso do exemplo, em função
dos tratamentos. Se a pressuposição de independência estiver
satisfeita, os resíduos devem ficar dispersos em torno do zero, sem um
padrão definido, ou seja, apresentar uma distribuição aleatória.
Se os resíduos tiverem uma clara correlação com a ordem de
tomada dos dados, não se pode pressupor independência. A não-
independência constitui-se num grave problema para a ANOVA
porque o nível de significância se torna muito maior do que o
informado. Além disso, o problema da dependência dos erros é muito
difícil de corrigir.
Pelo exame das Figuras 1, 2 e 3 constata-se que os dados são
independentes, pois os mesmos estão distribuídos aleatoriamente,
tanto os relativos aos resíduos originais (Figura 2) quanto os resíduos
padronizados (Figura 1) contra os tratamentos, como na Figura 3, onde
os dados padronizados estão graficados versus a ordem de
observações.

2
RESÍDUO

-1

-2

-3

-4

-5
5 10 15 20

TRATAMENTOS

Figura 2. Resíduo versus tratamentos


2,5

2,0

1,5

1,0
Resíduo Padronizado

0,5

0,0

-0,5

-1,0

-1,5

-2,0
0 2 4 6 8 10 12 14 16 18 20 22 24 26

Ordem de Observação

Figura 3. Resíduo padronizado versus ordem de observações

VARIÂNCIA CONSTANTE

Se a suposição de independência dos dados for aceita, deve-se


então verificar se as variâncias são constantes ou homogêneas, ou
seja, se existe homocedasticidade.
No caso do exemplo, um experimento inteiramente ao acaso,
convém verificar se as variâncias de tratamentos são iguais.
Uma regra prática sugere supor que os resultados de uma análise
de variância sejam considerados válidos desde que a maior variância
não exceda em três vezes a menor.

Na Tabela 5 estão calculadas as variâncias dos tratamentos para


o exemplo em questão. Verifica-se que como a maior variância é 8,00
e a menor é 3,20. Então, pela regra prática tem-se:
Ou seja, é razoável supor que as variâncias são iguais.

Tabela 5. Médias, variâncias e desvios-padrão do exemplo

Concentração de Fibras (%)


Estatística
5 10 15 20
Média 10,00 15,67 17,00 21,17
Variância 8,00 7,87 3,20 6,97
Desvio-padrão 2,83 2,80 1,79 2,64

Outra regra prática para pressupor igualdade de variâncias


consiste em se fazer tratamentos similares e que tenham o mesmo
número de repetições (experimentos balanceados).
Pode-se também construir um gráfico, ou diagrama de dispersão,
dos desvios-padrões contra as médias e estudar a correlação entre
eles. Se não houver correlação entre essas duas estatísticas, é razoável
aceitar a pressuposição de homocedasticidade.
No caso em estudo, observe o gráfico da Figura 4. Nota-se que
não há correlação entre médias e desvio-padrão, ou seja, os desvios-
padrão não aumentam quando as médias aumentam.
3,0

2,8

2,6
Desvio-padrão

2,4

2,2

2,0

1,8

1,6
8 10 12 14 16 18 20 22

Média

Figura 4. Correlação entre média e desvio-padrão

DISTRIBUIÇÃO NORMAL

Para saber se é razoável pressupor que os erros têm uma


distribuição de probabilidade normal, deve-se fazer um gráfico de
probabilidades normais, onde os resíduos padronizados são colocados
no eixo das abscissas e os escores de uma distribuição normal no eixo
das ordenadas.
Se as pressuposições de normalidade dos erros forem válidas e se
não existirem valores discrepantes, então os resíduos padronizados
parecerão observações independentes de uma distribuição normal
padronizada.
No gráfico de probabilidade normal, os pontos ficarão em torno
de uma reta que passa pela origem e possui coeficiente angular igual
a 1, ou seja, uma reta de 45º.
Observe a Figura 5, obtida com auxílio do software Statistica
versão 7.0, que representa o gráfico de probabilidade normal dos
resíduos do exemplo em questão. Pelo exame do referido gráfico não
há elementos para contestar a normalidade dos resíduos.

2,5

2,0

1,5

1,0
Valor Normal Esperado

0,5

0,0

-0,5

-1,0

-1,5

-2,0

-2,5
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5

Resíduo Padronizado

Figura 5. Gráfico de probabilidade normal

A hipótese de normalidade dos erros pode ser colocada em teste.


Aplicam-se os chamados testes de aderência, onde os mais
conhecidos são os testes de Kolmogorov-Smirnov e o teste de Shapiro-
Wilks. Ambos podem ser realizados com auxílio dos programas
Statistica e Minitab.
A Figura 6 representa o teste de normalidade de Kolmogorov-
Smirnov (KS) obtido com auxílio do software Minitab 14. Nessa figura o
valor de p (probabilidade de significância) representa a probabilidade
de aceitação da hipótese nula.
A hipótese nula refere-se à afirmação de que os resíduos são
normais, ao passo que a hipótese alternativa nega o comportamento
normal dos resíduos. Observa-se no gráfico da Figura 6 que o valor de
p é superior a 15%, ou seja, o valor de p > 0,15. Assim, ao nível de
significância 5% (α = 0,05) não há razão para duvidar da normalidade
dos resíduos. Use a regra:
99
Mean -0,0008333
StDev 0,9328
N 24
95
KS 0,097
90 P-Value >0,150

80
70
Percentagem

60
50
40
30

20

10

1
-2 -1 0 1 2
Residuo padronizado

Figura 6. Teste de normalidade de Kolmogorov-Smirnov

Em resumo, uma análise de variância só deve ser aplicada a um


conjunto de observações se estiverem satisfeitas as pressuposições de
independência, homocedasticidade e normalidade. Na prática
dificilmente todas essas suposições são satisfeitas. Dessa forma torna-se
importante saber que:

a) A não-independência, Isto é, a correlação entre as


observações é o problema mais grave. Pode comprometer as
inferências sobre as médias, ou seja, as conclusões obtidas da
análise de variância e dos testes de comparação de médias;
b) Variâncias diferentes (heterocedasticidade) têm usualmente
efeito apenas moderado nas inferências sobre as médias,
desde que o número de repetições seja constante.
c) A não-normalidade tem usualmente pouco efeito nas
inferências sobre as médias.

COEFICIENTE DE DETERMINAÇÃO: (R2)

Por definição, o coeficiente de determinação representado por


R2, é a razão entre a soma de quadrados de tratamentos e a soma de
quadrados total, ou seja:

Portanto, R2 é uma medida da proporção da variação total


explicada pela variação devida aos tratamentos. Como R2 varia de 0
a 1, pode ser interpretado como uma porcentagem.
No caso do exemplo, o valor de R2 é:

Então, 74,62% da variação total é explicada pela variação dos


tratamentos.

COEFICIENTE DE VARIAÇÃO (CV)

O coeficiente de variação (CV%) é calculado pela razão entre o


desvio-padrão (que na ANOVA é dado pela raiz quadrada do QMR) e
a média geral (de todos os dados), isto é:
No caso do exemplo:

Portanto, o CV dá uma idéia da dispersão (ou inversamente da


precisão) dos dados em relação à média. Dados muito dispersos são
pouco precisos, ou seja, quanto maior é a variância dos dados menor
é a precisão.

Você também pode gostar