Você está na página 1de 4

ANOVA (ANalysis Of VAriance)

Leonardo Arajo u 11 de julho de 2008

Introduo ca

Suponha que tenhamos M grupos, como no caso em questo, grupo referentes ao a tempo de reao ` palavras de baixa frequncia e abstratas, grupo para as palaca a e vras de alta frequncia e concretas, etc. Cada grupo provavelmente diferente, e e possuindo pequenas diferenas de mximos e m c a nimos e bem provvel que e a cada grupo possua um valor mdio para o tempo de reao diferente. Apesar e ca de evidenciarmos as diferenas em cada grupo queremos saber se esta diferena c c no tempo mdio de reao dos grupos de fato uma evidncia para mostrar e ca e e que os grupos so diferentes e que talvez o efeito de frequncia e concretude a e cause esta diferena. Note que, mesmo que no exista tal efeito da frequncia e c a e concretude no tempo de reaao (hiptese nula), os grupos provavelmente tero c o a valores mdios diferentes para o tempo de reao. e ca A anlise de varincia teste a hiptese nula de que as mdias de todas as a a o e populaes so iguais: co a H0 : 1 = 2 = ... = M (1) atravs da comparao entre duas estimativas de varincia ( 2 ). Uma das estie ca a mativas o Erro Mdio Quadrtico (MSE, Mean Square Error) que baseada na e e a e varincia entre amostras. O MSE uma estimatica de 2 quer ou no a hiptese a e a o nula seja verdadeira. A outra estimativa MSB (Mean Square Between) basee ada na varincia da mdia das amostras. O MSB s ser uma estimativa de 2 a e o a se a hiptese nula for verdadeira. Se a hiptese nula for falsa, ento a estimativa o o a dada pela MSB ser maior do que 2 . A lgia utilizada na anlise de varincia a o a a a seguinte: se a hiptese nula for verdadeira, ento as estimativas dadas por e o a MSE e MSB devero ser aproximadamente as mesmas, j que ambas so estia a a mativas de 2 ; no entanto, se a hiptese nula foi falsa, ento espera-se que MSB o a seja maior do que MSE, j que MSB estar dando uma estimativa maior do que a a 2 .

1.1

Estimando 2 atravs de MSE e

Para simplicar, vamos assumir que o nmero de amostras em cada grupo seja u a e a igual. Para estimar 2 devemos ento tomar o valor mdio e ento calcular M SE =
N i=1 (si,j

j )2

(2)

onde si,j o valor da i-sima amostra de um grupo j, j a mdia do grupo j e e e e N o nmero de amostras no grupo. u 1

1.2

Estimando 2 atravs de MSB e

O primeiro passo nesta estimativa consiste em estimar a varincia da distria 2 buio das mdias das amostras (M ). Num experimento existem M mdias, ca e e uma para cada grupo. A varincia dessas M mdias utilizadas para estimar a e e 2 M . Teremos ento a M 2 j=1 (j ) (3) d2 = M M 1 onde a mdia total dada pela mdia das mdias de cada grupo e e e e =
M j=1

(4)

2 d2 calculado ser uma estimativa de M . Mas quer a amos no uma estimativa a M 2 2 de M , mas sim uma estimativa de . Felizmente existe uma relao simples ca 2 entre 2 e M . Como a distribuio das mdias possui um desvio padro de ca e a a M = N , ento podemos obter a estimativa de 2 com base na estimativa de 2 M bastando fazer 2 2 = N M (5)

onde N o nmero e amostras em cada grupo. Para calcular MSB basta ento e u a fazer M SB = N d2 (6) M onde N o nmero de amostras em cada grupo e d2 a varincia das mdias. e u a e M e O teste de signicncia associado ` anlise de varincia baseado na razo a a a a e a entre MSB e MSE. Se a razo for muito grande, ento a hiptese nula pode ser a a o rejeitada.

1.3

O teste de signicncia no ANOVA a

Se a hiptese nula for verdadeira, ento ambos MSB e MSE estimam a mesma o a quantidade 2 , resultando assim numa razo F = M SB/M SE igual a um. Se, a por outro lado, a hiptese nula for falsa, ento MSB estima uma quantidade o a 2 M maior do que 2 , e assim F ser maior do que um. Quo mais distante a a a razo F for de um, mais provvel ser de que a hiptese nula seja falsa. Para a a a o realizar um teste de signicncia necessrio conhecer a funo de densidade a e a ca de probabilidade (PDF) de F dado que a hiptese nula verdadeira. Atravs o e e da PDF podemos determinar a probabilidade de se obter um F igual ou maior ao valor calculado. Se este valor for menor do que o n de signicncia, ento vel a a a hiptese nula rejeitada. Os estudos sobre a PDF de F foram feitos pelo o e estat stico R. A. Fisher e chamada distribuio de F em sua homenagem. e ca Um teste de signicncia realizado para determinar se um valor observado a e de uma determinada estat stica difere sucientemente do valor hipottico de um e parmetro para levar ` inferncia de que o valor hipottico do parmetro no a a e e a a e verdadeiro. O valos hipottico do parmetro chamado hiptese nula. O teste e a e o de signicncia consiste em calcular a probabilidade de obter-se uma estat a stica to diferente ou mais diferente da hiptese nula (tomando a hiptese nula como a o o correta) do que a estat stica obtida nas amostras. Se esta probabilidade for sucientemente baixa, ento a diferena entre o parmetro e a estat a c a stica dita e estat sticamente signicante. 2

No teste de hiptese, o n de signicncia o critrio adotado para rejeitar o vel a e e a hiptese nula. Para se realizar o teste primeiro calcula-se a diferena entre os o c resultados do experimento e da hiptese nula. Depois, assumindo que a hiptese o o nula verdadeira, a probabilidade de uma diferena igual ou maior computada. e c e Por ultimo, a probabilidade comparada com o n e vel de signicncia. Se a a probabilidade for menor ou igual ao n de signicncia, ento a hiptese nula vel a a o e rejeitada e o resultado dito ser estat e sticamente signicante. Tradicionalmente, tem-se utilizado valores de 0.05 (chamado de n vel de 5%) ou valores de 0.01 (n de 1%), embora a escolha do n seja muito subjetiva. Quo mais baixo vel vel a o n vel de signicncia, mais os dados devem divergir da hiptese nula para a o serem signicantes. Ento o n 0.01 mais conservador do que o n 0.01. a vel e vel A distribuio F a distribuio da razo de duas estimativas de varincia. ca e ca a a Ela utilizada para computar os valores de probabilidade na anlise de varincia. e a a A distribuio F possui dois parmetros: graus de liberdade do numerados (df n) ca a e grau de liberdade do denominador (df d). df n = M 1 df d = NT M (7) (8)

Onde M o nmero de grupos e NT o nmero total de amostras no experimento. e u u A forma da distribuio F depende de df n e df d. Na gura abaixo so ilustradas ca a as distribuies de F quando df n = 4 e df d = 12 (primeira gura) e quando co df n = 10 e df d = 100 (segunda gura).

Figura 1: Distribuio F ca

Você também pode gostar