Escolar Documentos
Profissional Documentos
Cultura Documentos
Janeiro de 2010
BIBLIOGRAFIA .............................................................................................................................. 24
Pgina 1
Pgina 2
Num delineamento completamente aleatorizado dispe-se de n unidades experimentais (u.e.) das quais se escolhem aleatoriamente n1 que recebem o tratamento A1 ; em seguida, do grupo restante de n n1 u. e., escolhem-se aleatoriamente n 2 as quais se aplica o tratamento A2 e assim sucessivamente, recebendo as ultimas nk n n1 ... nk 1 u. e. O tratamento Ak . Um delineamento deste tipo permite simular as condies de amostragem aleatria independente de k populaes, cada populao definida como o universo conceptual das respostas possveis a um dado tratamento.
A Y A a varivel resposta ao tratamento j e ji a resposta a j do indivduo (u. e.) i . Os tratamentos A1 ..., Ak podem-se considerar como valores de uma varivel categorial
Seja
Yj
X. A resposta Yj a Aj a varivel resposta Y condicionada por Aj : Yj = Y|Aj . Admita-se que hiptese do modelo populacional o vector resposta ao tratamento , = , , , = 1, , , uma amostra aleatria de uma populao normal , 2 ; 1 , , so copias estatsticas de constitudo por componentes . . . normais , 2 . Os vectores , , so mutuamente independente. Note-se que 2 no depende de - hiptese de homoscedasticidade (homogeneidade das varincias). Com = , a hiptese nula a testar , como referido, 0 : 1 = = (igualdade dos efeitos de tratamento) a partir da informao dada por amostras independentes. Por outras palavras, pretende-se decidir se as mdias experimentais, = diferem ou no significativamente. Esta situao traduz-se pelo seguinte modelo linear: Considerem-se grupos ou classes de variveis. Seja a i-sima variavel da classe , = 1,2, , , = 1,2, , . Na classe as variveis so copias estatsticas de uma v.a. gaussiana , 2 e postule-se que = = = + sendo um parmetro de localizao comum as = 1 + + variveis e o efeito do tratamento . Pondo
/ ,
Pgina 3
=
=1
segue-se que
=
=1 =1
= 0
com os v.a.i.i.d. normais 0, 2 . Uma realizao de aparece como uma soma de trs parcelas: o v. m. global , o efeito de tratamento ou desvio de classe = e o erro aleatrio ou experimental . Formulao equivalente da hiptese nula de igualdade dos efeitos mdios de tratamento (isto , ( ) no depende de ) 0 : 1 = = = 0 vs. 1 : 0 pelo menos par um . Como os so constantes (desconhecidas) o modelo descrito diz-se um modelo de efeitos fixos ou modelo do tipo I. Uma generalizao imediata deste modelo o modelo de efeitos aleatrios ou modelo do tipo II: = + + Sendo agora os v.a. gaussianas 0, 2 . a hiptese nula a testar , neste caso, 0 : 2 = 0 vs. 1 : 2 > 0. Uma maneira de aumentar a preciso na comparao de tratamento repartir as u.e. por blocos homogneos de dimenso . Cada tratamento ento aplicado a uma e uma s u.e. de cada bloco. Nestes, a distribuio dos tratamentos ainda feita aleatoriamente. Deste modo, a variabilidade (perturbadora) entre indivduos atenuada, reduzindo-se ou eliminando-se a influncia de variveis de confundimento. Diferenas observadas na varivel resposta, em unidades de um mesmo bloco, so imputveis varivel categorial tratamento e no a eventuais diferenas entre as unidades. O dileneamento em blocos aleatorizados descrito uma generalizao do modelo comparativo em amostras emparelhadas.
Pgina 4
= 0; =
/ .
Os erros experimentais so v.a.i.i.d. normais 0, 2 . As componentes e so, respectivamente, os efeitos de tratamento e os efeitos de bloco. Como = + + o v. m. de aparece como a soma de um v. m global e dos efeitos de tratamento e de bloco. Note-se que, na composio das respostas de dois indivduos de um mesmo bloco o efeito deste eliminado: + = + + , , Qualquer que seja o bloco . Em geral, a hiptese de interesse a testar a hiptese nula de equivalncia dos tratamentos: 0 : 1 = = = 0. Refira-se que, nos casos em que se usa um delineamento em blocos aleatorizados, um delineamento completamente aleatorizado igualmente valido. No entanto, o primeiro , em princpio, mais sensvel para detectar diferenas. O modelo (a) ainda se aplica a um tipo de delineamento experimental diferente. Considere-se o caso de = observaes dependentes de dois factores controlados, e , com e nveis, respectivamente. As observaes admitem ainda a decomposio = + + + (b) (a)
Pgina 5
(c)
= 0,
= 0,
= 0,
sendo os v. a. i. i. i. d. normais 0, 2 . O parmetro diz-se a interaco associada com a clula (, ). Os mtodos clssicos de inferncia, permitindo testar a hiptese de igualdade dos efeitos de tratamento, no modelo em blocos aleatorizados so, respectivamente, a anlise de varincia simples e a anlise de varincia dupla. De um modo geral a ANOVA consiste na partio da varincia total, presente num conjunto de dados, em componentes. Cada componente esta ligada a uma fonte de variabilidade especfica e identificvel. Uma das componentes representa a variabilidade residual, devida a factores no controlados e erros aleatrios associados com a varivel resposta. A anlise de varincia procura determinar a importncia relativa, da contribuio destas fontes de variabilidade, para a variao total. A deciso baseada numa estatstica referida distribuio .
Pgina 6
Em alternativa, no estando satisfeitas as condies tericas de aplicabilidade, recorre-se ao uso de mtodos no paramtricos. A pragmaticidade dos mtodos lineares resulta do facto de os efeitos de tratamento e de bloco serem, em geral, pequenos, tornando-se apenas necessrio reter termos lineares. Em sntese, registe-se que: 1. A no normalidade, em geral, pouco afecta as inferncias sobre valores mdios, mas pode ter um efeito considervel nas inferncias sobre varincias, nomeadamente quando se trata de distribuies no mesocurticas (ver Vol. I de F. Galvo de Mello. Probabilidades e Estatstica Conceitos e mtodos fundamentais I). 2. No teste da hiptese 1 = = a no igualdade das varincias tem pouco efeito desde que 1 = = . Ento, estando em duvida a condio de homoscedasticidade devem usar-se amostras de igual dimenso. Sabendo-se que algumas das variveis tm varincias superiores s restantes, os correspondentes podem, igualmente, ter valores superiores s dimenses das restantes amostras.
Pgina 7
/ ,
= 0
Podem ser estimados pelo mtodo da mxima verosimilhana. Dadas as observaes a verosimilhana a funo de , e 2 tendo-se, sob a condio de normalidade, = , 1 , , , 2 = 2 2
/2
exp
1 2 2
j
j i
(4)
Os estimadores de e de podem se obtidos pelo mtodo dos mnimos quadrados. As + 1 equaes normais so
Pgina 8
= 0
= 0, = 1, ,
observaes) e = 1 = , = 1, , ,
com =
de verificao imediata que e coincidem com os EMV (ver 2.3). Note-se que estimado e pelo mtodo dos mnimos quadrados a hiptese de normalidade dos no necessria. Os EMV de 2 obtm-se a partir de 1 = 2+ 4 2 2 2 vindo 2 =
1
=0
(6)
As v. a. e so funes lineares de v. a. gaussiana e portanto so igualmente gaussianas. Mais precisamente, normal + , de verificao simples que , = 0, , = 0 , = 0 Concluindo-se que independente da v. a. 2 , definida em (6). Na prtica , disponham-se as =
2
e normal +
Pgina 9
2 12 22 . . . 11
1 =
11 1 . . .
=
=1
como =
2 =
1 = com =
.
=
=1 =1
A variabilidade total, a variabilidade devida aos tratamentos (ou factorial) e a variabilidade residual so definidas, respectivamente, pelas somas de quadrados; =
2 2 2 2
2 =
exprime a aco, conjunta (aditiva) dos efeitos de tratamento e dos factores aleatrios no controlados.
Pgina 10
1 2 =
1 =
, e so formas quadrticas reais nas variveis independentes e gaussianas ( , 2 ), tendo-se (ver Problema 5). = 1 +
2 2 2
1 1
2
= 1 +
tem um a distribuio 2 com 1 1 + += 1 = g. l. Por outro lado, sob a hiptese 0 : 1 = = = , a estatstica 2 = / pode ser interpretada como a varincia de uma amostra de dimenso de uma distribuio normal (, 2 ). Nestas condies, 2 / 2 = / 2 tem uma distribuio 2 com 1 g. l.
2 Ainda sob 0 , a varincia intertratamentos ou factorial, definida por = / 1 , igualmente um estimador centrado de 2 . a independncia dos implica, de acordo com o Teorema de Cochran (ver F. Galvo de Melo (1997) 417) que e so independentes e / 2 tem uma distribuio 2 com 1 = 1 g. l. 2 2 Em resumo, sendo 0 verdadeira, e so estimadores centrados da varincia 2 2 desconhecida 2 , sendo portanto de esperar que o quociente / no se afaste significativamente de um.
/ 1 /
= 2
(7)
Pgina 11
1-
1 concluindo o teste por uma diferena significativa entre as varincias factorial e residual, segue-se que, com grande probabilidade, os diferentes tratamentos influem na varivel 2 resposta, implicando diferenas nas mdias observadas. De facto, com 0 falsa, tende a 2 aumentar com cada desigualdade entre as mdias , no sendo a varincia afectada por estas desigualdades. Nestas condies, tende a tomar valores superiores a um. Com 0 falsa tem uma distribuio no, central (ver F. Galvo de Melo (1997) 417) podendo a potncia do teste ser calculada usando as tabelas da distribuio no central [ver J. A. Greenwood and H. O. Hartley (1962), Guides to tables in mathematical statistics, Princenton Univ. Press]. Na pratica e calculam-se a partir das expresses =
2 ;
2 2
obtendo-se = por diferena. Os clculos dispem-se habitualmente numa tabela de anlise de varincia: Soma quadrados de . . 1 1 Varincias
2 = / 1 2 = /
Pgina 12
Nota 1. No modelo considerado o nmero de observaes por tratamento (ou nvel) pode ser igual ou diferente. Quando 1 = = = o delineamento diz-se equilibrado; caso contrrio no equilibrado. Sempre que possvel vantajoso optar por um delineamento equilibrado atendendo a que: 1. Como j referido, o teste robusto para pequenos desvios hiptese de homoscedasticidade. 2. A potencia do teste mxima para = = . Nota 2. Alguns autores escrevem o modelo aditivo na forma = + + com = / e = 0. Comparando as duas representaes do modelo linear tem-se = + = + , = + (). Somando () em obtem-se: = + Multiplicando () por e somando em vem: = +
1
Exemplo Um teste psicomotor foi aplicado, sob condies experimentais diferentes, a quatro grupos de indivduos, constitudos por aleatorizao a partir de um grupo inicial. No quadro seguinte registam-se as pontuaes obtidas. 1 14 17 12 12 15 10 : 80
2
2 14 12 18 18 24 21 107
3 26 21 19 23 29 25 143
4 16 22 15 18 21 27 109 = 439
2
Pode concluir-se que os resultados do teste no dependem do conjunto especfico de condies experimentais sob o qual foi realizado? = = = ; = ;
2 = 8595 ; =
= 439; 2 = 192721
= 50179; =
2 3
2 / = 564,9583;
=
2 =
= 333,1250; = = 231,8333;
2 = 111,0417; = 20 = 11,5917
Pgina 13
Resumam-se os clculos na tabela de analise da varincia: Soma de . . Varincias Razo das quadrados varincias Total 564,9583 23 9,85 Tratamentos 333,1250 3 111,0417 Residual 231,8333 20 11,5917 Para = 5% tem-se 0,95 3,20 = 3,1, concluindo-se que os resultados do teste dependem das condies experimentais sob as quais realizado. Variao Um intervalo de confiana para + (v. m. do ) pode ser facilmente obtido. Um estimador pontual de
2
= + = . Com os normais 0, 2
2
normal
Sendo 1/2 o quantil de probabilidade 1 /2 da distribuio de Student com . . Exemplo: relativamente ao exemplo anterior um intervalo de confiana de 95% para 3 3 0,975 20 = 23,83 2,09 11,5917 6 = 23 9,89 ou 13,94; 33,94
A pequena dimenso da amostra implica que o intervalo de confiana seja de grande amplitude. Modelos de efeitos aleatrios No modelo de efeitos fixos comparam-se amostras diferindo pelos niveis de um factor controlado, estando implcito que os nveis (ou tratamentos) so escolhidos especificamente pelo seu interesse particular, constituindo a populao alvo de tratamentos a estudar. Esta situao generalizada quando se pretende alargar as inferncias para um conjunto . De facto, o investigador esta frequentemente interessado num factor, admitindo um grande nmero de nveis. Escolhendo-se aleatoriamente nveis, da populao de nveis, diz-se que o factor aleatrio. Nestas condies, inferncias sobre a populao de nveis so validas. O modelo a usar pressupe que a dimenso da populao de nveis se pode considerar infinita. Por exemplo, para comparar o nvel de aproveitamento dos estudantes das escolas de uma dada regio, escolhem-se escolas observando-se, em cada uma destas, uma amostra aleatria de estudantes.
Pgina 14
sendo, um . . global, . . . . . normais 0, 2 , sendo = + o . . da populaao escolhida para o estudo. Os erros experimentais so ainda . . . . . normais 0, 2 . As variveis e so mutuamente independentes. Testar a hiptese nula de igualdade de efeitos de tratamento equivale, neste caso, a testar
2 2 0 : = 0 . 1 : > 0 2 2 Se os tratamentos so idnticos; com > 0 h variabilidade entre os tratamentos. Em resumo, o modelo (8) implica que:
1. As amostras a comparar so amostras aleatrias independentes tiradas de populaoes que foram, por sua vez, escolhidas aleatoriamente num universo de populaes. 2. Todas as populaes de so gaussianas de varincia comum 2 . Disponham-se as amostras num quadro anlogo ao quadro (1). Todas as variveis tm o
2 mesmo . . e, atendendo a que , = 0 vem = + 2 e 2 so as componentes da varincia, sendo o modelo (8) tambm designado por modelo de componentes da varincia. 2 Sob as hipteses do modelo as . . so normais , + 2 . No entanto, estas variveis no so todas independentes. De facto, dadas duas varveis da classe , = + + e = + + tem-se 2 , = , = =
= , = 2 + 2
(9)
toma o nome de coeficiente de correlao intraclasses e representa a proporo da varincia 2 de explicada pelas diferenas de tratamento. Com = 0 as variveis so independentes. As v. a. = ,
2
/ 2
e =
/ 2
2 +
2 e , +
= 2 +
2 2 2 1
2 = 2 + 0 com 0 =
2 2 1
Pgina 15
= 2
(10)
Como no modelo anterior / 2 tem uma distribuio 2 com g. l. e, sob 0 , / 2 tem uma distribuio 2 com 1 g. A independncia de e implica que, sob 0 , =
/ 1 /
= 2
(11)
tem uma distribuio com 1 e g. l. os clculos e a tabela de analise da variancia so idnticos aos do modelo de efeitos fixos.
2 2 2 2 Como, sob 0 , e so estimadores centrados de 2 e, sob 1 , > , valores grandes de suportam a hiptese alternativa 1 .
0 = 2
2 / 1 , segue-se que
2 2 0
tem uma distribuio 2 com g. l. um piv para 2 permitindo construir um intervalo de confiana para esta componente da varincia. Da igualdade
2 < 2 2 2 < 1 2 2
2 2
= 1
Pgina 16
2 2 2
(12)
2 2 . e so v. a.
independentes e
2 2 / 2 + 2 / 2
< + 1 < 2
2 2 /2
(13)
e, finalmente,
1 1+
< 2 + 2 < 1+ ou
1 1+
< < 1+
(14)
Comparaes mltiplas
Quando a analise de varincia simples rejeita a hiptese nula no explicita quais os tratamentos responsveis por esta deciso. Impe-se ento aprofundar a anlise e tentar localizar as diferenas. Com algumas precaues o teste modificado pode ser usado, desde que os v. m. a comparar tenham sido fixados previamente e no com base nos resultados da experiencia. Havendo tratamentos (nveis) o numero total de comparaes possveis (pares de mdias)
2 1 2
= .
A aplicao do teste aos pares de mdias ento contestvel, tendo apenas um valor presuntivo, que se pode reter como elemento de informao, mas sem as propriedades estatsticas habituais. De facto, admita-se que o estado da natureza 1 = = e fixe-se o nvel para cada um dos dos testes possveis:
Pgina 17
Ento, = . | verd. e 1 = . | verd. . Admitindo os testes mutuamente independentes (o que no o caso) a probabilidade de aceitar a hiptese nula nos casos 1 e, portanto, a probabilidade de rejeitar uma, pelo menos, das hipteses 1 1
Com verdadeira para todo o par , , < , h uma probabilidade = 1 1 de cometer um erro do tipo I, valor este que pode ser substancialmente superior a . Por exemplo, com = 5 = 10 e para = 0,05 vem = 1 1
= 1 0,95
10
= 0,4013
o que mostra que, no teste conjunto dos dez pares de medias, o nvel de significncia e de cerca de 40%, valor nitidamente superior ao valor toerico fixado = 5%: na passagem da comparao de um par de medias para comparao simultnea de dez pares o nvel de significncia sofreu um acrscimo aproximadamente igual 35%. Na realidade, o problema ainda se complica mais porque os vrios testes considerados no so independentes. Resumindo, o teste permite construir intervalos de confiana para cada uma das v diferenas de mdias, com um determinado coeficiente. No entanto, difcil determinar qual o coeficiente de confiana associado considerao simultnea dos intervalos. Para ultrapassar esta dificuldade conveniente usar um mtodo mais conservativo que permite construir intervalos de confiana de modo que a probabilidade conjunta das afirmaes, expressas por estes intervalos, serem verdadeiras seja igual ou superior ao um valor dado intervalos de confiana mltiplos ou simultneos (mtodos de Bonferroni, Scheffe, Tukey, etc.). No entanto, sendo por exemplo e as duas mdias mais prximas do conjunto das medias, legitimo o uso do teste nas seguintes condies: - Concluindo-se que a diferena significativa, a deciso aceitvel, visto que o teste foi alterado num sentido que refora a concluso. Recorde-se que, construindo um intervalo de confiana para uma diferena , se este intervalo no contiver o ponto zero, conclui-se que a diferena significativa. Como referido, quando a anlise de varincia conclui pela no igualdade das varincias factorial e residual, significa que o factor controlado ou tratamento influi nas amostras observadas. No entanto, o teste global , levando rejeio de 0 , no indica quais os tratamentos presumivelmente diferentes, e responsveis pela rejeio feita, e quais os que se
Pgina 18
(15)
sendo 1/2 o percentil de ordem 100 1 /2 das distribuio de student com ( ) g. l. de facto, o EMV cuja distribuio normal () , 2 Portando, =
1
. normal 0,1 .
1 1 +
Como
2 = 2 2
Tem uma distribuio de Student g. l. ~ Uma regio crtica (bilateral) de nvel para a hiptese. : = da forma > 1/2 ou > 1/2
1
(16)
Este procedimento, devido a Fisher (1935), um teste usando uma varincia combinada, calculada utilizando as observaes das amostras. O mtodo descrito conhecido por LSD Least significant difference. Uma diferena entre duas mdias excedendo a menor diferena significativa.
Pgina 19
+ ,
considerada significativa ao nvel . Note-se, no entanto que o mtodo valido apenas para comparaes planeadas antes da anlise dos dados, isto , as mdias a comparar so designadas previamente, pelo seu interesse particular, e no com base nos resultados observados. Pretendendo-se comparar todos os pares de mdias prefervel usar um mtodo mais conservativo. Construindo = 1 /2 intervalos de confiana, cada um com o coeficiente de confiana 100 1 %, torna-se difcil, como j foi discutido determinar o coeficiente de confiana correspondente considerao simultnea dos intervalos. Para ultrapassar esta dificuldade, constroem-se intervalos de confiana de modo que a probabilidade conjunta das afirmaes, expressas por estes intervalos, seja pelo menos igual a 1 . Tais intervalos dizem-se intervalos de confiana mltiplos ou simultneos. Analogamente, se as afirmaoes constituem uma famlia de hipteses sobre os parmetros do modelo, os testes so construdos de modo que o nvel de significncia seja, quando muito, igual a para toda famlia. Referem-se em seguida trs mtodos importantes.
=
=1
= 0.
Em particular = um contraste = 1, = 1, = 0 para , . Como estimando por segue-se que estimado por =
j
cj =
j
cj
cj =
cj
O estimador centrado: =
+ =
= .
A varincia de v = 2 =
Pgina 20
Scheff (1959) [e (1953) A method for judjing all contrasts in the analysis or variances, Biometrika, 40, 87-104] mostrou que, no caso particular de analise de varincia simples, intervalos de confiana simultneos de 100 1 %, para todos os contrastes do , tem a forma
1 1 1,
2 /
<
<
1 1 1,
2 / 17)
Pondo, para simplificar, 2 = 1 1 1, escreve-se com o aspecto mais compacto < < , = A hiptese nula 0 : = no contem o ponto zero.
2
(18)
Por outras palavras, significativamente diferente de zero se > . Em particular, com = 1, = 1, = 0 para , , os limites de confiana para = so 1 1 1, 1
1
(19)
Para os contrastes simples, isto , da forma , o mtodo de Scheff o mais conservativo, dando origem a intervalos de confiana de maior amplitude.
1 .
Pgina 21
= 1
=
=1
= 1,2, ,
Limites de confiana de Bonferroni para os , com um coeficiente de confiana igual ou maior que 1 so da forma
2
1/2
ou 1/2 (20) Sendo 1/2 o quantil de probabilidade 1 /2 da distribuio Student com g. l. Em particular, pretendendo-se comparar todos os pares de tratamento = 1 /2 e os intervalos-t de confiana mltiplos, para as m diferenas , so definidos por 1/2
1
+ ----------------------------------------------(21)
A probabilidade de que as afirmaoes sejam simultaneamente correctas , pelo menos, igual a 1 . Em geral, os intervalos de Bonferroni so de menor amplitude que os de Scheff. Contudo para valores grandes de , os intervalos (21) podem tornar-se de amplitude demasiado grande para serem eficientes na pratica. Os intervalos-t simultneos devem ento ser usados com o subconjunto das diferenas que apresente maior interesse para o investigador.
(22)
Pgina 22
Os valores 1 , esto tabelados em funo de e para = 0,01 e = 0,05 [ver, por exemplo, Montgomery (1991), tabela VIII]. Para um delineamento no equilibrado, limites aproximados de confiana para so dados por 1 ,
2 1
(23)
Para um dado coeficiente de confiana a amplitude do intervalo (22) inferior a do correspondente intervalo (21). Quando apenas se pretendem comparar contrastes simples prefervel o mtodo de Tukey; de contrrio, recorra-se ao mtodo de Scheff. No entanto, o mtodo-T de aplicao mais limitada, exigindo a condio de igualdade das varincias. O mtodo-S robusto relativamente a pequenos desvios das condies de normalidade e homoscedasticidade. A hiptese : = rejeitada quando > 1 , ou > 1 , O valor 1 , 2 1 1 +
Com o qual as diferenas so comparadas, tomam o nome de honestly significant difference abreviadamente HSD.
Pgina 23
Pgina 24