Você está na página 1de 6

7

Distribuio t

o ~a?tulo anterior, realizou-se, u~ teste d~ hipteses ~ara comparar uma medIa amostral (x) com uma medIa populaclOnal conhecIda (f.1o) usada como referncia. Um teste estatstico foi necessrio, porque a mdia da populao amostrada (f.1A) era desconhecida. Em tais condies, x foi utilizada para represent-Ia e como possvel que x no tenha valor igual ao de IlA' foi necessrio um procedimento estatstico para se elaborar uma concluso com uma margem de erro conhecida. Para o teste estatstico, fundamental saber-se como variam os valores de x, isto , qual o valor do desvio padro (0"), pois ele est envolvido no clculo do erro padro da mdia o"(x), usado no teste. Uma situao bastante comum ter-se uma idia da mdia da populao tomada como referncia (f.1o), mas se desconhecer o desvio padro populacional (0"). No conhecendo 0", se desconhece tambm o erro padro, o que impede a realizao do teste de hipteses da maneira como foi visto no captulo anterior. A soluo substituir o desvio padro populacional pelo seu estimador, o desvio padro amostral (s), e obter, assim, um erro padro estimado (EP) para a mdia:
EP

= -;; = ..r;

p;
s'

Note que, assim se procedendo, admite-se que a variao dos valores na amostra semelhante da populao, isto , que s no difere demasiadamente de a. Isso geralmente verdade para amostras grandes, obtidas aleatoriamente, mas pode no ser para amostras pequenas, mesmo sendo elas aleatrias. As dificuldades do emprego de s como uma estimativa de O" no clculo do erro padro foram estudadas por William Sealy Gosset (1876-1937), pesquisador da empresa Guinness, famosa cervejaria de Dublin, na Irlanda. O interesse de Gosset nesse problema estatstico tinha fortes motivos prticos, uma vez que os mtodos empregados na poca eram adequados a amostras grandes, muito diferentes das pequenas com as quais tinha de trabalhar. Aps estudar com Karl Pearson no Laboratrio de Biometria do University College de Londres, Gosset publicou a soluo para o problema em 1908, no artigo clssico denominado "The Probable Error of a Mean", para o qual adotou o pseudnimo de Student. Nesse artigo, props que, quando O" fosse des<:.-,h~cido,

se substitusse o valor crtico obtido da curva normal pelo valor crtico de uma nova distribuio, a qual foi chamada de di5tribuio t e posteriormente aperfeioada por R.A. Fisher, em 1926. Para entender a distribuio t, imagine uma populao gaussiana de dados, com t1 e (J conhecidos. Retira-se aleatoriamente uma amostra de n = 9 elementos, por exemplo, para a qual se obtm x e 5. Calcula-se, ento:
1=--

x-f./

~
Qbserve que o clculo de t difere do de z vor envolver o desvio padro amostrgl (5) e no o pOl?ulacional ( (J). Repetindo-se o processo de amostragem inmeras vezes, resultaro vrios valores de t (t1' tz' t3, .. ), cada um calculado com o desvio padro (51,52,53,,,,) obtido na respectiva amostra e n sempre igual a 9. Desenha-se, a seguir, o histograma para os valores de t obtidos. Se o nmero de amostras for infinito, o histograma tender a uma curva semelhante normal, com mdia zero, mas ligeiramente mais achatada e com as caudas mais elevadas (Figura 7.1). Como conseqncia desta deformao na curva, o valor 1,96, que limita uma rea bilateral de 0,05 de significncia, passa a limitar, na curva de t, uma rea caudal maior. Com isso, a probabilidade de erro do tipo I aumenta. Para resolver o problema, Gosset preparou um novo conjunto de valores crticos, a tabela da distribuio t (Tabela A.2), valores esses maiores do que os utilizados na distribuio normal. A discordncia observada entre as curvas z e t decorrente da diferena entre usar o desvio padro populacional ((J) e o amostral (5) no clculo do erro adro. A diferena entre (J e 5 depende do tamanho da amostra. Nas amostras gran es, a diferena mnima, crescendo a possi i idade de diferen<,ias maiores IEedida que o tamanho amostral diminui. E por essa razo que a tabela t de Student aprsenta valores crticos que dependem no s do nvel de significncia (a), mas tambm da preciso com que o valor de (J foi estimado, isto , do tamanho da amostra usada para calcular 5. A reciso influenciada or n - 1), que chamado de o nmero de grau5 de liberda e ~ . Por isso, o valor crtico Cle t indicado por ta;gl' Para o caso em que o tamanho da amostra 9, como exemplificado, o valor crtico para a = 0,05 passa de 1,96 para to 05'8 = 2,31 (note quegl = n -1 = 8). Isso significa que, agora, para que uma dife'rena entre mdias seja estatisticamente significativa no nvel 0,05, necessrio que ela seja igualou maior do que 2,31 erros padro e no apenas 1,96 erros padro, como antes. Est-se pagando um preo por desconhecer (J : necessrio, agora, um valor maior no teste para garantir uma concluso de diferena entre populaes. A Figura 7.1 compara as curvas normal e t quando n = 9 (e gl = 8), mostrando os valores crticos que delimitam a regio de 0,05 de significncia em cada uma das distribuies. Parece bastante lgico que a quantidade t = (x- f..1)/(s/'./n) tenha uma distribuio de probabilidade diferente de z = (x- f./)/((J/'./n), pois, no primeiro caso, tanto x como 5 podem variar de uma amostra para outra, enquanto que em z, (J um valor constante e apenas.\" varia entre as amostras. Em resumo, se o desvio adro populacional for desconhecido, ele ode ser estimado or meio de 5 mas nesse caso, to a a in erncia com rei a o mdia eve ser feita usando-se a distribui co t de Student. Deve ser nota o, porm, que

FIGURA 7.1 Distribuies normal e t quando n = 9 (gl = 8), com os valores criticas que delimitam a regio de 0,05 de significncia em cada uma delas. (Fonte: Hoel, 1963; p 122.)

fi,

Os passos a seguir resumem os clculos usados no teste de comparao entre X e quando no se conhece 0'. Exemplo 1. Palatnik e colaboradores (1980) determinaram o ttulo de aglutini nas do sistema AB no gastrpodo Biomphalaria glabrata, hospedeiro principal do Schistosoma mansoni. Em 15 indivduos albinos capturados em Santa Luzia, Minas Gerais, o ttulo mdio para a aglutinina anti-A foi 6,5 e o desvio padro, 0,5 (os valores sofreram uma transformao Ioga rtmica usando -log2, pois no tinham distribuio normal). Deseja-se comparar esses dados com os da populao de gastrpodos pigmentados dessa espcie na mesma localidade, para os quais se admite um ttulo mdio de 6,1. (1) Estabelecimento das hipteses estatsticas
Ho : J.1A HA : J.1A

= J.1o = 6,1 *- J.1o = 6,1

(2) (3)

Escolha do nvel de significncia: a = 0,05 Determinao do valor crtico do teste gl = n -1 = 15 -1=14, logo, toas 14 = 2,145 (4) Determinao do valor calcula d do teste
t
,.Ii.

=x-

/1

6,5 - 6,1 _ 0,5 = 3 08 0.5 0,13 '

J;,
(5)

JI5

(6)

Deciso: como I tea1e 1= 3,08 > to os 14 = 2,145, rejeita-se a hiptese nula. Concluso: ' , A diferena de 0,4 no ttulo de anti-A estatisticamente significativa. Os gastrpodos albinos da espcie B. glabrata possuem ttulo de anti-A mais alto que os pigmentados (a = 0,05).

Tendo-se concludo que os ttulos mdios nas duas populaes so diferentes e que os gastrpodos albinos tm mdia maior do que 6,1, deseja-se agora saber qual o valor verdadeiro para o ttulo mdio na populao dos albinos (J-lA)' Este problema diferente daquele apresentado no teste de hipteses. No se trata mais de comparar dois valores, mas deseja-se, agora, estimar um parmetro a partir de resultados obtidos em uma amostra. A estimao de uma mdia populacional pode ser feita por ponto ou por intervalo de confiana.

Na estimao por ponto, admite-se simplesmente que sendo = 6,5, a mdia da populao tambm 6,5. Esta, no entanto, uma atitude demasiadamente simplista, pois j se sabe que a mdia da amostra nem sempre igual mdia da populao de onde se originou (ver Distribuio Amostral de Mdias). O mais razovel imaginar que a mdia da populao de albinos algum valor ao redor de 6,5 e calcular um intervalo dentro do qual J-l deve estar, como ser explicado a seguir.

~este procedimento, determina-se um intervalo em torno de o qual se acredita cont!:r a mdia Ropulacional [L A determinao desse intervalo baseia-se na distrib,.!;!ioamostral das mdias, e o raciocnio ser explicado com os dados do Exemplo l. A mdia 6,5 uma das infinitas mdias amostrais que podem ser obtidas ao acaso de uma populao cuja mdia /1. Tais mdias distribuem-se segundo uma curva normal, com mdia /1 e erro padro estimado atravs de EP = 5/-{,1. Sabe-se que, nessa curva, 95% das mdias esto entre f..1 - tO,05;gl EP e /1 + tO,05;gl EP. No exemplo considerado,
3

tO,05;gl

= tO,05;14 = 2,145;

EP

= 0,5/ill
=

= 0,13

tO,05;gIX

EP= 2,145 x 0,13

0,28

Ento, 95% das mdias amostrais devem estar entre (J-l - 0,28) e C!1 + 0,28) (Figura 7.2), sendo razovel, portanto, supor que X = 6,5 faa parte dessa maioria. Aceitando que est no intervalo (/1- 0,28) a (/1 + 0,28), a maior distncia entre X e o valor desconhecido /1 0,28, para qualquer lado que se olhe. Ento, se estiver no extremo inferior do intervalo, /1 ser no mximo:

/1 = Se, por outro lado, as mdias mais provveis,

+ 0,28

= 6,5

+ 0,28

= 6,78

x estiver

no limite superior do intervalo

que compreende

Resumindo, acredita-se, com 95% de confiana, que o intervalo 0,28, ou seja, o intervalo 6,22 - 6,78, contenha o valor verdadeiro da mdia. O nvel de

66

Sidia M Callegari-Jacques

FIGURA amostras X onde EP

7.2 DAM para de 15 indivduos,

= 0,13.

confiana indicado significa que, se o clculo for repetido com as mdias de um nmero muito rande de amostras aleatrias diferentes obtidas nas mesmas condi es, a mesma populao, espera-se que 95% dos intervalos resulta t ncluam o valor ver a elro e Ji..lflgura 7.3) No correto afirmar que f.1 tem 95% de probabilidade de estar no intervalo calculado, porque f.1 um parmetro. Parmetros no variam; logo, no pode haver uma distribuio de probabilidades para um parmetro. Pode-se, porm, afirmar que h uma probabilidade de 95% de que o intervalo obtido inclua a mdia populacional. Generalizando, o intervalo de confiana (1- a) que estima a mdia populacional dado por:
1

x ta;gl EP,

onde 1 ~ mdia estimada e

(tcx;gl

EP) o erro de estimao.

Exemplo 2. Bau e colaboradores (2001) realizaram estudos de gentica do comportamento em uma amostra de 143 dependentes de lcool do sexo masculino, de Porto Alegre. Uma das variveis estudadas foi "idade de incio de problemas devidos ao lcool (IIP)"; esses problemas eram relativos sade e ao relacionamento com a famlia ou com o trabalho. Na amostra estudada, a mdia para a varivel I1P foi 26,5 anos e o desvio padro, 8,3.

FIGURA 7.3 Esquema mostrando intervalos de confiana calculados com as mdias de vrias amostras aleatrias de uma mesma populao.

Usando frmula apresentada, pode-se estimar a mdia na populao-alvo com 95% de confiana, da seguinte forma:
(l - a)

= 0,95, logo,

t 0,05; 142 ""

1,98

IC

95% (p)

: 26,5 1,98 (0,69)

IC IC
95% (p)

95% (p) :

26,5 1,37

: (25,1; 27,9)

ou ainda 25,1 ~ fi ~ 27,9

Tem-se, ento, 95% de confiana que a mdia verdadeira da idade de incio dos problemas, nessas pessoas, um valor entre 25,1 e 27,9 anos. Constata-se, assim, que alcoolistas porto-alegrerises do sexo masculino apresentam, devido ao lcool, comprometimento de vrios aspectos de sua vida em uma idade bastante precoce.