Você está na página 1de 9

4

Distribuio normal ou de Gauss

distribuies de freqncias podem variadas. A varivel As"nmero tem uma distribuio tambm apresentar formascontnua (Figura 1.1); de irmos" tem uma distribuio descontnua e assimtrica (Figura 1.3); o peso assimtrica, mas j a sensibilidade feniltiocarbamida apresenta distribuio assimtrica e bimodai (Figura 2.2). Muitas variveis biolgicas apresentam uma distribuio equilibrada, em que os valores centrais so mais freqentes e os extremos, mais raros, sendo os valores muito baixos to pouco freqentes quanto os muito altos. Este o caso da taxa de hemoglobina; um exemplo de dados deste tipo (em g/100 mL) est apresentado na Tabela 4.1 e no histograma da Figura 4.1. Quando se elabora um histograma, o tamanho dos "degraus" determinados pelas colunas dado pela amplitude do intervalo de classe (h), a qual influenciada pel tamanho da amostra e pela preciso com que a medida foi feita. Assim, se a tcnica de laboratrio permitir determinar a taxa de hemoglobina com maior preciso (por exemplo, em mg/lOO mL em vez de gllOO mL), pode-se diminuir a amplitude escolhida para os intervalos de classe, com um conseqente aumento no nmero de intervalos. Aumentando-se o nmero de intervalos, os retngulos originais do histograma devero ser divididos em retngulos mais estreitos. A forma geral do histograma, porm, no se altera com tal procedimento, pois os retngulos tendero a ser mais altos medida que se aproximam do centro da distribuio e mais baixos, se prximos dos extremos. Pode-se seguir diminuindo h e obtendo maior nmero de intervalos de classe at se chegar situao em que h um nmero infinitamente grande de intervalos

TABELA 4.1 Taxa de hemo91obina em 560 homens normais Hemo91obina (9/100 mL) 12,51--13.5 13,5 I-- 14,5 14,51-- 15,5 15,51--16,5 16,5 I-- 17,5 17,5 I-- 18,5 18,5 I-- 19,5 fr 0,01 0,06 0,24 0,38 0,23 0,07 0,01

0,4

0,3

fr

0,2

0,1 FIGURA 4.1 Taxa de hemoglobina (g/1 00 mL) em 560 homens normais.

O
13 14 15 16 17 18 Hemoglobina (g/100 mL)

infinitamente pequenos. claro que esta condio s pode ser imaginada teoricamente e para um nmero muito grande de indivduos. No histograma, agora, a sucesso ascendente e descendente de pequenos "degraus" transforma-se em uma linha contnua, com a forma aproximada de um sino. O nome desta linha terica curva de distribuio normal ou curva de Gauss1 O termo "normal" foi consagrado pelo uso, embora, muitas vezes, cause alguma confuso ao sugerir que a distribuio normal ocorre apenas em organismos "sadios", o que no verdade. Podem-se observar caractersticas que tm distribuio normal tambm em organismos doentes.

Voltando ao exemplo dos nveis de hemoglobina, para se saber qual a probabilidade de um indivduo do sexo masculino apresentar um valor entre 14,5 e 15,5, basta consultar diretamente a Tabela 4.1 (ou, com menor preciso, a Figura 4.1). O valor obtido 0,24. Entretanto, se o interesse, agora, saber a probabilidade de ocorrer um nvel de hemoglobina entre 14,5 e 15,0, necessrio refazer a tabela a partir dos dados originais. No correto tomar a metade de 0,24 (ou a metade da coluna), pois, pela forma do histograma, nota-se que dividindo esse intervalo ao meio, devem resultar duas colunas de alturas diferentes, sendo a da direita mais alta. A situao complica-se ainda mais quando se deseja determinar a probabilidade de que ocorra uma taxa de hemoglobina menor do que 14,3. Uma tcnica simples para resolver este tipo de problema baseia-se na curva descoberta por De Moivre, Laplace e Gauss. Para aplic-Ia, utiliza-se uma tabela padronizada de reas situadas debaixo dessa curva. Antes, porm, de usar essa tabela necessrio conhecer melhor as principais caractersticas da curva normal.

1 Nome em homenagem a Johan K.f. Gauss (1777-1855), que discutiu esta distribuio em 1809. No entanto, Pierre-Simon de Laplace (1749-1827), que era astrnomo matemtico como Gauss, j a tinha estudado em 1774 e, antes disso, A. de Moivre (1667-1754) apresentou a equao dessa curva em 1773, em um trabalho que ficou por muito tempo desconhecido. Para resolver a questo da prioridade cientfica, Karl Pearson recomendou, que se utilizasse o termo "curva normal", usado pela primeira vez por Sir Francis Galton.

40 Sidia M. Callegari-Jacques

(1) A curva normaI2 tem a forma de um sino, com caudas assintticas ao eixo x. Isto significa que, teoricamente, os valores de x podem variar desde at +00; a curva jamais toca o eixo x e, portanto, determina uma figura aberta nas caudas. Na prtica, no entanto, utiliza-se a curva normal com limites finitos; mais adiante ver-se- como estes limites so estabelecidos. (2) A curva simtrica em relao perpendicular que passa pela mdia (ti). (3) A mdia, a mediana e a moda so coincidentes. (4) A curva tem dois pontos de inflexo, que correspondem a valores de x situados, respectivamente, distncia de um desvio padro (o) acima e abaixo da mdia (Figura 4.2). (5) A rea sob a curva totaliza 1 ou 100%. (6) Aproximadamente 68% (""2/3) dos valores de x situam-se entre os pontos (tio) e (ti + o). A rea correspondente a essa frao est hachurada na Figura 4.2. (7) Aproximadamente 95% dos valores de x esto entre (ti-2a) e (,u+2a). (8) Aproximadamente 99,7% dos valores de x esto entre (,u-3a) e (,u+3a).
-00

FIGURA 4.2 Curva normal. A rea hachurada est compreendida entre ~1-(5e 11+(5 e corresponde a aproximadamente 68% da rea total que fica abaixo da curva normal.

Note que uma rea ''N.' qualquer sob essa curva representa uma frao da rea total, correspondente a todos os indivduos estudados. Portanto, ''N.' representa uma porcentagem em relao ao total de indivduos estudados e tambm a probabilidade de ocorrncia dos valores de x a que se refere. O conhecimento das propriedades de curva normal muito til. Assim, se uma varivel tem distribuio normal e se sua mdia e seu desvio padro forem conhecidos, no mais necessrio representar os dados sob a forma de tabelas ou grficos para se conhecer a probabilidade de ocorrncia de valores de interesse. Alm disso, sabe-se imediatamente quais os valores mais freqentes e quais os valores extremos esperados. Admita, por exemplo, que a glicemia (nvel de glicose no plasma, em jejum) tem distribuio gaussiana, com mdia igual a 90 mg e desvio padro 5 mg na populao de pessoas sadias3. Pode-se, ento, concluir que:
I ~e (J-...;2Jr -('-~ " '''-

2 3

A curva normal definida matematicamente Dicionrio de Especialidades Farmacuticas,

pela seguinte equao: I(x) = 1997, p.1040.

(1) Aproximadamente 2/3 ("'68%) da populao de indivduos normais possuem valores de glicemia entre (J.1-(J) = 90-5 = 85 mg e c.u+(J) = 90+5 = 95 mg. (2) Grande parte ("'95%) das pessoas sadias tem glicemia entre (J.1-2(J) = 902(5) = 80 e C.u+2(J) = 90+2(5) = 100 mg. (3) Praticamente todos ("'99,7%) os indivduos da populao tm valores entre (J.1-3(J) = 75 e (J.1+3(J) = 105 mg. (4) A probabilidade de que uma pessoa saudvel tenha um valor de glicemia em jejum entre 90 (J.1) e 95 (J.1+ (J) de aproximadamente 0,34. As caractersticas do modelo de distribuio normal fazem com que ele tenha ampla aplicao prtica. necessrio, porm, assegurar-se de que a distribuio emprica (observada) da varivel seja normal ou aproximadamente normal. No se pode obter concluses como as mencionadas acima com dados cujas distribuies sejam diferentes do modelo gaussiano, como o nmero de irmos, que apresenta uma distribuio assimtrica e descontnua.

As propriedades referentes a reas sob a curva de Gauss foram obtidas de uma curva especial, que tem mdia J.1 = e desvio padro (J = 1. Essa curva chama -se curva normal padronizada ou curva normal reduzida. As reas situadas abaixo desta curva esto tabeladas (Apndice, Tabela AI). Para evitar confuso, a varivel tabelada denominada z, reservando-se a letra x para representar as variveis do mundo real. A Tabela A.l informa reas entre a mdia (zero) e um valor de z qualquer. Quando z for 1 (isto , igual a (J), a rea compreendida entre esse valor e a mdia 0,341:? ou 34,13%. A rea entre z = -1 e z = + 1 0,6826, como mencionado na 6 propriedade da curva normal. Para a obteno de reas que no esto entre e z, devem ser realizadas operaes simples de subtrao ou de soma com as reas. Exemplo 1. Qual a rea correspondente a valores de z acima de 2,37 - A curva toda tem rea = 1, portanto a rect direita de zero 0,5. - Na tabela da curva normal, verifica-se que a rea entre z = e z = 2,3 0,4893. - A rea direita de 2,3, portanto, 0,5 - 0,4893 =

0,0107.

Exemplo 2. Qual a rea compreendida entre z = -1,5 e z = 17 - Segundo a tabela da curva normal, a rea entre z = e z = -1,5 0,4332. - A rea entre z = e z = 1 0,3413. - Portanto, a rea desejada 0,4332 + 0,3413

0,7745.

42

Sidia M. Callegari-]acques

Com auxlio da tabela de reas da curva padronizada, pode-se tambm determinar quais valores de z limitam reas (percentagens) de interesse prtico. Exemplo 3. Considere-se uma rea B localizada na extremidade direita de uma curva normal e compreendendo 20% da rea total. Que valores de z limitam essa regio? - A tabela da curva normal padronizada apresenta informaes sobre reas adjacentes a zero (rea A). Ora, B = 0,20, ento, A = 0,50 - 0,20 = 0,30. - A rea tabelada mais semelhante a 0,30 0,2996, correspondendo rea entre O e 0,84. Logo, o valor z = 0,84 limita as reas A e B. - Conclui-se ento que os valores z = 0,84 e z = +00 limitam a rea B.

A mdia (f.l) e o desvio padro (cr) so os parmetros de uma curva normal, uma vez que so suficientes para defini-Ia completamente. A mdia o parmetro de tendncia central ou de posio, indicando em que ponto da reta real a curva est centrada; O; o parmetro de disperso ou variabilidade, informa sobre a forma, se mais larga ou mais estreita, da distribuio. A Figura 4.3 apresenta trs curvas que auxiliam a esclarecer essas denominaes. As curvas A e B diferem apenas pelas posies (definidas pelas mdias) em que se encontram na reta real. J as curvas B e C tm a mesma mdia, diferindo pela disperso dos valores: note que a curva C, com desvio padro menor, mais estreita que a B.

A distribuio normal, como uma linha suave, existe apenas teoricamente. Na prtica, o que se observam so histogramas que se aproximam, em maior ou menor grau, de uma curva normal. Se o histograma lembra uma distribuio normal e se a amostra relativamente grande, as probabilidades fornecidas pela curva e

FIGURA 4.3 Desenhos de trs curvas normais (A, B e C) que diferem quanto mdia ou ao desvio padro. Curvas A: ,u=4, 0=1; B: /.1=8,0=1; C: p=8, 0=0,5 (Fonte Sokal e Rohlf, 1981, p.101).

as freqncias relativas observadas no histograma so bastante prximas. Por isso, para um grande nmero de variveis a curva normal constitui uma ferramenta til, dispensando a elaborao de tabelas de freqncias para a descrio e o clculo da probabilidade de ocorrncia de valores de interesse. No entanto, existem variveis de distribuio descontnua ou assimtrica (nmero de irmos, salrios, sensibilidade feniltiocarbamida) para as quais seria ingenuidade utilizar o modelo de curva normal e esperar concluses confiveis. Para essas variveis, deve-se procurar outro modelo que se adapte melhor aos dados observados ou tentar transformaes que tornem suas distribuies mais prximas de uma normal. Algumas das transformaes mais usadas so:
(1) (2) (3) (4)

x' = log x (logaritmo base 10 de x) ou x' x'= j;


x'

ln x

(logaritmo base e de x)

l/x

x' = x2.

As trs primeiras so indica das para distribuies com assimetria direita (isto , com a cauda da direita mais longa); a ltima indicada para corrigir uma assimetria esquerda. A Figura 4.4 ilustra o efeito de uma transformao logartmica em dados assimtricos.

As variveis observadas na prtica (x) apresentam valores cujas reas no esto tabeladas. Por meio de uma operao simples, no entanto, os valores de x podem ser transformalos na varivel z e ento as reas desejadas podem ser obtidas da tabela da curva normal.

<J)

<J)

.2100 a. '0 .~ 80 E

~ 50
'0 .~ 40 E eu "O 30 o Qj

eu

"O

e eu

60 40

.~

.~ 20

10

~
I'..L"-

"1"- '\1'\. "-

o~~~>J>...::>~::lo=.""-T-=_"""'_'"
5,1 25,6 46,0 66,5 86.9 107,4

o
0,22 1,11 1,99 2,88 3,77 4.65 Ln(CMNP)

FIGURA 4.4 Efeito da transformao logaritmica. Histogramas do coeficiente de mortalidade neonatal precoce (CMNP: nmero de bitos na primeira semana de vida/1000 nascidos vivos) e do logaritmo do CMNP, em 240 municpios com CMNP maior do que zero. (Fonte: Coordenadoria de Informaes em Sade, Secretaria Estadual da Sade, Governo do Estado do Rio Grande do Sul; dados de 2000.)

44

Sidia M. CaLlegari-]acques

X-fi

Exemplo 4. Um treinador deseja selecionar, dentre os joven's que esto prestando servio militar no quartel Q aqueles com uma estatura de no mnimo 180 cm, para formar um time de basquete. Que percentagem esperada de jogadores em potencial, sabendo-se que a estatura tem distribuio normal e, nesses jovens, a mdia 175 cm e o desvio padro, 6 cm? Para melhor visualizar o problema, inicia-se desenhando a curva normal correspondente estatura, localizando a mdia e o valor 180 cm, e hachurando-se a rea de interesse, que fica direita de 180 (Figura 4.5). A seguir, transforma-se a varivel estatura (x) na varivel padronizada z, que est indicada na linha inferior a x.

Para x = 175, Para x = 180, A rea entre z


= 0,2033.

= (x-I1)/a= (175-175)/6 = O. = (180 - 175)16 = 0,83. = Oe z = 0,83 0,2967 e a rea alm de 0,83 (0,5
Z
Z

- 0,2967)

Portanto, 20,33% dessa populao so constitudos de indivduos com estatura igualou superior a 180 cm. Se 140 jovens esto prestando servio militar no quartel Q o nmero esperado de rapazes que pode ser convidado para participar do time de basquete

x (horas)

FIGURA 4.6 Representao esquemtica dos tempos de emergncia em Orosophila melanogaster.

No estudo da gentica do desenvolvimento da mosca-das-frutas Drosophila melanogaster, um procedimento importante consiste em criar uma populao de indivduos precoces para o desenvolvimento, isto , aqueles que emergem antes dos demais. O tempo decorrido entre a ovoposio e a emergncia do adulto, na seqncia ovo-Iarva-pupa-adulto, de 273 horas em mdia, com desvio padro de 20 horas (Nascimento, 1992). Suponha que um geneticista deseje selecionar 10% da populao, correspondendo aos indivduos que emergem por primeiro, para desenvolver uma populao "precoce" (Figura 4.6). Qual o tempo-limite a partir do qual os indivduos que nascem no interessam mais ao pesquisador? A tabela da distribuio z mostra que z = -1,28 o valor que separa, na curva normal, uma rea caudal correspondente a 0,10 unidades de rea e outra, adjacente mdia, de 0,40. Transformando z em x, obter-se- o tempo de desenvolvimento que limita uma rea caudal de 10% esquerda da curva de tempos de emergncia, conforme desejado. Da frmula de transformao (z = (x-f.1)/a), obtm-se que
-128
,

x-273
20

-25,6 = x - 273

logo, x

-25,6

+ 273 = 247,4 == 247 h.

Portanto, os indivduos que levarem mais de 247 horas para se tornarem adultos sero descartados, e o pesquisador usar as moscas cujo tempo de emergncia 247 horas ou menos para desenvolver a populao considerada "precoce".

No quartel Q, um recruta com 181 cm de altura tem uma estatura situada a um desvio padro (6 cm) acima da mdia (175 cm), enquanto uma estatura igual a 169 cm est a um desvio padro abaixo da mdia, o que pode ser facilmente visto usando-se a frmula de transformao de x em z: z(para 181) = (181-175)/6 = 1 e z(para 169) = (169 -175)/6 =-l. Portanto, z pode ser interpretado cOmo o nLmero de desvios padro envolvidos no afastamento de um determinado valor de x em relao mdia. Em outras

palavras, z a diferena, em unidades de desvios padro, entre um valor de x e a mdia. Assim, 163 cm um valor de estatura que est dois desvios padro abaixo da mdia e 178 cm est meio desvio padro acima da mdia, na populao de recrutas desse quartel.

Aplicao 1. Nos vestibulares da Universidade Federal do Rio Grande do Sul, calcula-se, para cada candidato (e para cada prova), um escore padronizado (E) do seguinte modo: . E = z (100) + 500. O valor de z multiplicado por 100 para evitar valores muito pequenos, que dificultam a classificao, e a constante 500 somada para evitar valores negativos. Suponha que um candidato acertou 6 questes a mais do que a mdia em duas matrias: matemtica e biologia. Em matemtica, a mdia geral dos candidatos foi 9 questes corretas e o desvio padro foi 4. Na prova de biologia, a mdia de acertos foi 11 e o desvio padro, 5. Em que prova o aluno teve melhor desempenho relativo? Em matemtica, o candidato acertou 15 questes, ento
ZMAT

= (15 - 9)/4 = 1,5, logo, = (17 - 11)/5 = 1,2, logo,

EMAT

= 1,5 (100) + 500 = 650. = 1,2 (100) + 500 = 620.

Em biologia, o candidato acertou 17 questes, ento


ZBIO

EB10

Conclui-se que esse aluno, quando comparado com os demais candidatos, teve me~hor desempenho na prova de matemtica. Aplicao 2. Com o aumento da idade, especialmente aps a menopausa, as mulheres apresentam uma progressiva perda de massa ssea, que favorece a ocorrncia de fraturas na coluna lombar e no colo de fmur. Em vista disso, muitos ginecologistas costumam pedir s pacientes com idade superior a 50 anos que realizem um teste de densitometria ssea, com o objetivo de avaliar a perda de massa ssea. Os resultados apresentados pelo densitmetro so valores de z, isto , desvios padronizados em relao mdia para mulheres de mesma idade que a paciente. Valores de z negativos indicam que a paciente apresenta uma massa ssea abaixo da mdia para sua idade. Um diagnstico de osteoporose feito se o valor de densidade mineral ssea estiver a mais do que 2,5 desvios padro abaixo da mdia para uma mulher adulta jovem (ver, por exemplo, Krahe, 1995).

Você também pode gostar