Você está na página 1de 8

Captulo

3
A Curva Normal
Luiz Pasquali

1 A Histria da Curva Normal

A curva normal, tambm conhecida como a curva em forma de sino, tem uma
histria bastante longa e est ligada histria da descoberta das probabilidades em matemtica, no sculo XVII, que surgiram para resolver inicialmente questes de apostas de jogos de azar (veja Bernstein, 1997). O responsvel mais direto da curva normal foi Abraham de Moivre, matemtico francs exilado na Inglaterra, que a definiu em 1730, dando seqncia aos trabalhos de Jacob Bernoulli (teorema ou lei dos grandes nmeros) e de seu sobrinho Nicolaus Bernoulli, matemticos suos. Publicou seus trabalhos em 1733 na obra The doctrine of chances. A descoberta teve logo grande sucesso e grandes nomes esto ligados curva normal, tais como, Laplace que em 1783 a utilizou para descrever a distribuio dos erros, e Gauss que em 1809 a empregou para analisar dados astronmicos. Inclusive, a curva normal chamada de distribuio de Gauss. Hoje em dia, a curva normal um ganho fundamental em cincia, porque (1) a normalidade ocorre naturalmente em muitas, seno todas as medidas de situaes fsicas, biolgicas e sociais e (2) fundamental para a inferncia estatstica. A lei dos grandes nmeros de Bernoulli diz o seguinte: numa situao de eventos casualides, onde as alternativas so independentes, obter coroa em lances de uma moeda de cara e coroa, tem a probabilidade matemtica exata de 50% (porque so somente dois eventos possveis: cara ou coroa), mas na prtica esta probabilidade de 50% apenas aproximada. E essa aproximao tanto mais exata quanto maior forem as tentativas que voc fizer de lanar a moeda,

chegando a quase atingir os exatos 50% se voc lanar a moeda infinitas vezes. Isto , quanto mais lances voc fizer, menor ser o desvio em relao mdia de 50% que o resultado ir produzir. Isso quer dizer que os erros (desvios) sero menores e menores na medida em que sobe o nmero de lances. Desvios grandes so raros e desvios pequenos frequentes; quanto menores os desvios, mais frequentes eles sero, de sorte que, aumentando as tentativas (os lances), aumenta o nmero de desvios pequenos, sobrepujando cada vez mais os desvios grandes, de tal sorte que, no limite, haver quase somente desvios pequenos, sendo o desvio 0 o menor deles e, por consequncia, o mais frequente. Moivre assumiu essa idia de Bernoulli e disse: erros grandes so mais raros que erros pequenos. Assim, quanto menores os erros, mais freqentes eles sero e quanto maiores, menos freqentes. Dessa forma, os erros se distribuem eqitativamente em torno de um ponto modal, a mdia, formando uma curva simtrica com pico na mdia e caindo rapidamente para as caudas esquerda (erros que subestimam a mdia) e direita (erros que superestimam a mdia). Alm disso, essa curva simtrica permitiu a Moivre calcular uma medida de disperso das observaes em torno da mdia, medida esta que hoje em dia conhecida como o desvio padro (DP). Moivre chamou essa curva de normal, porque a mdia dela representa a norma, isto , as coisas todas deviam ser como a mdia; de sorte que tudo que se desvia dessa mdia considerado erro, donde a equivalncia entre desvio e erro. Moivre defendeu essa idia sob o conceito do homem mdio ou mediano, idia que provocou brigas homricas na histria da curva normal. Esta idia do homem mdio insinua, por exemplo, que todos os homens deveriam ter a mesma altura, o mesmo peso, a mesma inteligncia etc., isto , todos eles deveriam ser medianos; os desvios dessa norma podem ser considerados aberraes da natureza! Se voc no introduzir concepes filosficas, esse modo de pensar de Moivre muito til e prtico para entender o que seja e para que serve a curva normal. Quetelet, matemtico belga do sculo XIX, fez uma orgia de medies (Bernstein, 1997: 158) sobre eventos do homem (tais como, natalidade, mortalidade, alcoolismo, insanidade, medidas antropomtricas etc.), resultando no Tratado sobre o homem e o desenvolvimento de suas faculdades (1835), onde afirma que tudo no homem e no mundo se distribui segundo a curva normal (Stigler, 1986). Embora essa afirmao de Quetelet tenha tido reaes contrrias, ela evocou pesquisas sem fim sobre esta histria da distribuio normal dos eventos, chegando hoje em dia a ser mantida a idia de que, praticamente, todos os eventos se distribuem assim. Da, a hegemonia da curva normal nas anlises estatsticas em pesquisas cientficas. Alis, assumir a distribuio normal em pesquisa est baseado em dois fundamentos (Hays, 1963: p. 242): (1) quando a distribuio da prpria populao de eventos normal (como insiste Quetelet para todos os eventos) ou

72

(2) quando a distribuio da populao no for normal, mas o nmero de casos for grande (teorema de Bernoulli ou o teorema do limite central). Essa histria do limite central extremamente complicada, mas os matemticos chegaram a provar o teorema. Assim, qualquer que seja a distribuio dos seus dados, se voc tiver um nmero grande de observaes, voc pode utilizar com tranquilidade a curva normal como uma aproximao adequada para a anlise dos seus dados. Uma curiosidade: um N de 30 j considerado um grande nmero se a distribuio da populao for prxima do normal; um N bem maior ser necessrio se a distribuio da populao no for normal, como, por exemplo, o QI de engenheiros, porque sujeitos com QI mediano e baixo dificilmente sero encontrados entre os engenheiros. H, contudo, um porm em tudo isso: O teorema dos grandes nmeros se aplica quando a amostra da pesquisa for aleatria! Veja essa histria no captulo sobre amostragem (cap. 5).

2 A Curva Normal e a Curva Normal Padronizada

Os pesquisadores quando falam de curva normal, tipicamente entendem a


curva normal padronizada, a qual definida pela simetria e pela curtose. Mas a curva normal original definida exclusivamente pela simetria, isto , que as reas sob a curva so idnticas em ambos os lados da mdia: a curva normal unimodal (tem apenas um pico) e simtrica. Assim, todas as curvas da figura 31 so normais, porque tm um pico somene e so simtricas, embora os desvios sejam diferentes, provocando diferentes nveis de curtose.

Mdia Figura 3-1. Distribuies normais

73

Mais ainda, curvas normais podem ter mdias diferentes (figura 3-2a), desvios-padro diferentes (figura 3-2b) ou ambas as coisas (figura3-2c).

(a)
M = 10 M = 20

(b)
DP = 10 DP = 10 M=0

(c)
DP = 4 DP = 10 M=2 M=7

Figura 3-2. Distribuies normais com diferentes mdias e desvios-padro


Isso acontece porque a curva normal trabalha diretamente com os escores originais X e os seus parmetros da distribuio, a saber, a mdia e o desviopadro (que so os dois parmetros fundamentais da curva normal), conforme se v na sua frmula:

f (X)

1 2
2

( X M )2 / 2

(3.1)

Nessa frmula complicada, a parte mais importante o expoente:

(X M) 2 2 2

(3.2)

e nele se v que quem comanda as aes so os dados empricos X e os parmetros de sua distribuio (M e DP). Agora, tanto os X quanto os parmetros de uma distribuio variam de pesquisa para pesquisa e, assim, as curvas normais que resultam sero diferentes. Entretanto, voc se lembra do captulo anterior que tendo esses dados, isto , o X, a Mdia e o DP, eu posso transformar qualquer escala em escores-padro z, tornando todas as escalas idnticas e diretamente comparveis. Pois , aqui posso fazer a mesma coisa: em lugar de trabalhar com os escores brutos X, posso transform-los em escores z. Agora, a distribuio da curva normal que resulta com escores padronizados a famosa curva normal padronizada, aquela que todo o mundo entende quando se fala simplesmente da curva normal. Inclusive, a frmula desta curva normal padronzada aparece como mais simples (para os estatsticos), ou seja:

74

f ( z)

1 2

z2 / 2

(3.3)

A vantagem dessa curva normal padronizada consiste em que alguns parmetros j esto automaticamente definidos para qualquer escala de medida que voc utilizar, quais seja, a mdia sempre 0 e a varincia sempre 1. Alm disso, existem tabelas construdas para essa curva que mostram quanto por cento da populao se encontra dentro de cada faixa de z, como veremos a seguir, tabelas estas que voc encontra em qualquer livro de estatstica. A curva normal padronizada definida pela simetria e pela curtose; ela chamada de mesocrtica. Vejamos essa histria da curtose. A curtose da curva normal se refere altura do pico da curva, o qual acontece na mdia da distribuio: se o pico muito elevado, a curva chamada de leptocrtica; se o pico achatado, a curva se chama platicrtica e se for mediano, a curva ser mesocrtica, sendo esta ltima, a caracterstica da curva normal padronizada. Veja a figura 3-3 para visualizar a curtose das curvas normais.

Leptocrtica Mesocrtica Platicrtica

-3

-2

-1

+1

+2

+3

Figura 3-3. As distribuies da curva normal


Em pesquisas, quando se fala de curva normal, sem maiores detalhes, normalmente se est falando ou assumindo a curva normal padronizada, isto , a curva normal mesocrtica.

75

3 As reas Sob a Curva Normal

Quanto maior for o expoente da frmula da curva normal, qualquer delas


(inclusive a padronizada veja frmulas 3.1 e 3.3), mais rapidamente a curva vai caindo para a abscissa; mas ele nunca chegar a zero. De sorte que as caudas da curva vo at o infinito; elas so assntotas. Assim, a curva normal cobre uma rea que vai do - a + . As reas sob a curva so dividas pelo desviopadro em torno da mdia. Quando voc trabalha com a curva normal padronizada, a mdia 0 e o desvio-padro 1. Quando no for a padronizada, ento voc tem que calcular a mdia e o DP da distribuio e trabalhar com os dois parmetros. Voc v, ento, que trabalhar com a curva normal padronizada facilita enormemente a vida da gente. De qualquer forma, o que define as reas sob a curva so os DP, ou os z no caso da curva normal padronizada. E, para cada DP ou z em torno da mdia, corresponde uma proporo bem definida de casos da populao que caem dentro deles. Veja, por exemplo, o caso com a curva normal padronizada na figura 3-4.

0,13 2,14 13,59 34,13 34,13 13,59 2,14

0,13

-3

-2

-1

0
68,26% 95,44% 99,74%

+1

+2

+3

Figura 3-4. reas da curva normal e percentagem de casos


Embora a curva normal v at o infinito (positivo e negativo), voc v que a quase totalidade dos casos cai entre -3 e +3 DP (ou z); de fato, 99,74% dos casos.

4 Utilizando as Tabelas da Curva Normal

Qualquer livro de estatstica traz a tabela da curva normal, muitas vezes


apropriadamente intitulada como propores da rea sob a curva normal padronizada. As informaes contidas nessa tabela no so sempre idnticas

76

nos diferentes autores. Entretanto, duas informaes sempre esto presentes e essas so as mais importantes, a saber, o z e a proporo de casos que caem na faixa que vai da mdia (0) at este z. Assim, se voc conhece o z, voc pode descobrir qual a proporo de casos que corresponde a ele ou, se voc conhece a proporo de casos, voc pode descobrir qual o z que lhe corresponde. No tem nada de mgico nessa histria; apenas, precisa um pouco de prtica para realizar a tarefa adequadamente. Vamos dar alguns exemplos; fique olhando para a figura 3-5.

A B
z -3 -2 -1 0 1 2 3 Figura 3-5. Propores de casos sob a curva normal padronizada
Se quiser saber quanto por cento dos casos caem nas faixas A e B, fao o seguinte: Para a faixa A: na coluna z da tabela da curva normal procuro o valor 1 (porque a faixa A vai de 0 a 1); ao lado, na coluna rea, acho a percentagem de casos (a proporo), que no caso diz 0,3413447, isto , entre 0 (a mdia da distribuio) e 1z caem 34,13% dos casos. Para a faixa B: aqui um pouco mais complicado, porque a faixa cai entre -1z e -2z, e no mais entre 0 e algum z. Assim, devo, primeiramente, procurar a proporo que cai entre 0 e -2z (como a curva simtrica, pode desconsiderar o sinal antes do 2z); em seguida, procuro a proporo que cai entre 0 e -1z; por fim, fao a diferena entre as duas propores encontradas e surge a proporo da faixa B. Veja: Entre 0 e 2z: proporo = 0,4772499 Entre 0 e 1z: proporo = 0,3413447 Diferena: 0,4772499 0,3413447 = 0,1359052 Assim, na faixa B caem 13,59% dos casos.
Nota: se voc estiver trabalhando com uma escala no padronizada e quer saber quantos sujeitos esto abaixo ou acima de um escore qualquer da sua escala, basta primeiro transformar esse escore da sua escala em escore

77

padro pela frmula usual, isto , z = (X M)/DP, e procurar o resultado na tabela da curva normal padronizada, como explicado acima.

78