Você está na página 1de 305

ESTATSTICA

APLICADA S CINCIAS SOCIAIS

N .C h am . 311:3 B235e 7. ed.


Autor: Barbetta, Pedro Alberto T edio revisada
Ttulo: Estatstica aplicada s cincia
UNIVERSIDADE FEDERAL DE SANTA CATARINA
Reitor
Lcio Jos Botelho
Vice-Reitor
Arioualdo Bolzan

EDITORA DA FSC
Diretor Executivo
Alcides Buss
Conselho Editorial
Eunice Sueli Nodari {Presidente)
omtio Celso de Brasil Camargo
Carnxen Silvia Rial
Joo Hemesto Weber
Jos Rubens Morato Leite
Maria Cristina Marino Calvo
Nilca Lemos Pelandr
Regina Carvalho
Pedro Alberto Barbetta

EsTATSTCA A p liC A d A AS

C lN C iA S S o C A S

7edio revisada

Editora da UFSC
Florianpolis
2007
2 .[ ) ( t-: / /; . . - ' ; P e d ro A lb e rto B a rb e tta

-=1 Editora da UFSC


Campus Universitrio - Trindade
Caixa Postal 476
88010-970 - Florianpolis - SC
Q>(48} 3721-9408, 3721-9605 e 3721-9686
1(48)3721-9680
9 edufsc@editora.ufsc.br
H http://www.editora.ufsc.br

Direo editorial e capa:


Paulo Roberto da Silva
Reviso tcnico-editorial:
Aldy Vergs Maingu
Editorao:
Daniea2htaran
Reviso:
Maria Geralda Soprana Dias

Ficha Catalogrfica
(Catalogao na fonte pela Biblioteca Universitria da
Universidade Federal de Santa Catarina)

G643a Barbetta, Pedro Alberto


Estatstica aplicada s Cincias Sociais / Pedro Alberto
Barbetta. 7. ed. - Florianpolis : Ed. da UFSC, 2007.
315p. : il. (Srie Didtica)
Inclui bibliografia

1. Estatstica. 2. Cincias Sociais. I. Ttulo.

CDU: 31:3
CDD: 300:21
' ISBN: 978-85-328-0396-2

Reservados todos os direitos de publicao total ou


parcial pela Editora da UFSC
Impresso no Brasil
S u MRO

C i o s S R o dE S M b o lo S .............................................................................................. 9

P REfciO...................................................................................................................^

C a p T u Io 1- iiVTROduO .......................................................................................... J5

P a r t e ! - 0 p Ia n e Ja m e n t o dA c o e t a dos dAdos

C a p t u Io 2 - Pesqusas e d A d o s ............................................................................... 25

2.1 O pIaneJamento dE uma p e s q u s a .................................................................... 24


2.2 D A d o s E VARAVES ........................................................................................... 29
2J EUboRAO dE UM QUESTiONRO....................................................................... 52
2.4 Uma Aplicao ................................................................................................ 55
25 CodficAo dos d A d o s ................................................................................................ 57
A n exo ........................................................................................................................................59

C ap tu L o 5 Tcncas de a m ostragem ....... ............................................................... 41

5.1 Amostraqem aIeatra siiwplEs.......................................................... ................ 45


5.2 O u tro s Tipos dE amostraqens a Ie a t r a s .......................................................... 47
5.5 A m ostragens n o-aIe atras............................................................................. 54
5.4 Tamanho dE uma am ostra aIeatra s iM p le s .................................. ...................... 57
5.5 Fontes de erros nos Levantamentos p o r amostragem ......................................... l

Pa r t e II - D es c r o e e x p Io r a o d E dAdos

C a p t u Lo 4 - DAdos catecjo r za d o s ............................................ .........................................65

4.1 CUssifiCAO SiMplES......................................................................................................65


4.2 R epresen t a es qRficAS...............................................................................................68
4.5 DuplA CASSifiCAO ........... ............................................................................................... 71
A n e x o ..................................................................................................................................... 77

C a pt u Io 5 - Dados uanttatvos ................ .................................................. ...................... 79

5.1 V a RVES diSCRETAS ......... ...................................................................... .......................... 79


5.2 Va r ves co n t n u a s ............ ............................................................................................. 82
5.5 R a m o -e -o IIh a s ................. .............................................................................................. 88

C a p t u I o 6 - IVtedidAs dESCRhrivAS........................................................................................... 91

6.1 MdiA e dEsvio pAdRo........................ ......................................................................... 91


6.2 FrmuIas para o clculo dE X S .............................................................................95
6.5 MEdidAS bASEAdAS na oRdENAo dos d A d o s.............................................................. 99
6.4 O r ENTAO pARA AINSE EXploRATORA dE dA doS....................................................... 109

P a r t e lil - M o c J e Io s d E p R o b A b ilid A d E

C a p t u Io 7 - ModElos pRobAbiisTicos.................................................................................. 115

7.1 D e n es bsiCAs.......................................................................................................... 116


7.2 O ModEio biNOMAl: CARACTER2AO E USO dATAbEU..................................................126
7.5 O ModEio bNOMiAl: o r m u Iao MATEMATCA.............................................................. 129

C a pt u Io 8 - DisTRibuiEs contnuas e ModEio n o rm a I ................................................. 155

8.1 DisTRibuiEs n o r m a s .................................................................................................. 156


8.2 TAbeU dA disTRibuio n o rm a I pAdRo......................................................... ..........159
8.5 DAdos obsERVAdos E ModEio n o rm a I ......................................................................... 145
8.4 ApROXMAO NORiVJaL A biNOMAl ............ ................................................................... 145

P a r t e I V - I n e r e n c a e s t a t s t ic a

C a pt u Io 9 - E stma o dE p a r m e t r o s ................................................. ............................. 155

9.1 DisTRibuio amostra L ...................................................................................................157


9.2 E stma o dE uma p r o p o r o ....................................J .......................... ..................160

9.5 E stma o dE uma M d iA .............................................................................................. 165


9.4 C o rre es pa r a taman No de popuUo c o N h E cid o .................................................170
9.5 Tam an Iho m n im o de um a amostra a I eatra s m p I es ..............................................172

C a pt u Io 10 - Testes estatsticos de kpTESEs....................................................................179

10.1 As kipTESEs dE um teste estatstco ........................................................................... 180

10.2 C oncetos bsicos..................................................................................... ................... 182


10.5 Testes u n Iateras e bikrERAis .......................... .......................... ........................ : ...... 187
10.4 Uso dE diSTRibuiEs ApRoxiMAdAS.............................................................................. 189
10.5 ApliCAO dE TESTES ESTATSTICOS NA pESQUSA............................................................... 191
C a pt u I o 11 - Testes <Je c o m pa r a o entre duAS am o st r a s ................................................. 195

11.1 Testes dE s n Fcnca e ddiNEAMENTOs de p e s q u s a .................................................. 195


11.2 O teste dos s n a s ........................................................................................................198

11.5 O Teste t pa r a dAdos pAREAdos................................................................................ 201


11.4 O TESTE T PARA AMOSTRAS NdEpENdENTES ..................................................................209
11.5 Tam a n c o dAS a m o st r a s ................................................................................................. 217

11.6 COMENTRIOS AdiCiONAS ............... ........... .................................................................. 219

Parte V - R e Iao entre varves

C a pt u Lo 12 - A n se dE dAdos cATEqoRiZAdos.................................................................227

-4 12.1 O teste de associao pui-uAdRftdo ................ ...................................................... 228


12.2 MEdidAS dE a sso ca o ................................................................................................241

C a pt u I o 15 - C o r r e Ia o e regr esso ....................................................... .......................251

15.1 DiAqRAMAS dE diSpERSO .......................................................................................... 252


15.2 O COEidENTE dE co rre La o li NEAR d e P earsoin .......................................................... . ............254
15.5 C o r r e Ia o po r p o s ro s ...................... ....................................................... ...............265
15.4 R e g r ess o Ln ear ' s iM p k s............................................................................................ 266
15.5 A nI s e dos REsduos e t r a n s o r m a e s .................................................................... 277

15.6 iNTRoduo regresso M u lrip U ....................................................................... .......285


A n e x o .............................................................................. ........................... ....................... 288

R e e r n c a s ......................................................................................................................... 289

ApN dicE................................................................................................................................291

R espo st a s dE a Igu ns e x e r c c o s ..........................................................................................505


G l o s s R i o d E SM b o lo S

L etras do AlAbETO poRTuqus


Smbolo Significado Sees
Estimativa do coeficiente escalar
a 13.4
(intercepto) de uma reta de regresso
Estimativa do coeficiente angular de uma
b 13.4
reta de regresso
C Coeficiente de contingncia 12.2
C* Coeficiente de contingncia modificado 12.2
d Desvio entre quarts 6.4
Ei Extremo inferior 6.4
JtSS Extremo superior 6.4
E Margem de erro / Freqncia esperada 9.2, 9.3 / :
Eb Margem de erro tolerada 3.4, 9,5
9.3, 11.3,
gi Graus de liberdade
12.1
Ho Hiptese nula 10.1
Hi Hiptese alternativa 10.2
Ma Mediana 6.3
Tamanho (nmero de elementos) da
N 3.1, 3.4
populao
Tamanho (nmero de elementos) da
n 3.1, 3.4, 7,
amostra
Valor preliminar no clculo do tamanho
no 3.4, 9.5
da amostra
O Freqncia observada 12.1
P Valor p ou probabilidade de significncia 10.2
PfA) Probabilidade de ocorrer o evento A 7.1
pW Probabilidade de ocorrer o valor * 7.2
Qi Quartil inferior 6.4 .
10 E st a tst ic a ApliCAda s C n c a s S o c a s

Smbolo Sigmxfcado Sees


Qs Quartil superior 6.4
r Coeficiente de correlao de Pearson 13.2
rs Coeficiente de correlao de Spearman 13.3
Coeficiente de determinao da equao
FP 13.4
de regresso
Desvio padro dos dados / Desvio padro
s 6.1, 6.2 / 9.3
amostrai
S2 Varincia dos dados / Varincia amostrai 6.1 / 9.3
Estimativa do erro padro da proporo
Sp 9.2, 9.4
amostrai
c_ Estimativa do erro padro da mdia
9.3, 9.4
amostrai
Sd Desvio padro de diferenas 11.3
Sa Desvio padro agregado 11.4
Sa Varincia agregada 11,4
Se Desvio padro dos resduos da regresso 13.4
Valor da distribuio t de Student / Valor 9.3 / 11.3,
t
da estatstica t 11.4
V Coeficiente de associao de Cramr 12.2
Mdia aritmtica dos valores de X J
X 6.1, 6.2 / 9.3
Mdia amostrai
Valor predito por uma equao de
y 13.4
regresso
Valor padronizado / Valor da distribuio
z 8.1/ 9.2
normal padro

SMbolos matemtcos e Ietras do AlfAbETO qreqo


Smbolo Significado Sees
Aproximadamente igual
Mais ou menos
> Maior
> Maior ou igual
< Menor
< Menor ou igual
Nvel de significncia de um teste
a estatstico / Coeficiente escalar 10.2 / 13.4
(intercepto) de uma reta de regresso
Probabilidade do erro tipo II / Coeficiente iq 2 / 13 4
^ angular de uma reta de regresso
Y Coeficiente de correlao gama 12.2
<t> Coeficiente de associao phi 12.2
C I o s s r o de s m b o lo s 11

Smbolo Significado Sees


e Erro aleatrio 13.4
Mdia do modelo normal / Mdia ~ , ,n Q
u i - i 7.1 / 9.3
^ populacional
Valor esperado de uma proporo q i
amostrai
Q Espao amostrai 7.1
Probabilidade (parmetro de um modelo) 7 ^ 7 2/91
n / Proporo populacional '
X2 Estatstica qui-quadrado 12.1
a Desvio padro do modelo normal 7.1
a2
op Erro padro da proporo amostrai 9.1
<j~ Erro padro da mdia amostrai 9.3
X Soma dos elementos da varivel X 6.1
Soma dos quadrados dos elementos da ^ ^
^ varivel X
E
statstica aplicada s Cincias Sociais foi escrito com o objetivo de ser
um livro-texto em disciplinas de Estatstica para cursos de Cincias
Sociais e Humanas. A motivao para escrever este texto surgiu quando
aproximamos o ensino da Estatstica a problemas prticos nas reas
sociais, inserindo os alunos em pequenos projetos de pesquisa e
mostrando-lhes a necessidade do uso de tcnicas estatsticas. A motivao
e o aproveitamento dos alunos cresceram tanto que resolvemos
desenvolver esta abordagem em forma de livro-texto.
Este texto apresenta uma introduo estatstica, acompanhada
de uma orientao de como planejar e conduzir uma pesquisa quantitativa.
Ao invs de apresentarmos a Estatstica com um raciocnio tipicamente
matemtico, como usual nos livros-texto de Estatstica, optamos por
apresentar os conceitos e tcnicas dentro de um processo de pesquisa
em Cincias Sociais e Humanas. Em geral, os captulos iniciam com
problemas prticos que motivam e justificam a introduo de tcnicas
estatsticas.
O livro inicia com uma viso geral das tcnicas estatsticas e
apresenta algumas idias bsicas sobre o planejamento de uma pesquisa
social (Captulos 2 e 3). Os Captulos 4 a 6 trazem alguns dos principais
elementos da Estatstica Descritiva e da Anlise Exploratria de Dados,
incluindo algumas aplicaes em pesquisas de campo desenvolvidas em
nossa Universidade. Alguns modelos de probabilidades, que sero
necessrios para o entendim ento de captulos posteriores, s
apresentados nos Captulos 7 e 8. O Captulo 9 coloca o problema de
generalizar resultados da amostra para a populao, atravs de intervalos
de confiana, e aplicado especialmente em pesquisas de levantamento
14 STMSTCA. ApiCftdft S Q N C tftS S o c ia i s

por amostragem, como nas pesquisas eleitorais. O Captulo 10, embora


enfoque tambm a questo de generalizar resultados da amostra para a
populao, o faz atravs de testes de hipteses. Os conceitos de testes de
hipteses geralmente so de difcil entendimento, mas, neste livro,
apresentamo-los de uma forma que os alunos no costumam ter maiores
dificuldades. Os Captulos 11 e 12 abordam testes de hipteses e anlises
estatsticas bastante usados nas Cincias Sociais e Humanas. Finalmente,
o Captulo 13 apresenta procedimentos estatsticos para avaliar a relao
entre duas variveis, assim como desenvolve tcnicas para construir
modelos voltados para alguns tipos de relaes.
Ao longo das vrias edies, fomos corrigindo erros, aperfeioando o
texto, introduzindo novos exemplos e exerccios, alm de incluir saldas
de pacotes computacionais estatsticos e de planilhas eletrnicas, fazendo
com que o presente material sirva tambm como livro-texto para
disciplinas que usam o computador. Nesta sexta edio, reescrevemos o
texto com uma linguagem mais direta, procurando melhorar aspectos
didticos e dando maior destaque aos principais conceitos, alm de
aprimorar a qualidade da apresentao. Tambm estamos criando uma
pgina na Internet com Slides baseados no Ivto, orientaes para uso de
alguns pacotes computacionais e arquivos de dados para exerccios e
trabalhos acadmicos, alm de outras facilidades. Ver www.inf.ufsc.br/
-barbetta /livro 1.htm.
Finalmente, gostaramos de agradecer aos colegas professores e
alunos que tanto contriburam para o desenvolvimento deste texto, em
especial Prof Svia Modesto Nassar, que teve a pacincia de ler
criteriosamente todo o texto e oferecer contribuies significativas nos
Captulos 2 e 3.

Pedro Alberto Barbetta


este primeiro captulo, tentaremos oferecer ao leitor uma idia

N preliminar do que estatsticac como ela pode ser usada em pesquisas,


nas reas das cincias sociais e humanas.
Quem est estudando estatstica pela primeira vez deve imagin-la
associada a nmeros, tabelas e grficos que sero usados no momento
de organizar e apresentar os dados de uma pesquisa. Mas, como
tentaremos mostrar neste livro, isto no bem assiml A estatstica pode
estar presente nas diversas etapas de uma pesquisa social, desde o seu
planejamento at a interpretao de seus resultados, podendo, ainda,
influenciar na conduo do processo da pesquisa. Tomemos o seguinte
exemplo para facilitar a nossa discusso.

ExEMplo 1.1 Com o objetivo de levantar conhecimentos sobre o nvel de


instruo do chefe da casa, nas famlias residentes no bairro Saco Grande
II, Florianpolis - SC, decidiu-se pesquisar algumas destas famlias.1

Temos, no Exemplo 1.1, um problema tpico de estatstica aplicada:


conhecer certas caractersticas de uma populao, com base numa
amostra

Populao o conjunto de elementos para os quais desejamos que as nossas concluses


sejam vlidas - o universo de nosso estudo. Uma parte desses elementos dita uma
amostra.

1 Este problema faz parte de uma pesqusa realizada, pela UFSC, 1988. O anexo do Captulo
4 apresenta parte dos dados coletados.
16 E st a tst ic a a p I c aca s C n c a s S o c a s

C o I e t a d E dftdos

Para conhecermos certas caractersticas dos elementos de uma


populao (ou de uma amostra), precisamos coletar dados desses
elementos. uma fase da pesquisa que precisa ser cuidadosamente
planejada para que dos dados a serem levantados se tenham informaes
que atendam aos objetivos da pesquisa- no planejamento da obteno
dos dados que devemos tambm planejar o quefazer com eles. Voltaremos
a essa discusso nos Captulos 2 e 3.
No problema apresentado no Exemplo 1.1, os dados foram coletados
atravs de entrevistas, aplicadas numa amostra de 120 famlias. Ao
observar o nvel de instruo do chefe da casa, o entrevistador classificava
a resposta do entrevistado numa das trs seguintes categorias: (1) sem
instruo, (2) fundamental (primeiro grau) e (3) mdio (segundo grau). Ao
coletar os dados desta forma, j se tinha em mente os procedimentos
estatsticos que seriam usados na futura anlise desses dados.

D e s c r o e EXploRAo dE dAdos

Depois de observada uma amostra de famlias (Exemplo 1. X), temos


disposio um conjunto de dados acerca da varivel nvel de instruo
do chefe da casa. Esses dados devem ser organizados para que possam
evidenciar informaes relevantes, em termos dos objetivos da pesquisa.
Esta etapa usualmente chamada de descrio de dados. Um conceito
importante nesta fase do trabalho o de distribuio de freqncias.

A distribuio de freqncias compreende a organizao dos dados de acordo com as


ocorrncias dos diferentes resultados observados.

Uma distribuio de freqncias do nvel de instruo, por exemplo,


deve informar quantas pessoas (ou a percentagem de pessoas) se
enquadram em cada categoria preestabelecida. A Figura 1.1 mostra, sob
forma grfica, uma distribuio de freqncias.2 Temos, nesta figura, a
informao da percentagem de chefes da casa que esto em cada nvel de
instruo. Em outras palavras, a Figura 1.1 fornece uma visualizao do
perfd do nvel educacional dos chefes das casas, na amostra em estudo.

2 A construo de distribuies de freqncias, assim como suas representaes em tabelas


e grficos, sero vistas nos Captulos 4 e 5.
C a p t u I o 1 - n t r o c I u o 17

Nvel de instruo do chefe da casa

i nenhum

fundamental

mdio

32%

Figura 1.1 Distribuio de freqncias do nivel de instruo do


chefe da casa. Amostra de 120 famlias do bairro Saco Grande
II, Florianpolis-SC, 1988.

A regio em estudo dividida em trs localidades: Conjunto


Residencial Monte Verde, Conjunto Residencial Parque da Figueira e
Encosta do Morro. Considerando que haja interesse em comparar essas
trs localidades, construmos a Figura 1.2, que apresenta trs
distribuies de freqncias, sendo uma para cada localidade.

Nvel de instruo do chefe da casa

nenhum fundamental

15%
34%

49%
57%

33%
Monte Verde Pq. da Figueira Encosta do Morro
40 famlias 43 famlias 37 famlias

Figura 1.2 Distribuio de freqncias do nvel de instruo do chefe da casa, por localidade.
Amostra de 120 famlias do Bairro Saco Grande II, Florianpolis - SC, 1988.

Ao descrever os dados, comeamos a explorar como deve ser a


populao de onde eles foram extrados. A Figura 1.2, por exemplo, parece
sugerir que, na populao em estudo, o perfil do nvel de instruo do
chefe da casa melhor no Conjunto Residencial Monte Verde e pior na
18 E st a t st ic a a p I c a c a s C n c a s S o c a s

Encosta do Morro, ficando o Conjunto Residencial Parque da Figueira


numa situao intermediria. Este tipo de anlise pode ser caracterizado
como uma anlise exploratria de dados, ou seja, uma tentativa de captar
a essncia das informaes contidas nos dados, atravs da construo
de tabelas e grficos. Em termos mais tcnicos, uma anlise exploratria
de dados consiste na busca de um padro ou modelo que possa nos
orientar em anlises posteriores.

InPeinca estatstca

Ao analisar os dados de uma amostra, devemos estar atentos ao


fato de que algumas diferenas podem ser meramente casuais,
ocasionadas por caractersticas prprias da amostra, no representando,
necessariamente, propriedades da populao que gostaramos de
conhecer. Neste contexto, importante estudarmos os chamados modelos
probabilsticos {Captulos 7 e 8), que so uma forma de mensurar a
incerteza. Esses modelos constituem-se na base da metodologia estatstica
de generalizar resultados de uma amostra para a populao d onde ela
foi extrada, que pode ser sob a forma de estimao de parmetros ou de
teste de hipteses.

Um parmetro uma medida que descreve certa caracterstica dos elementos da


populao.

Por exemplo, na populao descrita no Exemplo 1.1, a percentagem


defamias em que o chefe da casa possui nvel mdio de instruo um
parmetro.
Na Figura 1.1, verificamos que, na amostra, a percentagem de
famias em que o chefe da casa possui o nvel rndib de 36%. Mas este
no o valor exato do parmetro que descrevemos, pois no pesquisamos
toda a populao, mas somente uma amostra. No Captulo 9, estudaremos
uma metodologia capaz de avaliar, de forma aproximada, o valor de~
determinado parmetro, considerando apenas os resultados de uma
amostra, ou seja, estudaremos o chamado processo de estimao de
parmetros.
O ato de generalizar resultados da parte (amostra) para o todo
(populao) conhecido como inferncia estatstica. A estimao de
parmetros uma forma de inferncia estatstica. Outra forma surge
quando temos alguma hiptese sobre a populao em estudo e queremos
C a p t u Io i I n t r o c u o 19

verificar a sua validade, com base em uma amostra. So os chamados


testes estatsticos de hipteses ou testes de significncia. Levin (1985, p. 1)
descreve:

O cientista tem idias sobre a natureza da realidade (idias que eie denomina
hipteses) e freqentemente testa suas idias atravs de pesquisa
sistemtica.

No problema do Exemplo 1.1, poderamos ter interesse em testar a


seguinte hiptese: a distribuio do nvel de instruo do chefe da casa
deve variar conforme a localidade. Os dados da amostra, como vimos na
Figura 1.2, apontam para diferentes distribuies de freqncias nas trs
localidades. Por exemplo, enquanto no Monte Verde temos 57% de famlias
com o chefe da casa possuindo o nvel mdio, na Encosta do Morro, este
percentual cai para 16%. Mas estas diferenas nos resultados da amostra
so suficientes para afirmarmos que tambm existem diferenas na
populao?
Para inferirmos se as diferenas observadas na amostra tambm
existem em toda a populao, precisamos saber se elas no poderiam
ocorrer meramente pelo acaso. O estudo dos testes estatsticos de
hipteses (Captulo 10) facilitar a soluo desse tipo de problema.
Em pesquisas empricas, fundamental se testar as hipteses
formuladas, pois estas, quando comprovadas estatisticamente, passam a
servir de suporte para outras pesquisas, construindo-se, assim, um
encadeamento de conhecimentos, levando-nos a novas fronteiras do saber
(veja a Figura 1.3).

Figura 1.3 0 processo iterativo da evoluo do conhecimento.


plANEjAMENTO d A ColETA dos dA(fos

C omo p U neJ ar ac! EQUAdAiviENTE a coeta dos dAdos

C omo aIquns conceitos bsicos dA Estatstca podEM auxLar no

plANEjAMENTO dA pESQUISA
I
L_ m nossas decises do dia-a-dia estamos direta ou indiretamente
I_nos baseando em dados. Ao decidir, por exemplo, pela compra de
determinado bem, procuramos verificar se ele satisfaz as nossas
necessidades, se o seu preo compatvel com nosso oramento, alm de
outras caractersticas. Posteriormente, comparamos os dados desse bem
com eventuais alternativas e, atravs de uma anlise processada
internamente em nossa mente, tomamos a deciso de compr-lo ou no.
Nas pesquisas cientficas, tambm precisamos coletar dados que
possam fornecer informaes capazes de responder s nossas indagaes.
Mas para que os resultados da pesquisa sejam confiveis, tanto a coleta
dos dados quanto a sua anlise devem ser feitas de forma criteriosa e
objetiva. A Figura 2.1 ilustra as principais etapas de uma pesquisa que
envolve levantamento e anlise de dados.

Figura 2.1 Etapas usuais de uma pesquisa quantitativa.

1 Este captulo teve a participao da Professora SQvia Modesto Nassar, Doutora em Engenharia
Biomdica e Professora Titular do Departamento de Informtica e Estatstca da UFSC.
24 E st a tst ic a A p licA ck s C n c a s S o c a s

Embora a aplicao de tcnicas estatsticas seja feita basicamente


na etapa de anlise dos dados, a metodologia estatstica deve ser aplicada
nas diversas etapas da pesquisa, interagindo com a metodologia da rea
em estudo. No possvel obter boas informaes de dados que foram
coletados de forma inadequada. A qualidade da informao depende da
qualidade dos dados! Do mesmo modo, para que a utilizao dos
resultados estatsticos seja feita de forma correta, torna-se necessrio
que o pesquisador conhea os princpios bsicos das tcnicas usadas.
Neste captulo faremos uma breve explanao sobre as linhas gerais
do planejamento de uma pesquisa, dando nfase ao planejamento da
coleta de dados.

2.1 0 pANEjAMENTO (1e UMA pESQUSA

0 p R o b lE M A <Je p ES Q U S A

Para se iniciar qualquer processo de pesquisa, deve-se ter bem


definido o problema a ser pesquisado. Isto normalmente envolve uma
boa reviso da literatura sobre o tema em questo.

F o r m u Ia o dos objETvos

Os objetivos de uma pesquisa devem ser elaborados de forma bastante


clara, j que as demais etapas da pesquisa tomam como base esses objetivos.

ExEMplo 2.1 Objetivo geral: conhecer o perfil de trabalho dos funcionrios


de determinada empresa para orientar polticas de recursos humanos.

Para podermos dar seqncia a esta pesquisa, precisamos especificar


melhor o que queremos conhecer da populao de funcionrios, ou seja,
os objetivos especficos. Alguns destes objetivos especficos poderiam ser:
a) Conhecer o tempo mdio de servio dos funcionrios na empresa.
b) Conhecer a distribuio do nvel de instruo dos funcionrios.
c} Verificar o interesse dos funcionrios em participar de programas de
treinamento.
d) Avaliar o nvel de satisfao dos funcionrios com o trabalho que
exercem na empresa.
e) Verificar se existe associao entre o nvel de satisfao do funcionrio
com a sua produtividade.
C ap tu Io 2 - P esq u isas e d a d o s

Os objetivos de (a) a (d) podem ser alcanados por uma pesquisa


que descreva as caractersticas pertinentes da populao. Por outro lado,
o objetivo (e) mais analtico, pois nele est embutida a hiptese de que
exista associao entre satisfao e produtividade, hiptese que dever
ser colocada prova no decorrer da pesquisa.
A elaborao dos objetivos especficos deve ser feita de tal forma
que fomea uma primeira indicao das caractersticas que precisamos
observar ou medir nos indivduos a serem pesquisados. Por exemplo,
para atingir aos objetivos do problema em questo, precisamos levantar
as seguintes caractersticas de cada funcionrio da empresa: tempo de
servio, nvel de instruo, interesse em participar de programas de
treinamento, nvel de satisfao com o trabalho e produtividade.

Tipos dE pESQUSA

Depois de os objetivos estarem explicitamente traados, devemos


decidir sobre as linhas bsicas da conduo da pesquisa, ou seja, o
delineamento da pesquisa. O Exemplo 2.1 mostra uma pesquisa de
levantamento ou survey e o Exemplo 2.2 uma pesquisa experimental.

Exemplo 2.1 (continuao) Delineamento da pesquisa: um levantamento de


dados a partir da aplicao de um questionrio em uma amostra de
funcionrios. Dados: resultados de diversos atributos e medidas relativas
ao sistema de trabalho dos funcionrios respondentes. Esquematicamente:

Na pesquisa de levantamento ou survey observam-se diversas caractersticas dos


elementos de uma certa populao ou amostra, utilizando-se questionrios ou
entrevistas. A observao feita naturalmente e sem interferncia do pesquisador.
26 E st a tst c a ApticAdA s C n c a s S o c a s

A pesquisa de levantamento bastante comum nas Cincias Sociais


e costuma gerar grandes conjuntos de dados. Na seqncia deste livro,
daremos mais destaque a esse tipo de pesquisa.

ExEMplo 2.2 Objetivo gerak comparao de dois mtodos de treinamento


de funcionrios, sendo um deles usualmente aplicado e a outro, novo.
Especificamente, queremos decidir qual o mtodo mais adequado, no
sentido de aumentar a produtividade dos funcionrios de determinada
empresa. Delineamento da pesquisa: so formados dois grupos de
funcionrios, sendo cada grupo treinado por um dos mtodos. Dados:
uma medida de produtividade de cada operrio, resultando em dois
conjuntos (amostras) de valores de produtividade, relativos a cada mtodo
de treinamento. Esquematicamente:

O Exemplo 2.2 enfoca um delineamento de pesquisa experimental

Na pesquisa experimental o pesquisador exerce controle sobre o tratamento que vai


ser aplicado a cada elemento da(s) amostra(s). H, portanto, interferncia do pesquisador.

Esse tipo de pesquisa usado para resolver problemas bem


especficos, geralmente formulados sob forma de hipteses de causa e
efeito. No exemplo em questo, tem-se implicitamente a hiptese de que
a produtividade de um funcionrio influenciada pelo mtodo de
treinamento. Geralmente a quantidade de dados gerada por uma pesquisa
experimental pequena, mas os dados so suficientemente estruturados
(devido ao controle do pesquisador) para que se possa decidir, atravs de
uma anlise estatstica apropriada, se uma hiptese previamente
formulada pode ser aceita ou rejeitada.
H situaes em que conhecemos muito pouco sobre o universo a
ser estudado. Nesses casos, podemos realizar uma pesquisa qualitativa,
observando detalhadamente um pequeno nmero de elementos, sem uma
Cftpiulo 2 - PesQuiSAS e dAdos 27

formulao criteriosa das caractersticas a serem levantadas. Na pesquisa


qualitativa no se costuma aplicar mtodos estatsticos e, por isto, no a
abordaremos neste livro.

PopulAO E AMOSTRA

Um passo importante no delineamento da pesquisa consiste na


deciso de quem se vai pesquisar.

Populao-alvo o conjunto de elementos que queremos abranger em nosso estudo.


So os elementos para os quais desejamos que as concluses oriundas da pesquisa
sejam vlidas.

No exemplo sobre o perfil de trabalho dos funcionrios de uma


empresa, a populao-alvo pode ser definida como o conjunto de todos os
funcionrios da empresa, numa determinada poca. Contudo, se a coleta
de dados for feita no prprio local de trabalho e no perodo de uma semana,
os funcionrios que neste perodo esto de frias ou de licena ficam
inacessveis de serem observados. Assim, as concluses baseadas nesses
dados no valera, necessariamente, para todo o conjunto de funcionrios.

Populao acessvel, ou simplesmente populao, o conjunto de elementos que


queremos abranger em nosso estudo e que so passveis de serem observados, com
respeito s caractersticas {variveis) que pretendemos levantar.

Quando houver diferena razovel entre a populao-alvo e a


populao acessvel, pode haver vis ao generalizar os resultados da
anlise para toda a populao-alvo. Assim, recomendvel citar no
relatrio da pesquisa a limitao de que seus resultados valem
especificamente para a populao definida como acessvel, evitando que
os resultados da pesquisa sejam usados de maneira inadequada.
Nem sempre os elem entos que definem a populao ficam
claramente definidos na formulao dos objetivos. Por exemplo, num
levantamento sobre as condies socioeconmicas de um bairro, a
populao pode ser definida como o conjunto de famlias residentes no
bairro, o conjunto de indivduos moradores do bairro ou, ainda, como o
conjunto indivduos com mais de dezoito anos do bairro. A definio da
populao depende basicamente dos objetivos da pesquisa, das
caractersticas a serem levantadas e dos recursos disponveis. Em alguns
casos, podemos trabalhar com mais de uma populao.
28 E st a tst ic a AplicAciA s C i n c ia s S o c a s

Em grandes populaes interessante a realizao de uma


amostragem, ou seja, a seleo de uma parte da populao para ser
observada. Para um leigo em estatstica, surpreendente como uma
amostra de 3.000 eleitores fornea um perfil bastante preciso sobre a
preferncia de todo o eleitorado, na vspera de uma eleio presidencial.
Mas isto s verdade se esta amostra for extrada sob um rigoroso plano
de amostragem, capaz de garantir a sua representatividade.2

A coIeta cfc dAdos

Depois de definirmos os objetivos e a populao a ser estudada,


precisamos pensar como ser a coleta de dados. Em muitas situaes
no precisamos ir at aos elementos da populao para obter os dados,
porque eles j existem em alguma publicao ou arquivo. o que
chamamos de dados secundrios. No Exemplo 2.1, os dados sobre o tempo
de servio e nvel de instruo dos funcionrios talvez possam ser obtidos
no departamento de pessoal da empresa. Outras caractersticas, tais como
interesse em participar de programas de treinamento e satisfao com o
trabalho, necessitam ser levantadas, observando diretamente cada
funcionrio. So os dados primrios.
Nesta fase da pesquisa, devemos verificar exaustivamente o que j
existe de dados sobre o assunto em estudo, pois a utilizao de dados
secundrios pode reduzir drasticamente os custos de uma pesquisa.
Quando os dados forem levantados diretamente dos elementos da
populao, necessrio construir um instrumento para que sua coleta
seja feita de forma organizada. Chamaremos este instrumento de
questionrio, cuja elaborao e formas de aplicao discutiremos na
Seo 2.3.

E x e r c c io s

1) Seja uma pesquisa eleitoral, a ser realizada a poucos dias de uma eleio
municipal, com o objetivo de verificar a inteno de votos para cada candidato
prefeitura. Defina a populao-alvo e a populao acessvel.
2) A pesquisa descrita no Exerccio 1 experimental ou de levantamento?
Justifique.

2 Algumas tcnicas de amostragem sero estudadas no Captulo 3.


CAprulo 2 - P e sq u isa s e dAdos 29

2.2 Dados e variveis

As variveis surgem quando perguntamos o que vamos observar ou


medir nos elementos de uma populao ou amostra. A observao {ou
medida) de uma varivel num elemento da populao deve gerar um e
apenas um resultado.

As variveis so as caractersticas que podem ser observadas (ou medidas) em cada


elemento da populao, sob as mesmas condies.

Cojvto d EiM R UfldA VARV e I NA pRTCA?

Na populao de funcionrios de uma empresa, podemos definir


variveis, tais como: tempo de servio, estado civil, etc. Podemos observ-
las com perguntas do tipo:

H quanto tempo o Sr. (ou Sra.) trabalha nesta empresa?_______ .


Qual o seu estado civil?_______ .

Contudo, essas perguntas no esto identificando bem as variveis


de interesse, pois os funcionrios podem interpret-las de diferentes
formas. Na primeira pergunta, podem ocorrer respostas como: h pouco
mais de 12 anos, h 7 meses, h muito tempo e assim por diante, no
caracterizando propriamente observaes da varivel tempo de servio,
por no estarem sendo observadas de forma homognea.
Para que as observaes do tempo de servio sejam feitas sob as
mesmas condies, precisamos estabelecer a sua unidade de medida, por
exemplo, anos completos de trabalho na empresa. E a pergunta poderia ser:

H quanto tempo o Sr. (ou Sra.) trabalha nesta empresa? ____________


anos completos.

Quanto varivel estado civil as possveis respostas so atributos.


Para evitar alguma resposta estranha, podemos estabelecer previamente
as possveis alternativas de resposta. E a pergunta poderia ser:

Qual o seu estado civil? ( ) solteiro { ) casado { )vivo ( ) desquitado


( ) divorciado
50 ESTATSTICA Api.iCACA S ClNCAS S o CAS

Ao efetuar estas perguntas a um funcionrio da empresa, teremos,


para cada pergunta, apenas uma resposta. ada pergunta est, ento,
associada a uma varivel.

Varves juaItatvas e quanttatvas

Quando os possveis resultados de uma varivel so nmeros de


uma certa escala, dizemos que esta varivel quantitativa. Quando os
possveis resultados so atributos ou qualidades, a varivel dita
qualitativa {veja a Figura 2.2).

Figura 2.2 Classificao das variveis e dos dados, em termos do nvel de mensurao.

No exemplo precedente, o tempo de servio (em anos completos)


uma varivel quantitativa, enquanto o estado civ qualitativa.
Na descrio das variveis envolvidas na pesquisa, devemos incluir
a escala (ou unidade) em que sero mensuradas as variveis quantitativas
e as categorias (possveis respostas) das variveis qualitativas. Sempre
que uma caracterstica puder ser adequadamente medida sob forma
quantitativa, devemos usar este tipo de mensurao, porque as medidas
quantitativas so, em geral, mais informativas do que as qualitativas. Por
exemplo, dizer que um funcionrio trabalha h 30 anos na empresa
mais informativo do que dizer que ele trabalha h muito tempo na empresa.

ExEM pb dE MENSURAO dE UMA.VARVe I

Muitas caractersticas podem ser mensuradas de vrias formas e


nem sempre fica evidente qual delas a mais apropriad. Os dois itens
abaixo, por exemplo, procuram levantar o nvel de satisfao de um
funcionrio com a poltica de trabalho na empresa.

(a) Em termos do trabalho que voc exerce na empresa, voc se sente:


( ) muito satisfeito ( ) pouco satisfeito ( ) insatisfeito

(b) D uma nota de 0 (zero) a 10 (dez), relativa ao seu nvel de satisfao


com o trabalho que voc exerce na empresa. Nota:______ .
CApTulo 2 - PesQuiSAS h dados 51

No primeiro caso, o item do questionrio est associado a uma


varivel qualitativa, pois o respondente deve atribuir uma resposta dentre
as trs categorias apresentadas. Como existe uma ordenao do nvel de
satisfao nas trs opes, dizemos que a varivel qualitativa ordinal.
No segundo caso, tenta-se mensurar a caracterstica satisfao
quantitativamente, pois o respondente vai atribuir um valor, que ele julga
ser o seu nvel de satisfao, tomando-se como base uma escala de 0 a
10. Cabe observar que, apesar da mensurao quantitativa ser mais
informativa, na presente situao ela pode causar algumas distores,
pois, ura 7 (sete) para um respondente pode no significar exatamente
um 7 (sete) para outro, j que a escala de 0 (zero) a 10 (dez) pode ser
entendida de foraia diferenciada entre os indivduos.
A deciso de como medir determinada caracterstica depende de
vrios aspectos, mas sempre recomendvel verificar se a mensurao
proposta leva aos objetivos da pesquisa e, alm disso, se ela vivel de
ser aplicada.

Varves e tens dE m uestonro

Nem sempre h uma relao direta entre um item de um


questionrio e uma varivel. Veja o exemplo a seguir.

Assinale os esportes que voc costuma praticar regularmente:


( ) futebol ( ) basquetebol ( ) voleibol
( ) outros. Especificar:______________ .

Este item no est associado diretamente a uma nica varivel


esportes, pois um respondente pode praticar mais de um esporte, violando
a suposio bsica da varivel assumir um e apenas um resultado, por
respondente. Podemos, por outro lado, associar vrias variveis a este
item, tais como: (1) quantidade de esportes que pratica regularmente, (2)
futebol (pratica ou no), (3) basquetebol (pratica ou no), e assim por diante.3
A especificao do esporte na categoria outros pode ser analisada
posteriormente, podendo ser includas novas variveis indicadoras do
tipo pratica ou no pratica.

3 Uma outra possibilidade seria definir a varivel esportes que pratica, tendo como possveis
respostas todas as combinaes de modalidades de esportes. Mas a anlise destas respostas
seria difcil, dado o grande nmero de possveis alternativas.
52 EsTATSTiCA A piiCftdA S CiiNCiAS S o c a Is

E x e r c c o s

3) Defina que variveis precisa-se levantar para cada um dos objetivos especficos
do Exemplo 2.1. Considerando as suas definies, verificar quais so
qualitativas e quais so quantitativas.
4) Considerando a populao das crianas em creches municipais de
Florianpolis, completar as definies das seguintes variveis e verificar quais
so qualitativas e quais so quantitativas,
a) altura b) peso c] idade d) sexo e) cor;
f) nacionalidade do pai e g) local do nascimento.

23 ElAbORAO dE UM questonro

Na conduo de uma pesquisa, a construo de um questionrio -


uma etapa longa que deve ser executada com muita cautela. Tendo em
mos os objetivos da pesquisa claramente definidos, bem como a
populao a ser estudada, chamamos a ateno de alguns procedimentos
para a construo de um questionrio.
a) Separar as caractersticas (variveis) a serem levantadas.
Para ilustrar, retomemos o Exemplo 2.1, com os seguintes objetivos
especficos:
- conhecer o tempo mdio de servio dos funcionrios na empresa;
- conhecer a distribuio do nvel de instruo dos funcionrios e
- avaliar o nvel de satisfao dos funcionrios com o trabalho que
exercem na empresa.
Temos, ento, as seguintes caractersticas a serem levantadas dentre
os funcionrios da empresa: tempo de servio, nvel de instruo e nvel
de satisfao com o trabalho.
b) Fazer uma reviso bibliogrfica para verificar formas de mensurar as
variveis em estudo.
No exemplo precedente precisamos avaliar o nvel de satisfao dos
funcionrios. Podemos procurar referncias que nos orientem em como
medir a satisfao. Em levantamentos de dados socioeconmicos,
podemos consultar os modelos de questionrios utilizados pelo IBGE,
os quais j foram bastante estudados e testados.4

4 IBGE a sigla do Instituto Brasileiro de Geografia e Estatstica, rgo responsvel por


diversos levantamentos no Brasil, como os censos demogrficos, censos agropecurios,
censos industriais e anurios estatsticos.
CApTufo 2 - P SQUSAS dAdos 5?

c) Estabelecer a forma de mensuraao das variveis a serem levantadas.


Para as variveis quantitativas devem estar bem definidas as unidades
de medida (meses, metros, kg etc.) que devem acompanhar as respostas.
Nas variveis qualitativas deve haver uma lista completa de alter
nativas, mesmo que seja necessrio incluir categorias como: outros,
no tem opinio etc. Por exemplo, o tempo de servio pode ser observado
quantitativamente, em anos completos de servio na emprescr, e o nuel
de instruo, em categorias mutuamente exclusivas, como: nenhum,
fundamental mdio e superior. O nuel de satisfao com o trabalho pode
ser avaliado por uma escala de cinco pontos, sendo 1 - completamente
insatisfeito, 2 - insatisfeito, 3 - mais ou menos satisfeito, 4 - satisfeito e
5 ~ completamente satisfeito.
d) Elaborar uma ou mais perguntas para cada varivel a ser observada.
A varivel nuel de satisfao com o trabalho pode ser avaliada sob vrios
enfoques, como a satisfao com o salrio que recebe, com a segurana
no emprego, com a autonomia de trabalho que a empresa oferece, etc.
Estes itens podem ser avaliados isoladamente, num mesmo tipo de
escala, como a escala de cinco pontos sugerida em (c). E o nvel de
satisfao ser mensurado como a soma das respostas destes itens.
e) Verificar se a pergunta est suficientemente clara.
As perguntas devem ser formuladas numa linguagem que seja
compreensvel para todos os elementos da populao e, alm disso,
no devem deixar dvidas de interpretao.
f) Verificar se a forma da pergunta no est induzindo alguma resposta.
No se deve, por exemplo, ao tentar avaliar a satisfao de um
funcionrio com o trabalho que exerce, citar aspectos positivos ou
negativos do trabalho. Isto pode induzir a resposta.
g) Verificar se a resposta da pergunta no bvia.
Dependendo da forma como se pergunta sobre a satisfao com o valor
do salrio recebido, a resposta ser sempre no, independentemente
da real satisfao que o funcionrio tenha com respeito a esse item.
Isto deve ocorrer, por exemplo, quando s existem dois nveis de
respostas: sim e no. Usando uma escala de cinco pontos, como
sugerida anteriormente, podemos detectar melhor algumas diferenas
entre os respondentes.

Um aspecto fundamental nesta fase da pesquisa o planejamento


de como usar as respostas dos diversos itens para responder s indagaes
de nossa pesquisa. O questionrio tambm deve ser feito de forma a
54 ESTATSTCA ApiiCftdA S C i N C fA S S O C A S

facilitar a anlise dos dados. O questionrio deve ser completo, no sentido


de abranger as caractersticas necessrias para atingir os objetivos da
pesquisa; ao mesmo tempo, no deve conter perguntas que fujam desses
objetivos, pois, quanto mais longo o questionrio, menor tende a ser a
confiabilidade das respostas.

F o r m a s <Je Ap licA o d E u m n s t r u m e n t o dE p e s q u s a

Nesta fase, tambm devemos decidir sobre a forma de aplicao de


nosso questionrio, ou, mais genericamente, do instrumento de pesquisa.
Um questionrio propriamente dito respondido pelo prprio
elemento da populao, sem que algum encarregado da pesquisa observe
o respondente no momento do preenchimento. Numa entrevista
estruturada, o entrevistado responde verbalmente as perguntas e o
entrevistador as transcreve para uma ficha. Nesta segunda situao, o
entrevistador pode ou no interferir, sob forma de esclarecimento de algum
item, anotando aspectos que julgar relevante, mas nunca influenciando
na resposta do entrevistado.
Em pesquisas que envolvem aspectos ntimos dos respondentes,
deve-se dar preferncia a um questionrio annimo, com o cuidado de
que o respondente preencha o questionrio individualmente e vontade.
Por outro lado, numa pesquisa a ser realizada numa populao que tenha
pessoas no alfabetizadas, uma entrevista estruturada mais adequada.
Deve sempre haver homogeneidade na forma de aplicao dos questio
nrios. Em pesquisas que envolvem vrios entrevistadores, toma-se neces
srio um prvio treinamento para garantir a homogeneidade na aplicao.

PR"TESTAqEM

Antes de iniciar a coleta de dados atravs de um questionrio,


precisamos verificar se o instrumento est bom. Nesse contexto, toma-
se fundamental a realizao de um pr-teste, aplicando o questionrio em
alguns indivduos com caractersticas similares aos indivduos da
populao em estudo. Somente pela aplicao efetiva do questionrio
que podemos detectar algumas falhas que tenham passado despercebidas
em sua elaborao, tais como: ambigidade de alguma pergunta, resposta
que no havia sido prevista, no variabilidade de respostas em alguma
pergunta, etc. O pr-teste tambm pode ser usado para estimar o tempo
de aplicao do questionrio.
CftpTuta 2 - P esq u sa s c dAdos >5

E x e r c c io s

5) Elaborar um esboo de questionrio para o problema descrito no Exemplo 2.1.


6) Ao longo deste captulo escrevemos: quanto mcds longofor o questionrio menor
deve ser a conjmbidade das respostas. Explique por que isto geralmente ocorre.
7) Com respeito ao Exerccio 1, sobre uma pesquisa eleitoral, complemente com
alguns objetivos especficos e proponha um questionrio para a obteno
dos dados. Discuta sobre a forma de aplicao que voc julga ser a mais
adequada para a presente situao.

2.4 UMAApliCAO

Nesta seo apresentaremos um exemplo de um projeto de pesquisa


relativamente simples, desenvolvido com a participao dos alunos da
disciplina de Estatstica do curso de Cincias Sociais da UFSC, semestre
1991/1, com finalidades puramente acadmicas.
O problema de pesquisa: A relao do aluno universitrio como curso.
Objetivo gerai: Conhecer melhor a relao entre o aluno e o seu
curso {Curso de Cincias da Computao da UFSC) , para servir de subsdio
nas polticas de melhoria do curso.
Objetivos especficos:
1) Avaliar o nvel de satisfao do aluno com o curso que est
realizando.
2) Verificar se existe associao entre o nvel de satisfao do aluno
com o seu desempenho no curso.
3) Levantar os aspectos positivos e negativos do curso, na viso do
aluno.

Populao: Estudantes que estavam cursando as trs ltimas fases


do curso de Cincias da Computao da UFSC, semestre 1991/1.
Amostra: Alunos presentes no dia de aplicao dos questionrios,
realizada em salas de aula de trs disciplinas obrigatrias das ltimas
fases do curso.5

5 Como veremos no prximo captulo, essa forma de seleo da amostra pode causar vis,
pois os alunos que costumam faltar s aulas ficam quase que inacessveis. E alguns desses
alunos podem estar faltando sistematicamente por estarem insatisfeitos com o curso.
ESTATSTCA ApltCftdA s C e n c a s S o c a s

F o r m a de m e n s u r a o dAS v a r v e s

Satisfao com o curso: avaliao numrica, numa escala de 1 (um)


a 5 (cinco), de acordo com a percepo do aluno. Alm de uma medida de
satisfao geral, complementa-se com avaliaes de aspectos especficos
do curso, como corpo docente, recursos materiais e contedo curricular.
Desempenho do aluno: ndice de Aproveitamento Acumulado,
calculado pela instituio, em funo dos conceitos (ou notas) obtidos
pelo aluno nas disciplinas cursadas.
Aspectos positivos e negativos do curso: 1) avaliaes numricas,
numa escala de 1 (um) a 5 (cinco), de acordo com o nvel que o aluno
julgar que melhor se adapte sua concordncia com alguns aspectos do
curso; 2) avaliaes qualitativas, em que o aluno descreve livremente o
principal aspecto positivo e negativo do curso. Na segunda avaliao, as
categorias de cada varivel sero criadas depois de uma anlise das
respostas dos questionrios, onde as respostas similares sero agrupadas
numa nica categoria.

Q uestionrio

Este questionrio faz parte de um trabalho acadmico. Os questionrios so


annimos, portanto no coloque seu nome. Solicitamos sua colaborao respondendo
correta e francamente os diversos itens, agradecendo-lhe antecipadamente. Os resultados
da pesquisa ficaro disponveis para a comunidade acadmica.
1) Qual o curso que voc est realizando na UFSC?__________ .
2) Qual a fase predominante em que voc se encontra?_________ .
3) D uma nota de 1(um) a 5 (cinco), sendo 1o nvel mnimo e 5 o nvel mximo, para as
seguintes caractersticas relacionadas comvoc e seu curso.
a) Didtica dos professores de seu curso......................(1 23 4 5)
b) Nvel de conhecimento dos professores.... ..... .........(1 23 4 5)
c) Bibliografia disponvel................... ......................(1 23 4 5)
d) Laboratrios e outros recursos materiais..................(1 23 4 5)
e) Contedo dos programas das disciplinas oferecidas... (1 23 4 5)
f) Encadeamento das disciplinas.............................. (1 23 4 5)
g) Satisfao com o curso, num sentido geral............... (1 23 4 5)
4) Apresente o principal ponto positivo e negativo de seu curso.
POSITIVO:_______________________________________ ,
NEGATIVO:______________________________________ .
5) Anote o seundice deAproveitamentoAcumulado_________(vertabelacomo aplicador).
Cftpirulo 2 ~ P e sq u isa s e ckdos 77

COMENTRiOS SobE OS TENS d o Q ESONRO

Os itens 1 e 2 so de controle, para verificar se o respondente


realmente pertence populao em estudo. Estes itens no sero usados
na anlise dos dados.
No item 3 estamos tentando quantificar algumas caractersticas do
curso, na percepo do aluno, numa escala de 1 (um) a 5 (cinco). Este
item est associado com os trs objetivos da pesquisa. Os subitens de (a)
a (f) procuram atingir o objetivo 3, j que as respostas do subi tem (g)
sero usadas com vistas aos objetivos 1 e 2.
O item 4 procura complementar a informao do item 3, atravs de
uma pergunta aberta.
O item 5 uma medida de desempenho do aluno no curso, calculada
pela instituio e usada, para estabelecer prioridades na matricula. Como,
em geral, os alunos no sabem de cor o seu ndice, o aplicador do
questionrio levou uma relao contendo os ndices de aproveitamento
de toda a turma, para que o aluno pudesse localizar o seu, transcrevendo-
o na folha do questionrio. As respostas deste item, juntamente com o
item 3(g), sero usadas para atingir o objetivo 2.6

2.5 CodifiCAo dos dAdos

Depois de os dados terem sido coletados, precisamos organiz-los,


para facilitar a realizao da anlise. Tomemos o primeiro questionrio
respondido.

R espostas d e um questionro

1) Qual o curso que voc est realizando na UFSC? Computao.


2) Qual a fase predominante em que voc se encontra? Oitava.
3) D uma nota de 1(um) a 5 (cinco), sendo 1o nvel mnimo e 5 o nvel mximo, para as
seguintes caractersticas relacionadas comvoc e seu curso.
a) Didtica dos professores de seu curso. (1X 3 4 5)
b) Nvel de conhecimento dos professores (12 3X5)
c) Bibliografia disponvel.................... (1X3 4 5)

6 A incluso deste dado no prprio questionrio era importante para podermos assoc-lo
com outras respostas do aluno. Como o questionrio era annimo, no seria possvel
inclu-lo depois da coleta dos dados.
58 E s t a tst ic a AplicAdA s C i n c ia s S o c a s

d) Laboratrios eoutrosrecursosmateriais....................... (X 2 3 4 5)
e) Contedodosprogramas dasdisciplinasoferecidas...........(1X3 4 5)
) Encadeamentodas disciplinas........................................................ (1X34.5)
^ Satisfao comocurso, numsentidogeral.................... (1X345)
4) Apresenteoprincipal pontopositivo enegativo deseucurso.
POSITIVO: Professores razoveis.
NEGATIVO: Falta e m conservao de laboratrios.
5) Anote o seu ndice de Aproveitamento Acumulado? 1.95 (ver tabela com o aplicador).

Os dados normalmente so armazenados numa matriz (u quadro),


onde cada coluna se refere a uma varivel e cada linha a um respondente.7
A Tabela 2.1 mostra os dados armazenados dos cinco primeiros
respondentes. Os dados do questionrio respondido acima esto na
primeira linha da tabela.

Tabela 2.1 Armazenamento dos dados de cinco respondentes

quest. 3(a} 3(b) 3(c) 3(d) 3(e) 3(0 3(g) 4(a) 4{b} 5
didat. conhec. bibl. labor. disc. curric. satisf. posit. negat. desemp.
1 2 4 2 1 2 2 2 1 2 1,95
2 2 3 2 1 2 3 3 9 X 1,72
3 3 2 1 1 3 2 3 3 3 2,39
4 2 2 3 1 4 4 3 3 5 2,57
5 3 3 4 3 3 4 2 3 1 2,51

As categorias relativas aos itens 4(a) e 4(b) foram criadas a partir de


uma anlise das respostas dos questionrios, agrupando respostas simi
lares. Para o item 4(a), ponto positivo, as categorias e correspondentes
cdigos foram: 1- Professores, 2 - Atualizao, 3 -Abrangncia, 4 -Aplicaes
prticas, 5 - Currculo e disciplinas e 9 - Outros. Para o item 4(b), ponto
negativo, foram: 1 - Professores, 2 - Laboratrios e recursos materiais,
3 - Currculo e disciplinas, 4 - Aplicaes, 5 - Atualizao e 9 - Outros.
No Anexo, final deste captulo, apresentamos os dados dos 60
respondentes desta pesquisa. A anlise desses dados ser feita ao longo
dos exerccios dos prximos captulos.

7 Em linguagem computacional, a matriz de dados corresponde a um arquivo, as variveis


so os campos e os dados de um respondente so os registros do arquivo.
C a p tu Io 2 - P e s q u s a s s dAdos

A n exo

Dados da pesquisa descrita na Seao 2.4. Respostas de 60


questionrios.
40 E st a tst ic a a p I c a c a s Q n c a s S o c ia is

NOTA: 0 ponto {.] representa no resposta.


Tcncas cJe am ostraqem 1

amostragem naturalmente usada em nossa vida diria. Por exemplo,

A para verificar o tempero de um alimento em preparao, podemos provar


(obseivar) uma pequena poro. Estamos fazendo uma amostragem, ou seja,
extraindo do todo (populao} uma parte [amostra), como propsito de termos
uma idia {inferirmos} sobre a qualidade de tempero de todo o alimento.
Nas pesquisas cientficas, em que se deseja conhecer algumas
caractersticas (parmetros) de uma populao, tambm podemos observar
apenas uma amostra de seus elementos e, com base nos resultados da
amostra, obter valores aproximados, ou estimativas, para os parmetros
de interesse. Esse tipo de pesquisa usualmente chamado de levantamento
por amostragem. Contudo, a seleo dos elementos que sero efetivamente
observados, deve ser feita sob uma metodologia adequada, de tal forma
que os resultados da amostra sejam suficientemente informativos para se
inferir sobre os parmetros populacionais. E o objetivo do presente captulo
estudar esta metodologia, ou seja, o processo de amostragem.

iquiMS conceos e exempIos

Como definimos no captulo anterior,

Populao o conjunto de elementos para os quais desejamos que as concluses da


pesquisa sejamvlidas, com a restrio de que esses elementos possam ser observados
-ou mensurados sob as mesmas condies.

1 Este captulo teve a participao da Professora Svia Modesto Nassar, Doutora em Engenharia
Biomdica e Professora Titular do Departamento de Informtica e Estatstica da UFSC.
42 E st a tst c a ApiCftdA s O n c a s S o c a s

A populao pode ser formada por pessoas, famlias, estabele


cimentos industriais, ou qualquer outro tipo de elementos, dependendo
basicamente dos objetivos da pesquisa. Mas, em geral, o interesse se
resume em alguns parmetros.

Parmetro uma medida que descreve certa caracterstica dos elementos da populao.

Exempio ?.1 Numa pesquisa epidemiolgica, a populao pode ser definida


como todas as pessoas da regio em estudo, no momento da pesquisa. O
principal parmetro a ser avaliado deve ser a percentagem de pessoas
contaminadas.

ExEiviplo 5.2 Numa pesquisa eleitoral, a trs dias de uma eleio municipal,
a populao so os eleitores que vo votar no municpio {populao-alvo},
mas, para viabilizar a pesquisa, comum definir a populao como o
conjunto dos eleitores que residem no municpio. Os principais parmetros
so as percentagens de votos de cada candidato, no momento da pesquisa.

ExEMplo Para planejar polticas de recursos humanos numa empresa,


com milhares de funcionrios, pode ser realizada uma pesquisa para
avaliar alguns parmetros da populao de funcionrios, tais como: tempo
mdio de servio, percentagem de funcionrios com nvel de instruo
superior, percentagem de funcionrios com interesse num certo programa
de treinamento, etc.

Nos trs exemplos, o leitor pode perceber a dificuldade em pesquisar


toda a populao. So situaes em que se recomenda usar amostragem.
Veja a Figura 3.1.

AMOSTRAGEM

INFERNCIA.

Figura 3.1 Pesquisa eleitoral: um caso tpico de levantamento


por amostragem.
CA pTu lo ? - T cn ic a s d e a m o s tra cjem 45

O termo Inferncia estatstica refere-se ao uso apropriado dos dados


de uma amostra para se ter conhecimento sobre parmetros da populao
de onde foi extrada a amostra. Os valores calculados, com base na amostra
e com o objetivo de avaliar parmetros desconhecidos, so chamados
estimativas desses parmetros. Numa pesquisa eleitoral, por exemplo, as
percentagens dos candidatos, divulgadas antes da eleio, so estimativas
das verdadeiras percentagens, relativas a toda a populao de eleitores.

Amostra: parte dos elementos de uma populao.


Amostragem: o processo de seleo da amostra.
Estimativa: valor calculado com base na amostra, e usado com a finalidade de avaliar
aproximadamente um parmetro.

ExEMplo 5.5 (comino) Se uma amostra de 200 funcionrios da empresa


acusar 60% de favorveis a um certo programa de treinamento, podemos
dizer que o valor 60% uma estimativa da percentagem de funcionrios
da empresa favorveis a esse programa de treinamento.

Por que amostragem?

1) Economia. Em geral, toma-se bem mais econmico o levantamento de somente


uma parte da populao.
2) Tempo. Numa pesquisa eleitoral, a trs dias de uma eleio presidencial, no
haveria tempo suficiente para pesquisar toda a populao de eleitores do
pais, mesmo que houvesse recursos financeiros em abundncia.
3) Confiabilidade dos dados. Quando se pesquisa um nmero reduzido de
elementos, pode-se dar mais ateno aos casos individuais, evitando erros
nas respostas.
4) Operacionalidade. mais fcil realizar operaes de pequena escala. Um dos
problemas tpicos nos grandes censos (pesquisas de toda a populao) o
controle dos entrevistadores.

OuANdo 0 USOdE AMOSTRAGEM NO INTERESSANTE?

1) Populao pequena. Imagine que se queira saber a percentagem de mulheres


numa sala de aula com dez alunos, antes de conhecer a turma. intuitiva a
necessidade de observar quase todos os estudantes da sala para se ter uma
estimativa razovel. Em especial, quando a amostragem obtida sorteando
elementos da populao {amostragem aleatrio), mais vale o tamanho absoluto
da amostra do que a percentagem que ela representa na populao.
E st a tst ic a A p IcA ck s C i n c ia s S o c a s

2) Caracterstica de fcil mensurao. Talvez a populao no seja to pequena,


mas a varivel que se quer observar de to fcil mensurao que no
compensa investir num plano de amostragem. Por exemplo, para verificar a
percentagem de funcionrios favorveis mudana no horrio de um tumo
de trabalho, podemos entrevistar toda a populao no prprio local de trabalho.
Esta atitude pode tambm ser politicamente mais recomendvel.
3) Necessidade de alta preciso. A cada dez anos o IBGE realiza um censo
demogrfico para estudar diversas caractersticas da populao brasileira.
Dentre essas caractersticas, tem-se o parmetro nmero de habitantes
residentes no pas. um parmetro que precisa ser avaliado com grande
preciso; por isso, se pesquisa toda a populao.

PA N O d E AMOSTRAQESV!

Para elaborar um plano de amostragem, devemos ter bem definidos


os objetivos da pesquisa, a populao a ser amostrada, bem como os
parmetros que precisamos estimar para atingir aos objetivos da pesquisa.
Num plano de amostragem deve constar a definio da unidade de
amostragem, a forma de seleo dos elementos da populao e o tamanho
da amostra.
A unidade de amostragem a unidade a ser selecionada para se
chegar aos elementos da populao. As unidades de amostragem podem
ser os prprios elementos da populao, ou outras unidades que sejam
mais fceis de serem selecionadas, mas que tenham correspondncia
com os elementos da populao. Por exemplo, numa populao de famlias
moradoras de uma certa cidade, podemos planejar a seleo de domiclios
residenciais da cidade. Chegando ao domiclio {unidade de amostragem),
podemos chegar famlia moradora deste domiclio (eiemento da
populao).
A seleo dos elementos que faro parte da amostra pode ser feita
sob alguma forma de sorteio, So as chamadas amostragens aleatrias,
que so particularmente interessantes por permitirem a utilizao das
tcnicas clssicas de inferncia estatstica, facilitando a anlise dos dados
e fornecendo maior segurana ao generalizar resultados da amostra para
a populao. Estudaremos, inicialmente, alguns tipos de amostragem,
em especial as aleatrias. Posteriormente, discutiremos a questo do
+~manho da amostra.
CA pTulo ? lC V fC A S d e a m o stra g em 45

5.1 A mostraqeivi aLeatra SiMplES

Para selecionar uma amostra aleatria simples, precisamos ter uma


fofa completa dos elementos da populao (ou de unidades de amostragem
apropriadas). Este tipo de amostragem consiste em selecionar a amostra
atravs de um sorteio, sem restrio.
Seja uma populao com N elementos. Uma forma de extrair uma
amostra aleatria simples de tamanho n, sendo n < N, identificar os
elementos da populao em pequenos pedaos de papel e retirar, ao acaso,
n pedaos. Consideraremos, neste livro, que o sorteio seja feito sem
reposio, ou seja, cada elemento da populao no pode ser sorteado
mais que uma vez,
A amostragem aleatria simples tem a seguinte propriedade:
qualquer subconjunto da populao, com o mesmo nmero de elementos,
tem a mesma probabilidade de fa ze r parte da amostra Em particular,
temos que cada elemento da populao tem a mesma probabilidade (dada
por Ty^j) de pertencer amostra

N meros a Ieatros

As tabelas de nmeros aleatrios facilitam o processo de seleo de


uma amostra aleatria. So formadas por nmeros resultantes de
sucessivos sorteios independentes de (0, 1, 2,..., 9}. A seguir, so
apresentados alguns nmeros aleatrios (as duas primeiras linhas da
Tabela 1 do apndice). Os espaos colocados a cada dois algarismos
servem, apenas, para facilitar a visualizao da tabela, no interferindo
na sua utilizao.
Nmeros aleatrios -
5958463647 9285 05 08 65 4749 10 41 05 10 75 59 75 99 17 289799 75
53 26 21 50 21 37 93 85 52 86 86 22 75 34 37 69 85 25 03 78 50 26 18 25 10

ExEM plo 5 .4 Com o objetivo de estudar algumas caractersticas dos


funcionrios de uma certa empresa, vamos extrair uma amostra aleatria
simples de tamanho cinco. A listagem dos funcionrios da empresa
apresentada a seguir.2

2 Para facilitar a exemplificao das tcnicas de amostragem, usaremos populaes pequenas.


Contudo, como j discutimos, no se costuma usar amostragem aleatria em populao
muito pequena.
4 E st a tst ic a a p c a c a s C n c a s S o c ia is

POPULAO: funcionrios da empresa


Aristteles Anastcia Arnaldo Bartolomeu Bemardino
Cardoso Carlito Cludio Ermlio Herclio
Emestino Endevaldo Francisco Felcio Fabrcio
Geraldo Gabriel Getlio Hiraldo Joo da Silva
Joana Joaquim Joaquina Jos da Silva Jos de Souza
Josefa Josefina Maria Jos Maria Cristina Mauro
Paula Paulo Csar

Para utilizar uma tabela de nmeros aleatrios, precisamos associar


cada elemento da populao a um nmero. Por simplicidade, conside
raremos nmeros inteiros sucessivos, com a mesma quantidade de
algarismos, iniciando-se por 1 (um).

Numerao dos elementos da populao


01. Aristteles 02) Anastcia 03. Arnaldo 04. Bartolomeu 05, Bemardino
06. Cardoso 07. Carlito 08. Cludio 09. Ermlio 10. Herclio
11. Emestino 12. Endevaldo 13. Francisco 14. Felcio 15. Fabrcio
"16. Geraldo 17. Gabriel 18. Getlio 19. Hiraldo 20, Joo da Silva
21. Joana 22. Joaquim 23. Joaquina 24. Jos da Silva 25. Jos de Souza
'26. Josefa 27. Josefina 28. Maria Jos 29. Maria Cristina 30. Mauro
31. Paula 32. Paulo.Csar

Para extrairmos uma amostra aleatria simples de tamanho n = 5,


basta tomar cinco nmeros aleatrios do conjunto {01, 02,..., 32}. Os
funcionrios associados aos nmeros selecionados formaro a amostra.
No existe forma especfica para extrair os nmeros da tabela. Iniciaremos,
neste exemplo, pela primeira linha, desprezando os valores que estiverem
fora do conjunto {01, 02,..., 32} e os valores que se repetirem.

Nmeros aleatrios extrados da tabela: 05, 08, 10, 17 e 28.


Amostra: {Bemardino, Cludio, Herclio, Gabriel e Maria Jos}

Na prtica, estamos interessados na observao de certas variveis


associadas aos elementos da amostra. No exemplo em questo,
poderamos estar interessados na varivel tempo de servio na empresa,
em anos completos. Denominaremos esta varivel de X. Para cada
funcionrio da amostra, temos um valor para a varivel X . O conjunto
desses valores chamado amostra Leatria simples da varivelX, conforme
ilustrado a seguir:

Amostra de funcionrios:
{Bemardino, CladKK Hereio, Gabriel e Maria Jos}
\ 1 \( l 1
Amostra da varivel X: {X i; X z,- X4, Xg},
onde Xj o tempo de servio do Bemardino, X^o tempo dfesservio do Cludio, etc.
C a p T u l o ? TC N iC A S d e A MO STRACjEM 47

E x e r c c io s

1) Considerando a populao do Exemplo 3.4, extraia uma amostra aleatria


simples de n = 10 funcionrios. Inicie pela segunda linha da tabela de nmeros
aleatrios (Tabela 1 do apndice).
2) Ainda com respeito ao Exemplo 3.4, suponha que o tempo de servio destes
funcionrios, em anos completos, so os valores seguintes:
Aristteles 2 Anastcia 5 Arnaldo 2 Bartolomeu 1 Bemardino 11
Cardoso 16 Carlito 3 Cludio 1 Ermlio 13 Herclio 10
Emestino 7 Endevaldo 2 Francisco 0 Felcio 10 Fabrcio 5
Geraldo 8 Gabriel 8 Getlio 2 Hiraldo 9 Joo da Silva 4
Joana 2 Joaquim 22 Joaquina 3 Jos da Silva 4 Jos de Souza 2
Josefa 1 Josefina 5 Maria Jos 3 Maria Cristina 3 Mauro 11
Paula 4 Paulo Csar 2

Apresente a amostra da varivel tenpo de servio associada amostra de


funcionrios obtida no Exerccio 1.
3) Usando a primeira coluna da tabela de nmeros aleatrios, extraia uma
amostra aleatria simples de 4 (quatro) letras do alfabeto da lngua portuguesa.
4} Os elementos de uma certa populao esto dispostos numa lista, cuja
numerao vai de 1.650 a 8.840. Descreva como voc usaria uma tabela de
nmeros aleatrios para obter uma amostra de 100 elementos. Seria
necessrio efetuar nova numerao?
5) Seja um conjunto de 20 crianas numeradas de 1 a 20. Usando uma tabela
de nmeros aleatrios, divida aleatoriamente essas crianas em dois grupos
de 10 crianas.

5.2 O utros Tipos d E a m o s t r a q e n s a Ie a t r a s

mostraqem sstemtca

Muitas vezes, possvel obter uma amostra de caractersticas


parecidas com a aleatria simples, por um processo bem mais rpido do
que o apresentado na seo anterior. Por exemplo, para tirar uma amostra
de 1.000 fichas, dentre uma populao de 5.000 fichas, podemos tirar,
sistematicamente, uma ficha a cada cinco. Para garantir que cada ficha
da populao tenha a mesma probabilidade de pertencer amostra,
devemos sortear a primeira ficha dentre as cinco primeiras.
Uma amostra sistemtica poder ser tratada como uma amostra
aleatria simples se os elementos da populao estiverem ordenados--
aleatoriamente. A relao chamada intervalo de seleo. No
exemplo das fichas, o intervalo de seleo 5.000/^ =5 .
48 E st a tst c a AplCAdA s C n c a s S o c a s

ExEMplo 5.5 Usaremos, como exemplo, a populao dos N= 32 funcionrios


do Exemplo 3.4. Vamos realizar uma amostragem sistemtica para
obtermos uma amostra de tamanho n = 5. Calculemos, inicialmente, o
intervalo de seleo: iV/ - 32,/ g .

Populao: funcionrios da empresa


01. Aristteles 02. Anastcia 03. Arnaldo 04. Bartolomeu 05. Bemardino
06- Cardoso 07. Carlito 08. Cludio 09. Ermlio 10. Herclio
11 . Emestino 12. Endevaldo 13. Francisco 14. Fecio 15. Fabrcio
16. Geraldo 17. Gabriel 18. Getlio 19. Hiraldo 20, Joo da Sva
21. Joana 22. Joaquim 23. Joaquina 24. Jos da Silva 25. Jos de Souza
26. Josefa 27. Josefina 28. Maria Jos 29. Maria Cristina 30. Mauro
31. Paula 32. Paulo Csar

Devemos sortear um elemento dentre os seis primeiros, podendo,


para isso, tomar um nmero da tabela de nmeros aleatrios. Tomando,
por exemplo, o primeiro nmero de um algarismo da segunda linha (53
26...), temos que o primeiro funcionrio da amostra o quinto elemento,
portanto o Bemardino. E a amostra sistemtica:3
5 Bemardino
5 + 6=11 Emestino
11 + 6 = 17 Gabriel
17 + 6 = 23 ^ Joaquina
23 + 6 = 29 ^ Maria Cristina

AyiOSTRACjEEVi ESTRATfiCACA

A tcnica da amostragem estratificada consiste em dividir a


populao em subgrupos, que denominaremos estratos. Os estratos
devem ser internamente mais homogneos do que a populao toda, com
respeito s principais variveis em estudo. Por exemplo, para estudar o
interesse dos funcionrios, de uma grande empresa, em realizar um
programa de treinamento, podemos estratificar a populao por nvel de
instruo, pelo nvel hierrquico ou por setor de trabalho. Devemos
escolher um critrio de estratificao que fornea estratos bem
homogneos, com respeito ao que se est estudando. Assim,
fundamental um prvio conhecimento sobre a populao em estudo.

3 Devido ao arredondamento no clculo do intervalo de seleo, o nmero a de elementos da


amostra pode ficar diferente do nmero planejado. Se o intervalo de seleo for grande
(digamos, maior que 10) a diferena ser desprezvel.
CApTulO 5 T c n ic a s d e AMOSTRAGEM 49

Sobre os diversos estratos da populao, so realizadas selees


aleatrias, de forma independente. A amostra obtida atravs da agregao
das amostras de cada estrato (veja a Figura 3.2).

POPULAO

AMOSTRA
> - ESTRATIFI CADA

Figura 3.2 Esquema da seleo de uma amostragem estratificada.

Amostragem estratificada proporcional: neste caso particular de


amostragem estratificada, a proporcionalidade do tamanho de cada estrato
da populao mantida na amostra. Por exemplo, se um estrato
corresponde a 20% do tamanho da populao, ele tambm deve
corresponder a 20% da amostra. Veja a Figura 3.3.

POPULAO: comunidade de uma


escola AMOSTRA: parte da
20% comunidade da escola

20%

20%
60%

Figura 3.3 ilustrao de uma amostragem estratificada proporcional.

A amostragem estratificada proporcional garante que cada elemento


da populao tenha a mesma probabilidade de pertencer amostra.

ExEiVipio 5.6 Com o objetivo de estudar o estilo de liderana preferido pela


comunidade de uma escola, vamos realizar um levantamento por
amostragem. A populao composta por 10 professores, 10 servidores
tcnico-administrativos e 30 alunos, que identificaremos da seguinte
maneira:
E s t a t st c a ApliCAdA s C n c a s S o c a s

POPULAO
Professores: PI P2 P3 P4 P5 P6 P7 P8 P9 PIO
Servidores: SI S2 S3 S4 S5 S6 S7 S8 S9 S10
Alunos: Al A2 A3 A4 A5 A6 A7 A8 A9 A10
Al 1 A12 A13 Al 4 Al 5 A16 A17 A18 A19 A20
A21 A22 A23 A24 A25 A26 A27 A28 A29 A30

Supondo que a preferncia, quanto ao estilo de liderana, possa


ser relativamente homognea dentro de cada categoria, vamos realizar
uma amostragem estratificada proporcional por categoria, para obter uma
amostra global de tamanho n = 10. A tabela seguinte mostra as relaes
de proporcionalidade.

Tabela 3.1 Clculo do tamanho da amostra em cada estrato.

ESTRATO Proporo na populao Tamanho do subgrupo na amostra


Professores 10/50 0,20 (ou 20%) nP = (0,20)-10 = 2
Servidores 10/50 = 0,20 (ou 20%) ris = ( 0 , 2 0 ) 1 0 = 2
Alunos 30/50 = 0,60 (ou 60%) ria = (0,60)-10 = 6

Para selecionar aleatoriamente dois professores, usaremos a


numerao j existente na populao, substituindo o 10 por 0, o que
permite usar a Tabela 1 do apndice com apenas um algarismo. Usando
a primeira linha (59 58...), temos os seguintes professores selecionados:
{P5, P9}. Para os servidores, usando a segunda linha (53 26...), com o
mesmo processo de numerao, temos: {S5, S3}. Para os alunos,
precisamos extrair nmeros de dois algarismos. Usando a prpria
numerao da populao e a terceira linha da tabela, temos: {A7, A2,
A l 6, A5, A24, A22}.
A amostra {P5, P9, S5, S3, A7, A2, Al , A5, A24, A22} uma amostra
estratificada proporcional da comunidade da escola. Cada indivduo desta
amostra dever ser pesquisado para se levantar a caracterstica de
interesse, ou seja, o estilo de liderana por ele preferido.

Desde que, no problema em estudo, os estratos formam subgrupos


mais homogneos do que a populao como um todo, uma amostra
estratificada proporcional tende a gerar resultados mais prximos dos
parmetros populacionais, quando comparada com uma amostra aleatria
simples de mesmo tamanho.
C A p T u lo 5 T c n i c a s d e am ostr ag em

Am ostragem estratificad a uniform e: seleciona-se a mesma


quantidade de elementos em cada estrato. No exemplo precedente, para
se obter uma amostra estratificada uniforme de n= 12 indivduos, devemos
selecionar 4 indivduos de cada categoria.
A amostragem estratificada uniforme costuma ser usada em
situaes em que o maior interesse obter estimativas separadas para
cada estrato, ou quando se deseja comparar os diversos estratos.
importante observar que na fase de anlise dos dados deve-se
levar em conta o planejamento amostrai utilizado. Por exemplo, se os
dados provem de uma amostragem estratificada no proporcional, os
clculos de mdias e propores devem ser feitos em cada estrato. Caso
se queira uma mdia ou proporo global, devemos agregar os resultados
de cada estrato por uma mdia aritmtica ponderada, tomando como pesos
as propores de cada estrato na populao.

A mostragem d E c o N q lo M ER A d o s

Chamamos de conglomerado a um agrupamento de elementos da


populao. Por exemplo, numa populao de domiclios residenciais de
uma cidade, os quarteires formam conglomerados de domiclios. Num
primeiro estgio, so selecionados alguns conglomerados. Depois, ou se
observam todos os elementos dos conglomerados selecionados no primeiro
estgio (amostragem de conglomerados em um estgio), ou, como mais
comum, faz-se nova seleo, tomando amostras de elementos dos
conglomerados extrados no primeiro estgio (amostragem de conglomerados
em dois estgios). Todas as selees devem ser aleatrias (ver Figura 3.4).
Populao dividida em conglomerados

g p s s f i
u m ssst

Amostra de conglomerados:

Amostra de elementos:
Figura 3.4 ilustrao do processo de amostragem de conglomerados em dois
estgios.
52 E s t a t st c a A plicAdA s CiiNCiAS S o c a s

Em pesquisas de grande escala, a amostragem pode ser feita em


mais estgios. Por exemplo, para selecionar uma amostra de domiclios
do Estado de Santa Catarina, podemos selecionar municpios (primeiro
estgio); dos municpios selecionados, selecionar setores censitrios
(segundo estgio);4 e dos setores censitrios selecionados, selecionar
domiclios (terceiro estgio).
Chamamos d frao de amostragem relao Tyj, ou seja, a
proporo da populao que ser efetivamente observada. Se a frao de
amostragem for constante para todos os conglomerados selecionados,,
ento todos elementos da populao tm a mesma probabilidade de
pertencer amostra.

ExEMplo 5.7 Seja o problema de selecionar uma amostra de domiclios de


uma cidade. Podemos tomar as ruas como conglomerados, como indicado
no quadro a seguir, onde A l representa o primeiro domiclio da Rua A, A2
o segundo, e assim por diante.

::Ru\ ; Domicflis::::/\V : r : :/
A A1A2A3A4A5A6
B Bl B2 B3 B4 B5 B6 B7 B8 B9 B10B11B12 B13 B14
C Cl C2C3C4C5 C6 C7 C8 C9 10
D Dl D2 D3 D4
E El E2 E3 E4 5 E6 E7 E8

Vamos realizar uma amostragem de conglomerados, selecionando trs


ruas (primeiro estgio) e, nas ruas selecionadas, uma frao de
amostragem de 50% de domiclios (segundo estgio). Ento:
l e ESTGIO. Seja a seguinte numerao das ruas (unidades de
amostragem neste estgio): 1 A, 2 B, 3 -> C, 4 D e 5 - . Tomemos,
por exemplo, os nmeros com um algarismo da sexta linha da tabela de
nmeros aleatrios (24 26 56...), que leva amostra de conglomerados
(ruas) B, D e E, pois: 2 >B, 4 > D e 5 ^ E .
2a ESTGIO. Para satisfazer a frao de amostragem de 50% em cada
conglomerado, precisamos selecionar 7 domiclios da Rua B, 2 da De 4 da E.
RuaB. Tomando nmeros de dois algarismos, a partir da stima linha da
tabela de nmeros aleatrios, e usando a prpria numerao de
identificao dos domiclios, chegamos a B9, B2, B l, B I 1, B12, B3 e B4.

4 Setores censitrios so pequenas reas contguas, com aproximadamente o mesmo nmero


de domiclios. Essas reas so determinadas pelo IBGE' e usadas em suas pesquisas.
C f t p T u l o 5 T C N IC A S d e a m o s t r a g e m

Rua D. Tomando nmeros com um algarismo na dcima primeira linha,


selecionamos os domiclios D4 e D3.
Rua E. Usando a dcima segunda linha, selecionamos E5, E3, E6 e E4.
Amostra selecionada: {B9, B2, B l, B l l , B12, B3, B4, D4, D3, E5, E3,
E6, E4}.

O leitor deve observar que, ao contrrio dos planos discutidos


anteriormente, a amostragem de conglomerados no exige uma lista de
todos os elementos da populao. Basta, no primeiro estgio, uma lista
de conglomerados e, no segundo estgio, uma lista de elementos, mas
somente para os conglomerados previamente selecionados.
Ao contrrio da amostragem estratificada, as estimativas de uma
amostra de conglomerados tendem a gerar resultados mais distantes dos
parmetros populacionais, quando comparada com uma amostra aleatria
simples de mesmo tamanho. Contudo, seu custo financeiro tende a ser
bem menor.

E x e r c c io s

63 Selecione uma amostra estratificada uniforme, de tamanho n = 12, da


populao do Exemplo 3.6.
73 Considerando a populao de funcionrios do Exemplo 3.4, faa uma
amostragem estratificada proporcional de tamanho n = 8, usando a varivel
sexo para a formao dos estratos.
83 O mapa seguinte simboliza os domiclios de um bairro. Os quadros grandes
correspondem aos quarteires, divididos em duas localidades (estratos) do
bairro. Os nmeros dentro dos quadradinhos (domiclios) correspondem ao
. nmero de cmodos do domiclio, que a varivel a ser levantada na pesquisa.

4 |5 2 j 9 1 |4 4 |6 7 [ 2 2 |4
4 7 4 5 6 8
l| 2 6 j 4 2 |3 2 13 2 |4 5 |6
Estrato A
<N
CO

8 5 4 11 6 |3 2 3 5 4
8 5 4 2
2 j 4 5 |9 5 |6 4 I 3 4 5 4 2

9 (8 18 8 j7 9 j6 14 8 |9
22 8 9 14 9 j 9 8 8 15 Estrato B
7 7 9 9 8 ) 7 12 8 9 8 )8
94 ESTATSTiCA A p liC A d A AS C i N C A S S O C A S

a) Selecione uma amostra estratificada proporcional de 9 domiclios. Anote


o nmero de cmodos dos domiclios selecionados na amostra.
b) Faa uma amostragem de conglomerados em dois estgios. No primeiro
estgio, selecione 3 quarteires e, no segundo estgio, 3 domiclios em
cada conglomerado selecionado. Anote o nmero de cmodos dos domiclios
amostrados.

53 A m o s t r a q e n s n o - a Ie a t r a s

Existem situaes prticas em que a seleo de uma amostra


aleatria muito difcil, ou at mesmo impossvel. Geralmente a maior
dificuldade est na obteno de uma lista dos elementos da populao.
Algumas vezes este problema contoravel pela amostragem aleatria
de conglomerados, que exige, inicialmente, apenas uma lista de
conglomerados. Em outras vezes, quando nem isso possvel, passamos
a pensar em procedimentos no aleatrios para seleo da amostra.
Veremos, tambm, algumas situaes em que uma amostragem no-
aleatria pode ser mais adequada do que uma amostragem aleatria.
Em geral, as tcnicas de amostragens no-aleatrias procuram gerar
amostras que, de alguma forma, representem razoavelmente bem a
populao de onde foram extradas. Discutiremos, em particular, a
amostragem por cotas e a amostragem por julgamento.

M0STRAQE1V pOR COTAS

A am ostragem por cotas assemelha-se com a amostragem


estratificada proporcional. A populao vista de forma segregada, dividida
em diversos subgrupos. Seleciona-se uma cota de cada subgrupo,
proporcional ao seu tamanho. Ao contrrio da amostragem estratificada,
a seleo no precisa ser aleatria. Para compensar a falta de aleatoriedade
na seleo, costuma-se dividir a populao num grande nmero de
subgrupos. Numa pesquisa socioeconmica, a populao pode ser dividida
por localidade, por nvel de instruo, por faixas de renda, etc.

M O STRAQ EVI p O R ju k jA M E N T O

Os elementos escolhidos so aqueles julgados como tpicos da


populao que se deseja estudar. Por exemplo, num estudo sobre a produo
C A p r u l o 5 - T c n c a s d e a m o s tr a q e m

cientfica dos departamentos de ensino de uma universidade, um estudioso


sobre o assunto pode escolher os departamentos que ele considera serem
aqueles que melhor representam a universidade em estudo.
No exemplo precedente, a utilizao de uma amostragem aleatria
pode no ser recomendvel, j que temos uma populao pequena.5 Por
outro lado, dependendo do que se pretenda estudar sobre produo
cientfica, um levantamento de todos os departamentos pode gastar muito
tempo. Ento, o uso de uma amostragem por julgamento pode ser uma
boa alternativa, mesmo com a limitao de que os resultados desta
pesquisa no necessariamente valham para todos os departamentos da
universidade.

Esiudos C OIVpARATiVOS

Os exemplos que vimos neste captulo tinham como objetivos a


descrio de certas caractersticas da populao. Em muitos casos, o
principal objetivo comparar certas caractersticas em duas ou mais
populaes. Por exemplo, para se comparar o hbito de fumar entre a
populao de indivduos com cncer no pulmo e a populao de indivduos
sadios, podemos usar duas amostras de indivduos, sendo uma composta
de pessoas com cncer no pulmo, e outra de pessoas sadias.
Por razes prticas, uma amostra de pessoas com cncer no pulmo
geralmente obtida num hospital, tomando-se todas as pessoas em
tratamento dessa doena. Obviamente essa amostra no uma amostra
aleatria de toda a populao de pessoas com cncer no pulmo. Mas,
em estudos comparativos, normalmente o principal objetivo no a
generalidade, mas sim, a bsca das verdadeiras diferenas entre as
amostras que esto em anlise.
Neste contexto, a principal preocupao no plano de amostragem
obter amostras comparveis, ou seja, que se diferenciem somente com
respeito ao fator de comparao. No presente exemplo, o fator de
comparao o atributo de ter cncer no pulmo. Assim, as duas amostras
devem ser o mais similar possvel, a no ser o fato de que uma delas
formada por pessoas com cncer no pulmo e a outra no. Nessas duas
amostras se estudaria e compararia o hbito defumar.

5 A maioria das universidades brasileiras tem menos de cinqenta departamentos de ensino.


Como veremos posteriormente, para grande parte dos estudos de levantamento, uma
amostra aleatria razovel deve conter centenas de observaes, ou atingir um nmero de
observaes prximo ao tamanho de toda a populao.
% ESTATSTiCA A p liC A d ft S CiiNCAS SoCATS

Num estudo experimentarem que possvel controlar os elementos


que vo pertencer a cada um dos grupos, a comparabilidade dos grupos
(amostras) pode ser obtida por uma diviso aleatria d os elementos entre
os grupos. Para comparar dois mtodos de ensinar matemtica para
crianas, podemos sortear uma parte das crianas escolhidas para o
estudo, alocando-as no grupo de ensino do primeiro mtodo. As outras
crianas ficariam no grupo de ensino do outro mtodo. No final do
experimento, os dois mtodos seriam comparados com respeito ao
aprendizado de matemtica.

Ex e r c c i o s

9) Comente sobre os seguintes planos de amostragens, apontando suas


incoerncias, quando for o caso.
a) Com a finalidade de estudar o perfil dos consumidores de um
supermercado, observaram-se os consumidores que compareceram ao
supermercado no primeiro sbado do ms.
b) Com a finalidade de estudar o perfil dos consumidores de um
supermercado, fez-se a coleta de dados durante um ms, tomando a cada
dia um consumidor da fila de cada caixa do supermercado, variando
sistematicamente o horrio da coleta dos dados.
c) Para avaliar a qualidade dos itens que saem de uma linha de produo,
observaram-se todos os itens das 14:00 s 14:30 horas.
d) Para avaliar a qualidade dos itens que saem de uma linha de produo,
observou-se um item a cada meia hora, durante todo o dia.
e) Para estimar a percentagem de empresas que investiram em novas
tecnologias no ltimo ano, enviou-se um questionrio a todas as empresas.
A amostra foi formada pelas empresas que responderam ao questionrio.
10) Num estudo sobre o estado nutricional dos estudantes da rede escolar de
uma cidade, decidiu-se complementar os dados antropomtricos com alguns
exames laboratoriais. Como no se podia exigir que o estudante fizesse esses
exames, decidiu-se estratificar a populao por nvel escolar (fundamental e
mdio) e por tipo de escola (pblica e privada), selecionando voluntrios em
cada estrato, at completar as cotas. Com base nos dados da tabela abaixo,
qual deve ser a cota a ser amostrada em cada estrato, considerando que se
deseja uma amostra de 200 estudantes?
Distribuio dos estudantes da rede escolar,
segundo o nvel e o tipo de escola
Tipo de escola
Nvel escolar pblica J privada
fundamental 48% 14%
mdio 26% 12 %
C A p T u l o 5 TC N IC A S d E AMOSTRAQEM 57

j .4 Ta m a n c o de uma amostra a Ieatra smpes

O clculo do tamanho da amostra um problema complexo e, neste


livro, ficaremos restritos ao caso da amostragem aleatria simples.
Tambm no abordaremos aspectos financeiros, mesmo sabendo que
muitas vezes o tamanho da amostra fica restrito aos recursos disponveis.
A heterogeneidade da populao e os tipos de parmetros que se
quer estimar (propores, mdias, etc.) so pontos importantes na
determinao do tamanho da amostra. Esses pontos entraro em frmulas
mais refinadas, as quais apresentaremos no Captulo 9. Nesta seo,
ficaremos restritos a uma formulao bastante genrica, usada nas
pesquisas em que queremos usar a amostra para estimar diversas
propores (ou percentagens).6

C o n c e t o dE e r r o a m o s t r a I

Como j definimos, parmetro uma medida que descreve certa


caracterstica dos elementos da populao. De forma anloga, estatstica
uma medida associada aos elementos da amostra. A estatstica, quando
usada para avaliar (ou estimar) um parmetro, tambm chamada de
esttmador. Por exemplo, na populao dos funcionrios de uma empresa,
k = percentagem defuncionriosfavorveis a um programa de treinamento
um parmetro. Numa amostra a ser retirada, P = percentagem defavorveis
ao programa de treinamento, na amostra, uma estatstica. P tambm
pode ser considerado um estimador do parmetro it.

Erro amostrai a diferena entre uma estatstica e o parmetro que se quer estimar.

Para a determinao do tamanho da amostra, o pesquisador precisa


especificar o erro amostrai tolervel, ou seja, o quanto ele admite errar
na avaliao do(s) parmetro(s) de interesse. Por exemplo, na divulgao
de pesquisas eleitorais, comum encontrarmos no relatrio algo como: a
presente pesquisa tolera um erro de 2%. Isso quer dizer que, quando a
pesquisa aponta determinado candidato com 2 0 % de preferncia do
eleitorado, est afirmando, na verdade, que a preferncia por esse
candidato, em toda a populao de eleitores, um valor no intervalo de
18% a 22 % (ou seja, 2 0 % + 2 %).

6 Como a abordagem que estamos apresentando bastante genrica, ela pode fornecer um
tamanho de amostra superior ao tamanho que seria necessrio para uma dada situao
especfica.
58 E st a tst ic a ApliCAdA s C n c a s Soeia s

A especificao do erro amostrai tolervel deve ser feita sob um


enfoque probabilstico, pois, por maior que seja a amostra, existe o risco
de o sorteio gerar uma amostra com caractersticas bem diferentes das
caractersticas da populao de onde ela est sendo extrada. Na
abordagem preliminar desta seo, consideraremos sempre o erro amostrai
sob 95% de probabilidade. Assim, se fixarmos o erro amostrai tolervel
em 2 %, estaremos afirmando que uma estatstica, calculada com base
na amostra a ser selecionada, no deve diferir do parmetro em mais que
2%, com 95% de probabilidade.

U m a f R M U A para o taivjanI-io mnmo !a AVJOSTRA

Sejam: N tamanho (nmero de elementos) da populao;


n tamanho (nmero de elementos) da amostra;
n0uma primeira aproximao para o tamanho da amostra e
E0 erro amostrai tolervel.
Um primeiro clculo do tamanho da amostra pode ser feito, mesmo
sem conhecer o tamanho da populao, atravs da seguinte expresso:7

Se a populao for muito grande (digamos, mais que vinte vezes o


valor calculado n j, ento n j p o d e ser adotado como tamanho da amostra
(n = rip). Caso contrrio, sugerida a seguinte correo:

n = ------y~
N + n0

ExEMplo 5.8 Planeja-se um levantamento por amostragem para avaliar


diversas caractersticas (parmetros) da populao das N - 200 famlias
moradoras de um certo bairro. Os principais parmetros so propores
(ou percentagens), tais como: percentagem defamlias que usam programas
de alimentao popular, percentagem de famlias que moram em casas
prprias, etc. Qual deve ser o tamanho mnimo de uma amostra aleatria
simples para que possamos admitir, com 95% de probabilidade, que os
erros amostrais no ultrapassem 4% (E0 = 0,04)?
Soluo. Primeiramente:

7 Lembramos que esta expresso voltada para a estimao de propores, com probabilidade
aproximada de 95% do erro amostrai no superar 0. No Capitulo 9 voltaremos a esta
discusso.
C a p t u Io 5 - TcNCAS d e a m o s t r a g e m 59

Corrigindo, em uno do tamanho IV da populao, temos:


_ (200) (625) _ 125.000
= 152 famlias
n 200 + 625 825
7/

ExEfVlplo 3.9 Considerando os objetivos e os valores fixados no exemplo ante


rior, qual deveria ser o tamanho da amostra se a pesquisa fosse ampliada
para todo o municpio, que contm N - 200.000 famlias residentes?
Soluo. O valor de n0 continua o mesmo do caso anterior (n0 = 625), mas
com a correo em termos do novo valor de N, temos:
(200.000)>(625)
- 623 famlias.
200.000 + 625
No Exemplo 3,9, praticamente no houve alterao com a correo
em termos do tamanho N da populao (n0 = 625 e n - 623). Em geral, se
a populao for muito grande, podemos usar nQ como o tamanho da
amostra (n = n j .

No Exemplo 3.8, para garantir o erro amostrai no superior a 4%,


foi necessria uma amostra abrangendo 76% da populao (152 elementos
extrados de 200); enquanto que no Exemplo 3.9 foi suficiente uma
amostra de apenas 0,3% da populao (623 de 200.000). Portanto,
errnea a idia de que para uma amostra ser representativa ela deva
abranger uma percentagem fixa da populao (veja a Figura 3.5).
600 r

0
0 500 1000 1SOO 2000 2500 3000

tamanho da populao
Figura 3 .5 Relao entre tamanho da populao e tamanho
da amostra para um dado erro amostrai.
60 E s t a t s t c a A p iC A d A S O N C A S SoeiAis

T a m a n o dA a m o s t r a em subqRupos d A p o p u U o

comum termos interesse em estudar separadamente certos


subgrupos da populao. Por exemplo, numa pesquisa eleitoral, podemos
ter interesse em saber as preferncias das mulheres e dos homens. Numa
pesquisa sobre condies socioeconmicas das famlias de uma cidade,
podemos querer apresentar resultados para cada bairro da cidade.
Quando precisamos efetuar estimativas sobre partes (subgrupos)
da populao, necessrio calcular o tamanho da amostra para cada
uma dessas partes. O tamanho total da amostra vai corresponder soma
dos tamanhos das amostras dos subgrupos. Pelo exposto, o tamanho
total da amostra pode ser muito grande. Por isso, o pesquisador no deve
ser muito exigente na preciso das estimativas nos subgrupos, tolerando
erros amostrais maiores.

ExEM pb 5.10 Seja o problema do Exemplo 3.9, mas suponha que se queira
fazer estimativas isoladas para os seguintes estratos: ( 1) centro da cidade,
(2) bairros e (3) periferia, mantendo-se a mesma preciso para cada estrato
(E0= 0,04). Seriam necessrias:

R= 1 =625
El (0,04)

Portanto, a amostra total deve conter: nfoai = 3-{625) = 1.875 famlias.

Observamos que na fase de anlise dos dados, os clculos so feitos


para cada estrato. Para se ter resultados de todo o municpio, necessrio
agregar os resultados dos estratos por uma mdia ponderada, tomando-
se como peso o tamanho relativo de cada estrato no municpio.

E x e r c c o s

11) Para estudar a preferncia do eleitorado a uma semana da eleio presidencial,


qual deve ser o tamanho de uma amostra aleatria simples de eleitores para
garantir, com 95% de probabilidade, um erro amostrai no superior a 2%?
22) Numa empresa com 1.000 funcionrios, deseja-se estimar a percentagem de
funcionrios favorveis a um certo programa de treinamento. Qual deve ser
0 tamanho de uma amostra aleatria simples que garanta, com 95% de
probabilidade, um erro amostrai no superior a 5%?
C A p T U t o 5 T C N f C A S d e AMOSTRA CjEM 61

5.5 F ontes dE erros nos Ievantam entos p o r amostraqem

O erro amostrai, definido como a diferena entre uma estatstica (a


ser calculada com base em uma amostra de n elementos) ,e o verdadeiro
valor do parmetro (caracterstica de uma populao de N elementos),
parte do princpio de que as n observaes da amostra so obtidas sem
erros. Havendo erros ou desvios nos dados da prpria amostra, a diferena
entre a estatstica e o parmetro pode ser maior que o limite tolervel, E0.
Por isso, o planejamento e a execuo da pesquisa devem ser feitos com
muita cautela, para evitar, ou reduzir, os erros nos prprios dados da
amostra, conhecidos como erros no amostrais. Abordaremos alguns
desses erros, comuns em pesquisas de levantamentos.

PopuUO A C E5 S IV E d iE R E N T E d A p o p u l A O A l v O

Muitas vezes, queremos pesquisar uma certa populao-alvo, mas,


por convenincia, retiramos uma amostra de um conjunto incompleto de
elementos {populao acessvel ou populao amostrada}. Por exemplo, numa
pesquisa eleitoral para avaliar a preferncia dos eleitores de um municpio,
costuma-se tomar como base para a seleo da amostra alista de domiclios
residenciais do municpio, o que deixa inacessveis os eleitores que moram
em outros municpios, mas com domiclio eleitoral no municpio em estudo.
Devemos concentrar esforos para retirar a amostra de toda a
populao-alvo. Qtando isso no for possvel, devemos lim itar a
abrangncia da pesquisa populao que foi efetivamente estudada.

F A T A d E R E S p O S rA

comum no conseguirmos respostas de alguns elementos


selecionados na amostra, como ocorre freqentemente quando a
populao em estudo a humana, pois nem todos se dispem a responder
a um questionrio ou dar uma entrevista. O entrevistador, eticamente e
respeitando o direito do entrevistado em no participar, deve ter
capacidade de persuaso e empenhar-se para conseguir a participao
do maior nmero possvel dos indivduos selecionados.
Uma prtica muito comum, mas que pode levar a srias distores
nos resultados, a de substituir indivduos que se recusam a responder ou
que no so encontrados no momento da pesquisa Para evitar esse problema,
devemos efetuar vrios retornos aos elementos selecionados na amostra.
62 STATSTiCA A p liC A C k S C i n c ia s S o c a s

E r r o s de m e n s u r a o

Nem sempre conseguimos medir exatamente aquilo que queremos.


Por exemplo, numa pesquisa eleitoral, o eleitor pode, por vrias razes,
apontar um candidato, quando na verdade ele pretende votar em outro.
Podemos reduzir a ocorrncia desse tipo de erro com a elaborao
de um questionrio que tenha alguns itens de controle, capazes de detectar
algumas ms respostas. Um bom treinamento dos entrevistadores tambm
ajuda a reduzir esses erros.
Alm desses trs tipos de erros no amostrais, poderamos citar
muitos outros. O pesquisador, ao aplicar mtodos adequados de
estatstica, consegue avaliar, de alguma forma, a magnitude provvel dos
erros amostrais. Mas o tratamento dos erros no amostrais mais difcil e
depende fundamentalmente do planejamento e execuo da pesquisa.

E x e r c c io s c o m p Ie m e n t a r e s

13) Considere a seguinte populao composta de 40 crianas do sexo masculino


(representados por H1T H2,..., H40) e 20 crianas do sexo feminino
(representadas por M l, M2,..., M20).
___ _ __ _ __ __ __ H10
H ll H12 H13 H14 H15 H16 H17 H18 H19 H20
H21 H22 H23 H24 H25 H26 H27 H28 H29 H30
H31 H32 H33 H34 H35 H36 H37 H38 H39 H40
Ml M2 M3 M4 M5 M6 M7 M8 M9 MIO
Ml 1 M12 M13 M14 M15 M I6 M17 M18 M19 M20

a) Retire desta populao de 60 crianas, uma amostra aleatria simples


de tamanho n = 10. Use a primeira coluna da tabela de nmeros aleatrios.
b) Retire desta populao uma amostra aleatria estratificada proporcional
de tamanho n = 12, usando o sexo como varivel estratificadora. Use a
segunda coluna da tabela de nmeros aleatrios para o estrato dos homens
e a terceira coluna para o estrato das mulheres.
c) Se o estudo tem por objetivo avaliar o tipo de brincadeira preferida pelas
crianas, qual o tipo de amostra voc acredita ser a mais adequada? E
se for para avaliar o quociente de inteligncia? Justifique suas respostas.
14) Uma empresa tem 3.414 empregados repartidos nos seguintes departamentos:
Administrao (914), Transporte (348), Produo (1.401) e Outros (751).
Deseja-se extrair uma amostra para verificar o grau de satisfao em relao
qualidade da comida do refeitrio. Apresente um plano de amostragem
para esse problema.
ARTE

ESCRO E EXpORAO dE dAdos

C omo e x tr a r n Form aes dos dAdos

C omo c o n s tru ir, apre se nta r e in te rp re ta r taBeIas,

qRfcos e MEdidAs dESCRirivAS


D a (OS CATECj0RZAcl0S

os trs prximos captulos, vamos considerar que os dados j foram

N efetivamente observados, sejam de uma amostra ou de uma


populao. E o objetivo bsico consistir em introduzir tcnicas que
permitam organizar, resumir e apresentar esses dados, de tal forma que
possamos interpret-los luz dos objetivos da pesquisa. Esta parte do
tratamento dos dados chamada de Estatstica Descritiva. .
Com os dados adequadamente resumidos e apresentados em tabelas
e grficos, poderemos observar determinados aspectos relevantes e
comear a delinear hipteses a respeito da estrutura do universo em
estudo. a chamada Anlise Exploratria de Dados.
No presente captulo, aprenderemos a descrever e explorar dados
de variveis qualitativas, isto , variveis cujos possveis resultados so
observados na forma de categorias. o caso de variveis como nvel de
instruo, sexo, estado civil, etc. Por exemplo, ao observar a varivel sexo
(gnero) num conjunto de indivduos, estaremos classificando cada
indivduo na categoria masculino ou na categoria/ermnino.

4.1 CUssifiCAO SiMpl.ES

Iniciaremos o tratamento de dados analisando isoladamente cada


varivel (anlise univarada).
Umdosprimeiros-passos para entendennos o comportamento de -
uma varivel, em termos dos elementos observados, a construo de
uma distribuio de freqncias.
66 E s t a t s t ic a a p I c a J a s C n c a s S o c a s

A distribuio de freqncias compreende a organizao dos dados de acordo com as


ocorrncias dos diferentes resultados observados. Ela,pode ser apresentada sob forma
tabular ou grfica.

Para ilustrar a construo de uma distribuio de freqncias,


considere os dados de um levantamento de uma amostra de 40 famlias
do Conjunto Residencial Monte Verde, com respeito varivel nvel de
instruo do chefe da casa (ver anexo deste captulo).

Dados do ltimo nvel de instruo completado pelo chefe da casa (cdigos:


1 - nenhum 2 - fundamentei e 3 - mdio):
33223133322122323333
33322313233 231113333

Para construir uma distribuio de freqncias com dados de uma


varivel qualitativa, basta contar a quantidade de resultados observados
em cada categoria (ver Tabela 4.1) . 1

Tabela 4.1 Distribuio de freqncias do ltimo nvel de instruo


completado pelo chefe da casa, numa amostra de 40 famlias do conjunto
residencial Monte Verde, Florianpolis - SC, 1988.

nenhum 6 15,0
fundamental 11 27,5
mdio 23 57,5
Total 40 100,0

A primeira coluna da Tabela 4.1 mostra todas as categorias


previamente estabelecidas da varivel nvel de instruo. A segunda coluna
resulta da contagem de quantas observaes se identificam com cada
categoria; so as freqncias observadas. Finalmente, a terceira coluna

1 A apresentao de tabelas num relatrio regida por normas especficas elaboradas pelo
Instituto Brasileiro de Geografia e Estatstica {IBGE) e adotadas pela Associao Brasileira
de Normas Tcnicas (ABNT). Toda tabela deve ser auto-explicativa, sendo necessrio um
ttulo que informe ao leitor o que est sendo apresentado, onde e quando foram coletados
os dados. Uma tabela tem sua estrutura formada por trs linhas horizontais, sendo duas
que delimitam o cabealho e uma que faz o fechamento. Qualquer outra linha vertical ou
horizontal poder ser traada, desde que venha contribuir para melhor leitura dos dados
da tabela, mas ela no deve ser fechada nas verticais. Alguma explicao complementar
pode ser colocada no rodap da tabela, em particular, a fonte, quando se trata de dados
secundrios. A insero de uma tabela num relatrio somente deve ser feita aps ela ser
referenciada no texto.
C A p T u io 4 D ac Jo s C A req o R iZ A clo s 67

apresenta uma medida relativa da freqncia de cada categoria. As


percentagens so obtidas dividindo-se a freqncia de cada categoria pelo
nmero total de observaes e, em seguida, multiplicando-se por 100
{cem). As medidas relativas (percentagens) so particularmente
importantes para comparar distribuies de freqncias.
A Tabela 4.2 mostra trs distribuies de freqncias. A primeira
corresponde distribuio da Tabela 4.1, e as outras duas s distribuies
do nvel de instruo do chefe da casa em outras duas localidades.2

Tabela 4.2 Distribuio de freqncias do ltimo nvel de instruo


completado pelo chefe da casa, numa amostra de 120 famlias, dividida
segundo as localidades do bairro Saco Grande II, Florianpolis - SC, 1988.

Localidade
Nvel de instruo
Monte Verde Pq. da Figueira Encosta do Morro
nenhum 6 (15,0) 14 (32,6) 18 (48,7)
fundamental 11 (27,5) 14 (32,6) 13 (35,1)
mdio 23 (57,5) 15 (34,8) 6 (16,2)

Total 40 (100,0) 43 (100,0) 37 (100,0)


N O T A : O s n m e ro s e n tre p a r n te s e s c o rre s p o n d e m s p e rc e n ta g e n s e m r e la o ao to ta l d e f a m lia s

o b s e rv a d a s e m c a d a lo c a lid a d e .

Interpretao da Tabela 4.2 - As famlias pesquisadas no Conjunto


Residencial Monte Verde apresentam, relativamente, os chefes da casa
com os melhores nveis de instruo. Por outro lado, temos nas famlias
pesquisadas na Encosta do Morro o pior perfil, em termos de grau de
instruo do chefe da casa, com quase 50% deles no tendo concludo
nem o fundamental.3

O leitor deve notar que, ao organizar e resumir os dados numa


distribuio de freqncias, no dada a informao de quais elementos
pertencem a cada categoria (por exemplo, quais indivduos no tm nem o
nvel de instruo fundamental no aparece na distribuio de freqncias
do nvel de instruo). Contudo, para entender o comportamento geral de
uma varivel, essa informao normalmente no relevante.

2 Uma tabela do tipo Tabela 4.2, pelo seu formato, conhecida como tbelade dupla entrada
ou tabela d e contingncia,
3 Note que a anlise feita especificamente com respeito s famlias pesquisadas. Inferncias
para a populao sero discutidas a partir do Captulo 9.
08 E s t a t s t ic a a p c a c J a s G n c a s S o c a s

Ex e r c c io s

1) Com base nos dados do anexo deste captulo, construa uma tabela de
freqncias para a varivel PAP {uso, ou no, de programas de alimentao
popular), considerando, apenas, as famlias residentes no Conjunto
Residencial Monte Verde.
2) Construa uma distribuio de freqncias para a varivel PAP (ver anexo),
para cada localidade em estudo. Apresente essas distribuies numa tabela
de dupla entrada e interprete.
3) Sejam os resultados da pesquisa descrita na Seo 2.4, cujos dados esto no
anexo do Captulo 2. Faa uma distribuio de freqncias para o principal
ponto positivo do Curso de Cincias da Computao da UFSC, na viso do
aluno. Interprete.

4.2 R epresentaes qRficAS

As representaes grficas fornecem, em geral, uma visualizao


mais sugestiva do que as tabelas. Portanto, constituem-se numa forma
alternativa de apresentao de distribuies de freqncias. Nesta seo,
apresentaremos o grfico de barras e o grfico de setores, que so
particularmente importantes na representao de distribuies de
freqncias de dados categorizados.

G r C O d E bARRAS

A Figura 4.1 representa a distribuio de freqncias da Tabela 4.1


por um grfico de barras. Cada categoria representada por uma barra
de comprimento proporcional sua freqncia (nmero de famlias),
conforme identificao do eixo horizontal.4
Opcionalmente, pode-se apresentar as categorias no eixo horizontal
e a freqncia no eixo vertical. o chamado grfico de colunas.

4 Da mesma forma que as tabelas, as figuras devem conter um ttulo, contendo as informaes
do seu contedo e colocado abaixo dela.
C a p t u I o 4 D A d o s C A T e q o R iZ A d o s 69

Nvel de instruo do chefe da casa

nenhum

fundamentai

mdio

nmero de famlias

Figura 4.1 Distribuio de freqncias do ltimo nvel de instruo


completado pelo chefe da casa, numa amostra de quarenta famlias do
Conjunto Residencial Monte Verde, Florianpolis - SC, 1988.

G r CO d E SETORES

Para construir um grfico de setores, basta fazer uma relao entre


um ngulo, em graus, e a freqncia observada em cada categoria,
lembrando que um crculo tem 360. O esquema, a seguir, mostra esta
relao para a categoria nenhum:

Relao entre o tamanho do setor {a t) e o Relao entre a freqncia da categoria (6) e


circulo todo (360). o total observado (40).

a. JL
360 40
6
Donde: a, =-^(360) =54
40

Repetindo a regra de trs para as outras categorias, temos:


categoria 1 (nenhum): setor de tamanho = 54;
categoria 2 [fundamental): setor de tamanho a2 = 99;
categoria 3 (mdio): setor de tamanho a3 - 207.
Com a ajuda de um transferidor, podemos construir o grfico
indicado na Figura 4.2.
70 E s TATSTCA ApliCACfft s C n c a s S o c a s

Nfvei de instruo completo do chefe da casa


6

nenhum
fundamentai

mdio

Figura 4.2 Distribuio de freqncias do ltimo nvel de


instruo completado pelo chefe da casa, numa amostra de
quarenta famlias do Conjunto Residencial Monte Verde,
Florianpolis - SC, 1988.

Em se tratando da descrio de dados de variveis ordinais, como


no presente caso, recomendamos os grficos de barras ou de colunas,
que permitem enfatizar a ordem das categorias.

G r C O d E b A R R A S M lT ip U s

Para efetuar uma anlise comparativa de vrias distribuies,


podemos construir vrios grficos de setores, ou um grfico de barras
mltiplas, como na Figura 4.3, que representa graficamente as
distribuies de freqncias da Tabela 4.2. No eixo horizontal, optamos
por colocar as freqncias relativas, em forma de percentagens, para
facilitar a comparao.

Nvel de instruo do chefe da casa

percentagem de farralias

Figura 4.3 Distribuio de freqncias do ltimo nvel de instruo completado


pelo chefe da casa, numa amostra de 120 famlias, dividida segundo as
localidades do bairro Saco Grande II, Florianpolis - SC, 1988.
C A p T u lo 4 D A d o s C A te q o R iZ A d o s 7!

Q u e ripo de qRfico u s a r?

Para representar distribuies de freqncias de variveis


qualitativas nominais com poucas categorias, o grfico de setores tem
sido muito usado, principalmente devido a sua visualizao, possibilidade
de apresentao em trs dimenses e possibilidade de destacar alguma
t categoria atravs de um leve afastamento do setor.
Quando a varivel ordinal, grficos de barras ou de colunas so
mais indicados, pois permitem manter a ordem das categorias. Esses
grficos tambm so mais adequados quando se tm muitas categorias
ou quando se quer dar mais destaque s categorias mais freqentes.
Neste ltimo caso, podemos ordenar as categorias pelas freqncias.
Grficos de barras (ou de colunas) mltiplas so usados para
representar mais de uma distribuio de freqncias, ou distribuies
de freqncias conjuntas de duas variveis qualitativas, como as que
sero vistas na prxima seo.
Distribuies de freqncias de variveis quantitativas tm grficos
prprios, como os histogramas, que sero estudados no Captulo 5. J no
Captulo 13 sero apresentados os diagramas de disperso, que permitem
^ analisar possveis relaes entre duas variveis quantitativas.

E x e r c c io s

4) Faa um grfico de barras e um grfico de setores para representar a


distribuio de freqncias do Exerccio 1.
5) Faa um grfico de barras mltiplas para representar as distribuies de
freqncias do Exerccio 2.

4 3 DupU cUssificAo

Este tpico focaliza uma anlise conjunta de duas variveis


qualitativas (anlise bivarada
Nas Cincias Sociais e Humanas, comum o interesse em verificar
se duas variveis apresentam-se associadas num certo conjunto de
elementos. Por exemplo, pode-se ter interesse em verificar se o percentual
de usurios de programas de alimentao popular varia de acordo com a
faixa de renda, o que caracteriza uma associao entre o uso de programas
de alimentao popular e a faixa de renda nas famlias pesquisadas. Esse
72 E s t a t s t c a ApltCA<dA s C e n c a s S o c a s

tipo de anlise passa pelas distribuies conjuntas de freqncias, que


geralmente so apresentadas nas chamadas tabelas de contingncia ou
tabelas de dupla entrada, como veremos a seguir.
Para construirmos uma distribuio conjunta de freqncias,
devemos observar simultaneamente as duas variveis nos elementos em
estudo. A Figura 4.4 mostra a construo de uma distribuio conjunta,
com as variveis nvel de instruo do chefe da casa e uso de programas
de alimentao popular. -

A s c in c o p r im e ir a s o b s e r v a e s d a s v a r i v e is n v e l d e in s tr u o d o c h e je d a c a s a c u s o d e p r o g r a m a s
d e a lim e n t a o p o p u la r (a n e x o d e s t e c a p t u l o ) .

C d ig o s d o n v e l d e in s t r u o : 1 - nenhum ; 2 - p rim e iro g r a it e 3 ~ se g u n d o gra u .


C d ig o s d o u s o d e p r o g ra m a s : 1 - s im e 0 - no.

D ad o s
Nvel de uso de Construo da tabela
famlia instruo programas
1 3 0 - ^ Uso de Nvel de Instruo
2 3 0 - ^ , --Ptogramas 1 | 2 3
3 2 1 .........
4 2 0 -------
*"* no
5 3 0 Ml

Figura 4.4 Esquema de como fazer a contagem para uma distribuio conjunta.

Para a construo da distribuio conjunta de freqncias, cada


elemento (famlia) deve pertencer a uma e apenas uma clula da tabela.5
Fazendo a classificao de todas as famlias observadas e contando as
freqncias em cada clula, chegamos Tabela 4.3. O leitor deve notar
que os totais das colunas formam a distribuio de freqncias da varivel
nvel de instruo do chefe da casa, quando observada isoladamente;
enquanto os totais das linhas constituem a distribuio da varivel uso
de programas de alimentao popular.

Tabela 4.3 Distribuio conjunta de freqncias do nvel de instruo do


chefe da casa e uso de programas de alimentao popular.

Uso de Nvel de instruo do chefe da casa j


programas nenhum fundamental mdio | Total
sim 31 22 25 78
no 7 16 19 42
Total 38 44 ...120
00
CO

5 Chamamos de clula ao cruzamento de uma linha com uma coluna.


C A p T u l o 4 D A d o s CATfCjORiZACiOS 7?

Para facilitar a anlise de uma tabela de contingncia, podemos


incluir as freqncias relativas (percentagens), que podem ser calculadas
em relao aos totais das linhas ou colunas, dependendo do objetivo. Na
Tabela 4.4 so includas as percentagens em relao aos totais das
colunas. Esta tabela evidencia os perfis do uso de programas de
alimentao popular, considerando as famlias separadas por nvel de
instruo do chefe da casa (per/s coluna).

Tabela 4.4 Distribuio do uso de programas de alimentao popular,


por nvel de instruo do chefe da casa.
Uso de Nvel de instruo do chefe da casa
programas nenhum fundamental mdio Total
sim 31 (81,6) 22 (57,9) 25 (56,8) 78 (65,0)
no 7 (18,4) 16 (42,1) 19 (43,2) 42 (35,0)
Total 38 (100,0) 38 (100,0) 44 (100,0) 120 (100,0)
N O T A : O s n m e ro s e n tre p a r n te s e s s o p e rc e n ta g e n s e m re la o a o s to t a is d a s c o lu n a s .

Interpretao da Tabela 4.4 - Nos dados observados, verifica-se uma


associao entre o uso de programas de alimentao popular e o nvel de
instruo do chfe da casa, pois, enquanto no nvel de instruo mais
baixo, a grande maioria das famlias pesquisadas usam os programas
(81,6%), no nvel de instruo mais alto, pouco mais da metade usam
esses programas (56,8%).6
A Tabela 4.5 mostra a Tabela 4.3 acrescida de percentagens em
relao ao total das linhas. Esta tabela evidencia os perfis do nvel de
instruo do chefe da casa, considerando a amostra dividida em famlias
que usam e famlias que no usam os programas (perfis linha). A
interpretao da Tabela 4.5 deixada para o leitor.

Tabela 4.5 Distribuio do nvel de instruo do chefe da casa, segundo


o uso de programas de alimentao popular.

Uso de Nvel de instruo do chefe da casa


programas nenhum fundamental mdio Total
sim 31 (39,7) 22 (28,2) 25 (32,1) 78 (100,0)
no 7 (16,7) 16 (38,1) 19 (45,2) 42 (100,0)
Total 38(31,7) 38(31,7) 44 (36,7) 120 (100,0)
N O T A : O s n m e ro s ' e n tr p a r n te s e s s o p e rc e n ta g e n s e m re la o a o s to ta is d s lin h a s .

6 Uma anlise estatstica mais elaborada, como veremos no Captulo 12, poder detectar se
essa associao realmente vlida para toda a populao de famlias do bairro em estudo.
74 E s t a t s t ic a a p I c a c a s C n c a s S o c ia is

Na Seo 4.1, quando discutamos classificao simples, juntamos


trs distribuies de freqncias da varivel nvel de instruo do chefe
da casa, correspondentes a trs localidades diferentes (Tabela 4.2).
Observamos, agora, que esse tipo de tabela tambm pode ser analisado
como uma tabela de contingncia, como apresentado nesta seo, mesmo
que na sua construo no tenhamos observado simultaneamente as
duas variveis, pois as localidades j estavam previamente estabelecidas
~ constituem estratos da populao.

U s o d o COMpUTAdoR

Com o uso de programas computacionais de estatstica, ou mesmo


com planilhas eletrnicas, as tabelas e grficos podem ser feitos com
relativa facilidade. A Figura 5.5 mostra uma tabela e um grfico feitos
com o auxlio do Microsoft Excel, utilizando os dados sobre localidade e
uso de programas de alimentao popular do anexo .7 Deixamos a
interpretao da sada computacional como exerccio para o leitor.
P e rc e n ta g e m d a u tilizao d e p ro g ra m a s d e
a lim e n ta o p o p u la r p o r lo c a lid a d e

Contagem de p.a.p Local


p.a.p Encosta do Morro Monte Verde Pq. da Figueira Total Global
no usa 32,43% 45,00% 27,91% 35,00%
usa 67,57% 55,00% 72,09% 65,00%
Total Global 100,00% 100,00% 100,00% 100,00%

Figura 4.4 Sada computacional do relatrio de tabela e grficos dinmicos do Excel.

E x e r c c io s

6) Considerando os dados do anexo deste captulo, classifique as famlias com


renda mensal de at 5 salrios mnimos, como de renda baixa, famlias com
rendimentos mensais acima de 5 salrios mnimos, como e renda alta A

7 Em www.inf.ufsc.br/~barbetta/livTol.htm voc pode obter algumas orientaes sobre o


uso do Excel para anlise exploratria de dados.
C A pTU O 4 D A d o s CATeC,Ot?ZA<jO$ 75

amostra sugere alguma associao entre renda familiar e uso de programas


de alimentao populaf? Justifique atravs da construo e interpretao de
uma tabela de contingncia.
7) As tabelas a seguir baseiam-se numa amostra de adolescentes de Santa
Catarina (Fundao Promover - SC, 1990). Calcule os perfis de percentagens
que julgar mais convenientes e interprete.
Tabela 1 Relao entre participaao religiosa e uso de bebidas alcolicas.

Tabela 2 Relao entre alegria e satisfaao sexual.


Satisfao sexual
Sentimento do respondente
satisfeito | frustrado
alegre 525 69
triste 34 19

8) Ao estudar, numa certa populao, a possvel associao entre nue de


instruo e uso de programas de alimentao popular, suspeita-se que a varivel
renda familiar esteja induzindo esta associao. A Tabela 1 apresenta os
elementos classificados segundo o nvel de instruo (baixo ou alto) e quanto
ao uso de programas de alimentao popular (sim ou no). A Tabela 2 faz a
mesma classificao, mas separando os indivduos em termos da renda
familiar (baixa, ou alta).
Tabela 1 Elementos classificados segundo o nvel de instruo e uso de
programas de alimentao popular.
Nvel de Uso de programas
instruo sim I no
baixo 350 150
alto 200 300

Tabela 2 Elementos classificados segundo a renda familiar, nvel de instruo


e uso de programas de alimentao popular.
Renda familiar Nvel de instruo Uso de programas
sim 1 no
baixo 320 80
baixa
alto 80 20
baixo 30 70
alta
alto 120 280

a) Qual a sua concluso sobre a associao entre o nvel de instruo e uso


de programas de alimentao popular, sem levar em conta a renda familiar
(Tabela 1)?
b) Analisando a Tabela_2, isto , considerando tambm a renda familiar, o
que voc conclui?
76 ESTATSTiCA ApliCAQA. S C i N C IA S S o CA S

E x e r c c io s com p [e m e n ta r es

9) Com o objetivo de verificar se existe associao entre a carreira escolhida


(Economia, Administrao ou Cincias Contbeis) e tabagismo (fumante ou
no-fumante), numa determinada faculdade, fez-se uma enquete onde se
verificaram os seguintes dados: dos 620 alunos do Curso de Economia, 157
eram fumantes; dos 880 alunos do Curso de Administrao, 218 eram
fumantes; e dos 310 alunos das Cincias Contbeis, 77 eram fumantes.
Apresente estes dados numa tabela de contingncia (ou tabela de dupla
entrada), calcule percentagens que facilitem visualizar uma possvel associao
e discuta se os dados sugerem uma associao.. I
10) Os dados a seguir referem-se participao em programas de treinamento (1
= sime 0 = no) e desempenho no trabalho (1 = ruim, 2 = regular, 3 = bom) dos
30 funcionrios de uma empresa.
Ind parlic. | desemp.. H n T T partc. desemp. Ind. I partc. 1 desemp.
1 1 2 11 0 2 2 1 1 2
2 1 3 1 2 0 1 2 2 0 2
3 1 3 13 0 2 2 3 0 1

4 0 2 1 4 0 1 2 4 0 1

5 0 1 15 1 2 25 1 3
6 1 1 16 1 3 26 0 1
7 0 1 17 0 1 27 0 2
8 1 3 18 1 2 28 1 3
9 1 3 19 0 1 29 0 3
10 0 1 20 0 2 30 1 3

a) Construa uma distribuio de freqncias para cada varivel,


apresentando-as em forma grfica.
b) Construa a distribuio de freqncias conjunta. Apresente esta
distribuio numa tabela de dupla entrada, calculando percentagens que
enfatizam o desempenho dos funcionrios em cada grupo (participantes e
no participantes).
11) Os alunos do Curso de Psicologia da UFSC (turma 302, sem. 99/2) realizaram
uma pesquisa com moradores de Florianpolis, respeito da coleta seletiva
de lixo. Uma das. tabelas apresentada a seguir:
Sistema de coleta seletiva de lixo
Nvel de instruo do conhece colabora
respondente sim j no | sim | no
nenhum 12 9 9 10
fundamental 23 3 16 15
mdio 43 3 30 22
superior incompleto 25 1 13 19
superior completo 50 1 26 27

Calcule percentagens que facilitem a interpretao da tabela e descreva as


principais informaes.
C a p t u o 4 - D A d o s CATeqoRiZAdos 77

A in ex o

Este anexo contm parte dos dados de entrevistas realizadas em


famlias residentes no Saco Grande II, Florianpolis - SC, 1988. A
pesquisa foi realizada pela UFSC e tinha como objetivo principal avaliar
os efeitos polticos dos programas de alimentao popular. Transcrevemos,
a seguir, algumas das variveis levantadas, numa amostra de 120 famlias.

V a r i v e is e cdiqos

Local (localidade da moradia):


1 - Conjunto Residencial Monte Verde;
2 = Conjunto Residencial Parque da Figueira;
3 = Encosta do morro.
P.a.p. (uso de algum programa de alimentao popular);
0 = no;
1 = sim.
Instr. (ltimo nvel de instruo completado pelo chefe da casa):
1 = nenhum;
2 = fundamental;
3 - mdio.
Tam. (nmero de pessoas residentes no domiclio).
Renda (renda familiar mensal, em quantidade de salrios mnimos).

Dftdos d E 120 fAM liAS


m eacasg ira.nHiT.MiMu. m cnBwawwanreswm
N# Local P.a.p. Fiastr. (Tam. 1Renda Na Local } P,a.p. 1Instr. r s r Renda
1 1 0 3 4 10,3 17 1 1 3 3 8,9
2 1 0 3 4 15,4 18 1 0 3 4 12,9
3 1 1 2 4 9,6 19 1 0 3 4 5,1
4 1 0 2 5 5,5 .20 1 1 3 4 12,2
5 1 1 3 4 9,0 21 1 1 3 5 5,8
6 1 1 1 1 2,4 22 1 1 3 5 12,9
7 1 0 3 2 4,1 23 1 0 3 5 7,7
8 1 1 3 3 8,4 24 1 0 2 4 1,1
9 1 1 3 6 10,3 25 1 0 2 8 7,5
10 1 1 2 4 4,6 26 1 1 3 4 5,8
11 1 0 2 6 18,6 27 1 1 1 5 7,2
12 1 1 1 4 7,1 28 1 0 3 3 8,6
13 1 0 2 4 12,9 29 1 1 2 4 5,'l
14 1 0 2 6 8,4 30 1 0 3 5 2,6
...15 . . . . . . 1 - -0 3 3 19,3 31 1 1 3 5 - 7,7
16 1 0 2 5 10,4 32 1 1 2 2 2,4

8 Hoje a regio pesquisada compreende os bairros Saco Grande e Monte Verde.


78 E s t a t s t ic a a p I c a c a s C nc/as S o c a s

IfT Local 1 P.a.p, i Instr. { Tam. j Renda m Local 1P.a.p. | In ^ r . l TamTI Renda
33 1 1 3 5 4.8 77 2 1 3 4 2,7
34 1 1 1. 2 2 ,1 78 2 0 2 4 2,4
35 1 1 1 6 4.0 79 2 0 2 4 3,6
36 1 1 1 8 12,5 80 2 0 3 5 6,4
37 1 1 3 3 6 .8 81 2 0 3 2 11,3
38 1 1 3 5 3,9 82 2 1 1 5 3,8
39 I 0 3 5 9,0 83 2 1 1 3 . 4,1
40 1 0 3 3 10,9 84 3 1 1 ' 5 . 1.8
41 2 1 2 \5 5,4 85 3 1 3 5 7,1
42 2 1 1 3 6,4 86 3 0 1 3 13,9
43 2 1 1 6 4,4 87 3 1 2 6 4,0
44 2 1 1 5 2,5 88 3 1 6 2,9
\ 1
45 2 0 1 6 5,5 89 3 1 .- 2 9 3,9
46 2 1 1 8 90 3 1 1 4 2 ,2
47 2 1 3 4 14,0 91 3 - 0 2 3 5,8
48 2 1 2 4 8,5 92 3 0 2 5 2 ,8
49 2 1 1 5 . 7,7 93 3 . 1 2 5 4,5
50 2 0 2 3 5,8 94 3 0 2 4 5,8
51 2 1 3 5 5,0 95 3 v 0 3 8 3,9
52 2 0 1 3 4,8 96 3 o 2 ; 7 2 ,8
53 2 1 2 2 2 ,8 97 3 1 1 3 1,3
54 2 1 2 4 4,2 98 3 1 3 5 3,9
55 2 1 3 3 10 ,2 99 3 1 3 5 5.0
56 2 I 2 4 7,4 100 3 1 1 5 0,1
57 2 1 2 5 5,0 101 3 0 2 3 4,6
58 2 0 3 2 6,4 102 3 1 2 4 2 ,6
59 2 0 3 4 5,7 103 3 0 1 6 2,3
60 2 1 2 4 10 ,8 104 3 1 2 5 4,9
61 2 0 3 1 2,3 105 3 1 1 5 2,3
62 2 1 1 7 6,1 106 3 1 1 3 3,9
63 2 1 1 3 5,5 107 3 1 1 : 4 2 ,1
64 2 1 1 7 3,5 108 3 1 1 4 2,7
65 2 1 3 3 9,0 109 3 : .i 2 5 11,1
66 2 1 3 6 5,8 110 3 1 1 6 6,4
67 2 0 1 6 4,2 111 3 0 3 7 25,7
68 2 1 3 3 6 ,8 11 2 3 1 1 4 0,9
69 2 1 2 5 4,8 113 3 1 3 5 3,9
70 2 1 3 5 6 ,0 114 3 1 1 5 5,1
71 2 1 2 7 9,0 115 3 1 2 6 4,2
72 2 1 1 4 5,3 116 3 1 1 6 . 4,4
73 2 1 . 3 4 3,1 117 3 1 1 7 7.9
74 2 0 3 1 6,4 118 3 0 1 4 4,2
75 2 1 1 3 3,9 119 3 0 1 4 3.5
76 2 1 2 3 6,4 120 3 0 2 6 11,4
N O T A : O p o n t o {.) r e p r e s e n t a f a lt a d e r e s p o s ta e " r e p r e s e n t a o n m e r o d e o r d e m d a f a m lia p e s q u is a d a .
D acos q u a n t t a t v o s

uando a varivel em estudo for mensurada numericamente, temos

O grande ganho em termos de tcnicas de anlise exploratria de dados.


Este captulo trata da construo de distribuies de freqncias de
variveis quantitativas, bem como das interpretaes que podemos fazer
sobre essas distribuies.

Umavarivel quantitativa ditadiscreta quando seus possveisvalorespuderemserlistados.

O Nmero dejilhos de um casal e o nmero de cmodos de uma casa


so exemplos de variveis discretas, pois a primeira s pode assumir
valores no conjunto {0 , 1 , 2 ,...}, enquanto a segunda no conjunto { 1, 2 ,
3,...}. As variveis discretas geralmente resultam de alguma contagem.

Uma varivel quantitativa dita contnua quando puder assumir qualquer valor num
intervalo.

O peso de um indivduo uma varivel contnua, pois pode assumir


qualquer valor no intervalo, digamos, de 0 a 300 kg. As variveis continuas
costumam ser geradas por um instrumento de mensurao.

?.l V RVES diSCRETAS

A construo de distribuies de freqncias de dados de varivel


discreta pode ser feita da mesma forma que uma distribuio de
freqncias de dados categorizados, desde que no haja grande quantidade
80 E s t a t s t c a A p licftd A s C n c a s S o c a s

de diferentes valores observados.1 Como exemplo, usaremos os dados da


varivel nmero de pessoas residentes no domiclio, considerando uma
amostra de quarenta residncias do Conjunto Residencial Monte Verde
{anexo do Captulo 4).
Dados
44 4 5 4 1 2 3 6 4 6 4 4 6 3 5 3 4 4 4
55548453455252683553

A Tabela 5.1 apresenta a distribuio de freqncias desses dados,


construda atravs da contagem das repeties de cada valor.

Tabela S. 1 Distribuio de freqncias do nmero de pessoas residentes


no domiclio, numa amostra de quarenta residncias do Conjunto
Residencial Monte Verde, Florianpolis - SC, 1988.
Nmero de pessoas Freqncia de residncias Percentagem de residncias
1 1 2,5
2 3 7,5
3 6 15,0
4 13 32,5
5 11 27,5
6 4 10,0
7 0 0,0
8 2 5,0

Para representar graficamente a distribuio de freqncias de uma


varivel quantitativa/devemos construir um par de eixos cartesianos. Na
abscissa (eixo horizontal) construmos uma escala para representar os
valores da varivel em estudo, enquanto que na ordenada (eixo vertical),
representamos a freqncia de cada valor.
A Figura 5.1 mostra duas formas alternativas de representao
grfica da distribuio de freqncias da Tabela 5.1. A primeira consiste
em traar hastes verticais sobre os valores efetivamente observados (Figura
5.1a). A altura de cada haste deve ser proporcional freqncia do
correspondente valor. Na segunda representao, substitumos os riscos
por retngulos (Figura 5.1b). Esses retngulos devem ter a mesma largura
e podem ser justapostos. O eixo vertical (das freqncias) deve sempre
iniciar no zero; o eixo horizontal (dos valores da varivel) pode iniciar
prximo ao menor valor da varivel.

1 Quando a varivel apresenta grande nmero de diferentes valores, podemos usar os artifcios
que descreveremos para variveis continuas (Seo 5.2).
C A p ru tO 5 D A d o s QUANTITATIVOS 81

b)
14]
12-
1
10-
8-

4-
'' 1 '
2*
0
Mil ' '1
1 2 3 4 5 6 7 8
Nmero de pessoas residentes Nmero de p e s s o a s r e s i d e n t e s

Figura 5.1 Representaes grficas da distribuio de freqncias da Tabela 5.1.

E x e r c c o s

1) Observando a Figura 5.1, descreva qual a quantidade tpica {ou faixa tpica)
de moradores por domicilio. Existe algum domiclio muito diferente dos demais,
em termos do nmero de moradores?
2} Considerando os dados do anexo do Captulo 2, faa os seguintes itens:
a) construa uma tabela de distribuio de freqncias para o nuel de
satisfao do aluno com o curso (item 3.g do questionrio);
b) apresente essa distribuio sob forma grfica e
c) interprete.
3) As duas tabelas de freqncias seguintes referem-se s distribuies do
nmero de filhos dos pais e dos avs matemos de uma amostra de 212
alunos da UFSC, pesquisada pelos alunos do Curso de Cincias Sociais,
primeiro semestre de 1990.
Distribuio do nmero de filhos dos pais dos respondentes

N a d e flh o s 1 2 3 4 5 6 7 8 9 1 0 11 12

F re q n c ia 10 4 5 3 2 5 0 2 3 2 3 9 7 6 2 3 2

Distribuio do nmero de filhos dos avs matemos dos respondentes

N a d e filh o s [T~ 2 3 4 5 6 7 8 9 10 11 12 13 1 4 15 16 17 1 8

F re q n c ia 2 1 7 3 2 1 7 2 9 2 3 2 0 2 2 2 1 14 8 6 2 4 0 1 0 1

Apresente essas duas distribuies em grficos e faa uma descrio


comparativa entre elas. , .
82 G s TATSTCA AplCACA S O I n C I A S S O C IA IS

5.2 Varves contnuas

Para as variveis contnuas, no faz muito sentido contar as


repeties de cada valor, pois, considerando que dificilmente os valores
se repetem, no chegaramos a um resumo apropriado.

D a q r a m a d E PONTOS

Quando temos um conjunto com poucos dado% podemos analis-


lo atravs de um diagrama de pontos, isto , representando cada resultado
(valor) por um ponto na reta de nmeros reais (veja a Figura 5.2).

Figura 5.2 Construo de um diagrama de pontos.

possvel colocar duas ou mais distribuies num mesmo grfico;


basta identificar os pontos com smbolos diferentes, ou coloc-los em
nveis diferentes, como ilustra a Figura 5.3.

Sul ....... .................. ........... .... -fr. .....


fvjQft ______ -S> & <3SS ^ O O________ <5 ^ ^

0.52 0,62 0,72 0,82


DH
Figura 5.3 Diagrama de pontos do ndice de Desenvolvimento Humano (IDH) de duas amostras
aleatrias de quatorze municpios: uma da Regio Sul e outra da Regio Norte.2

Interpretao da Figura 5.3 - Os municpios da amostra da Regio Sul


apresentam, em geral, IDH maiores do que os municpios da amostra da
Regio Norte. Tambm observamos que as duas amostras de municpios
diferenciam-se quanto disperso dos valores. Enquanto na amostra da
Regio Sul os municpios apresentam IDH relativamente prximos (maior
homogeneidade), na amostra da Regio Norte os valores variam bastante
de municpio para municpio (maior heterogeneidade).

2 Dados extrados do Atlas do Desenvolvimento Humano fwww.pnud.org.br/atlas). O IDH.


calculado para cada municpio, foi construdo com base nos dados do Censo Demogrfico
de 2000. Observe que neste exemplo os elementos das amostras so municpios.
C a p tu lo 5 D a co s u a n t t a t v o s 85

AbnUdE re Oencas

Nas Cincias Sociais, geralmente trabalhamos com conjuntos de


centenas ou milhares de observaes, fazendo com que o diagrama de
pontos fique impraticvel. Podemos construir distribuies de freqncias,
agrupando resultados em classes preestabelecidas. As classes so
pequenos intervalos mutuamente exclusivos, tais que, quando reunidos,
abrangem todo o conjunto de dados. Em outras palavras, as classes devem
ser construdas de tal forma que todo valor observado pertena a uma e
apenas uma classe. Por simplicidade, e para facilitar a interpretao,
consideraremos todas as classes com a mesma amplitude.
Como exemplo, usaremos as taxas de alfabetizao de uma amostra
aleatria de quarenta municpios brasileiros.3
_______________________________Dados:______________________________
57,25 76,85 92,90 89,07 75,49 84,33 65,28 94,59 71,20 82,30
72,81 66,01 90,52 87,94 58,88 86,34 45,37 81,15 94,83 81,42
54,70 67,95 69,91 95,02 77,62 57,14 91,22 64,65 85,70 81,34
59,07 68,04 73,22 95,34 88,40 83,52 64,19 64,17 95,34 84,66

Observe que todos os valores esto no intervalo de 40 a 100 (o


menor valor 45,37 e o maior 95,34). Devemos definir um conjunto de
classes mutuamente exclusivas, tais que, quando reunidas, contenham
todos os valores. Uma possvel escolha seria construir 6 (seis) classes
com amplitude aproximada de 10 (dez), como segue:
de 40,00 a 49,99; de 50,00 a 59,99; de 90,00 a 99,99
Para simplificar a notao, representaremos essas classes por:
40,00 j 50,00; 50,00 | 60,00; ...; 90,00 | 100,00
sendo que o smbolo j" representa o intervalo entre os dois valores,
incluindo o valor do lado esquerdo e excluindo o valor do lado direito.
A tabela de freqncias construda atravs da contagem da
freqncia de casos em cada classe, como mostramos a seguir:
classes j contagem freqncia
40 50 I j 1
50 j 60 111 5
60 1 70 j 1[ II 8
70 [ 80 |! 1 6
80 ( 90 |i ilii 1! 12
901 100 j j 1i II.-. 8

3 Dados do Censo Demogrfico, 2000 (www.ibge.gov.br).


84 E s t a t s t ic a A p liC A d a s C n c a s S o c a s

Na apresentao de uma tabela de freqncias, comum colocar


tambm os pontos mdios das classes, isto , para cada classe, a mdia
dos seus limites. Por exemplo, na classe 40 j 50 o ponto mdio 5. O
ponto mdio representa o valor tpico da classe. ATabel 5.2 apresenta a
distribuio de freqncias dos dados em discusso.

Tabela 5.2 Tabela de freqncias de valores da taxa de alfabetizao,


relativos a uma amostra aleatria de municpios brasileiros, ano 2 0 0 0 .
Classes da taxa de Ponto Freqncia Percentagem
alfabetizao mdio de municpios de municpios
40 50 45. 1 2,5
50 60 55 5 12,5
60 70 65 8 "1 20,0
70 80 75 6 15,0
80 90 85. 12 30,0
90 |-- 100 95 8 20,0
Total - 40 100,0

O nmero de classes a ser usado na tabela de freqncias uma


escolha arbitrria. Quanto maior o conjunto de dados, mais classes podem
ser usadas. Uma tabela com poucas classes apresenta a distribuio de
forma bastante resumida, podendo deixar de evidenciar algumas
caractersticas relevantes. Por outro lado, quando se usam muitas classes,
a tabela pode ficar muito grande, no realando aspectos relevantes da
distribuio de freqncias.
Em geral, so usadas de cinco a vinte classes, dependendo da
quantidade de dados e dos objetivos. Dentro desta faixa, uma sugesto
usar, aproximadamente, Vri classes, onde n a quantidade de valores.4
Em nosso exemplo: n = 40, resultando em Vn = 6,32, o que sugere seis ou
sete classes; adotamos 6 classes. Como os dados extremos so 45,37 (o
menor) e 95,34 (o maior), temos uma amplitude total de 95,34 - 45,37 = 50.
Assim, se as classes iniciarem pelo menor valor, cada classe deve ter
-amplitude: - 8,33 . Mas, para facilitar a leitura da tabela de freqn
cias, optamos por iniciar em 40,00 e usar classes com intervalos iguais a
10,00. Esquematicamente:
Intervalo onde esto os dados

------- 1------------------------------------------------------------------------ 1 >


45.37 95,34
Classes:

40 50 6 0 '.... 70 80 90' 100

4 Quando se tm valores discrepantes no conjunto de dados, recomenda-se que o nmero


de classes seja maior.
C a p t u o 5 D a c o s q u a n t i t a t iv o s 85

Uma forma alternativa de apresentar distribuies de freqncias


de variveis quantitativas atravs de grficos, tais como os histogramas
e os polgonos de freqncias, que apresentaremos a seguir.

HiSTOqRAiVIA

A Figura 5,4 mostra um histograma de freqncias, construdo a


partir da Tabela 5.2. So retngulos justapostos, feitos sobre as classes
da varivel em estudo. A altura de cada retngulo proporcional
freqncia observada da correspondente classe.5

Taxa de alfabetizao
Figura 5.4 Histograma de freqncias de valores da taxa de alfabetizao,
relativos a uma amostra aleatria de municpios brasileiros, ano 2000.

interpretao da Figura 5.4 - Observamos um contingente razovel de


municpios com taxas de alfabetizao acima de 80 (dentre a populao
adulta, mais de 80% de alfabetizados). Mas tambm h muitos municpios
com taxas de alfabetizao muito baixa (entre 50 a 80). Uma anlise similar
por regio demogrfica poderia trazer mais inforaiaes relevantes.

P o lq o N O d E r e q e n c a s

O polgono de freqncias uma representao grfica alternativa.


Para constru-lo, torna-se oponto mdio fxt e acorrespondente freqncia (f)
de cada classe. Colocmos os pares [ x, f ] como pontos num par de eixos

5 Quando as classes no tm a mesma amplitude, necessrio fazer alguns ajustes. Veja,


por exemplo, Bussab e Morettin (2002, p.27). O histograma tambm poderia ser feito
usando percentagens no eixo vertical, mas a sua forma no mudaria.
86 E s t a t s t ic a a p Ucac J a s C n c a s S o c a s

cartesianos. A ilustrao ao lado mostra a representao /'


do ponto (5, 1), num par de eixos cartesianos. Para
completar o grfico, devemos unir os pontos com semi- 1_ _ _ _ _ &
retas, ligando os pontos extremos ao eixo horizontal.
0 . 5 "x*

A Figura 5.5 apresenta o polgono de freqncias construdo a partir


da Tabela 5.2. O leitor deve notar que as informaes fornecidas pelo
polgono de freqncias so equivalentes s observadas num histograma.

T a x a d e a lf a b e tiz a o

Figura 5.5 Polgono de freqncias de valores da taxa de


alfabetizao, relativos a uma amostra aleatria de municpios
brasileiros, ano 2000.

A Figura 5.6 apresenta dois polgonos de freqncias num mesmo


grfico, usando dados do anexo do Captulo 4. O uso de percentagens no
lugar de freqncias absolutas foi proposital, porque facilita as
comparaes entre as duas distribuies de renda. Deixamos para o leitor
a interpretao das informaes contidas neste grfico.

Renda familiar (em salrios minimos)

Figura 5.6 Distribuies de freqncias das rendas familiares no


Monte Verde (amostra de-40 famlias) e na Encosta do Morro (amostra
de 37 famlias), Bairro Saco Grande II, Florianpolis - SC, 1988,
CA pTulo 5 D a c o s o u a n t t a t v o s 87

O leitor deve observar que um grfico como o da Figura 5.6 permite


explorar possveis relaes entre uma varivel quantitativa (renda) e uma
varivel qualitativa (localidade). Ao comparar histogramas ou polgonos
de freqncias, devemos observar aposio no eixo horizontal (nvel tpico
dos valores), a disperso e a assimetria.

Dizemos que uma distribuio simtrica quando um lado da distribuio o rejlexo


do outro lado.

comum medidas fsicas terem distribuies razoavelmente


simtricas. Por outro lado, distribuies de renda em geral so
assimtricas, pois existem mais pessoas com baixa renda do que pessoas
com alta renda (principalmente no Brasl]. Veja a Figura 5.7.
(a) Distribuies diferentes em (b) Distribuies diferentes
termos da posio central quanto disperso

Figura 5.7 Diferentes formas de distribuies de freqncias.

Exer c c io s

4} Os dads a seguir so medidas da identidade social que os professores sentem


em relao ao seu departamento de ensino. Foram observadas duas amostras
de 12 professores: uma no Departamento de Engenharia Mecnica e a outra
no Departamento de Histria, ambas na UFSC. Pelo instrumento utilizado,
pode-se dizer que quanto maior o valor, maior a identificao social do
professor com o departamento de ensino a que pertence.
Valores de identidade social
Departamento de Eng. Mecnica Departamento de Histria
46 48 47.48 49 50 3 5 2 4 43 43 44 33
37 46 47 48 44 47 38 35 39 37 40 35
Fonte: Laboratrio de Psicologia Social / UFSC. 1990.

Apresente os dois conjuntos de dados num diagrama de pontos e faa uma


anlise comparativa.
88 E s t a t s t ic a A p liC A d A s C n c a s S o c a s

5) Considere os dados do anexo do Captulo 2.


a) Construa uma tabela de freqncias para o desempenho do aluno no
curso (item 5 do questionrio).
b) Faa um histograma. Interprete.
c) Construa um polgono de freqncias.
6) Considerando os dados sobre rendafamiliar do anexo do Captulo 4, construa
trs histogramas, sendo um para cada localidade. Faa uma comparao
descrevendo as diferenas entre as trs' distribuies de renda familiar.
7) Os grficos apresentados a seguir representam distribuies de presses
intra-oculares para indivduos normais e para indivduos portadores de
glaucoma. Quais as semelhanas e diferenas que podemos observar na
presso intra-ocular desses dois grupos de indivduos?
indivduos normais Indivduos portadores de glaucoma
{amostra de 43 indivduos) {amostra deJ34 indivduos)
50 x
%
> 40--
T
>30-
Tf

<E
3i20'*
io--
10 11 16 20 24 28 32 3S 40 44
presso intra-ocular presso intra-ocular

!?J R a m o - e ^ o N as

Quando a quantidade de dados no for muito grande (digamos, at


uma centena de observaes), podemos construir, com relativa facilidade,
um ramo-e-folhas, o qual fornece a forma da distribuio de freqncias e
ainda preserva a magnitude aproximada dos valores. Num ramo-e-folhas,
os dados ficam ordenados crescentemente, o que facilita a obteno de
algumas medidas descritivas, como veremos no prximo captulo.
Voltemos a considerar as taxas de alfabetizao de uma amostra de
municpios brasileiros. Para facilitar a construo do ramo-e-folhas vamos
usar, apenas, os dois algarismos mais relevantes, desprezando os algarismos
decimais.
Para cada valor, o primeiro algarismo colocado do lado esquerdo
do trao vertical, formando os ramos. O segundo algarismo colocado do
lado direito do trao formando asfolhas. Assim, o valor 57 fica representado
por 5 17 (veja a segunda linha da Figura 5.8a), o 76 por 7 16 (quarta linha),
e assim por diante. Na apresentao final de um ramo-e-folhas, devemos
tambm ordenar as folhas, como mostra a Figura 5.8b.
C a p tu Io 5 D a c o s q u a n t it a t iv o s 89

Pados com os dois algarismos mais relevantes.'


57 76 92 89 75 84 65 94 71 82
72 66 90 87 58 86 45 81 94 81
54 ' 67 69 95 77 57 91 64 85 81
59 68 73 95 88 83 64 64 95 84

a) b)

4 5 4 5
5 78479 5 47789
6 56794844 6 44456789
7 651273 7 123567
8 942761151834 8 111234456789
9 24045155 9 01244555
Figura 5.8 Construo de um ramo-e-folhas.

O leitor deve notar que, ao observar os dados num ramo-e-folhas,


v-se a forma da distribuio de freqncias, como se fosse um histograma
deitado (compare o ramo-e-folhas da Figura 5.8b com o histograma da
Figura 5.4).
No histograma, temos aliberdade de escolher a amplitude do intervalo
de classe; num ramo e folhas, tambm podemos dividir cada ramo em dois
ou cinco.6 Na Figura 5.9, os algarismos
4 5
{folhas) de 0 a 4 ficaram num ramo e os 5 4
algarismos de 5 a 9 no outro ramo. A uni 5 7789
dade indica como devem ser lidos os valo 6 444
res, Em nosso exemplo, temos a unidade 6 56789
7 123
iguala 1 (um), ou seja, os valores so lidos 7 567
naturalmente, emendando o ramo com a 8 1112344
folha. Por exemplo, 4 j 5 lido como 45. 8 56789
9 . 01244 Unfdade = 1
Na construo de um ramo-e-folhas, 9 555 4|5 = 45
a escolha dos algarismos mais relevantes Figara 5,9 Apresentao, em ramo-e-
depende do conjunto de dados em folhas, dos valores da taxa de alfabetizao,
anlise. Tomemos um novo exemplo, relativos a uma amostra aleatria de
onde trabalharemos com dois algarismos. municpios brasileiros, ano 2000.
Dados da populao residente dos municpios do Oeste Catarinense, 1986.
6.512 8.453 30.592 9.279 105.083 21.083 17.968 25.089 14.867
3.682 19.985 11.133 24.959 12.315 28-339 9.612 12.935 19.739
18.084 13.084 5.464 30.377 26.966 9.094 11.943 21.234 44.183
17.189 9-709 8.713 16.127 3.163 33-245 27.291
Fonte: IBGE.

6 Em cada ramo, podemos ter at dez algarismos diferentes. Ento, dividindo-se por dois ou
cinco, temos a mesma quantidade de algarismos possveis em cada ramo (cinco e dois,
respectivamente).
90 ESTATISTCA A p liC A C k s Q s n c a s S o c a s

Ao construir um ramo-e-folhas para estes dados, optamos por


desprezar os trs ltimos algarismos, transformando a unidade bsica
de habitantes para m habitantes (veja a Figura 5.10).
0 33
0 56889999
1 112234
1 677899
2 114
2 5678
3 003 Unidade =1.000
3 0 }3 = 3.000
4 4 Valor dscrepante: 10 [ 5

Figura 5.10 Apresentao, em ramo-e-folhas, da


populao residente nos municpios da?*
Microrregio Oeste Catarinense, 1986.

E x e r c c io s

8) Considerando os dados do anexo do Captulo 2, construa ura rarm-e-foihas


para os valores do desempenho do aluno no curso. Interprete,
9) Considerando os dados do anexo do Captulo 4, construa um ramo-e-folhas
para a renda familiar, em cada localidade. Interprete.

E x e r c c io s c o m p Ie m e n t a r e s

10) Foram anotados os tempos decorridos entre a incidncia de uma certa doena
sua cura, em 50 pacientes. Estes tempos so os seguintes, em horas:
21 44 27 323 99 90 20 66 39 16
47 96 127 74 82 92 69 43 33 12
41 84 02 61 35 74 02 83 03 13
41 10 24 24 80 87 40 14 82 58
16 35 114 12 0 67 37 126 31 56 04
Construa um histograma e comente sobre alguns aspectos relevantes desta
distribuio.
11) A tabela seguinte apresenta os salrios, em reais, dos fuiicionrios de duas
empresas.
Empresa A Empresa B
400 1 2 00 300 280 700 190 230 420 11 0 230 330 420
350 620 340 620 550 2100 380 520 190 310 620 380
480 720 310 620 1700 3200 1100 840 210 630 160 240
1800 1320 920 780 1100 510 160 190 200 230 990 355
720 830 400 2900 830 320 3500 230 120 290 340 720
130 190 980 320 1540 920 - -
420 380 590 1320 2720 3000

Faa uma descrio comparativa usando grficos apropriados.


I m d j d A S (J e SCRTVAS

os dois captulos anteriores, aprendemos a organizar dados em

N distribuies de freqncias, onde foi possvel visualizar como uma


varivel se distribui, em termos dos elementos observados. Neste captulo,
vamos usar outra estratgia, que pode ser usada de forma alternativa ou
complementar, para descrever e explorar dados quantitativos.
Quando a varivel em estudo quantitativa, podemos resumir certas
informaes dos dados (valores) por algumas medidas descritivas. Por
exemplo, para se conhecer o peso tpico de recm-nascidos numa
comunidade, podemos calcular a mdiaou a medianados pesos dos recm-
nascidos nessa comunidade. Para se ter idia da magnitude de variao do
peso dessas crianas, podemos calcular o chamado desvio padro. Em
suma, neste captulo vamos aprender a calcular e interpretar certas medidas
que descrevem informaes especficas de um conjunto de valores.
Primeiramente, consideraremos a mdia e o desvio padro, que so
as medidas mais usadas para estudar a posio central e a disperso. Na
Seo 6.3 introduziremos algumas medidas alternativas.

6.1 MdiA E dESViO pAd.RO

MdiA ARV1TCA

O conceito de mdia aritmtica, ou simplesmente mdia bastante


familiar. Matematicamente, podemos defini-la como a soma dos valores
dividida pelo nmero de valores observados. Por exemplo, dada a nota
92 E s t a t s t i c a ApUcAcA s C i n c i a s S o c A ir ,

final dos oito alunos de uma turma (4, 5, 5, 6 , 6 , 7, 7 e 8), podemos


calcular a mdia aritmtica por:
4 + 5 + 5'+6 + 6 + 7 + 7 + 8 ~
-------------- --------- = 6

De modo geral, dado um conjunto de n valores de uma certa varivel


X, podemos definir a mdia aritmtica por:

* - 2n
onde YX representa a soma dos valores da varivel X. Em geral, a mdia,
aritmtica bastante informativa. Se, por exemplo, na primeira avaliao
de uma disciplina, a mdia das notas dos alunos foi igual a 7,0, e na.
segunda avaliao foi igual a 9,0, podemos dizer qu, em geral, os alunos
tiveram melhor aproveitamento na segunda avaliao, mesmo sem nos
referirmos s notas de cada aluno individualmente. Mas devemos sempre
ter em mente que a mdia um resumo dos dados e, por isso, pode
esconder informaes relevantes.

Exempio 6 .1 Vamos considerar a comparao de trs turmas de estudantes


em termos de suas notas (veja a Tabela 6.1 e Figura 6.1).

Tabela 6 .1 Notas finais de trs turmas de estudantes e as respectivas


mdias.
Turma Notas dos alunos Mdia da turma
A 4 5 5 6 6 7 7 8 6,00
B x .2 4 6
?
6 9 10 10 6,00
C 0 6 7 7 7,5 7,5 6,00

n o ta s

Figura 6.X Representao das distribuies das notasde trs' turmas e as


correspondentes posies das mdias aritmticas.
C a p t u Io 6 - M edidf descRiTivAs 95

Observando a Figura 6.1, percebemos que em cada diagrama de


pontos a mdia aritmtica representa, num certo sentido, a posio central
dos valores. Mais especificamente, podemos dizer que a mdia aritmtica
indica o centro de um conjunto de valores, considerando o conceito fsico
de ponto de equilbrio ou centro de gravidade. Se imaginarmos os pontos
como pesos: sobre uma tbua, a mdia a posio em que um suporte
equilibraria a tbua.

A mdia aritmtica resume o conjunto de dados em termos de uma posio central ou


valor tpfco, mas, emgeral, no fomece informao sobre outros aspectos da distribuio.

Observamos, na Figura 6 .1, que os trs conjuntos de valores, apesar


de estarem distribudos sob diferentes formas, apontam para uma mesma
mdia. Comparando as notas da Turma A com as notas da Turma B,
verificamos que as notas da Turma B so bem mais dispersas, indicando
que essa turma mais heterognea. Na Turma C, observamos um ponto
discrepante dos demais, uma nota extremamente baixa. Com isso, a mdia
fica abaixo da maioria das notas da turma.1
Para melhorar o resumo dos dados, podemos apresentar, ao lado
da mdia aritmtica, uma medida de disperso, como a varincia ou o
desvio padro. WwO U rb; A
V' f ~
YkS^sAJ-Sj i-.Oicj .iTvS,/-}!^
A varnca E 0 dESVO pAdRO ^ c^ ;
X -x
Tanto a varincia quanto o desvio padro so medidas que fornecem
informaes complementares informao da mdia aritmtica. Estas
medidas avaliam a disperso do conjunto de valores em anlise. Para
calcularmos a varincia ou o desvio padro, devemos considerar os desvios
de cada valor em relao mdia aritmtica. Depois, construmos uma
espcie de mdia desses desvios. Ilustramos, a seguir, as etapas de clculo,
usando as notas da Turma A.
Descrio__________________ notao resultados numricos
Valores {notas dos alunos) X 4 5 5 6 6 7 7 8
M dia x 6
Desvios X~X -2-1-10 0 1 1 2
Desvios quadrticos (x - x )2 4 1 1 0 0 1 1 4 >
_________________ _ '*
1 Podemos observar no diagrama de pontos referente Turma C que a presena de um valor
discrepante arrasta a mdia para o seu lado. Assim, a mdia deixa de representar
propriamente um valor tpico do conjunto de dados. Um tratamento mais adequado para
dados que contenham valores discrepantes ser visto na Seo 6.3.
94 ESTATSTiCA A p liC A d ft S O n c a s S o e i A is

Para evitar o problema dos desvios negativos, vamos trabalhar com


os desvios quadrticos, (x - x f . A varincia definida como a mdia
aritmtica dos desvios quadrticos. Por convenincia, vamos calcular esta
mdia, usando como denominador n - 1 no lugar de n . 2 Assim, definimos
a varincia de um confunto de valores pela expresso:

n- 1
onde 1>{x - x ) a soma dos desvios quadrticos. Em relao ao conjunto
de notas da Turma A, a varincia
c 2 4 +1 +1 +0 +0 +1 +1 +4 1ry-1
8-1
Como a varincia de um conjunto de dados ^calculada em funo
dos desvios quadrticos, sua unidade de medida eqivale unidade de
medida dos dados ao quadrado. Nesse contexto, mais comum se
trabalhar com a raiz quadrada positiva da varincia. Esta medida
conhecida como desvio padro, o qual expresso na mesma unidade de
medida dos dados em anlise. Ento, o desvio padro de um conjunto de
valores pode ser calculado por:

V n -1
Em termos do conjunto de notas da Turma A, temos o seguinte
desvio padro: S = -1,31.
Ao compararmos os desvios padres de vrios conjuntos de dados,
podemos avaliar quais dados se distribuem de forma mais (ou menos)
dispersa. O desvio padro ser sempre no negativo e ser to maior
quanto mais dispersos forem os valores em anlise. A Tabela 6.2 mostra
o desvio padro das notas de cada uma das trs turmas de alunos,
referente aos dados do Exemplo 6.1.

Tabela .2 Medidas descritivas das notas finais dos alunos de trs turmas.
Turma [ Nmero de alunos j Mdia ________Desvio padro
A 8 6,00 1,31
B 8 6,00 3,51
C 7 6,00 2,69

Muitos autores costumam diferenciar a frmula da varincia quando os dados se referem


a uma populao ou a uma amostra. Quando os dados representam uma populao de N
elementos, a varincia definida com o denominador N. Quando os dados se referem a
uma amostra de n elementos devemos usar o denominador n - 1. Por simplicidade, vamos
considerar sempre o segundo caso.
C A p i u l o 6 M e d id A s d e s c R iiiv A s 95

Ao analisarmos a Tabela 6.2, verificamos, atravs das mdias, que


os alunos das trs turmas tenderam a ter as notas em tomo de seis, mas,
pelos desvios padres, conclumos que os alunos da Turma A obtiveram
notas relativamente prximas umas das outras, quando comparados aos
alunos das outras turmas. Por outro lado, as notas dos alunos da Turma
B foram as que se apresentaram mais heterogneas.3

O desvio padro fomece informao sobre a disperso (varincia ou heterogeneidade)


dos valores.

E x e r c c o s

1} Faa os clculos dos desvios padres das notas dos alunos das turmas B e C
(Tabela 6.1). Verifique se os resultados conferem com os apresentados na
Tabela 6.2.
2) Admita que todos os alunos de uma Turma D obtiveram notas iguais a sete.
Qual o valor da mdia aritmtica? E qual o valor do desvio padro?
3) A tabela seguinte mostra os resultados dos clculos das mdias e desvios
padres das taxas de crescimento demogrfico dos municpios de duas
microrregies catarinenses. Quais as concluses que voc pode tirar desta
tabela?
Medidas descritivas das taxas de crescimento demogrfico de
duas microrregies de Santa Catarina, 1970-80.
Na de Desvio
Microrregio Mdia
municpios padro
Serrana 12 -0,36 0,67
Litoral de taja 8 3.55 2.47

6.2 Frmuas para o clcub dE X e 5

Ao calcular o desvio padro nos casos em que a mdia, X, acusar


um valor fracionrio, os desvios, X - X , acumularo erros de
arredondamento, que podero comprometer o resultado final. Para evitar
este inconveniente, podemos usar a seguinte frmula para o clculo do

3 Observe, pela Figura 6.1, que as notas da turma C esto mais concentradas do que as da
turma A. Porm, o valor discrepante, alm de deslocar a mdia, aumenta o desvio padro.
Se o valor discrepante fosse desconsiderado, o desvio padro das notas da turma C seria
o menor de todos - a mdia seria 7 e o desvio padro 0,55.
96 ESTATSTJCA A p liC A d A s C n c a s S o c a s

desvio padro, que matematicamente equivalente quela apresentada


no tpico anterior:
| ]Tx2 -n X 2
s=i .
onde: X x 2 a soma dos valores quadrticos;
X 2 a mdia elevada ao quadrado; e
n o nmero de valores.
Ilustraremos o uso desta nova formulao com as notas obtidas
pelos alunos da Turma A (Exemplo 6 .1).

Valores (notas) X: 4 5 5 6 6 7 7 8 (Z x = 4 8 e X = 6 )
Valores ao quadrado X2: 16 25 25 36 36 49 49 64 (2,X 2= 300)
Assim,
0 1300~8(6 )2 1300-288 [2 , ot
V 7 y ~~7 ~ T '
Como era de se esperar, chegamos ao mesmo resultado encontrado
anteriormente.

P O N d E R A N d p EA S Fr EQ EN C A S

Outro aspecto relativo ao clculo da mdia e do desvio padro refere-


se soma de valores repetidos. Por exemplo, ao calcularmos a mdia das
notas da Turma A, fizemos a seguinte soma:

X x = 4 + 5 + 5 + 6 -f- 6 + 7 + 7 + 8 ,
que equivalente a: 4 x l + 5 x2 + 6 x 2 + 7 x 2 + 8 x l = ^ T (X -/ )
onde consideramos apenas os valores distintos de X e ponderamos pelas
respectivas freqncias, f. Analogamente, podemos calcular a soma
quadrtica dos valores de X por

(x2 / ) = 42 + 52 x 2 + 6 2 x 2 + 72 x 2 + 82 =

Com esta nova notao, as formulaes de mdia e desvio padro


so apresentadas a seguir.

i.Z L !' e S .J
n V n- 1
Captulo 6 - M ed id A s descRirivAS 97

A Tabela 6.3 mostra a seqncia de clculos para a obteno da


mdia e do desvio padro, usando as notas finais dos alunos da Turma A.

Tabela 6.3 Clculos auxiliares para a obteno de X e S.


NotaX X,
4 1 4 16
5 2 10 50
6 2 12 72
7 2 14 98
8 I 8 64
Total 8 48 300

48 s = j3 0 0 ^ ; .(6 T =1,31
Assim, X = = 6
8
Os clculos usando as freqncias facilitam bastante quando
existirem muitas repeties de valores.

Daos qRupAdos em cIasses

Quando os dados esto grupados em classes, os clculos de X e S


somente podero ser feitos de forma aproximada, usando o ponto mdio
de cada classe para representar os valores que ocorreram nessa classe
(veja Exemplo 6 .2).4

ExEMplo 6 .2 Clculo aproximado de X e S dos valores da taxa de


alfabetizao, relativos a uma amostra aleatria de municpios brasileiros,
ano 2 0 0 0 . ;

Classes da taxa de Ponto Freqncia


alfabetizao mdio X de municpios/ X*-f
40 | 50 45 1 45 2.025
50 j 60 55 5 275 15.125
60 | 70 65 8 520 33.800
70 1 80 75 6 450 33.750
80 | 90 85 12 1.020 86.700
90 100 95 8 760 72.200
Total _ 40 3.070 243.600

* Ao buscarmos dados em fontes secundrias, multas jaezes j os encontramos grupados


em distribuies de freqncias, donde os clculos de X e S somente podero ser feitos de
forma aproximada.
98 s t a t s t c a A p lic A d A s C n c a s S o c a s

Donde:5
= a 0 70 = 75 j 2 4 3 .6 0 0 - ( 4 0 ) .( ^ f
40 V - n -1

MdiA pONdERAdA .

O clculo da mdia e do desvio padro com ponderao pela


freqncia um caso particular de mdia e desvio padro ponderados.
Em geral, a ponderao feita sempre que precisamos dar mais
importncia a um caso do que a outro. Por exemplo, a mdia aritmtica
simples dos valores do ndice de Desenvolvimento Humano (IDH) dos
municpios da Microrregio da Grande Florianpolis, embora seja um
valor central do IDH desses municpios, no corresponde ao IDH da
Microrregio, porque temos municpios mais importantes (mais populosos)
que outros. Para se ter o IDH da Grande Florianpolis, precismos
ponderar pela populao do municpio, como segue:

Municpio Populao p IDH X Xp


Antnio Carlos 6.434 0,83 5.320,9
Biguau 48.077 0,82 39.327,0
Florianpolis 342.315 0,88 299.525,6
Governador Celso Ramos 11.598 0,79 9.162,4
Palhoa 102.742 0,82 83.837,5
Paulo Lopes 5.924 0,76 4.496,3
Santo Amaro da Imperatriz 15.708 0,84 13.241,8
So Jos , 173.559 0,85 14.7351,6
So Pedro de Alcntara 3.584 0,80 2.849,3
Soma 709.941 7,37 605.112,5

_ > X 7 37
Mdia simples: X = = = 0,82
n 9

y Z ( X ' P) 605.112,5
Mdia ponderada: ^ p y* ~~ 7 0 9 9 4 1

5 Se tivssemos feito os clculos diretamente com os 40 valores da taxa de alfabetizao (ver


captulo anterior), encontraramos X = 76,89 e S - 13,41.
C a p t u o 6 - M e d id a s d e s c R itiv A S 99

Exer c c io s

4) Dado o seguinte conjunto de dados: {7, 8, 6, 10, 5, 9, 4, 12, 7, 8}, calcule;


a) a mdia e
b) o desvio padro.
5) Calcule a mdia e o desvio padro da seguinte distribuio de freqncias:
Distribuio de freqncias do tamanho da famlia, numa amostra de 40
famlias do Conjunto Residencial Monte Verde, Florianpolis, SC, 1988.
Tamanho da famlia Freqncia de famlias Percentagem de famlias
1 1 2,5
2 3 7.5
3 6 15,0
4 13 32,5
5 11 27,5
6 4 10.0
7 0 0,0
8 2 5,0

6) Faa um histograma para a distribuio de freqncias da Tabela 6.4 e indique


o valor da mdia aritmtica no grfico.
7) Considerando os dados do anexo do Captulo 2, obtenha a mdia e o desvio
padro dos valores do ndice de desempenho do aluno (item 5 do questionrio),
considerando:
a) os dados do anexo do Captulo 2 (clculo exato);
b) a tabela de distribuio de freqncias construda no Exerccio 5 do captulo
anterior, (clculo aproximado).
8) Sejam os dados do anexo do Captulo 2.
a) Calcule as mdias e os desvios padres das respostas dos itens 3(a) a 3(g)
do questionrio.
b) Apresente os resultados numa tabela.
c) Interprete, considerando os objetivos 1 e 3 da pesquisa (Seo 2.4,
Captulo 2).
9) Sejam os dados do anexo do Captulo 4.
a) Calcule a renda familiar mdia em cada uma das trs localidades.
b) Calcule o desvio padro da renda familiar em cada localidade.
c) Apresente esses resultados numa tabela.
d) O que voc pode concluir a partir desses resultados?

63 M ecM as bASEAdAS na orcI enao dos dAdos

A mdia e o desvio padro so as medids mais usadas para valiar


a posio central e a disperso de um conjunto de valores. Contudo,
essas medidas so fortemente influenciadas por valores discrepantes. Por
100 E s t a t s t ic a a p I c a c J a s C i n c ia s S o c a s

exemplo, nas notas da Turma C (Exemplo 6 .1), o valor discrepante 0 (zero)


puxa a mdia para baixo, como ilustra a Figura 6.2. Apesar de a mdia
aritmtica ser 6 (seis), o diagrama de pontos sugere que o valor 7 (sete)
seja um valor mais tpico para representar as notas da turma, pois, alm
de ser o valor mais freqente, ele o valor do meio, deixando metade das
notas abaixo dele e metade acima.
valor
discrepante

0 1 2 3 4 5 6 7 8
notas |
mdia
Figura 6.2 A influncia de um valor discrepante no clailo da mdia
aritmtica.

Nesta seo apresentaremos algumas medidas que so menos


afetadas por valores discrepantes e, em conseqncia, so mais
recomendadas para a anlise de dados que possam conter valores
discrepantes.

M(jANA

A mediana avalia o centro de um conjunto de valores, sob o critrio de


ser o valor que divide a distribuio ao meio, deixando os 50% menores
valores de um lado e os 50% maiores valores do outro lado. Por exemplo, o
conjunto de valores {2, 3, 4, 5, 8 } tem como mediana o valor 4 (quatro),
porque a quantidade de valores com magnitude inferior a 4 a mesma do
que a quantidade de valores com magnitude superior a 4. Mais precisamente:

Dado um conjunto de n valores, definimos mediana como o valor, Md, que ocupa a
posio , considerando os dados ordenados crescente ou decrescentemente. Se
for fracionrio, toma-se como mediana a mdia dos dois valores de posies mais
prximas a .

a) Conjunto de notas da Turma C: (0; 6 ; 7; 7; ,7; 7,5 7,5}


n +1
posio: .. 2 ~ 4 Md= 7.
C A p r u lo 6 - M e d id A s d e s c R ir iv A s 101

b) {5, 3, 2, 8 , 4} ri + 1
Ordenando: 2, 3, 4, 5, 8 posio: = 3 Md= 4.
n+1 6+7
c) {3, 5 ,6j_7,10,11} posio: = 3,5 (3ae 4a) ^ Md= - 6,5
J* 2j

Comparao entre MdiA ivindiANA

A Figura 6.3 mostra os valores da mdia e da mediana num diagrama


de pontos. Note que o valor discrepante 62 puxa mais a mdia do que a
mediana.

5 0 % dos valores . . j. . . 5 0 % dos valores

I o p 8 o c [ijb l S d lj b l i j |________ ^ _____ I

0 10 204^ 30 40 50 60 70
Md = 22,o =24,7
Figura 6.3 Posio da mdia e da mediana no diagrama de pontos das taxas de
mortalidade infantil dos municpios da Microrregio Oeste de Santa Catarina, 1982.

A Figura 6.4 mostra as posies da mdia e da mediana em


distribuies com diferentes formas: uma simtrica e outra assimtrica.
No primeiro caso, a mdia e a mediana so iguias. Em distribuies
assimtricas, a mdia tende a se deslocar para o lado da cauda mais longa.

Figura 6.4 Posies da mdia e mediana, segundo a forma (simtrica ou assimtrica) da


distribuio.

Em geral, dado um conjunto de valores, a mdia a medida de


posio central mais adequada, quando se slipe qu stes valores tenham
uma distribuio razoavelmente simtrica, enquanto que a mediana surge
como uma alternativa para representar a posio central em distribuies
102 E s t a t s t ic a a p I ic a c I a s C n c a s S o c a s

muito assimtricas.6 Muitas vezes, calculam-se ambas as medidas para


avaliar aposio central sob dois enfoques diferentes, como tambm para
se ter uma primeira avaliao sobre a assimetria da distribuio.

Q uARTS E EXTREMOS

Na maioria dos casos prticos, o pesquisador tem interesse em


conhecer outros aspectos relativos ao conjunto de valores, alm de um
valor central, ou valor tpico. Algumas informaes relevantes podem ser
obtidas atravs do conjunto de medidas: mediana, extremos e quartis,
como veremos a seguir.
Chamamos de extremo inferior, Er ao menor valor dos dados em
anlise. De extremo superior, E$, ao maior valor. Ppr exemplo, dado o
conjunto de valores {5, 3, 6 , 11, 7}, temos Ef = 3 e s = 11.
Chamamos de primeiro quart ou quartil inferior, Qv ao valor que
delimita os 25% menores valores. De terceiro quartil ou quartil superior,
Qs, o valor que separa os 25% maiores valores. O segundo quartil, ou
quartil do meio, a prpria mediana, que separa os 50% menores dos
50% maiores valores. Veja a Figura 6.5.

Figura 6.5 Os quartis dividem a distribuio em quatro partes iguais.

Dado um conjunto de valores ordenados, podemos obter, de forma


aproximada, o quartil inferior, Qs, como a mediana dos valores de posies
menores ou iguais posio da mediana. A mediana dos valores de
posies maiores ou iguais posio da mediana corresponde ao quartil

6 Mesmo para variveis que supostamente tenham distribuies razoavelmente simtricas,


a mdia e a mediana podem no se igualar, porque, em geral, estamos observando apenas
alguns valores-(amostras} dessas variveis. Para varivei'S'com distribuies razoavelmente
., simtricas, a mdia a medida de posio central mais adequada, porque usa o mximo
de informaes dos dados. mdia calculada usando a magnitude dos valores, enquanto
a mediana utiliza somente a ordenao dos valores.
C a p t u Io 6 M e d id a s c I e s c r t v a s
10 ?

superior, Qs.7 Se a mediana coincidir com um valor do conjunto de valores,


vamos convencionar em consider-la tanto no cmputo de Q{como de Q .

ExEM ploS:

a) Dados: 2 , 0, 5, 7, 9, 1, 3, 4, 6 , 8 .

r -A - _x_
Ordenando: 0 1 2 3 4 5 6 7 8 9

/ I \
Qf= 2 Ma = 4,5 | Qs=7

b) Dados.(j ordenados): 2 3 4 4 5 5 5 7 8 9 10

Q;= 4 / \ 0s= 7,5


Md - 5

ExEfVplo 63 Obteno da mediana num ramo-e-folhas: valores referentes


s taxas de alfabetizao de quarenta municpios brasileiros, ano 200 0.8

(D 4 5 .
(2) 5 4
(6 ) 5 7789
(9) 6 444
(14) 6 56789
(17) 7 123
(2 0 ) 7 567
(2 0 ) 8 1I 12344
(13) 8 56789
(8 ) 9 01244 Unidade = 1
(3) 9 555 4 j 5 = 45

71 + 1 77+81
ri = 40 -y posio: = = 79.

7 Dado um.conjunto de valores, nem sempre conseguimos dividi-lo exatamente em quatro


partes iguais. O procedimento exposto oferece uma soluo aproximada, mas bastante
satisfatria quando a quantidade de valores for grande e com poucas repeties.
8 No ramo-e-folhas, construdo na seo 5.-7, inclumos uma coluna esquerda com as
freqncias acumuladas. Essas freqncias foram acumuladas das extremidades at o
centro (mediana) da distribuio, o que facilita a contagem das freqncias para a obteno
da mediana e quartis.
10 4 E s t a t s t ic a a p I c a c J a s C i n c ia s S o c a s

Para os quartis: n = 20 posio 10,5 (10a e 11a). Da:

Q,= 65,5 e g s = 87,5.

Podemos considerar o valor M= 79 como o valor tpico das taxas de


alfabetizao dos quarenta municpios em estudo, pois metade dos
municpios acusa taxa de alfabetizao inferior a 79 e a outra metade
tem nveis mais elevados de alfabetizao. Com os quartis, podemos dizer
que os 50% dos municpios mais tpicos, em termos de alfabetizao,
acusam taxas variando de 65,5 a 87,5. Podemos dizer, tambm, que 25%
desses municpios tm taxas de alfabetizao no superiores a 65,5;
enquanto 25% de municpios tm taxas iguais ou superiores a 87,5.
m

Esquema <Je cnco nmeros

O esquema de cinco nmeros uma forma de apresentao da


mediana, quartis e extremos, como mostramos ao lado. Atravs desses
cinco nmeros podemos ter informaes sobre n - 40
a posio central, disperso e assimetria da ^
distribuio de freqncias, como ilustra a
Figura 6 .6 . Q
E

25% 25%

Ei Q i Ma Qs Es

<^ <r
Figura 6.6 Posies da mediana, quartis e extremos em distribuies diferentes quanto
disperso e assimetria.
C a p t u o 6 ~ M e d id A s d e s c R ir iv A S 105

O desvio entre quartis, dQ = Qs - Qr muitas vezes usado como


uma medida de disperso. Veja na Figura 6.6 que, quanto mais dispersa
a distribuio, maior ser o valor de dg. Em distribuies mais dispersas,
os valores dos quartis (e dos extremos) ficam mais distantes. Em
distribuies simtricas, a distncia entre o quartil inferior e a mediana
igual distncia entre a mediana e o quartil superior, enquanto que em
distribuies assimtricas isto no acontece.
Uma regra muitas vezes usada para detectar valores discrepantes
verificar se existe algum valor do conjunto de dados que se afasta mais
do que (1,5}-dg do quartil superior (ou inferior). No Exemplo 6.3, temos:

= 87,5 - 65,5 = 22
Q}~ (l,5) ds = 65,5 - (1,5) (22) = 32,5
Qs + (l,5)-dg = 87,5 + (1,5)(22) = 120,5

Como nenhum valor est fora do intervalo [32,5; 120,5], no temos


valor suspeito de ser discrepante.

ExEMpfo 6 .4 Com o objetivo de comparar as distribuies da renda familiar


em duas localidades, construmos um ramo-e-folhas e um esquema de
cinco nmeros para cada localidade, como mostramos a seguir. Os dados
fazem parte do anexo do Captulo 4.

Renda familiar mensal em quantidade de salrios mnimos


Conj. Res. Monte Verde Encosta do Mono
l 1 0 19
2 1446 1 38
3 9 2 123367889
4 168 3 599999
5 11588 4 224569
6 8 Unidade = 0,1 5 188
7 12577 1i 1 = 1,1 6 4
8 4469 7 19
9 6 Discrepantes: Discrepantes:
10 3349 18 j 6 e 19 j 3 1111, 1114, 13(9 e 2517
11
12 25999 n - 40 n= 37
13 7,7 M. 3,9:
14 Q 4,95 10,35: Q 2,7 5,1
15 4 E 1,1 19,3 E 0,1 25,7
10 6 EsTATSTCA A p liC A d A S CiiNCAS SOCIAIS

Notamos, inicialmente, que o nvel de renda no Conjunto Residencial


Monte Verde (mediana de 7,7 salrios mnimos) maior do que na Encosta
do Morro (mediana de 3,9 salrios mnimos). No Monte Verde, 50% das
famlias mais tpicas, em termos de renda, esto na faixa de 4,95 a 10,35
salrios mnimos mensais; j na Encosta do Morro, as rendas familiares
esto na faixa de 2,7 a 5,1 salrios mnimos mensais.
A distribuio de renda na Encosta do Morro mais concentrada
em tomo de um valor tpico. Esta caracterstica pode ser observada pelo
desvio entre os quartis, dg, que menor na Encosta do Morro do que no
Monte Verde. O desvio entre extremos maior na Encostado Morro, mas
tal desvio deve ser observado com cautela, pois em ambas as distribuies
os extremos superiores so valores discrepantes em relao maioria
dos outros valores.
As duas distribuies so razoavelmente simtricas, quando
observadas prximas de suas medianas, pois, em ambas as distribuies,
as distncias entre Qse Md so prximas das distncias entre M e Q.
Contudo, fora do intervalo entre os quartis temos uma cauda mais longa
do lado direito, mostrando que existem algumas poucas famlias com
renda relativamente alta em relao ao tpico destas localidades. O valor
0,1 salrios mnimos, que aparece no extremo inferior .da distribuio da
Encosta do Morro, apesar de no ser um valor discrepante em termos
estatsticos, um valor estranho de renda familiar. Provavelmente tenha
sido coletado erroneamente e deveria passar por uma verificao.

DAqRAMA EM CAIXAS

Uma m aneira de apresentar aspectos relevantes de uma


distribuio de freqncias atravs do chamado diagrama em caixas
ou desenho esquemtico. Traamos dois retngulos: um representando
o espao entre o quartil inferior e a mediana, e o outro entre a mediana
e o quartil superior. Esses retngulos, em conjunto, representam a faixa
dos 50% dos valores mais tpicos da distribuio. Entre os quartis e os
extremos traamos uxnaJioha. Caso existam valores discrepantes
(valores inferiores a(o, - 1,5-d^ou superiores a (g s"TT^5*c^, a linha
traada at o ltimo valoi^nt discrepante; e os valOfes~Biscrepantes
so indicados por pontos (veja a Figura 6.7).
CApTulo 6 - M e d id A s descRiiivAS 10 7

A Figura 6.8 mostra a forma do diagrama A


Es
em caixas para uma distribuio simtrica e
para uma distribuio assimtrica. Note as A
diferenas e imagine como ficaria um diagrama
em caixas se tivssemos uma distribuio mais (1.5)d9
dispersa. -
Qs
A Figura 6.9 apresenta os diagramas em
caixas das duas distribuies de renda do dg Md
Exemplo 6.4. Compare esta representao com V Qi
os ramos-e-folhas vistos anteriormente.
Ei

Figura 6.7 Esquema para cons


truo de um diagrama em

Figura 6.8 Diagrama em caixas e a forma da distribuio.

Renda

famriiar

(sal. mn.)

Monte Encosta
Verde do Morro

Figura 6.9 Representao em diagramas em caixas das distribuies


de renda do Exemplo 6.4.
10 8 E s t a t s t ic a A p liC A d A s C n c a s S o c a s

Uso do C0IVipUTAd0R

Em geral, nos pacotes computacionais de estatstica, ou mesmo em


planilhas eletrnicas, bastante simples obter um conjunto de medidas
descritivas dos valores de uma varivel quantitativa. A Figura 6.10 apresenta
medidas descritivas da rend, em salrios mnimos, de uma amostra de
famlias de um bairro de Florianpolis (anexo do Captulo 4). As medidas
descritivas foram obtidas atravs da planilha eletrnica Excel. Ao lado
apresentado o histograma de freqncias para facilitar a interpretao.9

R e n d a

M d ia 6 .3 4

E rro p a d r o 0 ,3 7
M e iia n a 5 ,4 0
M o d a 3 .9 0
D e s v io p a d r o 4 ,0 3

V a ri n c ia d a a m o s tra 1 6 ,2 6
C u rto s e 4 .5 5
A s s im e t ria 1 ,7 1
In te rv a lo 2 5 ,6 0
M n im o 0,10 Ronda(salriosmfrmosj
M x im o 2 5 ,7 0

S om a 7 5 4 ,5 0
C o n ta g e m 119

Figura 6.10 Medidas descritivas calculadas com o auxlio do Excel e um histograma


feito com apoio do SW/S7TCA.

Em termos de posio central, temos a mdia, a mediana e a moda.


Esta ltima medida apresenta o valor mais freqente do conjunto de dados.
O fato de a mdia apresentar um valor maior que a mediana e a moda,
sugere uma distribuio assimtrica, com cauda mais longa para o lado
direito, o que confirmado pelo grfico. Alis, na lista de medidas, aparece
o chamado coejiciente de assimetria, com valor igual a 1,73. Em distribuies
simtricas esse coeficiente se aproxima de zero. Coeficiente de assimetria
positivo (especialmente quando superior unidade) indica cauda mais
longa para o lado direito. Por outro lado, quando negativo (especialmente
quando inferior a -1), indica cauda mais longa para o lado esquerdo.
A medida erro padro ser apresentada no Captulo 9. A curtose
pouco usada e, por isso, no ser discutida neste texto. O intervalo ou
amplitude outra medida de disperso, definida como a distncia entre
os dois valores extremos; e a contagem o nmero (n) de valores usados
no clculo das medidas descritivas.

9 Sobre o uso do Excel, ver Excel.doc em www.inf.nfsc.br /-barbetta /livra 1.htm. O histograma
foi construdo com o apoio do STATJSTICAVer wwvv.statsoftcom.br.
O p T u l o 6 M e d i d a s d e s c R iiiv A s 109

6 .4 O r ENTAO PARA ANiiSE EXpiORATRA dE dAdos

Na anlise exploratria de grandes conjuntos de dados, comum,


inicialmente, construirmos uma distribuio de freqncias para cada
varivel, verificando os valores ou categorias tpicas, possveis casos
discrepantes, etc. a descrio ou caracterizao dos dados em estudo.
Lembramos que a construo da distribuio e a representao grfica
dependem do tipo de varivel em estudo, em termos d nvel de
mensurao (ver Figuras 6.11).
Numa fase seguinte, comum buscarmos possveis relaes
(associaes ou correlaes) entre as variveis em estudo. Os procedi
mentos tambm dependem do tipo das varivis (ver Figura 6.12).

pfoj Tabei"

S*j Histograma |

fe| Ramo-e-foihas

Medidas descritivas
^ (mdia, desvio padro,
mediana, etc.)

Figura 6.11 Esquema para anlise de cada varivel individualmente.

Medidas descritivas da
varivel quantitativa erri cada
Uma varivel quantitativa categoria da qalitativa
e outra qualitativa [
Diagrama em caixas mltiplas
Anlise
bivariada
Duas variveis
qualitativas

Duas variveis
P j
Tabeia de contingncia

Diagrama de disperso (cap. 13)


quantitativas
Coeficiente de con-elao (c^p.13)

Figara 6.12 Esquema para anlise entre pares de variveis.

E x e r c c o s

10) Calcule a m ediana e os quartis dos seguintes dados:


a) {15, 9, 7, 20, 18, 19, 23, 32,14, 10, 11}
b) (15, 9, 7, 20, 18, 19, 23, 32,14, 10, 11, 16}
110 ESTATSTCA A p iC A d A s C n c a s S o c a s

11} Obtenha a mediana e os quartis da distribuio de freqncias do Exerccio 5


(Seo 6.2).
12) Considere o anexo do Captulo 2:
a) Obtenha a mediana, os quartis e os extremos dos valores do ndice de
desempenho do aluno (item 5 do questionrio) e interprete. Sugesto:
apresente, inicialmente, os dados num ramo-e-folhas. :
b) Comparando o valor da mediana com o valor que voc obteve para a mdia
aritmtica no'Exerccio 7 (igual a 2,3X1), o que voc diria sobre a simetria
da distribuio desses valores?
13) A tabela abaixo mostra a distribuio de freqncias do nmero de filhos dos
pais de alunos da UFSC, considerando uma amostra de 212 estudantes,
entrevistados pelos alunos do Curso de Cincias Sociais, UFSC, 1990. Obtenha
os extremos, a mediana e os quartis.
N 2 de filhos 1 2 3 4 5 6 7 8 9 10 11 12

freqncia 10 45 32 50 23 23 9 7 6 2 3 2

14) A tabela seguinte composta de medidas descritivas, calculadas a partir de


quatro conjuntos de valores, oriundos de uma amostra de 212 estudantes da
UFSC. Os estudantes foram indagados acerca do nmero de filhos que
planejam ter, do nmero de filhos de seus pais, do nmero de filhos de seus
avs matemos e do nmero de filhos de seus avs paternos.
Medidas nmero de filhos
descritivas dos avs dos avs
planejados dos pais
matemos paternos
mdia 2,06 4,53 6,35 6,15
desvio padro 1,26 2,29 3,21 3,12
extremo inferior 0 1 1 1
quartil inferior 1 2 4 4
mediana 2 4 6 6
quartil superior 2 5 8 8
extremo superior 12 12 18 16
Faa uma redao comparando os quatro conjuntos de valores, tomando por
base as medidas descritivas apresentadas na tabela.
15) A figura seguinte apresenta cinco distribuies de freqncias representadas
por diagramas em caixas. So dados de presso intra-ocular de uma amostra
de 243 indivduos, divididos em cinco grupos, segundo a condio clnica da
doena glaucoma. Descreva as principais informaes oriundas desta anlise.
C a p t u o 6 M e d ic iA s cIe s c r t v a s

E x e r c c io s c o m p Ie m e n t a r e s

16} No Exemplo 6.2, calculamos a mdia aritmtica da taxa de alfabetizao de uma


amostra de municpios brasileiros. Se esses municpios fossem os municpios
de uma Unidade da Federao, o valor da mdia (76,75) poderia ser interpretado
como a taxa de alfabetizao, dessa Unidade da Federao? Explique.
17} O grfico seguinte foi construdo com o auxlio da planilha Excel, a partir dos
dados do anexo do Captulo 4. Interprete.
Renda mdia das fam lias usurias e no usurias de
programas cie alim entao popular, por localidade

E n co sta d o M o n t e V e rd e P q . d a F ig u e ira
M o rro

18) Com o objetivo de comparar a distribuio da renda familiar em duas cidades,


levantou-se a renda familiar de cada populao e calcularam-se algumas
medidas descritivas, apresentadas na tabela abaixo.
Medidas descritivas da renda familiar, em quantidade de salrios mnimos,
em duas cidades.
desvio quartil quartil
Cidade mdia mediana
padro inferior superior
A 4,8 3.2 3,4 4,9 6,5
B 4.9 6,2 3,0 _____3,8____ 9.0

Descreva um texto observando as principais informaes verificadas nos dados


da tabela.
19} Os dados abaixo apresentam a distncia (em km) entre a residncia e o local
de trabalho dos funcionrios da empresa AAA.
1,8 2,5 0,4 1,9 4,4 2 ,2 3,5 0 .2 0,9 1,4
1,1 1,7 1,2 2,3 1,9 0 ,8 1,5 1,7 1,4 2,1
3,2 15,1 2,1 1,4 0,5 0,9 1.7 0,5 0 ,8 3,7
1,4 1,8 2 ,0 1,1 1,0 0 ,8

a) Apresente esses dados em ramo-e-folhas.


b) Na empresa BBB, a distncia (em km) at a residncia dos seus 300
funcionrios apresenta as seguintes medidas descritivas:
Mediana = 2,8 Quartil inferior = 1,6 Quartil superior = 4,2
Extremo inferior = 0,4 Extremo superior = 8 ,8
Quais as principais diferenas entre as empresas AAA e BBB em termos
da distncia entre a residncia e o local de trabalho dos funcionrios?
112 ESTATSTCA A p liC A d A S C i N C iA S S O C IA IS

20) Apresentamos, abaixo, algumas medidas descritivas da distribuio de


salrios, em R$, de trs empresas de um certo ramo.
desvio extremo quartil quartil extremo
Empresa mdia mediana
padro inferior inferior superior superior
A 300 100 100 200 302 400 510
B 400 180 100 250 398 550 720
C 420 350 100 230 300 650 10 .0 0 0

O que se pode dizer sobre a distribuio dos salrios nas trs empresas?
Quais as diferenas em termos da posio central, disperso e assimetria?
.21) Dada a tabela abaixo, compare os quatro departamentos da UFSC quanto
aos escores de identidade social com o departamento. Quanto maior o escore,
identidade social mais elevada.
Medidas descritivas do nvel identidade social com o departamento.
Tamanho Desvio
Depto Mdia Mediana
da amostra padro
Bng. Mecnica 40 46,9 47,0 2,1
Arquitetura 24 40,8 42,5 5,9
Psicologia 19 42,5 44,0 5,4
Histria 21 38,4 39,0 5,4
Fonte: Laboratrio de Psicologia Social (Depto de Psicologia/UFSC).
ocIe os dE pRobAbilidAdE

C o m o u sar m o c Ie Io s <Je pRobAbilidAdE p a r a e n t e ^ e r m e & o r o s

ENViENOS a Ie ATROS
o d E l o s p R O b A b ilS T iC O S

os captulos anteriores, procuramos entender uma varivel estudando


o comportamento de um conjunto de observaes (amostra). Desta
forma, estudamos a distribuio de freqncias do uso (sim ou no) de
programas de alimentao popular, com base numa amostra de famlias
da regio de interesse (Captulo 4). Nessa abordagem, predomina o raciocnio
indutivo: com base na organizao e descrio de dados observados,
procuramos fazer conjeturas sobre o universo (populao) em estudo.
Neste captulo, faremos o raciocnio de forma inversa, em que
procuraremos entender como podero ocorrer os resultados de uma
varivel, considerando certas suposies a respeito do problema em estudo
(raciocnio dedutivo). Exemplo: supondo que 60% das famlias do bairro
usam programas de alimentao popular, o que se pode deduzir sobre a
percentagem de famlias que usam esses programas, numa amostra
aleatria simples de dez famlias?
A resposta a esta indagao no um simples nmero, pois,
dependendo das dez famlias selecionadas na amostra, teremos resultados
diferentes. Para responder adequadamente, precisamos apresentar quais
so os possveis resultados e como eles podero ocorrer. Essa descrio
feita em termos dos chamados
Hipteses, conjeturas, etc.
modelos probabsticos.
Modelos 4 ^ Distribuies
A Figura 7.1 faz um para probabilsticos 1 ; de freqncias
lelo entre modelos probabi r
lsticos e um mtodo de anlise Resultados ou dados observados
exploratria de dados, em
Figura 7 .1 Distribuies de freqncias e modeios
termos do tipo de raciocnio. probabsticos.
E s t a t s t c a A p liC A d A s C i n c i a s S o c a s
116

7.1 Denes bsiCAS

Os modebsprobabsticosso construdosapartirde certashipteses ouconjeturas sobre o


problemaemquesto econstituem-sede duaspartes: (1) dospossveisresultadose {2} deuma
certa leiquenos diz quoprovvel cadaresultado(ougrupos deresultados).

Seja o experimento de lanar uma moeda e observar a face voltada


para cima. Os possveis resultados so carae coroa Se supusermos que
a moeda perfeitamente equilibrada, e se o lanamento for imparcial,
podemos tambm dizer que a probabilidade de ocorrer cara a mesma de
ocorrer coroa

EspAo a m o s t r a I e e v e n t o s

Seja um experimento aleatrio, isto , uma experincia ou situao


em que deve ocorrer um, dentre vnos resultados possveis.

Espao amostrai o conjunto de todos os resultados possveis do experimento e ser


denotado por O.

ExEMplo 7.1

a) Lanar uma moeda e observar a face voltada para cima. Temos, neste
caso, dois resultados possveis: carae coroa. Ento, o espao amostrai
o conjunto Q - {cora, coroa}.
b) Lanar um dado e observar o nmero de pontos marcado no lado
yoltado para cima. Temos: = (X, 2, 3, 4, 5, 6).
c) Numa uma com bolas azuis e vermelhas, extrair uma bola e observar
sua cor. Temos: Q = {azul vermelha}.
d) Num certo bairro, indagar a uma famlia se ela costuma utilizar-se de
algum programa de alimentao popular. Um possvel espao amostrai
para esta situao Q. *= {sim, no}. Considerando, porm, a possibi
lidade do respondente no saber ou se negar a responder, podemos ser
levados a tomar um espao amostrai mais amplo: Q* = {sim, no, no
resposta}.
e) Num certo b a ir r o , selecionar uma amostra de dez famlias e verificar
quantas utilizaram algum programa de alimentao popular nos
ltimos dois meses. Um espao amostrai adequado Q = {0,1, 10}.
C a p ru lo 7 - M o d e l o s p R o b A b ils iic o s 117

f) Numa escola de ensino fundamental, selecionar uma criana e medir


a sua altura. Como altura uma varivel contnua, o espao amostrai
precisa ser construdo como um conjunto de nmeros reais possveis,
tal como Q - {x, tal que x e 3\ e 0 < x < 2,00 m}.

Ressaltamos que a especificao do espao amostrai pode no ser


nica, porque depende daquilo que estamos observando e de algumas
consideraes sobre o problema. Veja, por exemplo, o item (d).

Um espao amostrai discreto quando podemos star os possveis resultados.


contnuo quando temos uma infinidade de resultados possveis dentro de umintervalo
de nmeros reais.

No Exemplo 7.1, nos itens de (a) a (e) temos espaos amostrais


discretos; j no item (f), temos um espao amostrai contnuo.

Evento um conjunto de resultados do experimento.1

Por exemplo, no lanamento de um dado, podemos ter interesse


nos seguintes eventos:
A~ ocorrer um nmero pctr,
B= ocorrer um nmero menor que trs;
C~ ocorrer o ponto seis; e
D= ocorrer um ponto maior que seis.
Em termos de notao de conjunto, temos: A ~ {2, 4, 6}, B = {1, 2},
C ~ { 6 } e D = { }. Repare que o ltimo caso um evento impossvel e, por
isso, representado pelo conjunto vazio.
Vejamos, agora, a segunda parte de um modelo probabilstico: a
alocao de probabilidades aos resultados possveis.

pRobAbiiidAdES

Probabilidade umvalor entre 0 (zero) e 1(um). soma das probabilidades de todos os


resultados possveis do experimento deve ser igual a 1 (um).

1 Em linguagem matemtica, podemos dizer que A um evento se e somente se A um


subconjunto do espao amostrai 2, pois 2 o conjunto de todos os resultados possveis.
118 E s t a t s t ic a A p lic A c k s G n c a s S o c a s

ExEMplo 7.1 ( contnuao ) Vamos apresentar os modelos probabilsticos para


alguns experimentos aleatrios, alocando, de forma intuitiva, a proba
bilidade de cada resultado do espao amostrai, O princpio que norteia a
alocao dessas probabilidades ser apresentado posteriormente.

a) No lanamento de uma moeda, se consideraimos a moeda perfeitamente


equilibrada e lanamento imparcial, os resultados tornam-se
equiprovveis. Assim, podemos alocar probabilidade 0,5 tanto para cara
como para coroa, resultando no seguinte modelo probabilstico:
Resultado Probabilidade
cara 0,7
coroa 0.3

b) No lanamento de um dado, se considerarmos o dado perfeitamente


equilibrado e o lanamento imparcial, tem-se o seguinte modelo
probabilstico:

c) Na seleo de uma bola de uma uma, para construirmos um modelo


para a cor da bola a ser extrada, precisamos conhecer a quantidade
(ou a percentagem) de bolas de cada cor. Se tiverem set bolas azuis e
trs vermelhas e, ainda, supusermos que a bola seja extrada
aleatoriamente, temos o seguinte modelo:2

azul 0,7
vermelha 0,3

d) No problema de verificar se uma famlia de um bairro costuma Utilizar


programas de alimentao popular, vamos supor, por simplicidade, a
inexistncia de no resposta, ou seja, qualquer que seja a famlia
selecionada, as possveis respostas devem estar em 2 = {sim, no).
Como no caso anterior, necessrio o conhecimento da distribuio
desta caracterstica na populao. Vamos supor que em todo o bairro
60% das famlias utilizam e 40% no utilizam programas de
alimentao popular. Se a famlia for selecionada aleatoriamente,
podemos explicitar o modelo probabilstico, como mostra o esquema
seguinte.

2 Usaremos freqentemente o termo seleo aleatria para tuna seleo que garanta que
todos os elementos tenham a mesma probabilidade de seremtselecionados. No caso de
bolas numa urna, a seleo aleatria pode ser equivalente a uma seleo a o a c a s o , desde
que todas as bolas tenham o mesmo tamanho e que estejam bem misturadas.
CApTulo 7 - Modelos pRobAbilsricos 119

Populao de famlias dividida Modelo de probabilidades para o


quanto ao uso de programas de resultado (sim ou no) de uma
alimentao popular (sim ou no). famlia extrada ao acaso e
indagada sobre a utilizao de
programas de alimentao
Sim popular.
6(M sorteio de
uma famlia
OQ Resultado Probabilidade

sim 0.6
No, no 0 ,4
40%

Para alocar probabilidades, podemos lanar mo do princpio da


eqiprobabilidade. Por exemplo, no problema da uma {Exemplo 7.1c),
podemos fazer o seguinte raciocnio: como a seleo aleatria, toda bola
da uma tem a mesma probabilidade de ser selecionada. Como tm 7
bolas azuis dentre as 10 bolas da uma, a probabilidade de selecionar
uma bola azul 7/w(ou 0,7). Analogamente, a probabilidade de selecionar
uma bola vermelha 3/10.(ou 0,3). O principia 4a eqiprobabilidade
usualmente enunciado em termos da probabilidade de algum evento,
como apresentamos a seguir.
Princpio da eqiprobabilidade: quando as caractersticas do
experim ento sugerem N resultados possveis, todos com igual
probabilidade de ocorrncia, a probabilidade de um certo evento A,
contendo NAresultados, pode ser definida por:

Usando este princpio, vamos alocar probabilidades aos seguintes


eventos, baseados num lanamento imparcial de um dado perfeitamente
equilibrado.
Evento Probabilidade
A = ocorrer um nmero par P(A) = % = 1/2 ou 0,5
B - ocorrer um nmero menor que trs P{B) = % = V
C - ocorrer o ponto seis P(Q = Ve
D = ocorrer um ponto maior que seis P{D) = 0/6 0
Uma forma mais geral de alocar probabilidades a eventos somando
as probabilidades dos resultados que compem o evento. No exemplo do
dado:
P(ocorrer um nmero par) =
120 E s t a t s t ic a A p lic A c k s Q n c a s S o c a s

Este procedimento pode ser usado mesmo quando os resultados


no so equiprovveis.3

ExEiviplo 7 .2 Seja uma uma com 5 bolas brancas, 3 vermelhas e 2 pretas.


Selecionar uma bola ao acaso. Qual a probabilidade da bola selecionada
ser branca ou vermelha?

P{branca ou vermelha} - P{branca} + ^{vermelha} -


Tambm chegaramos a este resultado se lembrssemos que a soma de
todos os resultados possveis igual a 1. Assim,
P(branca) + P{vermelha} + P{preta} - 1, ou:
P(branca ou vermelha) = 1 - P{preta} - 1 - 2/l0 - 8/10.
m

Dois eventos so independentes quando a ocorrncia de um deles no altera a


probabilidade da ocorrncia do outro.

Por exemplo, no lanamento imparcial de um dado e de uma moeda,


os eventos A ~ nmero par no dado e B = cara na moeda podem ser
admitidos como independentes, j que a ocorrncia de A {ou de B) nada
tem a ver com a ocorrncia de B (ou de A).
Quando a ocorrncia de um evento puder ser interpretada como
resultante da ocorrncia sim ultnea de dois outros eventos
independentes, sua probabilidade pode ser obtida pelo produto das
probabilidades individuais desses eventos.

ExEiviplo 7.5 Lanar duas vezes, de forma imparcial e independente, um


dado perfeitamente equilibrado. Calcular a probabilidade de ocorrer
nmero par em ambos os lanamentos.

P(nmero par em ambos os lanamentos) =


= P(na par no l 2lanamento) x P(n2par no Qfi lanamento) =

3 Estamos supondo que os resultados de um experimento So mutuamente exclusivos, ou


seja, ao realizar o experimento vai ocorrer somente um resultado.
C a p t u Io 7 - Modelos p R o b A b iliV r ic o s 121

E nsaos dE B ern o u

Os ensaios de Bemoui ocorrem em situaes onde observamos


apenas um elemento e verificamos se este tem (ou no) um certo atributo.

ExEMplo 7 .4 So exemplos de ensaios de Bemoulli:


a) Numa uma com bolas brancas e pretas, extrair, aleatoriamente, uma
bola da uma e observar se de cor branca.
b) Observar, ao acaso, um morador da cidade e verificar se ele favorvel
a um certo projeto municipal. Admita que todos os moradores tm
opinio formada.4
c) Lanar uma moedae observar se ocorreu cara.
d) Lanar um dado e observar se ocorreu o ponto seis.5
e) Selecionar, aleatoriamente, um eleitor numa certa cidade e verificar
se ele pretende votar em determinado candidato prefeitura. Admita
que todos os eleitores desta cidade j tenham definido seu voto.
f) Selecionar, aleatoriamente, uma pea que est saindo de uma linha
de produo e verificar se ela defeituosa.
m

Em todos esses casos o espao amostrai pode ser Q - {stm, no}.


Sob certas suposies a respeito do experimento e supondo conhecida a
distribuio de sim e no na populao, podemos especificar o modelo
probabilstico.

ExEivipo 7 ,4 (contnuao)
b) Se-admitirmos que 70%. dos moradores so favorveis ao projeto, temos
o seguinte modelo probabilstico:
^]Fteslta<^^
Probabilidade j 0,7 0,3 ~~
c) Se admitirmos que o dado perfeitamente equilibrado, e o lanamento
imparcial, temos:
Resultado sim {ponto 6 ) no (outro ponto)
Probabilidade 1/6 5/6
is
4 Na prtica, difcil supor que todos os moradores tenham opinio formada. Pode-se
contornar este problema restringindo o estudo queies que tenham a opinio formada,
descartando os indecisos.
5 Neste exemplo, temos seis resultados possveis, mas, considerando que o interesse somente
no ponto seis, podemos restringir o espao amostrai a Q = {seis, no seis}.
122 ESTATSTCA ApliCACA s C i n c ia s S o c a s

Muitas vezes no conhecemos informaes suficientes para


especificar completamente o modelo probabilstico. No item (b), por exemplo,
podemos no conhecer a percentagem de favorveis na populao. Nesse
caso podemos apresentar apenas o jeito do modelo, como segue:

sim %
no i

onde % um valor (desconhecido) entre 0 e 1. Por exemplo, se a


probabilidade de sim n = 0,7, ento a probabilidade de no 1 - n - 0,3.

Chamamos de parmetro a uma quantidade desconhecida do modelo, que se tomaria


conhecida se tivssemos informaes adicionais sobre a populao de onde est sendo
tirada a amostra (ou sobre o fenmeno em que se est tirando algumas observaes).

O nmero n, do modelo anterior, corresponde ao parmetro


proporo de favorveis ao projeto na populao.

VarveI aIeatra

Varivel aleatria uma caracterstica numrica associada aos resultados de um


experimento.6

Exemplo: X = nmero de caras em trs lanamentos de uma moeda;


Y = percentagem de pessoas favorveis a um projeto municipal,
numa amostra de 500 moradores da cidade.
Podemos caracterizar um ensaio de Bemoulli por uma varivel
aleatria X, definida da seguinte forma:
O, se ndo
1, se sun

e o modelo de probabilidade:
X 1 0
n 1 - n

6 Formalmente, varivel aleatria definida como uma funo, que associa resultados do
espao amostrai, 2, ao conjunto de nmeros reais.
C a p t u I o 7 - M o d e l o s p R o b A b iitS T ic o s 125

onde: % uma quantidade entre 0 e 1 (parmetro do modelo);


x um possvel valor de X (no caso, 0 ou 1); e
pU) a probabilidade de ocorrer o valor x. Assim, p(0) = 1 - % a
probabilidade de no e p (l) = n a probabilidade de sim.
Um modelo probabilstico, quando apresentado era termos de uma
varivel aleatria, tambm chamado de distribuio de probabilidades.

Dois ENSAOS <Je Bernou

Quando temos dois ensaios de Bemoulli, geralmente o interesse


est na varivel aleatria:

X - nmero de ocorrncias de sim nos dois ensaios.

ExEiviplo 7.5 Seja uma uma com trs bolas brancas e duas pretas. Extrair,
aleatoriamente, duas bolas, sendo uma aps a outra, tal que repomos na
uma a primeira bola antes de extrairmos a segunda - amostragem com
reposio.
Extrair, aleatoriamente, duas
bolas com reposio.

X = nmero de bolas pretas

O esquema, a seguir, mostra a construo da distribuio de probabi


lidades de X = nmero de bolas pretas extradas na amostra.
Ia extrao 2a extrao
Distribuio de X

pW
' Q
9/25 (ou0,36)
(ou 0,48)
4/25 (ou 0,16)

Probabilidade de X = 0: calcula-se a probabilidade de ocorrer bola branca na F


extrao e bola branca na 2a extrao, ou seja, (3/5M3/5) - 9/25-
Probabilidade de X = 2: de forma anloga, (2/5M2/5) = 4/25'
Probabilidade de X = 1:
bola branca na Ia e bola preta na 2- (com probabilidade (3/5M2/5) ~ % 5) ou
bola preta na 1- e bola branca na 2~ (com probabilidade (2/5M3/5) = 6/25)-
Logo, a probabilidade de X = 1 6/25 + 6/25 = 12/25-
124 E s t a t s t ic a A p lic a d A s C n c a s S o c ia is

ExEMplo 7.6 Idem ao exemplo anterior, mas sem repor a primeira bola na
segunda extrao - amostragem sem reposio.

Extrair, aleatoriamente, duas


bolas sem reposio.

X = nmero de bolas pretas

A configurao da uma na segunda extrao depende do que


aconteceu na primeira extrao. Assim, o resultado da primeira extrao
condiciona as probabilidades da segunda extrao.

la extrao 2 s extrao
Distribuio eX

P(*5

%o (ou 0.30)
i%o (ou 0,60}
%o (ou 0 , 10)

Quando a amostragem feita com reposio, como no Exemplo 7.5,


h independncia entre os ensaios, pois os resultados de um ensaio no
alteram as probabilidades de outros. Isto no acontece quando a
amostragem feita sem reposio, como no Exemplo 7.6, onde os
resultados de uma extrao dependem do que ocorreu nas extraes
anteriores.
Se compararmos as distribuies de probabilidades dos Exemplos
7.5 e 7.6, notamos que o efeito da dependncia entre os ensaios provoca
uma grande alterao na distribuio de probabilidades. Contudo, se o
leitor refizer esses clculos, considerando um grande nmero de bolas
(digamos, 2.000 bolas brancas e 3.000 bolas pretas), as distribuies de
probabilidades dos dois casos (com e sem reposio) sero praticamente
a mesma.

Em grandes populaes podemos supor independncia entre os ensaios mesmo que a


amostragem seja feita semreposio.7

7 Como referncia, vamos considerar a populao grande quando o tamanho desta superar
em vinte vezes o tamanho da amostra {N > 20n).
C A p r u lo 7 M o d e l o s p R o b a b ils T ic o s 125

E x e n c c io s

1) Numa uma com 10 bolas numeradas de 1 a 10, extrair, aleatoriamente, uma


bola e observar o seu nmero.
a) Construa um modelo probabilstico. ^
b) Liste os resultados contidos nos eventos: A = nmero par, B = nmero
mpar e C ~ nmero menor que 3.
c) Atribua probabilidades aos eventos do item (b).
2) Numa sala com 10 homens e 20 mulheres, sorteia-se um indivduo, observando
o sexo (masculino ou feminino). Construa um modelo probabilstico.
3) Numa eleio para prefeitura de uma cidade, 30% dos eleitores pretendem
votar no Candidato A, 50% no Candidato B e 20% em branco ou nulo. Sorteia-
se um eleitor na cidade e verifica-se o candidato de sua preferncia.
a) Apresente um modelo probabilstico.
b) Qual a probabilidade de o eleitor sorteado votar num dos dois candidatos?
4) Seja uma famlia sorteada de uma populao de 120 famlias, as quais se
distribuem conforme a seguinte tabela.
Distribuio conjunta de freqncias do nvel de instruo do chefe da casa e uso de
programas de alimentao popular, num conjunto de 120 famlias.
Nvel de instruo do chefe da casa Total
Uso de programas
nenhum fundamental mdio
sim 31 22 '25 78
no 7 16 19 42
Total 38 38 44 120

Calcule a probabilidade de a famlia sorteada ser:


a) usuria de programas de alimentao popular:
b) tal que o chefe da casa tenha o nvel mdio:
c) tal que o chefe da casa no tenha o nvel mdio
d) usuria de programas de alimentao popular, e o chefe da casa ter o
nvel mdio;
e) usuria de programas de alimentao popular, e o chefe da casa no ter
o nvel mdio;
f) usuria de programas de alimentao popular, considerando que o sorteio
tenha sido restrito s famlias cujo chefe da casa tenha o nvel mdio;
g) tal que o chefe da casa tenha o nvel mdio> considerando que o sorteio
tenha sido restrito s famlias usurias de programas de alimentao
popular.
5) Seja a populao descrita no Exerccio 4. Selecionam-se, aleatoriamente, duas
famlias, sendo uma aps a outra, repondo primeira famlia selecionada
antes de proceder a segunda seleo (amostragem com reposio). Qual a
probabilidade de que ambas as famlias sejam usurias de programas de
alimentao popular?
12 6 E s t a t s t ic a a p I ca c J a s C n c a s S o c a is

7.2 0 ModEfo biNOMAl: CARACTERZAO E USO dA TAbElA

Nesta seo, vamos caracterizar um tipo de modelo probabilstico


que se presta a diversas situaes prticas, em especial s situaes em
que observamos a presena (ou ausncia) de algum atributo. O interesse
no nmero ou na percentagem de elementos que tm o atributo, numa
amostra de n elementos.

CARACTERZAO de UM EXpERiVENTO biNOMiA

Um experimento dito binomial, quando:

a) consiste de n ensaios;
b) cada ensaio tem apenas dois resultados de interesse: sim ou no; e
c) os ensaios so independentes, comprobabilidade constante %de oconer sim(0 < ti < 1).

Vamos estudar a distribuio de probabilidades da varivel aleatria


X = nmero de ocorrncias de sim nos n ensaios,
conhecida como distribuio binomial As quantidades n e % so os
parmetros da distribuio, cujos valores dependem das caractersticas
do problema que se est modelando.
No Exemplo 7.5, a varivel aleatria X - nmero de bolas pretas obtidas
nas duas extraes tem distribuio binomial de parmetros: n = 2 (pois,
estamos extraindo duas bolas) en = 2/5 (pois, a probabilidade de sair bola
preta numa particular extrao 2/g). No Exemplo 7.6 no temos um
experimento binomial, pois no h independncia entre os ensaios.

ExEMpio 7 .7 So exemplos de experimentos binomiais: ^


a) O nmero Y de caras, em trs lanamentos imparciais de um moeda
perfeitamente equilibrada. Valores dos parmetros: n = 3 e(n = 0,5/7
b) Dentre uma grande populao de pessoas, em que 70% so favorveis f ^
a um projeto municipal, o nmero X de favorveis, numa amostra - 50%
aleatria de dez pessoas. Parmetros: n = 1 0 e jc = 0,7.
c) O nmero F de eleitores, que se declaram a favor de um crto candidato,
numa amostra de 3.000 eleitores, extrada aleatoriamente de uma
populao de 100.000 eleitores. Parmetros: n= 3.000 e n = proporo
de eleitores favorveis ao candidato na populao.
C ftp u lo 7 M o d e lo s p R o b A b ilstico s 127

TAbEft dA diSTRbuO bNOMA

Para conhecermos as probabilidades de uma varivel com


distribuio binomial, podemos fazer uso da Tabela 2 do apndice (Tabela
da distribuio binomial) .8

ExEMplo 7.8 Retomemos ao problema de extrair, aleatoriamente e com


reposio, duas bolas de uma urna, que contm duas bolas pretas e trs
brancas. Sja X o nmero de bolas^pretas extradas.

Inicialmente, verificamos pelas


caractersticas do problema que n - 2 e rt x K
%= 2/s = 0,40. Entrando com estes valores 0,05 ... 0,40 ... 0,95
na tabela da distribuio binomial, como
2 0 0,3600
indica o esquema ao lado, encontramos a 1 0,4800
mesma distribuio de probabilidades que 2 0,1600
havamos desenvolvido no Exemplo 7.5.

ExEMplo 7 .9 Seja a populao de pessoas de um municpio em que 70%


so favorveis a um certo projeto municipal. Qual a probabilidade de
que, numa amostra aleatria simples de 10 pessoas dessa populao, a
maioria seja favorvel ao projeto?

Note que temos um experimento binomial, com n Parte da Tabela 2


= 10 e n = 0,70. Usando a tabela da distribuio n
n X
binomial podemos especificar a distribuio de X 0,70
- nmero de favorveis na amostra. A probabilidade 10 0 0,0000
1 0,0001
de ocorrer o evento a maioria da amostra ser 2 0,0014
favorvel, corresponde, em termos da varivel 3 0,0090
aleatria X, ao evento X > 5; como ilustramos ao 4 0,0368
lado. A probabilidade deste evento ser a somados 5 0,1029
f6 0,2001
resultados individuais, ou seja: 7 0,2668
P(X> 5) = X> 5 < 8 0,2335
9 0,1211
p(6) + p(7) + p(8) + p(9) + p(10) s Lio 0,0282
- 0,2001 + 0,2668 + 0,2335 + 0,1211 + 0,0282 =
= 0,8497.

8 A Tabela 2 fomece as probabilidades para experimentos com at 15 ensaios. Uma frmula


geral para o clculo dessas probabilidades ser apresentada na prxima seo. Para
experimentos compostos de muitos ensaios (n.grande), podemos usar a distribuio normal,
a qual ser estudada no prximo captulo.
128 E s t a t s t c a A p liC A d A s Q n c a s S o c a s

Uma distribuio de probabilidades tambm pode ser apresentada


sob forma grfica, de maneira anloga s distribuies de freqncias,
substituindo o eixo das freqncias por probabilidades. A Figura 7.2
mostra grficos tpicos para variveis aleatrias discretas, como o caso
da binomial.

pM W
0.3A p

0,2 0,2

0,1 0.1

0,0 0,0
r
0 1 2 3 . 4 5 6 7 8 9 10 X 0 1 2 3 4 5 6 7 8 9 10 X

Figura 7.2 Representaes grficas da distribuio binomial com n= 10 e % = 0,7 (Exemplo 7.7b).

E x e r c c io s

6) Dos experimentos abaixo, verificar quais so binomiais, identificando, quando


possvel, os valores dos parmetros n e n. Para aqueles que no so binomiais,
apontar as razes.
a) De uma sala com cinco mulheres e trs homens, selecionar, aleatoriamente
e com reposio, trs pessoas. A varivel aleatria de interesse o nmero
de mulheres selecionadas na amostra.
b) Idem (a), mas considerando a amostragem sem reposio.
c) De uma populao de milhares de homens e mulheres, selecionar
aleatoriamente e sem reposio, vinte pessoas. O interesse est no nmero
de mulheres na amostra.
d) Selecionar uma amostra aleatria simples de 500 pessoas no Estado de
Santa Catarina. O interesse est no nmero de favorveis mudana da
capital do municpio de Florianpolis para o municpio de Curtibanos.
e) Selecionar, aleatoriamente, um morador de cada municpio de Santa
Catarina. A varivel aleatria de interesse a mesma do item anterior.
f) Observar uma amostra aleatria simples de 100 crianas recm-nascidas
em Santa Catarina. O interesse verificar quantas nasceram com menos
de 2 kg.
g) Observar uma amostra aleatria simples de 100 crianas recm-nascidas
em Santa Catarina. A varivel aleatria em questo o peso, em kg, de
cada criana da amostra.
7) Lanar, de forma imparcial, uma moeda perfeitamente equilibrada, cinco
vezes. Calcule as seguintes probabilidades:
a) ocorrer exatamente trs caras;
b) ocorrer 60% ou mais de caras, isto , P(X > 3), onde X o nmero de caras.
Ovprulo 7 Modelos pRobAbilsricos 12 9

8) Considere o experimento do exerccio anterior, porm com dez lanamentos.


Qual a probabilidade de se obter 60% ou mais de caras? Intuitivamente
voc esperava que esta probabilidade fosse menor do que a do Exerccio 7?
Por qu?
9} Seja uma populao em que 40% so favorveis e,60% so contrrias a um
projeto. Apresente a distribuio de probabilidades de X = nmero de
favorveis numa amostra aleatria de n - 5 moradores.
10) Construa ura grfico para a distribuio de probabilidades do exerccio anterior.
11) Com respeito ao Exerccio 9, calcule a probabilidade de a amostra acusar:
a) dois ou mais favorveis, ou seja, P(X > 2);
b) menos de dois favorveis, ou seja, P(X < 2);
c) mais de 50% de favorveis.
12) Considerando o Exerccio 9, construa a distribuio de probabilidades da
varivel aleatria P = (proporo de indivduos favorveis, na amostra).
13) Sob a hiptese de que um certo programa de treinamento melhora o rendimento
de 80% das pessoas a ele submetidas, qual a probabilidade de, numa amostra
de sete pessoas que sejam submetidas a esse programa de treinamento,
a) exatamente cinco melhorarem de rendimento?
b) menos de a metade melhorar de rendimento?
14) Um certo processo industrial pode, no mximo, produzir 10% de itens
defeituosos- Uma amostra aleatria de 10 itens acusou 3 defeituosos. Calcule
a probabilidade de ocorrerem, numa amostra de tamanho n - 10, trs ou
mais itens defeituosos, supondo que o processo esteja sob controle (digamos,
com n = 0,10, onde n a probabilidade de cada particular item sair defeituoso).

73 0 MCkM o biNO M iA: o r m u Ia o m a t e m t c a

Seja X o nmero d pessoas favorveis a um certo projeto municipal,


numa amostra aleatria simples de n pessoas, extrada de uma populao
em que a proporo de favorveis igual a n. Admitindo que o tamanho
da populao seja bastante superior ao tamanho da amostra, podemos
supor que a varivel aleatria X tenha distribuio binomial, com
parmetros n en . Veja esquema a seguir:

Populao amostragem
de n pessoas
X = nmero de favorveis
@ favorveis
0 contrrias
150 E s t a t s t ic a A p liC A d A s G n c a s S o c a s

Para cada uma das pessoas indagadas a respeito do projeto, vamos


representar por S a resposta sim (favorvel) e por N a resposta no
(contrria). A Figura 7.3 apresenta as possveis combinaes de respostas
S e N, numa amostra de n = 4 pessoas. Esta figura tambm mostra os
valores da varivel aleatria X e suas respectivas probabilidades.
Respostas possveis de quatro pessoas:
SSNN
SNSN
SNNN SNNS SSSN
NSNN NSSN SSNS
NNSN NSNS SNSS
NNNN NNNS NNSS NSSS
Valores de X:

Probabilidades: (1-n)' 4te(1 -- 7t)3 6?r(i ~ k)~ ak^i - k) ri'


Figura 7.3 Possveis, seqncias de respostas e construo de uma distribuio
binomial de probabilidades com n = 4 e k genrico.

O evento X - 0 ocorre quando so sorteadas quatro pessoas contrrias


ao projeto (NNNN), cuja probabilidade (1 -tc)-(1 - k)-{1 -tcHI - rc) = (1
O evento X = 1 ocorre quando forem observadas trs pessoas
contrrias e uma favorvel, em qualquer ordem (SNNN, NSNN, NNSN ou
NNNS). Como cada um destes resultados tem probabilidade jc-(1 - it)3, a
probabilidade do evento X - 1 4-tc-(1 - jc)3. As outras probabilidades
podem ser obtidas de forma anloga.

C oECENTES bN0MAS

No clculo da probabilidade do evento X - 1, contamos quatro


maneiras diferentes de aparecer uma resposta S nos n ensaios (SNNN,
NSNN, NNSN e NNNS). Em geral, para calcular a probabilidade do evento
X ~ x da distribuio binomial, onde x um valor possvel da varivel
aleatria X, precisamos calcular o nmero de maneiras em que podemos
combinar as x respostas S dentre as n respostas. Esse nmero, conhecido
como coeficiente binomial, pode ser obtido na Tabela dos coeficientes
binomiais (Tabela 3 do apndice), ou calculado pela seguinte expresso:
n nl
x (n~x)\ x\

onde r = n(n~ l)(n - 2)...l (l-se nfatoriciZ) e, por conveno, 0! 1. Por


exemplo, para n ~ 4 temos os seguintes coeficientes binomiais:
CA pTu lo 7 Modelos pRob*bilsTicos 151

, L 41 4! 1 4 |_ 4! _ 4 3 2 1 ^
X~ 0: M 4 !0 ! 4! X ~ 3: 1^3j 1!3 ! 1 -3 -2 -1

x-1 . ^ j _ _ !_ _ 4:3 _4 .
x ~ 1 3!1! 3 2 1-1 ^4 j 014! 4!
( 4^ 4! 4-3-2-1
x=2:

ExpRESSO q ER A d ft d i S T R i b u i O biNOMiAl

Para generalizar raciocnio que fizemos ao obter as probabilidades


na Figura 7.3, considere X uma varivel aleatria com distribuio
binomial de parmetros n e k (sendo 0 < k < 1]. A probabilidade de X
assumir um certo valor x, pertencente ao conjunto (0, 1,2,..., n}, dada
pela expresso:

p w = f nW (i- * r x

ExEVtpb 7.10 Seja a populao de pessoas de um municpio em que 70%


so favorveis a um certo projeto municipal. Qual a probabilidade de,
numa amostra aleatria simples de quatro pessoas desta populao,
encontrarmos exatamente trs pessoas favorveis ao projeto?

Soluo: X tem distribuio binomial com parmetros n = 4 e % = 0,7.


Ento, a probabilidade pedida dada por:

p(3 )= |41. (o,7)3 (0.3)1 = 4 -(0,7)3 -(0,3) = 0,4116

Se o leitor procurar na tabela da distribuio binomial (Tabela 2 do


apndice), deve encontrar o mesmo resultado.

E x e r c c o s

15) Refazer o Exerccio 9, sem usar a tabela da distribuio binomial.


16) (Bussab e Morettin, 2002, p. 122) Uma companhia de seguros vendeu aplices
a cinco pessoas, todas da mesma idade e com boa sade. De acordo com as
tbuas atuariais, a probabilidade de que uma pessoa daquela idade esteja viva
daqui a 30 anos de 2/3. Calcular a probabilidade de que, daqui a 30 anos:
a) exatamente duas pessoas estejam vivas;
b) todas as pessoas estejam vivas;
E s t a t s t ic a a p I c a c a s C c n c i a s S o c a s

c) pelo menos 3 pessoas estejam vivas.


Indique as suposies necessrias p ara a aplicao do m odelo binomial.
17) Dentre sessenta alunos do Curso de Cincias da Computao da UFSC,
observamos que quatro estavam plenamente satisfeitos com o curso que
estavam realizando (anexo do Captulo 2). Se fizermos cinco sorteios com
reposio dessa populao, encontre a probabilidade de:
a) nenhuma resposta plenamente satisfeito; C
b) a maioria plenamente satisfeito;
c) pelo menos um plenamente satisfeito.

E x e r c c io s c o m p Ie m e n t a r e s

18) De uma sala com quatro homens e duas mulheres. Selecionar, ao acaso e
sem reposio, duas pessoas. Qual a probabilidade de se obter exatamente
uma mulher?
19) Uma sala contm vinte mulheres e oitenta homens. Se forem feitos seis
sorteios, um aps o outro e com reposio, qual a probabilidade de que se
observe:
a) cinco ou mais homens?
b) exatamente duas mulheres?
c) pelo menos uma mulher?
20) Numa populao onde 32% dos indivduos tm alguma descendncia indgena,
retira-se uma amostra aleatria de seis pessoas. Qual a probabilidade de se
encontrar
a) exatamente duas pessoas com descendncia indgena?
b) mais de uma pessoa com descendncia indgena?
21) Suponha que 10% dos clientes que compram a crdito em uma lojadeixam
de pagar regularmente as suas contas (prestaes). Senum particular dia, a
loja vende a crdito para dez pessoas, qual a probabilidade de que:
a) exatamente uma deixa de pagar?
b) mais de 20% delas deixam de pagar?
Suponha que as dez pessoas que fizeram credirio nesse dia correspondam a
uma amostra aleatria de clientes potenciais dessa loja.
22) Admitamos igualdade de probabilidade para o nascimento de menino e
menina. De todas as famlias com seis filhos:
a) que proporo tem trs meninos*. e trs meninas?
b) que proporo tem quatro ou mais meninas?
23) Um exame de mltipla escolha consiste em dez questes,.cada uma com
quatro possibilidades de escolha. A aprovao exige, no mnimo, 50%. de
acertos. Qual a probabilidade de aprovao se o candidato comparece ao
exame sem saber absolutamente nada, apelando apenas para o palpite?
/

D i S T R i b i E S C O N T N U A S E

m o c I e Io n o r m a I

este captulo estudaremos o modelo de probabilidades mais conhecido

N da Estatstica: a chamada distribuio normal de probabilidade.


Diversas aplicaes deste modelo estaro presentes ao longo dos demais
captulos* Para podermos estud-la, vamos inicialmente estender o
conceito de eqiprobabilidade para variveis aleatrias contnuas.

Dizemos que uma varivel aleatria contnua quando no conseguimos enumerar


seus possveis resultados, por esses formaremumconjunto infinito, numdadointervalo
de nmeros reais.

Por exemplo, a altura de um indivduo, tomado ao acaso, uma


varivel aleatria contnua, pois no possvel enumerar todos os valores
possveis de altura de indivduos, mas podemos dizer, por exemplo, que
o resultado ser um nmero real do intervalo de zero a dois metros e
meio, o qual contm infinitos nmeros.

D iS T lib u i E S C O N TN U A S

Em variveis aleatrias contnuas, no existe interesse em atribuir


probabilidade a cada particular valor, mas sim, para eventos formados
por intervalos de valores. Ao observar a altura de um indivduo, no
importa a probabilidade de ele medir 1,682333... metros; mas o interesse
pode estar na probabilidade de ele ter altura no intervalo de 1,60 a 1,80
m; ou acima de 1,90 m; e assim por diante.
E s t v t s t c a A p lic A c k s C n c a s S o c a s

A especificao da distribuio de probabilidades de uma varivel


aleatria contnua realizada por um modelo matemtico que peimite
calcular probabilidades em qualquer intervalo de nmeros reais. O Exemplo
8.1 ilustra a construo de um modelo para ma varivel aleatria contnua.

Exempio 8.1 Considere um crculo, com medidas de 90 -


ngulos, em graus, a partir de uma determinada
origem, como mostra a figura ao lado .Neste crculo, /' II
tem um ponteiro que colocado a girar no sentido 180 (
anti-horrio. \
' 1,1 :: IV J
Seja X a varivel aleatria que indica o ponto
em que o ponteiro pra de girar. Como existem 270 -
infinitos pontos no intervalo de 0 a 360, esta varivel aleatria contnua.
Vejamos, inicialmente, a probabilidade de o ponteiro parar no quadrante
I, isto , a probabilidade de X assumir um valor entre 0 e 90.
Supondo que no exista regio de preferncia para o ponteiro parar,
podemos deduzir, pelo princpio da eqiprobabilidade, que as probabili
dades de parada so iguais para os quatro quadrantes. Assim, a proba
bilidade de o ponteiro parar no primeiro quadrante deve ser igual a V4-
Podemos representar o evento ponteiro parar no quadrante I por
0 < X < 90; e esta probabilidade por P(0 < X < 90). Em termos de variveis
aleatrias contnuas, os sinais < e < so equivalentes, pois,
considerando a eqiprobabilidade de todos os pontos e a existncia de
infinitos pontos, podemos definir a probabilidade de ocorrncia de um
particular ponto como nula.
m

A distribuio de probabilidades de umavarivel aleatria contnua pode ser representada


por uma funo no negativa, com a rea entre o eixo-X e a curva igual a 1 (um). Os
eventos podemser representados por intervalos no eixo-X, enquanto as probabilidades
pelas correspondentes reas sob a curva (ver Figura. 8.1).

A funo descrita na Figura 8. Xa uma constante no;intervalo de 0


a 360, porque o experimento sugere que todos os intervalos de mesmo
tamanho devem ser igualmente provveis. Para que a rea total seja igual
unidade, a constante deve ser Vggg-1Construda a distribuio, qualquer

! A rea de um retngulo dada por base x a fura Como a base 360 e a rea I, entao a
altura tem que ser '/360.
G v p r u l o 8 D iS T R ib u i e s c o n t n u a s t: i v i o d d o n o r m a . \y?

probabilidade associada varivel Xpode ser obtida pelo clculo de certa


rea. Neste contexto, a Figura 8.1b ilustra a probabilidade de o ponteiro
parar no quadrante X, que igual a: 90 = -
360 4

a) b)

Figura 8,1 Ilustrao de: (a) uma distribuio de probabilidades para a varivel aleatria do Exemplo
8.1; e (b) a probabilidade do evento {0 < X < 90}.

ExEftsplo 8 .2 Selecionar, aleatoriamente, de uma certa universidade, um


estudante do sexo masculino. SejaXo valor de sua altura, em centmetros.

Temos, novamente, uma varivel aleatria contnua, mas, desta vez, no


razovel atribuir a mesma probabilidade para diferentes faixas de altura.
Por exemplo, intuitivo que a probabilidade do estudante ter altura entre
165 e 175 cm seja bem maior do que entre 190 e 200 cm, mesmo que
ambos os intervalos tenham a mesma amplitude.
A Figura 8.2a sugere um modelo mais adequado para a presente situao.
Por este modelo, conhecido como distribuio normal de probabilidades,
existe um valor tpico, ou valor mdio, que no caso de alturas de homens
adultos, deve estar em tomo de 170 cm. Intervalos em tomo deste valor
mdio tm altas probabilidades de ocorrncia, mas as probabilidades
diminuem na medida em que nos afastamos deste valor mdio,
indiferentemente se do lado esquerdo (para valores menores) ou do lado
direito (para valores maiores). A Figura 8.2b identifica a probabilidade do
evento o estudante sorteado ter mais de 180 cm.
!?6 E s t a t s t ic a A p lic A d A s C n c a s S o c a s

Altura {em cm ) I--------------------------


Evmto > X 180
Figura 8.2 Ura modelo para a altura de alunos universitrios.
m

8.1 DiSTRibuiES NORMAS

A distribuio normal caracterizada por uma funo, cujo grfico


descreve uma curva em forma de sino. Esta distribuio depende de dois
parmetros, a saber:
- (mdia ou valor esperado): especifica a posio central da
jj,
distribuio de probabilidades:
- a (desvio padro): especifica a variabilidade da distribuio de
probabilidades .2
A Figura 8.3 apresenta a forma grfica de um modelo normal genrico,
com parmetros |ie o. A curva perfeitamente simtrica em tomo da mdia
jjl e, independentemente dos valores de jj. e a, a rea total entre a curva e o
eixo-X igual a 1 (um), permitindo identificar probabilidades de eventos
como reas sob a curva, como j ilustramos na Figura 8.2b.

^ n+cr x
Figura 8.3 Grfico de uma .distribuio normal com par-.
metros ji e a.

2 Os parmetros e cr do modelo normal tm analogia com as estatsticas X e S (Captulo 6 ),


usadas para medir, respectivamente, a posio central e a disperso de uma distribuio
de freqncias.
C A p T u lo 8 D iS T R ib u i O E S CO NTNUAS M o d e lo N O RM A

A Figura 8.4 mostra diferentes modelos normais, em termos dos


parmetros ji. e a. Estes modelos podem representar, por exemplo, a
distribuio de alturas de crianas, em diferentes populaes.

Figura 8.4 Distribuies normais em funo dos parmetros p. e a.

As duas distribuies da Figura 8.4a podem representar, por


exemplo, (1) alturas de estudantes da primeira srie do ensinofundamental
e (2) da quarta srie. Podemos admitir que ambas as distribuies
apresentam, aproximadamente, a mesma disperso (ol ~ <xj, porm, na
quarta srie os estudantes devem ter, em mdia, alturas maiores do que
os estudantes da primeira srie (|i2> fi,). Por outro lado, as distribuies
da Figura 8.4b podem representar (3) alturas de estudantes da terceira
srie e (4) alturas de estudantes da primeira quinta srie. razovel
supor, neste caso, que a mdia das alturas dos dois grupos de estudantes
deve ser aproximadamente igual (^3= mas a disperso deve ser maior
no grupo formado da primeira quinta srie (a4> o3).

V a Io r e s pAdiONZAdos E a disiRibuio NORM a I pAdRO

Com o objetivo de facilitar a obteno de determinadas reas sob


uma curva normal, podemos fazer uma transformao na varivel, levando-
a para a distribuio normal com mdia 0 (zero) e desvio padro 1 (um).

A distribuio normal com mdia 0 (zero) e desvio padro 1 (um) conhecida como
distribuio normal padro.

Para transformar um valor x, de uma distribuio normal com mdia


( e desvio padro a, em um valor z da distribuio normal padro, basta
fazer seguinte operao: ~ ~~
m E s t a t s t ic a A p lic A d A s C n c a s S o c a s

O valor z conhecido como uaorpadronizado, uma medida relativa. Mede o quanto x


se afasta da mdia ( , ) , em unidade de desvio padro (a).
jj

ExEMplo 8.? Suponha que numa certa universidade, a altura dos estudan
tes do sexo masculino tenha distribuio hormal com mdia ^ = 170 cm
e desvio padro a = 10 cm. A Figura 8.5 mostra, a relao entre escala
dos valores das alturas de universitrios masculinos (x) e seus
correspondentes valores padronizados (z). Por exemplo, para um estudante
de altura x - 180 cm, temos o valor padronizado:

180-170 ,
z ------------- = 1

Podemos dizer que este estudante de altura 180 cm encontra-se a


1 (um) desvio padro acima da altura mdia dos estudantes do sexo
masculino da universidade.

- 3 - 2 - 1 0 1 2 3 %
Figura 8.5 Transformao de valores de alturas de universitrios
(x) em valores padronizados (z).

Seja X a altura, em centmetro, de um estudante do sexo masculino,


selecionado ao acaso. Considere que temos interesse no evento X > 180.
A Figura 8.6 mostra a equivalncia da probabilidade deste evento, P(X>
180), com rea na distribuio normal padro. Para facilitar a notao,
identificaremos por Z uma varivel aleatria com distribuio normal
padro.
: tf / '
C A p T u i o 8 D iS T R ib u i E S CONTNUAS M C X jd o norm aI ]? 9

Distribuio de X: Distribuio de Z:
normal cora = 170 e o - 10 cm. normal padro

Transformao de um evento da distribuio normal de parmetros ^ = 170 cm


Figura 8 .6
e o = 10 cm em um evento da distribuio normal padro.

E x e r c c io s

1) Supondo que as alturas dos estudantes de uma universidade tenham


distribuio normal com mdia 170 cm e desvio padro 10 cm, encontre os
valores padronizados d:
a) x ~ 190 cm; b) x = 185 cm; c) x = 170 cm; d) x = 165 cm.
{ 2} Considerando o exerccio anterior e lembrando que a distribuio normal
perfeitamente simtrica em tomo da mdia jx, qual a probabilidade de um
estudante sorteado dessa universidade apresentar altura acima de 170 cm?
3} Suponha que as notas X de um vestibular tenham distribuio normal com
mdia de 60 pontos e desvio padro de 15 pontos.
a) Se voc prestou esse vestibular e obteve nota x = 80 pontos, qual a sua
posio relativa em relao mdia dos vestibulandos, em unidade de
desvio padro?
b) Se foram considerados aprovados os candidatos que obtiveram nota
mnima correspondente a 1 (um) desvio padro acima da mdia, qual a
nota mnima de aprovao na escala original?

8.2 Ta B e Ia dA disTRibuio n o rm a I pAdRo

Como vimos na seo precedente, as probabilidades de uma


distribuio normal podem ser representadas por reas sob a curva da
distribuio'normal padro. A Tabela 4 do apndice relaciona valores
positivos de z com reas sob a cauda superior da curva. Os valores de z
so apresentados com duas decimais. A primeira decimal fica na coluna
140 ESTATSTCA ApliCAdft S C ncas Socas

da esquerda e a segunda decimal na linha do topo da tabela. A Figura 8.7


mostra como podemos usar essa tabela.

Segunda decim al de 2
z 0 1 m 1 2 1 ... 1 9 0,4168
0,0
0,1
X
0,2 - ------ > 0,4168

rea na cauda superior


0 0,21

Figura 8.7 Ilustrao do uso da tabela da distribuio normal padro (Tabela 4 do apndice) para
encontrar a rea na cauda superior relativa ao valor de z = 0,21.

ExEMplo 8.? (contnuao) Suponhamos que a altura X de um estudante do


sexo masculino, tomado ao acaso de uma universidade, tem distribuio
normal com mdia 170 cm e desvio padro 10 cm. Vimos que a
probabilidade de ele acusar altura superior a 180 cm corresponde rea
acima de z - 1 da curva normal padro, isto , P(X > 180) = P(Z > 1).
Usando a Tabela 4 do apndice, podemos encontrar esta rea
(probabilidade), como ilustra o esquema seguinte:

Segunda decim al de z
z 0 9
Portanto,
i,0 0,1587 P(X> 180) = 0,1587

A Tabela 4 considera valores de z entre 0 (zero) e 5 (cinco). Alm de


z = 5 a rea pode ser consaiderada nula. Alis, a partir de 3 (trs) a rea
j praticamente nula. reas para valores negativos de z podem ser obtidas
por simetria, considerando os correspondentes valores positivos.

ExEMplo 8 .4 Seja Zuma varivel aleatria com distribuio normal padro.


Vamos usar a Tabela 4 para encontrar as seguintes probabilidades:
a) P(Z < 0,42). Esta probabilidade corresponde
rea da distribuio normal padro indicada
ao lado. Podemos obter esta*rea, fazendo a
seguinte operao:
O v p iu lo 8 D is T R ib u i e s c o n t n u a s e Modelo norm a 141

rea total = 1 .rea = 0,3372-.


(pela Tabela 4) (pela subtrao)

Portanto, P(Z < 0,42) = 0,6628.

b) P(Z< -0,42}. O esquema seguinte mostra como podemos usar a simetria


da curva para obter a rea pedida na Tabela 4.

rea = 0,3372
(Tabela 4)

0 0,42
Portanto, P{Z < -0,42) = 0,3372.

c) P{~0,42 < Z < 0,42).

- 0,42 0 0,42 0,42 0 0,42

Ento, P(~0,42 < Z < 0,42) = 1 - 2x{0,3372) = 0,3256.

Como. vimos nos exem plos precedentes, podemos obter a


probabilidade de qualquer evento relativo a uma varivel normal padro,
por manipulaes adequadas com reas sob a curva. O Exemplo 8.5 mostra
como obter um valor de z, a partir da fixao de uma certa rea de
interesse.

ExEMplo 8.5 Qual o valor de z, tal que P(-z < Z


< z) = 0,95? Ou seja, precisamos obter z, tal
que no.intervala.de -z at z resulte numa.rea
sob a curva de 0,95, como ilustra a figura ao
lado.
-z 0 z =
=9
14 2 E s t a t s t c a A p licA ciA s C n c a s S o c a s

Considerando a simetria da curva


normal e o fato de a rea total sob a curva ser
igual a 1 (um), podemos transformar esta 0 ,0 2 5
0 ,0 2 5
pergunta em: qual o valor de z que deixa uma
rea de 0,025 alm dele? A figura ao lado
ilustra a equivalncia entre as duas perguntas.
-z z =
Entrando com o valor de z 0,00 0,01 ... 0,06 .. 0,09
rea 0,025 na Tabela 4 do
apndice, encontramos o valor de 1,9 .. 0,025
-------- -
z igual a 1,96. Este processo est
ilustrado ao lado.

ExEMplo 8.6 Suponha que o desempenho dos alunos das trs ltimas fases
do Curso de Cincias da Computao da UFSC tenha distribuio normal
de mdia 2,5 e desvio padro de 0,6.3 Selecionando aleatoriamente um
aluno desta populao, qual a probabilidade de ele acusar desempenho
entre 2 e 3,5?
Soluo: Primeiramente precisamos transformar os valores de desempenho,
x, em valores padronizados:
x ~ pi _ x - 2,5
z =
o 0,6
2 -2 ,5 _
Para x = 2: -0,83
. 0,6

3,5-2,5
Para 3,5: z 1,67
0,6
-0,83 0 1,6?
(veja a figura ao lado).

Usando a Tabela 4 do apndice,


encontramos para z - -0,83 e z = 1,67 as reas
nas extremidades da curva: 0,2033 e 0,0475,
respectivamente (lembrando que para valores
negativos de z, como -0,83, procuramos na
Tabela 4 o seu valor simtrico 'positivo, no
caso, z = 0,83). fcil observar, pela figura ao lado, que a probabilidade
desejada corresponde ao complemento da soma destas reas, ou seja:
P(2 < X < 3,5) = 1 - (0,2033 + 0,0475) = 0,7492.

Foram usados como estimativas de n e o, os valores das estatsticas X e S, calculadas a


partir dos dados observados nesta populao {anexo do Captulo 2).
C A p r u o 8 O is T R ib u i e s c o n t n u a s e w oddo norm aI 14 ?

E x e r c c io s

4} Seja Z uma varivel aleatria com distribuio normal padro. Calcule:


a) P(Z > 1,65); P ( Z < 1,65); c) P(-l < Z < 1);
d) P(-2 < Z< 2); _ e) P(-3 < Z < 3); P(Z> 6);
Jg| o valor de z, tl que P(-z < Z < z) = 0,90;
\B) o valor de z, tal que P(-z < Z < z) = 0,99.
5) Sendo X a varivel aleatria qe representa a altura de um estudante tomado
ao acaso de uma universidade, supostamente com distribuio normal de
gidia 170 cm e desvio padro 10 cm, calcule:
a) P(X >190); b'} P(150 < X < 190); c) P(XC160);
d) a percentagem esperada de estudantes com altura entre 150 e 190 cm.
6) Admitindo que a distribuio do quociente de inteligncia (Q.I.) de crianas
de uma certa escola seja normal com mdia 100 pontos e desvio padro 10
pontos, calcule:
a) a-probabilidade de uma criana, tomada ao acaso desta escola, acusar
Q.I. superior a 120 pontos; 0,0 i
b) a percentagem esperada de crianas com Q.I. na faixa de 90 a 110 pontos'.'
7) Suponha que numa certa regio, o peso dos homens adultos tenha distribuio
normal comm^ia 70Jkg-e desvio padro 16 kg o peso das mulheres adultas
tenha distribuio normal com mdia 60Ttg'e desvio padro 12 kg. Ao selecionar
uma pessoa ao acaso, o que mais provvel: uma mulher com mais de 75 kg ou
um homem com mais de 90 kg? Responda calculando essas probabilidades. rj i

8J DacIos obsERVAdos e mocIeIo normaI


A Figura 8.8 mostra um hstograma de freqncias das mdias
dirias de presso intra-ocular, numa amostra de 43 indivduos sadios.
Observamos que o traado do grfico se aproxima de uma curva em forma
de sino, donde podemos inferir que um modelo normal pode representar
razoavelmente bem a distribuio desta varivel, em indivduos sadios.

9 11 -------- 13 15 ' 1 7

Presso intra-ocular

Figura 8.8 Histograma de freqncias das mdias dirias de


presso intra-ocular, numa amostra de 43 indivduos sadios.
E s t a t s t c a A p liC A d A s C n c a s S o c a s
14 4

Uma varivel que p o s s a ser identificada como uma soma, ou mdia,


de vrios itens, geralmente se distribui de forma parecida com uma
distribuio normal. o caso do exemplo anterior, em que cada valor
corresponde mdia aritmtica de sete medidas de presso intra-ocular,
observadas ao longo do dia. As medidas fsicas ou comportamentais, tais
como altura, peso, quociente de inteligncia e ndices de aptides, tambm
costumam se distribuir de forma parecida com um modelo normal, porque
elas podem ser vistas como somas de uma infinidade de componentes
inerentes ao indivduo e ao seu meio.
Quando temos uma varivel que acreditamos ter distribuio aproxi
madamente normal, podemos usar algumas propriedades desta distribuio
na anlise dos dados dessa varivel. Uma propriedade da distribuio
normal, muito usada na anlise exploratria de dados, a seguinte:
- ao afastar um desvio padro, em ambos os lados da mdia
(intervalo de |a - a at jx + a), a rea sob a curva atinge,
aproximadamente, 0,683;
- ao afastar dois desvios padres (intervalo de \x~ 2<yat j j , + 2o), a
rea cresce para 0,955;
- o afastamento de trs desvios padres (intervalo de [x - 3a at \i
+ 3a) gera ma rea de 0,997 (veja a Figura 8.9).

Figura 8.9 reas sob a curva normal em fiino de afastamentos de desvios


padres a, em torno da mdia [-

Dado um conjunto de valores, podemos calcular a mdia X e o


desvio padro S, como vimos no Captulo 6. Se os dados em anlise se
distribuem de forma parecida com um modelo normal, devemos esperar:
CA pTu io DiSTRibuiES CONTNUAS M o d e lo NORMa I 14 5

- em tomo de 95% dos dados em X 2 S {isto , no intervalo de


X - 2S at X + 2S}; e
- maisde 99% dos dados em X 3S (isto , no intervalo de X - 3S
at X + 3S).
Assim, algum valor que esteja fora do intervalo X 3S pode ser
considerado um valor discrepante dos demais. Valores fora do intervalo
X 2 S podem ser vistos como suspeitos.

ExEMplo 8 .7 Sejam os seguintes valores de aptido mecnica, numa turma


de crianas.

44 52 50 49 52 46 53 48 (____
50 70 54 49 51 ^50 49 40 45 50 55 eo 65
A p t id o m e c n ic a

Pelo diagrama de pontos, observamos que, com exceo do valor 70,


os demais apresentam-se de maneira compatvel com um modelo normal.
Calculando a mdia aritmtica e o desvio padro desses dados, temos:
X * 51,1 pontos e .S = 5,8 pontos.4
Da:
X 2S= 51,1 2(5,8) = 51,1 11,6 intervalo de39,5a 62,7 pontos;
X 3S= 51,1 3(5,8) * 51,1 17,4 intervalo de 33,7 a68,5 pontos.
Verificamos que, com exceo do 70, todos os demais valores esto
no intervalo X 2S. Alis, o 70 tambm no pertence ao intervalo X 3S,
caracterizando um ponto discrepante. A criana que obteve 70 no teste de
aptido mecnica , neste contexto, anormal perante as demais crianas
pesquisadas.

8.4 ApROXMAO NORMAl biNOMiAl

Em muitas situaes prticas, a distribuio normal pode ser usada


como uma aproximao razovel de outras distribuies. o que acontece,
por exemplo, em experimentos binomiais com n grande. Apesar de a
distribuio verdadeira ser a binomial, os clculos das probabilidades podem
ser feitos com a distribuio normal. Seja o problema de amostragem e as
variveis aleatrias binomiais X e Y definidas na Figura 8.10.

4 Os clculos de X e S foram vistos no Captulo 6 .


146 E s t a t s t ic a A p lC A d A s C i n c ia s S o c a s

Populao de uma cidade

X - nmero de homens Y = nmero de ndios


Figura 8.10 Ilustrao de duas variveis aleatrias binomiais.

Ambas as variveis aleatrias tm distribuio binomial com n igual


ao tamanho da amostra. Quanto ao parmetro n, temos X com n = 0,5 e Y
com 7C= 0,2. A Figura 8.11 apresenta as distribuies de probabilidades
de X e ypara n = 2, 10 e 50.

iP r a m t iO s Vii/yy^r: TCt%'

0.5 .P M 0.7 f pM
r 0.6 T
0,4 0,5
r
0.3 0.4 j-
n = 2
0.2
0,i
T 0.3
0,2 r
r
O.
i [ i........
0 1 2 * 0 1 2 x -

0,3 p ( x ) 0.3 p * ) q
O

N " V 0.2 - o 9 0,2 o


N ; n = 10 0.1 -
1 O
0.1 * 0
0
V-, ' ' V ' 0y - , ,--T
--- --- -- f * * X 0 > , . T 9 0 * " '* x
>
<) l 2 3 4 6 7 S 9 10 0 1 2 3 4 5 6 7 8 9 10
1 ,
s* i
pM 0.15 P *
0.1 * * *
* * 0.1 -

, n = 50 0.05 -
* 0.05 -
# #
....
%
o * 7' wwtitooo, x
.....-...... V
3 15 25 35 45 0 10 20 30

Figura 8.11 Distribuies binomiais para diferentes valores de n e n.


C A p T u lo 8 D iSTRibuiSS CONTNUAS E MCXeIo NORMftl 14 7

Verificamos pela Figura 8.11 que, para n= 50, a forma da distribuio


binomial aproxima-se da curva de uma distribuio normal. Quando n =
0,5, a aproximao j parece razovel para n = 10.
De maneira geral, as condies para se fazer uma aproximao da
distribuio binomial para a normal so:
f 1) n grande e
1^ 2) 7t no muito prximo d 0 (zero) ou de 1 (um).
V' m a regra prtica considera a aproximao razovel se as duas
seguintes inequaes forem satisfeitas:
a) rt *n > 5
b) n * (1 - te) > 5
Ao aproximar uma distribuio binomial para uma normal podemos
obter os parmetros ji e o da normal, em funo dos parmetros n e Tida
binomial, segund sexpresses seguintes:

jjl n 7i
\ J:
cr = -yjn - n (l - jz) ^ ^

ExEMplo 6.8 Observar o nmero, Y, de respostas favorveis, numa amostra


aleatria de n ~ 50 pessoas, as quais foram indagadas a respeito da opinio
{favorvel ou contrria) sobre um projeto municipal. Suponha que na
populao existam 40% de favorveis.

Pelas caractersticas do experimento, a varivel aleatria Y tem


distribuio binomial com parmetros n = 50 e n = 0,4. Como n grande
e % no um valor muito prximo de zero ou de um, podemos usar a
aproximao normal.5 Esta distribuio normal deve ter mdia p. e desvio
padro o dados, respectivamente, por:

= n '%= 50 (0,4) f2C>)


_____ __________________ V_-/
= = -y/50 (0,4)-(1 -0,4) = 3,464

Calculemos, como exemplo, a probabilidade de se ter na amostra


25 ou mais de favorveis, isto , P(X> 25). Esta probabilidade pode ser
aproximada por uma rea sob a curva da distribuio normal de mdia

5 Poderamos usar a regra prtica: (a) n n = 50(0,4) = 20 e (b) n (1 - :t} = 50(1 - 0,4) = 30.
Como ambos os resultados so no-inferiores a cinco, podemos usar a aproximao normal.
148 E s t a t s t ic a a p I c a c a s C n c a s S o c a s

\x= 20 e desvio padro a ~ 3,464.0 valor x ~ 25 corresponde ao seguinte


valor padronizado:
x-pL 2 5 -2 0
z- = 1,44
3,464

Usando a Tabela 4 (apndice), encontramos a probabilidade 0,0749.


Esquematicamente:

0 1,44

C o r r e o (1e coNTiwuidAdE

Ao calcular probabilidades de eventos oriundos de experimentos


binomiais como reas sob uma curva normal, estamos fazendo uma
aproximao de uma varivel aleatria discreta, que s assume valores
inteiros, para uma varivel contnua, cujos eventos constituem intervalos
de nmeros reais. Por isso, devemos fazer alguns ajustes, como mostra o
exemplo seguinte.

ExEMplo 8.9 Seja Y o nmero de caras obtidas em 10 lanamentos


imparciais de uma moeda perfeitamente equilibrada.

Pelas caractersticas do experimento, podemos deduzir que Y tem


distribuio binomial com n = 10 e n ~ 0,5, a qual pode ser aproximada
pela distribuio normal de mdia e desvio padro dados por:

fx = a - 1 0 * (0,5) - 5 * ;

o ~ y j n - n - ( l ~ n ) = f i o -(0 ,5 ) ( 1 - 0 ,5 ) = ^ 5 ' = 1,58 ,

Seja o seguinte evento de interesse: {y = 4}, isto , ocorrer quatro


caras. Ao expressar este evento em termos de uma varivel aleatria
contnua X, com distribuio normal, devemos considerar um intervalo
em torno do valor 4, porque, para variveis contnuas, s faz sentido
avaliar probabilidades em intervalos. intervalo adequado, neste aso,
construdo pela subtrao e soma de meia unidade ao valor quatro, ou
seja, (3,5 < X < 4,5}, como mostra a Figura 8.12.
C A p r u l o 8 D is T R ib u i e s c o n t n u a s e M o d e lo n o r m a l 14 9

P(F = 4) = 0,2051

3,5 4,5
Figura 8.12 Aproximao da probabilidade do evento {7 = 4! (da
distribuio binomial) para a probabilidade do evento {3,5 < X <
4,51 (da distribuio normal).

i
Usando a distribuio normal, a probabilidade do evento {3,5 < X <
4,5} deve ser colocada em termos de valores padronizados:
_ x ~\l _
Z~ a ~ 1,58

Para x = 3,5, temos z = -0,95 e para x = 4,5, temos z - -0,32,


encontrando a probabilidade 0,2044, conforme mostra o esquema a seguir:

que pode ser obtida pela diferena das duas reas representadas abaixo:

Ento, P(3,5 < X < 4,5) = 0,3745 - 0,1711 =* 0,2034.


15 0 E s t a t s t ic a a p c a c Ia s C n c a s S o c a s

clar que neste exemplo bem mais fcil usar a distribuio


binomial. A probabilidade pedida encontrada diretamente na Tabela 2
do apndice, sendo igual a 0,2051. Mas quando n grande, a aproximao
normal mais fcil.

E x e r c c io s

8) Sejam dez lanamentos imparciais de uma moeda perfeitamente equilibrada.


Calcule a probabilidade de ocorrer mais de 6 caras, usando:
a) a distribuio binomial e
b) a aproximao normal.
Obs: ao usar a aproximao normal voc deve considerar o evento {X >
6,5} {correo de continuidade).
9) Com respeito ao exerccio anterior, calcule a probabilidade de ocorrer o evento
cinco ou mais caras (use a distribuio normal).
10) Resolva novamente o Exemplo 8.8, aplicando a correo de continuidade.
11) Numa amostra aleatria de 3.000 eleitores, qual a probabilidade de a maioria
se declarar favorvel a um certo candidato, se na populao existem 52% de
favorveis a este candidato?

E x e r c c io s c o m p Ie m e n t a r e s

12) Um teste padronizado aplicado a um grande nmero de estudantes. Os


seus resultados so normalmente distribudos com mdia de 500 pontos e
desvio padro de 100 pontos. Se Joo conseguir 650 pontos, qual a
percentagem esperada de estudantes com mais pontos do que Joo?
13) Suponha que as notas de um teste de aptido tenham distribuio normal
com mdia 60 e desvio padro 20. Qual a proporo de notas que
a) excedem 85?
b) esto abaixo de 50?
14) Considere que na cidade Paraso, composta de um milho de habitantes,
existam 40% de homens e 60% de mulheres. Numa amostra extrada por
sorteio (amostra aleatria), calcule a probabilidade de se obter mais mulheres
do que homens, considerando:
a) que a amostra tenha sido de cinco pessoas;
b) que a amostra tenha sido de cinqenta pessoas^
15) a) Um exame de mltipla escolha consiste em dez questes, cada uma com
quatro possibilidades de escolha. A aprovao exige, no mnimo, 50% de
acertos. Qual a chance de aprovao se o candidato comparece ao exame
sem saber absolutamente nada, apelando apenas para o palpite?
b) E se o exame tivesse cem questes?
16) Calculou-se em 70 minutos o tempo mdio paia o vestibular de uma universidade,
com desvio padro de 12 minutos. Quanto deve ser a durao da prova, de
modo a permitir tempo suficiente para que 90% dos vestibulandos terminem a
prova? Admita distribuio normal para o tempo de durao da prova.
P arte IV

n Fe r e n c a estatstca

C o m o q e n e razar REsulTAdos de uma am ostra p a ra

a pO p A O d E ON dE e Ia foi EXTRAdA

C o m o tes tar hipT5Es com bASE em am ostras


STMAO d E PARMETROS

\ este captulo, estudaremos o problema de avaliar certas caractersticas


^jdos elementos da populao (parmetros), com base em operaes
com os dados de uma amostra (estatsticas). o que acontece nas
pesquisas eleitorais, em que queremos conhecer as percentagens de cada
candidato na populao de eleitores (parmetros), mas observamos apenas
uma parte da populao (uma amostra), na qual podemos calcular as
percentagens de inteno de voto relativas a cada candidato (estatsticas).
Na estimao de parmetros fazemos um raciocnio tipicamente
indutivo, porque generalizamos resultados daparte (amostra) para o todo
(populao), um caso especial de inferncia estatstica (ver Figura 9.1).

O Estimao de parmetros
AMOSTRA (dados observados)

Figura 9.1 0 raciocnio indutivo da estimao de parmetros: uma


forma de inferncia estatstica.

Reforando algumas definies:

Populao o conjunto de elementos para os quais desejamos que as concluses da


pesquisa sejamvlidas, com a restrio de que esses elementos possam ser observados
ou mensurados sob as mesmas condies.
154 E s t a t s t c a A p lic A c U s C n c a s S o c a s

Parmetro uma medida que descreve certa caracterstica dos elementos da populao.
Amostra aleatria simples: uma parte da populao, sendo que os elementos so
extrados por sorteio.
Estatstica: alguma medida associada com os dados de uma amostra a ser extrada da
populaq. Quando usada com o objetivo de avaliar [estimar} ovalor de algumparmetro,
tambm chamada de estimador.
Erro amostrai a diferena entre uma estatstica e o parmetro que se quer estimar.
Estimativa: valor da estatstica (estimador), calculado combase na amostra efetivamente
observada.

ExEMplo 9.1 A prefeitura pretende avaliar a aceitao de um projeto de


mudana no transporte coletivo. Depois de apresent-lo aos usurios, os
responsveis por sua execuo pretendem conhecer, mesmo que de forma
aproximada, o parmetro:
% = proporo de favorveis ao projeto (na populao de usurios
do transporte coletivo do municpio).
Para estimar este parmetro, a prefeitura planeja uma amostragem
aleatria simples de n = 400 usurios. Dssa amostra, calcular a
estatstica:
P - proporo de moradores favorveis ao projeto (na amostra)
Observada efetivamente a amostra, devemos ter P & n, devido ao
erro amostrcd. Ento, pensaremos em avaliar a margem de erro que
podemos estar cometendo por examinar apenas uma amostra e no toda
a populao.

ExEMplo 9.2 Para estudar o efeito da merenda escolar, introduzida nas


escolas de um municpio, planeja-se acompanhar uma amostra de n =
100 crianas, que esto entrando na rede municipal de ensino. Dentre
diversas caractersticas de interesse, pretende-se avaliar o parmetro:
}x = ganho mdio de peso durante o primeiro ano letivo (na populao de
crianas da rede municipal de ensino)
Da amostra de crianas em estudo, pode-se calcular a estatstica:
X - ganho mdio de peso, durante o primeiro ano letivo, das 100 crianas
em observao.
C a p t u Io 9 - E s t m a o de pa r m etro s 155

A estatstica X pode ser usada como um estimador do parmetro


p., mas, como no exemplo anterior, devemos ter X ^ p. devido ao erro
amostrai. Nas prximas sees, vamos estudar um processo que permite
avaliar a margem de erro que podemos estar cometendo por examinar
apenas uma amostra e no toda a populao.
E

Quando estivermos estudando a incidncia de algum atributo numa


certa populao, geralmente o interesse est na proporo, ou percentagem
de elementos com o atributo, como no Exemplo 9.1. Por outro lado, quando
estamos pesquisando alguma caracterstica quantitativa, como no Exemplo
9.2, comum o interesse em estimar uma mdia.
Apresentamos, a seguir, alguns parmetros e as respectivas
estatsticas que geralmente so usadas para estim-los.1

PARAMETROS ESTATSTICAS
(caractersticas da populao) (caractersticas da amostra)
t i= proporo de algum atributo, P = proporo de elementos com o
dentre os elementos da atributo, dentre os que sero
populao. observados na amostra.
jj ~ mdia de alguma varivel X = mdia da varivel, a ser
quantitativa, nos elementos da calculada com os elementos da
populao. amostra.
a = desvio padro de uma varivel, S = desvio padro da varivel, a ser
dentre os elementos da calculado com os elementos da
populao. amostra.

Em geral, os parmetros so nmeros desconhecidos (somente sero


conhecidos se for feito um censo - pesquisa de toda a populao). J as
estatsticas so variveis aleatrias, pois seus valores dependem dos
elementos a serem sorteados na amostragem. Ao observar efetivamente
uma amostra, a estatstica se identifica com um valor (resultado do
clculo), chamado de estimativa. Por exemplo, se na amostra de n = 400
moradores do Exemplo 9.1, encontrarmos 240 favorveis, ento temos a
seguinte estimativa para o parmetro n:2
940
P = = o ,6 0 (ou, 6 0 % )
400

1 Lembramos que as expresses para o clculo d algumas estatsticas, tais como a mdia

X e o desvio padro S, foram vistas no Captulo 6 .


2 Na literatura de Estatstica, geralmente so usadas letras minsculas para as estimativas.
Em nosso exemplo, p ~ 0,60. Neste livro, usaremos a mesma notao para estimador (uma
varivel aleatria) e estimativa (um nmero).
156 E s t a t s t ic a A p ic A c k s C n c a s S o c a s

Contudo, no devemos esperar que este valor coincida com o


parmetro n, devido ao que chamamos de erro amostrai Um dos principais
objetivos na teoria da estimao estimar um limite superior provvel
para o erro amostrai. Esse valor ser a base para avaliarmos a preciso
de nossa estimativa.

Dizemos que uma estimativa to mais precisa quanto menor for o limite superior
provvel de seu erro amostrai.

Toda a formulao que apresentaremos parte da suposio de que


os dados em anlise constituem uma amostra aleatria simples da
populao de interesse.

Exer c c io s

1) O esquema seguinte representa uma populao de noventa domiclios,


situados em quadras residenciais. Os valores dentro dos quadradinhos
(domiclios) indicam o nmero de cmodos. Esses valores, na verdade, somente
sero conhecidos aps a realizao da pesquisa.

4 |# 2 \& 14 4 |6 7 j 2 2 | 4
4 7 4 5 6 8
1 1/2 6 |4 2 I 3j 2 i/8 2 14 5 | J

/8|5 2 |3 4 | 1 6| 3
8 5 4 X
2\A 5 |9 S|6 4 1.3

9'i 8 X6 8j7 9 3 14 8 i 9
22 9 .-14 9 9 8 8 >5
9 9 8 |7. 12 8 8 |8
IS

Calcular os seguintes parmetros:


a) n =proporo de domicios com mais de cinco cmodos;
b) n =nmero mdio de cmodos por domiclio.
2) Selecione uma amostra aleatria simples de vinte domiclios da populao do
Exerccio l.3 Com base na amostra selecionada, calcule o valor das seguintes
estatsticas:
a) P - proporo de domicios com mais de cinco cmodos, na amostra;
b) X - nmero rrdio de cmodos por domicilio, na amostra

3 Se voc no se lembrar de como extrair uma amostra aleatria simples, leia novamente a
Seo 3 .1 {Captulo 3). Lembre que o primeiro passo numerar os domiclios.
C A p iu o 9 E s t im a o d e pa r m etro s 157

9.1 DiSTRibuiO AMOSTRAI

Considere a seguinte, pergunta, relativa ao Exemplo 9.1:

- o valor de P (proporo de favorveis numa amostra de n. = 400 usurios


do transporte coletivo) vai ser um valor prximo da verdadeira proporo
tc, a qual se refere a todos os usurios do municpio?

Como na prtica o valor de % desconhecido, tentaremos responder


a esta pergunta de forma indireta, atravs do conhecimento de como se
distribuem os possveis valores de P. Diferentes valores de P podem ser
obtidos por diferentes amostras de n elementos, extradas da populao
de interesse, sob as mesmas condies. Para cada amostra observada,
temos um valor para P. A distribuio do conjunto de todos os possveis.
valores de P, correspondentes s possveis amostras de tamanho n, forma
a chamada distribuio amostrai de P.

A distribuio amostrai de uma estatstica a distribuio dos possveis valores dessa


estatstica, se examinssemos todas as possveis amostras de .tamanho n, extradas
aleatoriamente de uma populao.

Para simplificar, vamos supor que a populao em estudo seja


bastante grande, de tal forma que, para cada elemento observado, a
probabilidade de ele ser favorvel seja sempre igual a k, independentemente
dos elementos j observados. A Figura 9.2 mostra o modelo de
probabilidades, referente a cada observao.

P O P U L A O : u su rios de

Figura 9.2 Modelo de probabilidades associado ao processo de amostragem do Exemplo 9.1.


m E s t a t s t ic a a p c a J a s C n c a s S o c a s

Uma smuIao

Para ilustrarmos a distribuio amostrai de P, conforme a situao


da Figura 9.2, podemos simular vrias amostras de tamanho n = 400.
Como exemplo, suporemos, artificialmente, que o parmetro j z - 0.7
(populao com 70% de favorveis). A simulao pode ser realizada com
o apoio de uma tabela de nmeros aleatrios (Tabela 1 do apndice).
Cada nmero de um algarismo da tabela simula a observao de um
elemento da populao, da seguinte fonna;
- quando o algarismo extrado da tabela de nmeros aleatrios for
um valor do conjunto {0, 1, 2, 3, 4, 5, 6}, que acontece com
probabilidade 7/10 = 0,7, simula a observao de um indivduo
favorvel ao projeto;
- quando o algarismo for um valor do conjunto {7, 8,9), que ocorre
com probabilidade 3/10= 0,3, simula a observao de um indivduo
contrrio ao projeto.
Ao observarmos 400 algarismos da tabela de nmeros aleatrios,
podemos calcular:
P = proporo de nmeros no conjunto {0, 1, 2, 3, 4, 5, 6}, simulando a
proporo de Indivduos favorveis ao projeto.
Para avaliarmos a distribuio amostrai de P e termos informaes
sobre o erro amostrai, precisamos repetir esse processo vrias vezes, sob
as mesmas condies. Os valores da Figura 9.3 referem-se a valores de P,
oriundos da simulao de 100 amostras de tamanho n - 400.

Valores simulados de P Histograma de freqncias


0,70 0,67 0,69 0,70 0,74 0,71 0,68 0,69
0,69 0,71 0,71 0,68 0.71 0,71 0,70 0,70 20
0,72 0,71 0,68 0,69 0,69 0,66 0,69 0,69
0,67 0,72 0,73 0,71 0,70 0,67 0,70 0,71
0,70 0,72 0,71 0,68 0,70 0,72 0,70 0,72 o
c ^
0,73 0,67 0,71 Cd/7g)0,73 0,70 0,68 0,66 S
cr10
0,73 0,69 0,69 0,68 0,69 0,71 0,69 0,74
0,74 0,70 0,70 0,67 0,70 0,71 0,69 0,72
0,70' 0,69 0,73 OUZO 0,74 0
0,72 0,70 0,68
0,69 0,70 0,74 <75>>0,71 0,69 0,71 0,70 0,64 0,66' 0,68 0,7 0,72 0,74 0,76
0,72 t0,69 ChBtf 0,70 0,71 0,66 0,71 V a lo r c a lc u la d o d e P
0,66 1 >0,68 0,69 0,69 0,68 0,71 0,71
0,72 0,68 0,68 0,73
* V a lo r m x im o e v a lo r r a n im o .

Figura 9.3 Cem observaes da distribuio amostrai de P, considerando amostras de tamanho


n = 400 e iz = 0,70.
C A p r u lo 9 E s t im a o d e p a r m e t r o s 159

Pela Figura 9.3, verificamos que em nenhuma amostra, dentre as


100 simuladas, resultou em um valor de Pfora do intervalo de 0,65 a 0,76.
Nesta situao fictcia, adotamos o valor de % ~ 0,70. Na simulao,
verificamos que o valor mais distante foi 0,76, apontando um erro amostrai
igual a 0,76-0,70 = 0,06. Podemos dizer que temos uma altssima confiana
de que uma estimativa P, obtida atravs de uma amostra aleatria simples
de tamanho n ~ 400, sob as mesmas condies da simulao realizada,
no carregar um erro amostrai superior a 0,06 (ou seja, 6 %).
O fato de nenhuma das amostras simuladas ter carregado um erro
amostrai superior a 0,06 no garante que, numa amostra efetivamente
extrada da populao em estudo, o erro amostrai no possa ser superior
a 0,06, pois sempre existe o efeito do azar ao sortearmos os elementos
que iro compor a amostra. Neste contexto, as afirmaes so sempre
feitas com um certo nvel de confiana
Para entendeimos melhor o significado do ternio nvel de confiana
podemos fazer o seguinte raciocnio em termos da nossa simulao:
observamos que 96 valores de P, dentre os 100 simulados, resultaram
em erros amostrais inferiores a 0,05 (veja a Figura 9.3). Assim, podemos
afirmar que uma estimativa construda sob um modelo anlogo ao da
simulao dever ter um erro amostrai inferior a 0,05, com nvel de
confiana em tomo de 96/100 = 96%.

Na prtica examinamos apenas uma amostra, resultando em um nico valor para a


estatstica - uma estimativa. Porm, o conhecimento da distribuio amostrai da
estatstica permite avaliarmos um limite superior para o erro amostrai (margem de
erro), com certo nvel de confiana.

SANcJo A diSTRbuiO NORMa I

'Na maioria dos problemas de estimao de parmetros, no


necessrio realizar simulaes para avaliar a preciso de uma estimativa.
Por exemplo, na estimao de uma proporo, com base em uma amostra
aleatria simples, o experimento tipicamente binomial com parmetros
n (tamanho da amostra) e n (proporo do atributo em questo). No captulo
anterior, vimos que se n for grande, a distribuio binomial se aproxima
de uma distribuio normal No caso da estatstica proporo, a mdia e o
desvio padro so determinados em funo de n e t i , da seguinte forma:4

4 No captulo anterior, trabalhamos mais com a varivel aleatria X = nmero de favorveis na


amostra. Aqui estamos trabalhando com a proporo P = X/ n, razo pela qual as expresses da
mdia e do desvio padro so diferentes. O subndice Pnas notaes usuais de mdia e desvio
padro, jie o . para. lembrar que esses parmetros referem-se distribuio amostrai de P.
160 E s t a t s t ic a a p I ic a c a s C n c a s Soeia s

A Figura 9.4(a) mostra a forma aproximada da distribuio amostrai


de P. Note que esta distribuio est centrada no prprio valor do
parmetro de interesse, n. Pela teoria da distribuio normal, sabido
que existe 95% de probabilidade de que um valor seja observado a menos
de 1,96 desvios padres da mdia (Exemplo 8.5, Captulo 8 ). Assim, com
probabilidade de 95%, o erro amostrai no deve exceder 1,96 desvios
padres, como mostra a Figura 9.4(b).

n n (1,96) <7P
Fignra 9.4 (a) Forma aproximada da distribuio amostrai de F, (b) Faixa em que deve estar o valor
de P calculado com base na amostra {95% de probabilidade).

0 desvio padro da distribuio amostrai de uma estatstica comumente chamado de


erro padro da estatstica.

9.2 E stMAO dE UMA pROpORO

No que segue, estaremos considerando que j examinamos uma


amostra aleatria simples da populao de interesse.
Limitaremos o estudo para o caso em que o tamanho da amostra
razoavelmente grande e o atributo em observao no seja muito raro ou
quase certo, de tal forma que seja vlida a aproximao da distribuio
binomial para a normal.5 Nesta e na prxima seo, tambm suporemos

5 Desde que n no seja prximo de 0 ou de 1, podemos usar a distribuio normal para


n > 30. Uma discusso mais detalhada sobre esta aproximao foi feita na Seo 8.4.
C A p iu lo 9 - E s t im a o d e p a r m e t r o s 16!

que a populao de onde foi extrada a amostra seja muito grande, no


necessitando considerar o seu tamanho nos clculos.
Com as suposies anteriores, o erro padro de P pode ser estimado
com os dados da prpria amostra, usando a expresso:

onde P a proporo do atributo, na amostra; e n o tamanho da amostra.

Nve ce conPiana ce 9 5 %

Fixado o nvel de confiana em 95%, como usual na prtica, o


limite mximo para o erro amostrai fica em tomo de (l,96)Sp, pois, como
ilustra a Figura 9.4(b), temos, aproximadamente, 95% de probabilidade
de o valor de P cair a menos de 1,96 desvios padres de n.

ExEMplo 9,1 ( continuao) Suponha que na amostra de n = 400 pessoas,


encontramos 60% de favorveis. Temos, ento, P~ 0,60 (ou 60%), com erro
padro:

Usando nvel de confiana de 95%, temos um limite superior para o


erro amostrai de:

E ~ (l,96) Sp = (1,96) (0,0245) = 0,048 (ou 4,8%)

Representaremos por:

60,0% 4,8%

o intervalo de limite inferior 60,0% - 4,8% = 55,2% e de limite superior


60,0% + 4,8% = 64,8%.
Podemos dizer, com nvel de confiana de 95%, que o intervalo 60,0%
4,8% contm o parmetro n (proporo defavorveis em toda a populao).

De modo geral, intervalo centrado em P e com semi-amplitude


E = (1,96)-Sp, representado por:
PE ou (P - E , P + E)
162 E s t a t s t ic a A p liC A d A s C n c a s S o c a s

dito um intervalo de confiana para o parmetro n, com nvel de


confiana de 95%. O esquema seguinte ilustra este intervalo sobre a reta
de nmeros reais:
Intervalo de 95% de confiana para %
K ....... ...............'^

---------- Cr------------# --------------------- O----- *


P - (1,96)-Sp P P+ (1,96)-Sp

O utros nveis <Je conana

A Figura 9.5 mostra uma tabela, construda com base na Tabela 4


do apndice {tabelada distribuio normal padro), que associa os nveis
usuais de confiana com os respectivos valores de z.
\ SV\X -
\;rtyK 5 f,

' xiKK

A re a 0,800 0,900 0,950 b,980 0,990 0.995 0,998^


1,282 1,645 1,960 2,326 2,576 2,807 3,090
Figura 9.5 Valores de z para alguns nveis de confiana

Fixado o nvel de confiana, podemos obter o correspondente valor


de z, como ilustra a Figura 9.5. Depois, calculamos uma estimativa para
o limite superior do erro amostrai por:

E ~ z -Sr
e o intervalo de confiana para n:

PE

ExEMplo 9.1 ( contnuao) Adote o nvel de confiana de 99%. Ento, pelo


esquema da Figura 9.5, temos:
C ftp T u lo 9 E s t m a o d e p a r m e t r o s 165

rea = 0,99 z = 2,576

resultando no seguinte limite provvel para o erro amostrai:

E:= z Sp= (2,576).{0,0245) = 0,063 (ou 6,3%)

Ento, com nvel de confiana de 99%, o intervalo:

60,0% 6,3%

deve conter o verdadeiro parmetro ti.


E53

O esquema seguinte ilustra os intervalos de confiana para n com


nveis de confiana de 95% e de 99%, referentes amostra descrita no
Exemplo 9.1.
Intervalo de 99% de confiana para n
(60,0 6,3% )
--------------------------------------------------------
Intervalo de 95% de confiana para n
(60,0 4,8%)

53,7% 55,2% 60,0% 64,8% 66,2%

Observe que, ao exigir maior nvel de confiana, o intervalo de


confiana aumenta em magnitude. Tente entender o porqu disto!

Para um dado nvel de confiana, dizemos que uma estimativa to mais precisa
quanto menor for a amplitude de seu intervalo de confiana.

Observe, pela expresso do intervalo de confiana, que a maneira


natural de aumentarmos a preciso de uma estimativa atravs do
aumento do tamanho n da amostra.

Exer c c o s

3) (Para fazer em sala de aula.) Com respeito populao do Exemplo 9.1, mas
agora considerando n = 0,60, simule 50 amostras de tamanho n = 10 (cada
aluno deve simular uma ou duas amostras). Para cada amostra simulada,
calcule P. Apresente os valores encontrados de Pnum histograma. Com base
nessa simulao, discuta sobre o erro amostrai associado a uma amostra de
164 E s t a t s t ic a a p c a c I a s C s n c a s S o c ia is

tamanho n = 10, para estimar o parmetro n, relativo proporo de algum


atributo da populao.
4) Seja o problema de construir um intervalo de confiana para a proporo rr
de alunos favorveis presena da Polcia Militar no Campus de uma grande
universidade, com base numa amostra aleatria simples de n alunos. Faa
os itens abaixo e, com base nos resultados, discuta sobre a preciso das
estimativas a variar n e n.
a) nvel de confiana de 90%, n = 400, com 60% de favorveis na amostra.
b) nvel de confiana de 90%, porm considerando que a amostra tenha sido
de n. = 1.000 alunos, sendo que 600 disseram ser favorvel.
c) nvel de confiana de 95%, n ~ 400, com 80 favorveis.
d) nvel de confiana de 95%, n = 400, com 320 favorveis.
e) nvel de confiana de 95%, n = 400, com 200 favorveis.
5) Numa pesquisa mercadolgica, deseja-se estimar a proporo n de
consumidores que passariam a usar certo produto aps experiment-lo peia
primeira vez. Para atingir esse objetivo, selecionou-se uma amostra aleatria
simples de n ~ 200 consumidores potenciais, fornecendo-lhes amostras grtis
do produto. Depois de um ms, voltou-se a contatar os consumidores da
amostra, oferecendo-lhes o produto por um certo preo. Trinta por cento da
amostra decidiu adquirir o produto. Construa uma estimativa intervalar para
ti, com nvel de confiana de 95%.

6) O vestibular COPERVE-1991 teve como tema de redao a possvel mudana


da capital de Florianpolis para Curitibanos.
a) Foram observadas 400 redaes, extradas por sorteio, dentre todas as
redaes. Nessa amostra, 120 mostraram-se favorveis mudana da
capital. O que se pode dizer a respeito da proporo de vestibulandos
favorveis mudana, na amostra? E na populao de vestibulandos?
b) Foram observadas 400 redaes, correspondentes aos alunos que
prestaram o vestibular num dos locais de realizao das provas (por
exemplo, na regio de Curitibanos). Nessa amostra, 250 eram favorveis
mudana da capital. O que se pode dizer a respeito da proporo de
favorveis mudana, na populao de vestibulandos?
7) Num trabalho de auditoria nas contabilidades das empresas, para estimar a
proporo de empresas que deixaram de pagar algum tributo no ano anterior,
foi selecionada uma amostra aleatria simples de 40 empresas. Os resultados
foram os seguintes (1 = deixou de pagar, 0 = pagou corretamente):
OO1O1OO|0 1 1 O 1 0 G1 O OQ. OO
^ 1 1 0 0 1 0 0 0 0 1 0 1 0 1 0 0 1.1 0 0
o
Construa um intervalo de 90% de confiana para a populao de empresas
que deixaram de pagar corretamente os tributos no ano anterior.
NOTA: Observe que quando os dados esto codificados com 0 e 1, o clculo
de P coincide com o clculo da mdia aritmtica X, ou seja, a proporo
uma mdia em dados d tipo 0 e 1.
8) No anexo do Captulo 4, temos o resultado de uma amostra aleatria simples
de 120 famlias do bairro Saco Grande II, Florianpolis - SC, 1988. Uma das
C A p t u t o 9 E s t im a o de pa r m etro s 165

caractersticas pesquisadas foi o uso {simou no) de programas de alimentao


popular (PAP). Com base nessa amostra, construa um intervalo de 95% de
confiana para o parmetro k (proporo de famlias que usam programas de
alimentao popular, em todo o bairro).
9) A amostra descrita no Exerccio 7 est, na verdade, dividida em trs
localidades. Construa intervalos de 95% de confiana para a proporo de
famflias que usam programas de alimentao popular, para cada localidade.
Interprete esses intervalos de confiana.
NOTA: Observe que, ao trabalhar com subgrupos de uma amostra, as precises
das estimativas tendem a ser piores (intervalos de confiana mais longos),
quando comparadas com a anlise de toda a amostra.

93 Estimao <Je uma mcIa

Quando a varivel em estudo quantitativa, normalmente se tem


interesse no parmetro \x (mdia). Tendo uma amostra aleatria simples
da populao de interesse, podemos ter uma estimativa de ju, atravs do
clculo da mdia dos valores da amostra:
V-1 y-
n
Como o valor de X vai depender da amostra selecionada, podemos
falar em erro padro e em distribuio amostrai de X . O erro padro de X
pode ser estimado com os dados d amostra por:

onde S o desvio padro dos dados, conforme apresentado no Captulo


6 . Por exemplo, se uma amostra de 9 alunos em que se observaram as
seguintes notas:
8 10 9 6 7 9 8 7 8

temos a soma dos valores: ^ X = 72;


72
a mdia da amostra: X = = 8,0:
9
a soma dos valores quadrticos:

]T X 2 ~ 8 2 +102 + 9? + 62 + 72 +9 2 + 82 + 72 + 82 =588
16 6 E s t a t s t ic a a p I c a c J a s C n c a s S o c a s

a varincia da amostra:

g 2.._I > 2 - ' I X 2 . 588-9-8)2 15


n -1 . 8

o desvio padro da amostra: S - ^1,5 -1,225;

S 1,225
e o erro padro da mdia: Sx ~ ~j = ~ ~ 0408
m
Formalmente, o erro padro de X :
_ o
~X
onde z o desvio padro de todos os elementos da populao. Como, em
geral, o parmetro o desconhecido, usamos em seu lugar S, resultando
na estimativa S^, apresentada anteriormente.
No Exerccio 7, vimos que, se o conjunto de valores formado por
zeros e uns, sendo 1 quando o indivduo tem uma certa caracterstica, e
0 quando no tem, ento a mdia aritmtica desses valores igual
proporo P de indivduos com a caracterstica. Da mesma forma, o erro
padro da mdia, S^, se iguala ao erro padro da proporo, Sp.6 Ou seja,
o estudo da proporo (seo anterior) caso particular do estudo da mdia
Vimos, tambm, que a distribuio amostrai de P aproximadamente
normal para amostras grandes. O mesmo acontece com a distribuio
amostrai de X.

Para amostras aleatrias grandes (rt > 30), a distribuio amostrai de X aproxi
madamente normal.

Amostras quances

Quando temos uma amostra grande (n > 30), podemos estimar o


limite superior para o erro amostrai por:

E = z-S^

onde z obtido conforme indicado na Figura 9.5, em funo do nvel de


confiana previamente fixado.

6 O clculo dos dois erros padres deve acusar pequena diferena, porque usamos o
denominador n - l n o desvio padro da amostra.
C A p tu io 9 E s t m a a o de parm etro s 16 7

Exewpio 9,2 (cointnuao) o objetivo estimar o parmetro:


u = ganho mdio de peso durante o primeiro ano letivo, na populao de
crianas da rede municipal de ensino, devido a uma merenda especial.
Numa amostra aleatria simples de n = 100 crianas do primeiro
ano letivo, em que se estava servindo a merenda especial, foram obtidos
os seguintes resultados:
Ganho mdio de peso: X = 6,0 kg;
Desvio padro: S = 2,0 kg.

Procedendo a estimativa do erro padro de X :

S = = - fL = ~-^=r = 0,2 kg
* Vn V0
O limite superior para o erro amostrai (nvel de confiana de 95%}:
E = (l,96)-(0,2) =0,392 kg
donde resulta o seguinte intervalo de 95% de confiana para (j.:
6,000 0,392 kg.

Ou seja, a partir do acompanhamento da amostra das cem crianas,


chegamos concluso de que o intervalo de 5,608 a 6,392 kg contm,
com 9 5 % de confiana, o ganho mdio de peso, jn, de todas as crianas do
primeiro ano da rede municipal de ensino, que venham a ser submetidas
merenda especial.7 Esquematicamente:

Intervalo de 95% de confiana para jj.


(6,000 0,392)
< ------- 1-------------------->
----------- o --------- : --------------------------o --------->
5 ,6 0 8 6 ,0 0 0 6 ,3 92

Ganho de peso (em kg)

A mostra pequenas

Para os casos em que a varivel em estudo tiver distribuio


razoavelmente simtrica, parecida com uma normal, possvel construir
estimativas intervalares para a mdia populacional, \x, mesmo que a
amostra seja pequena (n < 30). Nesse caso, necessrio usar a chamada
distribuio t de Student (Tabela 5 do apndice).

7 Note que o intervalo de confiana de uma mdia apresentado na mesma unidade de


medida da varivel em estudo.
168 E s t a t s t ic a A p liC A d A s C n c a s S o c a s

A distribuio t de Student, como mostra a Figura 9.6, tem forma


parecida com a normal padro, sendo um pouco mais dispersa. Esta
disperso varia com o tamanho da amostra, sendo bastante dispersa para
amostras pequenas, mas se aproximando da normal padro para amostras
grandes. Sua disperso funo de um parmetro denominado graus de
liberdade, g l No problema de estimao de uma mdia, tem-se: gl= n - 1.

Figura 9.6 Grficos de distribuies de Student e normal padro.

Para obtermos o valor ida distribuio ide Student basta calcular


os graus de liberdade: g l= n - 1 ; fixar o nvel de confiana desejado; e
usar a Tabela 5 do apndice. Por exemplo, para g l - 9 e nvel de confiana
de 95%, devemos usar a Tabela 5, como mostra a Figura 9.7.

Figura 9 .7 Uso da tabela da distribuio t de Student Ilustrao com gl = 9 e nvel de confiana de


95%.

Se n < 30 e a varivel em estudo tiver distribuio aproximadamente normal podemos


estimar o limite superior para o erro amosra por:

onde t obtidna Tbela 5 com g~ n~ 1, Par amostras grandes; t~z, permitindo o


uso de qualquer uma das duas distribuies.
C a p t u Io 9 E s t m a o de pa r m etro s 16 9

ExEMplo 9J Para verificar a eficcia de um programa de preveno de


acidentes de trabalho, foi realizado um estudo experim ental,
implementando esse programa em dez empresas da construo civil,
escolhidas ao acaso, numa certa regio. Os dados abaixo se referem aos
percentuais de reduo de acidentes de trabalho, nas dez empresas
observadas.

Amostra Estatsticas
20 15 23 11 29 Mdia: X = 18
5 20 22 18 17 Desvio padro: S = 6,65

O objetivo estimar o parmetro:


M. - mdia da reduo percentual de acidentes de trabalho, em todas as
empresas da construo civil da regio, que venham a ser submetidas ao
programa preventivo.
Estimativa do erro padro de X:

S = ^ S = 2,10

Usando nvel de confiana de 95%, graus de liberdade gl~ 9 (pois,


n = 10 e g l = n - 1), obtemos na Tabela 5 (apndice) o valor t.~ 2,262.
Assim:
E = t -Sjf = (2,262)x(2,10) = 4,75 = 4,8
Ento, temos o seguinte intervalo de .95% de confiana para o
parmetro p.:
18,0 . 4,8 pontos percentuais8

E x e r c c o s

10) Quer se avaliar o tempo mdio, p, que um cliente leva para ser atendido num
posto de servio, no horrio de maior movimento. Uma amostra aleatria
simples de 14 clientes apontou para os seguintes tempos de espera (em
m inutos): ^ }% ,p o V '- ^ - 1 fl M
15 17 19 10 13 14 20 18 16 15 16 22 13 16 y i

Calcule: i ' d> i i x ,


a) a mdia da amostra; c yi 5f /. :
.. b) ..o desvio padro da amostra; - - M - h - s o l l

O intervalo de confiana foi colocado em termos da unidade pontos percentuais, porque


era esta a unidade dos dados originais (reduo percentual de acidentes de trabalho).
170 E s t a t s t ic a a p I c a c Ia s G n c a s S o c a s

c) o erro padro da mdia amostrai; 0, "6'/1!


d) ura intervalo de 95% de confiana para p. 0
11) A tabela seguinte mostra as mdias e os desvios padres da renda familiar,
calculados com base em uma amostra de 120 famlias, estratficada em trs
localidades. Essa tabela foi construda com os dados do anexo do Captulo 4.
Tamanho Renda familiar (sal. mn.)
Localidade
da amostra mdia desvio padro
Monte Verde 40 8,1 4,3 6
Pq. da Figueira 42 5,8 2,6
Encosta do Morro 37 5,0 4,5

Construa um intervalo de confiana, ao nvel de confiana de 95%, para a


renda familiar mdia de cada localidade. Interprete as estimativas.
12) Suspeita-se que um certo fiscal tende a favorecer os devedores, atribuindo
multas mais leves. Fazendo-se uma auditoria numa amostra aleatria de oito
empresas, verificaram-se os seguintes valores que deixaram de sr cobrados^,
em reais: A-*'7'" ,, ao '
200 340 180 0 420 100 460 340 Xc ' ' ^ ^
a) Apresente um intervalo de 95% de confiana para o parmetro p. '
b) Qual o significado, no presente problema, do parmetro p.? J-
c) Interprete a estimativa do item (a). j
13) Considerando a amostra do Exerccio 2, construa um intervalo de 99% de
confiana para o nmero mdio de cmodos por domiclio, no bairro em estudo.
Verifique se o parmetro p, calculado no Exerccio 1, pertence a este intervalo.
14) Considere as informaes do anexo do Captulo 2. Selecione uma amostra
aleatria simples de 10 alunos e observe os dados relativos varivel,
desempenho no curso. Com esta amostra, faa os seguintes itens:
a) Apresente um intervalo de 90% de confiana para o parmetro p.
b) Qual o significado do parmetro p, neste caso?
c) Interprete a estimativa do item (a).
d) Usando toda a populao, calcule o parmetro p e verifique se o intervalo
que voc construiu no item (a) contm este parmetro. Consulte seus
colegas de sala. Verifique quantos obtiveram intervalos de confiana
contendo o parmetro p.

9.4 C orrees para tamanco cIe popuko coN^Ecido

O leitor pode estar estranhando que, na avaliao da preciso das


estimativas, o tamanho N da populao no tenha sido considerado, Na
verdade, o conhecimento deste valor s relevante em populaes
pequenas. Neste caso, basta fazer as seguintes mudanas nas estimativas
dos erros padres d e P e X :
C A p r u lo 9 E s t im a o d e p a r m e t r o s 171

f o = lp- M ^
n
s In -n
L ! ^
O restante dos clculos dos intervalos de confiana mantm-se
inalterado. Cabe tambm observar que se N for muito grande (digamos,
mais que vinte vezes o tamanho da amostra), ento o segundo fator das
frmulas acima ser aproximadamente igual a um, podendo ser
desprezado, resultando nas frmulas anteriormente apresentadas.

ExEMplo 9 .4

a) Vamos refazer o Exemplo 9.3, considerando que existam N = 30


empresas na regio. Neste caso:

s* i ? ? =(210) =(2'loHo'83)=1,74
E - t- = (2,262) - (l ,74) ~ 3,9

Resultando no seguinte intervalo de 95% de confiana para a mdia ji:


18,0 3,9 pontos percentuais.
b) E se a populao fosse constituda de N = 400 empresas?
Neste caso:

S = (2,10)-(0,99) = 2,08

E = t - S s = (2,262) (2,08) = 4,7

E o intervalo de 95% de confiana para a mdia m:


18,0 4,7 pontos percentuais.
m

Comparando os resultados dos Exemplos 9.3 e 9.4, verificamos que


a incluso do tamanho da populao, N, no clculo do erro padro,
somente acarretou alterao relevante no caso (a). Observe que rio caso
(b) o tamanho da populao mais que vinte vezes o tamanho da amostra
{N > 20n). Nesse caso, poderamos ter usado a frmula mais simples do
erro padro.
172 E s t a t s t c a ApliC A d A s C i n c i a s SocUis

E x e r c c io s

15) Numa amostra aleatria simples de 120 domiclios, realizada num certo bairro
da cidade, observou-se que apenas 33,3% possuam instalaes sanitrias
adequadas. Considerando que existam 460 domiclios no bairro, encontre
um intervalo de 95% de confiana para a proporo de domiclios com
instalaes sanitrias adequadas.
16) Refazer os Exerccios 13 e 14, considerando o tamanho da populao.

9.5 Tamanco mnmo dn uma amostra a Ieatra sm p Ies

Na fase do planejamento de uma pesquisa que envolva um


levantamento por amostragem, uma das principais preocupaes o
nmero de elementos que precisaro ser pesquisados (tamanho da
amostra, n).
No Captulo 3, descrevemos algumas tcnicas para a seleo de
uma amostra e apresentamos uma primeira frmula para a determinao
de seu tamanho. Com a teoria discutida neste captulo, temos condies
de complementar a questo da determinao do tamanho da amostra,
supondo o plano de uma amostragem aleatria simples.
As frmulas par o clculo do tamanho da amostra so extradas
das expresses dos intervalos de confiana, fixando a prori o nvel de
confiana e o erro amostrai tolerado. Suporemos, tambm, que haja
condies para a observao de uma amostra razoavelmente grande, que
permita o uso da distribuio normal, na representao das distribuies
amostrais de X e de P.
Tendo o valor z da distribuio normal, em funo do nvel de
confiana desejado, como tambm E0 (erro amostrai tolerado), podemos
obter o tamanho da amostra por uma das duas seguintes frmulas,
dependerido^^~bjetivofinaI estimar uma proporo ou uma mdia:
a) para estimar uma proDorcoji:__ _

b) para estimar uma mdia jt:


C a p t u l o 9 E s t im a o d e pa r m etro s 17?

Se a populao for muito grande (digamos N > 20 n0), ento j o


tamanho da amostra:
n=n0
Se o tamanho da populao for conhecido e no for muito grande, o
tamanho da amostra dado por (expresso aproximada):
N-n0 ' ,
n -------
N +n0
Pelas formulas apresentadas, podemos observar que, depois de
fixado o nvel de confiana e o erro tolervel, o tamanho da amostra depende
basicamente da variabilidade da varivel em estudo, representada pela
sua varincia (quadrado do desvio padro), a2. No caso da estimao de
uma proporo, a varincia expressa em funo do parmetro % por:
a2 ~ k -{1~ k ).
Como o parmetro o2 aparece jio numerador das expresses do
clculo de n, conclumos que, quanto mais heterognea for a populao
em estudo, maior dever ser o tamanho da amostra.
Uma dificuldade existente na fase do planejamento amostrai de
uma pesquisa que o parmetro c 2 , em geral, desconhecido.
Apresentaremos duas sugestes para contornar este problema: (1)
observao emprica e (2 ) argumentos tericos.

ObSERVAO EMpRCA

Podemos usar no lugar de o 2 umcTestimativ^ Sq , obtida de algum


estudo anterior ou de uma amostra piloto,Tsto-ri/ma pequena amostra
realizada na fase de planejamento da pesquisa, com propsitos de avaliar
o instrumento (questionrio), treinar pesquisadores ou obter alguma
estimativa inicial da populao.

ExEMplo 9.5 Considere, novamente, o problema de estimar o ganho mdio


de peso das crianas da rede municipal de ensino, durante o primeiro
ano letivo (Exemplo 9,2). Suponha que um estudo similar tenha sido
realizado num outro municpio, onde observaram uma amostra de 80
crianas, que resultou num desvio padro igual a 1,95 kg. Fixando o
nvel de confiana em 95%, e tolerando um erro amostrai de at 200
gramas (isto , E0 - 0,2 kg), qual deve ser o tamanho da amostra?
Soluo: Nvel de confiana de 95%. acarreta z =-1,96 (ver Figura 9.5).,-
Usaremos, no lugar de a2, o valor da varincia da amostra do outro
municpio: S% = (1,95)2 = 3,8. Assim, o tamanho mnimo de uma ara^fpk.
aleatria simples :
174 ESTATSTCA ApliCAdft S CiNCAS $OCAS

z 2o 2 _ Z2-S2 _ { l , 9 6 f -(3,8)
= 365
Eo Eo

Como N desconhecido, este j tamanho da amostra (n. = n0= 365


crianas).

comum, no clculo do tamanho da amostra-, aproximar o valor z ~


1,96 para z - 2, pois, alm de facilitar as contas, compensa, em termos, o
erro introduzido pela substituio de a2 por Sg * No Exemplo 9.5, usando z
- 2, obtemos como resultado: n = 380 crianas. No caso de se usar uma
amostra piloto pequena, digamos, de tamanho m< 30, melhor substituir
2 por t c o m g l - m - 1 .

RqUiVIENTOS TE R IC O S : 0 CASO d E ESTiVlAO d E p R O pO R ES

Muitas vezes, pela forma de mensurao da varivel, possvel obter


alguma avaliao sobre a2, ou, pelo menos, algum limite superior para
este parmetro. Uma situao particularmente interessante na
estimao de uma proporo n. Neste caso, a varincia pode ser expressa
em termos do parmetro k, da seguinte forma:
o 2 = k (l - k) - k ~ 7T2

Ou seja, a2 uma funo de segundo grau de %, cujo grfico (parbola)


mostrado na Figura 9 .8 . Observe que o valor mximo de cj2ocorre quando
k = Vo.. Nesse caso, g2 = Vz Vi = lA.

Figura 9.8 0 parmetro o2 em funo da proporo jc.

Nos problemas de estimao de uma proporo, em que no temos


qualquer avaliao inicial sobre 7t; u quando acreditamos que a proporo
k esteja prxima de 1/2, podemos usar, no lugar de o3, o seu valor mximo,
Va Assim,
C a p t u Io 9 E s t im a o d e p a r m e t r o s 175

_______ 4 z

n ~ E2
0 ~4-E l

Em pesquisas de levantamento por amostragem, normalmente


queremos estimar vrias propores (vrios parmetros ti), com dada
margem de erro, E0. A expresso precedente garante a preciso
estabelecida, E0, para as vrias estimativas. Nesta expresso, se usarmos
o nvel usual de confiana de 95%, temos 2 = 2. Ento, a frmula do
tamanho da amostra para vrias propores :
1

Exoviplo 9,6 Com o objetivo de avaliar a preferncia do eleitor na vspera


de uma eleio para a prefeitura de um municpio, planeja-se um
levantamento por amostragem aleatria simples. Considere que seja
admissvel um erro amostrai de at 2%, com 95% de confiana, para as
estimativas dos percentuais dos vrios candidatos. Quantos eleitores
devem ser pesquisados?

Soluo: na = ~ = = 2-500
Como N desconhecido, este j o tamanho da amostra (n = = 2.500
eleitores).

ExEMplo 9 .7 Numa pesquisa epidemiolgica deseja-se estimar, com 90%


de confiana, o parmetro:
n = proporo de pessoas infectadas
com erro amostrai mximo de 1%. Qual deve ser o tamanho de uma
amostra aleatria simples, supondo que, na populao em estudo, no
existam mais que 20 % de indivduos infectados?
Soluo: Dada a informao que n < 0,20, ento o valor mximo de a2 :
tc-(I-tc) = (0 ,20 )-(I- 0 ,20 ) = 0,16
Assim,
z 2 fi(l ~ 7r) _ (1 ,>45}2 (0,16)
176 E s t a t s t c a ApliCACA s O n c a s S o c a s

E x e r c c io s

17) Com o objetivo de estimar o tempo mdio de um caixa eletrnico para atendei
um cliente, planeja-se fazer um levantamento por amostragem. Qual deve
ser o tamanho de uma amostra aleatria simples de clientes, para garantir
uma estimativa com erro no superior a 2 segundos, ao nvel de confiana de
95%? Suponha que se verificou, atravs de estudos anteriores, que o desvio
padro no passa de 8 segundos.
18} Deseja-se estudar as percentagens de ocorrncias de diversos atributos, numa
comunidade de 600 famlias. Qual deve ser o tamanho de uma amostra aleatria
simples, considerando erro mximo de 4% e nvel de confiana de 95%?
t ) b
E x e r c c io s c o m p Ie m e n t a r e s

19) Nas situaes descritas abaixo, descreva qual a populao, a amostra, o


parmetro de interesse e uma estatstca que pode ser usada para estimar o
parmetro.
a ).Para avaliar a proporo de alunos do Curso de Administrao favorveis
a eliminao da disciplina de Estatstica do currculo, selecionou-se
aleatoriamente 80 alunos do Curso.
b) Para avaliar a eficcia de um curso que orienta como fazer boa alimentao
e exerccios fsicos, selecionou-se uma amostra aleatria de 20 pessoas
obesas de uma certa cidade.
c) Para avaliar uma campanha contra o fumo, conduzida pela prefeitura de
uma cidade* acompanhou-se uma amostra aleatria de 100 fumantes,
20) Um instituto de pesquisa observou uma amostra aleatria de 800 habitantes
de uma grande cidade. Verificou que 320 indivduos desta amostra apam a
administrao da prefeitura, enquanto que os outros 480 a criticam.
a) O que se pode dizer sobre a percentagem de indivduos que apiam a
administrao da prefeitura, dentre os indivduos da amostra?
b) O que se pode dizer sobre a percentagem de indivduos que apiam a
administrao da prefeitura, dentre os habitantes da cidade?
Obs.: Em caso de estimativa, usar nvel de confiana de 95%.
21) Com o objetivo de avaliar a aceitao de um novo produto no mercado, planeja-
se fazer um levantamento amostrai para estimar a proporo de futuros
consumidores desse produto.
a) Qual deve ser o tamanho de uma amostra aleatria simples, que garanta
uma estimativa com erro mximo de 5% e nvel de confiana de 99%?
b) Efetuou-se a amostragem conforme o tamanho calculado no item (a). Foi
verificado que 200 pessoas desta amostra passariam a usar regularmente
o produto. Construa um intervalo de 99% de confiana para o parmetro
de interesse. Interprete o resultado.
22) Numa pesquisa realizada sobre uma amostra de 647 adolescentes em Santa
Catarina, 88 responderam que se sentiam frustrados sexualmente. Admitindo
que a amostragem tenha sido aleatria, construa um intervalo de 95% de
C A p T u lo 9 EsTM AO d e PARM ETRO S 177

confiana para o percentual de adolescentes catarinenses que se dizem


frustrados sexualmente.
23) Numa amostra aleatria de 12 estudantes do Curso de Administrao, que
contm cerca de 500 alunos, levantou-se o grau de satisfao do aluno com
o Curso, numa escala d 1 a 5. Os resultados foram os seguintes:
2 2 3 3 3 3 4 4 4 4 5 5
a) Construa um intervalo de 95% de confiana para o nvel mdio de satisfao
dos alunos com o Curso.
b) Admitindo que a amostra do item anterior era apenas umestudo piloto,
qual deve ser o tamanho de uma amostra aleatria simples para que o
erro amostrai no seja superior a 0,2 unidade, com 95% de confiana?
24) Para verificar a eficcia de uma dieta de emagrecimento, realizou-se um expe
rimento com 10 indivduos; que se submeteram dieta por um perodo de um
ano. A variao de peso de cada indivduo, medido em kg, apresentada abaixo.
~5 -10 5 -20 -8 10 0 -2 -8 -1
a) Calcule a mdia, mediana e desvio padro da amostra.
b) Construa um intervalo de 95% de confiana para o parmetro (x, sendo p.
a reduo de peso esperada em um ano de dieta.
c) Considerando o resultado do item anterior, voc pode afirmar, com nvel
de confiana de 95%, que a dieta em questo realmente tende emagrecer
os indivduos?
25) Uma empresa tem 2.400 empregados. Deseja-se extrair uma amostra de
empregados para verificar o grau de satisfao em relao qualidade da
comida no refeitrio. Em uma amostra piloto, numa escala de 0 a 10, obteve-
se para o grau de satisfao not mdia igual a 6,5 e desvio padro igual a 2,8.
a) Determine o tamanho mnimo da amostra, supondo um planejamento
por amostragem aleatria simples, com erro mxmo de 0,5 unidade e
nvel de confiana de 99%.
b) Considere que a amostra planejada no item anterior tenha sido realizada.
A mdia dos dados da amostra foi 5,3 e o desvio padro foi 2,6 pontos.
Faa um intervalo de 99% de confiana para o parmetro jx.
c) Considerando resultado do item anterior, voc diria com nvel de confiana
de 99%, que se a pesquisa fosse aplicada nos 2.400 funcionrios, a nota
mdia seria superior a cinco? Justifique.
d) Realizada a amostra planejada no item (a), suponha, agora, que 120
atriburam notas iguais ou superiores a cinco. Apresente um intervalo de
90% de confiana para a percentagem de indivduos da populao que
atribuiriam notas iguais ou superiores a cinco.
26) Uma pesquisa realizada por pesquisadores da Universidade Federal de Minas
Gerais, que se baseou em amostras de sangue de 250 pessoas brancas das
regies norte, nordeste, sudeste e sul, concluiu que por parte das ancestrais
mulheres, 39% da herana gentica dos brancos europia, 28% negra e 33%
indgena.9 Supondo que a amostragem tenha sido aleatria, qual a margem de
erro de cada uma dessas estimativas, considerando nvel de confiana de 95%?

9 Divulgado no Jomai Hoje - Rede Globo, em 18/04/00.


C aptu Io IO !

T e s t es es ta ts tc o s d E hipTESES

|uitas vezes o pesquisador tem alguma idia ou conjetura sobre o


comportamento de uma varivel, ou de uma possvel associao entre
variveis- Neste caso, o planejamento da pesquisa deve ser de tal forma
que permita, com os dados amostrais, testar a veracidade de suas idias
sobre a populao em estudo. Adotamos que a populao seja o mundo
real e as idias sejam as hipteses de pesquisa, que podero ser testadas
por tcnicas statsticas denominadas testes de hipteses ou testes de
significnckL " ~~~ ---------- ~

ExESiplo 10.1
a} Na problemtica de verificar se existe relao entre tabagismo e
sexo, em certa regio, pode-se lanar a seguinte hiptese: Na
regio em estudo, a propenso defumar nos homens diferente
da que ocorre nas mulheres.
b) Para se verificar o efeito de uma propaganda nas vendas de certo
produto, tem~se interesse em verificar a veracidade da hiptese:
A propaganda produz um efeito positivo nas vendas.
c) Na conduo de uma poltica educacional, pode-se ter interesse
em comparar dois mtodos de ensino. Hiptese: Os mtodos de
ensino tendem a produzir resultados diferentes de aprendizagem.

Para verificar estatisticamente a veracidade de uma hiptese,


-precisamos de um conjunto de dados, observados adequadamente na
populao em estudo.
18 0 E s t a t s t c a A pCAdA s C I n c a s S o c a s

Antes de executar a coleta dos dados, toma-se fundamental fixar


claramente a populao a ser estudada, bem como a maneira pela qual
se vai observar as variveis descritas nas hipteses. Por exemplo, numa
hiptese de associao entre sexo e tabagismo, devemos definir a regio
de abrangncia da pesquisa ou, mais precisamente, a populao a ser
estudada. Tambm devemos estabelecer uma forma de medir a varivel
tabagismo. Uma maneira razoavelmente simples de mensurar tabagismo
, a partir de critrios previamente estabelecidos, classificar os indivduos
em fumantes e no-fumantes, gerando dados categorizados.
A Tabela 10.1 apresenta os resultados da classificao de 300
indivduos, selecionados aleatoriamente de uma determinada populao,
segundo o sexo [masculino oufeminino) e tabagismo {fumante ou nofumante}.

Tabela 10.1 Distribuio de 300 pessoas, classificadas segundo o sexo e


tabagismo

Tabagismo Sexo ' Total


masculino | feminino
fumante 92 (46%) 38 (38%) 130 (43%)
no-fumante 108 (54%) 62 (62%) 170 (57%)
Total 200 (100%) 100 (100%) 300 (100%)

Na amostra, a percentagem de homens fumantes (46%) diferente


da percentagem de mulheres fumantes (38%); os dados parecem
comprovar a hiptese de que existe diferena entre homens e mulheres,
quanto varivel tabagismo. Contudo, no devemos nos esquecer que
estamos examinando uma amostra e, conseqentemente, as diferenas
observadas podem ter ocorrido por fatores casuais, de tal forma que, se
tomssemos outras amostras da mesma populao, sob as mesmas
condies, as concluses poderiam ser diferentes.

A aplicao de um teste estatstico (ou teste de signiftcncia) serve para verificar se os


dadosfomecem evidncia suficiente paraquese possaaceitar comoverdadeira ahiptese
de pesquisa, precavendo-se, com certa segurana, de que as diferenas observadas
nos dados no so meramente casuais.

10.1 As hipTESES dE UM TESTE ESTATSTICO

Dado um problema de pesquisa, o pesquisador precisa saber escrever


a chamada hiptese de trabalho ou hiptese nula, H0. Essa hiptese
C f t p T u l o 1 0 - Te s t e s esirtstcos d e k ip T & se s 181

descrita em termos de parmetros populacionais e , basicamente, uma


negao daquilo que o pesquisador deseja provar. Sob essa hiptese, as
diferenas observadas nos dados so consideradas casuais.

ExEMplo 10.1 (contNUAo) Podemos ter as seguintes hipteses nulas para


os problemas descritos anteriormente.
a) H0: A proporo de homens fumantes e ig u a l proporo de
mulheres fumantes, na populao em estudo.
b) H0: Em mdia, as vendas no aumentam com a introduo da
propaganda.
c) H0: Em mdia, os dois mtodos de ensino produzem os mesmos
resultados.
H.

Quando os dados mostrarem evidncia suficiente de que a hiptese


nula, H0, falsa, o teste a rejeita; aceitando em seu lugar a chamada
Mptese alternativa, H r A hiptese alternativa , em geral, aquilo que o
pesquisador quer provar, ou seja, a prpria hiptese de pesquisa,
considerando a forma d planejamento da pesquisa.

ExEiviplo 10,1 (continuao) As hipteses alternativas.

a) H x: A proporo de homens fumantes diferente da proporo


de mulheres fumantes, na populao em estudo.
b) H[: Em mdia, as vendas aumentam com a introduo da
propaganda. 7:
c) H l: Em mdia, os dois mtodos de ensino produzem resultados
diferentes.
m
comum H0 ser apresentada em termos de igualdade de parmetros
populacionais, enquanto H t em forma de desigualdade (maior, menor ou
diferente).
No Exemplo 10.1, item (a), H 0 descrita em termos de igualdade de
duas propores (H0: 7^ = nm, onde \ a proporo de homens fumantes
e a proporo de mulheres fumantes, na populao em estudo). Por
outro lado, a hiptese alternativa pode ser escrita como H r nh * nm. J no
Item (b), as hipteses podem ser escritas em termos de mdias da seguinte
maneira: H0: p,c = jj.s e H,: \ic > \xs, onde jxc o valor mdio das vendas com
propaganda e \xs o valor mdio das vendas sem propaganda. E em (c)?
18 2 E s t a t s t c a A p lic A d a s C n c a s S o c a s

ExEMplo 10.2 Suponha, por exemplo, que se suspeite que uma certa moeda,
usada num jogo de azar, viciada, isto , h uma tendncia de ocorrerem
mais caras do que coroas, ou mais coroas do que caras. Entendendo-s
como moeda honesta quela que tem a mesma probabilidade de dar cara
e coroa, podemos formular as hipteses da seguinte maneira:
H0: a moeda honesta e H r- a moeda viciada
Se chamarmos n probabilidade de ocorrer cara num lanamento
dessa moeda, podemos escrever:
H0: n ~ 0,5 e Ht: n & 0,5
m

10.2 Conceitos bsicos

Usaremos o Exemplo 10.2 para apresentar alguns conceitos.


Suponhamos, inicialmente, H0 como verdadeira. H0 somente vai ser
rejeitda em favor de Hr se houver evidncia suficiente que a contradiga.
A existncia dessa possvel evidncia ser verificada num conjunto de
observaes relativas ao problema em estudo (amostra). No presente
exemplo, a amostra consiste de n lanamentos imparciais da moeda.
Em cada lanamento da moeda, observamos um resultado: cara ou
coroa Ao observar n lanamentos, podemos computar o valor da estatstica:
Y = nmero total de caras nos n lanamentos
A estatstica Y poder ser usada na definio de um critrio de
deciso:
Aceitar H0 ou
Rejeitar H0 em favor de Hj
Neste contexto, a estatstica Y chamada de estatstica do teste.
Sejam n ~ 10 lanamentos e as duas seguintes amostras:
AMOSTRA. A - Suponha que nos 10 lanamentos observamos Y = 10 caras,
Podemos rejeitar H0 em favor de H,?
AMOSTRA B - E se tivssemos observado Y = 7 caras?
Na amostra A, intuitivo que existe mais evidncia para rejeitar H0.
Contudo, em nenhuma das duas situaes podemos rejeitar H0 com a
certeza de que H0 falsa, pois estamos trabalhando com um fenmeno
aleatrio, em que plenamente possvel nos 10 lanamentos de uma moeda
C a p t u o 10 - Te s t e s e s t a t s t c o s d e M p te s e s 18?

sabidamente honesta (H0 verdadeira), ocorrerem 7, 8 , 9 ou at mesmo 10


caras! Por outro lado, se a ocorrncia de um certo resultado for muito
pouco provvel para uma moeda honesta, natural decidirmos por Hr
Para realizar o teste estatstico, necessrio conhecer a
probabilidade de ocorrerem Y = 10 caras (amostra A), ou Y = 7 caras
(amostraB), em 10 lanamentos de uma moeda honesta. Mais geralmente,
precisamos da distribuio de probabilidades da estatstica do teste Y,
supondo H 0 verdadeira. Esta distribuio de probabilidades ser a
referncia bsica para analisarmos o resultado da amostra e decidirmos
entre H 0 e H r

D is iR b u i o d E r e e r n c a

No exemplo em questo, Y tem distribuio binomial com parmetros


n ~ 10 e % = 0,5 (supondo H0 verdadeira). Esta ser a distribuio de
referncia para o valor calculado da estatstica do teste, Y. A Figura 10.1
apresenta a distribuio de referncia do presente teste, sob fomia grfica.
As probabilidades, p(y), foram obtidas na tabela da distribuio binomial
(Tabela 2 do apndice). Para facilitar a exposio, essas probabilidades
foram arredondadas para trs decimais.

0 ,2 0 5 0 .2 0 5

0 ,1 1 7 0 ,1 1 7

0 ,0 4 4 0 ,0 4 4
0.0 10 ______
0 .0 0 1 4 S ---- , 0..00 I

0 1 2 3 4 5 6 7 8 9 10 h
Figura 10.1 Distribuio da estatstica Y - nmero de caras em 10 lanamentos
da moeda, sob H0{binomial com n = 10 e n ~ 0,5).

Com a distribuio de probabilidades da estatstica do teste,


podemos avaliar melhor a adequao de H0 com o resultado de Y, calculado
com base na amostra. A Figura 10.1 mostra que se H0 for verdadeira, os
resultados mais provveis esto em tomo de 5 caras. Chamaremos este
valor central da distribuio de probabilidades de valor esperado ou valor
mdio, e o denotaremos por {*.
184 E s t a t s t c a a p c a a s C n c a s S o c Sa s

VaIor p

Supndo H 0 verdadeira, aj)robabiHdadedesignificnia, ou valo*


r 'p, a probabilidade de a estatstica d teste acusar ura resultado to ou
mais distante do esperado por H0, como o resultado da amostra observada.

ExEMplo 10.5 Retomemos amostra A, em que observamos Y - 10 caras em


n = 10 lanamentos da moeda em estudo. Considerando o nmero
esperado de caras sob H 0 {pi = 5) como referncia, verificamos que to ou.
mais distante do que o valor observado na amostra (Y~ 10), encontra-se
o valor 0 e o prprio valor 10, como ilustra a Figura 10.2.

^ p(y> 0,246..'
--.-
0.205 0,205

0,117 0,117

0,044 0,044

0.001 i| ....i . . -010 0.001


0 ! 2 3 14 5 6 " 7' 8 9 T^5"
t U I
Figura 10.2 Distribuio de Y, sob HQ. As setas indicam os valores que distam
do esperado, n = 5, to ou mais do que o valor Y = 10, observado na amostra A.

Conseqentemente, a probabilidade de significncia ser:


p = p(0 ) + p ( 10) = 0.001 + 0,001 = 0 .0 0 2 (ou 0 ,2 %)
Ou seja, para uma moeda honesta (H0 verdadeira), tem-se a pequena
probabilidade p = 0 ,0 0 2 de ocorrer um resultado to ou mais distante do
valor, esperado, como o que; de fato, ocorreu neste caso (F = 10 canas).
Como p = 0,002 uma probabilidade muito pequena, natural rejeitar a
hiptese de que a moeda honesta (Hy, decidindo-se pela hiptese de
que a moeda viciada (H{).
Os dados mostram evidncia suficiente para dizer que a moeda
viciada!
m

ExEMplo 10 .4 Vejamos, agora, a amostra B, em que observamos Y - 7 caras


em n - 10 lanamentos. Nesta amostra, to ou mais distante do que o
valor Y~ 7 so encontrados os valores: 7,8,9, 10,0, l , 2 e 3 , como ilustra
a Figura 10.3.
C a p tu Io 10 Testes estatsticos d InipTEses 185

Figura 10.3 Distribuio de Y, sob H0. As setas indicam os valores que distam
do esperado, ji = 5, to ou mais do que o valor Y = 7, observado na amostra B.

Temos, entao, a seguinte probabilidade de significncia:


p ~ p(0) + p (l) + p(2) + p(3) + p(7) + p(8} + p{9) + p(10) =
- 0,001 + 0,010 + 0,044 + 0,117 + 0,117 + 0,044 + 0,010 + 0,001 =
= 0,344 (ou, 34,4%).
Esta segunda situao mostra que, para uma moeda honesta (H0
verdadeira), tem-se a probabilidade p ~ 0,344 de ocorrer um resultado
to ou mais distante do valor esperado, como o que, de fato, ocorreu
neste caso (Y = 7 caras). Como p = 0,344 no uma probabilidade
desprezvel, mais prudente no rejeitar H0.
No h evidncia suficiente para afirmar que a moeda viciada!
Ei

0 valor p aponta o quo estranho foi o resultado da amostra, se supusermos H0 a


hiptese verdadeira.

Quanto menor for o valor p, maior a evidncia para rejeitar H0. O


valor p tambm pode ser interpretado como o risco de se tomar a deciso
errada aps a observao da amostra, caso se rejeite H0. Por exemplo, se
afirmssemos que a moeda viciada com a evidncia de Y ~ 7 caras, em
ri = 10 lanamentos, estaramos incorrendo num risco de 34,4% de
estarmos fazendo uma afirmao errada.

NveI cIe sqncnca

Ainda na fase do planejamento de uma pesquisa, quando desejamos


confirmar ou refutar alguma hiptese, comum estabelecer o valor da
probabilidade tolervel de incorrer no erro de rejeitar H0, quando H 0
186 E sta ts tc a Aplicada. s C e n c a s S o c a s

verdadeira. Este valor conhecido como nvel de significncia do teste


e designado pela letra grega a. Em pesquisa social, comum adotar
nvel de significncia de 5 % , isto , a = 0,05.
Estabelecido o nvel de significncia a, tem-se a seguinte regra geral
de deciso de ,um teste estatstico:
p > a "^ aceita H 0
p < a " rejeita H0, em favor de

ExEMplo 10J (contnuao) Seja o nvel de significncia de 5% (oc= 0,05). Na


amostra A, quando observamos dez caras em dez lanamentos, o teste
estatstico rejeita H0, em favor de {pois a probabilidade de significncia,
calculada com base na amostra, foi p = 0 ,0 02 e, portanto, menor do que o
valor adotado para a).

ExEMplo 1 0 . 4 (contnuao) Seja a = 0,05. Na amostra B , quando observamos


sete caras em dez lanamentos, o teste estatstico no rejeita H0, porque a
probabilidade de significncia, calculada com base na amostra, foi p = 0,344;
que no menor do que o valor adotado para a.

Quando o teste rejeita H0 em favor de H 1(p < a), a probabilidade de se


estar tomando a deciso errada , no mximo, igual ao nvel de significncia
a adotado. Desta forma, temos certa garantia da veracidade de Hr
Uma interpretao um pouco diferente dada quando o teste aceita
a hiptese nula H0 (p > a). Neste caso, podemos dizer: os dados esto em
conformidade com a hiptese nidal Isto no implica, contudo, que H0 seja
realmente a hiptese verdadeira, mas que os dados no mostraram
evidncia suficiente para rejeit-la e, por isso, continuamos acreditando
em sua veracidade. Conforme Ronald A. Fisher, conhecido como o pai da
estatstica experimental (Fisher, 1956, p. 16):

A hiptese nula pode ou no ser impugnada pelos resultados de um


experimento. Ela nunca pode ser provada, mas pode ser desaprovada no
curso da experimentao.

Estabelecido um nvel de significncia a antes da observao dos


dados, temos as seguintes possibilidades:
G v p r u l o 1 0 - Testes estatsticos d e hipTeses 187

Realidade Deciso do teste


(desconhecida)' Aceita Ho Rejeita Ho
Deciso Erro tipo I
Ho verdadeira
correta (Probab. ~ a)
Erro tipo II Deciso
Ho falsa
(Probab. = $} correta

Observamos no esquema que, se o teste rejeitarH0, temos controle


do risco de erro (probabilidade igual a a). Por outro lado, se o teste aceitar
H0, no temos controle do risc de erro. No esquema, representamos a
probabilidade de ocorrer o erro tipo II como (3, mas, ao contrrio de a, a
probabilidade p.no fixada a prior Em razo disso, estamos usando
uma linguagem mais enftica quando o teste rejeita H0 (p. ex., os dados
provaram estatisticamente que a moeda viciada) e uma linguagem mais
suave quando o teste aceita H 0 (p. ex., os dados no mostraram evidncia
suficiente de que a moeda viciada, portanto admite-se que ela honestai.

E x e r c c io s

lJ^Sejair^ probabilidade de cara de uma certa moeda. Sejam H0: n = 0,5 e H,: n
* 0,5.^Lana-se 12 vezes esta moeda, observando-se o nmero de caras.
, t)sanclo a tabela da distribuio binomial (Tabela 2 do apndice), obtenha a
probabilidade de significncia para cada um dos seguintes resultados:
a) 1 cara; b) 4 caras e c) 11 caras.
2) Adotando o nvel de significncia de 5%, qual a concluso do teste em cada
item do Exerccio 1.
3) possvel, para uma mesma amostra, aceitar H0 ao nvel de significncia de
1%, mas rejeit-la ao nvel de 5%? E o inverso? Exemplifique.

10 J Testes unIateras e B U eras

No teste discutido no tpico anterior, a rejeio de H0: n = 0,5, em


favor de n * 0,5, se d tanto quando ocorre um valor muito pequeno,
quanto muito grande de caras. Essa uma situao tpica de teste bilateral
Existem situaes em que pretendemos rejeitar H0 somente num
dos sentidos. Por exemplo, se suspeitamos que a moeda tende a dar mais
caras do que coroas, ento, sendo n a probabilidade de ocorrer cara, o
teste pode ser formulado da seguinte maneira:
188 E s t a t s t c a ApCAdA s C n c a s S o c a s

H0: ti = 0,5 (a moeda honesta) e


H,: t > 0,5 (a moeda tende a dar mais caras do que coroas).
Com essas hipteses, s faz sentido rejeitar H0, em favor de Hr se
na amostra ocorrer um nmero significativamente maior de caras do que
de coroas, resultando no que chamamos de teste unilateraL

Um teste pode ser unilateral ou bilateral, dependendo do problema em estudo. Nos


testes uRiateras, a probabilidade de significncia computada em apenas um dos
lados da distribuio de referncia.

ExEMplo 10.5 Considere que, para testar H0: % = 0,5 contra % > 0,5,
tenhamos lanado a moeda n = 10 vezes e observado Y ~ 7 caras. A
probabilidade de significncia ser:
p = p(7) + p(8 ) + p(9) + p(l0) = 0,117 + 0,044 + 0,010 + 0,001 = 0,172
que corresponde metade da probabilidade de significncia do teste
bilateral, discutido no Exemplo 10.4. Com o nvel de significncia de 5%,
o teste no rejeita H0 (pois, p > a). Veja a Figura 10.4.

Figura 10.4 Ilustrao do clculo da probabilidade de significncia de um


teste unilateral (Exemplo 10.5).

ExEMplo 10.6 (Teixeira, Meinert e Barbetta, 1987, p. 137) Com o objetivo de


testar se a diferena de odor em sorvetes de morango percebida por
degustadores, efetuou-se o seguinte experimento: para cada um dos 8
(oito) degustadores selecionados para o experimento, foram dadas, em
ordem aleatria e sem identificao, duas amostras de sorvete, sendo
uma com odor mais forte utr normal. As amostras de sorvete foram
elaboradas de forma to similar quanto possvel, com exceo da
intensidade de odor, que a caracterstica em estudo.
C a p t u Io 10 T e s t e s e s t a t s t c o s d e ^ ip T E scs 189

Chamando de n a probabilidade de o degustador acusar


corretamente a amostra de sorvete com odor mais intenso, temos interesse
em testar as seguintes hipteses.
H0: % = 0,5 {o degstador chuto a resposta, isto , o odor mais intenso
no detectado) e
H,: t i > 0,5 (existe uma tendncia do degustador perceber o sorvete
que tem o odor mais intenso).
Seja Y o nmero de degustadores que indicam corretamente o
sorvete com odor mais intenso. Pelas caractersticas do experimento,
podemos deduzir que se H 0 for correta, a estatstica Y tem distribuio
binomial com n = 8 e n = 0,5.
Os resultados do experimento mostraram que dos oito degustadores,
seis indicaram corretamente o sorvete de odor mais intenso (Y= 6 ). Usando
a distribuio binomial (Tabela 2 do apndice), podemos computar a
probabilidade de significncia:
p p( 6 ) + p(7) + p(8 ) = 0,109 + 0,031 + 0,004 = 0,144
Assim, se estamos trabalhando com o nvel de significncia de 5% (a
= 0,05), a hiptese nula no pode ser rejeitada. Portanto, conclumos que os
dados resultantes do experimento so insuficientes para se afirmar que a
diferena de odor em sorvetes de morango seja percebida pelos degustadores.

E x e r c c io s

4) Para cada um dos itens do Exemplo 10.1, descrever qual a abordagem


(unilateral ou bilateral) mais apropriada.
5) Seja t a probabilidade de cara de uma certa moeda. Sejam H0: rt - 0,5 e H,: n
< 0,5; Lana-se 12 vezes esta moeda, observando-se o nmero de caras.
Usando a tabela da distribuio binomial (Tabela 2 do apndice), obtenha a
probabilidade de significncia para cada um dos seguintes resultados:
a) 1 cara b) 4 caras e c) 6 caras.
Usando nvel de significncia de 5%, em quais casos acima o teste rejeita H0?

10.4 Uso d E diSTRibuiES a p ro x m a c a s

Os exemplos de testes de hipteses discutidos at aqui usavam


amostras de tamanho pequeno, ,o que permitia o uso da tabela da
distribuio binomial no clculo das probabilidades de significncia. Em
190 E s t a t s t c a A p liC A d A s C i n c ia s S o c ia s

experimentos binomiais, quando o tamanho da amostra, n, for grande, a


probabilidade de significncia pode ser obtida, de forma aproximada, pela
distribuio normal de parmetros:1
fi-n -it e o = -Jn n - (l - ti)

ExEMplo 10 .7 Considere que, para testar H0: n - 0,5 contra Hj: %> 0,5, onde
k a probabilidade de cara de uma certa moeda, tenham sido realizados
n = 40 lanamentos, dos quais 28 deram.caras. Este resultado leva
rejeio de H0, em favor de ao nvel de significncia de 5%?
Soluo: Como n grande, vamos calcular a probabilidade de significncia
pela distribuio normal. Levando-se em conta que o teste unilateral
(H}: rc >.p,.5)ra probabilidade de significncia vai se identificar com uma
re na cauda superior da curva normal. Considerando o resultado
observado, Y ~ 28 caras, e aplicando a correo de continuidade (Seo
8.4, Captulo 8 ), a probabilidade de significncia corresponde rea acima
do ponto 27,5, como ilustra a Figura 10.5.

Figura 10.5 Obteno de uma probabilidade de significncia


atravs do modelo normal.

Para realizar o.clculo da rea indicada na Figura 10.5, precisamos


calcular os parmetros do modelo normal:

jx - (40) [0,5} = 20 e <r = v'(40) (0,5) - (0,5) =3,16

O valor 27,5 da escala original (escala x) corresponde ao seguinte


valor padronizado (escala z):
z=iW = 27,5-20
a 3,16

1 Vimos no Captulo 8 que vale a aproximao normal se: (a) n - i t > 5 e ( b ) n ( 1- n) > 5,
onde it o valor declarado em H0.
C A p r u io 10 - T e ste s estatsticos d e h i p i e s e s 191

Usando a tabela da distribuio normal padro (Tabela 4 do


apndice), encontramos para z = 2,37 a rea na cauda superior da curva
igual a 0,0089. Temos, ento, p = 0,0089. Sendo o teste unilateral, este j
o valor p. Como p = 0,0089 menor do que o nvel de significncia
adotado (a = 0,05), o teste rejeita H0, concluindo que a moeda tende a dar
mais caras do que coroas.

E x e r c c o s

6) Refaa os clculos do Exerccio 1, usando a distribuio normal. Compare os


resultados.
7} Seja ti a probabilidade de coroa de uma certa moeda. Com o objetivo de testar
Hq: ti = 0,5 contra : n > 0,5; fizeram-se 50 lanamentos desta moeda, obtendo-
se 31 coroas.
a) O teste rejeita H0 ao nvel de significncia de 5% (a = 0,05)?
b) E se estivssemos trabalhando com o nvel de significncia de 1% (a - 0,01)?
8) (Levin, 1985, p. 274) Para testar se consumidores habituais de determinada
margarina eram capazes de identific-la num teste comparativo com outra
margarina, foi realizado o seguinte experimento; 20 consumidores habituais
da margarina A provaram, cada um, em ordem aleatria, 2 pedaos de po -
um com A e outro com B (margarina desconhecida); cada degustador, aps
provar os 2 pedaos de po com margarina, procurou identificar A, dizendo o
nmero 1 ou 2, conforme a ordem - sempre casual - em que tenha recebido
os pedaos de po) No houve comunicao entre os degustadores. Ao cabo
do experimento, verificou-se que 15 respostas estavam corretas. Pode-se
afirmar, com nvel de significncia de 5%, que h uma tendncia de os
degustadores conseguirem, de fato, reconhecerem A?
9) Quarenta pessoas se matricularam num curso de escrita criativa. Na primeira
aula foi aplicado um teste para verificar a capacidade de escrever de cada
aluno. Ao final do curso foi aplicado novo teste. Um especialista verificou
quem melhorou e quem piorou sua capacidade de escrever, encontrando 30
que melhoraram e 10 que pioraram. stes dados mostram evidncia suficiente
para se afirmar que o curso tende a melhorar a capacidade de escrita?

10 5 ApLiCAO d E TESTES ESTATSTICOS NA PESQUSA

Formulada uma perguntai ou uma hiptese de pesquisa, o


pesquisador precisa planejar a coleta de dados e um teste estatstico
adequado situao. Nos captulos seguintes, sero apresentados alguns
testes bastante aplicados em pesquisas nas reas das cincias humanas
19 2 Estatstca AplCAdA s C incias Sociais

e sociais. Eles se diferenciara, basicamente, pelo tipo de problema que se


pretende resolver e pelo tipo de varivel em estudo. Existem testes voltados
para variveis quantitativas, em que normalmente as hipteses so
apresentadas em termos de mdias e testes voltados para variveis
qualitativas, em que as hipteses so apresentadas em termos de
propores ou probabilidades de eventos. Os exemplos deste captulo esto
no segundo caso.
Em geral, na aplicao de um teste estatstico, devemos saber:
a) formular H0 e H[ em termos de parmetros populacionais;
b) como obter a estatstica do teste (no exemplo da moeda, Y~ nmero
de caras);
c) qual a distribuio de referncia para calcular o valor p (no
exemplo da moeda a distribuio binomial ~ ou a normal quando
n grande);
d) quais as suposies bsicas para o uso do teste escolhido (no
exemplo da moeda, supusemos que os lanamentos foram
imparciais e realizados sob as mesmas condies - amostragem
aleatria simples).
A deciso do teste estatstico feita pela comparao do valor p
com o nvel de significncia a preestabelecido, mas a implicao do
resultado estatstico depende da aplicao em questo. Por exemplo, num
estudo experimental, normalmente a deciso do teste estatstico implica
numa relao de causa e efeito, mas num estudo de levantamento, o
resultado do teste usualmente leva apenas a uma concluso de diferena
entre grupos.
Hoje em dia, o clculo da estatstica do teste e a obteno do valor
p tomaram tarefas relativamente fceis com o auxlio do computador. Ou
seja, o pesquisador no mais precisa ter habilidades em clculos algbricos
para realizar testes estatsticos. Por outro lado, a anlise do problema de
pesquisa, o planejamento da coleta dos dados, a escolha do teste
estatstico, a verificao das suposies e a correta interpretao do
resultado estatstico exigem conhecimento, raciocnio lgico e maturidade.

Ex e r c c io s c o m p Ie m e n t a r e s

10) Para cada um. dos itens a seguir, apresente as hipteses nula e alternativa, -
indicando qual abordagem (unilateral ou bilateral) a mais adequada,
a) Um mtodo de treinamento tende a aumentar a produtividade dos;
funcionrios.
C aptu Io 10 - Testes estatstcos de -iipresES 19?

b) A velocidade de um veculo num percurso , em mdia, menor do que o


valor anunciado.
c) Dois mtodos de treinamento tendem a produzir resultados diferentes na
produtividade.
11) Para verificar as hipteses de seu trabalho, um pesquisador fez vrios testes
estatsticos (um para cada hiptese de pesquisa), adotando para cada teste o
nvel de significncia de 5%. Responda aos seguintes itens:
a) Num dado teste, o valor p foi igual a 0,0001. Com base no resultado da
amostra, qual deve ser a concluso (decide-se pela hiptese nula ou pela
hiptese alternativa)? Com base no resultado da amostra, qual o risco
de o pesquisador estar tomando a deciso errada?
b) Em outro teste, o valor p foi igual a 0,25. Qual a concluso? Qual o risco
de o pesquisador estar tomando a deciso errada?
c) Em outros dois testes, o valorpfoi 0,0001 e 0,01, respectivamente. Supondo
que se tenha adotado nvel de significncia de 5%, em qual dos dois-testes .
o pesquisador deve estar mais convicto da rejeio de H0? Por qu?
12) Com o objetivo de testar se uma certa moeda est viciada, decide-se lan-la
vrias vezes de forma imparcial e sempre sob as mesmas condies.
a) Se em 8 lanamentos ocorreram 2 caras(e 6 coroas),qual aconcluso
do teste ao nvel de significncia de 5%?
b) Se em 80 lanamentos ocorreram 20 caras (e 60 coroas), qual aconcluso
do teste ao nvel de significncia de 5%?
13) Para testar se uma criana tem algum conhecimento sobre determinado
assunto, foram elaboradas 12 questes do tipo certo-errado. A criana acertou
11. Qual a concluso ao nvel de significncia de 5%?
14) Para testar se uma criana tem algum conhecimento sobre determinado
assunto, foram elaboradas 12 questes, cada uma com 4 possibilidades de
escolha. A criana acertou 5.
a) Formule as hipteses em termos do parmetro n = probabilidade de acerto
de cada questo.
b) Qual o nmero esperado de acertos sob H0.
c) Calcule o valor p.
d) Qual a concluso do teste ao nvel de significncia de 5%?
15) Para testar se um sistema computacional inteligente adquiriu algum
conhecimento sobre determinado assunto, foram elaboradas 60 questes do
tipo certo-errado. O sistema acertou 40. Qual a concluso do teste ao nvel
de significncia de 5%?
C P t u Io 11

Testes de c o m p a ra o entre

duAS AMOSTRAS

o Captulo 10, introduzimos alguns conceitos bsicos da metodologia

N dos testes estatsticos de hipteses, ou testes de significncia. Neste


captulo, discutiremos alguns testes bastante usados em pesquisa social,
com nfase nos chamados testes t de comparao entre duas mdias.
Iniciaremos com a apresentao de alguns problemas de pesquisa que
envolvem testes estatsticos.

11.1 Testes d E siqNifcNCiA e dEiNEAiviENTOs dE p e sq u sa

Em geral, os testes estatsticos so usados para comparar diferentes


grupos de elementos (pessoas, animais, etc.), com respeito a alguma
varivel de interesse {varivel resposta). Esses grupos podem diferir quanto
a diferentes tratamentos aplicados a seus elementos, ou a diferentes
populaes de onde os elementos foram extrados.

ExEMplo 11.1 Para comparar dois mtodos, A e B , de ensinar matemtica


para crianas, podemos aplicar o mtodo A num grupo de crianas e o
m todo B em outro grupo, Para evitar a influncia de fatores
intervenientes, a composio prvia dos dois grupos deve ser feita de
forma aleatria.1 Ao longo do experimento, ambos os grupos devem ser
tratados sob as mesmas condies, exceto quanto aos mtodos de ensino

1 A diviso aleatria pode ser feita por sorteio ou atravs de uma tabela de nmeros aleatrios.
Veja o Exerccio 5, Captulo 3.
196 Estatstca apcacIa s C ncas SocaS

em estudo. A comparao entre os dois grupos realizada atravs de


uma avaliao que mensure os conhecimentos de matemtica de cada
criana (veja a Figura 11.1).
Crianas selecionadas para o experimento:

t S M Ils i
Mtodo A Mtodo B
Diviso aleatria

'

Notas das crianas Notas das crianas


provindas do mtodo A provindas do mtodo B
Figura 11.1 Esquema do planejamento de um experimento para comparar dois
mtodos de ensinar matemtica para crianas..

A aleatorizao dos grupos fundamental para resguardar a


validade de um teste de significncia (Fisher, 1956, p. 19). Entende-se
por aleatorizao no somente a diviso aleatria dos elementos nos;
grupos, mas tambm, as condies idnticas em que esses grupos devem
ser tratados, a no ser, claro, pelos diferentes tratamentos em estudo.
No Exemplo 11 . 1, devemos evitar qualquer interao entre as crianas
dos dois grupos, qualquer variao devida aos instrutores, etc.

ExEMplo 11.2 Para comparar o peso de recm-nascidos, em duas localidades,


podemos extrair uma amostra aleatria de nascimentos em cada
localidade, observando os pesos (veja a Figura 11.2).

Figura 11.2 Esquema_de um planejamento amostrai, num studo tipo


levantamento, para comparar o peso e recm-nascidos,, em duas localidades.
C a p t u I o 11 Testes dE comparao entre duAs amostras 19 7

Os testes estatsticos permitemavaliar se as diferenas observadas entre os dois grupos


podem ser meramente justificadas por fatores casuais (H0), ou se tais diferenas so
reais (Hj).

Diferenas reais {significativas}, podem ser causadas pelos diferentes


tratamentos utilizados nos grupos em anlise, como no Exemplo 11.1,
ou pelas diferentes populaes que geraram as amostras em estudo, como
no Exemplo 11.2.
O Exemplo 11.3 mostra uma situao em que o objetivo central
comparar o comportamento de uma varivel, observada sobre um conjunto
de elementos, em dois momentos diferentes.

Exempio 1IJ Com o objetivo de avaliar o efeito de um programa de treinamento


sobre a produtividade dos funcionrios de uma certa empresa, foi realizado
um estudo em que se observou a produtividade de uma amostra de
funcionrios antes e depois do programa de treinamento (veja a Figura 11.3).
Amostra de n funcionrios:
* S L |||| Amostra da
produtividade antes.
Programa de treinamento

Amostra da
produtividade depois.
Figura 11.3 Esquema de um estudo, po antes-e-depois,
para avaliar o efeito de um programa de treinamento na
produtividade de funcionrios de uma empresa.

O planejamento de pesquisa descrito no Exemplo 11.3 vai gerar


dados parecidos, pois cada funcionrio estar associado a um par de
medidas: uma antes e outra depois da aplicao do programa de
treinamento. Por outro lado, os planejamentos descritos nos Exemplos
11.1 e 11.2 geram amostras independentes, j que as medidas so
extradas de grupos de elementos distintos e independentes.
O planejamento tipo antes-e-depois apenas um exemplo de gerao
de dados pareados. Outro caso comum ocorre quando formamos pares
de indivduos relativamente similares, aplicando tratamentos diferentes
nos indivduos_de ada par. Por exemplo, na comparao de dois mtodos
de ensino (Exemplo 11.1), podemos formar pares de indivduos to
similares quanto possvel em termos de inteligncia e conhecimento prvio
sobre assuntos correlacionados (ver Figura 11.4).
198 E s t a t s t c a a p I c a c I a s C n c a s S o c a s

Pares de vnvi
indivduos ;
similares: Jji!

Figura 11.4 Planejamento de pesquisa altematyo para o Exemplo 11.1 - dados pareados.

Ao realizar o planejamento de uma pesquisa, undamental planejar,


tambm, o procedimento estatstico que vai ser usado na anlise dos
dados. Particularmente, em pesquisas confirmatrias, isto , naquelas
em que temos hipteses que desejamos colocar prova, devemos realizar
o planejamento da pesquisa preocupando~nos em verificar se a realizao
da pesquisa planejada vai gerar dados pareados ou amostras
independentes, dados quantitativos ou categorizados, e assim por diante.
Para cada situao, h um teste estatstico especfico.
Um cuidado bsico no planejamento (delineamento} de uma
pesquisa a perfeita coerncia que deve haver entre a hiptese a ser
testada e o planejamento e realizao da pesquisa. Por exemplo, o
planejamento proposto para o Exemplo 11.3 {procedimento antes~e~depois)
somente recomendado quando se tem segurana de que, no perodo
entre as duas mensuraes, o nico fator que afeta sistematicamente os
dados (valores de produtividade) o fator em estudo (programa de
treinamento). Caso contrrio, mais recomendado um delineamento como
proposto no Exemplo 11.1 (amostras independentes).
Vamos apresentar alguns testes estatsticos que podem ser aplicados
em problemas de comparao entre duas amostras, discutindo as
situaes adequadas para suas aplicaes.

11.2 0 . teste dos snas

O teste dos sinais no uma das tcnicas estatsticas mais usadas


em pesquisas sociais, mas ser apresentado em primeiro lugar devido a
sua simplicidade e por usar distribuies de probabilidades bastante
discutidas em captulos anteriores. Este teste adequado quando:
- os dados so pareados e
~ a varivel em estudo observada, ou analisada, de forma qualitativa,
e com apenas duas categorias, tal como: melhorou ou piorou.
C a p t u Io 11 - Te s t e s d E co m parao en tre duAS am o stras 199

Voltemos a considerar o Exemplo 1 1.3, em que se quer verificar se


um certo programa de treinamento aumenta a produtividade dos
funcionrios de uma certa empresa. Temos, ento, as seguintes hipteses:
H0: a produtividade no se altera com o programa de treinamento;
Hj: a produtividade aumenta com o programa de treinamento.
Vamos supor que ao observar a produtividade de um funcionrio,
antes e depois da realizao do programa de treinamento, possvel avaliar
se melhorou ou piorou. Neste contexto, as hipteses podem ser colocadas
em termos do parmetro it da distribuio binomial, como segue.
H0: n = 0,5 e H,: n > 0,5
onde n representa a probabilidade do funcionrio aumentar a produtividade
aps o treinamento.
O teste realizado com base numa amostra de n funcionrios. Para
cada funcionrio observada a sua produtividade antes e depois da
aplicao do programa de treinamento, verificando se melhorou (sinal +)
ou se piorou (sinal -~). A estatstica do teste o nmero Y de funcionrios
que aumentam a sua produtividade.
Supondo que:
- todos os funcionrios sejam observados sob as mesmas condies;
- no haja interao entre os funcionrios que esto participando
da pesquisa; e
- o nico fator que esteja influenciando sistematicamente a produ
tividade dos funcionrios, ao longo do estudo, seja o programa
de treinamento.
a estatstica Ytem distribuio binomial com parmetros n e n (anlogo ao
exemplo da moeda do captulo anterior). Assim, o valor p pode ser computado
pela distribuio binomial ou, quando rc.for grande, pela distribuio normal.
Considere que n - 10 funcionrios participaram da pesquisa descrita
no Exemplo 11.3, gerando os resultados constantes na Tabela 11.1. O
sinal + indica que o funcionrio melhorou sua produtividade aps o
treinamento, e o sinal - indica que piorou.

Tabela 11.1 Avaliao qualitativa da produtividade de 10 funcionrios, antes


e depois de serem submetidos a um programa experimental de treinamento.
Avaliao da Avaliao da
Funcionrio Funcionrio produtividade
produtividade
Joo + Joana 4*
Maria " + 'Flvio +
Jos - Paulo +
Pedro + Catarina -
Rita - Felipe +
20 0 E s t a t s t c a A p lic A d A s C n c a s S o c ia s

Pela Tabela 11.1, temos: Y = 7. Assim, pela distribuio binomial


(Tabela 2 do apndice), com n = 10 e tc = 0,5, temos:
p = p (7 ) + p(8 ) -f p(9) + p( 10) = 0,1172 + 0,0439 + 0,0098 + 0,0010 =
= 0,1719.
Considerando o nvel de significncia de 5% (a = 0,05), o teste dos
sinais no pode rejeitar H 0 em favor de H x(pois, p >a ) . Conclumos, ento,
que os dados no mostram evidncia suficiente para garantir que o
programa de treinamento melhora a produtividade de funcionrios.
Num estudo tipo antes-e~depois, muitas vezes no possvel
distinguir se um certo indivduo melhorou ou piorou. Neste caso, comum
desprezar esses indivduos da amostra (veja o Exerccio ld). Contudo, se
houver um nmero grande de indivduos nessa situao, a aplicao deste
teste estatstico pode ficar prejudicada.

E x e r c c io s

1) Com o objetivo de avaliar se o desempenho de um certo candidato, numa


apresentao em pblico, foi positivo, foi selecionada uma amostra de unia
grande platia, indagando de cada um, sua opinio sobre o candidato (se
melhorou ou se piorou), antes e depois da apresentao.
a) Apresente as hipteses nula e alternativa.
b) Se, numa amostra de 11 pessoas, 8 passaram a ter uma opinio mais
favorvel, enquanto 3 passaram a ter opinio menos favorvel sobre o
candidato, o que se pode afirmar? Use nvel de significncia de 5%.
c) Se, numa amostra de 200 pessoas, 130 passaram a ter melhor impresso,
enquanto 70 pioraram sua impresso sobre o candidato, o que se pode
afirmar? Com que probabilidade de significncia? Sugesto: use a
aproximao normal (Seo 8.3)-
d) Considere que exista tambm a resposta opinio inalterada. Numa amostra
de 100 pessoas, 60 passaram a ter opinio mais favorvel, 30 passaram a
ter opinio menos favorvel e 10 mantiveram a mesma opinio. O que se
pode afirmar, ao nvel de significncia de 5%? Sugesto: elimine da amostra
as pessoas cujas opinies ficaram inalteradas.
2) (Siegel, 1981, p.80.) Um pesquisador est interessado em avaliar se determinado
filme, sobre delinqncia juvenil, contribui para modificar a opinio de uma
comunidade sobre quo severa deve ser a punio em tais casos. Para tanto,
ele extrai uma amostra aleatria de 100 indivduos da comunidade e realiza
um estudo tipo antes-e-depois. Pergunta a cada indivduo da amostra se devem
aplicar, nos casos de delinqncia juvenil, punio mais forte ou mais fraca do
q~ qe vem sendo aplicada correntemente. m seguida, exibe o filme para
estes 100 indivduos e, aps a exibio, repete a pergunta. Oitenta e cinco
indivduos mudaram de opinio, sendo que 59 deles modificaram sua opinio
CaptuIo II Testes <Je comparao entre cuas amostras 201

de mais para menos, enquanto que 26 de menos para mais. Estes dados
mostram evidncia suficiente de que o filme produz um efeito sistemtico nos
indivduos da comunidade em estudo? Com que probabilidade de significncia?

II3 0 Teste rpARA cM os pareacIos

O chamado teste t apropriado para; comparar dois conjuntos de


dados quantitativos, em termos de seus valores mdios. Nesta seo,
trataremos do caso em que os dados so pareados.

ExEMplo 11.4 Retomemos o problema do Exemplo 11.3, mas, agora, vamos


supor que a varivel produtividade possa ser mensurada quantitativamente,
numa escala que varia de 20 a 40 pontos. Para aplicar o teste t, as hipteses
devero ser formuladas em termos de valores mdios, como segue:
H0: a produtividade mdia dos funcionrios no se altera com o
programa de treinamento;
H t: a produtividade mediados funcionrios aumento com o programa
de treinamento.
Ou, ainda,
Ho- Hiepos ~ Hwtes e ^1* Hiepos > Hmtes
onde:
Hmtes: produtividade mdia dos funcionrios antes do treinamento; e
Hiepos: produtividade mdia dos funcionrios depois do treinamento.

Para colocar H0 prova, vamos observar os n = 10 funcionrios,


antes e depois de receberem o programa de treinamento (duas amostras
pareadas de valores de produtividade). Os dados esto na Tabela 11.2 .

Tabela 11.2 Valor da produtividade de cada funcionrio, antes e depois


de um programa experimental de treinamento.
Produtividade
Funcionrio Antes Depois Diferena
Xi Xa D -Xa-Xi
Joo 22 25 3
Maria 21 28 7
Jos 28 26 -2
Pedro 30 36 6
Rita 33 32 -1
Joana 33 39 6
Flvio 26----- --'28 - 2
Paulo 24 33 9
Catarina 31 30 -1
Felipe 22 27 5
202 E s t a t s t c a A p iC A d A s G n c a s S o c a s

A ltima coluna da Tabela 11.2 mostra a diferena entre os valores


de produtividade antes e depois. Esses incrementos (ou redues) de
produtividade esto tambm apresentados na Figura 11.5, sob forma de
um diagrama de pontos.

O8------------- o o o8o i o
~2 3 . 8
Variao da produtividade entre as duas medidas

Figura 11.5 Diagrama de pontos das diferenas de


produtividade.

Observamos no diagrama de pontos da amostra que houve uma


tendncia de ocorrer diferenas positivas {valores de produtividade depois
maiores, em geral, do que os valores de produtividade antes). A realizao
do teste t permite verificar se esta tendncia no poderia ser explicada,
apenas, por efeitos casuais.
g

Estatstca do teste

A estatstica do teste baseia-se nos valores observados da varivel


D, definida pela diferena de valores em cada par. Num estudo tipo antes-
e-depois:
D = (medida depois) - {medida antes)
Se a hiptese nula for correta, devemos esperar que os valores desta
varivel estejam em tomo de zero ou, ainda, que a mdia destas diferenas,
D, esteja prxima de zero. Usaremos, como estatstica do teste, uma
funo de D, conhecida como estatstica t para dados pareados, que
definida por:

Sd
onde
n : tamanho das amostras, que, neste caso, corresponde ao nmero
_ de pares observados;
D : mdia das diferenas internas dos pares; e
SD*:desvio padro ds diferenas internas dos pares.
Cprulo 11 - Testes de comparao entre duAS amostras 205

ExEMplo 11.4 (contnuao) Diferenas D (ltima coluna da Tabela 1 1.2):


3, 7, -2, 6 , -1, 6 , 2, 9, - 1, 5
Ento:

n 10

E, portanto,
D^/n = 3 . W I
Sd 3,81

O fato de a estatstica do teste ser funo de n bem razovel, j


que, quanto maior o tamanho da amostra, mais conhecimento se tem
sobre o fenmeno em estudo e, conseqentemente, um certo afastamento
entre D e zero tem menor probabilidade de ser explicado meramente pelo
acaso. A estatstica tambm funo do desvio padro SD, que uma
medida do gra de heterogeneidade daquilo que estamos estudando.
Quanto maior esta heterogeneidade, maiores devem ser as diferenas
observadas entre as duas medidas para evidenciar uma diferena mdia
real (ou significativa) entre elas.

DisTRibuio do teste

Quando o valor calculado da estatstica t estiver prximo de zero,


H 0 poder ser aceita. Por outro lado, se t estiver longe de zero, H0 dever
ser rejeitada, em favor de H r necessrio, porm, ter uma distribuio
de referncia para especificarmos o que significa prximo ou longe de
zero. Esta distribuio de referncia existe sob a seguinte suposio.
Suposio bsica para a aplicao do teste: Teoricamente, devemos supor
que a varivel D (diferena entre as duas mensuraes) segue uma
distribuio normal. Contudo, se o nmero de pares for razoavelmente
grande (n> 30, por exemplo), o teste ainda permanece vlido, mesmo que
a varivel D no tenha distribuio normal.
Na prtica, recomendamos fazer histogramas de freqncias ou
diagramas de pontos das duas amostras para verificar se no existe algum
ponto discrepante ou forte assimetria, o que poderia comprometer a
204 E s t a t s t c a A p iiCAdA s C n c a s S o c a s

validade deste teste estatstico. Alternativamente, esta anlise exploratria


pode ser feita com os valores da varivel D, como foi apresentado na
Figura 11.5, onde no parece haver ponto discrepante ou forte assimetria.
Distribuio de referncia: Sob H0, e considerando a suposio acima
descrita, a estatstica t tem distribuio t de Student comgl = n - 1 graus
de liberdade (veja Figura 11.6).

P o s s v e is v a lo r e s d a e s ta t s t ic a

Figura 11.6 Distribuio de referncia para o teste do Exemplo 11.5.


A Distribuio t de Student com gl = 9 graus de liberdade.

A Figura 11.6 mostra a distribuio dos possveis valores da


estatstica t na suposio de no haver diferena real entre as duas
mensuraes (H0) - somente variaes casuais em tomo de zero.

\^PRO^bi[idAdE dE siqNificNciA.

Depois de observar os dados e calcular o valor da estatstica t,


podemos obter o valor p pela distribuio t de Student (Tabela 5 do
apndice), conforme mostrado na continuao do Exemplo 11.4.

ExEMplo .11.4 (contnuao) Para testar H0: pdepols = versus H s: pdepo!s >
Hmtes observamos uma amostra de n = 10 funcionrios, que produziu o
valor t = 2,82. Como n. = 10, temos gl = n - 1 = 9 graus de liberdade.
Tomemos, ento, a linha de gl = 9 da Tabela 5 do apndice, como mostra
a Figura 11.7. Por esta tabela, obtemos a rea relativa a um valor maior
ou igual a t = 2,82. Como o teste unilateral, esta fj corresponde
probabilidade de significncia p-descrita pelos dados da amostra.
O p T u lo 11 - T e ste s d e c o m p a r a o e n t r e duAS a m o s t r a s 2 0 ?

Amostras
rea na cauda superior
gl 0,25 0,10 0,05 0,025 0,010^ 0,005 ...

0 = 2,82
Figura 11.7 Us da distribuio t de Student com gl = 9 para a obteno da probabilidade de
significncia num teste unilateral, com n = 10 e = 2,82.

Observando a linha correspondente a.gl=9, verificamos, na tabela,


que o valor t = 2,82 (calculado com base na amostra) est prximo do
valor tabulado 2,821, Logo, como ilustra a Figura 11.7, a probabilidade
de significncia , aproximadamente, p = 0 ,0 1 0 .
Considerando o nvel de significncia de 5% (a - 0,05), o teste
conclui que os dados mostram evidncia suficiente de que H0 falsa
(pois, p = 0 ,0 10 e, portanto, menor que o nvel de significncia adotado a
- 0,05), detectando, ento, que houve um aumento real da produtividade
entre as duas mensuraes. Se admitirmos que no houve qualquer outro
fator, alm do programa de treinamento, atuando de forma sistemtica
entre as duas mensuraes, podemos concluir que o programa de
treinamento tende a aumentar a produtividade dos funcionrios.

O leitor pode ter observado que os dados do Exemplo 11.3


correspondem aos dados do Exemplo 11.4, se estes fossem classificados
em apenas duas categorias: melhorou (+) ou piorou (-). Mas as aplicaes
dos testes dos sinais e tlevaram a concluses diferentes. Isto pode ocorrer
pelo fato do teste dos sinais usar apenas uma avaliao qualitativa das
diferenas, enquanto que o teste fusa melhor a informao contida nos
dados, trabalhando com as quantidades. O teste t um teste mais poderoso
do que o teste dos sinais, no sentido de ter maior probabilidade de detectar
diferenas, quando elas realmente existem. Contudo, a validade do teste
t est condicionada^ suposio da varivel em estudo ter distribuio
normal, especialmente se a amostra for pequena.
206 E s t a t s t c a A p liC A d A s C n c a s S o c a s

T e s t e s biATERAis

No Exemplo 11.4, realizamos um teste unilateral, pois a hiptese


alternativa foi formulada com o sinal > (H(: M -depois> Hantes). Quando o teste
bilateral, isto , a hiptese alternativa tem o sinal o procedimento
anlogo, mas o valor de rea da tabela dever ser dobrcudo, pra que o
valor p corresponda s reas das duas caudas da distribuio. .

ExEM plo 11.5 Desejamos verificar se uma certa alterao no turno de trabalho
produz algum efeito, positivo ou negativo, na produtividade dos
funcionrios. Para isto, realizamos um estudo experimental, alterando o
turno de trabalho de uma amostra de n - 10 funcionrios da empresa.
Temos as seguintes hipteses:

H 0 ' ^depois ^antes ^ ^ 1 ^depois ^ ^antes

onde:
hwtes* produtividade mdia dos funcionrios da empresa no horrio
habitual; e
M-depois:produtividade mdia dos funcionrios da empresa com
alterao no turno de trabalho.
Por simplicidade, suponha que os resultados foram os mesmos do
Exemplo 11.4, apresentados na Tabela 11.2, resultando, como j vimos,
em t = 2,82, com gl - 9. A obteno da probabilidade de significncia
anloga ao caso anterior, considerando, porm, ambos os lados da curva.
Assim, p = 2x{0,010) = 0,020. Portanto, ao nvel de significncia de 5%, o
teste rejeita H0, em favor de Hr
E
\

O u t r a s o r m a s dE p a r ea s v ien t o

O plano de pesquisa de observar a varivel resposta sobre os mesmos


elementos, antes e depois de aplicar um certo tratamento, pareceu
adequado no problema de avaliar o efeito de um programa de treinamento
sobre a produtividade de funcionrios. Contudo, se o programa de
treinamento for relativamente longo, de tal forma que, nesse perodo,
outros fatores puderem agir de forma sistemtica sobre a produtividade,
o estudo toma-se incuo, pois diferenas reais entre as duas mensuraes
podem ser tanto devidas ao programa de treinamento, como devidas a
fatores intervenientes.
C a p t u l o 11 Testes de comparao entre duAS amostras 207

Um planejamento mais adequado para a situao colocada consiste


em observar dois grupos de funcionrios, sendo que apenas um dos grupos
recebe o programa de treinamento. Aps a realizao do treinamento,
comparam-se os valores de produtividade entre os dois grupos.2
Uma maneira de constituir grupos de elementos comparveis,
consiste em construir pares de elementos aproximadamente semelhantes.
Os elementos de cada par so separados e, cada um, submetido a uma
das condies (tratamentos) que se deseja comparar, formando os dois
grupos. A observao do efeito dos tratamentos pode ser feita, em cada
par, pela varivel D, definida como a diferena entre os elementos do par
(ver Figura 11.4).

ExEMplo 11.6 Para avaliar o efeito de um curso sobre alimentao e controle


de peso, em pessoas obesas, planeja-se realizar uma pesquisa com pares
de pessoas relativamente similares. Os pares sero constitudos por pessoas
de mesmo sexo, faixa de peso, faixa etria, alm de outras caractersticas
pertinentes. Em cada par, uma das pessoas, selecionada aleatoriamente,
dever participar do curso, e a outra no. Depois de trs meses, medida
a variao de peso das pessoas de ambos os grupos. Esquematicamente:

Alocao por sorteio em cada par E

Par I Par 2 Par n


C mm:. C: com o curso
) c: . . .
s S: sem o curso

Este procedimento dever gerar um conjunto de dados pareados e


quantitativos (pois a varivel resposta, variao de peso, quantitativa).
Assim, podemos aplicar o teste t de forma anloga ao que fizemos no
Exemplo 11.4.

Ex e r c c o s

3) Seja o problema do Exemplo 11.6.


a) Apresente as hipteses nula e alternativa.
b) Considerando que a realizao da pesquisa produziu os dados constantes
na tabela seguinte, qual a concluso?

2 Alternativamente, poder-se-ia comparar as variaes de produtividade entre os dois grupos.


Neste caso, toma-se necessrio, tambm, medir a produtividade de todos os funcionrios
(ambos os grupos) antes de iniciar o programa de treinamento.
208 E s t a t s t c a a p I c a c U s C n c a s S o c a s

Par de pessoas obesas Variao do peso, em kg, ao longo de trs meses1


participantes do estudo com o curso sem o curso
1 -4 2
2 -2 3
3 -3 -1
4 1 -2
5 0 5
6 2 2
7 -5 -1
8 -3 -3
9 1 2
10 0 4
1V a l o r e s p o s itiv o s in d ic a m g a n h o d e p e s o , e v a lo re s n e g a tiv o s , p e rd a d e p e s o .

4) Para avaliar o efeito de um brinde nas vendas de determinado produto, planeja-


se comparar as vendas em lojas que vendem o produto com o brinde, com as
vendas em lojas que no oferecem o brinde. Para reduzir o efeito de variaes
devidas a outros fatores, as lojas foram grupadas em pares de lojas, sendo
que as lojas de um mesmo par sejam to similares quanto possvel, em termos
do volume de vendas, localidade, identidade de preos, etc. Em cada par de
lojas, uma passou a oferecer o brinde, e a outra no.
a) Apresente as hipteses nula e alternativa.
b) Os resultados das vendas, em quantidade de unidades vendidas, foram
os seguintes:
Vendas
Par de lojas
sem brinde j com brinde
1 33 43
2 43 39
3 26 33
4 19 32
5 37 43
6 27 46

Os dados mostram evidncia suficiente para se afirmar que a oferta do brinde


aumenta as vendas? Use nvel de significncia de 5%.
5) Para resolver o mesmo problema do exerccio anterior, decidiu-se fazer um
planejamento do tipo antes-e-depois. Observou-se a venda mensal do produto
em questo nas 12 lojas. Depois, passou-se a oferecer um brinde e voltou-se
a avaliar a venda mensal desse produto nas 12 lojas. Os incrementos (ou
redues) nas vendas foram os seguintes:
7 10 5. -2 9 0 3 -4 8 9 1 3
a) Os dados mostram evidncia suficiente para se afirmar que a oferta do
brinde aumenta as vendas? Use nvel de significncia de 5%.
b) No problema em discusso, aponte as vantagens e desvantagens deste
planejamento de pesquisa, em relao ao apresentado no Exerccio 4.
c) Apresente um terceiro planejamento de pesquisa para este problema,
tentando aproveitar as vantagens ds dois procedimentos apresentados.
6) Para avaliar o governo perante os empresrios, um instituto de pesquisa
selecionou uma amostra aleatria de 64 empresrios, indagando a cada um
C Aptulo 11 - T e s t e s de co m parao en tre duAS a m o stra s 209

sua aprovao cora o governo, numa escala de 0 a 10. Foi realizada uma
pesquisa logo aps a posse do govemo, e outra aps seis meses, mas com a
mesma amostra de empresrios. A primeira amostra apontou uma mdia de
8,4 e a segunda 6,8 (diferena mdia de 1,6). O desvio padro da diferena
foi 2,0. Os dados mostram evidncia suficiente para afirmar que na populao
de empresrios houve reduo na aprovao ao govemo? Use a - 0,01.
7) Considerando os. dados do anexo do Captulo 2, podemos afirmar que existe
diferena significativa entre: (a) satisfao dos alunos quanto didtica dos
professores e (b) satisfao dos alunos quanto aos laboratrios e recursos
materiais? Use a = 0,01. Em qual dos dois itens os alunos esto, em mdia,
mais satisfeitos?

11.4 0 TESTE T PARA AMOSTRAS NdEpENdEINTES

A formao de pares de elementos similares nem sempre vivel.


Uma forma alternativa considerar duas amostras independentes, como
mostra o exemplo seguinte.

ExEiviplo 11.7 Retomemos o problema de comparar dois mtodos, A e B, de


ensinar matemtica para crianas. As hipteses podem ser:
H0: em mdia, os dois mtodos produzem os mesmos resultados; e
H,: em mdia, os dois mtodos produzem resultados diferentes.
Para realizar o teste, precisamos de uma amostra de crianas
submetidas ao mtodo A de ensino, e outra amostra de crianas
submetidas ao mtodo B, conforme planejamento discutido no Exemplo
11.1. Ao trmino dos estudos, todas as crianas devem efetuar uma mesma
avaliao para medir o grau de aprendizagem. Em termos do planejamento
proposto, podemos escrever:

onde:
p5: nota mdia (ou esperada) de crianas que sejam submetidas ao
mtodo A de ensino; e
nota mdia (ou esperada) de crianas que sejam submetidas ao
mtodo B de ensino.
A Tabela 11.3 mostra os resultados do experimento descrito^ no
Exemplo 1 1.7, considerando que ambos os grupos foram compostos por
dez crianas. A Figura 11.8 apresenta o diagrama de pontos dos resultados
da avaliao, segundo o mtodo de ensino.
210 Estatstca ApliCAda s C ncas Socas

T a b e la 1 1 .3 Notas na avaliao, considerando o mtodo de ensino


Mtodo A de ensino Mtodo B de ensino
45 51 50 62 43 45 35 43 59 48
42 53 50 48 55 45 41 43 49 39

-Lxxxj__cl3oQ__ JO-
O Mtodo A
~<p)----i-
Mtodo B
----j
30 35 40 45 50 55 60 65

Nota
Figura 11.8 Diagrama de pontos das notas obtidas pelas crianas, segundo
o mtodo de ensino

Estatstca do teste

A estatstica do teste toma como base a diferena entre as mdias


das duas amostras, X 1- X 2, mas leva tambm em considerao o nmero
de elementos em cada amostra e a variabilidade interna dessas amostras.
Quanto maior as amostras, maior a evidncia de uma diferena real. Pense
no caso extremo de apenas uma criana em cada grupo, apontando uma
diferena de duas unidades numa escala de 0 a 10 - no dpara dizer
rnisitacoisalMas com 100 crianas em cada grupo, apontando uma diferena
de duas unidades, leva-nos a induzir que os mtodos produzem resultados
diferentes. Por outro lado, se h muita variabilidade entre os elementos de
cada amostra, uma possvel diferena fica nebulosa. Veja a Figura 11.9.
Evidncia de grupos diferentes No evidncia de grupos diferentes

( 1) o,,,, n n [-<1 A- n -n > {*!)

2 X v J,
Figura 11.9 A importncia de se considerar a varincia interna dos grupos

Considerando o mesmo nmero n de elementos em cada amostra,


a varincia agregada, , obtida pela mdia aritmtica das varincias
de cada grupo, Sf e S% , ou seja :3
2 S + S i........

3 Lembramos ao leitor que a varincia (S2) o desvio padro (S) ao quadrado.


O vprulo 11 - Testes de comparao entre duAS amostras 21!

E a estatstica do teste dada por:

onde:
n : tamanho da amostra em cada grupo;
X l : mdia da amostra 1;
X 2' mdia da amostra 2;
S f : varincia da amostra 1;
S 2 : varincia da amostra 2 ; e
S% 'varincia agregada das duas amostras.

ExEMplo 11.7 ( contnua o ) Calculando as mdias e as varincias dos dados


da Tabela 11.3:
Amostra 1: n = 10, X x= 49,90 e S? = 35,66
Amostra 2: n = 10, X 2= 44,70 e S22 = 42,23

Varincia agregada:
-3 S f + S ? 35,66+42,23 77,89
S~ - ------ = ---------------- = --------= 38,95
2 2 2

Estatstca do teste:

= & -x J ' = (49-90 - 4470)- = 521 '/'1284 = (52)' (0'3583)

Portanto: t~ 1,86.
m

Suposies para a aplicao do teste:


1} os dois conjuntos de dados provem de distribuies normais e
2 } tm a mesma varincia.4

Na prtica, no fcil verificar a veracidade destas suposies.


Aconselhamos, contudo, construir histogramas de freqncias ou
diagramas de pontos para cada amostra. Esses grficos permitem avaliar
se existem fortes violaes das suposies, tais como a presena de pontos
discrepantes, distribuies com formas assimtricas ou, aind, uma

4 Se as amostras forem razoavelmente grandes {digamos, gl = 2rt - 2 > 30) a suposio (1)
pode ser relaxada. Quanto suposio (2), s vai haver problemas srios se as varincias
das duas populaes forem demasiadamente diferentes.
2 12 E s t a t s t c a a p I c a c a s C n c a s Socas

distribuio bem mais dispersa do que a outra. No exemplo em discusso,


construmos diagramas de pontos para as duas amostras (Figura 11.8),
os quais mostram que as amostras em anlise parecem compatveis com
as suposies do teste.
Distribuio de referncia. Considerando que as suposies do teste estejam
satisfeitas, se as mdias populacionais forem iguais (H0verdadeira), ento
a estatstica t tem distribuio t de Student com gl - 2n - 2 graus de
liberdade.

ExEMplo 11.7 (CONTNUAO) O esquema seguinte ilustra o uso da Tabela 5 do


apndice para se obter a probabilidade de significncia associada ao valor
calculado t~l,86. No caso, tem-se g l = 2 n ~ 2 ~ 2(10) - 2 - 18.

Amostras
Area na cauda superior
. g i. 0,25 0,10 0,05 . 0,0251 0,010 0,005 ...
... """...&** ...
t = 1,86 ^18 0,688 1,330 1.734 2.101 2,552 2,878 ...
gl =18

Os dados levaram ao valor t = 1,86, apontando para uma rea na


cauda superior da curva entre 0,025 e 0,05. Mas, como o teste bilateral
(H(: ^ ^2), a rea deve ser dobrada para se ter o valor p correto. Veja o
esquema a seguir:

/ \ Pela tabela t :
/ \ rea entre 0,025
/ \e 0,05

0 t = 1,86 -1,86 o 1,86

Portanto: 0,05 < p < 0,10.


Ao nvel de significncia de 5%, conclumos que os dados no com
provam uma diferena entre os dois mtodos de ensinar matemtica. Existe
uma probabilidade razovel, superior a 5%, de as diferenas observadas
nos dados experimentais serem provenientes de fatores casuais.
O p r u o 11 T e s te s d e comparao entre d im s amostras 2 1?

A mostras <Je tamancos cIerenies

Quando as amostras tm tamanhos diferentes, a varincia agregada


calculada por:

.
c 2 _-------------------------------------------------------------.
K l ) ' S i 2 + ( n 2 - l ) - S 22 .
gi
onde:
rij : tamanho da amostra 1 ;
: tamanho da amostra 2 ;
S f : varincia da amostra X;
S l : varincia da amostra 2 ; e
gl = n1 + rt, - 2 : nmero de graus de liberdade das duas amostras
agregadas.

A estatstica do teste dada por:

onde:
X j : mdia da amostra 1 ;
X 2: mdia da amostra 2; e
Sa : desvio padro agregado (raiz quadrada da varincia agregada).

ExEMplo 11.8 Queremos verificar, em alunos do ensino mdio que j


experimentaram algum tipo de droga, se a idade com que o fizeram pela
primeira vez diferente entre homens e mulheres.5 Em especial, queremos
testar as hipteses: r

H0- Pi " P2 ^i* Pj ^ P2


sendo e definidos na populao de pessoas que j experimentaram
droga, como:
V4 : mdia de idade em que os homens experimentam droga; e
j y mdia de idade em que as mulheres experimentam droga.

A pesquisa foi feita com 56 alunos (32 do sexo masculino e 24 do


sexo feminino) que j experimentaram droga. Amostras e clculos:

5 Este trabalho foi realizado pelas alunas Ktia Vieira e Roseana Rotta na disciplina de
Estatstica, sem. 99/1, Curso de Psicologia da UFSC. A populao foi definida como os
alunos das escolas municipais de So Jos - SC.
214 Estatstca AplicAck s G ncas Socas

Sexo Idade em que experimentou pela la vez Mdia Varincia


09 12 10 12 11 09 08 12 13 09 13
Masc. 08 17 09 09 08 09 08 14 08 08 08 6,371
10,625
08 13 10 10 15 13 13 12 14 08
14 15 08 13 16 12 14 17 14 10 13
Fem. 12 13 14 10 15 12 17 16 12 15 13 13,458 4,781
14 14

Graus de liberdade: pl = rij + - 2 ~ 24 + 31 ~ 2 = 54


Varincia agregada das duas amostras:
_ ( n ,- l) s ,2 + (n 2 - l ) - S i a ( 3 l ) ( 6 , 3 7 l ) + (23) ( 4 , 7 8 l ) _
5,694
54

Desvio padrao agregado: Sa = -^5^694 = 2,386

Estatstica do teste:
_ Xi - Xa 10>625 - 13,458 -2,833
-4,40
(2,386)- (0,270)
Sa* JL +_L (2,386) J + - i-
ni ri2 24 32

Como a Tabela 5 relaciona valores positivos de tcom reas na cauda


superior da curva e, tambm, a distribuio t simtrica em tomo de
zero, devemos procurar a rea relacionada com t= 4,40, como mostra o
esquema a seguir:

Entrando na tabela com gl - 60 (o mais prximo do gl verdadeiro,


igual a 54) e valor de t = 4,40, verificamos pela Tabela 5 que a rea na
cauda superior inferior a 0,0005. Como o teste bilateral, temos que o
valor p inferior a 0,001 (o dobro da rea na cauda superior). Assim, o
teste rejeita H0 ao nvel de significncia de 0,05, pois, p < 0,001 < 0,05 = a.
Conclumos, ento, que na populao em estudo, os homens tendem a
experimentar drogs com menor idade do que as mulheres.
C a p T u lo 11 Testes d e comparao entre duAs amostras 215

UsftNdo 0 COMpUTftdoR

Como j discutimos anteriormente, hoje em dia a parte de clculos


da anlise estatstica tornou-se muito simples com o auxlio do
computador. Existem, no mercado, diversos pacotes computacionais de
estatstca (SAS, SPSS, STAT1STICA, S-PLUS, etc.) que fazem os diversos
mtodos discutidos na literatura, com uma interface amigvel At mesmo
as planilhas eletrnicas esto incorporando tcnicas bsicas de estatstica.
Na Figura 11.10 apresentada uma sada do Microsoft Excel, com a
aplicao do teste aos dados do Exemplo 11 .8.6
Teste-t: duas amostras presumindo varincias equivalentes
Meninos Meninas
Mdia 10,62500 13,45833
Varincia 6,37097 4,78080
Observaes 32 24
Varincia agrupada 5,69367
Hiptese da diferena de mdia 0

g* 54
Estatt -4,39732
P(T<=t) uni-caudal 0,000026
t crtico uni-caudal 1,67357
P(T<=t) bi-caudal 0,000052
t crtico bi-caudal 2,00488

Figura 11.10 Teste t realizado pelo Excel {Exemplo 11.8).

As trs primeiras linhas da tabela de sada so medidas descritivas


de cada amostra e, na quarta linha, tem-se a varincia agregada das duas
amostras. A hiptese da diferena de mdias igual a zero (quinta linha)
indica que a hiptese nula do teste afirma que as duas mdias so iguais.
Na sexta e stima linhas, tm-se os graus de liberdade e o valor da estatstica
t Os resultados apresentados nas ltimas quatro linhas dependem se
estamos fazendo um teste unilateral {uni-caudal} ou bilateral (bi-caudal).
Como no nosso exemplo o teste bilateral, leremos apenas as duas ltimas
linhas. Em P(T<=t) dada a probabilidade de significncia (p = 0,000052)
e em tcritico dado o menor valor de tpara o teste rejeitar H0, ao nvel de
significncia de 5%. Usando a abordagem que vnhamos trabalhando
(atravs do valor p), conclumos que o teste rejeita H0.

6 No Microsoft Excel, vrias tcnicas estatsticas podem ser feitas acionando no menu principal
ferramentas, suplementos" e solicitando que se instale as ferramentas de anlise1'. Clicar
em ferramentas e anlise de dados. Para realizar o teste t discutido nesta s {teste t
para amostras iidependentes), escolher Teste T: duas amostras presumindo varincias
equivalentes. Na janela que se abre, preencher os dados de entrada das duas variveis
(duas amostras), arrastando o cursor sobre as posies da planilha onde esto os dados.
2 16 Estatstca ApticAck s C incas Socas^

E x e r c c o s

8) Com a finalidade de verificar se o nvel nutricional da me afeta o peso do


recm-nascido, foram observadas duas amostras de nascimentos. A primeira
foi extrada de uma maternidade particular (Localidade 1), onde as mes so,
em geral, bem nutridas. A outra amostra foi tirada de uma maternidade
pblica, numa regio extremamente pobre (Localidade 2), onde se acredita
que as mes no so bem nutridas.
Resultados dos pesos, em kg, de recm-nascidos, em duas localidades
Localidade Tamanho da amostra Mdia (kg) Desvio padro (kg) 1
1 50 3,1 1,6
2 50 2,7 1,4

a) Os dados mostram evidncia suficiente de que as crianas da Localidade


1 nascem, em mdia, com peso superior do que as crianas da Localidade
2? Use a = 0,05.
b) Podemos afirmar com segurana que esta diferena no peso mdio dos
recm-nascidos realmente devida ao nvel nutricional da me?
9) Com o objetivo de comparar duas dietas para engordar frangos, realizou-se
um experimento, em que 19 frangos, todos com um ms de vida, foram
divididos aleatoriamente em dois grupos. No primeiro grupo, com 12 frangos;,
foi usada a dieta A, enquanto que no segundo grupo, os 7 frangos foram
tratados com a dieta B. No fmal de um ms, foram encontrados os seguintes
resultados de ganho de peso, em gramas:

Grupo Ns de frangos Mdia (g) Desvio padro {gl


1 12 110 21
2 7 100 20

Os dados mostram evidncia suficiente para se afirmar que as dietas p r o d u z e m


efeitos diferentes? Com que probabilidade de significncia?
10) O objetivo verificar se existe diferena significativa entre alunos bolsistas -e
no-bolsistas, com respeito ao tempo mdio para a concluso dos crditos.
Para isto, foi extrada uma amostra aleatria de cada grupo de alunos e
observados os tempos para concluso dos crditos, em meses:

Bolsistas No-bolsistas
62 24 30 34 54 56 34 60 62 42 63
69 66 44 54 50 61

Faa o teste com a = 0,05.


11) Numa pesquisa sobre clima organizacional nos departamentos da UFSC,
professores respondem a um questionrio, em que, num dos itens, o respon-
dente atribui uma nota de 1 (um) a 5 (cinco) sobre a clareza. organizacional de
seu departamento. tabela seguinte apresenta algumas estatsticas desta
varivel para os centros: Tecnolgico (CTC) e Scio-Econmico (CSE).
C A p ru lo 1! Testes d e comparao entre duAs amostras 217

Centro Tamanho da amostra Mdia Desvio padro


CTC 79 2,67 1,06
CSE 49 2,81 1,24

Os dados mostram evidncia suficiente para sugerir que os nveis mdios da


clareza organizacional dos departamentos so diferentes para os dois centros
de ensino?
12) Num levantamento por amostragem, verificou-se o nvel de renda familiar em
trs localidades de um certo bairro (anexo do Captulo 4). Testar se existe
diferena significativa entre essas localidades, comparando-as duas a duas.7
Use a = 0,01. A tabela seguinte mostra alguns resultados intermedirios.
Algumas medidas descritivas da distribuio de renda de uma amostra de
________ famlias do Bairro Saco Grande II, Florianpolis - SC, 1988________
Ns de famlias Mdia Desvio padro
Locaiidade
na amostra (sal. mn.) (sal. mn.)
Monte Verde 40 8 ,1 0 4,28
Pq. da Figueira 42 5,83 2,57
Encosta do Morro 37 5,02 4,52

11.5 TA M A N ko dAS AMOSTRAS

No planejamento de um estudo comparativo, surge a questo de


qual o tamanho n da amostra em cada grupo. Para responder a esta
questo, vamos relembrar alguns conceitos de testes estatsticos. Quando
o teste rejeita a hiptese de igualdade entre os grupos (H0), concluindo
que existem diferenas significativas entre eles, podemos estar cometendo
o chamado Erro Tipo I: rejeitar H0 quando verdadeira. Os testes so
construdos com a probabilidade deste erro fixada num nvel bastante
baixo, designada por a (nvel de significncia do teste). Nas cincias sociais,
comum usar a = 0,05. Por outro lado, quando o teste aceita H0, pode
ocorrer o chamado Erro Tipo II: aceitar H0 quando falsa. A probabilidade
de se cometer este erro designada por |3. desejvel que, quando a
diferena real entre os grupos for grande em termos prticos, a
probabilidade (3 seja pequena e, para que isto acontea, a quantidade n
de elementos em cada grupo deve ser suficientemente grande.
A discusso que segue restringe-se a um teste bilateral para comparar
duas amostras independentes emteimos de mdias, conforme discutido na
Seo 11.4. Sejam e \x.2as mdias das duas populaes em estudo e seja:

7 Para realizar a comparao entre mais de dois grupos, existem tcnicas estatsticas mais
apropriadas, conhecidas pelo nome de Anlise de varincia. Veja, por exemplo, em Barbetta,
Reis e Bomia (1981).
2 18 Estatstca a p Icaca s G ncas Socas

3 _ \fk~f4
a

A quantidade 5 a diferena de magnitude entre as verdadeiras


mdias em unidades de desvios padres (a) das populaes em estudo.
Supomos aqui que as duas populaes tenham o mesmo desvio padro.
Para avaliarmos o nmero n de elementos em cada grupo, o
pesquisador precisa ser capaz de fornecer o valor mnimo de 5 qe leva
conseqncias prticas. Em geral, o pesquisador tem maior facilidade
em raciocinar em termos da unidade em que se est medindo a varivel
em anlise, mas, neste caso, necessrio termos uma avaliao de a.
A Figura 11.11 indica o mnimo n para que uma diferena seja
detectada pelo teste estatstico, com probabilidade 0,80 {(3 ~ 0 ,20 ) e com
probabilidade 0,90 (p = 0,10).

diferena absoluta entre as mdias, por unidade de desvio padro

Figura 11.11 Tamanho mnimo da amostra, n, em cada grupo, em funo


da distncia - j i ^ j cr que se deseja detectar no teste estatstico.

Como exemplo, seja o problema de comparar dois mtodos de ensinar


matemtica para crianas. Dois grupos de crianas devem ser formados, a
fim de que os dois mtodos sejam aplicados (um mtodo em cada grupo). No
final do estudo, o aprendizado de cada criana ser avaliado numa escala de
0 a 10 . Suponha que os pesquisadores consideram relevante uma diferena
de 1,5 pontos entre as mdias e, com base em estudos anteriores, o desvio
padro nesta escala no deve-passar de duas unidades. Logo, 8 = l,s/2- 0,75-.
Pelo grfico da Figura 11.11, o nmero mnimo de crianas em cada grupo
deve ser de, aproximadamente, n= 37 para (3= 0,10, ou n= 28 para (3= 0,20.
C A p r u lo II - Testes d e comparao entre d u A s amostras 2 19

Ex e r c c io s

13) Com o objetivo de comparar dois mtodos de ensino, planeja-se um


experimento com dois grupos de crianas (divididas aleatoriamente), sendo
que em cada um dos grupos ser aplicado um mtodo de ensino. Quantas
crianas; devem ter em cada grupo, para garantir que um teste t bilateral
para amostras independentes, ao nvel de signiicncia de 5%, detecte uma
diferena de um desvio padro, com 90% de probabilidade? Supondo
distribuio normal, a diferena mnima que se quer detectar est
representada na figura a seguir:

11.6 C omentros AdiciONAiS

Na Seo 11*3 descrevemos o teste t para dados pareados, e na


Seo 11.4 o teste t para amostras independentes. A escolha do teste
depende do planejamento da pesquisa, o qual pode gerar duas amostras
de observaes pareadas ou duas am ostras de observaes
independentes. Mas o planejamento da pesquisa deve ser realizado da
maneira mais adequada para o problema em questo. Em geral, quando
possvel formar pares, tem-se maior controle sobre a variabilidade
aleatria e, conseqentemente, tem-se um projeto de pesquisa melhor.
Por exemplo, no problema de se comparar dois tipos de materiais em
termos do desgaste na sola de tnis de criana. Podemos planejar um
experimento em que um grupo de crianas usa tnis com solas feitas
com o material A e outro grupo usa tnis com solas feitas com o material
B. Para cada criana, decidimos por sorteio qual material vai ser usado
(cdeatorizao). Depois de algum tempo, medimos o desgaste das solas de
todas as crianas do experimento e comparamos as mdias das duas
amostras atravs do teste para amostras independentes.
Um projeto experimental alternativo fabricar, para o estudo, pares
de tnis com os diferentes tipos de sola, isto , com um dos ps (alternando
direito e esquerdo) com material A e o outro p com material B. As crianas
do experimento usam os dois tipos de materiais, fazendo com que a
220 Estatstca ApliCAdA s C gncas Socas

comparao seja feita em cada criana, destacando uma possvel diferena


entre os tipos de materiais. Neste segundo planejamento, a comparao
entre os materiais deve ser feita pelo teste t para dados pareados. A Figura
1 1 .1 2 ilustra a diferena entre usar pares e usar duas amostras
independentes na anlise dos dados.

Desgaste

M aterial A
o M aterial B
Qs>
o

2 3 5 ...
Criana

Figura 11.12 Um conjunto de dados visto de forma pareada ( direita) e de


forma independente ( esquerda).

Analisando a Figura 11.12, fica evidente que, ao olhar os dados de


forma pareada, tem-se mais informao sobre uma possvel diferena entre
os dois tipos de material. Observando as amostras de forma independente,
as diferenas entre os dois tipos de material ficam ofuscadas pelas
diferenas entre as crianas.
A aplicao de testes pode ser feita em estudos experimentais ou em
estudos de levantamento. N exemplo precedente, temos um estudo experi
mental, pois o pesquisador determina o material a ser aplicado em cada p
da criana, seja no primeiro ou no segundo caso. Se o teste rejeitar H0,
alm de concluirmos que existe diferena significativa entre os dois grupos
de valores, tambm conclumos que esta diferena devido ao material
usado na sola do tnis (o nico fator agindo sistematicamente e de forma
diferenciada nos dois grupos). Assim, a aplicao de testes estatsticos em
estudos experimentais permite verificar hipteses de causa e efeito.
Por outro lado, se quisermos comparar o peso de recm-nascidos
em duas localidades, podemos fazer um levantamento por amostragem,
analisando os nascimentos nessas localidades. Neste caso, as duas
amostras j esto naturalmente divididas pela localidade em que reside a
_me da..criana. Com. a aplicao-do teste t podemos detectar uma
diferena significativa entre as duas localidades. Mas a inferncia sobre
a causa da diferena mais difcil do que num estudo experimental, pois
C A p ru lo 11 Testes de comparao entre duAS amostras 221

podem existir diversos fatores, tais como etnia, condies socioecon-


micas, hbitos de alimentao, etc., agindo de forma interativa e
possivelmente diferenciada nas duas localidades (veja o Exerccio 8 ).
Outro aspecto que merece comentrios a implicao prtica de
uma diferena estatisticamente significativa. Uma diferena significativa
uma diferena que no deve ter ocorrido meramente por acaso, mas no,
necessariamente, uma diferena relevante em termos prticos. Quando
se analisam amostras grandes, os testes podem concluir que pequenas
diferenas so significativas. Resta a anlise prtica para verificar se essas
diferenas, estimadas pelos dados, so relevantes.
Existe uma grande quantidade de testes estatsticos para
comparao entre duas amostras. Neste captulo, demos nfase aos testes
tpor serem os mais usados. Contudo, em muitas situaes, as suposies
desses testes podem estar sendo violadas. Quando isto ocorrer, devemos
procurar tcnicas alternativas, em especial os chamados testes no-
paramtricos, que no supem uma determinada distribuio de
probabilidades como geradora dos dados.8 O teste dos sinais um exemplo
de teste no-paramtrico, assim como o qui-quadrado, que ser estudado
no captulo seguinte.
O Quadro 11,1 mostra alguns testes para comparao de duas
amostras, segundo o tipo de varivel e condio das amostras.

Quadro i l . l Alguns testes para comparao de duas amostras


li-' :'?
O". lill.- s u k r s ^ e iiii
Teste dos sinais Teste pareado
(Seo 11.2) (Seo 11.3)
Teste qui-quadrado Teste t amostras independentes
(Seo 12.1) (Seo 11.4)

E x e r c c io s c o m p Ie m e n t a r e s

14) Uma cervejaria estuda a possibilidade de alterar o rtulo de uma de suas


marcas, usando formas e cores mais vivas. Para avaliar se existe vantagem
em alterar o rtulo, a empresa levou a cabo uma pesquisa de marketing.
Enlatou a cerveja com o rtulo tradicional e com o rtulo novo. A pesquisa foi
feita em oito estabelecimentos comerciais. Em quatro deles, extrados p.or

8 Os testes supem que os dados provenham de distribuies normais e as populaes


tenham, aproximadamente, a mesma varincia.
222 Estatstca AplicAdA s Q ncas Socas

sorteio, colocou-se o produto com o rtulo novo e, nos outros quatro, manteve-
se o produto com o rtulo tradicional. Aps um ms, avaliou-se a quantidade
vendida em cada estabelecimento. Os estabelecimentos que usaram o rtulo
tradicional tiveram os seguintes resultados nas vendas {em milhares de
unidades): 6, 5, 2, 2. Os estabelecimentos que usaram o rtulo novo tiveram
os seguintes resultados nas vendas (em' milhares de unidades): 4, 9, 5, 6. Os
dados mostram evidncia suficiente de que a mdia de vendas superior
com o rtulo novo? Aplique um teste estatstico apropriado, ao nvel de
significncia de 5%.
15) Para o mesmo problema da questo anterior, outro instituto de pesquisa,
que tem uma equipe com melhor preparao em estatstca, elaborou um
projeto um pouco diferente. Com seis estabelecimentos comerciais dispostos
a colaborar com a pesquisa, colocaram-se as duas embalagens (de rtulo
tradicional e de rtulo novo) da mesma cerveja. Tomou-se o cuidado para que
em cada estabelecimento, a apresentao das duas embalagens do produto
fosse feita de forma idntica. Os resultados das vendas mensais (em milhares
de unidades), foram os seguintes:
Estabelecimento: 1 2 3 4 5 6
Rtulo tradicional: 16 12 28 32 19 25
Rtulo novo: 20 11 33 40 21 31
Os dados mostram evidncia suficiente de que a mdia de vendas superior
com o rtulo novo? Use nvel de significncia de 5%.
16) Com respeito questo anterior, suponha que os gerentes dos
estabelecimentos comerciais se recusaram a fornecer os valores das vendas,
mas informaram com qual rtulo as vendas foram maiores. Nos
estabelecimentos 1, 3, 4, 5 e 6 as vendas foram maiores com o rtulo novo, e
no estabelecimento dois as vendas foram maiores com o rtulo tradicional.
Esses dados so suficientes para afirmar que a maioria dos estabelecimentos
vende mais cerveja com o rtulo novo? Use nvel de significncia de 5%.
17) Com o objetivo de avaliar o efeito de uma merenda escolar reforada, foi realizado
um estudo com dois grupos de crianas, que tinham princpios de. desnutrio.
Fizeram parte do estudo sete pares de crianas. Em cada par, as crianas
tinham peso e idade similares. As crianas de cada par foram divididas em
dois grupos, sendo um tratado com merenda reforada (Grupo A) e o outro
com merenda convencional (Grupo B). Os dados a seguir apresentam o ganho
de peso, em kg, durante seis meses.
Par de crianas
Grupo
1 2 3 f 4 | 5 6 7
A 6 5 8 2 5 4 4
B 2 4 5 3 4 3 5

Esses dados mostram evidncia suficiente para garantir que crianas tratadas
com a merenda reforada ganham, em mdia, mais peso do que crianas -
tratadas com merenda convencional? Justifique sua resposta atravs de um
teste estatstico adequado, ao nvel de significncia de 10%.
C A p tu lo !! - Testes de comparaao entre <Juas amostras 22?

18) Num estudo sobre a identidade social dos professores com o departamento a
que pertencem, mostrou os seguintes resultados (quanto maior o escore maior
identidade social com o departamento): '
Dept2 de Arquitetura: amostra de 24 professores, mdia de 40,8 e desvio
padro de 5,9 pontos.
Dept9de Psicologia: amostra de 19 professores, mdia de 42,5 e desvio padro
de 5,4 pontos.
Esses dados mostram evidncia suficiente de que, em mdia, a identidade
social com o .departamento diferente quando comparamos os departamentos
de Arquitetura e Psicologia? Explique.
19) Para avaliar o govemo perante os empresrios, um instituto de pesquisa fez
duas pesquisas: a primeira, logo aps a posse do govemo, com uma amostra
aleatria de 200 empresrios, em que a nota mdia foi de 7,0 pontos, com
desvio padro de 2,0 pontos; a segunda, aps seis meses, com outra amostra
aleatria de 200 empresrios, que mostrou aprovao mdia de 6,0 pontos,
com desvio padro de 3,0 pontos. Os dados mostram evidncia suficiente
para afirmar que, na populao de empresrios, houve reduo na aprovao
ao govemo? Use a = 0,01.
P arte V

e La a o e n t r e v a r a v e s

C o m o mecr e testar a siqNifidNdA c!a assocao entre cIuas varaves quaItatvas

C o m o estucar a co rrea o entre cIuas varaves quanttatvas

C o m o c o n s tru r Modelos para o reIaconam ento entre duAs varaves


A n S E dl d ftd o s CATEQ 0 RZAd 0 S

rande parte das variveis estudadas nas Cincias Humanas e Sociais

G no mensurada numericamente, mas somente permitem alocar cada


elemento em categorias preestabelecidas. A observao dos elementos da
amostra resulta em dados categorizados. Por exemplo, ao observar a varivel
sexo (gnero), cada indivduo pesquisado deve ser alocado na categoria
masculino ou na categoria feminino. Lembramos que as variveis devem
estar bem definidas, de maneira que cada elemento pesquisado se encaixe
em uma (e apens em uma) categoria.

CoMpARAO ENTRE AMOSTRAS

O teste qui-quadrado, que ser estudado neste captulo, poder


ser usado em problemas de pesquisas com amostras independentes,
anlogos aos discutidos no captulo anterior, porm com a varivel
resposta qualitativa (categrica), como, por exemplo, na comparao de
mtodos de ensino para vestibulandos, em que a varivel resposta o
resultado no vestibular (para cada aluno: aprovado ou reprovado), Outro
exemplo: na comparao das populaes de homens e mulheres quanto
ao tabagismo {fumante ou nofumante).

NliSE dE ASSGCAO

Um dos grandes propsitos em pesquisas nas Cincias Sociais


verificar se duas ou mais variveis se apresentam associadas.

Existe associao entre duas variveis se o conhecimento de uma altera a probabilidade


de algum resultado da outra.
228 E s TATSTCA ApliCACA S CfNCAS SOCAIS

Podemos dizer que existe associao entre o clima e a propenso de


uma pessoa ir praia, porque maior a probabilidade de a pessoa ir
praia num dia quente e ensolarado do que num dia frio e chuvoso. Ou
seja, o conhecimento do clima altera a probabilidade de a pessoa ir
praia, o que caracteriza um associao.1
Neste captulo, estudaremos como testar uma possvel associao entre
duas variveis qualitativas, com base numa amostra de observaes. Vere
mos, tambm, maneiras de medir o grau de associao descrito pela amostra.

12.1 0 TESTE dE ASSOCiAO QU'QUAdRAdo

O teste qui-quadrado o teste estatstico mais antigo e um dos mais


usados em pesquisa social. um mtodo que permite testar a significncia
da associao entre duas variveis qualitativas, como tambm, comparar
(no sentido de teste de significncia) duas ou mais amostras, quando os
resultados da varivel resposta esto dispostos em categorias.

ExEMplo 12.1 Para estudar a associao entre sexo (masculino ou feminino)


e tabagismo [fumante ou no fumante), numa certa populao, foi
observada uma amostra aleatria de 300 pessoas adultas dessa populao,
fazendo-se a classificao segundo o sexo e tabagismo. Os dados esto
apresentados na Tabela 12.1.

Tabela 12.1 Distribuio de 300 pessoas, classificadas segundo o sexo e


tabagismo

Tabagismo Sexo Total


Masculino | Feminino
Fumante (%) 92 {46,0} \ 38 (38,0) 130 (43,3)
No-fumante (%) 108 (54,0) 62 (62,0) 170 (56,7)
Total (%) 200 (100,0) 100 (100,0) 300 (100,0)

A Tabela 12.1 uma tabela de contingncia, de dimenso 2x2,


mostrando os resultados de uma amostra de 300 indivduos, classificados,
simultaneamente, com respeito s variveis sexo e tabagismo. O objetivo
verificar se os dados da amostra mostram evidncia suficiente para afirmar-
H^.ps que, na populao^em estudo, existe associao entre sexo e tabagismo.

1 .A existncia de associao entre X c Y no implica, necessariamente, que X causa Y, ou


que Y causa X.
CAprulo 12 A n Is s de cUdos CAtecpRizAdos 229

Agora, considere que o projeto de obteno de dados tivesse sido


um pouco diferente: .duas populaes (a de homens e a de mulheres) e
uma nica varivel resposta: tabagismo {fumante ou no-fumante).
Poderamos ter interesse em testar se existe diferena significativa entre
a proporo de homens fumantes e a proporo de mulheres fumantes.
Formalmente, teramos as seguintes hipteses:

H 0:7lh= Jm e
onde nh a proporo de homens fumantes e nm a proporo de mulheres
fumantes, nas populaes em estudo.2
Desconsiderando a questo do planejamento da pesquisa (uma ou
duas populaes), se %h= nm, ento o conhecimento do sexo no fornece
qualquer conhecimento sobre o fato de o indivduo ser ou no fumante.
Neste contexto, a hiptese nula pode ser escrita como:
H0: Sexo e tabagismo so variveis independentes, na populao
em estudo.
Por outro lado, se %.n. * %m, ento o conhecimento do sexo aumenta
(ou diminui) a chance de o indivduo ser fumante. Logo,
Hj: Existe associao entre as variveis sexo e tabagismo, na
populao em estudo.
ss

ExEiVipio 12.2 Com o objetivo de verificar se trs localidades so diferentes


em termos do nvel de instruo, foram selecionadas amostras aleatrias
de in d ivd u os adultos nessas localidades, fazendo-se a clas
sificao segundo o nvel de instruo. Os resultados esto apresentados
na Tabela 12.2.

Tabela 12.2 Distribuio de freqncias do nvel de instruo, segundo


a localidade da residncia.
Localidade
Nvel de instruo Parque da Encosta do
Monte Verde
Figueira Morro
Nenhum p/o) 6(15,0) 14 (32,6) 18 (48,7)
Fundamental (%) 11 (27,5) 14 (32,6) . 13 (35,1)
Mdio ou superior (%) 23 (57,5) 15 (34,8) 6 (16,2)
' Total (%) 40 (100,0) 43 (100,0) 37 (100,0)

2 Para. o problema especfico de testar duas propores, tambm pode ser aplicado o chamado
teste Z de diferena entre duas propores, o qual usa a distribuio normal como referncia
e permite a abordagem unilateral. Para maiores detalhes, ver, por exemplo, Stevenson
(1981, p. 282} ou Triola (2005, p.336).
250 E sw sta ApltcA<dft s Q ncsas Sociais

Aprendemos, no Captulo 4, a interpretar uma tabela em termos


descritivos, ou seja, tirar informaes dos dados tabulados, sem se
preocupar com generalizaes. Contudo, se os dados so de amostras,
podemos testar se as. diferenas so significativas, isto , se os dados
mostram evidncia suficiente para inferirmos que existem diferenas
tambm nas populaes de onde eles foram extrados; Formalmente,
podemos testar as seguintes hipteses:
H0: As distribuies de freqncias do nvel de instruo so iguais
nas trs localidades;
H t: As distribuies de freqncias do nvel de instruo no so
iguais nas trs localidades.
Se considerarmos que as trs localidades formam categorias da
varivel localidade daresidncia, podemos colocar as hipteses em termos
de independncia (H0) e associao (Hj).3
m

Dadas duas variveis qualitativas, as hipteses do teste qui-quadrado podem ser


formuladas como:
H0: As duas variveis so independentes.
Ht: Existe associao entre as duas variveis.

E s ATSTCA d o TESTE

Chamaremos de clula a cada cruzamento de linha e coluna de


uma tabela de contingncia.
A estatstica do teste, que designaremos por x2 (qui-quadrado), uma
espcie de medida de distncia entre as freqncias observadas e as
freqncias que esperaramos encontrar em cada clula, na suposio das
variveis serem independentes {H0verdadeira). Ilustraremos a obteno das
freqncias esperadas e da estatstica x2>usando os dados daTbela 12 .1.

ExEMplo 12.1 (continuao) Para obter as freqncias esperadas, seja a distri


buio percentual de fumantes e no-fumantes em toda a amostra (43,3%
de fumantes e 56,7% de no-fumantes). Se tabagismo esexo foremvariveis

3 Muitos autores preferem considerar a presente situao como um teste de homogeneidade


entre as amostras das diferentes localidades, j que no presente contexto a localidade da
residncia no propriamente uma varivel, mas sim uma referncia s populaes (ou
aos subgrupos da populao) em estudo. Porm, o teste qui-quadrado pode ser aplicado da
mesma maneira.
CApnulo 12 AnUse de dAclos CAieqoRiiAdos 2?1

independentes (H0 verdadeira), devemos esperar que estas percentagens


se mantenham, tanto no estrato dos homens, como no estrato das mulheres.
Como foram observados 200 homens, devemos esperar em tomo de:
43,3% de 200 homens fumantes [(0,433)x(200) = 86,6)] e
56,7% de 200 homens no-fumantes ((0,567)x{200} = 113,4].
De forma anloga, podemos obter as freqncias esperadas no
estrato das mulheres.

O clculo das freqncias esperadas pode ser simplificado com a


aplicao da seguinte frmula, aplicada a cada clula da tabela de
contingncia: . ' -----
/ __ (total da linha} x (total da coluna)
\ (total geral)

A estatstica do teste quirquadradQ.. definida por

/ ^2 = y (o - E f

onde: a soma se estende a todas as clulas da tabela de contingncia;


O representa a freqncia observada na clula; e
E representa a freqncia esperada na clula.

ExB/iplo 12.1 (connuao) Clculo das freqncias esperadas:

Sexo
Tabagismo
Masculino Feminino Total
Fumante E - 133 Q Q -8 6 .6 7 ,-130^00^3,33 1 3 0

No-fumante = 1 7 3 00 0 0 = n 3 '33
E = - 56,67 1 7 0

Total 200 100 3 0 0

Clculo das parcelas da estatstica qui-quadrado:

Tabagismo Sexo
masculino feminino
Fumante (38 - 43.33f
(92~ J j67f - 0.328
86,67 43.33
(108-113,33? g g - s a s a ,0501
No-fumante 113,33 56,67
2?2 Estatstica ApliCAd* s C incias Socas

Assim, temos o valor da estatstica qui-quadrado:


X2= 0,328 + 0,656 + 0,251 + 0,501 = 1,74
m

Quando as variveis so independentes (H0 verdadeira), as


freqncias observadas tendem a ficar perto das freqncias esperadas:
apenas variaes casuais! Neste caso, o valor de %2 deve ser pequeno- Em
outras palavras, um valor pequeno de %2 sugere que as variveis podem
ser independentes. Por outro lado, um valor grande na estatstica x2>
sinaliza que as diferenas entre as freqncias observadas e freqncias
esperadas no devem ser meramente casuais, ou seja, deve haver
associao entre as duas variveis.

DiSTRibuiO dE reerenca

Precisamos de uma distribuio de referncia, que permita julgar


se um determinado valor da estatstica %2pode ser considerado grande o
suficiente para rejeitar H0, em favor de H r Suposies bsicas para usar
a chamada distribuio qui-quadrado como referncia:
1) os dados estejam dispostos numa tabela de contingncia propria
mente dita, isto , cada elemento observado alocado numa e
apenas numa clula; e
2 } as amostras sejam grandes.

A verificao da adequao dos tamanhos das amostras


usualmente feita em termos das freqncias esperadas. A maioria dos
autores considera adequada a aplicao do teste qui-quadrado quando
todas as freqncias esperadas forem maiores ou iguais a 5 (cinco).4 No
exemplo em discusso, as freqncias esperadas foram: 86,67, 43,33,
113,33 e 56,67. Portanto, todas superiores a 5, o que permite a realizao
do teste qui-quadrado.

Supondo H0verdadeira e as condies (1) e (2), ento os possveis valores da estatstica


X2seguem a chamada distribuio qui-quadrado com gl = - 1) (c - 1) graus de liberdade,
onde i o nmero de linhas e c o nmero de colunas da tabela.

No Exemplo 12.1, ambas as variveis tm duas categorias (tabela


2x2), ento ~ 2, c = 2 e, portanto, gl = (2 -1)- (2 - l) ~ 1. Logo, se H for

4 Quando ocorrer alguma freqncia esperada menor do que cinco, pode-se aplicar o chamado
teste exato de Fisher. Veja, por exemplo, Levin {1985, p. 221).
C p T u lo 12 - A n se d e d a d o s C A re q o R izA c lo s 255

verdadeira, os possveis valores da estatstica %2 devem seguir uma


distribuio qui-quadrado com gl = 1 grau de liberdade. A forma da
distribuio qui-quadrado toma-se menos assimtrica medida que
cresce o nmero de graus de liberdade (veja a Figura 12.1).

Figura 12.1 Distribuies qui-quadrado com gl = 1 e gl = 4.

PRobabilidAdE dE s^ n Fcnca

Supondo que as duas variveis sejam independentes (H0 verdadeira), o valor p a


probabilidade de a estatstica qui-quadrado acusar um valor maior ou igual do que o
valor do %3, calculado com base na amostra (ver Figura 12.2).

Figura 12.2 A probabilidade de significncia (valor p) como.


uma rea sob a curva da distribuio qu-quadrado.

Quando os dados levam a um %2 grande (e, em conseqncia, um


valor p pequeno), o teste rejeita H0, em favor de H,. Por outro lado, quando
os dados observados levam a um %2 pequeno (e, em conseqncia, um
valor p grande), o teste no rejeita H0, porque o valor calculado de %2est
condizente com a distribuio dos possveis valores de qui-quadrado,
construda luz de H..
\ 0
2?4 E s t a t s t ic a a p I c a c a s C i n c a s S o c a s

Conforme apresentado no Captulo 10, adotado um nvel de


significncia cx, a deciso do teste estatstico :
p>a aceita H0
p < a rejeita H0, em favor de H 3

AbelA dA dSTRbuiO QUkQUAdMdo

Depois de calculado o valor da estatstica c2, podemos obter a


probabilidade de significncia p, usando uma tabela da distribuio qui-
quadrado (Tabela 6 do apndice), A continuao do Exemplo 12.1 ilustra
o uso dessa tabela.

ExElYlplo 12.1 (continuao) Usando a Tabela. 6 do apndice, entramos na linha


correspondente a gl = 1. Verificamos que o valor calculado %2 - 1,74 est
entre os valores 1,32 e 2,71 da tabela, os quais esto associados s reas
na cauda superior iguais a 0,25 e 0,10, respectivamente, conforme ilustra
o seguinte esquema:

Amostra
rea na cauda superior
10 ^ 0,05 0,025 0,010
3,84 5,02 6,63

Logo, para o valor calculado %2- 1,74, temos o valor p entre 0,10 e
0,25. Usando o nvel usual de significncia de 5% (a = 0,05), o teste
aceita H0 (pois, p > a). Conclumos, ento, que os dados no mostram
evidncia de associao entre sexo e tabagismo, na populao em estudo.
Em outras palavras, a diferena verificada na amostra entre a proporo
de homens fumantes e a proporo de mulheres fumantes pode ser
explicada, meramente, por variaes casuais da amostragem.

C o r r e o dE coNTNuidAdE em TAbEAS 2 x 2

J comentamos que a distribuio qui-quadrado, usada como


distribuio de referncia para a estatstica %2, s vlida para amostras
grandes. Em tabelas de dimenso 2x2, especialmente quando as amostras
no forem muito grandes (por exemplo, quando existir alguma freqncia
C a p t u Io !2 A n Is e ck <kdos cateqorzacos

esperada entre 5 e 10), recomendamos aplicar a chamada correo de


continuidade de Yates, que consiste em reduzir 0,5 unidade nas diferenas
absolutas entre as freqncias observadas e esperadas. Assim, para
tabelas de contingncia 2 x 2.,
^ (|0-E|-055)2

Ou seja, em cada clula, depois de calcular a diferena entre O e E,


devemos desprezar o sinal (+ ou ~) e reduzir 0,5 unidade. Em seguida,
elevamos ao quadrado, e dividimos pela freqncia esperada da clula.
Vamos refazer o clculo do %2 do Exemplo 12.1, usando a correo
de continuidade. Primeiramente, faremos o clculo das parcelas do %2,
referentes a cada clula:

Sexo
T abagism o
M asculin o Feminino
38 - 43.331 - 0,5f
Fum ante t92-86,67|-0jf ,0.269 1 -J------ = 0.538
86.67 43.33

Jl08-n3.33[-0.5r t62 - 56.67(-0.5 r


N o-fu m ante
113,33 56.67

Resultando em: %2 = 0,269 + 0,538 + 0,206 + 0,412 = 1,43.


Usando a Tabela 6 com gl = 1, encontramos a probabilidade de
significncia na mesma faixa do caso anterior, isto , 0,10 < p < 0,25.
H

Quando as amostras no forem muito grandes, o uso da correo


de continuidade pode levar a resultados bastante diferentes (veja o
Exerccio 1). justamente neste caso que correo mais recomendada.

Uma rvua mas RpidA para o ccuIo do %2 em taBeas 2x2

Em tabelas 2 x 2 , representadas segundo o esquema abaixo,


podemos calcular a estatstica %2, com correo de continuidade, da
seguinte forma:

a b a+b
c d c + d ...
a +c b +d n * (a+b) (c+d) (a+c) (b+d)
256 E s t a t s t ic a a p I c a c a s C n c a s S o c a s

Vamos ilustrar o uso desta frmula cora os dados da Tabela 12.1:

a = 92 >= 38 a + b = 130
c 108 d= 62 c + d = 170
a + c - 200 b + d = l 00 n = 300

Assim,
2 3 0 0 x | 9 2 x 6 2 - 3 8 x 108j- -2SQjf 300 x [1 .6 0 0 -1 5 0 f 3 0 0 x (2.102.500} ,
ry Z Z ................ .......... . . . I ......... . 1
... - ,............... ........................................ ^7 .............

130 x 170 x 200 x 100 442.000.000 442.000.000

Para calcular a estatstica %z sem a correo de continuidade, basta


excluir a frao n/2 do numerador.

pliCAO d o TESTE QU'QUAdRAdo EM Ta B e I aS dE QRANdE dMENSO

ExEMplo 12 J (Baseado em Box, Hunter e Hunter, 1978> p. 145.) Num


estudo exploratrio est se examinando a recuperao funcional de
pacientes submetidos a um certo ato cirrgico, em cinco hospitais de
uma cidade. Os hospitais A, B, C e D so hospitais comuns, enquanto
que o Hospital E um hospital de referncia, 0 qual recebe os casos mais
graves. A Tabela 12.3 mostra os resultados de um levantamento por
amostragem, realizado nos cinco hospitais.

Tabela 12.3 Resultados (freqncias e percentagens) da recuperao


funcional de pacientes, submetidos a um certo procedimento cirrgico,
em cinco hospitais.
Recuperao Hospital
funcional A B C D E
Nenhuma (%) 13 (27,7) 5 (16,1) 8 (10,1) 21 (16,4) 43 (52,4)
Parcial (%) 18 (38,3) 10 (32,3) 36 (45,6) 56 (43,8) 29 (35,4)
Completa (%) 16 (34,0) 16 (51,6) 35 (44,3) 51 (39,8) 10 (12,2)

Com 0 objetivo de verificar se realmente existe associao entre


hospital e recuperao do paciente, vamos realizar o teste qui-quadrado. A
Tabela 12.4 mostra as freqncias esperadas e as parcelas de cada clula
no clculo da estatstica x2-
C a p t u I o 12 - A\lise de dftdos cATeqoRiMdos 257

Tabela 12.4 Resultados do procedimento cirrgico: freqncias observadas


(centro), freqncias esperadas (canto superior direito) e parcelas do x2
(canto inferior esquerdo).
Recuperao Hospital
funcional A B C D E Total
11,53 7,60 19,37 31,39 20,11
Nenhuma '13 5 8 21 43 90
0,19 0,89 6,67 3,44 26,05
19,08 12,59 32,07 51,94 33,39
Parcial 18 10 36 56 29 149
0,06 0,53 0,48 0,31 0,55
16,39 10,81 27,55 44,64 28,60
Completa 16 16 35 51 10 : 128
0,01 2,49 2,02 0,91 12,10
Total 47 31 79 128 82 367

Somando os valores das parcelas do %2, temos:


t = 56,7
com
g = ( e - l )(c - l )= (3 - l )(5 - l )= 8

Pela Tabela 6 do apndice, verificamos que a probabilidade de


significncia p inferior a 0,001. Ento, para qualquer nvel usual de
significncia (por exemplo, a - 0,05), o teste detecta associao entre
recuperao funcional de pacientes e hospital (pois, p < a). Em outras
palavras, o teste qui-quadrado mostrou que os hospitais em estudo so
diferentes quanto recuperao funcional de seus pacientes.
m

Muitas vezes, ao analisar uma tabela de grande dimenso, temos,


tambm, o interesse em estudar partes desta tabela, para entendermos
melhor uma eventual associao entre duas variveis. Podemos comparar
grupos de categorias agregadas segundo algum critrio e, posteriormente,
estudar separadamente as categorias que estavam agrupadas.

ExEMpfo 12J (CONTNUAO) Observando as parcelas do %2(canto inferior direito


das clulas da Tabela 12.4), verificamos que as maiores contribuies
partiram do Hospital E, que um hospital de referncia e recebe os casos
mais graves. Podemos, ento, fazer uma anlise estatstica para verificar
se a significncia foi em razo de diferenas entre os hospitais comuns e
o hospital de referncia, somente entre os hospitais comuns, ou ambos
os casos.
2?8 E s t a t s t c a A p ltcA d ft s C n c a s S o c a s

A Tabela 12.5 agrega todos os hospitais comuns (A, B, C e D) para


confrontar com. o hospital de referncia E. O valor das freqncias
observadas na coluna dos hospitais comuns corresponde soma das
freqncias observadas dos hospitais A, B, C e D da Tabela 12.3. As
freqncias esperadas e as parcelas do %2foram calculadas novamente.

Tabela 12.5 Comparao do hospital de referncia com os demais.


Freqncias observadas (centro), freqncias esperadas (canto superior
direito) e parcelas do x2 (canto inferior esquerdo).

Hospitais Hospital de
Recuperao
comuns referncia Total .
funcional
(A + B + C + D) . (E)
69,89 20,11
Nenhuma
47 43 90
7,50 26,05
115,71 33,29
Parcial
120 29 149
0,16 0,55
99,40 28,60
Completa
118 10 128
3,48 12,10
Total 285 82 367

Temos: %2 = 49,8 e gl - 2. Usando a Tabela 6 , verificamos que p <


0 ,0 0 1 , mostrando haver diferena significativa entre os hospitais comuns
e o hospital de referncia. Finalmente, aTabela 12.6 analisa os hospitais
comuns entre si. As freqncias observadas dessa tabela correspondem
s freqncias observadas da Tabela 12.3, eliminando o Hospital E.

Tabela 12.6 Comparao entre os hospitais comuns. Freqncias


observadas (centro), freqncias esperadas (canto superior direito) e
parcelas do %2 (canto inferior esquerdo).
Recuperao Hospital Total
funcional A B C D
7,75 5,11 13,03 21,11
Nenhuma 13 5 8 21 47
3,55 0 ,0 0 1,94 0,00
19,79 13,05 33,26 53,89
Parcial 18 10 36 56 120
0,16 0,71 0,23 0,08
19,46 12,84 32,71 53,00
Completa 16 - - 16 =- 35 -51- 118
0,61 0,78 0,16 0,18
Total 47 31 79 128 285
C A p T u lo 12 AnIs de dados cateorzacos 259

Temos: %2= 8,4, gl = 6 e, portanto, 0,10 < p < 0,25. Considerando o


nvel de significncia de 5% (a = 0,05}, ou at mesmo de 10% (a = 0,10],
o teste no detecta associao. Assim, podemos dizer que no h diferena
significativa entre os hospitais comuns.

Uso do COVipUTAdOR

Considerando o anexo do Captulo 4, vamos verificar se existe


associao significativa entre o local da residncia e a utilizao de
programas de aJimntaD popular. A Figura 12.3 mostra uma sada do
pacote computacional SPSS .5
Programa de alimentao popular * Locai da residncia Crosstabulaton
Locai da residncia
Parque da
Monte Verde Figueira Morro Total
Programa de nao usa 18 12 12 42
alimentao
22 31 25 78
popular
Total 40 43 37 120

Ch-SquareTests
Asymp. Sig. (2-
Value df sided)
Pearson Chi-Square 2,816(3> 2 0,245
Likelihood Ratio 2,791 2 0,248
Linear-by-Ltnear
1,388 1 0,239
Association
N of Vaiid Cases 120
a 0 cels {,0 % ) have expected couni less than 5. The minimum expected count is 12,95.

Symmeric Measures

Value Approx. Sig.


Nomnai by Nominal Cramer's V 0,153 0,245

Contingency Coeffcient 0,151 0,245


N of Valid Cases 120
Figura 12.3 Tabela de contingncia, teste qui-quadrado e medidas de associao pelo SPSS.

Com os dados brutos construda uma tabela de contingncia. O


teste qui-quadrado (Pearson Chi-square) apresentado na segunda tabela
com os resultados x2 = 2,816, gl~ 2 e p = 0,245 (segunda tabela da Figura
12.3}, mostrando no haver associao (aceitando p y. Tambm so

1 Ver www.spss.com
240 Estatstica a p Icaca s G ncas Socajs

mostrados os resultados de outras abordagens do teste qui-quadrado,


que no sero discutidos neste texto. No rodap desta segunda tabela,
diz-se que no h freqncia esperada inferior a cinco, condio para a
validade do teste. Finalmente, a terceira tabela apresenta algumas medidas
de associao, que sero discutidas na prxima seo.

Ex e r c c io s

1) Seja a seguinte amostra:


Classificao de uma amostra de 38 indivduos,
quanto ansiedade e tabagismo
Ansioso
Fumante
sim j no
sim 15 7
no 6 10

a) Calcule a estatstica x2 sem usar a correo de continuidade.


b) Calcule a estatstica %2 usando a correo de continuidade.
c) Voc pode dizer que existe associao entre tabagismo e ansiedade, ao
nvel de significncia de 10%?
2) (Levn, 1985, p. 266) Dois grupos de estudantes fizeram exames finais de
estatstica. Somente um grupo recebeu preparao formal para o exame; o
outro leu o texto recomendado, mas nunca compareceu s aulas. Enquanto
22 dos 30 membros do primeiro grupo {osfreqentadores) passaram no exame,
apenas 10 dos 28 do segundo grupo (os ausentes) lograram aprovao. Os
dados mostram evidncia suficiente para afirmar que existe associao entre
freqncia s aulas e aprovao no exame final? Use a = 0,05.
3) a) Faa um teste qui-quadrado com os dados da Tabela 12.2 para verificar
se existe diferena significativa entre as distribuies do nvel de instruo
nas trs localidades. Use a = 0,01.
b) Verifique se existe diferena significativa na distribuio do nvel de
instruo entre a Encosta do Morro e os conjuntos residenciais Monte
Verde e Pq. da Figueira (agregados).
c) Verifique se existe diferena significativa na distribuio do nvel de
instruo entre os dois conjuntos residenciais.
4) Usando os dados do anexo do Captulo 4, verifique se existe associao entre:
a) uso de programas de alimentao popular e localidade da residncia;
b) uso de programas de alimentao popular e nvel de instruo do chefe
da casa.6

6 Como j comentamos, a presena de associao entre duas variveis no Implica a existncia


de uma relao de causa e' efeito entre elas. No Exerccio 4,b, por' exemplo, se houver
associao entre uso de programas de alimentao popular e nvel de instruo do chefe d.a
casa, ento esta pode ser devida a uma terceira varivel: renda familiar, que por esfcur
associada s duas variveis em estudo, pode induzir uma associao entre elas.
C a p t u I o 12 ~ A n s e de d a d o s c a t e c jo r za c Io s 241

12.2 MedidAS d e a s s o c a o

Como vimos, a aplicao do teste, qui-quadrado permite verificar se


existe associao entre duas variveis, com base em um conjunto de
observaes. um processo de inferncia, em que se parte dos dados
para se tirar concluses sobre o universo de onde os dados foram extrados.
Em muitas situaes, porm, o interesse est restrito em descrever
adequadamente a amostra, sem extrapolar para um universo maior. Neste
contexto, ao invs de um teste estatstico, mais interessante estudar o
nvel de associao descrito pela prpria amostra.
Nesta seo, apresentaremos alguns coeficientes que tm por
objetivo medir a fora da associao entre duas variveis categorizadas.
Enfatizamos que essas medidas so descritivas, isto , referem-se apenas
aos dados observados. Porm, o clculo dos coeficientes de associao
tambm pode ser realizado aps a aplicao de um teste estatstico, se
este detecta associao. Neste caso, um coeficiente de associao fornece
uma estimativa do grau de associao entre as duas variveis.

ExEMpio 12 .4 Vamos contrapor duas amostras (AeB), classificadas segundo


o sexo (homem ou mulher) e tabagismo (fumante ou nofumante).
Amostra A Amostra B
Sexo Sexo
Tabagismo Tabagismo
homem i mulher homem mulher
fumante 80 (40%) 40 (40%) fumante 200 (100%} 0 (0%)
no-fumante 120 (60%) 60 (60%) no-fumante 0 (0%) 100 (100%)
Total 200 (100%) 100 (100%) Total 200 (100%) 100 (100%)

Na amostra A, os dados indicam uma situao de completa


independncia, pois o conhecimento do sexo do respondente no fornece
qualquer informao sobre a varivel tabagismo (veja que a percentagem
de homens fumantes igual percentagem de mulheres fumantes). Por
outro lado, a amostra B ilustra um caso de associao perfeita, j que os
fumantes so todos homens e os no-fumantes so todas mulheres.
t

Um coeficiente de associao, aplicado a uma tabela de contingncia, produz um valor


numrico que descreve se os dados se aproximam mais de uma situao de
independncia ou de uma situao de associao perfeita, u seja, descreve o quanto
os dados das duas variveis se mostram associados.
242 ESTATSTiCA ApliCAClft S C i N C A S S o CAS

Apropria estatstica %2, desenvolvida na seo anterior, pode ser usada


como uma medida de associao. Efetuando o clculo desta estatstica
sobre os dados das amostras A e B , sem a correo de continuidade,
encontramos os seguintes valores: %2 = 0 (amostra A) e %2 = 300 (amostra
B). Mas a interpretao da estatstica %z como um coeficiente de associao
no muito simples, pois o seu valor mximo (associao perfeita) varia de
acordo com a dimenso da tabela e o nmero de elementos observados.

COEficiEMTE CONTiNqNCiA

Um coeficiente muito usado para medir o grau de associao em


uma tabela de contingncia o chamado coeficiente de contingncia,
definido com base na estatstica %2 e do nmero n de elementos, da
seguinte forma:7

Mas o valor mximo de C tambm depende da dimenso da tabela.


Para facilitar a interpretao, usaremos uma modificao deste coeficiente.
Chamaremos de k o menor valor entre i (nmero de linhas da tabela) e c
(nmero de colunas da tabela). Por exemplo, numa tabela de dimenso
2x2, temos k = 2. Numa tabela 3x5, temos k= 3. O chamado coeficiente de
contingncia modificado

O valor de C *sempre estara no intervalo ae 0 (zero) a 1 (um). Ser 0


somente quando houver independncia. Ser 1 somente quando houver
associao perfeita. Valores de C* prximos de 1 descrevem uma
associaoforte, enquanto valores de C* prximos de 0 indicam associao
fraca. Os valores de C* em tomo de 0,5 podem ser interpretados como
associao moderada.

ExEMplo 12.4 (coiNTNUAo) Temos na amostra A: n = 300, k= 2 %2 = 0. Ento:

(2 ) (0 )
f2 -1 ) (0 + 300)

7 Para calcular o coeficiente de contingncia conveniente calcular o x2 sem a correo de


continuidade.
Q v p T u lo 12 AnIse d e d a d o s cateqorzacIos 245

Temos na amostra B: n - 300, k - 2 e %2- 300. Ento:

^ , (2)-{300}
~ V (2 - 1) (300 4- 300) * Assock* perfeita!

ExEWplo 12.5 Vamos medir o grau de associao entre hospitale recuperao


funcional de pacientes, descrito pelos dados da Tabela 12.4. Foram
observados n = 367 pacientes, classificados numa tabela 3x5. Assim, k
= 3 e , como vimos anteriormente, %2 ~ 56,7. Ento:

c ..,- 3 ^ Z J _ = o ,45
2-(367+ 56,7)
Logo, conclumos que a amostra descreve uma associao moderada
entre hospital e recuperao funcional de pacientes.

O utros coecentes <Je assocao

O coeficiente de contingncia apenas uma opo dentre vrias


propostas de coeficientes de associao. Em tabelas 2x2, usual o
chamado coeficiente phv

n
O coeficiente phi tem a vantagem de ser bastante simples e seu
resultado sempre estar entre 0 e 1 , permitindo interpretao similar ao
coeficiente de contingncia modificado. Mas especfico para tabelas 2x2.
Uma generalizao do coeficiente phi para tabelas de dimenso maiores
o chamado V de Cramr, definido por:

V l(n -(fc -l)

onde fco menor valor entre (nmero de linhas da tabela) e c (nmero de


colunas da tabela). Ver sada computacional apresentada na seo anterior.

DacIos orcJnas caieqorzacIos

Muitas vezes, as categorias de uma varivel qualitativa formam uma


ordenao (crescente ou decrescente). Isto ocorre, por exemplo, nos dois
seguintes itens de um questionrio (em ambos os itens as categorias
esto numa ordem crescente):
244 E statstica a p UcacIa s G ncas S ocas

a) Qual o seu nvel de instruo?


} nenhum
) fundamental
) mdio
) superior
b) Qual a sua opinio sobre o novo projeto educacional de seu municpio?
} totalmente contrrio
) contrrio
) indiferente ou sem opinio
) favorvel
) completamente favorvel

Ao estudarmos a associao entre duas variveis ordinais, podemos


no s ter interesse no grau de associao, mas tambm no seu sentido
ipositivaou negativa}. Preferimos, neste contexto, usar o termo correlao
no lugar de associao. Dizemos que existe correlao positiva quando,
na medida em que o nvel de uma varivel aumenta, cresce a chance de
ocorrer nveis mais elevados na outra varivel; correlao negativa ocorre
quando, ao aumentar o nvel de uma varivel, diminui a chance de ocorrer
nveis mais elevados na outra varivel.
O coeficiente de correlao que apresentaremos aqui se baseia nos
conceitos de concordncia e discordncia. Dizemos que dois indivduos
so concordantes se eles se posicionam em posies concordantes nas
duas variveis. So discordantes, se eles trocam de posio ao mudar de
varivel. Veja a seguinte situao:
Joo alto e pesado;
' Maria baixa e leve
Podemos dizer que Joo e Maria formam um par concordante, pois,
ao mudar de Joo para Maria, ambas as variveis mudam para nveis
inferiores (estatura; a lt a b a ix a ; peso: pesado - leve). E de Maria para
Joo, ambas as variveis mudam para nveis superiores (estatura: baixa
> alta: peso: leve pesado). J na situao seguinte:
Pedro baixo e pesado;
Jos alto e leve
temos um par discordante, pois, ao passar do Pedro para o Jos, a estatura
aumenta, enquanto que o peso diminui (estatura: baixa -> alta; peso:
pesado -> leve).
Um conjunto de dados que tem, relativamente, muitos pares
concordantes pode ser interpretado como tendo correlao positiva. Por
O p T l o 12 A iM lis E d e d .\ d o s C A T e q o R iif t d o s 245

outro lado, um conjunto de dados que tem, relativamente, muitos pares


discordantes, pode ser interpretado como tendo correlao negativa.
Vejamos, atravs de um exemplo, como contar o nmero ucde pares
concordantes e o nmero nd de pares discordantes, num conjunto de
observaes de duas variveis ordinais, apresentado numa tabela de
contingncia. O procedimento que apresentaremos vale para tabelas de
qualquer dimenso, desde que as categorias das duas variveis estejam
dispostas numa mesma ordem (crescente ou decrescente).

ExEMplo 12.6 Estudo da correlao entre nvel de instruo e posio com


relao ao aborto (Tabela 12.7}.

Tabela 12.7 Classificao de 1.425 indivduos, segundo o nvel de instruo


e a posio a respeito do aborto.
Posio com relao ao aborto
Nvel d e instruo
desaprova indiferente aprova
baixo 209 ____ ____ 101 237
m dio 151 12T ^ 426
alto . V 16 21 138
Fonte: Agrest (1984, p. 157).

Como as categorias das duas variveis da Tabela 12.7 j esto


dispostas numa mesma ordem (ambas esto em ordem crescente},
passamos a contar o nmero de concordncias e o nmero de
dseordncias, conforme o esquema a seguir:

Nmero de pares concordantes; nc= Nmero de pares discordantes: rtd=

209 X X X 101 X X X 237


X 126 426 X X 426 151 126 X
X 21 138 X X 138 16 21 X

= 209(126+426+21+138) + 101'(426+138) + = 237-(151+126+16+21) +101(151+16) +

X X X X X X X X X X X X
151 X X X 126 X X X 426 X 126 X

X 21 138 X X 138 16 21 X 16 X X

+ -151-(21+138) .+ 126 (138) . . . ... +426- (16+21)......... +126. (16)

Portanto: rtc= 246.960 na =109.063


246 ESTATSTICA ApLiCAdA S CiiNCiAS S ociais

C oeHcente y e CoocIvian e K ru sw

O coeficiente y definido por:

Uc ~ na
nc + na

O valor de y estar sempre entre : 1 e + 1. Ser +1 quando s houver


concordncias, e ser-1 quando s houver discordncias. Quando y estiver
em tomo de zero, indica que o nmero de concordncias e o nmero de
discordncias so aproximadamente iguais (ausnciade correlao). Quanto
mais prximo de +1 estiver y, mais o nmero de concordncias estar
superando o nmero de discordncias (correlao positiva forte). Simetrica
mente, quanto mais prximo de -1 estiver y, mais o nmero de discordncias
estar superando o nmero de concordncias (correlao negativa forte).

ExEiYipio 12.6 (CONTINUAO) Calculamos nc = 246.960 e nd= 109.063. Assim,

246.960-109.063
y - -----------------------= 0,39
246.960 + 109.063

Conclumos, ento, que a amostra apresenta uma correlao positiva


moderada entre nvel de instruo e aceitao do aborto. Ou seja, em termos
dos indivduos observados, existe uma leve tendncia de quanto maior o
nvel de instruo, maior a aceitao do aborto.

Uso do COMpUTAdofi

Considerando o anexo do Captulo 4, buscou-se verificar uma


possvel associao entre o nvel de instruo e a renda familiar. A Figura
12.4 mostra uma sada do pacote computacional SPSS.
O resultado do teste qui-quadrado de Pearson (%2= 16,28, g l= 4 e
p = 0,003) leva a rejeio de H0, isto , mostra haver associao entre
renda e nvel de instruo. O coeficiente y, em tomo de 0,5, indica uma
correlao positiva moderada entre essas variveis. Embora neste texto
no comentamos a respeito de inferncias sobre o coeficiente y, podemos
notar que a ltima tabela mostra o resultado de um teste estatstico (H0:
correlao nula na populao e correlao no-nula na populao).
Como o valor p menor que um milsimo (ltima coluna), podemos
concluir que o teste detecta a existncia de correlao na populao de
nde foram extrados os dados.
O p r u i o 12 A n I s e d e d a d o s C A te q o R iZ A d o s 247

Classes de renda * Nvel de instruo Crosstabuiation


Nvel de instruo
ensino ensino Totai
nenhum
fundamental mdio
Cfasses .. , .
. . ate 4,9 sai. mm. Count 24 18 10 52
de renda
% within Nvei
64,9% 47,4% 22,7% 43,7%
de instruo
de 5 a 9,9 sai. mn. Count 11 14 22 47
% within Nvei
29,7% 36,8% 50,0% 39,5%
de instruo
10 ou mais sal. mn. Count 2 6 12 20
% within Nvel
5,4% 15,8% 27,3% 16,8%
de instruo
Total Count 37 38 44 119
% within Nvei
100,0% 100,0% 100,0% 100,0%
de instruo

Chi-Square Tests

Value df Asymp. Sig. {2-sided)

Pearson Chi-Square I6,282<a) 4 0,003


Likehood Ratio 17,302 4 0,002
Linear-by-linear Association 15,473 1 0,000
N of Vaiid Cases 119
a 0 ceiis {,0 % } tiave expected count less than 5. The minimum expected count is 6,22.

Symmetric Measures
Vaiue [ Asymp. Std. Error(a) Approx. T '0 Approx. Sig.
Ordinal by Ordinai Gamma 0,495 | 0,101 4,556 0,000
N of Vaiid Cases 119 |
a Not assuming tfte nu hypothess.
b Using the asymptotc standard error assuming the null hypothesis.

Figura 12.4 Saida do pacote computacional SPSS.

Cabe observar que houve um caso invlido (falta de resposta), ou seja,


a anlise foi realizada com 119 famlias e no comas 120 famlias amostradas.

E x e r c c io s

5) Sejam os dados da Tabela 12.1, calcule e interprete:


a) o coeficiente de contingncia modificado;
b) o coeficiente p h t
248 ESTATSTCA ApliCAdft S CNCiAS SoCAS

6) Para os dados da Tabela 12.2, calcule e interprete:


a) o coeficiente de contingncia modificado;
b) o coeficiente V de Cramr.
7) Noventa crianas foram classificadas segundo suas habilidades em
matemtica e msica, resultando nos seguintes dados.
Habilidade para matemtica
Habilidade para msica
alta | mdia i baixa
alta 20 10 ' 7
mdia 12 10 8
baixa 6 7 10
Calcule o coeficiente y e Interprete.
8} Considere os dados do anexo do Captulo 4.
a) Calcule o coeficiente C* para as variveis localidade da residncia e uso
de programas de alimentao popular. Interprete.
b) As localidades Monte Verde, Parque da Figueira e Encosta do Morro esto
em ordem decrescente, em termos da qualidade das construes
habitacionais. Usando esta informao, calcule o coeficiente y entre localidade
da residncia e uso de programas de alimentao popular. Interprete.
9) Considerando os dados do anexo do Captulo 2, calcule o coeficiente y entre
satisfao com a didtica dos professores e satisfao geral com o curso. Interprete,

Ex e r c c io s c o m p Ie m e n t a r e s

10) A tabela que segue apresenta uma classificao de pessoas segundo o nvel
de instruo e colaborao com a coleta seletiva de lixo.8 Verifique se existe
associao significativa entre estas duas variveis.
Colabora com a coleta seletiva de lixo
Nvel de instruo
sim no
nenhum ou fundamental 22 13
mdio 33 34
superior 39 36

11) Os dados abaixo se referem ao tipo de escola em que o aluno realizou o


ensino mdio (0 = pblica e 1 = particular) e o resultado no vestibular {0 = no
passou e 1 = passou).
aluno escola j vestib. aluno escola j vestib. aluno escola vestib.
1 1 1 11 0 0 21 1 0
2 1 1 12 0 1 22 0 0
3 1 0 13 0 0 23 0 0
4 0 0 14 0 1 24 0 0
5 0 1 15 I 1 25 1 0
6 1 1 16 1 0 26 0 0
7 0 0 17 0 0 27 0 0
8 1 1 18 1 1 28 1 1 .

9 1 0 19 0 0 29 0 1
10 ..... 0 0 20 0 - 0 30-- - 1 -1

8 parte de uma pesquisa realizada em Florianpolis - SC, em 1999, pelos acadmicos


Joo Fveri e ngeia Queiroz, do Curso de Psicologia da UFSC, semestre 1999/1.
CApruto 12 - A n s e de dAdos CArcqoRiZAdos 249

Construa uma distribuio de freqncias conjunta para as variveis tipo de


escola e resultado no vestibular. Apresente essa distribuio numa tabela de
dupla entrada. Os dados sugerem associao? Explique atravs de um teste
estatstico apropriado com a = 0,10.
12} Para verificar se em estudantes universitrios existe associao entre trs
reas de estdo (humanas, biolgicas ou exaas) e a aprovao em relao ao
exame de final de urso proposto pelo governo {favorvel ou contrrio), foram
observados 120 estudantes aleatoriamente. Dos 40 estudantes da rea de
humanas, 10 disseram ser favorveis (e os restantes contrrios). Dos 30
estudantes da rea biolgica, 10 eram favorveis (e os restantes contrrios).
E dos 50 da rea de exatas, 20 eram favorveis (e os restantes contrrios).
Pode-se dizer que existe associao entre essas duas variveis? Faa um
teste estatstico apropriado ao nvel de significncia de 5%.
13) Considere que voc tenha um conjunto de dados de seus clientes, contendo
as seguintes caractersticas:
- Sexo (masculino ou feminino);
- Locai da residncia (na prpria cidade ou em outra cidade);
- Nvel de satisfao (escala de 0 a 10) e
- Valor mensal das compras (mdia dos ltimos 3 meses, em R$).
Que tcnicas estatsticas voc usaria para:
a) verificar se existe relao entre sexo e local da residncia do cliente;
b) verificar se o valor das compras tende a ser diferente para homens e
mulheres;
c) verificar se h relao do nvel de satisfao com o local de residncia do
cliente.
C o r r e Ia o e reqresso

este captulo, vamos dar seqncia ao estudo de associao entre duas


N variveis, mas agora, supondo que ambas sejam mensuradas quantitati
vamente. Usaremos, neste caso, o termo correlao no lugar de associao.

Varves correIaconacIas

Dizemos que duas variveis, X e Y , so positivamente correlacionadas


quando elas caminham num mesmo sentido, ou seja, elementos com valores
pequenos de Xtendem a ter valores pequenos de Y e elementos com valores
grandes de X tendem a ter valores grandes de Y. So negativamente
correlacionadas quando elas caminham em sentidos opostos, ou seja,
elementos com valores pequenos de X tendem a ter valores grandes de Ve
elementos com valores grandes de X tendem a ter valores pequenos de Y.
As variveis peso e altura apresentam-se, em geral, correlacionadas
positivamente, pois os indivduos altos tendem a ser mais pesados,
enquanto que a maioria dos indivduos baixos leve. Por outro lado, no
Brasil, as variveis renda familiar e nmero de elementos da famlia
costumam apresentar-se correlacionadas negativamente, pois as famlias
de baixa renda, em geral, tendem a ter mais filhos do que as de alta renda.
Ilustraremos o estudo de correlaes entre duas variveis, usando
os dados da Tabela 13.1, relativos a alguns indicadores sociais de uma
amostra de municpios brasileiros.1

! Estamos usando uma amostra bastante pequena para ilustrar as tcnicas. Um estudo
dessas variveis pode ser feito com toda a populao de municpios, j que esses dados
esto disponveis no Censo Demogrfico de 2000 ou no Atlas de Desenvolvimento Humano
(www.pnud.org.br/atlas).
252 E s t a t s t ic a a p I ic a c a s C n c a s S o c ia s

Tabela 13.1 Alguns dados, baseados no Censo Demogrfico de 2000, de


uma amostra aleatria de municpios brasileiros
Municpio DistCap EspVida Mortlnf Alfab Renda
Araruna (PR) 365 67,99 23,19 86,23 188,29
Nova Redeno (BA) 278 61,19' 56,56 63,00 74,79
Mono (MA) 150 59,58 63,32 .63,64 66,96
Porto Rico do Maranho (MA) 78 58,96 66,05 79,33 65,34
Campo Er (SC) 468 68,10 31,71 83,38 173,38
Lagoa do Piau (PI) 40 63,65 47,08 65,81 60,00
So Jos das Palmeiras (PR) 486 71,01 16,62 77,54 150,67
Paraba do Sul (RJ) 83 71,36 15,69 89,28 264,55
Malhada dos Bois (SE) 65 64,46 44,18 69,95 80,69
Jandara (BA) 175 62,45 51,57 59,72 58,68
Vespasiano (MG) 14 68,68 32,81 90,43 196,53.
Ipaba (MG)
..................................... . 167 67,42 37,04 81,82 125,75
F o n t e : A t l a s d e D e s e n v o lv im e n t o H u m a n o (w w w .p n u d .o r g .b r / a t ia s ).
D e s c r i o d a s v a ri v e is :

D is t C a p : d is t n c ia c a p it a l d a r e s p e c tiv a U n id a d e d a F e d e ra o .
E s p V d a : e s p e ra n a d e v id a a o n a s c e r

M o rtln f: m o rt a lid a d e (n m e r o m d io d e m o r t e s e m 1 .0 0 0 ) a t u m a n o d e id a d e .
A lfa b : t a x a d e a lf a b e tiz a o (p e r c e n ta g e m d a p o p u la o a d u lt a a lf a b e tiz a d a )..
R enda: r e n d a p e r c a p ita d o m u n ic p io (R $ ).

15.1 D aqramas de dispERso

Uma maneira de visualizarmos se duas variveis apresentam-se


correlacionadas atravs do diagrama de disperso, no qual os valores
das variveis so representados por pontos, num sistema cartesiano. Esta
representao feita sob forma de pares ordenados {x, y), onde x um
valor de uma varivel e y o correspondente valor da outra varivel. A
Figura 13.1 ilustra a construo de um diagrama de disperso.

Figura 13.1 Construo de um diagrama de disperso. Representao das


trs primeiras observaes de X = distncia da capitai e Y = esperana de
vida ao nascer, referente aos dados da Tabela 13.1
C A p r u lo 1? - C o r r e Ia o e Reqsesso 2 ??

A Figura 13.2 mostra quatro diagramas de disperso, relativos aos


cruzamentos de algumas variveis da Tabela 13. L O leitor deve notar que
cada par de observaes refere-se ao mesmo elemento (municpio), ou
seia. a anlise baseia-se em dados oareados.

a}

Renda per capita (R$) Esperana de vida ao nascer

* 60
t------1------!----- p
0 100 200 300 400 600
Taxa de mortalidade infantil Distncia da capital (ton)

Figura. 13.2 Alguns diagramas de disperso, construdos com os dados da Tabela 13.1

O diagrama (a) da Figura 13.1 mostra uma situao de correlao


positiva, porque os pontos esto em torno de uma linha imaginria
ascendente. Em geral, valores pequenos de uma varivel so tambm
pequenos na outra, o mesmo acontecendo para valores grandes.
Os diagramas (b) e (c) mostram correlaes negativas, porque, em
ambos os casos, os pontos esto em tom o de uma linha imaginria
descendente. Valores pequenos de uma varivel so, em geral, grandes
na outra. Em (b) os pontos apresentam-se mais prximos de uma linha
descendente do que em (c), o que caracteriza uma correlao mais forte.
Os dados de distncia da capital e taxa de alfabetizao, diagrama
(d), no se apresentam correlacionados, pois valores pequenos (ou
grandes) de uma varivel esto associados tanto a valores pequenos
254 E s t a t s t ic a A p lic a d A s C n c a s S o c a s

quanto a valores grandes da outra. Os pontos nao se posicionara em


tomo de alguma linha ascendente ou descendente.
A Figura 13.3 mostra um conjunto de pontos aproximando-se mais
de uma parbola do que de uma reta, ilustrando um caso de correlao
no~linear. As correlaes no-lineares so mais difceis de serem
interpretadas e no sero abordadas neste livro.

OQ Oo
O
O Q 0 Q

Figura 13.3 Diagrama de disperso de um


exemplo hipottico de correlao no-linear

importante ressaltar que o conceito de correlao refere-se a uma


associao num rica entre duas variveis, no im plicando,
necessariamente, uma relao de causae efeito, ou mesmo numa estrutura
com interesses prticos. Se observarmos, por exemplo, as variveis
populao da Argentina e venda de cerveja no Brasil ao longo dos ltimos
anos, elas devem se apresentar correlacionadas positivamente, pois ambas
esto aumentando com o tempo. Contudo, em termos prticos, esta
correlao espria, no trazendo qualquer informao relevante.
A anlise de dados para verificar correlaes usualmente feita em
termos exploratrios, onde a verificao de uma correlao serve como
um elemento auxiliar na anlise do problema em estudo. Ou seja, o estudo
da correlao numrica entre as observaes de duas variveis
geralmente um passo intermedirio na anlise de um problema.

15.2 0 c o e c e n t e dE co rreU o I n e a r d E P e a r s o n

No captulo anterior, estudamos o coeficiente de contingncia, que


descreve, atravs de um nico nmero, o grau de associao dos dados
de duas variveis categorizadas. Nesta seo, apresentaremos o chamado
coeficiente de correlao (linear) de Pearson, apropriado para descrever a
correlao linear dos dados de duas variveis quantitativas.
C a p t u Io 1? - C o r r e a a o e R e q R e ss o 2 55

VlORES pAc! RONZACOS E 0 COEflCIENTE R

O valor do coeficiente de correlao no deve depender da unidade


de medida dos dados. Por exemplo, o coeficiente de correlao entre as
variveis peso e altura deve acusar o mesmo valor, independentemente
se o peso for medido em gramas ou quogramas, e a altura em metros ou
centmetros.
Para evitar o efeito da unidade de medida, os dados devem ser
padronizados da seguinte forma:
, x ~ X Y
y '- * -
onde:
x -. um valor padronizado; y um valor padronizado;
x: um valor da varivel X; y: um valor da varivel Y;
X : mdia dos dados da varivel X; Y 'mdia dos dados da varivel Y e
Sy desvio padro dos dados de X; S : desvio padro dos dados de Y.

O coeficiente de correaao linear de Pearson, r, definido pela


seguinte expresso, em termos dos valores padronizados:

r=
r n~l
onde:
n o tamanho da amostra, isto , o nmero de pares [x, y) e
[x y') a soma dos produtos x 7-y dos pares de valores padronizados,
isto , para cada par {x\ y3, fazemos o produto x'-y e, depois,
somamos os resultados desses produtos.

Os exemplos 13.1 e 13.2 procuram justificar como a expresso de r


mede a correlao. O primeiro ilustra uma situao de correlao positiva,
e o segundo um caso de correlao negativa.

ExEMplo 15.1 Clculo dos valores padronizados e do coeficiente de correlao


de Pearson de um conjunto de dados hipotticos com correlao positiva
(ver Tabela 13.2).
256 E s t a t s t ic a A p liC A d A s C n c a s S o c a s

Tabela 13.2 Clculos intermedirios para se obter r (Exemplo 13.1).


Valores originais Valores padronizados Produtos
X Y X' r X -Y
2 4 -1,50 -1,75 2,63
3 7 -1,00 -0,88 0,88
4 9 -0,50 -0,29 0,15
5 10 . 0,00 0,00 0,00
5 11 0,00 0,29 0,00
6 11 0,50 0,29 0,15
7 13 1,00 0,88 0,88
8 15 1,50 1,46 2,19
Soma: 40 80 0,00 0,00 6,87
Mdia: 5,00 10,00 0,00 0,00

Observe que calculamos a mdia e o desvio padro dos valores das


variveis X e Y. De cada valor, diminumos a mdia e dividimos pelo desvio
padro. Por exemplo, para o primeiro valor de X, x~ 2, calculamos o valor
padronizado x! = (x - 5)/2 = (2 - 5)/2 = -1,5. Veja a mudana de escala
com a padronizao na Figura 13.4.

y
o o
0

8 X

Figura 13.4 Diagrama de disperso dos valores originais e dos vaiores padronizados do Exemplo 13.1

Quando estamos trabalhando com dados correlacionados positiva


mente, como no exemplo precedente, os pares (x\ y) tendem a ter o mesmo
sinal (+ ou -}, especialmente para aqueles pontos longe da origem. Assim,
a maioria dos produtos x -y resulta em valores positivos (ver Figura 13.4).
Em conseqncia, o coeficiente r ser positivo. Concluindo os clculos
da Tabela 13.2, temos:

T-
' y (x' y')
s l Z l ~
6 87
= o ,981
- - - n-l~ 7

IB
C aptuIo 15 C orreaao e regresso 2n

ExEMplo tf.2 Clculo dos valores padronizados e do coeficiente de correlao


de Pearson de um conjunto de dados hipotticos com correlao negativa
{Tabela 13.3).

Tabela 13.3 Clculos intermedirios para se obter r (Exemplo 13.2).


Valores originais Valores padronizados Produtos
X Y X' yf x '- r
2 16 -1,50 1,75 -2,63
3 13 -1,00 0,88 -0,88
4 11 -0,50 0,29 -0,15
5 10 0,00 0,00 0,00
5 9 0,00 -0,29 0,00
6 9 ' 0,50 -0,29 -0,15
7 7 1,00 -0,88 -0,88
8 5 1,50 -1,46 -2,19
Soma: 40 80 0,00 0,00 -6,87
Mdia: 5,00 10,00 0,00 0,00
1,00 1,00

Complementando os clculos da Tabela 13.3, temos o coeficiente:

= -0,981
n -1

Neste exemplo o coeficiente negativo, porque os pares (x\ y')


tiveram, em geral, sinais trocados, especialmente para aqueles pontos
longe da origem (veja Figura 13.5). Isto tende a levar os produtos x -y a
resultarem em valores negativos e, em conseqncia, gerar um coeficiente
r negativo. A Figura 13.5 ilustra esta situao. Verificamos maior
concentrao de pontos nos quadrantes II e IV (onde x e y tm sinais
trocados), acarretando num valor negativo para r.

0
o o

0 2 4 6 8 X-

Figtira 13.5 Diagrama de disperso dos valores originais e dos valores padronizados do
Exemplo 13.2.
258 ESTATSTiCA AplCAdA S CiNCAS SOCIAIS

Dos exemplos 13.1 e 13.2, verificamos que o sinal da soma dos produ
tos dos valores padronizados, ^ (x'-y'), far com que o coeficiente r tenha
sinal compatvel com o que vimos.nos diagramas de disperso (veja tambm
a Figura 13.6). Para dados^ correlaionados positivamente, os pontos se
concentraro nos quadrante^II ejry^om x\ e y de mesmo sinal (produtos
positivos). Para dados correlacionados negativamente, os pontos ficaro
nos quadrante^JE e iT) fazendo, com que x e y tenham sinais trocados
(produtos negativ&sjTSe os dados forem no-correlaconados, os pontos se
espalharo de forma aproximadamente igual em todos os quadrantes,
fazendo com que tenhamos produtos positivos e negativos, acarretando
numa soma prxima de zero.

y'
Quadraote I Quadrante I
(x-y)>

x
Quadrante III Quadrante IV
2> v ) > 0
0
Figura 13.6 Justificativa do sinal de r.

Para qualquer conjunto de dados, o valor do coeficiente de correlao


de Pearson, r, estar no intervalo de -1 a 1. Ser to mais prximo de 1
(ou -1) quanto mais forte for a correlao nos dados observados. Teremos
r = +1 se os pontos estiverem exatamente sobre uma reta ascendente
[correlao positiva perfeita}. Por outro lado, teremos r = -1 se os pontos
estiverem exatamente sobre uma reta descendente (correlao negativa
perfeita). Quando no houver correlao nos dados, r acusar um valor
prximo de 0 (zero). Veja a Figura 13.7.

A
+1
Positiva

Fraca
o Ausncia
ve/fe-Ml
* f Fraca

Moderada
Negativa
Forte

Figura 13.7 Sentido e fora da correlao em funo do valor de r.


C A p r u lo 1? C o R R e U o REGRESSO 259

Clculo <Je R

O clculo de r pela expresso apresentada no tpico anterior tem o


inconveniente de incorporar erros de arredondamentos, pois normalmente
os valores da mdia e desvio padro no so inteiros. Neste contexto,
sugerimos usar a seguinte frmula alternativa, a qual baseada nas
observaes originais:
r f Z j x - Y ) - (Z X )- (Z Y)
Jn Z x 2 - (Z X )2 - J n - T Y 2 - ( Z Y f

Para obter os somatrios, procedemos da seguinte maneira.


Z(X- Y): fazemos os produtos x-y, referentes a cada par de observaes
e, depois, efetuamos a soma;
TX: somamos os valores da varivel X;
ZV: somamos os valores da varivel Y;
Z X 2: elevamos ao quadrado cada valor de X e, depois, efetuamos a
soma; e
ZY2'- elevamos ao quadrado cada valor de Y e, depois, efetuamos a
soma.
Para ilustrar o uso da ltima expresso, vamos refazer o Exemplo
13.1. A Tabela 13.4 apresenta alguns clculos intermedirios.

Tabela 13.4 Clculos intermedirios para a obteno de r


Valores originais____ ______ Clculos intermedirios
X y X? Y2 X-Y
2 4 4 16 8
3 7 9 49 21
4 9 16 81 36
5 10 25 100 50
5 11 25 121 55
6 11 36 121 66
7 13 49 169 91
8 15 64 225 120
Soma: 40 80 228 882 447

Sendo
n - Z ( X - Y ) -- ( s x ) - ( E r )
in -Z x ! - (S X )! / n - S y 2 - & Y f
temos,
8 -(447) - 40 (80)
r= -
yj8 (228) - (40)2 8 {882} - {80 f
260 E s t a t s t c a Ap licA ciA s C n c a s S o c a s

3.576 - 3.200
Vl824 - 1.600 V7.056 - 6.400
376 376
= 0,981
V224 V656 383,33

Encontramos o mesmo resultado obtido no tpico anterior, o que


era de se esperar, pois as frmulas so matematicamente equivalentes.

T e s t e ce siqmficivciA sofcmE r

Quando os dados so provenientes de uma populao, alm de


mensurar o grau de correlao observado nos dados, muitas vezes temos
interesse em testar a existncia de correlao entre duas variveis, X e Y,
na populao. Isso feito com base em uma amostra de observaes
pareadas (x, y ) . As hipteses so:
H0: as variveis X e Y so no-correlacionadas;
Hs: as variveis X e f so correlacionadas;
podendo, ainda, a hiptese alternativa indicar o sentido da correlao
(teste unilateral), tal como,
Hj: X e Y so correlacionadas positivamente ou
Hj: X e Y so correlacionadas negativamente.
O teste unilateral aplicado nos casos em que j se espera que 0
coeficiente .de correlao tenha determinado sinal (+ ou -).
Restringiremo-nos verificao de correlao linear e vamos supor
que os dados de X e de Y provenham de distribuies normais.2 Podemos
realizar o teste com auxlio da Tabela 7 do apndice, que apresenta o valor
absoluto mnimo de r para ser significativo (rejeitar para cada n.

ExEMpio 15,5 Com o objetivo de verificar se existe correlao positiva entre


aptido em matemticae aptido em msica, foi selecionado um grupo de
crianas de 8 a 10 anos de idade, que foram submetidas a dois testes de
aptido: um de matemtica e outro de msica. A ordem da aplicao dos
testes em cada criana foi aleatria.

2 Para se verificarem as suposies do teste de correlao, sugerimos construir: (1) uir-


diagrama de pontos para os dados de cada varivel para verificar se no existe forte:
evidncia de desvio da distribuio normal; e (2 ) um diagrama de disperso para verificai'
se os dados sugerem uma relao no-linear.
C a p t u Io 15 - C g r r e Ia o e reresso 261

Temos, ento, as seguintes hipteses, relativas s crianas da faixa


etria de 8 a 10 anos, similares ao grupo de crianas que participaram do
estudo:
H0: no existe correlao entre aptido em matemtica e aptido em
msica
Hp a aptido,em matemtica e a aptido em msica so correlacio
nadas positivamente.3
Os resultados dos testes de aptido foram os seguintes:
Valores de aptido em Valores de aptido em
Criana matemtica msica Criana matemtica msica
1 60 80 7 48 79
2 58 62 8 72 88
3 73 70 9 75 54
4 51 83 10 83 82
5 54 62 11 62 64
6 75 92 12 52 69

Efetuando-se o clculo do coeficiente de correlao de Pearson,


conforme visto anteriormente, temos: r = 0,17. Pela Tabela 7 do apndice,
verificamos que, ao nvel de significncia usual de 5%, o valor mnimo de
r para a correlao ser significativa de 0,497 (teste unilateral). Como o
valor encontrado (r= 0,17) menor que o valor tabelado (0,497), o teste
aceita H0. Em outras palavras, a correlao positiva fraca (r = 0,17), descrita
pelos dados da amostra, no suficiente para afirmarmos a existncia de
correlao positiva entre as duas variveis, na populao em estudo.
A Tabela 7 tambm pode ser usada para se ter uma avaliao da
probabilidade de significncia (valor p). No exemplo em questo, podemos
verificar que o valor encontrado (r = 0,17} inferior a todos os valores
tabelados para n = 12, ou seja, p > 0,10 (teste unilateral). Assim, mesmo
que estivssemos fazendo o teste ao nvel de significncia de a = 10%, o
teste ainda aceitaria H0.

S O d o CO M pUTAdO R

A maioria dos pacotes computacionais de Estatstica apresenta os


resultados de uma anlise de correlaes em forma matricial. Na primeira
linha e primeira coluna, so apresentadas as variveis. Em cada cruza

3 Observe que o problema sugere um teste unilateral (hiptese alternativa afirmando


correlao positiva e no somente existncia de correlao). Cabe observar que as hipteses
estatsticas levam em conta o instrumento de mensurao das variveis, isto , supe-se
que os testes de aptido estejam realmente medindo aquilo que se propem.
262 E s t a t s t ic a A p liC A d A s C n c a s S o c a s

mento, o coeficiente de correlao r do correspondente par de variveis.


Alguns pacotes apresentam tambm o nmero nde pares usado no clculo
de r e o valor p do teste bilateral sobre o correspondente coeficiente de
correlao populacional. A Tabela 13.5 mostra uma sada computacional
do SPSS relativa aos dados da Tabela 13.1. Vemos, por exemplo, que o
coeficiente de correlao entre DISTCAP e ESPVIDA 0,337 (positiva fraca).
Observando o correspondente valor p ~ 0,284, verificamos que no se
pode dizer que existe correlao entre essas duas variveis na populao
de municpios brasileiros.

Tabela 13.5 Sada computacional de uma anlise de correaao pelo SPSS


DISTCAP ESPVIDA M ORTINF ALF RENDA

D IS TC AP Pearson Correlation 1 0,337 *0,400 0,087 0,205

Sig. (2-tailed) 0,284 0,198 0,788 0,523

N 12 12 12 12 12

ESPVIDA Pearson Correlation 0,337 1 -0 ,9 8 3 0 0,718(**> 0 ,8 6 5 0

Sig. (2-tailed) 0,284 0,000 0,009 0,000

N 12 12 12 12 12

MORT1NF Pearson Correlation -0,400 -0,983f*) 1 -0 ,6840 -0 ,8 6 0 0

Sig. (2-tailed) 0,198 0,000 0,014 0,000

N 12 12 12 12 12

ALF Pearson Correlation 0,087 0 ,7 1 8 0 -0 ,6840 1 0 ,8 6 3 0

Sig. (2-tailed) 0,788 0,009 0,014 0,000

N 12 12 12 12 12

RENDA Pearson Correlation 0,205 0 ,8 6 5 0 -0,860(**} Q,863(**) 1

Sig. (2-tailed) 0,523 0,000 0,000 0,000

N 12 12 12 12 12

** Correlation is significan at the 0.01 levei (2-tailed).


* Correlation is significant at the 0.05 levei (2-tailed).

Va RVES jNdiCAdoRAS

Algumas vezes, temos variveis codificadas com 1 e 0, indicando a


presena ou ausncia de algum atributo, respectivamente. Por exemplo,
a varivel X pode ser indicadora de indivduos fumantes (X = 1 para
fumantes e X = 0 para nofumantes) e a varivel Y indicadora de uma
certa doena { Y - 1 para indivduos doentes e F = 0 para sadios). O clculo
C A p r u i o 15 C o r r Ia a o E R QRESSO 26?

de r entre duas variveis deste tipo pode indicar correlao positiva


(fumante tem maior chance de ter a doena) ou negativa (fumante tem
menor chance de ter a doena), alm do grau (forte, moderada, fraca ou
ausncia), Mas no faz sentido o teste de significncia discutido
anteriormente, porque ele s vlido para variveis com distribuio
aproximadamente normal.
Quando 0 e 1 representam apenas rtulos de uma varivel (por
exemplo, 0 para feminino e 1 para masculino), melhor considerar o
coeficiente r sem sinal, indicando apenas o grau de associao descrita
pelos dados. O coeficiente r para variveis 0 - 1 , em valor absoluto, o
coeficiente de associao phi, definido no captulo anterior. Da, para
verificar sua significncia, realizamos um teste qui-quadrado.

15J C o r r e Ia o pOR POSTOS

Quando os dados de alguma das variveis em estudo mostram-se


com distribuio muito assimtrica ou com valores discrepantes, a anlise
da correlao atravs do coeficiente r pode ficar comprometida. Uma
alternativa aplicar a abordagem no-paramtrica do coeficiente de
correlao r$ de Spearman, o qual se utiliza apenas da ordenao dos
valores.
Sejam os dados da Tabela 13.6, relativos a um estudo correlacionai
entre aptido em matemtica e aptido em msica. Para facilitar, os valores
de aptido em matemticaja. esto ordenados em ordem crescente. Para
cada varivel, so atribudos postos (ranks) da seguinte maneira: ao menor
valor atribudo o posto 1 ; ao segundo menor, posto 2 ; e assim por diant.
Quando ocorre algum empate (repetio de algum valor), consideramos
que isto tenha acontecido por deficincia do instrumento de medida e
atribumos postos seqenciais, mas, em seguida, calculamos a mdia
dos postos dos valores empatados. Por exemplo, na varivel aptido em
matemtica temos as crianas 6 e 9 com valores empatados em 75.
Preliminarmente, uma recebe posto 10 e a outra, posto 11; depois,
alocamos posto 10,5 (mdia entre 10 e 11) para ambas.
264 E s t a t s t ic a a p I c a c Ia s C n c a s S o c a s

Tabela 13.6 Alocao de postos para o clculo de r de Spearman.


Aptido em Posto de Aptido em Posto de
Criana matemtica X msica y D D2
X) Y)
7 48 1 , ' 79 7 *6 36 -
4 51 2 83 10 -8 64
12 52 3 69 5 -2 4
5 54 4 62 2,5 1,5 2,25
2 58 5 62 2,5 2,5 6,25
1 60 6 80 8 -2 4
11 62 7 64 4 3 9
8 72 8 88 11 -3 9
3 73 9 70 6 3 9
6 75 10,5< 92 12 -1,5 2,25
9 75 10,5W 54 1 9,5 90,25
10 83 12 82 9 3 9
Soma 245
Notas: 01 Mdia dos postos 10 e 11, referentes ao valor empatado 75.
c) Mdia dos postos 2 e 3, referentes ao valor empatado 62.

A sexta coluna da Tabela 13.6 apresenta as diferenas entre postos:


D = Posto de X ~ Posto de Y

Na ltima coluna temos as diferenas quadrticas entre postos,


cuja soma denotamos por D z. o coeficiente de correlao de Spearman
definido por:4
6-Y d 2
r = 1 ----------- sL---------
n { n 2~ 1}

Com os dados da Tabela 13.6, temos: ^ = 245. E o coeficiente rs


de Spearman:

r = 1- 6 -" I ---- = 1-0,86 = 0,14


n- ( n - 1) 1 2 -(IS2 - ! )

indicando uma correlao positiva muito fraca nos dados observados.5


Em funo do tamanho n da amostra e do nvel de significncia a
adotado, a Tabela 8 do apndice apresenta os valores absolutos mnimos
de rs para que esse seja significativo. Em termos do exemplo em questo,

O coeficiente rs o prprio coeficiente de correlao de Pearson, r, calculado sobre os


postos de'X"e'Y. ' ^ ...... .............................. ......... -
Assim como o rde Pearson, o r de Spearman varia entre -1 e +1, com a mesma interpretao.
Porm, os resultados de r e rs no so matematicamente iguais por usarem metodologias
diferentes de clculo.
C a p t u Io i? C o r r c U o e regresso 265

para n.= 12 e nvel de significncia de 5%, temos o valor mnimo tabelado


de 0,503 (teste unilateral). Como o valor encontrado (r = 0,14) menor
que o valor tabelado, o teste no acusa significncia. No possvel dizer
que existe correlao positiva entre aptido em matemtica e aptido em
msica, na populao de onde os dados foram extrados.

E x e r c c o s

1) Considerando os dados da Tabela 1 3 .1 , construir um diagrama de disperso


para as variveis renda per capita e esperana de vida ao nascer. Quais as
informaes observadas no grfico?
2) Sejam X = noa na prova do vestibular de matemtica e Y = nota jmaL na
disciplina de clculo. Estas variveis foram observadas em 20 alunos, ao
final do primeiro perodo letivo de um curso de engenharia. Os dados so
apresentados a seguir.
X Y X Y X Y X Y X Y
39 65 43 78 21 52 64 82 65 88
57 92 47 89 28 73 75 98 47 71
34 56 52 75 35 50 30 50 28 52
40 70 70 50 80 90 32 58 67 88

a) Construa um diagrama de disperso e verifique se existe correlao entre


os dados dessas duas variveis.
b) Existe algum aluno que foge ao comportamento geral dos demais (ponto
discrepante)?
c) Calcule o coeficiente r.
d) Retire o valor discrepante detectado no item (b) e calcule novamente o
coeficiente r. Verifique se significativo ao nvel de significncia de 5%.
Interprete.
e) Calcule o coeficiente r com todos os valores e verifique se significativo ao
nvel de significncia de 5%.
3) Sejam os dados do anexo do Captulo 2 . Faa um diagrama de disperso com
os dados das variveis: X = satisfao do aluno com o curso e Y ~ desempenho
do aluno. Interprete.
4) Sejam os dados do anexo do Captulo 4 . Considerando apenas a Encosta do
Morro, faa um diagrama de disperso com os dados de: X = rendafamiliar e
Y = nmero de moradores no dorrtcio. Interprete.
5) Faa o clculo do coeficiente r com os dados do Exemplo 13.3 e confira o
resultado encontrado.
6) Considerando as variveis taxa de alfabetizao e taxa de mortalidade infantil,
.... (Tabela 13.1), calcule: ---- -
a) o coeficiente de correlao de Pearson. Interprete o resultado obtido.
b) o coeficiente de correlao de Spearman e verifique se significativo ao
nvel de significncia de 5%.
26 E s t a t s t ic a A p liC A d * s C n c a s S o c ia is

7) Com respeito aos 23 alunos de uma turma de estatstica, foram observadas as


variveis: nmero de faltas e nota final na disciplina. Esses dados levaram
seguinte correlao, descrita pelo coeficiente de correlao de Pearson: r = -0,56.
Comente as seguintes frases relativas turma em estudo e ao coeficiente obtido.
a) Como r - -0,56 (correlao negativa moderada), nenhum aluno com grande
nmero de faltas tirou nota alta.
b) Como as duas variveis so correlacionadas, bastaria usar uma delas
como critrio de avaliao, pois uma acarreta a outra.
c) Os dados mostraram uma leve tendncia de que a nota final se relaciona
inversamente com o nmero de faltas; ento, os alunos freqentadores
tiveram, em geral, melhores desempenhos nas avaliaes do que os alunos
que faltaram muito.
8) Numa amostra aleatria de n ~ 212 livros da Biblioteca Central da UFSC,
encontramos r = 0,207 para as variveis: idade da edio e nmero de pginas
do livro.
a) O que se pode dizer com base no valor deste coeficiente de correlao?
b) Esta correlao pode ser explicada meramente por fatores casuais? Faa
um teste estatstico apropriado, ao rvel de significncia de 5%.

15.4 REqRESSO tiNEARSiMpiES

O termo regresso surgiu cornos trabalhos de Galton no final do sculo


XIX. Esses trabalhos procuravam explicar certas caractersticas de um
indivduo a partir das caractersticas de seus pais. Galton acreditava que os
filhos de pais excepcionais, com respeito determinada caracterstica,
tambm possuam essa caracterstica, mas, em geral, numa intensidade
menor do que a mdia de seus pais. Seus estudos baseavam-se em
observaes empricas. Em um desses trabalhos ele relacionou centenas de
alturas de indivduos com as respectivas alturas mdias de seus pais.

ExEMpo 15.4 Vamos considerar uma parte dos dados coletados por Galton,
por volta de 1885 (Tabela 13.7).

Tabela 13.7 Alturas de indivduos (Y) e alturas mdias de seus pais PO,
medidas em centmetros.
X I y X y X y X y
164 166 164 168 166 166 166 168
166 171 166 . 173 169 166 169 168
169 171 169 173 171 166 171 168
171 171 171 173 171 176 173 168
173 171 173 176 173 178 176 171
176 173 176 176 178 176 178 178
Fonte: Stigler (1986, p. 286), com adaptaes.
C a p t u Io 1? C o r r e Ia o e regresso 267

A F i g u r a . 1 3 .8 r e p r e s e n ta a s o b s e r v a e s d a T a b e la 1 3 .7 n u m
d ia g ra m a d e d is p e r s o , in d ic a n d o u m a c o rre la o p o s itiv a , c o m o e ra de
se e s p e r a r. S u p o n d o q u e o s d a d o s flutuem, e m to m o de a lg u m a re la o
e n tre X e Y , a F i g u r a 1 3 .8 ta m b m i lu s t r a d o is m o d e lo s m a te m tic o s p a ra
e ss a e s t r u t u r a . A r e ta (A ): y ~ x i n d i c a q u e , e m mdia, os filh o s t m a ltu r a s
ig u a is a lt u r a m d ia de s e u s p a is ; a r e ta (B) re p re s e n ta a h ip te s e de
G a l t o n , a q u a l p o s tu la v a u m a te n d n c ia de q u e filh o s de p a is a lto s te r ia m
a ltu r a s in fe rio re s s a ltu r a s m d ia s de s e u s p a is , e n q u a n to os filh o s de
p a is b a ix o s te r ia m a ltu r a s s u p e rio r e s s a ltu r a s m d ia s de s e u s p a is .

A ltura m dia dos pas (X }

Figura 13.8 Diagrama de disperso dos dados da


" Tabela 13.7 e ilustrao de dois modelos
matemticos relacionando X e Y.

O E x e m p lo 1 3 .4 se d is tin g u e d o s e x e m p lo s a n te rio re s p o r s u p o r u m a
re la o de c a u s a lid a d e e n tre X e Y, d e s c rita e m te rm o s de u m a e q u a o
m a te m tic a . e s ta a d ife r e n a b s ic a d e u m e s tu d o de c o rre la e s e
u m a a n lis e d e re g re s s o .

A anlise de regresso geralmente feita sob um referencial terico que justifique a adoo de
algumarelao matemtica de causalidade.

0 Modelo dA RECjRESSO NEAR SEVtpES

O m o d e lo e s ta ts tic o -m a te m tic o de re g re s s o , e m s u a fo rm u la o
m a is s im p le s , re la c io n a u m a v a r i v e l Y , c h a m a d a de v a r i v e l dependente
o u resposta, c o m u r n a v a r i v T X , d e n o m in a d a v a r i v e l explicativa o u
independente. V e ja o q u a d r o 1 3 .1 .
28 E s t a t s t c a A p U cA ck s C e n c a s S o c a s

Q u a d r o 1 3 . 1 A p lic a e s d o m o d e lo de re g re s s o lin e a r s im p le s .

R en d a -5 C on su m o (R$)
Gst;vcom o :contrle:' .d ^ ^ ^ s N iii rd ;;d 3 $ M
M em ria R A M do com putador (Gb) Tem po de resposta do sistema
(segundos) ;___
^a^bristraia^cl^ivel

A s s i m c o m o n u m e s tu d o de c o rre la e s , a a n lis e d e re g re s s o
t a m b m t o m a p o r b a s e u m c o n ju n t o d e o b s e rv a e s p a r e a d a s (x , y),
r e la tiv a s s v a r i v e is X e Y. D ir e m o s q u e u m d a d o v a lo r y d e p e n d e , e m
p a r t e , d o c o rr e s p o n d e n te v a lo r x . P o r e x e m p lo , a a lt u r a d e u m in d iv d u o
(y) d e p e n d e , e m p a r te , d a a lt u r a m d ia d e s e u s p a is (x ). S im p lific a re m o s
e s s a d e p e n d n c ia p o r u m a re la o lin e a r e n tre x e y, ta l c o m o :

y - a + (3x

F ix a n d o v a lo re s p a r a a e {3, a e q u a o y ~ a + (3x a e q u a o d e u m a
r e ta . P o r e x e m p lo , se a = 1 e (3 = 2 , a e q u a o y = 1 + 2 x u m a c e rta re ta ,
n u m p a r de e ix o s c a rte s ia n o s . P a r a d e s e n h a r e s ta r e ta b a s ta a tr ib u ir d o is
v a lo re s p a r a X e c a lc u la r os c o rre s p o n d e n te s
v a lo re s de Y. D ig a m o s : x ~ 0 = > y = l + 2 x 0 =
l e x = 1 :=> y = 1 + 2 x 1 = 3 . C o m e ste s d o is
p o n to s , p o d e m o s tr a a r a re ta d a F ig u r a 1 3 .9 .

A o o b s e rv a rm o s u m c o n ju n to de
o b s e rva e s (x, y ) , v e rific a m o s q u e , e m g e ra l,
o s p o n t o s n o e s t o e x a ta m e n te s o b re u m a
r e ta , m a s flutuam e m t o m o d e a lg u m a r e ta
im a g in r ia . E n t o , u m m o d e lo p a r a u m p a r Figura 13.9 Representao grfica
d e o b s e rv a e s p o d e se r: da equao y = 1 + 2x.

y - a + fx +

o n d e e r e p r e s e n ta o erro aleatrio, is to , o
e fe ito d e u m a in fin id a d e d e fa to re s q u e e s t o a fe ta n d o a o b s e rv a o y de
fo r m a a le a t ria . P o r e x e m p lo , a a lt u r a d e u m in d iv d u o (y) n o d e p e n d e
s o m e n t e d a a l t u r a m d i a d e s e u s p a is ( x ) , m a s , t a m b m , d e s u a
a lim e n ta o , d o g e n tip o d e s e u s a n c e s tra is e d e u m a in fin id a d e d e o u tro s
fa to re s , t u d o re p re s e n ta d o n o m o d e lo p o r .
N o m o d e lo y = a + p x + s, c h a m a re m o s d e parte estrutural p a r c e la
de y d e te r m in a d a p o r x , is to , a + P x . E o p r o c e d im e n to in ic ia l d a a n lis e
de re g re ss o e n c o n tra r e s tim a tiv a s p a r a a e c o m b a s e e m u m a a m o s tr a
de o b s e rv a e s (x , y ).
C A p r u l o 1? C o r r e Ia o e REGRESSO 269

E s T M A IV A S d o s P A R M ET R O S (X E (3

A id ia b s ic a d a c o n s t r u o d a p a r t e e s t r u t u r a l d o m o d e lo ,
s u p o s ta m e n te lin e a r , e n c o n tr a r a r e ta q u e p a s s e m a is p r x im o p o s s ve l
d o s p o n to s o b s e rv a d o s . R e p r e s e n ta r e m o s e s ta r e ta p o r:

y ~ a + bx

e a c h a m a re m o s d e reta de regresso o u equao de regresso, V e ja a


F i g u r a 1 3 .1 0 .

160 164 168 172 176 180


A lt u r a m d ia do s p a is ( X )

Figura 13.10 Representao da equao de regresso do Exemplo 13.4.

O c h a m a d o mtodo de mnimos quadrados fo rn e c e a s s e g u in te s


e x p re s s e s p a r a a e q u a o d e re g re s s o :6

b n - T ( X - Y ) - (Z X )- (iy )
n Xx2 - (ZXf

ZY - b-ZX
a ~ ------------------------
n
onde:
n o n m e r o d e p a re s (x , y) o b s e rv a d o s (ta m a n h o d a a m o s tr a );
Z (X-Y) s o m a t r io d o s p r o d u t o s x-y (p rim e ir a m e n te fa ze m o s os
p r o d u to s x-y, r e la tiv o s a to d o s o s p a re s o b s e rv a d o s e , d e p o is ,
e fe tu a m o s a s o m a );
T X a s o m a d o s v a lo r e s d e X:
TX s o m a d o s v a lo r e s d e Y; e
TX2 s o m a d o s q u a d r a d o s d o s v a lo r e s d e X (p rim e iro e le v a m o s os
v a lo re s d e X a o q u a d r a d o e , d e p o is , e fe tu a m o s a s o m a ).

6 A obteno da equao de regresso, pelo mtodo de mnmos quadrados, consiste em


fazer com que a soma quadrtica dos efeitos aleatrios, Zea, seja a menor possvel. A
soluo deste problema matemtico gera as expresses de a e b. Veja, por exemplo,
Wonnacott e Wonnacott (1991, p. 287).
270 EsTATSTiCA ApliCACA S CENCAS SoCAS

ExEMplo 15.5 Ilu s tra r e m o s a c o n s tr u o d a e q u a o d e re g re s s o c o m p a rte


d a s o b s e rva e s d a altura mdia dos pais {X) e altura do filho (Y ), e x tr a d a s
d a T a b e la 1 3 .7 . A T a b e la 1 3 .8 m o s tr a os c lc u lo s d o s s o m a t r io s .

T a b e la 1 3 .8 P a rte d a s o b se rva e s d a T a b e la 1 3 .7 e c lc u lo s in te rm e d i rio s


p a r a a c o n s tru o d a r e ta d e re g re s s o .
Dados Clculos interm edirios
X Y X2 X-Y
164 166 26.896 27.224
166 166 27.556 27.556
169 171 28.561 28.899
169 166 28.561 28.054
171 171 29.241 29.241
173 171 29.929 29.583
173 178 29.929 30.794
176 173 30.976 30.448
178 178 31.684 31.684
I X = 1.539 s r = 1.540 X2 ~ 263.333 XtX-Y) * 263.483

( 2 6 3 .4 8 3 ) - (1 .5 3 9 ) (1 .5 4 0 ) 1 .2 8 7
b -9 D R 79
9 (2 6 3 .3 3 3 )-- ( 1 .5 3 9 ) 2 1 .4 7 6

A s s i m , te m o s a r e ta d e re g re s s o : y = 2 2 + ( 0 ,8 7 2 ) x . P a r a t r a a r a
r e ta n o p la n o fo rm a d o p e lo s e ix o s X e Y, b a s ta a t r i b u i r d o is v a lo r e s p a r a
X e c a lc u la r os c o r r e s p o n d e n te s v a lo re s de y , p o is , p o r d o is p o n to s p a s s a
u m a e a p e n a s u m a r e t a .7 V e j a a F i g u r a 1 3 - 1 1 .

Figura 13.11 Diagrama de disperso dos dados da Tabela


13.8 e a reta de regresso ajustada aos dados.

1 Por exemplo, para um dado valor x = 164 => y = 22 + (0,872)-(164) - 165,0 e para x = 178
=> Q = 22 + (0,872)-(178) = 177,2. Marcamos os pontos (164; 165) e (178; 177,2) no plano
formado pelos eixos X e V e traamos a reta que passa por estes dois pontos.
C A p t u l o 15 C o r r Ia o e reg resso
27!

C o m a e q u a o d e re g re s s o , p o d e m o s p r e d iz e r a a lt u r a de u m
i n d iv d u o ( y ), c o m b a s e n a a lt u r a m d ia d e s e u s p a is ( a ) . P o r e x e m p lo ,
c o m u m a a ltu r a m d ia d o s p a is d e x = 1 7 5 c m , te m o s u m a p re d i o d a
a lt u r a d o filh o de y ~ 2 2 + ( 0 ,8 7 2 ) -( 1 7 5 ) = 1 7 4 c m .

O c o e fic ie n te b fo rn e c e u m a e s tim a tiv a d a v a ria o e s p e ra d a de Y


p r o v o c a d a p e la v a ria o d e uma u n id a d e e m X . O s in a l d e s se c o e fic ie n te
in d ic a o s e n tid o (p o s itiv o o u n e g a tivo ] d a re la o . N o E x e m p lo 1 3 .5 , te m o s
b = 0 ,8 7 2 . E n t o , a c a d a c e n tm e tr o a m a is n a a lt u r a m d ia d o s p a is ,
e s p e ra m o s u m a c r s c im o d e 0 ,8 7 2 c m n a a ltu r a d o filh o .8

V a RAO EXplfCAdA E N0'EXp(CACA

A o a ju s ta r u m a e q u a o d e re g re s s o a o s d a d o s , p o d e m o s e s ta r
in te r e s s a d o s e m v e r ific a r o q u a n to a s v a ria e s d a v a r i v e l d e p e n d e n te ,
V , p o d e m s e r e x p lic a d a s p o r v a r ia e s d a v a r i v e l in d e p e n d e n t e , X,
s e g u n d o o m o d e lo e s p e c ific a d o e p a r a o s d a d o s d a a m o s tr a .

P a r a c a d a v a lo r , x o b s e r v a d o (o u e s ta b e le c id o ), te m o s o
c o rre s p o n d e n te v a lo r d e Y, re p r e s e n ta d o p o r y . C o m o a ju s te d o m o d e lo ,
te m o s t a m b m o valor predito p o r e s te : y = a + b x . P o r e x e m p lo , p a r a o
o ita v o in d iv d u o d a a m o s tr a , te m o s x = 1 7 6 e o c o rre s p o n d e n te v a lo r de Y
(y = 1 7 3 ) . J o valor predito p e la e q u a o de re g re s s o = 2 2 + (0 ,8 7 2 )-(1 7 6 )
y = 1 7 5 ,4 7 (ve r F i g u r a 1 3 .1 2 ) . A d ife re n a e n tre o v a lo r o b s e rv a d o e o
v a lo r p r e d ito p e lo m o d e lo c h a m a d a de resduo - a q u ilo q u e a p a rte
e s t r u tu r a l d o m o d e lo n o c o n s e g u e e x p lic a r .

8 A equao de regresso y ~ 22 + (0,872)*' est compatvel com a teoria de Galton, no


sentido de que sua inclinao inferior da reta y - x. Contudo, os dados no esto
provando sua teoria, j que estamos analisando uma amostra extremamente pequena. A
diferena da reta construda com base nos dados e a reta terica, y - x, pode ser meramente
casual. Para dar maior embasamento a essa discusso, pode ser feito um teste estatstico
sobre os parmetros do modelo. Ver, por exemplo, Chatterjee, Hadi e Price (2000).
272 Estatstca ApliCAdA s Q n c a s S o c ia is

S e d e s c o n s id e ra rm o s a re la a o e n tre X e Y , e n t o p o d e m o s p r e d iz e r
v a lo r e s de Y, s im p le s m e n te , p e la m d ia a r itm tic a d e s u a s o b s e rv a e s
( y ). N a t u r a lm e n te , n a s s itu a e s e m q u e X a f e t a Y, os r e s d u o s e m re la o
m d ia a ritm tic a v o s e r , e m g e ra l, m a io re s d o q u e e m re la o e q u a o
de re g re s s o { F ig u r a 1 3 .1 3 ) .

Figura 1 3 .1 3 Resduos em relao ao modelo de regresso [ y - y ), e resduos em relao mdia


aritmtica [y - y ), com os dados do Exemplo 13.5.

A soma de quadrados dos resduos o n u m e r a d o r de u m a e s tim a tiv a


p a r a a v a r i n c ia d a p a r te a le a t ria d o m o d e lo . S e a p a r te e s tr u tu r a l fo r
a v a lia d a a p e n a s p e la m d ia a r itm tic a , s e m le v a r e m c o n ta q u a lq u e r
re la o e n tre Y e X, te m o s a soma de quadrados total:

S e a p a rte e s t r u t u r a l le v a r e m c o n ta o s d ife re n te s v a lo r e s de X p e l a
e q u a o de re g re s s o , r e s ta a p e n a s a q u ilo q u e a e q u a o de re g re s s o
n o c o n s e g u e e x p lic a r . a c h a m a d a soma de quadrados devida ao erro
aleatrio, d a d a p o r :

O b s e rv e n a F ig u r a 1 3 .1 3 q u e SQE d e v e s e r m e n o r q u e SQT, e s p e c ia l
m e n te q u a n d o a re la o e n tre X e Y fo r fo r te . A d ife re n a d a s d u a s s o m a s
de q u a d ra d o s :

SQR = SQT - SQE

c o n h e c id a c o m o soma de quadrados da regresso, e p o d e s e r in te rp re ta d a


c o m o a p a rte d a v a ria o d e Y q u e a e q u a o d e re g re s s o c o n s e g u e
e x p lic a r a m a is d o q u e s im p le s m e n te a m d ia a r itm tic a d e Y.

O c h a m a d o coeficiente de determinao, d a d o . p o r :
r 2 - SQR _ v a ria o e x p lic a d a
SQT v a ria o to ta l
C a pi ru to 15 C o r r e Ia o e R e q R e ss o 27?

p o d e s e r in te r p r e ta d o c o m o u m a m e d id a d e s c r itiv a d a p r o p o r o d a
va ria o d e Y q u e p o d e s e r e x p lic a d a p o r X, s e g u n d o o m o d e lo especificado.
E m se t r a t a n d o de r e g re s s o lin e a r s im p le s , p o d e -s e m o s tr a r ,
m a te m a tic a m e n te , q u e o c o e fic ie n te d e d e te r m in a o ? o q u a d r a d o do
c o e fic ie n te d e c o rre la o r d e Pearson, e s tu d a d o n a S e o 1 3 .2 .

O u t r a m e d id a u s a d a p a r a a v a lia r o m o d e lo a va ria b ilid a d e d a p a rte


a le a t ria , c u jo d e s v io p a d r o p o d e s e r e s tim a d o p o r :9

Q _ SQE
e l|n -2

E s t a m e d id a u s a d a p a r a c o m p a r a r m o d e lo s (q u a n to m e n o r Se,
m e lh o r o a ju s te d o m o d e lo a o s d a d o s ).

ExESVtplo 15.5 ( contnuao) A T a b e la 1 3 .9 m o s tr a o c lc u lo d a s s o m a s de


q u a d ra d o s .

T a b e la 1 3 .9 C lc u lo d o s v a lo r e s p r e d ito s , r e s d u o s e s o m a s d e q u a d ra d o s
d o s d e s v io s (d a d o s d o E x e m p l o 1 3 .5 ) .
Mdia Preditos Resduos
X y y. y - y [y-y]2 y y-Q (y -y )2
164 166 171,11 -5,11 1 26,11 165,01 0,992 0,98
166 166 -5,11 26,11 166,75 -0,752 0,56
169 171 -0,11 0,01 169,37 1,632 ; 2,66
169 166 -5,11 26,11 169,37 -3,368 11,36
171 171 -0,11 0,01 171,11 -0,112 0,01
173 171 -0,11 0,01 172,86 -1,856 3,46
173 178 6,89 47,47 172,86 5,144 26,42
176 173 1,89 3,57 175,47 -2,472 6,10
178 178 6,89 47,47 177,22 0,784 0,61
Soma: 0 177 0 ' 52

A T a b e la 1 3 .1 0 a p r e s e n ta a s s o m a s d e q u a d r a d o s , s e n d o q u e SQTe
SQE fo r a m o b tid a s d a T a b e la 1 3 .9 , e SQR p e la d ife re n a d a s d u a s .

T a b e la 1 3 . 1 0 D e c o m p o s i o d a v a r ia o d e Y.

Fonte de variao Somas de quadrados


Explicada por X pelo modelo de regresso (variao
SQR = 125
explicada)
Devida ao erro aleatrio (variao no explicada) $QB= 52
Variao total " s g r = 177

9 O subndice e para enfatizar que esta medida se refere ao erro aleatrio.


274 EsATSTCA ApltCAdft S C encas Socas

C o m os d a d o s d a T a b e la 1 3 .1 0 ,
2 SQR 125 _
R - 2 = --------- = 0 ,7 0 6
SQT 177

O u se ja , d e n tre os n o ve in d iv d u o s e m e s tu d o , a s va ria e s d e s u a s
a ltu r a s s o e x p lic a d a s , e m p a rte , p e la v a ria o d a s a ltu ra s d e s e u s p a is
(f? ~ 7 0 % de e xp lic a o ); e o u tra p a rte (1 - JR2 * 3 0 % ) d e v id o a o u tro s fa to re s .

O d e s v io p a d r o d a p a r t e a le a t r ia (a q u e la q u e n o p o d e s e r
e x p lic a d a p o r v a ria e s d a s a ltu r a s d o s p a is ) :

* 2=2,73
n~2 V7

Uso do COMpUTAdoR

ExEMplo ?. O a n e x o d e s te c a p tu lo c o n t m d a d o s re la tiv o s a c in q e n t a
a p a r ta m e n to s d a c id a d e d e C r ic i m a - S C . C o m o o b je tiv o d e c o n s t r u ir
u m m o d e lo p a r a s u b s i d i a r a a t u a l i z a o d o s v a lo r e s d o s t r i b u t o s
m u n ic ip a is , v a m o s r e a liz a r u m a re g re s s o e n tr e v a lo r (Y ), e m m ilh a r e s de
r e a is , e re a p r iv a tiv a (X I , e m m 2. U s a n d o o Excel, o b tiv e m o s o s r e s u lta d o s
a p r e s e n ta d o s n a F i g u r a 1 3 . 1 4 : 10

Estatsticas da regresso
R mltiplo 0,881
R-quadrado 0,777
R-quadrado ajustado 0,772
Desvio padro 43,3
Observaes 50
ANOVA
.... SQ MQ - F Valor p
Regresso 1 313.285.6 313.285,6 166,93 0,0000
Resduo 48 90,082,0 - 1.876,7
Total 49 403.368.6

Err - , ,, , Intervalo de confiana


Coeficientes padro Estat- t; ;V.v: ^fgs;cB,l .
Interseo -64,57 14,66 -4,40 0,000 -94,0 -35,1
Valor novo 1,67 0,13 12,92 0.000 1,4 1,9
Figura 1 3 .1 4 Resultados de uma analise de regresso pelo Excel (Exemplo 13.6).

Para realizar a anlise, no menu principal do Excel, clicar em Ferramentas, Anlise de


Dados e Regresso. 'Se; ao clicar em Ferramentas, no aparecer Anlise de Dados, clique
em Suplementos e assinale Ferramentas de Anlise. Quanto aos resultados, os termos
foram adequados lngua portuguesa e aos termos tcnicos deste livro. Os valores foram
formatados como nmeros.
CAprulo 1? - C o r r eU o e reressa o 275

A p r im e ir a ta b e la d a F ig u r a 1 3 .1 4 m o s t r a a lg u m a s e s ta ts tic a s e,
e m p a r t ic u la r , o R2 (R-quadrado) ig u a l a 0 , 7 7 7 . E s t e r e s u lta d o in d ic a q u e
n a a m o s tr a , c e rc a d e 7 8 % d a v a ria o d o v a l o r de v e n d a d o a p a rta m e n to
p o d e s e r explicada p o r u m a re la o lin e a r c o m a re a p r iv a tiv a . O s d e m a is
2 2 % s o a p a rc e la d a v a r ia o p ro v o c a d a p o r o u tro s fa to re s n o in c lu d o s
n o m o d e lo d e re g re s s o . E s s a p a r te a le a t ria t e m d e s v io p a d r o e s tim a d o
d e Se = 4 3 ,3 m il r e a i s .!i N a p r im e ir a l in h a d a ta b e la , te m -s e o c h a m a d o
c o e fic ie n te d e c o rre la o m lt ip lo , q u e , n o c a s o d e a p e n a s u m a v a ri v e l
in d e p e n d e n t e , o c o e fic ie n te r d e P e a r s o n (S e o 1 3 .2 ) .

A s e g u n d a ta b e la a p r e s e n ta a a n lis e d e v a r i n c ia ( A N O V A ) d o
m o d e lo . A c o lu n a SQ a p r e s e n ta a s s o m a s d e q u a d r a d o s . M a s o m a is
im p o r ta n t e s o o s r e s u lta d o s de u m te s te e s ta ts tic o p a r a a s h ip te s e s :

H 0: n o e x is te re la o lin e a r e n tre X e Y; e
H j : a re la o lin e a r e n tre X t Y s ig n ific a tiv a (n o m e ro re s u lta d o
d o a c a s o ).

O te s te , c o n h e c id o c o m o te s te F d o m o d e lo , r e s u lto u e m F - 1 6 6 ,9 3 ,
c o m c o r r e s p o n d e n te v a lo r p = 0 ,0 0 0 0 . C o m o o v a lo r p e x tr e m a m e n te
p e q u e n o , o te s te e s ta ts tic o re je ita H 0, in d ic a n d o q u e a re a p r iv a tiv a d o
a p a r t a m e n t o (X) s ig n ific a tiv a p a r a explicar o s e u p re o (Y ).

A te rc e ira ta b e la fo rn e c e v r ia s in fo rm a e s r e le v a n te s . A p r im e ir a
c o lu n a a p r e s e n ta a s e s tim a tiv a s d o s c o e fic ie n te s , d e o n d e e x tr a m o s a
e q u a o d e re g re s s o :

y = - 6 4 ,5 7 + ( l ,6 7 ) x

o u s e ja , te n d o a r e a p r iv a tiv a (x) p o d e m o s o b te r u m a p re v is o p a r a o
p re o d o im v e l ( y ) . P o r e x e m p lo , u m a p a r ta m e n to c o m re a p r iv a tiv a de
1 0 0 m 2 t e m s e u v a lo r p r e d ito p e lo m o d e lo d e :

y = - 6 4 ,5 7 + (1 ,6 7) (10 0 ) = 1 0 2 ,4 3

o u s e ja , R $ 1 0 2 .4 3 0 ,0 0 .

In te r p r e ta n d o o co e fic ie n te d e x, te m o s q u e , a c a d a m 2 a m a is de
r e a , e s tim a -s e q u e o v a lo r d o a p a r ta m e n to a u m e n t a e m b = 1 ,6 7 m il re a is .

A lt i m a ta b e la fo m e c e o s re s u lta d o s d e te s te s e s ta ts tic o s s o b re
c a d a u m d o s p a r m e tr o s d o m o d e lo . E m p a r t ic u la r , n a re g re s s o s im p le s ,

11 Observe que, embora o R2 indique um ajuste razovel, o desvio padro mostra que este
modeio ainda no adequado na prtica, pois, pela distribuio normal, natural valores
se afastarem da mdia em at dois desvios padres. Ou seja, as predies baseadas no
modelo podem predizer valores de venda com mais de 86 mil reais de diferena do valor
efetivamente vendido.
276 ESTATSTICA AplCAdft S CiNCiAS S ocas

o te s te so b re o p a r m e tr o b (in clin a o ) e q u iv a le n te a o te ste F d a a n lis e


d e v a r i n c ia s o b re o m o d e lo . A s d u a s lt i m a s c o lu n a s d e s s a t a b e la
a p r e s e n ta m u m in te r v a lo d e 9 5 % d e c o n fia n a p a r a os d o is p a r m e tr o s
d o m o d e lo (o in te r c e p to a e a in c lin a o 3 ), c o m a m e s m a in te r p r e ta o
d o s in te r v a lo s d e c o n fia n a d is c u tid o s n o C a p tu lo 9 .

E x e r c c io

9) Sejam os dados de nmero de faltas e nota na prova de uma turma de:


Estatstica:
Nmero de faltas 8 2 5 0 1 4 10 2
Nota na prova 7 10 6 10 8 5 2 8

a) Qual deve ser a varivel dependente e a independente? (Escolha a que lhe


faz mais sentido.)
b) Estabelea a equao de regresso.
c) Faa um grfico com os pontos observados e a reta de regresso.
d) Calcule o coeficiente R2.
e)9 Calcule S e.
f) Quais so as principais informaes que podem ser obtidas pela presente
anlise?
10) Na dcada de 1970, em vrias regies, houve um movimento migratrio que
fez crescer bastante a populao urbana nos municpios mdios e grandes.
Neste contexto, vamos tentar explicar o crescimento demogrfico de um
municpio, em funo de sua populao urbana, considerando dados de doze
importantes municpios catarinenses, no perodo em discusso.
Pop. urb. (em 1.000 hab.) 101 193 42 304 42 152 55 105 68 219 129 42
Taxa de creciraento dem. 3,2 4.6 2.8 6,5 2 1,9 2,9 5,3 2,7 3,1 3,1 1,2

a)
Qual deve ser a varivel dependente e a independente?
b)
Estabelea a equao de regresso.
c)
Faa um grfico com os pontos observados e a reta de regresso.
d)
Qual a taxa de crescimento demogrfico, predita pela equao de
regresso, para um municpio de 300 mil habitantes?
e) Calcule o coeficiente R2-
f) Quais so as principais informaes que podem ser obtidas pela presente
anlise?
11) (Fazer com o auxlio do computador.) Considerando que a satisfao de um
aluno com um curso universitrio (V) pode ser afetada pelo seu desempenho,
no curso (X), faa uma anlise de regresso usando os dados do anexo do
Captulo 2. Interprete os resultados.
C a p t u I o 15 - C o r r e a a o e R e q R e ss o 277

I5J AnIse dos REsfduos e t r a n s o r m a e s

N a se o a n te r io r , e s ta b e le c e m o s u m m o d e lo p a ra u m c o n ju n to de
o b s e rv a e s (x, y), re la tiv o s v a r i v e is X e Y, d a fo r m a

y = a + jSx + s

o n d e a e p s o p a r m e tr o s a s e re m e s tim a d o s c o m o s d a d o s e e re p re s e n ta
o erro aleatrio. O u s e ja , e s ta m o s a s s u m in d o q u e X c a u s a Y a tra v s de
u m a re la o lin e a r e to d a a v a ria o e m t o m o d e s s a re la o d e v e -s e a o
e fe ito d o e rro a le a t rio . A l m d is s o , p a r a a v a lid a d e d o s in te r v a lo s de
c o n fia n a e te s te s e s ta ts tic o s d is c u tid o s n o E x e m p lo 1 3 .6 , n e c e s s rio
s u p o r q u e a s o b s e rv a e s d e Y s e ja m in d e p e n d e n te s , e o te rm o d e e rro
t e n h a d is tr ib u i o a p r o x im a d a m e n te n o r m a l c o m m d ia n u l a e v a r i n c ia
c o n s t a n t e . A p r e s e n ta r e m o s u m p ro c e s s o g r fic o p a r a v e rific a r se e s ta s
s u p o s i e s p o d e m s e r v lid a s e , c a s o c o n tr r io , o q u e p o d e s e r fe ito p a r a
a d e q u a r o m o d e lo .

U m p r im e ir o g r fic o p o d e s e r fe ito a n te s d a a n lis e de re g re s s o .


o d ia g r a m a d e d is p e rs o , c o n fo rm e d is c u tid o n a S e 1 3 .1 . P o r e sse
g r fic o , p o d e m o s v e r ific a r se a fu n o lin e a r a d e q u a d a p a r a r e p r e s e n ta r
a fo r m a e s t r u t u r a l e n tre X e Y . V e ja o g r fic o e s q u e r d a d a F i g u r a 1 3 .1 5 .

A p s a e s tim a o d o s p a r m e tr o s d o m o d e lo , p o d e m o s c a lc u la r o s
resduos d o m o d e lo a ju s ta d o a o s d a d o s . O r e s d u o c a lc u la d o p a r a c a d a
o b s e r v a o , e d e fin id o c o m o a d ife r e n a e n tre o v a lo r o b s e rv a d o y e o
v a lo r predito y. O u s e ja ,

resduo = y - y

U m g r fic o a p r e s e n ta n d o o s p a re s (x, resduo) b a s ta n te t il n a


a v a lia o d o m o d e lo d e re g re s s o . V e ja o g r fic o d ir e ita d a F ig u r a 1 3 .1 5 .
resduo

Figura 13.15 Grficos para verificar a adequao do modelo.


278 ESTATSTCA ApCAdft S CrNCiAS S o c iA IS

O s g r fic o s d a F i g u r a 1 3 .1 5 in d ic a m , u m a s itu a o e m q u e a s
suposies d o m o d e lo e s t o a p a re n te m e n te s a tis fe ita s , p o is o s r e s d u o s
a p r e s e n ta m -s e d is tr ib u d o s d e fo r m a a le a t ria e r a z o a v e lm e n te s im tric a
e m to r n o d a re ta de re g re s s o . N o g r fico d o s r e s d u o s , a r e ta d e re g re s s o
c o rre s p o n d e l in h a h o r iz o n t a l s o b re o v a lo r z e r o .

A F ig u r a 1 3 .1 6 a p r e s e n ta u m a s itu a o e m q u e te m o s u m p o n to
d is c r e p a n te . E s s e p o n to v is v e l n o s d o is g r fic o s , m a s n o g r fic o d o s
r e s d u o s ele a p a re c e m a is n it id a m e n te . S e ja :

resduo padronizado -
y-y

S u p o s t a m e n t e , o s r e s d u o s p a d r o n i z a d o s d e v e m s e g u ir u m a
d is tr ib u i o n o r m a l p a d r o , p e lo m e n o s a p r o x im a d a m e n te . E n t o , e m
t o m o d e 9 5 % d o s v a lo r e s d e v e m e s ta r e n tre 2 o u ~2 (C a p t u lo 8 ). F o r a
d e s te in te r v a lo , so c a s o s s u s p e ito s d e s e r e m d is c r e p a n te s . A s s i m , o u s o
d e r e s d u o s p a d r o n iz a d o s m e lh o r p a r a d e te c ta r p o n t o s d is c r e p a n te s .
Resduo
padronizado 9

Figura 13.16 Grficos indicando a presena de ura valor discrepante.

A F i g u r a 1 3 .1 6 m o s t r a c o m o u m p o n to d is c re p a n te p o d e forar u m a
in c lin a o n a r e t a , s u g e r in d o u m a te n d n c ia n o c o m p a tv e l c o m a s
d e m a is o b s e rv a e s . E s s e p r o b le m a s u r g e , p r in c ip a lm e n te , q u a n d o se
t e m u m a a m o s tr a p e q u e n a e o p o n t o d is c r e p a n te e s tiv e r n u m a d a s
e x tr e m id a d e s d o in te r v a lo d e o b s e rv a o d e X. p r u d e n t e , n e s te c a s o ,
b u s c a r a r a z o d a e x is t n c ia d e s s e p o n to d is c r e p a n te . S e a s u a c a u s a fo r
a lg u m e rro , a lg u m a fa lh a n o e x p e r im e n to o u , a in d a , p u d e r s e r c o n s id e ra d a
u m a s itu a o a tp ic a , d e v e m o s e fe tu a r n o v a a n lis e s e m a o b s e rv a o
d is c r e p a n te .

Q u a n d o se t r a t a d e u m e s tu d o e x p e r im e n ta l, a v a r i v e l X c o s tu m a
s e r e s ta b e le c id a . P o r e x e m p l o ,n u m e s tu d o p a r a v e r ific a r a re la o e n tre
o te m p o d e c o z im e n t o (X ) e a m a c ie z (Y ) d e u m a lim e n t o , p o d e m o s
e s ta b e le c e r d ife re n te s te m p o s de c o z im e n to e o b s e r v a r o s r e s u lta d o s de
C A p r u l o 15 C o r r e Ia o e reg ress o 279

Y. R e c o m e n d a m o s v a r ia r X u n ifo r m e m e n te s o b re o in te rv a lo de e s tu d o .
P o r e x e m p lo , se p r e te n d e m o s fa z e r a a n lis e e n tre 2 0 e 3 0 m in u to s de
c o z im e n to , p o d e m o s fa ze r e n s a io s c o m o s te m p o s d e c o zim e n to s de 2 0 ,
2 1, 22, 3 0 m in u t o s .

E m e s tu d o s d e le v a n t a m e n to , n o r m a lm e n te X e Y s o o b s e r v a d a s ,
s e n d o c o m u m o c o rre r u m a d is tr ib u i o a s s im tric a de v a lo re s d e X . P o r
e x e m p lo , c o n s id e re o p r o b le m a d e se a v a lia r a re la o e n tre r e n d a (X ) e
c o n s u m o (Y) d e in d iv d u o s de c e rta re g i o . A m a io r ia d o s in d iv d u o s te m
r e n d a b a i x a e , c o n s e q e n te m e n te , te n d e m a c o n s u m ir p o u c o , p ro v o c a n d o
d is tr ib u i e s a s s im tric a s p a r a X e Y'. A s s i m , os d a d o s d e v e m se d is tr ib u ir
c o n fo r m e m o s tr a a F i g u r a 1 3 .1 7 .
Freqncia
1
m
I
;*
%
.V

*35H _*_,
Ti. n^r^i nr2-- L kL

Figura 13.17 Grficos indicando distribuies assimtricas de X e Y, alm da varncia


de Y ser maior para valores maiores de X e V.

N e s t a s itu a o , o s v a lo r e s g r a n d e s d e X v o t e r m a is p e s o n a
d e te rm in a o d a in c lin a o d a re ta . N e s te c a s o , re c o m e n d a m o s a a plic a o
d a tr a n s fo r m a o lo g a r tm ic a , ta n to n o s v a lo re s d e X c o m o n o s v a lo re s de
Y, e s ta b e le c e n d o o s e g u in te m o d e lo :12

log(y) = a + fM o g(x) + e

12 comum usar o logaritmo natural ou na base 10. Outra transformao que se presta ao
. mesmo propsito a raiz quadrada. Esta segunda transformao usada nas situaes
em que a inadequao do modelo no aparece de forma to forte como visto na Figura
13.17. Observamos que estas transformaes so possveis somente quando todos os
valores so positivos.
280 E s t a t s t c a A p liC A d A s C n c a s S o c a s

A tra n s fo rm a o lo g a rtm c a a u m e n t a a s d is t n c ia s e n tre os v a lo re s


p e q u e n o s e r e d u z a s d is t n c ia s e n tr e o s v a lo r e s g r a n d e s , t o m a n d o
d is trib u i e s a s s im tric a s d e c a u d a lo n g a d ir e ita e m d is trib u i e s m a is
s im tric a s . C o m is s o , te m o s u m a s itu a o m a is a d e q u a d a p a r a e s ta b e le c e r
a r e ta de re g re s s o . E m te r m o s c o m p u ta c io n a is , d e v e m o s :

a) c a lc u la r o lo g a r itm o n a tu r a l d e c a d a v a lo r x e d e c a d a v a lo r y ;
b) a p lic a r a a n lis e d e re gre sso lin e a r so bre o s d a d o s tra n s fo rm a d o s
[lo g (x), lo g (y )l; e
c) c o n s t r u i r n o v a m e n te o g r fic o d e r e s d u o s p a r a v e r ific a r a
a d e q u a o d a s s u p o s i e s n e s te n o v o m o d e lo .

A F i g u r a 1 3 .1 8 a p r e s e n ta u m a s itu a o q u e s u g e re re la o no-
linear, c o m Y c r e s c e n d o r a p id a m e n te p a r a v a lo r e s p e q u e n o s de X , e
c re s c e n d o le n ta m e n te p a r a v a lo r e s g ra n d e s de X. u m a s itu a o e m q u e
re c o m e n d a m o s u m a tr a n s fo m ia o lo g a rtm c a (ou r a iz q u a d ra d a ) s o m e n te
n o s v a lo re s d a v a r i v e l X , o u s e ja , p a s s a m o s a c o n s id e r a r o s e g u in te
m o d e lo p a r a o s d a d o s :

y - a + p-log(x) + e

N o te q u e esse m o d e lo p o d e s e r c o n s id e ra d o lin e a r e m te rm o s d a s
v a r i v e is log (x) e y (n o m a is e n tre x e y ) . E m te r m o s c o m p u ta c io n a is ,
devem os:

a) c a lc u la r o lo g a r itm o d e c a d a v a lo r x ;
b) a p lic a r a a n lis e d e re g re s s o lin e a r s o b re os d a d o s U o g (x ), y j; e
c) c o n s t r u i r n o v a m e n t e o g r fic o d e r e s d u o s p a r a v e r ific a r a
a d e q u a o d a s s u p o s i e s n e s s e n o v o m o d e lo .

A
Resduo

Figura 13.18 Grficos indicando uma relao no-lmear, aparentemente logartmca.

A F i g u r a 1 3 .1 9 p r s e n t u m a s i t u a o c o m o s s e g u i n t e s
p r o b le m a s : (1 ) re la o no-linear para a p a r te e s t r u t u r a l d o m o d e lo e (2)
a u m e n t o d a v a r i n c ia m e d id a q u e X a u m e n t a . R e c o m e n d a m o s u m a
C A p iu lo i ? C o r r e a a o e seq R ess o 281

tr a n s fo im a o lo g a rtm c a n o s v a lo re s d a v a ri v e l Y, a ju s ta n d o o s e g u in te
m o d e lo a o s d a d o s :

log (y) = a + p x + e

P a r a a ju s t a r o m o d e lo , d e v e m o s :

a) c a lc u la r o lo g a r itm o d e c a d a v a lo r y ;
b) a p lic a r a a n lis e d e re g re s s o lin e a r s o b re os d a d o s [x , lo g (y )I; e
c) c o n s t r u ir n o v a m e n te o g r fic o de r e s d u o s p a r a v e r ific a r se o
n o v o m o d e lo m a is a d e q u a d o a o s d a d o s .

Resduo

Figara 13.19 Grficos indicando uma relao no-Unear ~ aparentemente exponencial


- e varincia no-constane.

O u s o d e tra n s fo rm a e s a u x ilia o p e sq u isa d o r a e n c o n tra r u m m o de lo


m a is a d e q u a d o p a r a o s d a d o s , a in d a q u e u t iliz a n d o a s e x p re s s e s d a
re g re s s o lin e a r. A tra n s fo rm a o lo g a rtm c a m u ito u s a d a p o r t e r u m a
in te rp re ta o p r tic a in te re s s a n te , j q u e tra n s fo rm a va ria e s p e rc e n tu a is
d e m e s m a m a g n itu d e e m v a ria e s c o n s ta n te s . P o r e x e m p lo , se c o n s id e ra r
u m a u m e n to a b s o lu to n o s a l rio d e R $ 1 0 0 ,0 0 , o s e u sig n ific a d o v a i s e r
m u it o d ife re n te p a r a q u e m g a n h a R $ 1 0 0 ,0 0 e p a r a q u e m g a n h a R $
1 .0 0 0 ,0 0 . P o r is s o , m a is c o m u m se o u v ir fa la r e m a u m e n to s p e rc e n tu a is
d e s a l rio s . U m a u m e n to d e 1 0 % n o s a l rio re p re s e n ta u m g a n h o de R $
1 0 ,0 0 p a r a q u e m g a n h a R $ 1 0 0 ,0 0 e u m g a n h o de R $ 1 0 0 ,0 0 p a r a q u e m
g a n h a R $ 1 .0 0 0 ,0 0 . N a e s c a la lo g a rtm c a , esses in c re m e n to s so ig u a is .
P o r e s ta r a z o , c o m u m u s a r a e s c a la (o u tra n s fo rm a o ) lo g a rtm c a e m
v a ri v e is e c o n m ic a s o u m e d id a s de ta m a n h o e m g e ra l.

ExEMpo I?.6 (coninuaao) N a se o a n te r io r fo i r e a liza d a u m a re g re ss o do


v a lo r d e u m im v e l (Y) c o m re la o a s u a r e a p r iv a tiv a (X ) , c o n s id e r a n d o ,
m m o s tr a B e T c in q e n t a a p a r ta m e n to s , a p r e s e n ta d a n o a n e x o d e ste
c a p tu lo . A F i g u r a 1 3 .2 0 a p r e s e n ta a r e ta d e re g re s s o e o g r fic o d o s
r e s d u o s d e s s e m o d e lo .
I

282 ESTATSTiCA ApliC A dA s C ncas Socas

Figura 13.20 Grficos de disperso e dos resduos (Exemplo 13.6),

O b s e r v a m o s n a F i g u r a 1 3 . 2 0 u m a p r e d o m i n n c i a d e v a lo r e s
p e q u e n o s c o m r e s p e ito s d u a s v a r i v e is . Is to e r a e s p e ra d o p o r q u e s o
m a is c o m u n s a p a r ta m e n to s p e q u e n o s ( re a e p re o p e q u e n o s ) d o q u e
a p a r ta m e n to s g ra n d e s ( re a e p re o g r a n d e s ). T a m b m p o d e m o s o b s e r v a r
m a io r v a r ia b ilid a d e n o s a p a r t a m e n t o s m a is c a r o s . E s s a s c o n d i e s
s u g e r e m te n ta r m o s u m a tr a n s fo r m a o lo g a r tm c a e m X e e m Y. A s s im ,
fo i a p lic a d o o lo g a r itm o n a t u r a l e m c a d a u m d o s c in q e n t a v a lo re s d e X e
Y. P o r e x e m p lo , o p r im e ir o a p a r ta m e n to d a a m o s tr a t e m x = 9 6 m2 e y =
6 9 m il r e a is . A p lic a n d o o lo g a r itm o n a t u r a l, e n c o n tr a m o s :

log(x) = log(96) = 4,56 e log(y) = log{69) = 4,23

A a n lis e c o m o s d a d o s tr a n s fo r m a d o s p r o d u z iu o s g r fic o s de
d is p e rs o e de r e s d u o s a p r e s e n ta d o s n a F i g u r a 1 3 . 2 1 .

logArea logArea

Figura 13.21 Grficos de disperso e dos resduos {Exemplo 13.6), aps transformaes nas
variveis.

V e r ific a m o s p e la F i g u r a 1 3 .2 1 q u e , a p s a s tr a n s fo r m a e s , a s
c o n d i e s b s ic a s d o m o d e lo e s t o a p a r e n te m e n te s a tis fe ita s . A e q u a o
d e re g re s s o , o b tid a c o m a p o io d e u m s is te m a c o m p u ta c io n a l p a ra anlis_e
e s ta ts tic a :

P re d i o d e iog{y) = - 1 ,5 8 + (1,33 ) lo g (x)


CApTulo 15- CoRReUC) e REqRESSO 28?

c o m R 2 = 0 ,8 1 3 e Se = 0 ,2 9 4 . O b s e r v a r q u e o p o d e r e x p lic a tiv o d e s te m o d e lo
m e lh o r q u e o a n te r io r ( 8 1 ,3 % c o n t r a 7 7 , 7 % ) . J o S e n o c o m p a r v e l
d e v id o a tr a n s fo rm a o d e e s c a la .

P a r a p re d ize r o v a lo r de u m a p a rta m e n to c o m re a p r iv a tiv a de 10 0 m 2,


d e v e m o s , p rim e ir a m e n te , tr a n s fo rm a r e ste v a lo r n a e s c a la lo g a rtm c a :

x * 10 0 log (x) 4 ,6 0 5

A p li c a r o m o d e lo d e re g re s s o :

P r e d i o de log (y) - - 1 ,5 8 + (1,33) * (4 ,6 0 5 ) = 4 ,5 4 5

E f e t u a r a tra n s fo r m a o in v e r s a d o lo g a r itm o :

y = e x p {4 ,5 4 5 } = 9 4 ,1 5

A s s i m , p o r e ste n o v o m o d e lo , o a p a r ta m e n to v a le r ia R $ 9 4 .1 5 0 ,0 0 .

15.6 (NTRoduO REqRESSO M llip U

E m g e ra l, u m a v a ri v e l d e p e n d e n te (o u re s p o s ta ) Y d e p e n d e de v ria s
v a r i v e is in d e p e n d e n te s o u e x p lic a tiv a s ( X r X , , .X jJ. N a a n lis e de
re g re s s o m lt ip la , v a m o s c o n s t r u ir u m m o d e lo e s ta ts tic o -m a te m tic o
p a r a se e s tu d a r , o b je tiv a m e n te , a re la o e n tre a s v a ri v e is in d e p e n d e n te s
e a v a r i v e l d e p e n d e n te e , c o m o m o d e lo c o n s tr u d o , c o n h e c e r a in flu n c ia
d e c a d a v a r i v e l i n d e p e n d e n t e , c o m o t a m b m , p r e d i z e r a v a r i v e l
d e p e n d e n te e m fu n o d o c o n h e c im e n to d a s v a r i v e is in d e p e n d e n te s . O
Q u a d r o 1 3 .2 i lu s t r a a lg u n s e x e m p lo s .

Q u a d r o 1 3 .2 A p lic a e s d o m o d e lo d e re g re s s o m lt ip la .
B111

Xi = altura do pai (cm)


Xa =s altura da me (cm) 1> Y - altura de um indivduo (cm)
Xz - sexo (1 = homem, 0 = mulher)
V;\ ci :: i:V1

. v - :0 7' X
Xi = rea construda do Imvel (m2)
X = idade (anos) *$ Y = preo do imvel (R$)
X3 - localizao
X\ = m m ra ^ (Gb) " ' ' v :: v':.".: >
v " . Y ~ tempo de resposta do sistema
Xz - sistema operacional. . .-y . - y-(?. , . -
V'-3 "=fapo
4.. - . . j ;. - ' -.computacional (segundos)
IX de processador r,~ : ..v .
284 Estatstica ApicAck s C ncas Socas

P a r a e s t a b e le c e r o m o d e lo c l s s ic o d e r e g r e s s o m l t i p l a ,
c o n s id e ra re m o s q u e Y s e ja u m a v a r i v e l q u a n t it a t iv a c o n t n u a e X , , ^ ,
s e ja m v a ri v e is q u a n tita tiv a s o u in d ic a d o r a s d e c e rto s a tr ib u t o s . A
v a r i v e l in d ic a d a d e v e te r v a lo r 1 q u a n d o o a tr ib u t o e s t p re s e n te ; e 0
q u a n d o n o e s t p r e s e n te . P o r e x e m p lo , a v a r i v e l X j = localizao do
imvel p o d e te r v a lo r 1 q u a n d o o im v e l e s tiv e r n u m a re a v a lo r iz a d a , e 0
q u a n d o e s tiv e r n u m a r e a p o u c o v a lo r iz a d a . T a m b m s e r c o n s id e ra d o
q u e Y u m a v a ri v e l a le a t ria , is to , s o m e n te s e r c o n h e c id a a p s a
o b s e rva o d o e le m e n to (in d iv d u o , im v e l, e tc .), e n q u a n to X v X2, X^
ta m b m p o d e m p r o v ir de o b s e rv a o o u s e r e m e s ta b e le c id a s aprort
A a n lise de re gre sso m ltip la p a rte d e u m c o n ju n to d e o b s e rva e s
[xv x , , . . . , xk, y), re la tiv a s s v a r i v e is X v X^, ..., X^e Y. D ir e m o s q u e u m
d a d o v a lo r y d e p e n d e d o s c o rre s p o n d e n te s v a lo re s x v x2,..., m a s ta m b m
d e u m a in fin id a d e d e o u tr o s fa to re s n o in c lu d o s n o m o d e lo , q u e s e r o
re p re s e n ta d o s p o r e (e rro aleatrio). M a is e s p e c ific a m e n te , s u p o m o s o
s e g u in te m o d e lo p a r a a s o b s e rv a e s :

y s a + pjX, +P 2*2 + + $ kx k + &

o n d e a , (3j, (32 , s o p a r m e tr o s a s e r e m e s tim a d o s c o m os d a d o s e


e re p re s e n ta o erro aleatrio, c u jo d e s v io p a d r o ta m b m p o d e s e r e s tim a d o
p e lo s d a d o s . A s s u p o s i e s s o a n lo g a s s s u p o s i e s d a re g re s s o
s im p le s , a c re s c e n ta n d o q u e a s v a ri v e is in d e p e n d e n te s X , , X ^ , X k n o
d e v e m te r co rre la e s a lta s e n tre s i.

ExEMplo 1J.7 V o lta n d o q u e s t o de c o n s t r u ir u m m o d e lo p a r a o v a lo r de


u m a p a rta m e n to (Y) c o m o s d a d o s d o a n e x o d e s te c a p tu lo . S e ja m a s
v a ri v e is in d e p e n d e n te s :
X t= re a c o m u m d o a p a rta m e n to (m 2);
X2 = id a d e (a n o s );
Xj = c o n s u m o d e e n e rg ia e l tric a d o m o r a d o r (K w / m s ) e
X 4= lo c a liza o ( 1 = r e a v a lo r iz a d a ; 0 = r e a p o u c o v a lo r iz a d a ).
C o m o d is c u tim o s n o E x e m p l o 1 3 .6 , a s v a r i v e is 7 e l , s e r o
a n a lis a d a s n a e sca la lo g a rtm c a . A v a ri v e l X , e s t s e n d o u s a d a c o m o
u m a proxi do p a d r o de v id a d o m o r a d o r d o a p a rta m e n to e , p o r s u a v e z , d a
q u a lid a d e d o a p a rta m e n to . T e m o s o s e g u in te m o d e lo te ric o p a r a os d a d o s :
log(y) = a + 0 , lo g U j) + p2 ^ + P3 X j + p4x 4 + e
U s a n d o o Excel, o b tiv e m o s o s r e s u lta d o s a p r e s e n ta d o s n a F i g u r a
1 3 .2 2 .13

13 Nos resultados, os termos foram adequados lngua portuguesa e aos termos tcnicos
deste livro. O s valores foram formatados como nmeros.
C a p tu Io 1? C o r r e I a S o e re g re s s o 285

Estatsticas da regresso
R mltiplo 0,943
R-quadrado 0,889
R-quadrado ajustado 0,879
Desvio padro 0,234
Observaes 50

ANOVA
tf SQ MQ F Valor p
Regresso 4 19,702 4,926 89,863 0,000
Resduo 45 2,467 0,055
Total 49 22,169

Erro Intervalo de confiana


' i ',i . Coeficientes Estt. t -Valor p
padro (95,0%)
Interseo -1,208 0,376 -3,210 0,002 -1,966 -0,450
LogArea 1,195 0,084 14,242 0,000 1,026 1,364
Idade -0,025 0,005 -4,623 0,000 -0,036 -0,014
Energia 0,0024 0,0016 1,5214 0,135 -0,001 0,0057
Local 0,076 0,076 1,010 0,318 -0,076 0,229
Figura 13.22 Resultados de uma anlise de regresso pelo Excel (Exemplo 13.7).

O b s e r v a m o s , n a p r im e ir a ta b e la d a F ig u r a 1 3 .2 2 , o v a lo r d e R 2 {R-
quadrao) ig u a l a 0 ,8 8 9 e Se = 0 ,2 3 4 . C o m p a r a n d o c o m o s r e s u lta d o s d o
E x e m p l o 1 3 .6 (R 2 = 0 ,8 1 3 e Se - 0 ,2 9 4 ) , v e m o s m e lh o r a n o m o d e lo c o m a
in c lu s o d a s v a r i v e is : id a d e , g a s to d e e n e rg ia e l tric a e lo c a liza o . O
v a lo r R 2 - 0 ,8 8 9 , in d ic a q u e q u a s e 9 0 % d a v a ria o d o lo g a ritm o d o v a lo r
d e u m a p a rta m e n to p o d e s e r explicado p o r u m a re la o lin e a r q u e e n v o lv e
o lo g a r itm o d a re a c o m u m ( X 5) , id a d e ( X 2), c o n s u m o de e n e rg ia e l tric a
d o m o r a d o r (X j) e d o is n v e is d e lo c a liza o ( X 4).

A s e g u n d a ta b e la ( A N O V A ) fo rn e c e o re s u lta d o de u m te ste e sta tstico


d a s e g u in te h ip te s e n u la :

Ho: Pt = P2 = Pa = Pi = 0
o u se ja , p o r e sta h ip te s e , o c o n ju n to de va ri ve is in d e p e n d e n te s e m e s tu d o
n o te m p o d e r explicativo sobre a va ri ve l d e p e n d e n te .14 E s te te s te , c o n h e c id o
c o m o teste F do modelo, r e s u l t o u n a e s t a t s t ic a F = 8 9 ,8 6 3 , c o m
c o rre s p o n d e n te v a lo r p e x tre m a m e n te p e q u e n o (m e n o r q u e u m m il s im o ).
A s s im , o teste estatstico re je ita H 0, in d ic a n d o q u e a s va ri ve is in d e p e n d e n te s
e s c o lh id a s so sig n ific a tiva s p a r a explicar a va ri v e l d e p e n d e n te .

A te r c e ir a ta b e la fo rn e c e a s e s tim a tiv a s d o s c o e fic ie n te s , in c lu in d o


in t e r v a lo s d e c o n fia n a e te s te s e s ta ts tic o s p a r a c a d a c o e fic ie n te . A
p r im e ir a c o l u n a a p r e s e n t a a s e s t im a t iv a s d o s c o e fic ie n te s , d e o n d e
p o d e m o s e x tr a ir a s e g u in te e q u a o : ------- ---------

14 Cabe observar que o teste estatstico refere-se populao, ou seja, quando se tem uma
amostra multo pequena, podemos obter um valor alto de R2 e o teste aceitar H0.
286 ESTATISTiCA A p liC A d A s C n c a s S o c a s

Prediode log(y) = -1,208 + 1,195 log(xt) - 0,025x2 + 0,0024x3 + 0,076x4


A s s im , te n d o a re a d o a p a rta m e n to (Xj), a id a d e (x2), o c o n s u m o de
e n e rg ia e l tric a (x^) e a lo c a liza o (x 4) p o d e m o s o b te r u m a p re d i o d e s e u
v a lo r . P o r e x e m p lo , u m a p a rta m e n to c o m 1 0 0 m 2, q u e te n h a 5 a n o s d e
u s o , m o r a d o r c o n s u m in d o 2 0 0 K w e lo c a liza o e m re a v a lo r iz a d a , te m o s :

Predio de log(y) = -1,208 + 1,195- Iog(l00) - (0,025) 5 + (0,0024) 200 + (0,076) 1


o u : P r e d i o de log (y) = 4 ,7 2 6 . P o r t a n t o : y = e x p (4 ,7 2 6 ) ~ 1 1 2 ,8 4
o u , s e ja , v a lo r e s tim a d o d e R $ 1 1 2 .8 4 0 ,0 0 .

D e v e m o s o b s e r v a r q u e o s s i n a i s d o s c o e fic ie n te s d o m o d e lo
c o n s tr u d o e sto c o e re n te s . C o e fic ie n te d e X xp o s itiv o , isto , q u a n to m a io r
o a p a r ta m e n to , m a io r d e v e r s e r o s e u v a lo r ; c o e fic ie n te d e X 2 n e g a tiv o
(q u a n to m a is v e lh o , m e n o r o v a lo r ); c o e fic ie n te d e X3 p o s itiv o (q u a n to
m a io r o c o n s u m o d e e n e rg ia d o m o r a d o r , m a io r o v a lo r ); e c o e fic ie n te de
p o s itiv o (e m re a v a lo r iz a d a , m a io r o v a lo r ).

A lt im a ta b e la ta m b m fo m e c e o s r e s u lta d o s d e te s te s e s ta ts tic o s
p a r a c a d a v a r i v e l. P e lo s v a lo re s p, v e r ific a m o s q u e a s v a r i v e is energia e
local s o n o -s ig n ific a tiv a s e , p o r t a n t o , p o d e r ia m s e r e x c lu d a s d o m o d e lo
s e m q u e o s i n d ic a d o r e s d e q u a li d a d e d o a ju s t e (R 2 e SJ p i o r e m
d e m a s ia d a m e n te . Is s o n o s ig n ific a q u e a lo c a liza o n o s e ja r e le v a n te
p a r a e x p lic a r o v a lo r d o im v e l, m a s s e u e fe ito j p o d e e s ta r p a r c ia lm e n te
in c lu d o n a s o u tr a s v a r i v e is in d e p e n d e n te s .

P a r a v e rific a r a a d e q u a o d e u m m o d e lo d e re g re s s o m lt ip la ,
p o d e m o s c a lc u la r o s resduos e , c o m b a s e n e le s , fa ze r u m a a n lis e g r fic a
s im ila r a q u e fo i fe ita e m re g re s s o s im p le s .

Exer c jc o s com p Ie m en tares

12) Para verificar se existe correlao entre X - tamanho da ninhada e Y ~ nmero


de brincadeiras filhote-me, em hamsters dourados, observaram-se o
relacionamento de um filhote com sua me, em cada uma das 20 ninhadas
de mesmo tempo de vida, durante uma hora. Anotaram-se, para cada ninhada,
os valores das variveis X e Y e calculou-se o valor do coeficiente r nessa
amostra: r = -0,20. Podemos concluir que realmente existe correlao entre
X e Y, ao nvel de significncia de 5%?
13) Para cada um dos itens abaixo, calcule um coeficiente de associao (ou de
correlao) e interprete . Escolha o coeficiente de acordo com a forma de medida
das variveis,
a) Para avaliar o relacionamento entre rendafamiar (em unidades de salrios
mnimos) e nmero dejhos nas seis famlias de uma pequela localidade,
C A p T u t o 15 - C o r r e a a o e r e c ,r e $$ o
287

observaram-se os seguintes vaiores de renda familiar: 1, 2, 4, 8, 12 e 20;


e os respectivos nmeros de filhos: 4, 5, 5, 3, 2 e 2.
b) Para avaliar o relacionamento entre peso e altura de um grupo de 10
indivduos, fez-se a classificao cruzada, apresentada na tabela abaixo:
peso altura
baixa j mediana j alta
baixo 2 1 1
mediano 0 2 0
alto 1 1 2
c} Para avaliar o relacionamento entre sexo e altura, num grupo de 100 pessoas
adultas, observou-se que das 40 mulheres, 30 eram baixas e 10 eram altas.
Enquanto que dos 60 homens, observaram-se 40 altos e 20 baixos.
14) Com o objetivo de verificar se numa certa regio existe correlao entre o nivel
de escolaridade mdio dos pais e o nvel de escolaridade dos fdhos, observou-
se uma amostra aleatria de 8 indivduos adultos, verificando o nmero de
anos que estes freqentaram (e tiveram aprovao) em escolas regulares (Y) e
o nmero mdio de anos que os seus pais freqentaram (e tiveram aprovao)
em escolas regulares (A). Os resultados da amostra so apresentados abaixo:
X 0 0 2 3 4 4 5 7
Y 2 3 2 5 9 8 8 15

a) Calcule o coeficiente de correlao de Pearson.


b) Em termos do resultado do item (a), o que se pode dizer sobre a correlao
entre o nmero de anos que os 8 indivduos freqentaram escolas regulares
(Y} e o nmero mdio de anos que os seus pais freqentaram escolas regulares?
c) Estabelea a reta de regresso de V em relao a X.
d) Apresente o diagrama de disperso acompanhado da reta de regresso.
15) Um administrador de uma grande sorveteria anotou por um longo perodo de
tempo a temperatura mdia diria, em C (X), e o uolume de vendas diria de
sorvete, em kg (Y). Com os dados, estabeleceu uma equao de regresso,
resultando em:
y = 0,5 + l,8x, com jR2 = 0,80
Pergunta-se:
a) Qual o consumo esperado de sorvete num dia de 27C?
b) Qual o incremento esperado nas vendas de sorvete a cada 1C de aumento
da temperatura?
16) A tabela, a seguir, relaciona os pesos (em centenas de kg) e as taxas de
consumo de combustvel em rodovia (km/litro), numa amostra de 10 carros
de passeio novos.
Peso 12 13 14 14 16 18 19 22 24 26
Consumo 16 14 14 13 11 12 09 09 08 06

a) Calcule o coeficiente de correlao de Pearson.


b) Considerando o resultado do item (a), como voc avalia o relacionamento
entre peso e consumo, na amostra?
c) Para estabelecer uma equao de regresso, qual deve ser a varivel
dependente e qual deve ser a varivel independente? Justifique a sua resposta.
288 Estatstica a p IcacU s C ncas Sociais

d) Estabelea a equao de regresso, considerando a resposta do item (c).


e) Apresente o diagrama de disperso e a reta de regresso obtida em (d).
] Voc considera adequado o ajuste do modelo de regresso do item (d)? D
uma medida desta adequao interpretando-a.
g) Qual o consumo esperado para um carro de 2.000 kg? Use o modelo do
item (d). Lembrete: os dados de consumo na tabela esto em centenas de kg.
h) Voc considera seu estudo capaz de predizer o consumo esperado de um
veculo com peso de 7.000 kg? Justifique sua resposta.

A n exo

D a d o s de a p a rta m e n to s de C ric i m a - S C . V a ri ve is : v a lo r (e m m ilh a re s


de reais), rea p riva tiva (m 2) , id a d e (anos), c o n s u m o m e n s a l d e e n e rgia eltrica
(Kw ) e loc al (1 = re gi o m a is v a lo riza d a ; 0 = re gi o m e n o s v a lo riza d a ).

Valor Area Idade j Energia Local ylor j Area |Idad; oErirgia;.


69 96 14 170 1 98 114 4 170 1
176 145 8 144 1 120 101 4 192 1
195 175 2 147 1 51 80 14 170 1
80 101 4 160 1 90 115 2 128 0
390 233 2 220 1 65 55 2 118 0
360 201 6 228 1 90 98 12 143 1
80 104 2 160 1 219 161 6 175 1
45 64 14 118 0 167 101 4 192 1
153 100 2 174 1 63 85 12 172 0
66 112 17 181 1 150 123 4 154 1
90 90 2 144 1 36 61 12 163 0
114 187 28 146 0 139 153 8 144 1
165 147 4 183 0 39 51 18 135 0
101 102 2 160 1 24 37 14 163 I
150 185 8 144 1 84 83 16 147 1
75 102 6 180 0 96 67 2 118 0
38 35 6 144 1 65 82 4 147 0
68 94 28 146 0 30 42 2 160 0
90 110 14 158 0 41 66 12 154 1
60 86 - 6 146 0 476 240 2 183 1
55 74 10 147 0 43 64 18 184 0
92 98 4 160 0 27 57 14 143 0
84 90 . 4 147 1 44 65 12 147 0
92 94 12 187 0 44 73 12 128 0
37 36 2 160 0 150 130 6 190 1
Fonte: Amostra extrada dos dados da dissertao de mestrado ZANCAN, Evelise C.
MetodologiaparaAvaliao emMassadeImveisparaEfeito de. Cobranade Tributos
Municipais - Caso de Apartamentos da Cidade de Cricima, Santa Catarina. UFSC.
Florianpolis. 1995. Com adaptaes.
A G R E S T 1 , A . Analysis of ordinal categoricaL data. U S A : J o h n W iley, 19 8 4 .

B A R B E T T A , P .A .; R E I S , M .M .; B O R N I A , A .C . Estatstica para cursos de


Engenharia e Informtica. S o P a u lo : E d ito r a A tla s , 2 0 0 4 .

B O L F A R I N E , H .; B U S S A B , W . O . Elementos de amostragem. So P a u lo : E d ito ra


E d g a rd B l c h e r, 2 0 0 5 .

B L A L O C K , H . M , Social statistics. U S A : M c . G r a w -H l, 19 6 0 .

B O X , G .E .P . ; H U N T E R , W .G .; H U N T E R , J . S . Statisticsfor experimenlers.
C a n a d : J o h n W ile y, 1 9 7 8 .

B U S S A B , W .O .; M O R E T T I N , P A . Estatstica bsica. 5 .e d . S o P a u lo : E d ito r a


S a ra iva , 2 0 0 2 .

C H A T T E R J E E , S .; H A D I , A .S .; P R I C E , B . Regression analysis byexamples.


3 .e d . U S A : J o h n W iley, 2 0 0 0 .

C O C H R A N , W .G . Sampling techniques. 3 .e d . U S A : J o h n W ile y, 1 9 7 7 .

F I S H E R , R .A . The design of experiments. 6.ed . E d in b u rg o : O liv e r an d B o y d ,


19 5 1.

L E A C H , C . Introduction to statistics: a n onparam etric a ppro a ch for the social


sciences. U S A : J o h n W ile y, 1 9 7 9 .

L E V I N , J . Estatstica aplicada s cincias humanas. 2 .e d . So P a u lo : E d ito ra


H a r b r a , 19 8 5 .

L E V I N E , D .M .; B E R E N S O N , M .L .; S T E P H A N , D . Estatstica: teoria e aplicaes


' usando o Excel R io de Ja n e ir o : L T C , 200 0.
290 ESTATSTiCA ApliCAdA S CiENCAS SOCIAIS

M A G A L H E S , A .N .; L I M A , A .C .P . Noes de probabilidade e estatstica. 4 .e d .


S o P a u lo : E D U S P , 2 0 0 2 .

M E N D E N H A L L , N . Probabilidade e estatstica, v . 1 e 2 , R io de Ja n e ir o : E d ito r a


C a m p o s , 1985.

N O E T H E R , G .F . Introduo Estatstica: u m a abordagem n o-para m trica .


2 .e d . R io de Ja n e iro : E d ito r a G u a n a b a ra D o is ; 19 8 3 .

S E L L T Z , G .I .; W R I G H T S M A N , L .S .; C O O K , S .W . Mtodos depesquisanas
relaes sociais. 4 .e d . So P a u lo : E P U , 1 9 8 7 .

S I E G E L , S . Estatstica no-paramtrica aplicada s cincias do comportamento.


R io de Ja n e iro : M c . G r a w H ill, 1 9 7 5 .

S T I G L E R , S .M . The history of statistics: the m easurem en t o f u n c e rta in ty before


19 0 0 . U S A : H a rw a rd , 19 8 6 .

S T E V E N S O N , W .J . Estatstica aplicada administrao. S o P a u lo : E d ito r a


H a rb ra , 19 8 1.

T E X E I R A , E . ; M E I N E R T , E .M .; B A R B E T T A , P .A . Anlise sensorial de alimentos.


Flo ria n p o lis : E d ito r a d a U F S C , 1 9 8 7 .

T R I O L A , M .F . Introduo Estatstica. 9 .e d . R io de Ja n e ir o : L T C , 2 0 0 5 .

W O N N A C O T T , T . H .; W O N N A C O T T , R J . Estatstica aplicada Economia e


Administrao. R io de Ja n e iro : Liv ro s Tcnicos e C ie n tfico s, 1 9 8 1 .
ApNdiCE

T a b e l a 1 N m e r o s a le a t rio s
59 58 48 36 47 92 85 05 08 65 47 49 10 41 05 10 75 59 75 99 17 28 97 99 75
53 26 21 50 21 37 93 85 52 86 86 22 75 34 37 69 85 25 03 78 50 26 18 25 10
07 02 16 58 67 05 32 93 87 84 31 30 62 78 60 59 90 24 22 07 74 43 43 56 91
92 87 67 56 36 58 58 16 88 16 17 83 52 09 99 86 17 20 95 93 01 46 77 18 11
90 57 05 58 96 84 33 68 15 87 28 18 08 76 89- 94 60 94 48 76 92 93 49 13 91

24 26 56 02 33 33 21 75 54 04 96 28 85 78 11 54 01 92 86 36 65 19 45 97 79
20 09 49 50 27 33 86 85 59 39 02 25 60 56 26 01 11 24 44 15 58 00 54 54 09
22 74 50 39 12 83 91 03 38 78 85 56 78 41 44 26 04 12 13 50 38 15 61 02 51
10 45 36 09 86 07 68 31 98 41 98 17 56 93 84 16 01 48 99 36 44 61 71 69 67
09 82 11 18 29 96 19 12 47 26 26 01 14 78 55 33 11 13 56 95 68 66 57 90 33

04 63 02 45 50 61 91 02 14 07 57 36 29 12 74 89 47 84 89 69 13 85 22 66 83
55 93 05 63 30 40 05 51 03 31 68 15 33 85 87 94 80 24 96 62 31 38 95 35 38
66 15 07 64 38 16 44 52 26 42 34 65 99 71 63 87 22 04 62 15 76 94 00 00 77
96 31 72 41 94 47 03 44 73 77 96 17 02 97 50 26 67 60 63 57 66 81 92 03 20
07 10 58 83 63 . 35 47 34 05 38 92 26 05 33 40 91 23 43 68 72 29 74 60 67 01

04 47 64 02 49 10 52 21 00 80 40 56 68 97 32 43 46 70 65 08 96 52 25 29 44
56 24 53 31 96 65 42 53 27 78 23 30 61 34 18 56 .59 23 69 27 83 66 60 03 12
98 15 27 91 71 24 15 28 61 91 83 49 05 82 54 53 59 30 25 19 36 31 31 56 58
36 96 23 77 26 79 74 28 12 16 08 88 07 28 71 45 43 40 07 66 11 26 38 51 87
66 01 53 03 67 92 27 27 17 54 31 23 30 42 83 85 78 21 68 34 86 33 77 84 40

48 07 09 48 65 92 33 41 97 63 48 97 19 86 81 10 85 42 84 49 03 82 01 82 88
95 44 86 84 32 09 03 56 46 96 64 51 33 75 10 29 00 99 23 82 92 31 77 08 17
91 73 15 42 46 72 21 07 34 11 92 70 89 58 54 11 30 93 38 29 00 53 93 14 09
08 35 79 86 83 06 89 37 82 12 81 14 08 82 04 91 88 04 86 36 18 10 09 78 99
37 20 97 09 96 86 34 77 09 31 04 38 18 79 61 68 66 47 40 35 40 16 50 22 54

79 14 72 97 40 90 98 64 42 25 72 95 89 98 59 03 73 02 95 47 34 85 74 60 90
58 55 07 49 26 08 02 70 20 14 57 17 20 89 16 07 86 05 38 61 69 48 78 18 62
77 93 74 07 34 23 49 25 23 87 43 93 35 93 02 80 94 57 16 22 73 67 28 75 37
91 82 56 78 91 47 22 60 09 32 67 02 21 71 61 12 83 08 40 00 52 23 47 46 58
53 66 43 91 44 19 05 53 26 31 89 52 31 98 20 03 70 03 61 07 52 79 97 75 92

91 03 23 35 58 48 22 68 98 07 12 20 88 41 89 19 00 56 88 74 96 71 20 52 46
70 35 43 62 20 81 20 95 72 99 80 91 40 17 51 26 71 79 23 17 01 25 48 07 82
93 85 01 86 56 78 48 74 55 63 62 09 64 35 47 08 70 04 66 86 08 91 83 42 94
75 40 86 33 31 96 06 26 53 07 41 58 96 29 23 17 71 66 60 72 07 18 47 73 75
37 15 68 73 37 31 76 55 39 13 49 61 13 83 90 53 47 54 53 52 80 30 40 35 21

35 88 34 83 04 71 67 75 40 83 99 97 96 83 32 16 04 27 99 31 49 80 34 34 95
73 06 78 79 97 28 86 29 45 91 76 44 64 99 81 33 95 06 94 26 85 78 57 43 12
94 70 05 36 32 38 44 59 60 01 13 74 03 30 33 24 79 77 71 87 41 57 07 96 68
09 65 41 62 93 63 28 60 59 28 29 08 69 81 67 60 57 53 64 28 12 24 35 23 49
12 39 50 50 09 22 70 54 75 38 78 56 79 26 62 79 37 83 33 92 33 30 61 41 90
Nota: Os espaos entre os.jnmeros so apenas para facilitar a leitura, mas os nmeros podem ser
lidos com a quantidade de algarismos que se queira.
292
Estatstica ApliCAda s Cincias Socas

T a b e la 2 D istribuio binom ial: probabilidade de cad a valor x em funo


de n e ti

.V:S;V:-::';:: i: ^ ^75; ^ ...


0,05 0,1 0,15 | 0,2 0,25 T 0,3 0,35 ; | 0,4 0,45 0,5

0 0,9500 : 0,9000 : 0.8500 0,8000 0.7500; 0,7000 0,6500. 0,6000 0,5500 0,5000
1 0.0500 0,1000 0,1500 0,2000 0,2500 0,3000 0.3500 0,4000 0.4500 0,5000

2 0 0,9025 0.8100 0.7225 0,6400 0.5625 0.4900 0.4225 0,3600 0.3025 0,2500
0,0950 0,1800 0.2550 0.3200 0,3750 - 0,4200 :0,455 r -0,480.0 0 ,4950 0.5000.
2 0,0025 0,0100 0.0225 0.0400 0.0625 0.0900 0.1225 0,1600 0,2025 0.2500

3 0 0,8574 0,7290 0.6141 0.5120 0,4219 0,3430 0,2746 0,2160 0,1664 0,1250
i i-| 0.1354 0,2430 .0.3251 0.3840 0.4219 0,4410 .'.0,4436 0.4320 0,4084 . 0,3750
2 0,0071 0,0270 0.0574 0.0960 0.1406 0,1890 0.2389 0,2880 0,3341 0,3750
3 0,0001 0.0010 ; 0.0034 0,0080 0,0156.. 0,0270 0,0429 0,0640 0,0911. 0,1250..

0 0.8145 :o ,6 56 i :0.5220 0,4096 0,3164 0,2401 0,1 7 8 5 : 0,1296 0,0915 0,0625


1 0.1715 0,2916 0,3685 0.4096 0,4219 0,4116 0,3845 0,3456 0,2995 0.2500
2 0.0135 0,0486 .0,0975 0,1536 0,2109.. .0,2646- 0,3105 0.3456 0,3675. . 0^3750
3 0,0005 0,0036 0.0115 0.0256 0,0469 0,0756 0 .1 1 5 0,1536 0,2005 0,2500
4 0.0000 0,0001 0,0005 : .0,0016 0,0039 . 0.0081 "'o ;o i5 p -,0 ;0 2 5 6 : 0,0410 0.0625

s 0 0.7738 0.5905 0,4437 .0.3277 0,2373 ;6 8 1 : 0 , i i 6 t ;0,0778 . .0,0503 0,0313


l" 0,2036 3281 0.3915 0.4096 0,3955 0,3602 0,3124 0,2592" 0,2059 0,1563
2 0,0214 0.0729 0.1382 0,2 04 8 0,2637 0,3087. 0,3364 .3 4 5 6 , 0.3369 ,fc .3 2 5
3 0,0011 0.0081 0.0244 0,0512 0,0879 0.1323 0.1811 10,2304 0,2757 (6 ,3 12 5 5
: 0,0000 0.0005 0.0022 0.0064 0.0146 0,0284 0 .0 4 8 8 ; .0,0768 0,1128 0;B63.
5 0,0000 0,0000 0,0001 0.0003 0 .0 0 1 0,0024 0,0053 0,0102 0,0185 0,0313

6 0 0,7351 0,5314 0.3771 0.262 L 0.1780 0,1 76 0,0754 0,0467 0,0277 0,0156
0,2321 0.3543 -0.3993 0,3932 0.3560 0 ,3025 0,2437 0,1866 0 ,1 3 5 9 ; 0,0938
2 0,0305 0,0984 0,1762 0,2458 0,2966 0,3241 0,3280 0,3110 0.2780 0,2344
Casi 0,0021 0,0146. 0,0415 0.0819 0,1318 0,1852 0 ,2 3 5 5 : -0,2765; -0,3032 =0,3125
4 0,0001 0.0012 0.0055 0.0154 0.0330 0,0595 0,0951 0,1382 0,1861 0,2344
M 0,0000 0,0001 . 0,0004 0,0015.' " 0,0 04 4. 0,0102 - 0 ,0205 : 0,0369 0,0609- 0,0938J
6 0,0000 0 .0 0 0 0 0.0000 0 .0 0 0 1 0,0002 0,0007 0,0018 0,0041 0,0083 0,0156

7 0.6983 0.4783 0.3206 0,2097 0,1335 0.0824 0,0490 0,0280 0,0152 0,0078
0,2573 : 0,3720 0,3960 0.3670 0,3115 0,2471 0.1848 0.1306 0,0872 0.0547
2 0,0406 0,1240 0.2097 0,2753 " 0,3115 0.3177 0.2985 0,2613 0,2140 0.1641
3 0.0036 0,0230 0,0617 0,1147 0.1730 0,2269 0.2679 0,2903 0,2918 -0.2734
4 0.0002 0,0026 0,0109 0,0287 0,0577 0,0972 0.1442 0.1935 0,2388 0,2734
5 0,0000 0.0002 0.0012 0,0043 0,0115 0.0250 0.0466 0,0774 0,1172 0.1641
6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0084 0.0172 0,0320 0,0547
:i 7 . 0,0000 0,0000 0 .0 0 0 0 0 .0 0 0 0 0,0001 0,0002 0,0006 0,0016 0,0037 0,0078

8 o 0.6634 0,4305 0,2725 0.1678 0,1001 0.0576 0,0319 0,0168 0,0084: 0,0039
1 0,2793 0,3826 0,3847 0.3355 0,2670 0,1977 0,1373 0,0896 0,0548 0,0313
2 0,0515 0.1488 0,2376 0.2936 0,3115 0,2965 0,2587 0,2090 0,1569 0,1094
3 0.0054 0,0331 0,0839 0,1468 0.2076 0.2541 0,2786 0.2787 0.2568 0,2188
:4 0.0004 0,0046 0,0185 0,0459 0,0865 0.1361 0,1875 0,2322 0,2627 0,2734
5 0,0000 0.0004 0.0026 0,0092 0,0231 0.0467 0,0808 0,1239 0 J 7 1 9 0.2188
6 0.0000 0 .0 0 0 0 0,0002 0 .0 0 1 1 0,0038 0.0100 0.0217 0,0413 0.0703 0,1094
7 0.0000 0,0000 0,0000 0,0001 0.0004 0.0012 0.0033 0,0079 0.0164 0,0313
8 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0017 0.039
ApNdice 295

T a lb e la 2 D is tr ib u i o b in o m ia l: p r o b a b ilid a d e d e c a d a v a lo r x e m fu n o
d e n e tc (c o n tin u a o )

n : x ''
0 ,5 5 j 0 ,6 | 0 ,6 5 j 0 .7 | 0 ,7 5 o,8 \ 0 ,8 5 1 0 ,9 ,: 0 ,9 5

1 0 0,4500- -0,4000 : 0,3500' 0,3000 / 0,2500- 0,2000 0,1500: 0.1000 0,0500


1 0,5500 0,6000 0.6500 0,7000 0,7500 0,8000 0,8500 0,9000 0,9500

2 0 0.2025 0.1600 0.1225 0.0900 0,0625 0,0400 0,0225 o lo io o 0.0025


M - 0.4950 0,4800" 0.4550 0,4200 0,3750 0,3200 0,2550 0.1800 0.0950
2 0.3025 0,3600 0,4225 0.4900 0.5625 0,6400 0,7225 0,8100 0.9025

3 0 0,0911 0.0640 0,0429 0.0270 0.0156 0,0080 0,0034 0.0010 0,0001


.1 0,3341 0.-2880 - 0.2389. 0.1890 0,1406. 0.0960 0,05741. : 0.0270 0.0071
2 0.4084 0,4320 0,4436 0,4410 0,4219 0.3840 0.3251 0.2430 0,1354
- 3 0,1664 0,2160 0.2746 0,3430 0,4219 0,5120. . 0,6141 0,7290 0,8574

. 4 : 0 : 0,0410 0,0256 : 0,0150. . 0,0081 0,0039 0,0016 0.0005 0,0001 0.0000


1 0,2005 0,1536 0,1115 0,0756 0,0469 0,0256 0.0115 0,0036 0.0005
- 2 :0,3675 " .0.3456 0,3105 0,2646 0,2109 0,1536 0.0975 0.0486 0,0135
3 " 0,2995 0.3456 0,3845 0,4116 0.4219 0,4096 0.3685 0,2916 0,1715
: 4 0,0915j 0,1296 -_ 0,1785 0,2401 0,3164 0,4096 0.5220 0.6561 0.8145 ;

s_ 0 0.0185 .0,0102 -0;0053 0.0024: 0.0010 0,0003 0,0001 0.0000 0,0000


1 0,1128 0.0768 0,0488 0.0284 0.0146 0,0064 0.0022 0.0005 0.0000
2 - 0,2757 0,2304 - 0,1811 0.1323 0.0879 ' 0.0512 0,0244 0.0081 o .o o ii
3 0,3369 0,3456 0,3364 0,3087 0,2637 0,2048 0.1382 0,0729 0.0214
4. 0,2059. ; 0,2592 . 0,3124 0,3602 ; 0.3955 0,4096 :: 0.3915 0,3281 0,2036;
5 0,0503 0.0778 0,1160 0.1681 0,2373 0,3277 0,4437 0,5905 0,7738

6 0 0,0083 0,0041 0,0018 0,0007 0.0002 0,0001 0,0000 0,0000 0.0000


I 0,0609 - 0,0369 0,0205 0,0102 .0,0044 0,0015 .0,0004 0,0001 0,0000
2 0.1861 0,1382 0,0951 0,0595 0,0330 0.0154 0,0055 0.0012 0,0001
3 0,3032 " 0,2765 ; 0,2355 0,1852 0,1318 . 0,0819 .0,0415 0,0146 - 0,0021
4 0,2780 0,3110 0,3280 0,3241 0,2966 0,2458 0.1762 0.0984 0,0305 "
5 -:0,1359: O; 1866- - 0.2437 0,3025 - 0,3560 >''0,3932 0.3993 0,3543 0,2321
0,0277 0.0467 0,0754 0,1176 0,1780 M3.2621 0,3771 0,5314 " " 0.7351

7 0 0.0037 0,0016 0,0006 0,0002 0.0001 5.0000 0.0000 0,0000 0.0000


0,0320 0,0172 0,0084 -: 0,0036 0.0013 : -0,0004 0,0001 0,0000." .0,0000.
2 0,1172 0.0774 0.0466 0,0250 0,0115 .0,0043 0.0012 0.0002 " 0,0000
- . : 3 - - 0,2388 0,1935 -0,1442 0,0972 0,0577 ,0,0287' 0,0109 0.0026 0,0002
4 0,2918 0,2903 0.2679 0,2269 0,1730 0, 1147 0.0617 0.0230 0,0036
5 - .0,2140 0,2613- 0,2985 0.3177 0,3115 0,2753 0,2097- 0,1240 0,0406
6 0,0872 0,1306 0,1848 0,2471 0,3115 0,3670 0.3960 0,3720 0.2573
7 0,0152 0,0280 0,0490 0,0824 0,1335 0,2097 0,3206 _ 0,4783 0,6983

8 0 : 0,0017 - 0,0007 0.0002 0,0001 0.0000 0,0000 -0/0000- . o.oooo- 0,0000


2 0,0164 0,0079 0,0033 0,0012 0,0004 0.0001 0,0000 0,0000 0,0000
2 0,0703 0.0413 0,0217 0,0100 0,0038 0,0011 0,0002 0.0000 , 0,0000
3 0,1719 0,1239 0,0808 "0.0467 0,0231 0,0092 0.0026 0.0004 0,0000
4 0,2627 0,2322 0.1875 ' 0,1361 0,0865 0,0459 0,0185 0,0046 0.0004
5 0,2568 0,2787 0,2786 0,2541 0,2076 0,1468 0,0839 0.0331 0,0054
6 0.1569 0,2090 0,2587 0,2965 0,3115 ; 0,2936 0,2376 0.1488 0,0515
7 0,0548 0,0896 0,1373 0,1977 0,2670 0,3355 0,3847 0,3826 0,2793
8 0,0084 0.0168 0.0319 0,0576 0,1001 0,1678 0,2725 0,4305 0.6634
294 Estatstica ApliCAdA s C incias Socas

T a b e la 2 D is tr ib u i o b in o m ia l: p r o b a b ilid a d e d e c a d a v a lo r x e m fu n o
d e n e n (c o n tin u a o )

t 'X "
H : 7i ' .. ,
0,05 1- 0.1 1 0,15 0,2 ! 0,25 | 0,3 0,35 | 0,4 | 0,45 0,5

9 0 0.6302 0,3874 0.2316 0,1342 0,0751 0,0404 0,0207 0,0101 0,0046 0.0020
1 0,2985 0,3874 0.3679 0.3020 0,2253 0.1556 0,1004 0.0605 0,0339 0,0176
0.0629 .0,1722 0.2597 0,3020 0.3003 0,2668 0,2162 0.1612 0,1110 0.0703.
3. 0,0077 0.0446 0.1069 0.1762 0,2336 0,2668 0,2716 0.2508 0,2119 0,1641
. 0.0006 0,0074 0.0283 0.0661 0,1168 0,1715 0,2194v 0.2508 0,2600 0,2461
5 0.0000 0.0008 0.0050 0,0165 0,0389 0,0735 0,1181 0,1672 0,2128 0.2461
' 0.0000 0.0001 0.0006 0.0028 0,0087 0,0210 0,0424 0,0743 0.1160 0,1641
7 0.0000 0.0000 0,0000 0.0003 0,0012 0,0039 0,0098 0.0212 0,0407 0,0703
8 0.0000 0,0000 0.0000 0,0000 . 0,0001 .0,0004 0,0013 . 0,0035 0,0083; 0,0176
9 0.0000 0.0000 0.0000 0.0000 0,0000 0,0000 0.0001 0,0003 0.0008 0.0020

10 0 0.5987 0.3487 0.1969 0.1074 0,0563 0.0282 0,0135 0.0060 0.0025 0,0010
: 0.3151 0.3874 0,3474 0,2684- 0,1877 0.1211 0.0725 0.0403 0,0207 0,0098
2 0,0746 0.1937 0.2759 0,3020 0,2816 0,2335 0,1757 0.1209 0,0763 0.0439
0.0105 { 0.0574 0,1298, 0,20131 0,2503 .0.2668 '. 0.2522 ,0.2150 0,166 5 0,1172
4 0,0010 f 0.0112 0,0401 0.0881 0,1460 0,2001 0.2377 0,2508 0,2384 0,2051
0.0001 : 0.0015 0,0085 0,0264 [0.0584 0,1029 0,1536 0.2007 0.2340 0,2461
6 0,0000 10,0001 0,0012 0.0055 10,0162 0,0368 0.0689 0,1115 0.1596 0.205f
: 0.0000 0.0000 0,0001 0,0008 j 0.0031 0.0090 0.0212 0.0425 0,0746. 0,1172'
8 0.0000 ; 0,0000 0,0000 0.0001 ) 0.0004 0.0014 0.0043 0.0106 0,0229 0,0439 /
9 0.0000 *0.0000 0.0000 0.0000 ] 0,0000 0,0001 0,0005 0,0016 0.0042 0,0098
10 0.0000 : 0.0000 0,0000 0,0000 >.^00000 0,0000 0,0000 0,0001 0.0003 0.0010

11 0 0,5688 0,3138 0,1673 0.0859 0,0422 0,0198 0,0088 0,0036 0,0014 0.0005
'V'"! -v
0.3293 .0,3835 0.3248 0.2362 o; 1549' 0.0932 0,0518 0,0266:1 0,0125 0,0054
2 0,0867 0,2131 0.2866 0.2953 0,2581 0,199 8 0,1395 0,0887 0,0513 0,0269
:;3 . 0.0137 0,0710 0.1517 0,2215 0,2581 0,2568 . 0.2254 0.1774 0.1259 0.0806
4 0.0014 0.0158 0.0536 0,1107 0.1721 0.2201 0.2428 0,2365 0,2060 0.1611
v- 5;:: 0.0001 0,0025 0.0132 0,0388 0,0803 0,1321 0,1830 0,2207 0,2360.0.2256
6 0.0000 0,0003 0,0023 0,0097 0.0268 0.0566 0.0985 0,1471 0,1931 0.2256
0,0000 0,0000 0.0003 0,0017 0,0064 0.0173 0,0379 0,0701 0,1128;0,1611
8 0.0000 0,0000 0,0000 0,0002 0,0011 .0,0037 0,0102 0,0234 0.0462 0,0806
0.0000 0,0000 0.0000 0,0000 0,0001 0,0005 0.0018 0,0052 0.126 0,0269
10 0,0000 0,0000 0.0000 0,0000 0,0000 0,0000 0,0002 0.0007 0,0021 0,0054
0,0000 :: 0.0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 - 0,0003 0.0005

12 0 0.5404 0,2824 0,1422 0,0687. 0.0317 0.0138 0,0057 0.0022 0,0008 0,0002
1 0;3413 0.3766 0,3012 0,2062 0,1267 0,0712 0,0368 0,0174 0,0075 ;0,029:.
-r:. 2 0.098S 0.2301 0,2924 0.2835 0,2323' 0,1678 0.1088 0,0639 0,0339: 0.0161
3 0,0173 0,0852 0,1720 0.2362 0.2581 0,2397 0,1954 0.1419 0,0923 0,0537
*r 4 : 0,0021 .0,0213 0,0683 0.1329 0.1936 0,2311 0.2367 0,2128 0,1700 0,1208
5 0,0002 0,0038 0.0193 0,0532 0,1032 0,1585 0,2039 0,2270 0,2225 0,1934
i: 0,0000 : 0.0005 0.0040 0,0155 0,0401 0,0792 0.1281 0.1766 0.2124 0.2256
7 0,0000 0,0000 0,0006 0,0033 0,0115 0,0291 0,0591 0,1009 0.1489 0,1934
8 0,0000 0.0000 0.0001 : 0.0005 0.0024 0.0078 0.0199 0.0420 0.0762 0,1208
9 0.0000 0,0000 0.0000 0.0001 0.0004 0,0015 0,0048 0,0125 0.0277 0,0537
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0008 0.0025 0.0068 0,0161
11 0,0000 0,0000 0,0000 0,0000 0.0000 0.0000 0.0001 0,0003 0.0010 0,0029
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000. 0,0000 0,0001 0,0002
ApNdiCE 295

Tabela 2 Distribuio binomial: probabilidade de cada valor x em funo


de n e n (continuao)
71
n X
0 ,5 5 j 0 .6 0 ,6 5 1 0 ,7 0 ,7 5 i 0 ,8 0 ,8 5 0 .9 0 ,9 5

9 0 0,0008 0,0003 . 0.0001 0.0000 0,0000 0.0000 0.0000 0,0000 0.0000


1 0,0083 0,0035 0,0013 0,0004 0,0001 0.0000 0,0000 0.0000 0.0000
2 0,0407 0,0212 0.0098 0.0039 0,0012 : 0.0003 0,0000 0,0000 0,0000
3 0 ,1 1 6 0 0.0743 0,0424 0,0210 0,0087 0 ,0 0 2 8 0.0006 0.0001 0.0000
4 0.2128 0.1672 ' 0.1181 0,0735 0,0389 0.0165 0,0050 0.0008 0,0000
5 0.2600 0,2508 0,2194 0.1715 0,1168 0,0661 0.0283 0,0074 0.0006
6 : 0.2119 0.2508 0,2716 0.2668 0.2336 0,1762 0.1069 0,0446 0.0077
7 0.1110 0,1612 0,2162 0,2668 0,3003 0.3020 0.2597 0.1722 0.0629
0.0339 0,0605 0,1004 0,1556 0,2253 ,0,3020 0,3679 0.3874 . 0.2985
9 0.0046 0,0101 0,0207 0,0404 0,0751 0,1342 0.2316 0.3874 0,6302

10 o 0,0003 0,0001 0,0000 0.0000 0.0000 0.0000 0,0000 0,0000 \ 0,0000


0.0042 0,0016 0,0005 : .0,0001 . 0.0000 : o.oooo 0,0000 0,0000 . 0.0000
....... 2 0,0229 0,0106 0,0043 ' 0,0014 0,0004 0,0001 0,0000 0,0000 0,0000
3 0,0746 0.0425.. ,0 .0 2 1 2 : 0.0090 0.0031 0.0008 0,0001 0,0000 0,0000
4 0,1596 0,1115 0.0689 0,0368 0,0162 0.0055 0.0012 0,0001 0,0000
5 0,2340 0,2007 0,1536 0.1029 0,0584 0,0264 0.0085 0,0015 0.0001
6 0,2384 0,2508 0,2377 0.2001 0,1460 0,0881 0.0401 0,0112 0 ,0 0 1 0
VV 7 0,1665 0,2150: 0,2522 0.2668 .0,2503 0,2013 0.1298 0.0574 0,0105
8 0,0763 0,1209 0.1757 0,2335 0,2816 0.3020 0,2759 0.1937 0,0746
9 0,0207 0,0403 0.0725 ; 0.1211 0.1877 0,2684 0,3474 0,3874 0,3151
10 0,0025 0,0060 0,0135 0.0282 0.0563 0,1074 0.1969 0.3487 0.5987

11 0 0,0002 0,0000 0.0000 0,0000 0,0000 O.OOOO 0,0000 0,0000 0.0000


. 1 0,0021 . 0,0007 , 0,0002 0.0000 . 0,0000 0.0000 0,0000 0.0000 0.0000
2 0.0126 0.0052 0.0018 0,0005 0.0001 0,0000 0,0000 0.0000 0,0000
'-> 3 0,0462 0.0234 ; .0.0102 0,0037 0.0011 0,0002 0.0000 0,0000 0,0000
4 . 1128 0,0701 0,0379 0,0173 0.0064 0.0017 0,0003 0,0000 0,0000
. 6 0,1931 0,1471- 0,0985 0,0566 0.0268 10,0097: 0,0023 0.0003 ,0 ,0 0 0 0
6 0,2360 0.2207 0,1830 0,1321 0.0803 0.0388 0,0132 0,0025 0.0001
- 7 0,2060 0,2365 . ,0 ,2 42 8; 0.2201 0,1721 0,1107 i 0.0536 0,0158 0.0014
8 0,1259 0.1774 0,2254 0,2568 0,2581 0,2215 0,1517 0,0710 0,0137
: 9 0,0513 0.0887 . 0,1395 0,1998 0,2581 0,2953 0.2866 0,2131 0.0867
10 0,0125 0.0266 0,0518 0.0932 0,1549 0,2362 0,3248 0,3835 0,3293
ii 0,0014 0,0036. : 0 ,0 08 8; 0,0198 0.0422 0,0859 0,1673 0.3138 0,5688

12 O 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0.0000 0.0000


1 0,0010 0.0003 0,0001 0,0000 0,0000 0,0000 0,0000 0.0000 0.0000
: 2 : 0,0068 . 0.0025 ; 0.0008: 0.0002 0,0000 0,0000 0,0000 0,0000 0.0000
3 0.0277 0,0125 0.0048 0.0015 0,0004 0,0001 0,0000 0,0000 0,0000
-=-,-=4:;-:-: 0.0762 0.0420 0,0199 . 0,0078 0,0024 0.0005 0.0001 0.0000 0,0000
5 0,1489 0.1009 0,0591 0,0291 0,0115 0,0033 0,0006 0,0000 0,0000
6 0,2124 0.1766 0,1281 0,0792 0.0401 0,0155 0,0040 0,0005 0.0000
7 0,2225 0,2270 0.2039 0,1585 0,1032 0.0532 0,0193 0.0038 0,0002
; 8 0,1700 0,2128 0,2367: 0.23 U 0,1936 0,1329 0,0683 0.0213 0,0021
9 0.0923 0.1419 0.1954 0.2397 0,2581 0,2362 0,1720 0,0852 0,0173
10 0 .0339 : 0,0639 0,1088 0,1678 0,2323 0,2835 0,2924 0,2301 0,0988
11 0 ,0075 0.0174 0,0368 0.0712 0.1267 0,2062 0.3012 0.3766 0.3413
12 0,0008 0.0022 0,0057 0,0138 0,0317 0.0687 0,1422 0,2824 0.5404

29 Estatstca ApIjcAck s Q ncas Socas

2 D is tr ib u i o b in o m ia l: p ro b a b ilid a d e d e c a d a v a lo r
T a b e la x e m fu n o
d e n e n (c o n tin u a o )

0 .0 5 0 ,1 5 0 .2 0 ,2 5 0 ,3 0 ,3 5 0 ,4 0 ,4 5 0 .5

13 f Sl 0,5133 0,2542 0;1209 0.0550 :.0,0238" 0.0097 ^ 0,0037- 0.0013 0,0004 o.oooi:
i 0,3512 0,3672 0,2774 0.1787 0,1029 0.0540 0.0259 0,0113 0,0045 0,0016
m2 # 0,1109 0,2448 0,2937 0.2680 0,2059. ;0,1388 ' 0,083.6 0,0453 0,0220 0.095
3 0.0214 0,0997 0.1900 0,2457 0,2517 0,2181 0,1651 0,1107 0.0660* 0.0349
4 : 0,0028 0,0277 0 , 0 8 3 8 0,1535 0.2097 0,2337- 0,2222 0.1845 0,1350 - 0 , 0 8 7 3
5 0,0003 0,0055 0,0266 0,0691 0,1258 0,1803 0.2154 0.2214 0,1989 0,1571
6 0,0000 0,0008 0.0063 0.0230 0,0559" -0,1030- "0.1546 0,1968 0,2169" 0.2095
7 0,0000 0,0001 0.0011 0.0058 0,0186 0.0442 0,0833 0.1312 0,1775 0,2095
8 0,0000 0,0000 0.0001 0,0011" .0,0047 0.0142 ;0.0336 0,0656 .0.1089 .0.1571
9 0,0000" 0,0000 0,0000 0.0001 "0.009 0.0034 0,0101 0.0243 0,0495 0,0873
10 0,0000 0,0000 0.0000 0,0000 0,0001 -0.0006! 0,0022 0,0065 0.0162 0,0349
11 0,0000 0,0000 0,0000 0.0000 0,0000 0,0001 0,0003 0,0012 0,0036 0,0095
12 0,0000 iO.OOOO 0,0000 0.0000 ,-0,0000 ; 0.0000 -0,0000- 0.0001" .0,0005 0,0016
13 0,0000 0.0000 0.0000 0.0000 0.0000 0,0000 0.0000 0,0000 0,0000 0 . 0 0 0 1

14 0 0.4877 .0,2288 0,1028 0,0440 0,0178 0.0068 0,0024 0,0008 0,0002 0 , 0 0 0 1


1 0.3593. .0.3559 0,2539 0,1539.= :0.0832 0.0407 : 0,0181: 0.0073 : 0,0027;,".0,0009
2 0,1229 0,2570 0.2912 0.2501 0.1802 0,1134 0,0634 0.0317 0,0141 0,0056
3 : 0,0259 0,1142 0,2056 .0,2501 0.2402 .0,1943 ;0,13 66 0,0845- 0,0462"J10,0222
4 0,0037 0,0349 0,0998 0,1720 0,2202 0,2290 0,2022 0,1549 0,1040 0,0611
6 0,0004 0,0078 0,0352 0,0860 0.1468-- 0,1963= -0,2178. - 0,2066 0.70- 0.1222
6 0,0000 0,0013 0.0093 0,0322 0,0734 0,1262 0,1759 0,2066 0,2088 0,1833
7. .0,0000- 0,0002 0,0019. 0,0092 0.0280 0,0618 .0,1082-. 0,1574 0,1952 0;2095
8 0,0000 "0,0000 0,0003 0,0020 0,0082 0,0232 0,0510 0,0918 0,1398 0,1833
: 9 0,0000 ;_o,oooo: 0,0000 _ 0,0003." "o ;o oi8 0,0066- 0,0183":- 0,0408 0,0762 i0,1222
io~ 0,0000 0.0000 0,0000 0,0000 0.0003 " 0,0014 0,0049 0,0136 0,0312 0,0611
. 11 0,0000 "o;oooo" 0,0000 0.0000" 0.0000 .0,0002 0,0010 0.0033. 0.0093 _:0,0222
12 o.oooo 0.0000 0,0000 0,0000 o.oooo" 0,0000 0,0001 0,0005 0,0019 6,6056
13 0,0000" 0,0000 o.oooo - 0.0000 0,0000 " 0.0000 : 0,0000 -0.0001 - 0.0002 : 0,0009-
14 0,0000 0,0000 0.0000 0.0000 0,0000 .oob o.o 0,0000 0,0000 .Ol

16 0 0.4633 0,2059 0,0874 0.0352 0,0134 0,0047 0,0016 0,0005 .OOl .bo
1 0,3658 :0,3432 0.2312 0,1319. ' 0,0668 L
0,0305 0,0126 0,0047 "0,0016 0,0005 '
2 0,1348 0,2669 0,2856 0,2309 0,1559 0,0916 6.0476 0,0219 0,0090 0,0032
- 3 0,0307 0,1285 0,2184 0.2501 0 .2 25 2 0,1700 "0.1110" 0,0634 !0,0318: 0:0I39
4 0.0049 0,0428 0.1156 0 .1876 0.2252 0,2186 0.1792 0,1268 0,0780 0,0417
5 0,0006 0,0105 0.0449 0,1032 0,1651. 0 .2 06 1. 0.2123 0,1859 0,1404 0,0916
6 0,0000 0.0019 0.0132 0,0430 0.0917 0.1472 0,1906 0.2066 0.1914 0,1527
V:7 .0,0000. 0;0003 0,0030 0,0138 0.0393 0.0811 O .I39 0,1771 0.2013 0.1964
8 0,0000 0,0000 0.0005 0.0035 0,0131 0,0348 0,0710 0,1181 0,1647 0,1964
0,0000 0,0000 0.000-1 ; 0.0007 0.0034 0.0116 0.0298 0.0612 0,1048. 0.1527
10 0,0000 0,0000 0,0000 0,0001 .0007 0,0030 0.0096 0,0245 0,0515 0,0916
n 0.0000 0.0000 0.0000 0.0000 0.0001 0,0006 0.024 0,0074 0,0191 0,0417
12 .ooo 0,0000 0,0000 0.0000 0,0000 0,0001 0,0004 0,0016 0,0052 0,0139
13 0.0000 - 0.0000 0,0000 .0.0000 0,0000 0,0000 0,0001 0.0003 0.0010 0,0032
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0.0001 0,0005
15 0.0000 0.0000 0.0000 0.0000 0,0000 0.0000 0,0000 0,0000 0.0000 0,0000
ApNdice 297

T a b e l a 2 D i s tr ib u i o b in o m ia l; p r o b a b ilid a d e d e c a d a v a lo r x e m fu n o
d e n e n (c o n tin u a o )

n X
0,55 1 0.6 0,65 0,7 0,75 0.8 0,85 I 0.9 0,95

13 0 0,0000 -0,0000. 0.0000 . 0.0000 0.0000 o.oooo.. 0,0000 0,0000 0,0000


i 0.0005 0,0001 0,0000 0.0000 0.0000 0.0000 0.0000 0.0000 0,0000
2 0.0036 - 0,0012 - 0,0003 0.0001 0,0000 0,0000 0/0000 0,0000 0,0000
3 . 0.0162 0.0065 0,0022 0.0006 0.0001 0,0000 0,0000 0,0000 0,0000
4 0.0495 ' 0,0243 0,0101 0.0034 0.0009 0,0001 0,0000 0,0000 - 0.0000
5 0.1089 0,0656 0,0336 0.0142 0.0047 OiOOll 0.0001 0,0000 0.0000
6- 0,1775 .0,1312 0,0833 0.0442 0,0186 0.0058 0.0011 - 0,0001 0,0000
7 0,2169 0,1968 0,1546 0.1030 0.0559 0.0230 0,0063 0,0008 0.0000
8 0,1989 0,2214= 0.2154 0.1803 0.1258 0,0691 -0,0266 0,0055 0.0003
9 0,1350 0,1845 0,2222 0.2337 0,2097 0.1535 0.0838 0.0277 0.0028
IO 0.0660 ' 0,1107 - 0.1651 0,2181 0.2517 0,2457 0.1900 - 0.0997 0,0214
11 0,0220 0,0453 0,0836 0,1388 0,2059 0.2680 0,2937 0.2448 0.1109
12 0,0045 0.0113 -0,0259- 0,0540 0,1029 ' 0,1787 0.2774 _0.3672 . 0.3512
13 0.0004 " 0,0013 0,0037 0.0097 0.0238 0.0550 0,1209 0.2542 ' 0,5133

14 o 0,0000 O.OOOO 0,0000 0.0000 0.0000 0,0000 0,0000 0.0000 0,0000


1_ - 0,0002. 0,0001'. . 0,0000 0,0000 0,0000 . 0,0000 0,0000 0.0000 0,0000
2 0.0019 0,0005 0.0001 0.0000 0,0000 0,0000 0,0000 0,0000 0.0000
_ 3 0,0093 " 0,0033 .0,0010 0,0002 0.0000 0.0000 0,0000- : 0,0000 - - 0.0000
4 0,0312 0.0136 0,0049 0.0014 0,0003 0,0000 0,0000 0,0000 0.0000
5 0.0762 -- 0.0408 - 0,0183 0,0066 0,0018 - 0.0003 0.0000 - 0.0000" 0,0000
6 0,1398 0,0918 0.0510 0,0232 0,0082 0,0020 0,0003 0.0000 0,0000
7 _ . 0,1952 0,1574 ;=0.1082 0,0618 0,0280 0.0092 0,0019 0,0002 0.0000
8 0,2088 0,2066 0.1759 0.1262 0,0734 0,0322 0,0093 0.0013 0,0000
-9 : 0,1701 0,2066 : 0,2178. 0.1963 0,1468 0,0860 0,0352 -=0,0078-. 0,0004
10 0.1040 0,1549 0,2022 0,2290 0,2202 0,1720 0,0998 0.0349 0,0037
11 = 0,0462-; 0/0845 0,1366 0.1943 0,2402 0,2501 0.2056 : 0,1142 _ 0,0259
12 0,0141 0,0317 0,0634 0,1134 0,1802 0,2501 0.2912 0,2570 0,1229
= _ 13 - 0,0027. 0,0073- . 0,0181 0,0407 0,0832 0.1539 0,2539 .0,3559 0,3593
14 0,0002 0,0008 0,0024 0,0068 0,0178 0,0440 0,1028 0,2288 0,4877

15 0 0,0000 O.OOOO 0,0000" 0,0000 0,0000 O.OOOO 0.0000 0,0000 0,0000


1 0,0001 0,0000 " 0,0000 0,0000 0,0000 0,0000 0.0000 -0,0000 0.0000
2 0,0010 0.0003 0.0001 0.0000 0.0000 0,0000 '0.0000 0,0000 0.0000
3:: 0/0052 0.0016 -0,0004 "0.0001 0,0000 0,0000 0.0000" - 0,0000 0.0000
4 0.0191 0.0074 0,0024 0.0006 0,0001 0,0000 0,0000 0.0000 0,0000
.5 - 0.0515 0,0245 0,0096 0,0030 . 0,0007 0.0001 0,0000 0,0000" 0,0000
6 0.1048 0,0612 0.0298 0.0116 0.0034 0,0007 0.0001 . 0,0000 0,0000
7 0,1647 0.1181 0.0710 0,0348 ' 0.0131 0,0035 0,0005 0.0000 0,0000
8 0,2013 0.1771 0,1319 0,0811 0,0393 0,0138 0,0030 0,0003 0,0000
9 0,1914 0,2066 -0,1906 0.1472 0.0917 0.0430 0.0132 0,0019 0,0000
10 0.1404 0.1859 0,2123 0.2061 0,1651 0,1032 0.0449 0.0105 0,0006
11 0,0780 0^1268 o; 1792 0,2186 0.2252 0.1876 0,1156 0.0428 0,0049
12 0,0318 0.0634 0,1110 0,1700 0,2252 0.2501 0,2184 0,1285 0,0307
13 0,0090 0.0219 0.0476 0,0916 0,1559 0,2309 0.2856 0,2669 0,1348
14 0,0016 0,0047" 0.0126 0.0305 0,0668 0,1319 0,2312 0,3432 0,3658
15 0,0001 0,0005 0.0016 0,0047 0,0134 0,0352 0.0874 0,2059 0,4633
298 Estatstica a p IcacJa s C ncas Socas

T a b e la 3 C o e fic ie n te s b in o m ia is

f nl n] V
U j U j \4/ 10

4 1 4 6 4 1

5 1 5 10 10 5 l
6 1 6 15 20 15 -6 1
7 1 7 21 35 35 21 7 1
8 1 8 28 56 70 56 28 8 1
9 1 9 36 84 126 126 84 36 9 1

10 1 10 45 120 210 252 210 120 45 10 1


11 1 11 55 165 330 462 462 330 165 55 11
12 1 12 66 220 495 792 924 792 495 220 66
13 1 13 78 286 715 1287 1716 1716 1287 715 286
14 1 14 91 364 1001 2002 3003 3432 3003 2002 1001

15 1 15 105 455 1365 3003 5005 6435 6435 5005 3003


16 1 16 120 560 1820 4368 8008 11440 12870 11440 8008
17 1 17 136 680 2380 6188 12376 19448 24310 24310 19448
18 1 18 153 816 3060 8568 18564 31824 43758 48620 43758
19 1 19 171 969 3876 11628 27132 50338 75582 92378 92378

20 1 20 190 1140 4845 15504 38760 77520 125970 167960 184756


A p N d ice 299

T a b e la 4 D i s tr ib u i o n o r m a l p a d r o

segunda decimal de z
0 I
0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
o.i ; 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 :;43"64 0,4325 0,4286 0,4247
0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
0,3 0,3821 0,3783 0,3745/0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
0,4 0,3446 0,3409 073372. 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121

0,5 0,3085 0.3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2842 0,2810 0,2776
0 ,6 .. 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 Q,2483 0,2451
0,7 0,2420 0,2389 0,2358 0.2327 0,2296 ,0,226^0,2236 0,2206 0,2177 0,2148
0,8 0,2119 0,2090 0,206rjD.2033.J3,2005 0,1977 0,1949 0,1922 0,1894 0,1867
0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0JL711 0,1685 0,1660 0,1635 0,1611

1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
1,1 0,1357. 0,1335 0,1314 0,1292 0,1271 0,1251:0,1230 0,1210 0,1190 0.1170
1,2 0,1151 (0^1131^ 0,1112 0,1093 0,1075 0,-1-056' 0,1038 0,1020 0,1003 0.0985
1.3 0,0968 0,0951 0,0934 0,0918 0,0901 <a0885.. 0,0869 0,0853 0,0838 0,0823
1.4 0,0808 0,0793 0,0778 0,0764 0,0749 T073'5';0,0722 0,0708 0,0694 0,0681

1.5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
1.6 0,0548 0,0537 0,0526 0,0516 0,0505\0,( ',0465 0,0455
1.7 0,0446 0,0436 0,0427 0,0418 0.0409 ^,0401^0,0392 0,0384 0,0375 0,0367
1.8 0,0359 0^0352 0,0344 0,0336 0,0329 0,0322 0,0314 0..0307 0,0301 0.0294
1.9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233

2,0 ' 0,0228 0,0222 0,02170,0212 0,0207 0,0202 0,0197 0.0192 0,0188 0,0183
2,1 0,0179 0,0174 0,01700,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
2,2 0,0139 0,0136 0,01320,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
2.3 0,0107 0,0104 0,01020,0099 0,0096 0,0094 0.0091 0,0089 0,0087 0,0084
2.4 0,0082 0,0080 0,00780,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064

2.5 0,0062 0,0060 0,00590,0057 0,0055 0,0054 0,0052 0,0051 0.0049 0,0048
2.6 0,0047 0,0045 0,00440,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
2.7 0,0035 0,0034 0,00330,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
2.8 0,0026 0,0025 0,00240,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
2.9 0,0019 0,0018 0,00170,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014

3.0 0,00135 -;:-: V ^ .: SH^


3.5 0,000 233
4.0 0,000 031 7
4.5 0,000 003 40
5.0 0,000 000 287 ________________________ :
500 ESTATSTCA A p liC A d A S CiNCiAS SOCAS

T a b e la S D is tr ib u i o t d e Stuent

0 t (V a io r tabulado)

Area na cauda superior


gi 0,25 o ,io 0,05 . 0 025 0,01. ! .0,005 | 0,0025 i 0,001- 0,0005
i 1,000 3,078 6,314 s 2-70$ 31,8 63,66 127,3 318,3 636,6
0,816 1,8867: 2,920 4 303 .6,9657 9,925 : 14,09 . 22,33 -31,60
3 0,765 1,638 2,353 3.182; 4,541 5,841 7,453 10,21 12,92
4 0,741 1,533 2,132 2 776 3,747 4,604 - . 5,598 7,173 8,610
5 0,727 1,476 2,015 r p 571--. 3,365 4,032 4,773 5,894 6,869
6 . 0,718 1,440- 1,943 2 447 $ 3,143 . . 3,707 : 4,317 5,208. 5.959
7 0,711 1,415 1,895 w% 365 2,998 3,499 4,029 4,785 5,408
0,706 1,397 1,860 2 306 2.896, . 3,355 3,833 4,501- 5,041
9 0,703 1,383 1,833 . II? 22| 2,821 3,250 3,690 4,297 4,781
10 " 0,700 1,372 1,812 2 228 "2,764- 3,169 3,581 -: 4.144 .4,587 :
11 0.697 1,363 1,796 52 20 ' 2,718 3,106 3,497 4,025 ' 4,437
12 0,695 1,356 1,782; 2 179 2,681 3 ,055 : . 3;428 3,930: 4,318
13 0,694 1,350 1,771 160 ' 2,650 3,012 3,372 3,852 4,221
: 14 0,692 1,345 1.761 " 2 145 2,624 2,977 3^326 3,787 4,140
15 0,691 1,341 1,753, M 3'l. 2,602, 2 ,947" '3 ,2 8 6 3.733 4,073
16 0,690 1,337 - d j M ] 2 120 ^ 5 g 3 / 2,921 3,252 3,686 4,015
17 0,689 1,333 1,740 S t a-Q 27567 2,898 3,222 3,646 3,965
18 0,688 1,330 . 1,734 2 101 2,552 2,878 3,197 ;3,610 3,922
19 0,688 1,328 1,729 p ' 093.: 2,539 2,861 3,174 3,579 3,883
20 0,687 1,325 1,725 ''2 86 2,528 2,845 3,153 3,552 3,850
21 0,686 1,323 1,721 P 2,518 2,831 3,135 3,527 3,819
22 0,686 1,321 1,717 2 074 2,508. 2,819 3,119. - 3,505 : 3,792
23 0,685 1,319 1,714 069';: 2,500 2,807 3,104 3,485 3,768
24 0,685 J.,318 1,711 2 064 2,402 : 2,797 3.091 3,467 3.745
25 0,684 1,316 1,708 W 2,485 2,787 3,078 3.450 3,725
26 0,684 1,315 1,706 . 2 056 2,479 , 2,779 3,067 3,435 3,707
27 0,684 1,314 1,703 w W 2,473 2,771 3,057 3,421 3,689
28 0,683 1,313 . .1,701 2 048 2,467 2,763: v 3,047 3,408 . 3,674
29 0,683 1,311 1,699 w w 11 2,462 2,756 3,038 3,396 3,660
30 0,683 1,310 1,697 2 042 2,457 2,750 3.030 3.385 3,646
35 0,682 1,306 1,690 p o t 2,438 2,724 2,996 3.340 3,591
40 0,681 1,303 1,684 2 021 2,423 2,704 r: 2,971 3,307 3,553
45 0,680 1,301 1,679 2 04" 2,412 2,690 2,952 3,281 3,520
50 0,679 1,299 1.676 2 009 : 2,403 2,678 2,937 3,261 3,496
z 0,674 1,282 1,645 m 960! 2,326 i 2,576 | 2.807 i 3.090 3,291
Roa: A coluna em destaque a mais usada.
ApN cjice 501

T a b e l a D is tr ib u i o q u i-q u a d r a d o

X2 (Valor tabulario)

Area na cauda superior


m g iM 0.25 0,10 0,05 0,025 0,01 0,005 j 0,0025 [. 0,001 | 0,0005
1 1,32 2,71 3,84 5,02 6,63 7,88 9,14 10,83 12, 12
; 2 2,77 ' 4,61 5,99' . 7,38 9,21 10,60 11,98 .13,82 15, 20
3 "< 1 1 6,25 7,81 - 9,35 11,34 12,84 14,32 16,27 17 73
; 4 5,39 : 7,78 9,49 11,14 13,28 ; 14,86 16,42 18,47 20 00
5 6,63 9,24 11,07 12,83 15,09 16,75 18,39 20,51 22 11
6 7,84.' . 10,64 12,59 . 14,45 16,81 . 18,55 20,25 22,46 24 10
7 9,04 12,02 14,07- 16,01 18,48 20,28 22,04 24,32 26 02
.8 10,22 13,36 15,51 ;P17,53: 20,09 21,95 23,77 26,12 27 87
9 11,39 14,68 16,92 19,02 21,67 23,59 25,46 27,88 29 67
10 ;; 12,55 15,99 18,31 .20,48 23,21 25,19 27,11 29.59 31 42 .
11 13,70 17,28 19,68 21,92 24,73 26,76 28,73 31,26 33 14
12 .14,85 18,55 21,03 23,34 26,22 28,30 30,32 32,91 34 82
13 15,98 19,81 22,36. 24,74 27,69 29,82 31,88 34,53 36 48
14 : 17/12 21,06 23,68 : 26,12 29,14 31,32 33,43 36,12 .38
15 18,25 22,31 25,00 27,49 30,58 32,80 34,95 37,70 39 72
16 - 19,37: = 23,54 26,30 28,85 32,00 34,27 36,46 39,25 .4 1 31
17 20,49 24,77 27,59 : 30,19 33,41 35,72 37,95 40,79 42 88
18 21,60.. 25,99 28,87 31,53 34,81 -37,16 . 39,42 42,31 44 43
19 22,72 27,20 30,14 32,85 36,19 38,58 40,88 43,82 45 97
20- 23,83 28,41 31,41 34,17 37,57 40,00 42,34 45,31 -47 50
21 24,93 29,62 32,67 35,48 38,93 41,40 43,77 46,80 49 01
22 . 26,04 30,81 33,92 36,78 40,29 42,80 45,20.. 48,27 : 50 51
23 27,14 32,01 35,17 38,08 41,64 44,18 46,62 49,73 52 00
- 24' ' 28,24 . 33,20 36,42 39,36 42,98 45,56 48,03 51,18. 53 48
25 29,34 34,38 37,65 40,65 44,31 46,93 49,44 52,62 54 95
26 30,43 35,56 38,89 41,92 45,64 48,29 50,83 54,05 . 56 41
27 31,53 36,74 40,11 43,19 46,96 49,65 52,22 55,48 57 86
28 32,62 ; 37,92 41,34 44,46 48,28 50,99 53,59 : . 56,89- .59 30
29 33,71 39,09 42,56 45.72 49,59 52,34 54,97 58,30 60 73
30 . 34; 80 40,26 43,77 46,98 50,89 53,67 : 56,33 59,70 62 16..
35 40,22 46,06 49,80 53,20 57,34 60,27 63,08 66,62 69 20
40 . 45,62: 51,81 55,76 59,34 63,69 66,77 69,70 73,40 76 10
45 50,98 57,51 61,66 65,41 69,96 73,17 76,22 80,08 82 87
50 56,33 63,17 67,50 71,42 76,15 79,49 82,66 86^66 89 56
100 109,1 118,5 124,3 129,6 135.8 140,2 144,3 149,4 153,2
Nota: A coluna em destaque a mais usada.
Estatstica AplicAda s C ncas Socas

T a b e l a 7 V a lo r a b s o lu to m n im o p a r a o c o e fic ie n te d e c o rre la o r de
P e a r s o n s e r s ig n ific a tiv o
Nvel de significncia, a, num teste unilateral
0,100 0,050 0,023 0,010 0,005 0,001

. Nvel de significncia,, a, num teste bilateral '


0,200 0,100 0,050 V-:i 0,020 0,010 . 0,002
5 0,687 0,805 . .. 0,878 0,934 0,959 ' 0,986
. .0,608 0,729 0,811 0,882 0,917 : : 0,963
7 0,551 0,669 0,754 0,833 0,875 0,935
: 0.507 0,621 0,707 ,0,789 0,834 . 0,905
9 0,472 0,582 . 0,666 . 0,750 0,798 0,875
10 : . 0,443 . . 0,549 0,632 0,715 0,765 0,847
11 0,419 0,521 0,602 0,685 0,735 0,820
0,398 0.497 0,576 0,658 0,708 0,795
13 0,380 0,476 0,553 0,634 0,684 0,772
v v f i 14 0,365 .. : 0,458 0,532 0,612 . 0,661 . 0,750 .
15 0,351 0,441 ' ' w t M m 0,592 0,641 0,730
16 ,^-s 0.338 : 0,426 0,497 0,574 0,623 : 0,711
17 0,327 0,412 - i": 0,482 0,558 0,606 0,694
vir 18 0,317 0,400 .ftll,468ifi;;: 0,543 ; . 0 . 5 9 0 . 0,678
19 0,308 0,389 . 0,456 0,529 0,575 .....0,662
20 0,299 0,378 0,444 : 0,516 0,561 0,648
21 0,291 0,369 0,433 0,503 0,549 0,635
22 0.284 0,360 0,423 0,492 ; 0,537 0,622
23 0,277 0,352 0,413 0,482 0,526 0,610
. " 0,271 0,344 0,404 0,472 0,515 0,599
25 0,265 0,337 0,396 0,462 0,505 0,588
26 0,260 0,330 0,388 0,453 0,496 0,578
27 0,255 0,323 0,381 0,445 0,487 0,568
28 ; ... 0,250 : 0,317 0,374 . 0,437 . 0,479 0,559
29 0,245 0,311 0,367 0,430 0,471 0,550
30 0,241 0,306 0,361 0,423 0,463 0,541
35 0,222 0,283 0,334 0,392 0,430 0,504
. 40 0,207 0,264 0,312 0,367 0,403 0,474 .
45 0,195 0,248 ' 0,294 0,346 0,380 0,449
50 0,184 : 0,235 0,279 0,328 0,361 0,427
60 0,168 0,214 0,254 0,300 0,330 0,391
70 0,155 0,198 0,235 0,278 " 0,306 0,363 .
80 0,145 0,185 " 0,220 0,260 0,286 0,340
90 0,136 0.174 =. 0,207 0,245 0,270 0,322
100 0,129 0,165 0,197 0,232 0,256 0,305
Notas: (1) Tabela construda com base na estatstica

r. Vn - 2

= V TT?
que tem distribuio de Sfuden com g = n - 2, sob as suposies de os dados terem distribuio
normal e a correlao ser linear,
(2) A coluna em destaque a mais usada.
A p rvd ice 50?

Tabela 8 Valor absoluto mnimo para o coeficiente de correlao por


postos, rs de Spearman, ser significativo
Nvei de significncia, a, num teste unilateral
0,100 0,050 0,025 0,010 0,005 0,001
Nvel de significncia, a., num teste bilateral
n 0,200 0,100 0,050 0,020 0,010 0,002
5 0,800 0,900 1,000 . 1.000 - -
./ . 6. ' ' 0,657 0,829 \ 0,886 0,943 . : 1,000 -
7 0,571 0,714 0,786 0,893 0,929 1,000
8 0,524 : . 0,643 0,738 . 0,833 v. 0,881 . 0,952
9 0,483 0,600 . 0,700 0,783 0,833 0,917
10 0,455 0,564 . . 0,648 0,745 0,794 0,879
11 0,427 0,536 0,618 0,709 0,755 0,845
12 0,406 0,503 0,587 0,678 0,727 0,818
13 0,385 0,484 0,560 0,648 0,703 0.791
14 0,367 0,464 : 0,538 0,626 0,679 0,771 ...
15 0,354 0,446 - 0,521 0,604 0,657 0,750
16 0,341 0,429... ' 0.503 0,585 0,635 , 0,729
17 0,328 0,414 0,488 0,566 0,618 0,711
18 . . 0,317.. 0,401 . 0,474 : 0,550 0,600 : 0,692
19 0,309 0,391 0,460 0,535 0,584 0,675
20 0,299 0,380 0,447 0,522 0,570 : ,0,660
21 0,292 0,370 0,436 0,509 0,556 0,647
22 0,284 . 0,361 0.425 . 0,497 0,544 0,633
23 0,278 0,353 0,416 0,486 0,532 0,620
- 24 . 0,271 0,344 0,407 .. 0,476 0,521 . ' 0,608
25 0,265 0,337 : 0,398 0,466 0,511 0,597
. 26 0.259 . - . 0,331 0,390 0,457 ; 0,501 0,586
27 0,255 0,324 0,383 0,449 0,492 0,576
28 0,250 0,318 . 0,375 0,441 0,483 . 0,567
29 0,245 0,312 . 0,369 .. 0,433 0,475 0,557
30 0,240 0.306 0,362 0,426 0,467 0,548
35 0,220 0,282 . 0,336 . 0,399 0,442 0,530
40 0,205 . 0,263 : 0,314 0,373 0,412 . V .: 0,495
45 0,193 0,248 0,295 0,351 0,388 0,466
50 0.183 0,235 . ... d,280: 0,332 . 0,368 . . 0,441
. 60 0,167 0,214 0,255 0,303 0,335 0,402
70 0,154 0,198 0,236 0,280 0,310 0,372
80 0,144 0,185 0,221 0,262 0,290 0,348
90 - 0,136 0,174 0,208 0.247 0,273 - 0,328
100 0,129 0,165 0,197 0,234 0,259 0,311
Notas: (1) Os valores para n < 30 foram extrados de Leach (1979) e baseiam-se na distribuio
exata. Para n > 30, a tabela foi construda com base na estatstica z = rs y j n - l , que, sob a
suposio de correlao linear, tem distribuio aproximadamente normal padro.
(2) A coluna em destaque a mais usada.
A
R e s p o s t a s de a Lq uns e x e r c c io s

CAprulo 2

2) Pesquisa de levantamento, pois numa pesquisa eleitoral procura-se obter


as preferncias dos eleitores quanto aos candidatos, sem que o entrevistador
interfira no processo, ou seja, procura-se levantar os dados naturalmente,
como eles se apresentam no momento da pesquisa.
4) a) altura em centmetros (quantitativa); d) sexo, possveis respostas:
masculino e feminino (qualitativa).
6) Quando um respondente depara com um questionrio muito longo, este se
cansa de responder e pode deixar parte do questionrio em branco, ou
responder apressadamente, comprometendo as respostas.

CApTuk) 5

1) {Josefa, Joana, Joaquim, Jos de Souza, Arnaldo, Getlio, Herclio, Carlito


Anastcia, Cardoso}
2) (1, 2, 22,-2, 2, 2 10, 3, 5, 16}
3) (G, U, X, J}
4) No, basta extrair 100 nmeros da tabela, com quatro algarismos,
pertencentes ao conjunto (1650, 1651, ..., 8840}, sem repetio.
11)ns 2.500
12) n= 286
X)6 Estatstica ApltCAdA s Cincias So e i a s

C a p t u Io 4

2) Tabela de freqncias mltipla: Distribuio de uma amostra de famlias


quanto ao uso de programas de alimentao popular, por localidade da
residncia. Bairro Saco Grande II, Florianpolis - SC, 1988.
Uso de programas de Localidade
alimentao popular Monte Verde Pq. da Figueira Encosta do Morro
no 18 (45,0%) 12 (27,9%) 12 (32,4%)
sim 22 (55,0%) . 31 (72,1%) 25 (67,6%)
Total 40 (100,0%) 43 (100,0%) 37 (100,0%)

3) Tabela de freqncias: O principal ponto positivo do Curso de Cincias da Compu


tao - UFSC, na opinio dos alunos das trs ltimas fases, semestre 91.1.
Ponto positivo professores atualizao abrangncia prtica currculo outros
freqncia 13 (26%) 6 (12%) 7 (14%) 4 (8%) 5 (10%) 15 (30%)
NOTA: Dez alunos no responderam este item. As percentagens foram calculadas sobre os 50
respondentes.
6) Tabela de freqncias: Distribuio de uma amostra de famlias quanto ao
uso de programas de alimentao popular, por faixa de renda. Bairro Saco
Grande II, Florianpolis, 1988.
Uso de programas de Renda familiar
alimentao popular at 5 sal. mn. mais de 5 sal. mn.
no 15 (27,3%) 27 (42,2%)
sim 40 (72,7%) 37 (57,8%)
Total 55 (100,0%) 64 (100,0%)
NOTA. Houve uraa no-resposta na amostra de 120 famlias.
8) a) Analisando a Tabela 1, observamos haver associao entre grau de instruo
e uso de programas de alimentao popular, pois, enquanto no estrato das
famlias de nvel de instruo baixo 70% delas usam os programas, nas
famlias de nvel de instruo alto este percentual cai para 40%.
b) Se separarmos a nossa populao por nvel de renda familiar (Tabela 2),
observamos uma completa independncia entre grau de instruo e uso
de programas de alimentao popular. As grandes diferenas quanto ao
uso ou no dos programas fica entre os dois nveis de renda familiar
considerados. Isto nos leva a crer que a associao observada na Tabela 1
, na verdade, induzida pela varivel renda familiar.

1) Podemos dizer que o mais tpico so residncias com quatro ou cinco


moradores. No parece haver residncia com nmero de moradores muito
diferente das demais (casos discrepantes).
2) a) , ,---- _ _ _ ----- :----- ,--------- b)
Nvel de satisfao |Freqncia ! %
2 6 10,00
3 * 3 3 ....... 55,00
4 17 28,33
5 4 6,67
Total 60 100,00
N vel d e s a tis fa o
Respostas de AtquNS exerccos 507

Classes FYeq. %
1,0 j-~ 1,4 2 3,3
1,4 1,8 3 5,0
' 1,8 | 2,2 15 25,0
2,2 | 2,6 18 30,0
2,6 | 3,0 6 11,7
3,0 j 3,4 8 11,7
3,4 | 3,8 8 13,3
Total 60 100,0

1 3
1 5678899
2 0000011111122233333444
2 55555556667999
3 00111224
3 5556666

CAprulo 6

2} Mdia= 7 e desvio padro = 0


4) Mdia= 7,6 e desvio padro - 2,37
5) Mdia= 4,3 e desvio padro = 1,45
6}

"axa d e alfabetizao

mdia = 76,71

7) a) Mdia = 2,311 e desvio padro = 1,206


8) Tabela: Medidas descritivas de algumas caractersticas do Curso Cincias da
Computao - UFSC, na viso dos alunos das trs ltimas fases.
Caractersticas do Curso
professores professores bibliografia recursos contedo satisfao
currculo
(didtica) (conhec.) disponvel materiais das disc. em geral
Mdia 2,77 3,23 2,20 2,30 3,40 3,35 3,32
DP 0,62 0,67 0,94 1,05 0.69 0,90 0,75

10) a) Md = 14,5; Q, = 10 e Qs - 19
b) 15; Q, - 10,5 e Qs = 18,5
11) Md = 4; Q( = 3,5 e Qs = 5
12) = 2,45;= 2,10 e g>s 2,97
508
Estatstica a p Ucaca s C incias Socas

13) B( = l ; Q i =2; Md = 4;. Qs = 5 e Es = 12


16) No, para se ter a taxa de alfabetizao da Unidade da Federao, precisa-se
calcular a mdia ponderada pela populao adulta de cada municpio.

C A p iu b 7

1) a) Resultados 10
0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1

b) A = {2, 4, 6, 8, 10); B = {1, 3, 5, 7, 9} e C = {1, 2).


c) P(A) = /2; P(B) = l/ 2 e P (Q = 1/5,
2) Resultados homem mulher
Probabilidades 1/3 2/3

3) a) Resultados A B branco ou nulo


Probabilidades 0,30 0,50 0,20
b) 0,80
4) a) 78/120 b) 44/120 c) 76/120 d) 25/120 e) 53/120
f) 25/44 g) 25/78
5) 0,4225
6} a) binomial com n = 3 e % = 5/8.
b) No binomial. Os ensaios no so independentes.
c) binomial com n = 20 e it = proporo de mulheres na populao, na
poca da pesquisa.
d) binomial com n = 500 eit = proporo de pessoas favorveis em SC, na
poca da pesquisa.
e) No binomial. O parmetro n no constante ao longo dos ensaios;
f} binomial com n = 100 e = proporo de recm-nascidos em SC com
te

menos de 2 kg, na poca da pesquisa.


g) No binomial. A caracterstica em estudo no pode ser identificada em
apenas dois resultados, em cada ensaio.
7) a) 0,3125 b) 0,500
8) 0,3770
9) Binomial com n = 5 e tc = 0,40; ou seja:
X 0 1 ... 2 - 3 4 5
....PW 0,0778 0.2592 0,3456 0,2304 0,0768 0,0102
i) 0,663 b) 0,337 c) 0,3174
12)
Resultado 0,0 0,2 0,4 0,6 0,8 1,0
Probabilidade 0,0778 0,2592 0,3456 0,2304 0,0768 0,0102
13) a) 0,2753 b) 0,0334
14) 0,0702
Respostas de Alquws exerccios ?0 9

16) a) 0,1646 b) 0,1317 c) 0,7901


17) a) 0,7082 b) 0,0027 c) 0,2918
18) 8/15
19) a) 0,6553 b) 0,2458 c) 0,7379
20) a) 0,3284 b) 0,6219
21) a) 0,3874 b) 0,0702
22) a) 0,3125 b) 0,3437
23) 0,0781
...

CAprulo 8

1) a) 2 b) 1,5 c) 0 d) -0,5
2) 0,50
3) a) 1,33 b) 75
4) a) 0,0495 b) 0,9505 c) 0,6826 d) 0,9544 e) 0,9974
f) 0 g) 1.65 h) 2,58
5) a) 0,0228 b) 0,9544 c) 0,1587
d) 95,44%
6) a) 0,0228 b) 68,26%
7) Ambos os eventos tm a mesma probabilidade (igual a 0,1056).
8) a) 0,1719 b) 0,1711
9) 0,6255
10) 0,0968
11) 0,985
12) 6,68%
13) a) 0,1056 b) 0,3085
14) a) 0,6826 (usando a distribuio binomial) b) 0,9032 (usando a distribuio
normal)
15) a) 0,0781 b) = 0
16) 85,36 minutos (ou 85 minutos e 22 segundos)

CaptuIo 9

1) a) 43/90 b) 5,99
4) a) 60,0% 4,0% b) 60,0% 2,5% c) 20,0% 3,9%
d) 80,0% 3,9% e) 50,0% 4,9%
Obs.: Nvel de confiana de 95% usando o valor aproximado z = 2.
5) 30,0% 6,4%.... ................ - -- ----------- --------
6) a) Na amostra: 30,0%. Na populao: com 95% de confiana o intervalo
30,0% 4,5% contm a referida proporo,
b) Nada. A amostragem no foi aleatria.
710 Estatstica apcacIa s C incias Socas

7) 35,0% 12,4%
8) 65,0% 8,6%
9) a) 55,0% 15,7% b) 72,1% 13,7% c) 67,6% 15,2%
10} a) 16,00 minutos b) 3,11 minutos cj 0,83 minutos
d) 16,00 1,80 minutos
11) Nos clculos abaixo, usamos o valor aproximado t~ 2 (pois as amostras eram
razoavelmente grandes).
Localidade Renda mdia familiar mensal (em salrios mnimos)
Monte Verde 8,1 1,4
Pq. da Figueira 5,8 0,8
Encosta do Morro 5.0 1,5
Interpretao: A renda mdia familiar dos moradores do Monte Verde de 8,1 salrios mnimos
mensais, com um erro amostrai mximo (95% de confiana) de 1,4 salrios mnimos.
Interpretaes anlogas para Parque da Figueira e Encosta do Morro.
Note que com estes resultados, podemos afirmar (com pelo menos 95% de confiana}, que a
renda mdia familiar dos moradores do Monte Verde maior do que nas duas outras localidades
em estudo. Mas a diferena da renda mdia do Parque da Figueira e Encosta do Morro pode
ser meramente casual, resultante da sorte (ou azar} das amostras extradas, pois os intervalos
de confiana tm uma rea de sobreposio.
12) a) R$255,00 R$135,00
b) Valor, em real, que o fiscal deixa de cobrar, em mdia, por empresa que
ele possa fazer a auditoria.
c) Com 95% de confiana, o intervalo R$255,00 R$135,00 contm o
desconhecido valor \x.
15) 33,3% 7,3%
17) n = 64 (usando z - 2)
18) n ~ 306 (usando z = 2)
19) a) populao: conjunto de todos os alunos do curso;
amostra: os 80 alunos selecionados;
parmetro: proporo de alunos do Curso favorveis eliminao da
disciplina de estatstica;
estatstica: proporo de alunos favorveis eliminao da disciplina de
estatstica dentre os 80 da amostra,
b) populao: pessoas obesas da cidade;
amostra: as 20 pessoas obesas selecionadas para o estudo;
parmetro: perda esperada de peso de uma pessoa que faa o curso;
estatstica: perda mdia de peso das 20 pessoas selecionadas para o estudo,
c} populao: pessoas fumantes da cidade;
amostra: as 100 pessoas selecionadas para o estudo;
parmetro: proporo de fumantes da cidade que largaram o vcio aps a
campanha.
estatstica: proporo de fumantes que largaram o vcio aps a campanha
dentre as 100 pessoas selecionadas-para o estudo.
20) a) 40%
b) Cora 95% de confiana, o intervalo 40,0% 3,4% contm a percentagem
dos habitantes da cidade que apoiam a administrao da prefeitura.
R e s p o s T A S d e - A q u iv s e x e r c c o s

21) a) n = 664 b) 30,1% 4,6%. Com 99% de confiana, o intervalo 30,1% 4,6%
contm a percentagem de pessoas que passariam a usar o produto.
22) 13,6% 2,6%
23) a) 3,50 0,64 b) n = 98 (foram usados = 2,201 e N - 500)
24) a) mdia = - 3,900 kg, d.p. = 8,373 kg e mediana = - 3,5 kg
b) -3,900 kg 5,989 kg
c) No, pois o intervalo de confiana apresenta, tambm, valores positivos, ou
seja, o valor esperado da variao de peso pode ser positivo {ganho de peso).
24) a) a - 192 b) 5,3Q 0,46
c) No, pois o interval onde deve estar a verdadeira mdia abrange, tambm,
valores menores que cinco.
d) 62,5% 5,5%
26) 6,0%, 5,6% e 5,8%, respectivamente.

CAprulo 10

1) a) 0,0062 b) 0,3874 c) 0,0062


2) a) Rejeita H0 b) Aceita H0 c) Rejeita H0
3) possvel Por exemplo, se no teste para verificar se uma moeda honesta
ocorrer Y= 2 caras em n - 12 lanamentos, temos p = 0,0384, que rejeita ao
nvel de 5%, mas aceita ao nvel de 1%. O inverso nunca acontece.
4) a) bilateral b) unilateral c) bilateral
5) a) 0,0031 b) 0,1937 c) 0,6127
6) a) 0,0094 b) 0,3844 c) 0,0094
8) Sim (rejeita H0 ao nvel de 5%), pois p = 0,0222 (teste unilateral).
9) Sim (rejeita H0 ao nvel de 5%), pois p = 0,0014 (teste unilateral).
10) a) Hq: Em mdia, a produtividade com treinamento igual produtividade
sem treinamento. H,: Em mdia, a produtividade com treinamento maior
do que a produtividade sem treinamento (teste unilateral).
b) H0: Em mdia, a velocidade igual ao valor anunciado. H,: Em mdia, a
velocidade menor do que o valor anunciado (teste unilateral).
c) H0: As produtividades mdias so iguais para os dois mtodos de
treinamento. Hj: As produtividades mdias so diferentes para os dois mtodos
de treinamento (teste bilateral).
11) a) Decide-se por Hlt pois o valor p menor do que o nvel de significncia
adotado. O risco de ele estar tomando a deciso errada de 0,0001.-( claro
que estamos considerando apenas os aspectos estatsticos).
b) Decide-se por H0, pois o valor p maior do que os nveis de significncia
_ normalmente, adotados. .Quando se .aceita H0, o valor p no oferece qualquer
informao sobre o risco de se estar tomando a deciso errada.
c) Quanto menor o valor p, existe maior evidncia para a rejeio de H0 (e
conseqente aceitao de Hj).
512 E s t a t s t ic a A p lC A d A s C n c a s S o c a s

12) a) Aceita H0: a moeda honesta {p = 0,2892).


b) Rejeita H0, isto , decide-se que a moeda viciada (p 0,0000068, uso da
aproximao normal).
13) Hipteses: H0: n = 0,5 e H(: rc > 0,5 {n ~ probabilidade da criana acertar uma
dada questo). Deciso: rejeita H0, isto , h evidncia de que a criana tem
algum conhecimento sobre o assunto (p = 0,0031).
14) a) H0: n =0,25 e H,: n > 0,25; b) p. = 3 c) p = 0,1576
d) Aceita H0. No h evidncia de que a criana tem algum conhecimento
sobre o assunto.
15) Deciso: rejeita H0, isto , h evidncia de que o sistema "inteligente" adquiriu
algum conhecimento sobre o assunto {p = 0,0071, uso da aproximao normal).

C AP TU LO 11

1) a) H0: no h diferena entre a percentagem de ouvintes que avaliam


positivamente e a percentagem de ouvintes que avaliam negativamente a
apresentao do candidato; H,: a maior parte dos ouvintes avalia
positivamente a apresentao do candidato.
b) p - 0,1134. Portanto, ao nvel de significncia de 5%, no h evidncia de
que houve melhora (Aceita H0).
c) p 0. Portanto, ao nvel de significncia de 5%, h evidncia de melhora
(Rejeita HJ.
d) p ~ 0,00135. Portanto, ao nvel de significncia de 5%, h evidncia de
melhora (Rejeita HJ.
3) a) H0: em mdia, o curso no produz efeito no peso; H,: em mdia, as pessoas
que fazem o curso reduzem mais o peso do que as que no fazem o curso,
b) Ao nvel de significncia de 5%, rejeita H0, isto , podemos afirmar que o
curso produz efeito no sentido desejado (0,01 < p < 0,025).
4) b) Rejeita H0ao nvel de 5%, pois t - 2,70 0,01 < p < 0,025 (teste unilateral).
5) a) Rejeita H0ao nvel de 5%, pois, t= 3,04 0,005 < p < 0,010 (teste unilateral).
6) Sim, rejeita H0 ao nvel de 1%, pois, t= 6,4 p < 0,0005 (teste unilateral).
7) Sim, rejeita H0ao nvel de 1%, pois, t - 3,09 0,001 < p < 0,005 (teste bilateral).
8) a) No (aceita H0ao nvel de 5%), pois t - 1,33 0,05 <p<0,10 (teste unilateral).
b) Mesmo que o teste rejeitasse H0, apontando diferena significativa entre
os dois grupos, no poderamos garantir que esta diferena seja devida ao
nvel nutricional da me, pois nada garante que os dois grupos se difiram
somente com respeito a este fator, j que no uma pesquisa experimental.
9) No (aceita H0 ao nvel de significncia de 5%), pois t - 1,018 0,20 < p <
0,50 (teste bilateral).
10) Sim (rejeita Hp ao nvel de significncia de 5%), pois t= -2,16 0,02 < p <
0,05 (teste bilateral).
12) Trs testes bilaterais, admitindo a - 0,01 para cada teste:
Monte Verde x Pq. da Figueira: existe diferena significativa, pois t = 2,92
p = 0,002.
R esposiAS d e a [q u n s x er c c os

Monte Verde x Encosta do Morro: existe diferena significativa, pois = 3,07


0,002 < p < 0,005.
Pq. da Figueira x encosta do Morro: no existe diferena significativa, pois,
t= 0,99 0,20 < p <0,50.
13) 23 {usando o grfico da Figura 11.11).
14) No. Usando teste t unilateral para amostras independentes: t - 1,51 (0,05 <
p < 0,10)
15) Sim. Usando teste tunilateral para dados pareados: t - 3,10 (0,01 < p < 0,025)
16) No. Usando o teste unilateral dos sinais, p = 0,1094.
17) Sim. Teste tunilateral para dados pareados: t - 1,62 (0,05 < p < 0,10).
18) No. Teste t bilateral para amostras independentes: t - 0,97 (0,20 < p < 0,50).
Portanto, a diferena entre as mdias amostrais pode ser explicada meramente
pelo acaso.
19) Sim. Teste unilateral para amostras independentes: t = 3,92 (p < 0,0005).

CApTlo 12

1) a) 3,53 b) 2,40 c) No (0,10 < p < 0,25)


2) Sim, pois %2 = 6,84 0,005 < p < 0,01
3) a) Sim (rejeita HJ, pois %2 = 16,25 -$ 0,0025 < p < 0,005.
b) Sim (rejeita HJ, pois %z = 11,18 0,0025 < p < 0,005.
c) No (aceita HJ, pois %2 = 5,14 0,05 < p < 0,10.
4) Adotando a = 0,05. a) No (aceita HJ, pois %2 - 2,82 0,10 < p < 0,25.
b) Sim (rejeita HJ, pois xa 6,72 0,0025 < p < 0,05.
5) a) C* = 0,107.
b) $ = 0,076. Os dados observados apresentam uma fraca associao entre
sexo e tabagismo.
6) a) C* = 0,423 b) V= 0,260
7) y - 0,3356.
8) a) 0,214 b) -0,185
9) 0,665
10) No. (x2 = 1,77, p > 0,25)
11) Sim, conforme o teste qui-quadrado com Tipo de Aprovao no vestibular
correo de Yates (%2 = 2,99, 0,05 < p < escola no | sim
0,10), existe associao significativa entre pblica 13 (72%) 4 (33%)
o tipo de escola (pblica ou particular) e o particular 5 (28%) 8 (67%)
resultado no vestibular (aprovao ou re Total 18 (100%) 12 (100%)
provao), ao nvel de significncia de 10%.
12) No. (c2 = 2,25, p > 0,25)
13) a) Teste qui-quadrado com correo de Yates.
b) Teste t para amostras independentes.
c) Teste t para amostras independentes.
514 E statstica ap IcacIa s G ncas Socas

CApTulo 15

2) a) Sugere correlao positiva b) Ponto discrepante: nona observao {70,50}

Nola no ves&bu&r om Kiatonvitto

c} 0,69
d) 0,86. Correlao positiva e significativa {teste bilateral, a ~ 0,05).
e) 0,66. significativa (teste bilateral, a ~ 0,05}
6} a) r = -0,684. Em termos dos doze municpios pesquisados, e na poca de
observao dos dados, verificou-se uma correlao negativa moderada
entre taxa de alfabetizao e taxa de mortalidade infantil. Ento, para nveis
maiores de alfabetizao, temos uma leve tendncia de reduo na taxa
de mortalidade infantil,
b) r. - -0,678. Significativo ao nvel.de significncia de 5% (teste bilateral):
assim, podemos dizer que existe correlao (e negativa) entre essas duas
variveis, nos municpios brasileiros.
9) a) Varivel dependente: nota; varivel independente: nmero de faltas;
b) y = 9,51 - 0,63x d) R2 = 0,82 e) Se = 1,64
10) a} Varivel dependente: taxa de crescimento demogrfico; e varivel
independente: populao urbana
b) (taxa de cresc. dem.) = 1,97 + {0,013).{pop. urbana}. Obs.: Populao
urbana est em unidades de 1.000 habitantes.
c}

d} Predio: taxa de crescimento de 5,8.


e) K2= 48%
12) No. Pela tabela 7 o valor absoluto de r deveria ser no mnimo igual a 0,444
para ser significativo.
13) a) r - -0,85. Para as seis famlias pesquisadas, tem-se uma correlao negativa
forte entre rendafamiliar e nmero de filhos.
R e s p o s ta s de Alqurcs e x e r c c io s 515

b) y = 0,33. Em relao aos dez indivduos pesquisados, verifica-se uma


correlao positiva fraca.
c) C = 0,09. Em relao aos cem indivduos pesquisados, praticamente no
existe associao entre altura e sexo.
14) a) r = 0,925
b) Correlao positiva forte. tambm significativamente diferente de zero
(Tabela 7}
c) y = 1.19+ 1,70 x
15) a) 49,1 kg b} 1,8 kg
16) a) r = 0,96 b) Correlao positiva forte
c) Varivel dependente: consumo: e varivel independente: peso
d) (consumo) = 22,25 - 0,62 (peso)

peso <TOO isg)

f) Sim, verifica-se pelo grfico do item (e) que uma relao linear parece
adequar-se bem ao presente problema. Alm disso, tem-se um coeficiente
de determinao prximo de 1 (R2 = 0,92).
g) 9,85 km / 1. .
h) No, pois os veculos estudados estavam na faixa de 1.200 a 2.600 kg e,
portanto, a equao de regresso deve ser usada apenas nesta faixa.
m m m .
u s ra h
QklC A . ^ J3JTORA

Esta obra foi impressa na


Nova Letra Grfica e Edi
tora Ltda. Mio!o em papei
Off-set 75g, Capa em papel
Supremo 250g.
PEDRO ALBERTO BARBETTA
bacharel em Estatstica pela
Escola Nacional de Cincias
Estatsticas - ENCE/1BGE, mestre
em Estatstica pelo Instituto de
Matemtica Pura e Aplicada -
M P A / C N P q e d o u to r em
Engenharia de Produo pela
Universidade Federal de Santa
Catarin a -(U FS C ). P rofessor
Adjunto, lotado no Departamento
de Informtica e Estatstica da
UFSC (www.intufsc.br), desde
1982, tem ministrado disciplinas
de estatstica nos mais variados
cursos de graduao e ps-
graduao desta Universidade,
in clu in do C incias SocTais,
Psicologia, Economia, Adminis
trao, Enferm agem , Neuro-
cn cias e C om portam ento,
E ngenharia de Produo e
C o m p u ta o -- Tam bm tem
participado de ensino via video
conferncia.

Com plem entos em:


< www.inf.ufsc.br/~barbetta/livrol.htm>