Você está na página 1de 304

-~~~~~----~ "<~-~~~ ·-·

'-
RavyC\.V\e ~<:oWo...~

-
fJ

SrÉTUMA !EDBÇÃO

MA IO F~ TRIOLA
-'

'

Tradução

Alfredo Alves de Farias


Professor Adjunto/ UFMG

Revisão técnica

Eliana Farias e Soares, Ph.D.


Profes~ora Adj\mta I UFMG

com a colabonlçâo de

Vera Regina L. JF. Flores, M. Se.


Professora Adjunta I UFMG

1:

EDITORA
\
lntrodu(ão à Estaitistica
;

1-1 Aspectos G erais percentagens distorcidas, questões tendenciosas, gráficos


enganosos e amostras mal extraídas.
Define-se o termo estatisticajuntarnente com os termos
população, amostra, parâmetro e estatística (segundo
significado).
1-4 Pla nej a mento de Experimentos
Descrevem-se estudos observacionais e experimentos,
1-2 Natureza dos Dados juntamente com uma boa metodologia estatística. Dá-se
ênfase à importância de uma boa amostragem. Definem-
Definem-se os dados quantitativos e os dados se e descrevem-se diversos métodos de amostragem, ......._
qualitativos juntamente com dados discretos e dados inclusive amostragem aleatória, amostragem
contínuos. Deünem-se também os quatro níveis de estratilicada, amostragem sistemática, amostragem por
mensuração (nominal, ordinal, intervalar e razão). conglomerados e amostragem de conveniência.
' ..

1-3 Usos e Abusos da Estatística l -5 Estatística com Calculadoras e


Com p utadores
Apresentan1-se exemplos de utilização benéfica da
estatística e, ao mesmo tempo , algumas formas e)ll que a Discute-se a importância das calculadoras e dos
estatística é usada para enganar. A utilização incorreta computadores. A utilização das calculadoras é abordada
inclui pequenas amostras, números precisos, em conjunto com pacotes STATDISK e Minitab.

....

·-

.
j

'"'

......
o:o.= ., -~

Problema do Capítulo
Que podemos concluir desta pesquisa?

O programa de televisão ABC-Nightline reaiizou uma pesquisa em que solicitava a opinião dos espect adores sobre a
permanência. ou não. da sede das Nações Unidas nos EUA. Para responder, os espectadores deviam pagar 50 centavos
(americanos) para fazer uma chamada telefónica. Dos 186.000 que responderam, 67% disseram que a sede da ONU devia
sair dos EUA. Com base nesses resultados amostrais, que podemos concluir sobre a opinião da população amer·icana,
sobre a permanência ou não da sede da ONU nos EUA?

1-1 Aspectos Gerais A estatística abrange muito mais elo que o simples traçado de
gráficos e o cálculo ele médias. Neste livro veremos como tirar
Começamos nosso estudo Lle estalíslica observando que a pala- conclusões gera is e significativas que vão além dos dados origi-
vra tem dois significado5 básicos. No primeiro sentido, o termo nais. Em estatística, utilizamos extensamente os termos popula-
é usado em relação a números específicos obtidos de dados. con- ção e amostra. Esses termos. que passamos a definir. estão no
forme ilustrado nos exemplos seguintes: próprio cerne da estatística.

.... Em uma pesquisa. feita pela Bruskin-Golclring Research


junto a 1.0 I 2 pessoas, a quem foi formulada pergunta sobre ii»!E IFIIN!a Ç@!E S
como utilizar um bolo ele frutas. 13% responderam que
deveria servir para calço de porta. Uma população é um a coleção completa de todos os ele-
Entre as pessoas com quem se fez um teste sobre o uso de mentos (valores, pessoas. medidas etc.) a serem estudados.
drogas para admissão cm novo emprego. 3,8% reagiram
Um censo é uma coleção de dados relativos a todos os ele-
positivamente [de acordo com a Amcrican Management
mentos de 11ma população.
Association (Associação Americana ele Gerenciamento)].
O escore máximo de rc:b•ltidas de beisebol registrado até Uma amostra é uma subcoleção de e leme ntos extraídos
agora é de 0,442, obtido por James O ' Neil em 1887. de uma população.
A segunda acepção se refere à estatística como método de análise.
Por exemplo, uma pesq uisa Nielsen típica de televisão utiliza uma
am ostra ele 4000 lares e. com base n0s resultados, formula con-
O Estado da Estatístico
clusões acerca da população ele todos os 97.855.392 lares nos
A palavra estatistica prav<i!rn do loli m srotus, que significa estado. EUA .
A prirnilivo utilização da e\tatí.>ticc envolvia compilações de Estreitamente n.:lacionaclos com os conceitos Lle população e
dadas e gráficos que descreviam vários aspectos de um estado a mostra estão os conceitos de parâmetro e estarí.l'lica. As defi-
ou pois. Em 1662, John Grount piJblicau informes estotísilcas
sobre nascimentos e mortes. O trobalho de Grount foi secundada
nições seguinte> são de fác il memorização.
par estudos de mortal idade e taxm de morbidade, tamanho de
pop ulações, rendas e taxas de desemprega. As famílias, os
govern os e os empresas se apóiam largamente em dadas D~!FONB~õms
estolislicos. Assim é que o s taxao de desemprega, de inAcção, os
índices da consumidor, os taxas de natalidade e mortalidade são
Um parâmetro é uma medida numérica que descreve uma
calculadas cuidadosamente o intervalos regulares, e seus
resuliodas são utilizados por empresários poro tomarem decisões característic a de uma população .
que afetom o futuro cantro toçãa de empregados, níveis de
produção e expansão poro novos mercados.
Uma estatística é uma medida numé1ica que descreve uma
característica de uma anwstra.

[g!JFINUÇii!.O Consideremos um exemP.lo. Em uma pesquisa, fei ta pela Bruskin-


Goldring Research com' I O15 pessoas escolhidas aleatoriamen-
A estatística é uma coleção Lle métodos para planejar ex- te, 269 (ou 26,5%) possuíam t:omputaclor. Como a cifra de 26,5%
perimentos. obter dados e organ izá-los. re~umi-los, analisá- se baseia em uma amostra, e não em toda a população, trata-se
los, interpretá-los e deles extrair conclusões. de uma estaríslica (e não um parâmetro). Já se uma pesquisa fei -
ta e ntre os 50 governadores estaduais dos EU A mostra que 42
Introdução à Estatísticu _,

(ou 84%) possuem computador, a cifra de 84% é um parâmetro Se associamos o termo nominal a "nome somente··. o signifi-
porque se baseia em toda a população de governadores. cado é fácil de memorizar. Um exemplo ele dado nominal é o
Um aspecto importante da estatística é sua aplicabilidade partido po lítico a q ue cada senador dos EUA pertence.

I
óbvia a situações reais e relevantes; em todo este livro encontra-
remos ampla diversidade dessas aplicações. EXEMPLO Seguem outros exemplos de dados amostrais <tO
nível nominal de mensuração.
1-2 A N atu i"eza dos Dados I. Respostas do tipo "sim" . "não'· ou "indeciso".
2. O sexo elo~ estudantes em uma turma ele estatística.
Alguns conjunlOs de dados (como alturas) consistem eiTUlúme-
ros. enquanto outros ~ão não-numéricos (como sexo). Aplicam- Como as categorias carecem de qualquer significado ordinal
se as expressões dados quantitativos e dados qualitativos para ou numérico, os dados precedentes não podem ser utilizados em
distingui r esses dois tipos. cálculos. Assim é que não podemos tirar a "média" de 20 mu-
lheres e 15 homens. Cuidado : Por vezes atribuem-se números a
categorias (mormente quando os dados são computadorizados).
DIE!FINIÇÓ!ES mas tais números não têm qualquer significado para efeito de
cálculo, e a média calculada com base neles em geral não tem
Os dados quantitativos consistem em números que repre- sentido. Poderíamos citar o faro de que a Gallup Organization
sentam contagens ou medidas. computou dados ele uma pesquisa em que se atribui o "valor'' O
aos democratas, I aos republicanos e 2 aos independentes. Mes-
Os dados qualitativos (ou dados categóricos, ou atribu- mo estando diante de rótu los numéricos. os dados permanecem
tos) podem ser separados em difere ntes categorias que se no níve l nominal e não podemos fazer cálculos com eles.
distinguem por alguma característica não-numérica.

!l)f.ti?HNOÇ.i.O
O Conjunto de Dados 4 do Apêndice B registra as quantida-
des de alcatrão em diferentes marcas de cigarros; esses valores O nível ordinal de mensur ação envolve dados que po-
representam dados quantitativos. mas as diversas marca~con s­ - - dem ser dispostos e)n alguma ordem. mas as diferenças
tituem dados qualitativos. entre os valores dos dados não podem ser determinadas,
Podemos ainda descrever os dados quantitativos distinguin- ou não têm sentido.
do entre os tipos discreto e contínuo.

EXEMPLO Dão-se a seguir exemplos de dados ao nível ordinal


DIEIFINHÇÕIES de mensuração.
1. Um editor classifica alguns originais como "excelentes··.
Os dados discretos resultam de um conjunto finito de alguns como "bons" e alguns como "maus". (Não podemos
valores possíveis. ou de um conjunto enumerável desses detem1inar uma diferença quantitativa entre ·'bom" e "mau".)
valores. (Ou seja, o número de valores poss íveis é O. ou I. 2. Um comitê de preparação olímpica classifica Gai l em 3.0 ,
ou 2 etc.) Diana em 7. 0 e Kim em 10.". (Podemos determinar a dife-
Os dados contínuos (numéricos) resultam de um núme- rença entre os 3.0 e 7.0 lugares mas a diferença de 4 não rem
ro infinito de valores possíveis que podem ser associ ados qualquer signifi cado.)
a pontos em uma escala contínua de tal manei ra que não
haja lacunas ou interrupções. Esse nível ordi nal dá informações sobre comparações rei:Jti-
vas, mas os graus de diferença não servem para cálculos. Os dados
em nível ordinal não devem, pois. ser uti lizados em cálculos.
Quando os dados represenram contagens. são discretos; quan-
do representam mensurações. são CUIUÍilLIOS. O número ele ovos
que as galinhas põem constitui dados discretos , porque representa Censo do Ano 2000
uma contagem; já a quantidade de leite que as vacas produzem O censo nacional Idas EUA) do ano 2000 será mais rápido,
constitui dados contínuos, porque representa mensurações que menos dispendiosa e mais preciso da que a censo de 1990. Ao
podem tomar qualquer valor em um intervalo contínuo. contrário do censo de 1990, o Censo de 2000 utilizará métodos
de amostragem para obter resultados mais precisos. Em 1990,
Outra manei ra comum de classificar dados consiste em utili zar os agenciadores volta ra m a té seis vezes às 35 milhões de casos
quatro níveis de mensuração: nominal, ordi nal. intervalar e razão. que não remeteram os formulários preenchidos; mos, em 2000,
essas cosas omissos serão submetidas a uma amostragem.
Espera-se que a amostrag em produza resultados mais precisos
do que os' tentativas de atingir cada coso individualmente. O
DIEIFIINIIÇÃO censo de 2000 custará cerco de $4 bilhões, o que significa $1
milhão menos do que o custo do repetição dos mesmos métodos
O nível nominal de mensuração é caracteJizado por da- de 1990. O censo de 2000 será mais eficiente- embora o
censo de 1990 nã o te nha sido tã o ineficiente como sugeriu o
dos que consistem apenas em nomes, ró tulos ou categori- colunista Dave Ba rry: "O Departamento do Censo expede 100
as. Os dados não podem ser d ispostos segundo um esque- milhões de formulários, 87 milhões dos quais chegam a um
ma ordenado (como de baixo para cima). único destino em Albony."

L
----·- ·--- ...

4 ESTAT[STICA

DIEIFiN&ÇÃC DIEIFDNBÇÃO
O nível intervalar de mensuração é amílogo ao nível O nível de razão de mensuração é o nível de intervalo
ordinal, com a propriedade adicional de que podemos de- modificado de modo a incluir o ponto de partida zero ine-
terminar diferenças significativas entre os dados. Todavia, rente (onde zero significa nenhuma quantidade presente).
não existe um ponto de partida zero inere nte, ou natural Para valores nesse nível, tanto as diferenças como as ra-
(onde 11ão haja qualquer q uantidade presente). zfles têm significado.

As temperaturas de 98,2"F e 98,6°F são exemplos de dados nesse EXEMPLO Dão-se a seguir exe mplos de dados ao nível de ra-
nível intervalar de mensuração. Os valores se apresentam ordena- zão de mensuração.
dos, e podemos determinar diferenças entre eles (em geral chama-
das distância entre os dois valores). Todavia. não há ponto de par- 1. Pesos de artigos de material plástico descartados pelas re-
tida natural. O valor O"F pode parecer um ponto de partida, mas sidências (O Jb indica que nenhum plástico foi descartado,
é inteiramente arbitrário, e não representa "ausência de calor". É e 10 lb representam duas vezes 5 lb).
um erro dizermos que 50°F é duas vezes mais quente do que 25"F. 2. Duração (em minutos) de filmes.
(Na escala Kelvin, as marcações de temperatura estão ao nível de 3. D istâncias (em mil has) percorridas por carros em um tes-
razão de mensuração; essa escala tem um zero absoluto.) te de consumo de combustível.

EXEMPLO Seguem exemplos de dados ao nível intervalar de Os valores de cada um desses conjuntos de dados podem ser
mensuração. dispostos em ordem, suas diferenças podem ser calc uladas, e
existe um ponto de partida zero inerente. Este nível é chamado o
1. Os anos I 000, 2000, 1776 c 1944. (O tempo não começou nível de razão porque o ponto de partida toma as razões signi-
no ano zero e, assim, O é arbitrário, e não um ponto de ficativas. Como um peso de 200 lb é duas vezes um peso de 100
partida zero naturaL) lb, mas 50°F não é duas vezes mais quente do que 25°F, os pesos
2. As temperaturas anuais médias (em graus Celsius) das estão ao nível de razão, enquanto as temperaturas Falu·enheit estão
capitais dos 50 estados americanos. em nível de intervalo. Para uma comparação e rev isão concisas,
' deve-se estudar a Tabela 1-1 para ver as diferenças entre os qua-
tro níveis de mensuração.
Medida da Desobediência Ao aplicarmos a estatística a problemas reais, o nível de men-
Como coletar dados sobre algo que não se apresente
suração dos dados é um fator importante para determinarmos o
mensurável, como o nível de desobediência do povo? O processo a ser utilizado. Nossa compreensão dos quatro níveis
psicólogo Stanley Milgrom p!anejou o seguinte experimento: Um de mensuração deve ser complementado pelo bom senso- uma
pesquisador determinou q ue um voluntário acionasse um painel ferramenta indispensável na estatística. Por exemplo, não tem
de controle que dava choques clétricos crescentemente dolorosos
em uma terceira pes;oa. Na reolidade, não eram dados
sentido calcularmos a média dos números de inscrição de segu-
choques e a terceiro pessoa era um o lor. O voluntário começou rados no INSS, porque esses números não medem nem contam
com 15 volts e foi ori~ntado a c:umentor os choques de 15 em qualquer coisa; têm por função única e exclusiva identificar as
15 volts. O nível de desobediência era o ponto em que a pessoa pessoas. Tais números são, na verdade, nomes diferentes para as
se recusava o aumentar tJ voltagem. Surpreendentemente , dois
terços dos voluntários obedeceram às ordens mesmo que o olor
diversas pessoas e, como tais, não devem ser utilizados para cál-
gritasse e simulasse um tJtaque cardíaco. culos. De modo geral, não devemos calcular médias de dados aos
níveis nominal ou ordinal de mensuração.

TABELA 1- ~ Níveis de Mensuração de Dados


Nível Sumário Exemplo
Nominal Categorias somente. Os dados Carros de aluno':
não podem ser dispostos em um IO Corvettes } Categorias ou
esquema ordenado. 20 Ferraris nomes somente.
40 Porsches
Ordinal As categorias são ordenadas, mas não Carros de alunos: Está determinada
podemos estabelecer diferenças, ou JO compactos} uma ordem:
e~tas não têm sentido. 20 médios "compacto", "médio",
40 grandes ugrande".
lntervaio Podemos determinar diferenças entre Temperaturas no campas:
valores, mas não há ponto de partida 45°F } 90oF não é duas veze>
inerente. As razões não têm sentido. 80°F mais quente do que
90°F 45°F.
Razão Como intervalo, mas com Pesos de jogadores de ragby em uma faculdade:
um ponto de partida 150 lb}
inerente. As razões 195 lb 300 1b é duas vezes 150 lb.
têm sentido. 300 lb

-
Introdução à Estatística 5

1-2 Exercidos A: Habilidades e leis como as q ue regem a po luição atmosférica, inspeções de


Conceitos Básicos automóveis, utilização do cinto de segurança e da bolsa de ar, e
dirigir em estado de embriaguez. Citamos apenas esses exem-
Nos Exercícios 1-8, identifique cada número corno discreto ou plos, porque uma compilação completa das aplicações da esta-
contínuo. tística facilmente tomaria o resto deste livro.
Alguns estudantes escolhem um curso de estatística porque é
1. Cada cigarro Carne! tem 16,13 mg de alcatrão. exigido, mas um número cada vez maior o faz voluntariamente,
2. O altímetro de um avião da American Airlines indica uma altitude porque reconhecem seu valor e aplicabllidade em qualquer campo
de 21.359 pés. em que pretendam trabalhar. Como os empregadores gostam ele
3. Uma pesquisa efetuada com 1015 pessoas indica que 40 delas são ver um curso de estatística no cunículo de um candidato, o lei-
assinantes de um serviço de computador on-lille. tor que ti ver estudado estatística levará vantagem ao procurar um
4. O radar indica que Nolan Ryan rebateu a última bola a 82,3 mi/h. emprego. Afora razões relacionadas com a obtenção de empre-
5. De todos os escores SAT marcados no ano passado, 27 foram per- go e com a disciplina, o estudo da estatística pode tornar o leitor
feitos. mais crítico em sua análise de informações, e menos sujeito a
6. De 1000 consumidores pesquisados. 930 reconheceram a marca de afinnações enganosas, como as que se acham comumente asso-
sopa CampbelL ciadas a pesquisas, gráficos e médias. Como membro educado e
7. O tempo total gasto anualmente por um motorista de táxi de Nova responsável da sociedade, o leitor deve aguçar sua capacidade
York ao dar passagem a pedestres é de 2,367 segundos. de reconhecer dados estatísticos distorcidos e de interpretar in-
8. Ao completar um programa de treinamento, Shaquille O'Neal pe- teligentemente dados que se apresentem sem distorção.
sava 12,44 lb menos do que no início do treinamento.

Nos Exercícios 9-18, determine o nível de mensuração mais Os Moto ristas Mais Idosos São Mais Seguros do
adequado (nominal, ordinal, intervalo, razão). que os Mais Moços?
9. Classiftcação como superior, acima da média, médio, abaixo da A American Association of Retired People - AARP (Associação
média ou pobre para encontros marcados com desconhecidos. Ame ricano de Aposentados) a lega que os motoristas mais idosos
10. Conteúdo de nicotina (em miligramas) de cigarros Carne!. se envolvem em menor número de acidentes do que os mais
jovens. Nos últimos anos, os motoristas com 16-19 anos de
11. Números de inscrição do INSS. idQ.de causàram cerca de 1,5 milhão de acidentes, em
12. Temperaturas (em graus Celsius) de uma amostra de contribuintes comparação com apenas 540.000 causados por motoristas com
irritados por estarem sendo fiscalizados. 70 anos ou mais, de formo que a alegação da MRP parece
válida . Acontece, entretanto, que os motoristas mais idosos não
13. Anos em que os democratas ganharam as eleições presidenciais.
dirigem tanto quonlo os mais jovens. Em lugar de considerar
14. Graus finais (A, B, C, D, F) de estudantes de estatística. apenas o número de acidentes, devemos examinar também os
15. Códigos de endereçamento postal. taxas de acidentes. Eis as taxas de acidentes por 100 milhões de
16. Rendas anuais de enfermeiras. milhas percorridas: 8,6 paro os motoristas com idades de 16 a
19, 4,6 para os com idade de 7 5 a 79, 8, 9 poro os com idade
17. Carros classificados como subcompacto, compacto, intermediário
de 80 a 84 e 20,3 paro os motoristas com 85 anos de idade ou
ou grande. mais. Embora os molorislas mais jovens lenham de falo maior
18. Cores de uma amostra de confeitas M&M. número de ocidentes, os mais velhos apresentam as mais altas
taxas de acidente.

1-2 Exercícios B: Acima do B6Jsico


19. Presidentes americanos foram assassinados nos anos de 1865, 188 1, Abusos da Estatística
1901 e 1963. Qual é o nível de mensuração para esses anos? Ex-
plique sua resposta. Não é de hoje que ocorrem abusos com a estatística. Assim é que,
20. No quadrinho "Born Loser" (Perdedor nato) por Art Sansom, há cerca de um século, o estadista Benjamin Disraeli disse: "Há
três tipos de m entira: as mentiras, as mentiras sérias e a estatísti-
Brutus manifesta alegria por um aumento de temperatura de 1" para
2°. Ao lhe pergunrarem a razão, respondeu: "Está agora duas ve-c a." Já se disse também que ·'os números não mentem; mas os
zes mais quente que hoje de manhã." Por que Brutus errou mais mentirosos forjrun números" (Figures don 't lie; liars figure) e
uma vez? que "se torturarmos os dados por bastante tempo, eles acabarão
por admitir qualquer coisa". O historiador Andrew Lang disse
que algumas pessoas usam a estatística "como um bêbado utili-
] -3 Usos e Abusos da Esi'atistica za um poste de iluminação - pru·a servir de apoio e não para
iluminar". Todas essas afirmações se referem aos abusos da es-
Usos da Estatística tatística, quando os dados são apresentados de fom1a enganosa.
Alguns dos que abusam da estatística o fazem simplesmente por
As aplicações da estatística se desenvolveram de tal forma que, descuido ou ignorância; outros, porém, têm objeti vos pessoais,
hoje, praticamente todo campo de estudo se beneficia da utiliza- · pretendend9 suprimir dados desfavoráveis enquanto dão ênfase
ção de métodos estatísticos. Os fabricantes fornecem melhores aos dados que lhes são favoráveis . Passemos a alguns exemplos
produtos a custos menores através de técnicas de controle de das diversas maneiras como os dados podem ser distorcidos.
q ualidade. Controlam-se doenças com auxílio de análises que
.,
antecipam epidemias. Espécies ameaçadas são protegidas por Pequenas Amostras No Capítulo 6 veremos que as pequenas amos- ~··-

regulamentos e leis que reagem a estimativas estatísticas de tras não são necessariamente más; entretanto, os resultados ob-
~·~
modificação do tamanho das populações. Visando reduzir as ta- tidos com pequenas amostras podem por vezes ser usados como
xas de casos fatais, os legisladores têm melhor justificativa para um,a fórma de "mentira" estatística. As preferências de apenas :l

·-~

,._
'· 1

;'-l
·- • -- ~w . "'

6 ESTATiSTICA

IOdentistas por detenn inado de ntifríc io não devem servir de base fo i "O presidente deve te r. ou não . o poder de vetar decisões do
para uma afinnação generalizada como " A pasta de ntifrícia XYZ Congresso')'' À s vezes as perguntas se apresenta m in volunta-
é recomendada por 7 em cada IOdentistas." Mesmo que a amostra riamente te ndenciosas em virtude de fatores como a ordem dos
sej a grande, e la deve ser não-tendenciosa e representativa da itens a serem considerados. Por exemplo. uma pesquisa alemã
popul ação de onde provém. Às vezes uma amostra pode parecer fo rmulou estas duas perg untas:
realmente grande (como em uma pesquisa com "'2000 adultos
O leitor diria q ue o tráfego contribui em ma ior ou menor
ameri canos escolhidos aleatoriamente"). mas se se formu lam
grau do que a ind ústria para a poluiçflo atmosférica?
conclusões acerca de subgrupos. como republicanos católicos do
O lei tor diria que a indústria contribu i em maior ou menor
sexo masculino, tais conclusões podem estar baseadas em amos- grau do que o tráfego para a poluição atmosférica~
tras assaz pequenas.
Q uando o tráfego foi mencionado em primeiro lugar. 45% acu-
Números Precisos Às vezes os próprios números podem ser enga- saram o tráfego e 32% acusaram a indústria: q uando a indústria
nosos. Uma cifra. como um salário anual de $37.735,29. pode fo i citada em primeiro lugar, as porcentagens se modificaram
parecer muito precisa. introduzindo alto grau de contiança em grandeme nte para 24% e 57 %. respectivamente.
sua exatidão. Já a cifra $37.700.00 não infunde o mesmo senso
de precisão. Entretanto. uma estatística com muitas casas deci -
mais não é necessariamente precisa. Pesquisa do Literary Digest
N o componho presidencial de 1936, o revisto Literory Oigest fez
Estimativas por Suposição Outra fonte de engano estatístico envol- uma pesquiso e concluiu pelo vitória de Ali London, mos Franklin
ve estimativas que são. na verdade. suposições (ou, na lingua- D. Rooseveli venceu por largo morgem . Mourice Bryson observo :
&em popular. "palpit<!s"), podendo apresentar erros substanciais. "Foram enviados 1O milhões de cédulas- amostro o eleitores
em potencial, mos apenas 2,3 milhões foram devolvidos. Como
E preciso considerar a fonte da estimativa e a maneira como foi
lodos devem saber, tpis amostras são ·quase sempre
estabelecida. Quando o Papa visitou Miami, as fontes oficiais lendenciosos. " Bryson afirmo lombém: "As resposlos volunlários
estimaram a multidão em 250.000 pessoas, mas, utilizando fo- o questionários envtodos pelo correio consliluem talvez o método
tos aéreas e grade5, o Miami Herald chegou a uma c ifra mais mais comum de colete de dados sobre ciências sociais
encontrado pelos eslalísticos, e é lombém talvez o pior." (Ver
precisa de apenas 150.000.
Brysan, "The Literary Digesl Poli: Moking of o Stolisticol Myth",
The American Stolistician. Vol. 30, N 2 4.J
Porcentagens Distorcidas Por vezêl6 utilizam-se porcentagens con-
fusas ou distorcidas. Em um anúncio de página inteira, a Conti-
nental Airiines anuncia melhores serviços. No tocante ao caso Gráficos Enganosos Muitos dispositivos vis uais -como gráficos
de bagagem extraviada. o anúnci o atinnava que ·'se trata de uma c m barras e gráficos em setores- podem ser utilizados para
área em que já melhoramos 100% nos últimos seis meses". Em exagerar ou diminuir a verdadeira natureza de um conj unto de
um editorial criticandu essa estatística, o New York Times inter- dados. (Tais recursos serão discutidos no Capítulo 2.) Os dois
pretou corretamente a melhora de I 00% como signi ficando que gráficos da Figura 1-1 representam os mesmos dados do Bureau
agora não se extra via mais quaiquer bagagem- o que ainda não of Labor Statistics (Departamento de Estatística do Trabalho).
foi conseguido pela Continental Airlines. mas a parte (b) tem como objetivo exagerar a diferença entre os
ganhos dos homens e os das mulheres. Não partindo do zero no
Cifras Parciais "Noventa por cento dos carros vendidos nos EUA eixo vertical, o gráfico {b) tende a produzir uma impressão sub-
nos últimos lO anos ainda estão rodando." Milhões de consumi- jetiva errônea. A Figura 1-1 nos dá uma lição importante. Deve-
dores ouvi mm esta mensagem e ficaram com a impressão de que mos analisar as informações numéricas con tidas e m um gráfico,
esses carros deitem ter sido muito bem construídos para durarem não nos deixan do enganar por sua forma geral.
tanto. O que o fab1icantc não mencionou foi que 90% dos catTO~
por ele venJidos. c• fo ram nos últimos três anos. A a legação. Pictográficos Os desenhos de objetos, chamados pictográtiços. tam -
cmbor;.~ tecnica mente correta, era enganosa. por não apresentar bém podem levar-nos a erro. Os objetos comumente usados pam
os resultados completos. ilustrar dados incluem sacos de dinheiro, pilhas de moedas, tan-

Distorções Deliberadas No li vro Tointed Trwh. Cynthia Crossen c ita


um exemplo da revista Corporate Travei que publicou dados
mostrando que, entre as companhias locadoras de carros. a A vis
$754 $754
foi a vencedora em uma pesquisa junto aos locatários. Quando a "$750 () $750
Hertz solicitou infonnações detalhadas sobre a pesquisa. as res- s::
-~ ~
postas desapareceram e o coordenador da pesquisa se demitiu.
] $520 ii 700
A Hertz processou a Avis (por falsa propaganda baseada na pes- 500 E
~ 6E'JO
quisa) e a revista: chegou-se a um acordo. ~
..
<:

E
..%
s::
600
Perguntas Tendenciosos As pergunws em uma pesquisa podem ser ~ 250 \1\

"s:: _g 550
formul adas de modo a "sugerirem' ' uma resposta. Um caso fa-
moso envolve o candidato à presidência dos EUA. Ross Perot,
.<::

~ O ,...., r-· ..
s::
\é) 500
$520
LL---~--L..::...C.-'i
que formulou a seguinte pergunta em um questionário : "O pre- Homens Mulheres Homens Mulheres
sidente deve ter o poder de vetar decisões do Congresso?" No-
venta e sete por cento das respostas fora m "sim''. Entretanto, o (a) (b)
percentual de respostas "sim" caiu para 57% q uando a pergunta fig. 1- 1 Ganhos de profissionais de lempo inlegrol.
Introdução ii Estatísti.:~ 7

ques do-exército (para despesas militares), vacas (para produção Os exemplos precedentes constituem um a pequena amostra
de laticínios). barris (para produção de petróleo) e casas (para das maneiras como a estatística pode ser utilizada de forma en -
construção). Ao desenhar tais objetos, o artista pode cri ar impres- ganosa . Livros inte iros têm sido dedicados a esse ass un to, inclu-
sões falsas que distorcem as diferenças. Se duplic a mos o lado sive o c láss ico How to Lie with Sratistics. de Darrell Huff. The
de um quadrado, a área não é apenas duplicad a, e sim quadrupli- Figure Finaglers. de Robert Reichard. e Tainted Truth. de
cada; duplicando cada aresta de um cubo. seu volume não é ape- Cynthia C rossen . O entendimento de tais práticas será de grande
nas duplicado, e sim multiplicado por oito. Se os impos tos do- auxílio na a valiação dos dados estatísticos encontrados em si tu-
bram a cada década, um desenhista pode representar os aumen- ações cot idi a nas .
tos de imposto por um saco de dinhe iro para o primeiro a no e
um seg undo saco duas vezes mai s fund o, duas vezes mai s alto e
l-3 Exerdotios A: Habilidades e
duas vezes mais largo para o segundo ano. Ao invés de aparece-
re m duplicados. os impostos se apresentarão aume ntados oito Conceiil'os B~sico s
vezes: o desenho di storce , assim, a realidade .
I. Uma peswa foi encarregada ele pesq ui sar o reconhecimento da
marca Nike. devendo contactar por telefone 1500 consumidores nos
Pressão do Pesquisador Quando se formulam pe rgu ntas a indiví- EUA. Por que razão é incorreta a utilização de listas telefôn icas
duos pesquisados. esses freqüentemente dão respostas favorávei s como popu lação para fornecer a amostrary
à s ua auto-imagem. Em uma pesq uisa telefônica . 94% do s que 2. Setenta e dois por cento dos americanos espremem o tu bo de den-
res ponderam d isseram que lavam suas mãos após usar um ba- tifrício a partir da pane superior. Essa observação. assim como
nheiro, mas a observação em lu gares tai s com o a Estação Pen n. out r&s também não muito sérias. é apresentada em The Firs/ Reallr
e m Nova York e Golden Gate Park em San Franc isco mostra- lmporlanl Survey of American Habit.1· (a primeira pesquisa realmen-
ram que o percentual efetivo é de apenas 68 %. te importante dos hábitos dos americanos). Esses resultados se
baseiam em 7000 respostas a 25.000 questionários e nviados pelo
Más Amostras Outra fonte de estatísti c a enganosa são os mé todos correio. Quat o lado errado dessa pesquisa''
inadequados de coleta de dados . É comum um pesquisador ana- 3. Um relatório patroc inado pela Florida Citrus Commission concluiu
li sar dados e formular conclusões errôneas porq ue o método de que os níveis de colesterol podem ser reduzidos mediante ingestão
cole ta de dados foi deficiente. de produtos cítricos. Por que razão a conclusão poderia ser suspeita''
Um exemplo típico é a pesquisa "Ni ghtl ine" em qu e 186.000 4. Uma funcionária tem um sa lário anual de $40.000. mas é informa-
espectadores de televisão pagaram 50 centavos para discar um da de que terá 'Um a redução de I0% no pagamento e m virtude do
nú mero de telefone "900" dando s ua opinião so bre se a sede das declínio dos lucros da companhia. É informada também de que no
Nações Unidas deve permanecer nos EUA. Os resultados mos- próx imo ano terá um aumento de I0%. A situação não se afig ura
traram q ue 67% dos que foram consu ltados e ram favoráveis a tão má. porque a redução de I 0% parece ser compensada pelo au-
que a sede da ONU snísse dos EUA. No começo deste capít ulo mento de 10%.
pergu ntamos o que se poderia concluir qua nto à opinião geral da
a. Qual a renda anual após o corte de I 0%?
popu lação sobre a pe rmanênc ia da ONU nos EUA. Como os
b. Com base na renda anual da parte a. determ ine a renda anual
própri os espectadores é que decidiram se se riam incluídos na
apó~ o aumento de I 0%. O corte de I 0% segu ido do aumento
pesquisa. tem os um exemplo de pesq ui sa auto-selecionada, que
de I0% rest ituem à funcionária o sa lário original de $40.000?
se define como segue.
S. A revista G/amour publicou o seguinte resu ltado de uma pesqui-
sa: "Setenta e no ve por cento dos que responderam à nossa pes-
DIEU:~NBÇë.ll q uisa de agosto afirmaram crer que os americanos se tornaram
demasiadamente propensos a apelar para ajustiça em casos coni-
Urna pesquisa auto-selecionada é uma pesqui sa em que queiros ... A questão foi publicada nu revista e os leitores podiam
os próprios entrevistados decidem se serão incluídos. responder pelo correio, fax ou e-mail (Tellus@Galamour. com)
Ate! que ponto é válido o resultado de 79%''
6. ADT Security Systems advertiu que "quando você sai de férias. os
Em tais pesquisas. o que freqüentemente ocorre é que participam ladrões começam a agir". O anú ncio atirmava que "de acordo com
apenas aque les que têm uma opinião firmad a . resultando daí que estatísticas do FBI, mais de 26% dos assaltos a residências ocor-
a a mostra dos que respondem não é representati va da população riam entre o Memori al Day [feriado que homenageia os soldados
como um todo. Como 67% dos 186.000 pesq ui sados eram favo - mortos na guerra! e o Dia do Trabalho". Em que ponto essa afir-
ráveis à mudança da sede da ONU dos EUA , nada podemos con- mação é enganosa?
cluir sobre a populaçüo em geral, dada a maneira como se ob- 7. Em um estudo sobre cri mes cometidos no campus de uma univer-
teve a wnostra. Na realidade, Ted K o ppel reportou que uma pes- sidade por estudantes sob efeito do álcoo l ou das drogas, foram
quisa "científica" de 500 pessoas revelou que 72% del as deseja- pesquisados 1.875 estudantes. Um artigo no USA Toda_v notou:
vam que a sede da ONU permanecesse nos EUA . Nessa pesqui- "Oito por cento dos estudantes que respondem anonimamente afir-
sa de 500 pessoas, os que responderam foram selec ionados a le- mam ter cometido um crime no campus. E 62% desse grupo di-
atoriamente pelo pesquisador. de modo que o resu ltado tende zem ter'agido sob a influência do álcoo l ou das drogas." Supondo
muito mais a refl eti r a verdadeira opinião da população e m ge- que o número de estudantes que respo nderam anoni mamente seja
ral. de 1.875. quantos efetivamente cometeram um crime no campus
Uma pesquisa auto-selec ionada é ape nas uma das maneiras sob a intluênc ia do álcool ou das drogas?
como o método de cole ta de dados pode ser seriamente prejudi- 8. Um estudo realizado pelo lnsurance [nstitute for Highway Safety
cado. Em vista de sua impm1ância, decticaremos a próx ima se- (Instituto de. Segurança nas Rodovias) constatou que o Chevrolel
ção ao método de amostragem ou co leta ele dados. Corvette acusa o mais elevado índice de acidentes fatais- ··s.2
1._

l
8 EsTATÍSTICA

mortes para cada 10.000". O carro com menor índice de acidentes 1-4 Planejamento dle !Experimentos
fatai s foi o Volvo, com apenas 0,6 morte por !0.000. Significa isto
que o Corvette não é tão seguro quanto o Volvo? O s estudos que utilizam métodos estatísticos vão desde os que
9. O jornal Newport Ch ronicle afirma que as mães grávidas podem são bem concebidos e executados, dando resultados confiáveis,
aumentar suas chances de ter um bebê sadio comendo lagostas. A aos que são concebidos deficientemente e mal executados, levan-
alegação se baseia em um estudo mostrando que as crianças nas- do a conclusões enganosas e sem qualquer va lor real. Eis alguns
cidas de mães que comem lagostas têm menos problemas de saú- pontos importantes para o planejamento de um estudo capaz ele
de do que as nascidas de mães que não comem lagostas. Qual é o produzir resultados válidos:
erro nesta alegação?
10. Um a pesquisa inclui o seguinte item: "Registre sua alturu cm po· 1. Identificar com precisão a ques tão a ser respondida e definir
legadas." Com isso pretende-se obter e anali sar as alturas dos que com clareza a população de interesse.
respondem. Identifique os dois problemas neste item. 2. Estabelecer um plano para coleta de dados. Esse plano deve
11. "De acordo com uma pesquisa de âmbito nacional feita por 250 descrever detalhadamente a real ização de um estudo obser-
agências de empregos, os sapatos gastos constituem o motivo mais vacional ou de um experimento (ambos definidos a seguir),
comum para que um homem que procura emprego não cause boa e deve ser elaborado cuidadosamente, de m odo que os da-
impressão à primeira vista." Os jornai s apresentavam essa alega- elos coletados rep resentem efetivamente a população em
ção com base em uma pesquisa encomendada pela Kiwi Brands, questão.
produtores de graxa para sapatos. Faça um comentário sobre ara- 3_ Coletar os dados. Devemos ser extremamente cautelosos, para
zão por que os resultados de tal pesquisa podem ser questionados. minimizar os erros que podem resu ltar de uma cole ta tenden-
12. Em um suplemento de propaganda inserido no Time, os aumentos das ciosa de dados.
despesas com o combate à poluição foram ilustrados em um grático 4. Analisar os dados e tirar conc lusões. Identificar também pos-
como o que aparece a seguir. O que está errado com a figura? síveis fontes de erros.

Os estudos que requerem métodos estatísticos decorrem tipi-


$1864,8 camente de duas fontes comuns: estudos observaci onais e expe-
Milhões rimen tos.

D1'5C:!INlU~Óllil$

E m um estudo observacional, verificamos e medimos


caracteristicas especíticas, mas não tentamos manipular ou
.$643,3 modificar os elementos a serem es tudados .
Milhões
Em um experimen to. aplicamqs determinado tratamento
e passamos então a observar seus efeitos sobre os elemen-
2 3 4 tos a serem pesquisados.
Ano

Por exemplo, um estudo observacional pode envo lver uma


1-3 Exercidos B: Além do Básôco pesquisa de cidadãos para determinar que porcentagem da po-
pulação é a favor do registro de armas de fogo. Um experimento
13. Um artigo no Nr:IV York Times afirmou que a duração média ela vida pode envolver o tratamento com um remédio ministrado a um
ue 35 regentes de orquestra do sexo masculino era de 73,4 anos, em grupo de pacientes a fim de determ inar s ua efic iência na c ura.
cone a,. te com n média de 69,5 anoo pam a população masculina em No caso da anna de fogo, coligimos dados sem modificar as
gera!. A vida mais longa foi atri buída a fatores como satisfação pes- pessoas a sere m pesquisadas; já o trata men to por um remédio
'oal c moti,ação. Há uma falha fundamental na conclusão de que os envolve a modifi cação das pessoas.
regentes de orquestra do sexo masculino vivem mais. Qual é? Os experimentos bem planejados costumam envolver um gru-
14. Um pesquisador do Sloan-Kettering Cancer Research Center foi po a quem é dado um tratamento particular (chamado gmpo de
criticado certa vez por adulterar dados. Entre seus dados estavam tratamento) e um segundo grupo de controle ao qual não se ad-
cifras obtidas de seis grupos de ratos, com 20 ratos cm cada gru- ministra o tratamento. Por exemplo, o experimento sobre pólio
po. Foram dados os seguintes valores como porcentagens de su- realizado em 1954 envolveu um grupo de tratamento de crian-
cesso: 53%, 58%, 63%, 46% , 48%, 67%. O que está errado? ças em quem foi injetada a vacin a Salk, e um grupo de controle
lS. Procure identificar as quatro maiores falhas no seguinte. Um jor- de crianças que recebeu um remédio neutro (placebo). Em ex-
nal real izou uma pesquisa solicitando a resposta dos le itores a esta perimentos deste tipo, ocorre um efeito placebo quando um in-
pergunta: "Você apóia o desenvolvimento de armas atômicas que
- poderiam matar milhões de pessoas inocentes?" Relata-se que 20
divíduo não tratado acredita estar recebendo o tratamento e ale-
ga uma melhora nos sintomas. O efeito placebo pode ser contra-
'- leitores responderam, 87% com "não" e 13% com "sim". balançado fazendo-se um e xperimento cego, uma técnica em que
16. Um editorial do New York Time s criticou um anúncio que alegava o indivíduo não sabe se está recebendo o tratamento ou um pia-
,_ que determinado anti-séptico bucal "reduzia em mais de 300% as cebo. O experimento sobre pólio foi do tipo duplo-cego, em que
placas nos dentes". as crianças que recebiam a injeção não sabiam se estavam rece-
a. Removendo-se 100% de uma quantidade, quanto resta? bendo a vacina Salk ou um placebo, e os médicos que davam a
b. Que significa reduzir as placas em mais de 300%? injeção e avaliav am os resultados também não sabiam.
Introdução à Eswtística 9

Notamos na Seção 1-3 que uma pesquisa auto-selecionada é uma


As Pesquisas Políticas Crescem pesquisa em que as próprias pessoas decidem se vão responder
Em "Consulting the Orocle", um artigo poro o U.S. News and ou não. As pesquisas auto-selecionadas são muito comuns, mas
Warld Repor/, o autor Stephen Budionsky escreve que o seus resultados em geral não têm util idade para fazer inferências
Presidente Kennedy encomendou 16 pesquisas em seus três anos válidas sobre toda uma população.
de mandato, Nixon encomendou 233 pesquisas em seus seis
anos, e Clinton encomendou entre 100 e 150 pesquisas em seus
Passamos agora a definir e descrever os cinco métodos mais
· primeiros 2,5 anos . As pesquisas de Clinton custaram entre comuns de amostragem.
$30.000 e $45.000 cada uma , o que dá um custo de $30 por
pessoa. Budionsky relato que o pesquiso é complicado por
máquinas de resposta e por pessoa s que se recusam o cooperar,
mas as boas pesquisas incluem tentativas repetidas para obter !tll!Z!FBNDÇÃ@
respostas dos que não estão em cosa ou se recusam o
responder. Não levar em conto os que não respondem pode Em uma amostra aleatória, os elementos da população
resultar em uma amostro que não represente adequadamente a são escolhidos de tal forma que cada um deles tenha igual
população.
chcu1ce de figurar na amostra. (Escolhe-se uma amostra
aleatória simples de n elementos, de maneira que toda a
mostra de tamanho n possível tenha a mesma chance de
Ao planejar um experimento para testar a eficiência de um ou ser escolhida.)
mais tratamentos, devemos ter o cuidado de atribuir as unidades
experimentais (ou indivíduos) aos diferentes grupos de tal modo
que esses grupos sejam bem semelhantes. (Tais grupos semelhan-
As amostras aleatórias podem ser escolhidas por diversos mé-
tes de unidades experimentais são chamados blocos.) Uma abor-
dagem eficiente consiste em uWizar umplanejamento experimen- todos, inclusive a utilização de tabelas de números aleatórios e
de computadores para gerar números· aleatórios. Com a amos-
tal completamente aleatorizado, que exige que as urudades ex-
perimentais sejam divididas em diferentes grupos mediante um tragem aleatória, espera-se que todos os grupos da população
processo de seleção aleatória. Assim é que tal planejamento pode sejam representados na amos tra de forma aprox imadamente
envolver a atribuição aleatória de pessoas a um grupo tratado com proporcional. Uma amostragem descuidada pode facilmente
aspirina e a um grupo de controle que não é tratado. Outro pro- resultar em uma amostra tendenciosa, com características as-
cesso consiste em utilizar um planejcunento controlado rigoro- saz diferentes das da população que a originou. Em contrapar-
samente, com unidades experimentais escolhidas cuidadosamen- ti da, a amostragem aleatória é cuidadosamente planejada para
te, de modo que os diferentes grupos (ou blocos) sejam tão se- evitar qualquer tendenciosidade. Por exemplo, a utilização de
melhantes quanto possível. Com um planejamento rigorosamente catálogos telefônicos elimina automaticamente todos aqueles
controlado, podemos tentar formar grupos de tratamento e de cujos telefones não ftgurem no catálogo, e a exclusão desse
controle que incluam pessoas semelhantes em idade, peso, pres- segmento da população pode faci lmente conduzir a resultados
são sanguínea etc. É importante também considerar a replicação, falsos. Em Los Angeles, por exemplo, 42,5% dos números de
que exige tamanhos de amostra suficientemente grandes quere- telefones não estão no catálogo (com base em dados da Survey
duzam os efeitos da variação amostral aleatória. O experimento Sampling, Inc.). Os pesquisadores costumam contomar esse
com a pólio foi um planejamento experimental completamente problema utilizando computadores para gerar números de te-
aleatorizado, porque os indivíduos em ambos os grupos, de tra- lefone, de modo que todos os números sejam possíveis. Eles
tamento e de controle, foram selecionados aleatoriamente. Incor- devem também ter o cuidado de incluir os que inicialmente não
porou a replicação incluindo números muito grandes (200.000) foram encontrados ou se recusaram a responder. A Companhia
de indivíduos em cada grupo. ' de Pesquisas HmTis constatou que a taxa de recusa para entre-
Na realização de experimentos, os resultados por vezes são vistas telefônicas é em geral de 20% , no mínimo. O fato de
comprometidos pelo confundimento. ignorarmos os que inicialmente se recusam a responder pode
concorrer para que nossa amostra seja tendenciosa.

D!Ef~ND ~.i@
!!:lli'Ee::DINIB~ÃO
Ocorre o confundimento quando os efeitos de duas ou
mais variáveis não podem distinguir-se uns dos outros. Com a amostragem estratificada, subdividimos a popu-
lação erri, no mínimo, duas subpopulações (ou estratos) que
compartilham das mesmas características (como sexo) e,
Por exemplo, se estamos realizando um experimento para testar em seguida, extraímos uma amostra de cada estrato.
a eficiência de um novo retardan te no incêndio em uma sarça, e
repentinamente começa a chover, ocorre o confundimento por-
que é impossível distinguir entre o efeito do retardante e o efeito Em uma pesquisa sobre a Emenda Constitucional da Igualda-
de de Direitos, poderíamos utilizar o sexo como base para a
da chuva.
criação de dois estratos. Após obter uma relação dos homens e
Um dos erros mais graves consiste em uma forma inadequa-
uma relação das mulheres, aplicamos um método conveniente
da de cole ta de dados. Nunca é demais enfatizarmos este impor-
(como a amostragem aleatória) para escolher deterrrúnado nú-
tante ponto:
mero de elementos de cada relação. Quando os diversos estra-
Dados coletados de forma descuidada podem ser tão tos têm tamanhqs amostrais que refletem a população global,
inúteis q ue nenhum processamento estatístico temos o que se chama amostragem proporcional. No caso de ;.
consegue salvá-los. algu~s estratos não serem representados na proporção adequa-
-..- ··-.-..._,...,.__.............. ...,._....._, .• ~-,~~-·-"'-'- -- - •.:o...-, .:•-·- -·-·· -e- ·-~- = --- ··---·---·~· - -- ----· - -~ -- -

lO ESTATÍSTICA

da. então os resultados poderão ser ajustados ou ponderados


ll:à!l:rFI!MIÇÃO
convenien tem ente.
Para um tamanho fixo de amostra. se escolhemos aleatolia- Na amostragem de conveniência, simplesmente utiliza-
mente elementos de diferentes estratos. temos chance de obter mos resultados que já es tão disponíveis.
resultados mais consistentes (e menos valiá veis) do que com a
simples escolha de uma amostra aleatória de toda a popu lação.
Por essa razão; costuma--se usar a amostragem estratificada para Em alguns casos. os resultados da amostragem de conveniên-
reduzir a variação nos res ultados. cia podem ser a~saz bons. mas em outros casos podem apresentar
séria tendenciosid ade. Ao fazer uma pesquisa sobre pessoas ca-
nhotas. seria conveniente um estudan te pesquisar 'eus próprios
B)!tlf9N~~Â@ colegas de classe. porque estão ao seu alcance imediato. M.;smo
que tal amostra não seja aleatória. os 1·esultac!os devem '~r bem
Na amostragem sistemática. escolhemos um ponto de satisfatórios. Em conu·apartida, puderia ser muito conveniente (e
partida. e selecionamos cada k·"•m•· elemento (como por talvez mesmo lucrativo) para a ABC News fazer uma pesquisa
exemplo cada 50."elemento) da população . pedindo aos espectadores que liguem para um nümero de telefone
"900" para registrar suas opiniões. mas essa pesquis:1 seria auto-
selecionada c os resultados seriam provavelmente tendenci osos .
Por exemplo, se a Motorola quisesse fazer uma pesquisa ;,obre A Figura 1-2 ilu stra os cinco métodos mais comuns de amos-
seus I 07.000 empregados, poderia partir de uma relação com- tragem que acabamos de desc rever. Essas descrições pretendem
pleta dos mesmos e selecionar cada I 00." empregado. obte ndo ser bre ves e gerais. O cun hecimenlu aprofundado de sses dive r-
uma amostra de 1.070 elementos. Esse método é simples e util i- sos métodos. que permita su a utilização L<~lll pro veito. exige um
zado com freq üência. estudo muito mais extenso. que ul.trapassa o nível de um curso
introdutório. Para mante r esta seção em perspec tiva. notemos que
este texto fará re ferê ncia freq üente a dados ·'selecionados alea-
DIEIFDINII~Ã@ toriamente". n que significa que os dados fo ram selec io nados ele
modo que todos os eleme ntos da população têm a mesma chan-
Na amos tragem por conglomerados. começamos divi- ce de serem esco lh idos. Conquanto não façamos referênci a fre-
dindo a área da população em scções (ou conglomerados): qliente aos o utros métodos de amostragem, devemos ter consci-
em seguida escolhemos algumas dessas seções e. tina Imen - ência de que eles existem. e qu e o método de am ostragem exige
te. tomamo s rodos os elementos elas seções escolhid as. planejamento e execução cuidadosos. Os métodos apresentados em
todo este texto dependem de amostras que tenham sido obtidas
cu idadosamente. Além disso. o tamanho ela amostra deve sen1pre
Uma diferença importante en tre a amostragem por conglomera- ser suficientemente grande para os propósitos em vista. (Os pro-
dos e a amostragem estratificad::t é que a amos tragem por con- blemas de tamanho da amostra são abordados mais adiante. espe-
glomerados uti liza todos os elementos dos conglomerados se le - cialmente no Capítul o 6.) Muitas pessoas acreditam que as gran -
cionados . enq uanto a amostragem estratificada utiliza uma li iiWS- des amosu·as são sempre boas. mas mesmo essas podem ser to tal-
cra de mem bros de cada estrato. Pode-se encontrar um exemplo mente desprovida~ de va lor. se os dados tiverem sido eoletaclos de
de ammtragem por conglomerado em uma pesquisa pré-eleitoral. maneira negligente. Finalmente. se es tamos medindo uma can lc-
o nde eswlhemos aleatoriamente 30 zonas eleitorais e pesquisamos terística (como altura) de um conjunto de indivíduos. podemos
todos os elementos de cada uma das zonas escolhidas. Esse méto- obter resultados mais precisos se fizermos nós mesmos as medi-
do~ muito mais rápido e men os dispendioso do que a escolha de
das , em vez de pedirmos aos indivíduos que indiquem os valores.
um indivídu o de cada uma da<; inúmeras zonas da área popu- Este último procedimento pode resultar em um número despro-
lacional. Os resultados podem "er ajustados ou ponderado> para porc ionado de resultados arredondados. assim como muitos resul -
,·on i;,ir q11alquer representação desproporcionada de grupos. t\ tados que retletem va lores desejados cm lugar de valores e{PÚ\'Os.
aiJlostJ ..tgem por co nglomer::tdos é extensame nte utilizada pelo Não impo rta quão bem planejemos e execu temos o processo
go\-cmo c por organ izações particulares de pesqu isa. de coleta de amostra,, há sempre a possibilidade de um erro nos
resu ltados. Como exemplo. escolhil aleatoriamente 1000 ad ul-
fMe ta -análise I tos e pergunte a eles se têm u curso secundürio completo. reg is-
trando a porcen tagem de res pos tas "sim". Esco lhido um ou tro

I! O lermo mela-análise se refere o uma lécnico de estudo que,


essencialmente, combino os resultados de outros estudos. Tem o
grupo ele I000 indivíduos, é provável que se ob tenha uma por-
centagem amostral diferente.
vantagem de permitir que omos!ros menores separados sejam
comb•nodos em uma única a mostro grande, tornando mais
;ign ificotivas os resultadas globais. Tem também o _vantagem de
utilizar um trabalho já lei lo. Por outro lodo, tem o desvantagem D§fli!NII~ÕI'ES
de ser apenas tão boa quan lo o lenham sido os estudos básicos.
:;e esses estudos apresenta m folhas, pode ocorrer o fenômeno Um erro amostral é a diferença entre um resultado amos-
"gorbage in, gorbage out" (N. do T.: "O que sai é Ião bom tral e o verdadeiro resultado populacional; ta.is erros resul-
corno o que enlra. "l A utilização da meta-a nálise é de uso
corrente em pesquisas médica s e psicológicas. Um exemplo: tam ele flutuações amos trai s aleatórias.
"Reverso! of left Ventricular Hypertrophy in Essential Ocorre um erro não-amostral quando os dados amostrais
Hypertension: A Melo-onolysís of Rondomized Double-blínd
Studies", por Schmieder, Martus e Klingbeil, )ournal of the são coletados, registrados ou analisados incorre tamente .
American Medical Associalion, Vai. 275, No. l 9. Tais erros resultam de um erro que não seja uma simples
Introdução it EstGtísücu II

Amostragem Aleat6ria
Cada elemento da população
tem a mesma chance de ser
escolhido. Em geral utilizam-se
computadores para gerar
-números de telefone aleatórios.

t tt Amostragem Estratificada
Classificar a população em, ao
menos, dois estratos e extrair
uma amostra de cada um.

~ J /
t ~,®,~

',~ -·.-
.. ~')}

''' ''
. ®
. t2ltQ
.

.'
. . ~
· .!)
Amostragem Sistemática
Escolher cada elemento de
ordem k.

Amostragem por Conglomerado


Dividir em seções a área populacional,
6elecionar aleatoriamente algumas
dessas seçõe6 e tomar todos
os elementos das mesmas.

Amostragem de Conveniência .
Utilizar resultados de fácil acesso.

~
~~ 4~li'~
·..:~·;. ,......... .

Fig. 1-2 Métodos comuns de amostragem.

flutuação amostral aleatória, como a escolha de uma amos-


Hawthorne e os Efeitos do Experimentador
tra não-aleatória e tendenciosa, a utilização de um instru-
mento de mensuração defeituoso, uma questão formulada O bem conhecido efeito placebo ocorre quando um indivíduo não
de modo tendencioso, um grande número de recusas de trotado acredito incorretamente que está recebendo um tratam ento
real e reporto uma melhora dos sintomas. O efeito Hawthorne
resposta ou a cópia incorreta dos dados amostrais. ocorre quando individuas tratadas respondem de maneiro um tanto
diferente, simplesmente porque são partes de um experimento.
[Esse fenãmeno foi chamada "efeito Hawthorne" porque foi
observado pelo primeiro vez em um estudo levado o efeito em
Se extrairmos uma amostra cuidadosamente, de forma que operários da fábrica da Western Electric, em Howthome.} Ocorre
ela represente realmente a população, podemos aplicar os mé- um efeito de experimentador {às vezes chamado efeito Rosentholl)
todos descritos neste livro para analisar o erro amostral, mas quando o pesquisador ou experimentador involuntariamente
inAuencio o indivíduo pesquisado, através de fatores como
devemos ter o máximo cuidado em minimizar os erros não- expressão facial, tom de voz ou atitude.
amostrais.

.,_

1
L
J2 ESTATÍSTICA

1-4 exercidos A: Habilidades e fechada comporta apenas uma resposta fixa. Alguns exemplos
baseados em pesquisas Gallup.
Conceitos !Básicos Q uestão aberta: Na opi nião do leitor, que se pode fazer para redu-
Nos Exercícios 1-4, deten nine se a descrição dada corresponde zir o crime?
a wn estudo observacional ou a um experimento. Questão fechada: Qual das seguintes medidas mais contribuiria para
a redução da criminal idade?
1. Med~-se o conteúdo de alcatrão, nico~ina e monóxido de carbono
em diferentes marcas de cigarro (conforme Conjunto de Dados 4 Contratar mais policiais.
no Apêndice B ). Fazer com que os pais eduquem melhor os filhos.
2. Pede-se a fumantes que reduzam à metade o número de ciga rros Melhorar as condições sociais e econômicas nas favelas .
consumidos diariamente, para que se possam medir os efeitos so- Ampliar os esforços para reabilitação nas cadeias.
Aplicar sentenças mais severas aos criminosos .
bre a freqüência ele pu lsação.
3. Em uma turma de educação física, estuda-se o efeito dos exercí- Reformar os tribunais.
cios ffsicos sobre a pressão sanguínea. detenninando-se que meta- a. Quais são as vantagens e as desvantagens das questões aber-
de dos estudantes ande uma milha cada dia, enquanto a outra me- tas?
tade corra uma milha diária. b. Quais as vantagens e as desvantagens das questões fecha-
4. Estuda-se a relação entre os pesos de ursos e seus comprimentos, das?
tomando-se as medidas em ursos anestesiados. c. Que tipo é mais fácil de analisar com processos estatísticos
fonnais? Por quê?
Nos Exercícios 5-16, identifique o tipo de amostragem utiliza- 18. Descreva detalhadamente um método que poderia ser usado para ~1\
do: aleatória, estratificada. sistemática, por conglomerado ou obter uma amostra aleatória simples das alturas de cinco alunos de . ". ·
de conveniência. sua turma de estatística. s ·
5. Quando escreveu Women and Lave: A Cultural Revolurimz. a au-
tora Shere Hitt: baseou suas conclusões em 4.500 respostas a
!00.000 questionários distribuídos a mulheres. 1~5 Esitatistica com Ca~culadoras e
6. Um psicólogo da Universidade de Nova York faz uma pesquisa Computadores
sobre todos os estudantes de cada uma de 20 tunnas selecionadas
aleatoriamente. Um subproduto importante do programa espacial dos EU.(\ é a
7. Um sociólogo na Universidade de Charleston seleciona 12 homens invenção do chip ele microprocessador- uma invenção que teve
e 12 mull1eres de cada uma de quatro turmas de inglês. profunda influência na aplicação da estatística. A instalação de
8. A empresa Sony seleciona cada 200."CD de sua linha de produção chips de microprocessador em c<~ leu I adoras e computadores eli-
e faz um teste de qualidade rigoroso. minou a tremenda tarefa de cálculos monótonos, tornando o uso
9. Um cabo eleitoral escreve o nome de cada senador dos EUA. em da estatística mais acessível a muitas pessoas. Descreveremos
cartões separados, mistura-os e extrai lO nomes. brevemente, nesta seção, o papel das calcuJacloras e dos compu-
10. O gerente comercial da America Online testa uma nova estratégia tadores na estatística.
de vendas selecion:mdo aleatoriamente 250 consumidores com
renda inferior a $50.000 e 250 consumidores com renda de ao
menos $50.000. Calculadoras
11. O programa Planned Parenthood (Planejamento Familiar) pesquisa
SOOhomens e 500 mulheres sobre seus pontos de vista sobre o uso Os estudantes de estatística cedo descobrem que uma calculado-
de anticoncepcionais. ra é um de seus melhores auxiliares. Além de ter as operações
12. Um pesquisador de mercado da American Airlines entrevista todos básicas ( + , -, X, _,., o[ etc.), muitas calculadoras apresentam
os passag<'iros de cacla um de lO vôos selecionados aleatoriamente. hoje recursos estatísticos especiais, como média, desvio-padrão
13. Um ppsquis"dor médico da Universidade Johns Hopkins entrevis- c resultados de correlação/regressão. (Esses tópicos serão abo r-
ta todos os portadores de leuco::mia em cada um de 20 hospitais dados em capítulos posteriores.) Além de possibilitar o cálculo
seleci•.ln:1dm dieatoriamente. de expressões complicadas e de certas operações estatísticas,
14. Um rcpórte•· da revista Bttsi11ess Week entrevista todo 50. 0 gerente algumas calculadoras também permitem a introdução e annaze-
geral constante da relação das lOOO empresas com maior cotação nagem ele programas especiais a serem utilizados durante todo o
de sua' ações. curso. A TI-83 da Texas Instruments é um excelente exemplo
15. Um repóner da revista Business Week obtém uma relação nume- de calculadora perfeitamente adaptável a um curso introdutório
rada das 1000 empresas com maiores cotações de ações na bolsa, ele estatística. E programável, pode exibir gráficos e tem não
utiliza um computador para gerar 20 números aleatórios e então poucas funções eslatísticas especiais incluídas.
entrevista o~ gerentes gerai > das empresas correspondentes aos Existe um disco separado com programas escritos para a TI-
números extraídos. 82 e TI-83, e esses programas podem ser transferidos de um com-
16. Ao fazer uma pesquisa para um noticiário vespertino de Boston, putador para a calculadora. Alguns professores de estatística
um repórter da NBC entrevista 15 pessoas que saem do auditório exigem que todos os seus alunos utilizem uma calculadora TI-
da IRS. 83, outros exigem qualquer calculadora que processe estatística
bivariada e outros fi nalmente aceitam o uso de qualquer calcu-
1-4 E;{erc:fldos B: Além do Básico ladora. Para o estudante que ainda não tem uma caJculaclora, re-
comenda-se uma que seja capaz de processar estatística de duas
17. Aberta e fechada são dois tipos de questões de uma pesquisa. Uma variáveis. Qualquer que seja a calculadora escolhida, o mmlUal
questão aberta pennitc uma resposta livre, enquanto uma questão que a acompanha é um guia valioso. Em caso de dúvida, consul-

\~
Introdução à Estatísticu 13

te o manual e procure fazer os exemplos apresentados. Se ainda Para imprimir resultados :


assim ti ver dificuldade, recorra ao seu professor.
STATDISK: Selecionar File da barra principal e escolher
a opção Print.
Computadores
Minitab: Selecionru- File da barra principal e escolher
a opçã? Print 11/indow .
O computador desempenha hoje papel relevante em quase todos
os aspectos da análise estatística. A ampla diversidade de com-
Para sair do programa:
putadores e pacotes de softwru-e possibi litou a utilização da es-
tatística por pessoas com diferentes tipos de formação matemá- STATDISK: . Selecionar File da barra principal e escolher
tica, mas também crio u maior oportunidade de uso indevido da então a opção Quit .
estatística. É importante reconhecer que tanto os pacotes de soft-
Minitab: Selecionar File da barra principal e escolher
wru-e como os computadores têm uma limitação muito séria: eles
então a opção Exit.
seguem cegamente as instruções, ainda que inadequadas ou
mesmo absurdas. O computador não raciocina, e não pode for- STATDISK e Minitab são ambos capazes de realizar quase to-
mular julgamentos. A compreensão dos princípios da estatística das as operações importantes abordadas neste livro .
é pré-requisito importante pru-a a correta interpretação de resul- Apresentamos apenas algumas cru-acterísticas de STATDfSK
tados obtidos por computador. Mesmo que o leitor não venha a e Minitab, mas a utilização desses programas é abordada com
usar efetivamente os computadores neste curso, deve procurar maior detalhe em STATDISK Student Laboratory Manual and
desenvo lver habilidade em interpretar resultados de análise es- Workbook (7." edição) e em Minitab Student Laborat01y Manu-
tatística obtidos em um computador, c-omo os que ocorrem em al and Workbooic (7. "edição). As características e a apresenta-
todo este texto. ção ele alguns resu ltados dados por esses programas são também
Fru-emos referência freqüe ntemente a dois pacotes em parti- discutidos em todo este livro, sempre que adequado.
cular: O STATDISK e M initab. O STATDISK apresen ta uma Alguns professores de estatística prefere m outros pacotes
vantagem importante: é um programa fácil de ser usado. O como SPSS, S AS, BMDP, Execustat, Systat, Mystat ou
Minitab já é urn pacote estatístico de nível mais elevado, mas Statgraphics. Qualquer que seja o pacote escolhido, o estudante
também é de utilização relativamente fácil. sempre se beneftciará, melhorando seus conhecimentos em uma
Com o STATDISK e o Minitab, os programas são escolhidos área que se tornou tão importante.
de uma barra de ferramentas no topo da tela, como segue:

STATDISK: File Edit Analysis Data Help Deixe o Computador Ligado


Minitab:
Algumas pessoas costumam desligar o computador logo após o
File Edit Manip Ca le Stat Graph Editor Window término de determinado tarefo, enquan to outros deixom·no
Help ligado até que não precisem mais utilizá~o naquele dia. O
painel de circuitos e os chips do computador sofrem com esses
ciclos de ligo/desligo. Mos o monitor pode se danificar quando
Utilizando STATDISK ou Ivlinitab, podemos familiarizar-nos a mesma imagem é deixado no tela por períodos de tempo
melhor com a operação geral de um computador. Os exemplos muito longos. O tempo médio entre interrupções (MTBF = Meon
Time Between Failures) paro o disco rígido já foi de 5000 horas,
que seguem ilustram alguns aspectos básicos de STATDISK e
mos hoje é de cerca de 30.000 horas . Considerando os efeitos
Minitab: danosos dos ciclos on/off sobre o painel de circuitos e os chips
do computa dor, e o grande MTBF poro discos rigidos, foz
Para introduzir um novo conjunto de dados: sentido deixar o computador ligado até o fim do dia, desde que
o tela do mon itor posso ser protegido utilizando-se um
ST ATDISK: Selecionar Da ta da bru-ra de ferramentas e es- programo para descansar a tela. Muitas pessoas utili zam essa
estra tég ia, que se originou em parte de uma análise estatística
colher então a opção Sample Editor .
de eventos passados.
Minitab: Selecionar File da ban·a principal e escolher
então a opção New Worksheet.
1-5 !Exercidos A : !HlabiHdades e
Para salvar e nomear um conjunto de dados: Conceitos IB>ósi«:os
STATDISK Selecionar File da barra principal e escolher
então a opção Save As . Exercícios iniciais com calculadora: Nos Exercícios 1-8, as ex-
pressões apresentadas são análogas às que se encontram em
Minitab: Selecionru- File da barra principal e escolher diferentes partes do livro. Utilize sua calculadora para obter os
então a opção Save Worksh eet valores indicados.
As . ..
1. 3,44 + 2,67 + 2,09 + 1,87 + 3,11
Para abrir um arquivo de dados previamente armazenado:
STATDISK: Sclecionar File da barra principal e escolher
5
2. ~(2- 5) 2 + (4- 5) 2 + (9- 5) 1
I
então a opção Open. 3- 1

Minitab: Selecionar Fil e da barra principal e escolher 3. /3(101) - 15 2


então a opç_ão Open Worksheet . "V
>'-

't ..

L
I
~ ..... ....
~ ""~:--.~~~.,~··~~~.

14 E STATÍSTI CA

4 . (12 - 8,5) 1 + .:...(2_2_-_25-"",3-'):....2 Reconhecer a importância dos métodos de boa amostrage m. be m


com o a séria deficiênci a dos métodos viciados de amostragem
8,5 25 ,3
R econhecer que as pesquisas auto-selecionadas não podem servi r
" 1,96 2 • 0,25 de base para fom1ar conclusões vá lidas sobre uma população
-· 0.03 2
6. 102,7 - 100,0
Ex ercícios d e Revisão
14,2
,f50 1. O Laboratório de Teste de Prod utos para o Consumidor seleciona
uma dúzia de pilhas (i nd icadas como de 9 vo lts) de cada um elos
15 1
7. 9 !61 (SugesLão: 6 !=6x5 x4x3x 2xl) fab ricantes, e testa a capacidade e feti v a de cada uma.
a. Os valores obtidos são d iscretos ou contínuos?
S. 8(56,80) - ( 14,60) (26) b. Iden tifique o nível de mens uração (no minal. ord inal, interva lar.
J8(32,9632)- (14,60)' Ji;(L04)- (26 ) 2 razão) para as vo ltagens.
c. Que tipo de amostragem (aleatória, estrati licada, sistemática,
por conglomerado, de conveniência) está sendo utilizado?
d. Trata-se de um esntdo observacional ou de um expe rime nto?
1-5 Exercícios B: Além do Básko e. Q ual é o efeito relevante da utilização, pelo consum id or, de
pilhas rotuladas como de 9 volts, quando, na realidade, seu ní-
~ 9. Carregar STATDISK ou Minitab e a br ir o arq uivo do co n-
junto de dados indicado a seguir. Esses d ados já estã o ar- 2.
vel de voltagem é mu ito d iferen te?
Os pesquisadores do Laboratório de Teste de Produtos para o Con -
tDlfi mazenados. Escreva os três primeiws valo res relac ionados . sumidor testam amos tras de protetores eletrõn icos contra variações
de corrente para determinar os níveis de vo ltagem que podem da-
STATDISK: BLUE . soo (pesos de balas M & M azuis) nificar os computadores. Para cada um dos casos seguintes. deter-
mine qual dos quatro níve is de mensuraç ão (nominal, ordinal,
Minitab: ALFI\LFA. HTVJ (safras de alfafa de di versas variedades
interva lar, razão) é apropriado.
em diferen tes p lantações)

110.
a. Os níveis ele vo ltagem que causam dano .
Carregar STATDISKou Minitab e salvar as seguintes quanti- b. Postos (primeiro, segundo, terceiro etc.) por ordem de qualida-
de pa ra uma amostra ele prote tor~s.
dades de alcatrão (em miligramas por cigarro) para 15 cigar-
c. Relacionar os protetores como "recomendado. aceit{lvei, não-
ros diferentes. Salve os dados com o nome de arquivo CIGTAR. .ace itável". ...
16 16 9 8 16 13 15 9 2 15 15 9 14 6 18 d. As temperaturas das sa las em que os protetorcs são testados .
e. Os países em que os protctores foram fabricados.
Abra o arq ui vo de dados para verificar que foram realmente 3. A revista Business Week faz uma pesquisa, enviando pelo correio
salvos e obtenha uma apresentação impressa dos mesmos. um questionário a 5000 pessoas que investem em títulos. Com base
nos resultados, os edito res das revista concluem que~ maioria dos
investidores nos EUA estão pessimistas quanto à economia. Qual
o erro desta conclusão?
Vocabulário 4. Identifique cada cifra como discreta o u contínua.
a. A Nielsen Media Research Organization (Organização de Pes-
estatística nível de razão ele mensuração
quisas Nie lsen) pesquisou 2027 adulto> que assistem ao pro-
população pesquisa auto-selecionada
grama Mo11day Nigltt Footb"llna ABC.
censo estudo observacional
b. O Professor Fisher regis trou os tempos gastos por estudan tes
amostra experimento
de estatística para com pletarem um exame fina l. c o prime iro
parâmetro confund imento
resultado foi 87,25 minutos.
estatística amostra aleatória c. Kathy Patcl pesou seu livro ele e~tatística e obteve o valor ele
dados quantitativos amostra aleatória simples 1,87 lb.
d.tdo' qualitativos amostragem estratificada 5. fdentifiquc o tipo de amostragem (aieatória, estratificada, si> temá-
dadus discretos mHostragc:-n sistcrnál i~a
tica, por conglomerado, de conwniênua) utilizada cm ctda u:n do~
dados contínuos amostragem por conglomerados casos ~egul ntes:
nível nominal de mensuraç~o amostragem de coll\·cniência a. Obtém-se uma amostra ele um produto extraindo-se cada 100."
nível ordinal de mensuração cn·o amostra l unidade da linha de mon tagem .
mvel intervalar de mensuraçuo erro não-amostral b. Geram-se números aleatórios em um computador para selecio-
nar números de série de ca•Tos a 'erem escolh idos para uma
amostra de teste.
c. Um fornecedor ele peças para automóvel obté m uma amostra
Revisão de todos os itens de cada um de 12 fornecedores selecionados
aleatoriamente.
fniciamus este capítul o com um;r descrição geral da natureza da esta tís-
d . Um fabricante de automóveis faz um estudo de mercado compre-
tica e abordamos di ferentes aspt;ctos da natureza elos dados . Ilustramos
endendo testes de direção feitos por uma mnostra de IO homens
com exemplos usos e abusos da estatística. Discutimos o pl anej amento
e 1O mulheres em cada uma de quatro diferentes faixas etárias.
de experimentos enfatizando a im[Jortiincia dos métodos de boa amos-
e. Um fabricante de au tomóvei> faz um estudo de mercado en tre-
tragem . Encerramos o capítu lo Cl•ill uma rápida discussão do papel das
vistando clientes em potencia l que so li c itam tes te de di reção a
calculadoras e dos computadorc.<. Ao co mpletar o estudo deste capítu-
um revendedor local.
lo, o estudante de ve ser capaz de:
6. Agenciadores do censo constataram que ao pe rgun ta r a idade das
D isti nguir entre uma população e um a amostr a pessoas e ncontram mais pessoas com 50 a nos elo que com 49 ou
Distinguir entre um parâmetro e uma estatística 5 l. Pode explicar por que isso ocotTe?
[cientificar o nível de mcnsu raç5o (no minal, ordinal, intervalar, 7. O leitor. pretende fazer uma pesquisa em seu campu s. Onde está 0
razão) de um conju nto de dados etTO ao selecionar cada 50.0 estudante que sai da la nchone te?

~
Introdução à Estatísti<:<t 15

8. O Southport Chronicle reportou que uma corrida preliminar foi 2. Observe a figura a seguir. É semelhante a uma a que Edwin Tufte,
assistida por 8725 pessoas. Comente. · autor de The Visual Display of Quantitatíve Data, se refere quan-
do observa: "Este pode muito bem ser o pior gráfico jamais dado à
imprensa". Observe que o gráfico relac iona "quase por acaso, ape-
Exercícios Cumulativo s d e Revisão nas cinco conju ntos de dados (pois a d ivisão demro de cada ano
soma 100 por cento)". Examine primeiro o gráfico e identifique a
Os exercícios cumulativos de revisão deste livro destinam-se a incor- informação que ele procura transmitir. faça então um novo gráti-
porar algum material de capítulos anteriores, uma caracrerísrica que co retratando a mesma situação.
será implementada IZOS capitulas seguintes. Os exercícios desta seção
utilizam conceitos aprendidos antes do esllldo deste livro.
1. A pergunta seguinte, feita em uma pesquisa, teve repercussão quan-
do as respostas sugeriram que cerca de 22% dos americanos acha-
Proje to paro Computador g
vam que o holocausto pode não ter ex istido. Recorra ao Conjunto de Dados 2 no Apêndice B e considere as I06 tem-
peraturas (em graus Fahrenheit) encontradas na última coluna (Dia 2,
"Acha possível ou impossível qu e a exterminação de j udeus
12 horas). Os pesquisadores da Universidade de Maryland coletaram
pelos nazistas nunca tenha existido?"
dados sobre a temperatura do corpo humano e constataram que a média
Uma pesqu isa subseqüente revelou que os que responderam pro- não era de 98,6°F, valor que quase todos nós supomos ser a média cor-
vavelmente se sentiram confusos pela dupla negativa da frase. Eis reta. Utilizando o STATDISK ou o Minitab, introduza as 106 tempera-
uma formulação adequada em uma pesquisa Roper subseqüente: turas e as salve sob o nome BODYTEHP.
O objetivo deste projeto de computador é introduzi r os dados e
"Acha possível que a exter m inação de judeus p d os naz istas armazená- los em um disquete de computador. Isso permitirá term os
j amais ocorreu, ou está certo de q ue realmen te aconlcccu ?"
os dados disponíveis para us5-Ios no Capítulo 2, contribuindo tam-
Esta segunda versão parece substancialmente menos confusa? Pode bém para aumentar sua capacidade de introduzir e. armazenar dados
formular a questão de modo que ela se apresente ainda mais clara em um computador- uma técnica criticamente importante nos dias
do que nas duas versões? atuais.

ESTRUTUR.A ETARIA DA
MATP..ÍCULA EM FACULDADES

72.0

~"'
"
'~
~
"
"5""
~
~
~
"'
~
""
~
.e

1972 1973 1974 1975 1976 ,.


~L

~.
,j
: , - - - - - - - - - - ...~- --- ·- -- - ~l"~;:~.-~.--:.~·~..;~,-::-~1--: --:r:t.·!O:·:'!x.-.: . •. ,.:-"'"'"=::---:~"":".~

16 EsTATiSTICA

Dados Mal Repre sentados


Obtenha um exemplo de um jornal ou uma revista em que os pio foi tirado. Explique como a apresentação é enganosa e
dados tenham sido apresentados de maneira enganosa. Iden-- sugira uma forma· mais honesta de apresentar os dados.
tifique a fonte (i ncluindo data de publicação) de onde o exem-

1. Atividade extraclasse: Divida em grupos de cinco eco- 2. Atividades na classe: Divida em grupos de três ou quatro e
lete 50 valores utilizando amostragem aleatória, confor- utilize os dados a seguir para construir um gráfico que exa-
me descrita na Seção 1-4. Repita então a coleta de 50 gere os aumentos nos pontos altos da Média Industrial Dow
valores para cada um dos outros quatro métodos de amos- Jones. Construa ourro gráfico que minimize a impOttância
tragem: estrati ficada, sistemática, por conglomerados e desses aumentos, e fin almente construa um terceiro gráfico
de conveniência. Em cada caso, calcule a "média". (A que represente os dados sem qualquer tendenciosidade.
média é definida no Capítulo 2 e se obtém somando-se
Década 1950 1960 1970 ] 980
todos os valores e dividindo-se o total pelo número ele
valores.) Descreva inicialmente, com detalhe, o proces- Dow Alto 683 995 1.052 2.796
so utilizado para cada método de amostragem; relacione
então os valores e compare as cinco médias. Os diferen- 3. Atividades na classe: Divida em grupos de três ou quatro.
tes métodos parecem dar os mesmos resultados? Os da- Suponha que deve fazer uma pesquisa j unto a estudantes
dos devem ser extraídos de uma população como idades de tempo integral ele sua faculdade. Planejc e descreva de-
dos livros em uma biblioteca, ou idades dos carros no es- talhadamente um processo para obter uma amostra alea-
tacionamento da faculdade. tória de 100 estudantes.

~
•,

ent is ta
Paul Mones

Paul Manes é advogado, autor e consultor. Escreveu When o Child Kills: Abused Children Who Kil/ Their Porenls. Escreveu também Stolking Justice,
o verdadeira história de um detetive que utilizou pela primeira vez impressões digitais DNA para apanhar um assassino contumaz. Foi entrevistado
em muitos programas importantes nos EUA, na Europa e na Austrália, inclusive "60 Minutos", "20/20" e "Larry King live". Seus comentários
apareceram em jornais e revistas como o New Yark Times e Time; foi correspondente legal poro "NBC News". Treina médicos, advogados e
oficiais de justiça, e testemunho perante comissões legislativos.

O senhor utiliza a estatística em seu trabalho peritos. Nos casos de morte acidental, por exemplo, costumam
como advogado? recorrer a estatísticos para obter dados atuariais sobre a vida
provável de alguém. E raro o advogado que sequer entende o que o
Utilizo extensamente a estatístico em meu trabalho. Com o estatística está d izendo, de forma que seria recomendável que
dactiloscopia DNA, por exemplo, consideramos vários fatores e qualquer pessoa desejosa de ingressar na carreira de advogado,
determinamos a probabilidade de obter uma seqüência específico de estudasse estatística.
genótipos nas mesmas pessoas. Costumá•tomos atentar poro três /oci
(posições que os genes ocupam nos cromossomas); em seguido
possamos paro cinco, mos agora estamos em sete. Estudamos uma O senhor utiliza a estatística· em seu trabalho
amostra de referência e uma amostro de comparação para ver a com abuso d e crianças e violêrttcia?
freqüêncio com que determinado seqüêncio ocorre. Se o seqüêncio de
Tenho grande interesse na relação entre abuso de crianças e
um suspeito coincide em sete loci, existe uma boa chance de o suspeito
violência, e uma das melhores formas de convencer as legisladores,
ser culpado; em seguido dete rminamos o freqüêncio daquela ;eqüêncio
ou jurados, ou audiências é utilizar a estatístico. Entre os adolescentes
no população. Em Stolking Justice, os chances eram de 1 em
que matam seus pais, sabemos que um dos maiores Fatores de risco
750.000.000 de outro pessoa ter o mesmo perfil DNA do acusado no
ocorre quando as crianças vêem seus pais espancarem suas mães. O
coso. Aplicamos o teste de hipóteses e determinamos o nível de
estada do Texas fez uma pesquisa e constatou que, entre os meninos
significância poro o perfil DNA específico. O DNA é também muito
que cometeram homicíd io, 66 par cento haviam matado alguém q ue,
importante em investigações de paternidade e casas de estupro. Com
de alguma forma, fizera mal ás suas mães. Quanto mais conhecemos
os testes convencionais de sangue-enzima, poderíamos chegar a cerca
acerco de uma população, mais sabemos que pesquisas estatísticos
de 10% do população. Isso significa que há uma chance em 1O de o
devemos lazer.
culpado nõo ser o acusado. Com o doctiloscopia DNA, temos uma
chance em 300.000.000, e entramos a ssim no domínio do
inevitabilidade estatístico. O processo é usado nõo somente poro Recomenda a esta~ística para o s alurttos de
condenar pessoas, mas também paro excluir suspeitos. Há um caso universidades hoje?
famoso no Carolina da Norte, em que duas testemunhos oculares
testificaram que o acusado era um estuprodor. Ele Ficou preso 11 anos, A estatística não é somente para as que lidam com ciências exalas.
mas foi liberado quando o DNA mostrou que ele nõo era o culpado. Proporciona importantes recursos para ós que desejam tornar-se
Nesse caso, o estatístico e o DNA se revelaram muito mais precisos do advogados, médicos, enfermeiros ou policiais. Verifiquei que posso
que as identificações por testemunhos oculares. apreciar melhor notícias sobre eventos, notícias financeiro s e
Tenho utilizado a esta tística em casos de homicídio, de abusos de demonstrações de lucros e perdas para ações. A estatístico é mais
crianças, de mulheres espan.:odas e de paternidade. Nos casos de importante do que boa parle da matemática básica ensinada . Utilizo
paternidade hoje, os resultados da DNA são tão precisas que todo o muita mais a estatística da que a geometria ou a trigonometria .
sistema de julgamento está sendo abreviado. Os condenados
simplesmente não vão a julgamento quando os resultados da DNA são Que ouh::os conhecimentos são importantes
bastante claros. Uma dúvida razoável se transforma em nenhuma para. o .. universitário de hoje?
dúvida. A grande pergunta é: "A estatístico é tõo poderoso a ponto de
tirar do júri suo responsabilidade de tomar decisões?" Há exceções, Em uma épocá em que tudo está sendo computadorizado, as pessoas
mas, no maioria dos casos, a presença de uma Forte evidência estão dando cada vez menos atenção à comunicação, de forma que
estatístico é um instrumento e ficiente poro o tomada de decisões. a arte da palavra falada está sendo um tanto negligenciada. Pode
haver milhões de pessoas capazes de utilizarem um computador, mas
muita poucas em condições de se dirigirem o uma assembléia. As
Como advogado que faz extenso uso da pessoas pe~isam também ter capacidade de comunicar suas idéias
estatística, o senhor acha que todos os por escrito.
advogados deveriam conhecer os princípios
da estatística?
Eles necessitam de muito mais. Se queremos dominar efetivamente
nosso e vidência, devemos ter algum Fundamento estatístico. O
problema é que, hoje, os advogadas costumam recorrer a outros

17

t
'1
R~Ü<.N\-e AYl c:! ('~de
.-
"\
~
Trio la

Descrição, Exploração e
Compcuraçã@ de Dados

2-1 Aspectos Gerais dados. Defmimos as seguintes medidas de tendência


central: média, mediana, moda, ponto médio e média
O capítulo apresenta tabelas, gráficos e medidas ponderada. Abordamos também o conceito de
importantes que podem ser utilizados para descrever ou assimetria.
explorar um conjunto de dados, ou comparar dois ou
mais conjuntos. Em capítulos posteriores serão utilizados
muitos conceitos importantes ora introduzidos.
2-5 Medidas de Variação
As medidas de variação são números que refletem o
2<2 Resumo de Dados com Ta belas de grau ele dispersão entre os valores de um conjunto de
Freqüência dados. Definem-se as seguintes medidas de variação:
amplitude, desvio-padrão, desvio médio e variância.
Descreve-se a construção ele tabelas de freqüência, Tais medidas têm extrema importância em análise
tabelas de freqüência relativa e tabelas de freqüência estatística.
acumulada. Essas tabelas são úteis para condensar
grandes conjuntos de dados, facilitando o seu manuseio.
2-6 Medidas de Posição
2-3 Representação Pictórica de Dados Define-se o escore padronizado (ou escore z), mostrando
como identificar valores atípicos. Definem-se também
Apresentamos métodos de construção de histogramas, percentis, quartis e decis, utilizados para comparar
hi stogramas de freqüências relativas, gráficos por valores dentro do mesmo conjunto de dados.
pontos, gráficos tipo ramo-e-folha, gráfico em setores,
diagramas de Pareto e diagramas de dispersão. Tais
gráficos auxiliam grandemente a visuali zação de
2~7 Análise Explo ratória de Dados
características dos dados que, de outra forma,
permaneceriam encobertas. · (EDA- Exploratory Data Analysis)
Apresentamos técnicas para explorar dados com o
resumo de cinco números e com diagramas de caixas
2-4 Medidas de Tendência Central (boxplots). Estes últimos são especialmente adaptados
para comparar diferentes conjuntos de dados.
As medidas de tendência central são tentativas de
determinação de valores que representam conjuntos de

-
.:·
'·•.•

·'·
~:

;~
~~

,,,,:j
.~

11
·l
~1
~=-=~----'--....;-'-------•;;;..,;,.,;;;;;;;;,o;;;;,;o;;,;·;o--.....,.;w;;:....~.,-;....:=:-~.,..;:;Y,:p,....~.!·~·' ...~.· ··:,:;:: :;: ...• ::·· .:~· .:~::--:::--. _.·....•. ;~:_:~:~:.:....-:-..~.~.:-,---~·
,..,---·
, I
I

Descrição, Exploração e Comparação de Dados 19

Problema do Capítulo
As lat as de alumínio de 12 oz podem ter menor
espessura para reduzir o custo?

O Conjunto de Dados 15 do Apêndice B inclui estas duas TABElA 2·1 Corgm Axiais de laias de 0,0109 in. (0,0278 cm)
amostras: 270 'l13 258 204 254 228 282
1. Latas de alumínio de 12 oz com espessura de 0,0109 in. (122)' {124) (117) (93) {115) (103) (128)
278 201 264 265 223 274 280
(0,0278 cm) (reproduzido como Tabela 2.1) (126) (91) (119) {120) (101) (:24) (104)
2. Latas de alumínio com espessura de 0,0111 in. (0,0282 cm) 250 275 281 271 263 277 275
(113) (125) (127) (123) (119) (126) (125)
Exploraremos os valores da Tabela 2.1, que relaciona as cargas 278 260 262 273 274 286 236
axiais (em libras) da amostra de latas de alumínio de 0,0109 {126) (118) (119) (124) {124) {130) {207)
de espessura. Este conjunto de dados foi fornecido por um 290 286 278 283 262 277 295
(132) (130) (!26) {128) {119) (126) {134)
estudante que utilizou a edição anterior deste livro. Trata-se 274 272 265 275 263 251 289
de uma funcionária da companhia que fabrica essas iatas; ela (124) {123) (120) {125) {119) (114) (131)
utiliza métodos aprendidos em seu curso introdutório de 242 2B4 241 276 200 278 283
{110) (129) (109) (125) {91) (126) (128)
estatística. O au~or agradcc~J essa contribuição.
269 282 267 282 272 277 26i
A car·ga axial de uma lata é o peso máxima suportado por (122) (i28) {121) (i28) (123) (126) (118)
. '
seus lados, e é medida utilizando-se uma placa para aplicar uma 257 27e· 295 270 268 286 262
pressão crescente ao topa da lata, até que ela ceda. É {117) (126) (134) (122) {122) (130) {119)
272 268 283 256 206 277 252
importante t:ermos uma cargd axial suficientemente grande a fim (123) (122) (128) (ii6) (93) (126) (114)
de a lata não ceder quando se coloca a tampa sob pressão. 265 263 281 268 280 289 283
Nesse processo dB fabricação, os wpos dês latas são colocados (í20) (119) (12.7) (121) (127) {131) (128)
263 273 209 259 287 269 277
no lugar com uma pressão que varia de 158 a 165 libras. (119) {124) (95) (117) {130) (122) (126)
As !atas menos espessas têm a vantagem Óbvia de utilizar 234 282 276 272 257 267 204
menos materiai, o vJUe mduz o custo, mas não são (104) (128) (125) {123) {117) (121) (93)
270 285 273 269 284 276 286
pro\'av>:lrnente tão rc:sistentes quanto as mais espessas. A
(122) (129) {123) (122) (129) (125) (130)
empn:sa que fabnca essas latas costuma utilizar urna 273 289 263 270 ·279 206 270
espessura de 0,0111 in. mas está testando la-r;as de menor (124) (131) (119) {122) (127) (93) (122)
270 268 218 251 252 284 278
espessura. Com os métodos deste capítulo, exploraremos o
(122) (122) (99) (114) (114) {129) (126)
conjunto de dados (reproduzido na Tabela 2-1) para essas 27/ ?.08 271 208 280 269 270
latas menos cseessas (0,0109 in . •1e espessura). E (126) (94) (123) (94) (127) (122) (122)
determinar Ji('0, • firui, se essas li.it?-~- menos espessas 294 292 289 290 215 2B4 283
(~33; ·:12) i!3:~ (132) {3.5) (i2:J) (128)
pod.;rr tc.:7h"'"'t: ' •Cr :b.1Ôa0. 27';) 275 ?23 2'20 281 268 272
(127) (:25) (101) {100) (127) (121) (123)
268 279 217 259 291 291 2&1
(122) (127) (9Bi (117) {132) (132) (127)
230 276 225 282 276 289 288
{104) (125) (102) {128) (125) (131) (131)
268 242 283 277 285 293 248
(122) (110) (128) (126) (129) (133) {112)
278 285 292 2B2 ?.87 277 266
(126) {129) {132) (128) {130) (126) (121)
268 273 270 256 297 280 256
(122) {124) {122) (116) (135) (127) (116)
262 268 262 293 290 274 292
(119) (122) (119) (133) (132) (124) (132)
·o:; ,rúr.;.::;-w entre p.1rGntt5ts ::Jo J=- cxq;; .w~ ani'g.
20 EsTATÍSTICA

2-1 Aspectos Gerais l!)té!FH!N!DÇÃ@


'
Às vezes coletamos dados visando a um fim específico. Por Uma tabela de freqüências relaciona categorias (ou·
exemplo, um estudo sobre a segurança dos elevadores de um classes) de valores, juntamente com contagens· (o u
edifício exigiria dados relativos ao peso médio das pessoas que freqüências) do número de valores que se enquadram em
os utilizam. Em outros casos, coletamos ou obtemos dados não cada categoria.
com uma finalidade específica, mas porque desejamos explorá-
los para ver o que pode ser revelado. A um geólogo podem
interessar os intervalos de tempo entre as erupções do gêiser Old A Tabela 2-2 é uma tabela de freqüências com 10 classes (ou
Faithful - são elas igualmente espaçadas ao longo do tempo . categorias). A freqUência de dctenn.inada classe é o número de
ou alguns intervalos de tempo são mais freqüentes do que outros? observações otiginai s que se enquadram naquela classe. Por ~-,
Em ambas as circunstâncias, necessitamos de uma diversidade exemplo, a primeira classe na Tabela 2-2 tem uma freqüência de · .
de recursos que contribuam para entendermos o conjunto de 9, indicando que há 9 valo res entre 200 e 209 inclusive. 1
dados. Este capítulo apresenta tais recursos .
Ao analisarmos um conjunto de dados, devemos determinar
TABELA 2-2 Cargas Axiais de Latas
em primeiro lugar se se trata de uma amostra ou de uma
de Alumínio
população completa. Essa determinação afetará não somente
os métodos utilizados, mas também as conclusões a que Carga
chegarmos. Utilizamos métodos de estatística descritiva para Axial Freqüência
resumir ou descrever as características importantes de um
200-209 9
conj unto conhecido de dados popu lacionais, e recorremos a
210-219 3
métodos de inferência estatística quando utilizamos dados 220-229 5
amostrais para fazer inferências (ou generalizações) sobre uma 230-239 4
população. Quando um professor calcula a média flllal de um 240-249 4
exame para determinada turma, o resultado é um exemplo de 250-259 14
uma estatística descritiva, se consideramos a população como 260-269 32
toda a tu rma. Mas se afirmamos que o resultado é uma 270-279 · 52
estimativa da média do exame final de todas as turmas, estamos 280-289 38
fazendo uma inferência que ultrapassa o âmbito dos dados 290-299 14
conhecidos.
A estatística descritiva e a inferência estat[stica são dois
grandes ramos da estatística. Neste capítulo abordamos os Começaremos apresentando alguns termos-padrão no estudo
conceitos básicos da estatística descri ti v a. de tabelas de freqüência e, em seguida, descreveremos um
processo para construí-las. (Há vários pacotes estatísticos que
constroem essas tabelas automaticamente. )
COJracterísticas Importantes dos Dados
Com os recursos da estatística descritiva, podemos entender @UQ~II~ÓIE$
melhor um conjunto de dados através de suas características. As·
três características seguintes· são extremamente importantes e Limites Inferiores de Classes são os menores números que
proporcionam uma visão bastante satisfatória: podem efetivamente pertencer às diferentes classes. (Na
Tabela 2-2 os limites inferiores de classe são 200,210, ... , 290.)
1. A natureza ou forma da distribuição dos dados. como fomn
de sino, uniforme ou assimétrica. Limites Superiores de C lasses são os maiores números
2. Um valor representativo, como uma média. que podem efeti vamcntc pertencer às diferentes classes. (A
3. Uma medida de dispersão ou vatiação. Tabela 2-2 tem os limites superiores de dasse 209, 2l9,
Podemos conhecer alguma coisa da natureza ou forma da ... , 299.)
distribuição organizando os dados e construindo gráficos, Fronteiras de Classes são os números usados para separar
como nas Seções 2-2 e 2-3. Na Seção 2-4, veremos como obter classes, mas sem as lacunas criadas pelos limites de classe.
valores representativos. Avaliaremos a extensão da dispersão, São obtidos como segue: Determinamos o tamanho da
ou variação entre dados, com auxílio dos recursos da Seção lacuna entre o limite superior de uma classe e o limite
2-5. Na Seção 2-6 definiremos medidas de posição que nos inferior da classe seguinte, adicionamos metade desse valor •',•
permitem melhor analisar ou comparar diversos valores. E na a cada limite superior de classe, obtendo as frontei ras
Seção 2-7 estudaremos métodos de exploração de conjuntos superiores de classes; subtraímos metade daquele valor de
de dados. cada limite inferior de classe, obtendo as fronteiras
inferiores de classe. (Na Tabela 2-2 as fronteiras de classe
são 199,5 , 209,5, 219,5, ... , 299,5.)
2-2 Resumo de Dados ~om if©lbel@$ Marcas de Classe são os pontos médios das classes. (Na
de Freqüênda Tabela 2-2 os pontos médios são 204,5, 214,5, ... , 294,5.)
Cada marca de classe é obtida somando-se o limite infe1ior
Ao estudarmos grandes conjuntos de dados, é conveniente ao li mi te superior correspondente, e d ividindo-se o :::'
organizá-los e resumi-los, construindo uma tabela de freqUê ncias. '·'
- resu ltado-por-2. ·-· ··- ···- --- --···· ··---· ....... ·- . .. ·-- ·--- --· :.,;.
)!
·l
~~
:j
;~
.,
p
:..------------~- -~--.. - -- :, .•.• .-~--~::;;-~~·- , :·.·:· •.-: :; .::-_: ~: ~:~~~::~ -~ ... ::::;?~~~:.::::-~:Z--~~

Descrição, Ex.ploraçiio e Comparação de Dados 21

Amplitude de Classe é a diferença entre dois limites de


classe inferiores consecutivos o u entre duas fronteiras -~ ·

inferiores de classe consecutivas. (Na Tabela 2-2 a


amplitude de classe é 10.)

As definições de marca de classe e fronteira de classe podem


ser enganosas. Devemos ter o cuidado de evitar o erro de tomar
como amplitude de classe a diferença entre o limite inferior de
classe e o correspondente limite superior. Veja a Tabela 2-2 e
note que a amplitude de classe é lO, e não 9. (Os estudantes
costumam ter dificuldade com as fronteiras de classe. Veja a
discussão na seção seguinte.) Observe os limites ele classe na
Tabela 2-2 e note que há uma lacuna entre 209 e 210, outra entre
219 e 220 e assim por diante. As frontei ras de classe
basicamente dividem diferenças e preenchem as lacunas, Autores Identificados
facilitando a construção de certos gráficos. Examine cuidado- Em 1787-88 , Alexonder Hamilton, John Joy e James Modison
samente, durante algum tempo, a definição de fronteira de publicaram anonimamente os famosos panfletos Federalist, como
classe. até ler entendido perfeitamente. uma tentativo de convencer os novo-iórquinos o ratificarem o
O processo de construção de uma tabela de freqüên cia envolve nascente Constituição. A identidade do maioria dos autores dos
os seguintes passos: panfletos tornou-se conhecido, mos o autoria de doze deles foi
contestado. Através do análise estotistjca dos freqüêncios de
Passo 1: Decidir o número de classes de sua wbela de diversos palavras, podemos agora concluir que James Madison
}i"eqiiência. A título de orientação, o número de foi o autor provável desses 12 panfletos. Em muitos deles, o
evidência do ouiorio de Modison é esmagadora, o ponto de
classes Jeve fic:tr entre 5 e 20. O número efetivo de podermos considerá-lo praticamente certo.
classes poJe depender da conveniência de utilizar
números arredondados ou de outros fatores subje-
tivos. Com notas de testes, por exemplo. pode ser
EXEMPLO Construa uma tabela de f reqüências pan as 175
conveniente utilizar 1O classes: 50-54, 55-59, 60-64,
cargas axiais de latas de alumínio da Tabela 2-1.
.. '95-99.
Passo 2: Determinar a amplitude de classe, dividindo a SOLUÇÃO Indicaremos os passos que conduzem à tabela de
amplitude pelo número de classes. (A amplitude é a freqüências mostrada na Tabela 2-2.
diferença entre o maior e o menor valor.) Arredonde
o resultado para mais, até um número conveniente. Passo 1: Começamos escolhendo 10 como o número de
Esse arredondamento para mais não somente é classes. (Muitos estatísticos recomendam de modo
conveniente como também garante que todos os geral o uso de 1Oclasses, mas utilizam um número
valores sejam incluídos na tabela de freqüências. (Se menor de classes para conjuntos menores de dados,
o número de classes divide exatamente a amplitude, é e um número maior para conjuntos maiores.)
preciso acrescentar mais uma classe para que todos os Passo 2: Com um minimo de 200 e um máximo de 297, a
dados sejam incluídos.) amplitude total é 297 - 200 = 97.

. de de c1asse =
AmpI1tu amplitude arred ond ado para mazs
. intervalo de classe= [medondamento de 97 para cima
número de classes 10
:medondamentn de 9,7 p:1ra cima
10 (arredondamento para cima pela
Passo 3: Esc:oilta como limite inferior do primeira classe o
conveniência de termos um
.nellot :1a[o,. observado ou um valnr ligeiramente
número inteiro)
it'ferior a ele. Esse valor serve como ponto de partida.
Passo 4· Some a amplitude de classe ao ponto de partida, Passo 3: O menor valor é 200. Como é um valor conveniente,
obtendo o segundo limite inferior de classe. Adicione tomamo-lo como ponto de partida e limite inferior
a amplitude de classe ao segundo limite inferior para da primeira classe.
obter o terceiro; e assim por diante. Passo 4: Adicionando a amplitude de classe 10 ao limite
Passo 5: Relacione os limites inferiores de classe em uma inferior 200, obtemos o próximo limite inferior 21 O
coluna e introduza os limites superiores, que podem Prosseguindo, obtemos os outros limites 220, 230
ser facilmente determinados a esta altura. etc.
Passo 6: Represente cada observação por um pequeno traço na Passo 5: Esses limites infetiores sugerem os seguintes limites
classe apropriada e, com auxílio desses traços, superiores de classe:
determine afreqiiência rotal de cada classe.
~ /
Como a determinação do número de classes ainda não é uma 200 209
imposição legal, podemos tomar um número diferente de classes 210 219
que resulte em uma tabela de freqüências diferente e igualmente etc .
a
correta. Novamente frisamos que a prioridade deve ser a obtenção Passo 6: A coluna direita da Tabela 2-2 apresenta as conta-
de uma tabela com valores convenientes e compreensíveis. gens, ou freqüências.

;_
22 EsTATÍSTICA

A Tz.bela 2-2 nos dá informações úteis tornando a lista de TABELA 2-4 Freqüência Acumu lada
cargas ru<iais mais inteligível, mas perdemos a precisão dos dados
originais. Por exem plo, a primeira classe 200-209 indica 9
observações, mas não há maneira de sabermos, pela tabela, quais
das Cargas Axiais
Carga Freqüência
i
Axial Acumulada
são precisamente esses valores. Não podemos reconstruir os 17 5
valores ini ciais das cargas axiais com b ase na tabe la de Menos de 210 9
freqüências ; sacrificamos a exatidão dos dados originais para Menos de 220. 12
termos dad os mais compreensfveis. Menos de 230 17
Na construção de tabelas de freqüência, devemos observar as Menos de 240 21
seguintes diretrizes: Menos de 250 25
Menos de 260 39
L As classes devem ser mutuamente excludenles. Ou seja, cada Menos de 270 71
valor original deve pertencer exatamente a uma, e uma só Menos de280 123
classe. Menos de 290 161
2. Todas as classes devem ser incluídas, mesmo as de freqüência Menos de 300 · 175
zero.
3. Procurar utilizar a mesma amplitude para todas as classes,
embora eventualmente seja impossível evitar intervalos com As tabelas de freqüência relativa facilitam a compreensão da
extremidade aberta, como "65 anos ou mais". distrib uição e a comparação de diferentes conjuntos de dados.
4. Escolher números convenientes para limites de classe. Assim, é mais fácil dizer que 5,1% das latas têm carga axial entre
Arredondar para cima a fim de ter menos casas decimais, ou 200 e 209 lb do que dizer que 9 das 175 latas têm carga axial
utilizar números adequados à situação. entre aq ueles valores. Veja também o Exercício 21 , para exemplo
5. Utiliza r entre 5 e 20 classes. de uma situação em que a comparação é facilitada pelo uso de
6. A soma das freqiiências das diversas classes deve ser igual tabelas de freqüência relativa.
ao número de obsava(ões originais.
Tabele de Freqüências Acumuladas
Tabela de Freqüências Relativas
Obtemos outra variante da tabela de freqüências quando desejamos
Uma modalidade importante da tabela básica de freqüência utiliza as freqüências acumuladas. A freqüência acumulada de uma
freqUências relativas, que se obtêm dividindo a freqüência de classe é a soma das freq iiências daquela classe e de todas as classes
cada clas~e pela freqüê nci a total. A tahela de freqüências que a antecedem. A Tabela 2-4, que representa as mesmas 175
. relativas. tem os mesmos limites de classe que a tabela de latas de alumínio da Tabela 2-2, é um exemplo de tabela de
freqüências; apenas, apresenta freqüências relativas em lugar das freqüência acumulada, onde se registram as freqüências
freqüênc ias absolu tas. acumuladas em lugar das freqüências das classes individuais. A
comparação da coluna de freqüências da Tabela 2-2 com a coluna
..• . . freqüência da classe de freqüências acumuladas da Tabela 2-4 mostra que os valores
f requencw re1at1va =
freqüência total das freqüências acumuladas se obtêm partindo da freqUê ncia da
primeira classe e somando sucessivamente as freqUências de cada
A Tabela 2-3 apresenta as freqüências relativas das 175 cargas
classe subseqUente. Por exemplo, há 9 valores inferiores a 210, 9
axiais res umidas na Tabela 2-2. A primeira classe tem uma
freqüência relativa de 9/175 = 0,051. (As freqüências relativas
+ 3 = 12 valores inferiores a 220 e assim por diante. Construída
corretamente, a última freqüência acumu lada deve ser igual ao
também podem ser apresentadas como porcentagens; isto é, 0,051
total de observações no conjunto.
pode expressar-se como 5,1 %.) A segunda classe tem uma
Com as tabelas de freqüência, podemos identificar a natureza
freqUência relativa de 3/173 == 0,0 17 etc. Quando calculadas
geral da distribuição dos dados, bem como construir gráficos que
corretamente, a soma das freqüências rebti vas deve ser 1 (ou
fa cilitem a visualização dessa distribuição. Na próxima seção
100% ), admitindo-se pequenas discrepâncias como conseqüência
estudaremos esses gráficos.
de anedondamentos.

TABELA 2 -3 Freqüência Relativa das 2-2 !i:xerddos A: H<!:!lboiidades e


~ Cargas Axiais de Latas de Alumín io Ccrnceivos !Biaskos
~
Carga Freqüência
Axial Relativa Nos Exercícios 1-4, identifique, para cada tabela de freqiiências,
a amplitude da classe, os pontos médios das classes e as
200-209 0,051 jimzteiras de classe.
210-219 0,017
220-229 0,029 l. Ausências I Freqüência 2. Ausências !Freqüência
230-239 0,023
240-249 0,023 0-5 39 0-9 22
250-259 0,080 6-11 41 10-19 40
260-269 0,183
270-279 0,297 12-17 38 20- 29 71
280-289 0,217 1&-23 40 30-39 44
-.,
290-299 0,080
24-29 42 40-49 23

.J
·;.:
'-~----------~-----·-------------.........._ _ _.......,...,.,..;..;;;;;;;;;,.;;.;;;"t...... - · ,:,:::-:;r-;';';:,;;:-; .~""ijo .;;~ o-:'':'"'"~"-"3:i:~:~~ ~~
1 '" --·--

Descrição. Exploração e Comparação de Dados 23

3. Peso (kg) Freqüência 4. Peso (kg) Freqüência é difícil comparar as freqUências originais, mas é muito mais fácil
comparar as freqüênc ias relativas .
0,0-1,9 20 0,0-4,9 60
Etanol Consumido
2.0-3 ,9 32 5,0-9,9 58 por Homens (oz) Freqüência
4 .0-5,9 49 10,0-14.9 61
0 ,0-0,9 249
6,0- 7,9 .. 31 15,0-1 9.9 62
1,0- 1.9 929
8,0-9,9 18 20 ,0-24,9 59
2,0- 2,9 1545
No s Exercícios 5-8, constma a ta /}(da de fr eqiiências re la-
tivas correspo ndente à tab ela de freqiiê ncias do exe rcício 3,0-3,9 2238
indicado. 4,0-4,9 1139
5. Exercício l 6. Exercício 2 5,0-9.9 3560
7. Exercício 3 S. E xercício 4 10,0- 14,9 1849
Nos Exercícios 9-12, construa a tabela de freqüências acumuladas 15,0 ou mais !546
co rrespondente à tabela defreqüências do exercício indicado.
Etanol Consumido
9. Exercício 1 10. Exercício 2 por Mulheres (oz) Freqüência
11. Exercício 3 l2. Exercício 4
13. Compare a dLvtribuição de dados do Exercício I com a distribuiçlio 0,0-0,9 7
de dados do Exercício 2. Qua l é a diferença básica? 1,0-1,9 .52
14. Compare a distrib uiçüo elos da d os do Ex ercíc io 3 com a
2,0- 2,9 125
distribuição de dados do E:\crcíciu 4. Qual é a di ferença bási ca?
3 .0-3,9 191
Nos Exercícios 15-16, us!' a 'nfonnação dada para dete rminar 4,0- 4,9 30
limites superior e inferior da primeira classe. (Os dados constam
do Apêndice 8, mas não é rreciw recorre r ao apêndice para 5 ,0-9,9 20 1
esses !!f.Xercicios.) 10,0-1 4,9 43
15. Um conJunto de dados constste cm r~.sos de metal colctados de lares 15,0 ou mai s 72
em uma semana; esses pesos vmiam de 0,26lb a 4,95 Ih. Desejamos 22. A seguir são listados doi s conjun tos de dados que se supõe serem
construir uma tabela de freqüêncius com 10 classes.
a s a lt ur as (em pole gad as ) de homen s a dultos e sco lh idos
16. Urna amostra de bo mbons M&M tem pesos que vão de 0,838 g a
a le a toriamen te. Um conJunto co nsi ste e m altu ra·s obtid a s
1,033 g. Desejamos construir uma tabela de freqüências com 12
efetivarroente de um conjun to aleatóri o de homens adultos, mas o
classes.
outro conj unto consiste em números "fabric ados". Construa uma
~Nos Exercícios 17-20, construa ll.'liú tabela de f reqiiências com tabela de freq üências para eada conjunto de dados. Exruninando
run os valores indicados. as duas tabelas de freqüências, identi fi que o conj un to que lhe parece
ser fal so. e justifique sua con c l~ s ão.
17. Para o Conjun to de Dados 3 do Apcndice B, construa uma tabel a
de freqüê ncias dos pesos de ürsos . Tome 11 classes, começando a. 70 73 70 72 7 1 73 71 67 68 72 67 72 71 73
com O como li mite infe rior de classe. 72 70 72 68 71 7 J 71 73 69 73 71 66 77 67
18. Para o Conjun to de Dados 2 do Apêndi ce B, constnw uma tabela b. 70 73 70 72 7 1 66 74 76 68 75 67 68 71 77
de freqiiênci:~s das tcmperalur[.s :; m~ i il-no ire do segundo dia. Tome 66 69 72 67 77 75 66 76 76 77 73 74 69 67
8 classes. com~ç:mdo <'0111 <:l6,5 c;,·rno limite inferior. 23. A tabe la ele frequênc ias a scgurr resu me dados do Departamento
19. Para o Conj unto de D~dos 16 cl" .r2nd ice B , cons trua uma tabe la do Censo Jos EUA Rewrde as 5 di retrizes para construção de
de freqücncias para O> int.:nalc:;; dt •empo entre erupções do gêiser tabelas t!e frcqüências e :cienti fique as diretri zcs qu e não foram
Old F<~ i thful no Parq ue Nacional ,;.._ Yell ows lone. Tome 7 cl asses, segu idas.
começando com um limi te inferi o·· :le ~(i min.: adore uma amplitude
Idade População dos EUA( milhões)
de classe de 8 min.
20. Para o Conjunto de Dados ll do Ap~n di c e B, construa uma tabela Menos de 15 I 55
de freqUências com 12 c !assc.s para os pesos de todos os I 00
15-24 37
bombons M&M.
25-44 82
45 ou mais 79

2-2 !Exe rcícios B: Além ~o Básico 24. Ao constm ir uma tabela de freqüências , Sturges sugere que o
número ideal de classes pode ser aproximado por 1 + (log n)l(log
21. A seguir é dada uma tabela de f1t:qüê ncias de consumo de álcool 2), onde n é o núme ro de observações. Co m esta orientação,
antes da prisão, para prision e r ro~ do sexo masculino cumpri ndo determine o número ideal de classes (arredondado para menos , e
penas por dirigirem embriagados e a tabe la correspondente para não para mais) para um conjunto de dados com número de
mulheres (com base em dados do Mmistério da Justiça dos EUA). elementos igual a
Construa primeiro as tabelas de freqüência relativa e use em a . 50 b. 100 c. 150
seguida os resultados para comparar as duas amostras. Note que d . 500 e. 1000 f. 50.000
24 ESTATÍSTlCA

2-3 Répresentação Pidól!"ica de


Dados 0,30t
Na Seção 2-2, utilizamos tabelas de freqüências para transformar 0,25
coleções de dados brutos em sumários organizados e compre- \ll
ensíveis. O objetivo precípuo desta seção é apresentar métodos ~ 0,20
~
de representação de dados em uma forma pictórica que nos "'
llL
permita visualizar facilmente a natureza da distribuição. .!!! 0,15
"
<~
'=IS"
> 0,10
Histogmmas e a Forma dos D(ildos ~
u:
0,05
Um recurso gráfico, comum e importante, para apresentação de
dados é o histograma, elo qual temos um exemplo na Figura 2-l.

I Um histograma consiste em uma escala horizontal para os valores


dos dados a serem representados, uma escala vertical para as
freqüências e barras para representar os valores das freqüências
oI
~
cri
())
-
~
m
!

C)
C\)
~
I
())'

N ~
~
!
())-
I' '·>I
L'>
(J)-

~
~
m
~
~
~
~
C\)
I
~
O)
~

\S.)
C\)
~
!
())'
{'-
(\)
~
m
I .··. I

<lJ
C\!
~
())'
Cl)
C\!
das diversas classes. Em geral, a construção de um histograma para Carga Axial (libras)
representar um conjunto ele valores é precedida de uma tabela
completa de freqüências daqueles valores. Cada bmra é delirrútada Fig. 2 -2 Histogra ma das freqüências relativos das cargos axiois de latas
de alumínio.
pela fronteira inferior de cla~se à esquerda e pela fronteira superior
de classe à direita. Obtém-se, entretanto, melhor legibilidade
tomando-se os pontos médios das classes em lugar das fronteiras designando a escala verticnl como "freqüência relativa" e
das classes. O histograma da Figura 2-l corresponde diretamente modificando os valores respectivos para a escala de O a 0,300,
à tabela de freqüências (Tabela 2-2 da seção anterior). confonne a Figura 2-2. (A maior freqUência relativa para esse
Antes de construir um histograma com base em uma tabela de conjunto de dados é 0,297, de forma que tem sentido tomar 0,300
freqüências, devemos atentar para as escalas usadas nos eixos como valor máximo na escala vertical; o fato de a maior freqüência
vertical e horizontal. A freqüência máxima (ou m:.úornúrnero mais relativa ser0,297 e o maior valor ser297 é mera coincidência.) Assim
próximo conveniente) deve sugerir o maior valor para a escala como o histograma da Figura 2-1 representa a tabela de freqüências
vertical; Odeve ser a base. Na Figura 2-l, a escala vertical vai de da Tabela 2-2, o histogramn de freqüências relativas da Figura 2-2
Oa 60. A escala horizontal deve ser construída de modo a abranger representa a tabela de freqliências relativas ela Tabela 2-3.
todas as classes da tabela de freqüências. Idealmente, devemos
procurar seguir a regra empírica, segundo a qual a altura vertical
do histograma deve ser cerca de três quartos da largura total. Ambos Geração de Histogramas com o Uso de
os eixos devem ser demarcados sem qualquer ambigüidade. Calculadoras e Computadores
I Um histograma de freqüências relativas tem a mesma forma
e a mesma escala horizontal que um histograma, mas a escala
vertical apresentafreqüências relativas em lugar de freqüências
Apresentamos a seguir um histograma, feito por STATDISK, das
cargas axiais de latas de alumínio com que estamos trabalhando
· absolutas, como na Figura 2-2. A Figura 2-1 pode ser modificada
para um histograma de freqüências relativas simplesmente

File Edit Analysis Data Help

60 1 Hisíut!f<llll l>f C<11ls 109


60~~-~-r-~--~-r-~--~~-r.-~~

SOI
40
.~
"(;;
t:" 30
~ 1!0 !
'"'=IS"> o
~ !:!..
u.. q
20
~
10 § 20 r---t---t---t--
L.L. ;~:

oI I 1-''· ·1- ·r•"'"'''l"''"""l I I !'"''''"I


m m m ~ ~ m ~ m m ~ ~
m m m m m m m m ~ m ~
~ ~ N ~ ~ ~ ~ ~ ~ ~ ~ o' mw
1BO 200 220 240 260 2BO 300 320
Carga Axial (libras) Sanwle Value
Fig. 2 - 1 Histograma das cargas axiais de latas de alumínio.
.,;;::,

;.-:
..
.j
j I
~-···--· --- -~---~... - ~ ·· ~ - ~- ·- -- -~..;7,: ...~.~·-~.: :;:--~~-
, -.,-~:~·S: .·.::~~::::::~~~::_:~'"-=--~:._-.:..4 ,

Descrição, Exploração e Comparação de Dados 25

~
i
15

72
Em forma de sino .~
1.)
9
~~'3"
neste cap ítu lo. A apresentação STATDISK é obtida utilizando- ~ 6
lL
se Data da barra principal de fenamentas e introd uzin do-se os
dados com auxilio da opção Sample Edito r. Utili zam-se então 3
os comandos Copy e Paste para usar os dados no programa
Histogram, que também se encontra sob Data. (Os co mandos 0 o 1-1 h / I l D
copy e paste ~ão comuns a muitos programas Windows.) A li)
t'-..
li)
,_
L'l
I!)•n I!) •n l.\J cn
()') t() t'-.. ,_ I!)
I!)
Gl
m L"l
t() ['-.
"<)' I!) L<) l!)~~t'o-.('.. t'-..c(lc(\
apresentação do histograma pode ser obtida da versão Windows li)' tr) tr) I!)' L<)' tr) tr) I!)' I!)' I!)' I!)'
de Minitab, introduzindo primeiro os dados sob a coluna Cl na
grade de dados. Utilizam-se então as opções Graph e Histogram. Peso (gramas)
Pode-se gerar um histograma também em algumas calculadoras Fig. 2· 4 Histograma dos pesos de moedas de 25 cenls.
gráfica~, como a Tl-82 e a Tl-83.
As tabelas de freqüências e os gráficos tais como histogramas
permitem-nos ver como se distribuem nossos dados; a A Figura 2-3 é basicamente plana. ou uniforme, enqu~nto a
distribuição dos dados é uma característica extremamente Figura 2-4 tem aproximadamente a forma de um sino, no sentido
importante. As Figuras 2-3 e 2-4 são histogramas de dados reais de que se assemelha à segunda figura anterior sem númem
(ver Conjuntos de Dado .<> 12 e 13 no Apêndice B) com ilustrada aqui. Como aFigura 2-3 mostra algarismos selecionados
dist.ribuições fundament almente diferente~. da Loteria Pick Three de Maryland, é de se esperar que todos os
algarismos sejam igualmente prováveis e que o histograma seja

'
basicamente plano, como na Figura ~-3. Qualquer disc repância
sensível da forma plana, ou unifonne, sugere que há algo errado

JJ~
com a loteria.
1
·~ :;HlJ ~; ·~~
16' c. · A forma de sino dos pesos das moedas de 25 centavos de dólar
da Figura 2-4 é típica de uma ampla diversidade de circunstâncias,
ti I especialmente em processos de fabricação . Muitos processos
estatísticos exigem que um conjunto de dados tenha uma
<ii 10
r• 6 I I:..
distribuição em forma de s ino anál oga à apresentada na Figura
2-4, e uma maneira de verificar esse comportamento consiste em
lL
1 cons tru ir um histograma .
4
.I lt.
I
I ,,
2 Gráficos por Pontos
o o 1 2 3 4 5 6 7 8 9 A figura a seguir é um gráfico por pontos dos rr.esmos dados
Número relativos a latas ele alumínio re lacionados na Tabela 2-l. obtido
Fig. 2·3 Histograma ele> ' res u l ~odos de uma loteria. com o programa Minitah. (Com Mini tah, introduzimos os dados

.... .. .. .. ... . . . . . . . . .
---+- - ---- ---+-------- -+---- - - ---+------- - -+---------+---LOAI
200 220 240 260 280 30 0
26 ESTATÍSTrCA

e selecionamos as opções Gra ph, Character Graphs e Deitando a página, podemos ver a distribuição desses dados.
Dotplot.) Por esta ilustração, é muito fácil ver que um gráfico Eis a grande vantagem do gráfico ramo-e-folhas: Podemos
por pontos consiste em um gráfico em que cada observação é visualizar a distribuição dos dados e, ainda assim, conservar todà
representada por um ponto ao longo da escala de valores . O ponto a informação da lista original; se necessário, podemos recompor
mais à esquerda, por exemplo, represen ta a carga axial de 200 a relação original de valores.
lb. Quando os valores ocorrem mais de uma vez, são marcados O leitor notará que as linhas de algar.ismos em um gráfico
como pontos cm colunas verticais acima do valor correspondente ramo-e-folhas são análogas, em natureza, às barras de um
na escala. Assim é que, nos dados da Tabela 2- I, a carga de 204 histograma. Uma das diretrizes para a construção de bis to gramas
ocorre duas vezes, e esses valores são representados pelos dois é que o nú mero de cl asses esteja entre 5 e 20; essa mesma
pontos situados acima da locação correspondente a 204. (Este orientação se aplica aos gráficos ramo-e-folhas, pelas mesmas
gráfico por pontos utiliza 1O intervalos para representar um a razões. Tais gráficos podem ser ampliados de modo a .incluírem
amplitude de 20 libras , de forma que cada traço na escala mais linhas, como podem também ser condensados, para reduzir
horizontal tracejada representa dois valores. O traço logo antes o número de linhas. O gráfico ramo-e-fo lh as do exemplo
de 200 representa os valores de 199 e 200.) precedente pode ser ampliadq subdividindo-se as linhas entre
O gráfico por pontos é análogo ao histograma pelo fato de aq uelas com os algarismos O a 4 e as que contêm os algarismos
permitir que vejamos a distribuição dos dados . 5 a 9. Mostramos aqui esse ramo-e-folhas ampliado. Quando se
torna necessário reduzir o número de linhas, podemos condensar
um gráfico ra mo-e-folh as combinando linhas adj ace ntes,
~ Gráficos Ramo-e-folhas conforme ilustrado a seguir. Note que separamos por um asterisco
os algarismos nas folhas associadas a cada ramo. Cada linha no
Já vimos que a construção de uma tabela de freqüências e do
gráfico condensado deve conter precisamente um asterisco, de
histograma correspondente nos dá informações valiosas sobre a
modo que a forma do gráfico não sofra distorção.
natureza da distribuição dos dados, mas há a desvantagem de
perdermos alguns detalhes sobre os mesmos. Em geral, não Ramo Folhas
podemos recompor os dados originais a partir da tabela de 20 0144
freqUências ou do histograma. Vamos introduzir agora os gráficos 20 66889
do tipo ramo-e-folhas, que permitem vermos a distribuição dos
21
dados sem perda de informação no processo.
Em um gráfico ramo-e-folhas, classificamos os dados segundo 21 578
um padrão que revela a distribuição subjacente. O padrão consiste 22 033
em separar um número (como 257) em duas partes- em geral, o 22 58
primeiro ou os dois primeiros algarismos (25) e o outro algarismo
23 004
(7). O ramo consiste nos algarismos mais à esquerda (25 neste
caso), e as folhas consistem nos algarismos mais à direita (7, no 23 6
caso) . O método é ilustrado no exemplo seguinte. 24 122
24 8
EXEMPLO Construa um gráfico ramo-e-folhas com as cargas 25 01 122 4
axiais de latas de alumín:io da Tabela 2-1. 25 66677899
26 0122222333334
SOLUÇ.ÃO Tomando os dois algarismos mais à esquerda como
ran1os, estes serão 20, 21, ... , 29. Traçamos então uma reta 26 5556778888888889999
vertical e relacionamos as folhas conforme mostrado a seguir. 27 0000000011222223333334444
O primeiro valor na Tabela 2-1 é 270; incluímos este valor 27 555566666777777778888888999
registrando um O na linha (ramo) para 27. Continuamos a 28 00011112222223333334 44 4
incluir todos os 175 valores, e compomos as folhas (os
algarismos localizados à direita) de forma que os números se 28 555666677899999
disponham em. ordem crescente. A primeira linha representa 29 00011222334
os números 200, 201, 204, 204, 206 etc. 29 557

Ramoj Folhas
20 014466889
21 5 78
22 03353
23 0046
24 1228
25 0 11 22466677899
26 0 12 2222333 33 45556778888888889999
27 0000000011222223333334444555566666777777778888888999
28 00011112222223333334444555666677899999
···;..
29 00011222334557 ,•: ·~

~.,.. ,
~:;.~::>; ~:;::::.::~- ;-; ;-::-: ;::::·:-_:.;:;. :.:·::~ ~~~:'f~-::-:.:.-.-: ::.~-:.:::-
·~----·- - ~ --·-~~ ~~-~~- ...............~~-·

D escrição, Exploração e Comparação de Dados 27

7 8 -7 9 or 4 t-Es ta linha representa 780, 787, 794. dessa afirmação escrita é não caracterizar bem um relacionamento
80 - 8 1 •ss t-Esta línharepresenta815, 815. entre categorias diferen tes de dados qualitativos. Uma forma mais
conveniente de indicar relações entre dados qualitati vos é a
8 2 -83 9 • t-Esta linha representa 829. construção de um di agrama de Pareto. (Recorde, da Seção 1-2,
8 4 -85 • +-Esta linba não tem dados. que os dados qualitativos representam uma característica não-
86-87 7 9' 0 t- Esta linba representa867,869,870. numérica, como os tipos de morte acidental relac ionados aqui.)
Um diagrama de Pareto é um gráfico em barras para dados
Outra vantagem dos gráficos ramo-e-folhas é que sua constnl-
qualitati vos, com as barras ordenadas de acordo com a freqüência.
ção constitui um processo rápido e fácil para ordenar os dados.
Tal como no caso dos histogramas , u~ esc ala ~ verticais em um
A ordenação dos dados é necessária em vári os processos
diagrama de Pareto podem represen tar freqüências absolutas 011
estatísticos , como o cálculo da mediana (abordado na Seção 2-
freqüências rela ti vas. A barra mais alta fica à esquerda, e as bruTas
4) e a determinação de percentis ou quartis (Seção 2-6) .
menores na extrema direita, conforme a Figura 2-5. Dispondo as
barras por ordem ele freqUência, o diagrama de Pareto focaLiza a
A Utilização de Computadores para Gráficos Ramo· atenção sobre as categorias mais importantes. Pela Figura 2-5,
e-folhas podemos ver que as mortes acidentais causadas por veícu los
motorizados representam um problema muito mais sério do que
as outras categorias. Embora as mortes acidentais causadas por
O STATDISK não faz gráficos ramo-e-folhas, mas o Minitab os
armas de fog o mereçam considerável atenção dos jornais, elas
faz. Com o Minitab, introduza os dados na coluna Cl e utilize as
constituem um problema relativ amente peque no quando
opções Graph, Character Graphs e Stem- and-Leaf . A
comparadas com as outras categorias.
apresentação Minitab inclui uma coluna adicional de totais
acumulados.

~ Diagramas de Pareto /::,~f_i,;~;·-·. , .


. ., ..!;! ,....-:.ü.~
//;
Consideremos a afirmação: De 75.200 mortes por acidente nos r (!lf'-~e.
EUA, em um ano recente. 43.500 foram causadas por veículos
i
,: .~~}t
' ~~,~ ':;'.:
'{ ""'i..'lr·
motorizados, 12.200 por quedas, 6.400 por envenenamento. 4.600 i \:: J)J'J<
por afo gamento , 4.200 por incêndios, 2.900 por ingestão de
alimentos ou de um objeto, e 1.400 por armas de fogo (com base
\ at~.·
· ·._~~~;'~~
~.~~ ;1íJ't--
em dados do Conselho de Segurança Nacional). O ponto fraco ''· ( ~{:,· ;, !Jk~) ' /
'I /,/}1_.,.~ \
t r·-~'I!.N/ '; ., ,
.,;,;~!,..f.;
.~óh /fl /r:r·
· ·? \:,,
45.000h . --~-~,J\:jJ/\~; .. ,·::.-- \,
4Q.Q00T Florence INightingale
35.000+ 1 Flo rence N ightingole (1820-19 I O} é conhecido por muitos
como o fundadora da profissão de enfermeiro, mos elo também
30.000 sa lvou milhares d e vidas uti lizando o es ta tístico . Ao encontrar

-~
~ 25.000
I um hospital em más co ndições sanitários e sem sup rim entos,
tratou de melhorar essas condições e passou o utilizar o
estatís tico poro con vencer os autoridades da necessidade de
'""",- uma reformo m§dico mais amplo. EloLo'Oú >Jrá ficos o riginais
20 .0CO
Lt"' poro mostrar que, durante o guerra do Cri rnéio , rno: rerom ma is
soldados em conseqüência de más condições sa nitárias do que
em combate. Florence Nig hti ngale fo i o pioneira no utilizaçõo
. não só da esta tís tica socia l co mo dos técnicos de gráficos .
L_

~
Gráficos em Setores mm
C> '~ ,,<::
C>
:1 C> C> Tal como o ..; diagramas de Pareto, os gráficos e m setores são
"'·~ ""'-, E" "E:s::: ~s::: ~""'
\\! ~
utilizados para ilustra r dados qualit at ivos de modo ma.is
'"E" C>

"' "'"
~ '.3 1'-l \~ compreensível. A Figu ra 2-6 é um exemplo de gráfico em
C> ~ "' C>
~ s::: o2
.,:
~
~ "' 1'-l
E
setor, que ilustra graficamente dados qualitativos como fatias
.Q <:: 1(3 .... de uma torta. A construção de tal gráfico exi ge a divisão da
" UJ
.s <
,':) torta em pedaços com as de vidas proporções. Se a categori a
S' Iii
de veícu los moto rizados res ponde por 57 ,8% do total de
~
acidentes, e ntão o setor que representa veículos mo torizados
~ deve ser 57,8% do total. (O ângulo central deve ser 0,578 X
360° = 208° .)
~
E O diagrama de Pare to s a Figura 2-5 e o gráfico cm setores da
Fig. 2·5 Diag rama de Pareio: causa s de mortes ocidentais. Figura 2-6 representam os mesmos dados, mas uma comparução
28 ESTATÍSTICA

Armas de fogo
. (1400; 1,9%)

Ingestão de alimento ou objeto


(2900; 3 ,9%)

Veículo motorizado \ Incêndio


(43.500; 57,8%) (4200; 5,6%)

Afogamento
(4600; 6 ,1%)

-------_----...Envenenamento
(6400; 8 ,5%)

Quedas
(12.200; 16,2%)
Fig. 2-6 Gráfico em selares: causas de mo rtes acidentais.

dos dois mos trará provavelmente um melhor desempenho do marcados costuma ajuda r a determinar se existe alg u m
diagrama de Pareto para evidenciar os tamanhos relativos das relacioname nto entre as duas variáve is. (Esse tópico será

I .
diversas componentes.

Diagramas de Dispersão
abordado extensamente quando tratarmos da correlação na
Seção 9-2 .) Utilizando os dados referentes à nicotina e alcatrão
presentes em cigarros (Conj un to de Dados 4 do Apêndice B),
geramos, com o Minitab, o diagrama de dispersão mostrado na
" figura. (Para obter esse gráfico, começamos introduzindo ou
Às vezes temos dados emparelhados de uma forma que associa
cada valor de um conjunto a um determinado valor de um recuperando os dois conju ntos de dados emparelhados, de forma
segundo conjunto. Um diagrama de dispersão é um gráfico que eles apareçam nas colunas Cl e C2 . Recorremos então às
dos dados emparelhados (x, y), com um eixo x horizontal e um opções Graph e Plot . O STATDISK e a calculadora TI-83
eixo y verticaL Para construir manualmente um diagrama de também são planejados para gerar diagramas de dispersão.)
dispersão, traçamos um e ixo horizontal para os valores da Com base nesse gráfico, parece haver uma relação entre os
primeira variável e um eixo vertical para os valores da segunda conteúdos de alcatrão e nicotina nos cigarros, evidenciada pelo
variável e marcamos os pontos . O padrão dos pontos assim padrão dos pontos.

20
I
0
0
o o Q
(]> 0
e
~ 0
0
o
~
Q:
<( 10 c
1- e ()
0 <I)

o
e

o
0
o
I
0 .0 0.5 1.0 1 .5
·::
NICOTINE .·,

': ~
i~
,·,~
·-- --- --- --~ - -- -- ~ ---- - - .«<.-.··~...,.. "r ;.o,.;~·;·;·::·;·:-·/- . '~: :·-:r-·::.~-/~s::-::· ~~-::·::-:~~~~--"T'".-

Descrição , Exploração e Comparação de Dados 29

2. Obtiveram-se na faculdade do autor os dados ao lado referentes aos


Tinta Invisível carros de estudantes e aos de professores e funcionários. Construa
um histograma de freqliências rel at ivas para cada conjunto de
O Notiono! Observer certo vez contratou uma firmo poro fazer
uma pesquiso confidencial através do correio. O editor Henry dados. Com base nos resultados , quais são as diferenças percep-
Gemmill assegurou em uma circular que "cada resposta tíveis entre as duas amostras?
individual seria considerado confidencial, mos que, combinado
o suo resposta com os outros em todo o pois, teríamos um perfil
de nóssos assinantes". Um assinante sagaz utilizou um raio
ultravioleta poro detector um cód igo escrito no p esquiso com 0-2 23 30
ti nta invisível. Esse código poderio ser uti lizado p aro identificar 3-5 33 47
o autor da resposta. Gemm ill não sabia que esse processo
estava sendo usado, e descu lpou-se publicamente. O caráter 6--8 63 36
confidencial foi mantido, con forme prome tido, mas a
anonimidode não havia sido prometida diretamente, de formo
9-11 68 30
que não foi mantida. 12-14 19 8
15-17 10 o
18-20 l o
Outros Gráficos 21-23 o
Há inúmeros outros recursos pictóricos, além dos que acabamos 3.A tabela de freqüências a seguir dá as velocidades de motoristas
de indicar, p a ra representar dado s de forma interessante e multados pela polícia da cidade de Poughkecpsie. Esses motoristas
eficiente . O Exercício 27 se refere a um polígono de freqüência, estavam dirig indo em um tr.echo da zona de 30 mi/h, cm Crcek
que é urna variante do histograma. Na Seção 2-7 são apresen tados Road, que passa pela faculdade elo autor. Construa um hi stograma
diagramas em caixas (boxplots), muito úteis para visualizar uma para essa tabela de freqUênc ias. O que essa distribuição sugere sobre
distribtiição de dados. Os pictogramas ilustram dados por meio o limite fixado comparado com o limite cie ve locidade constatado?
de figuras de objetos ou pessoas, corno soldados, tanques, aviões, Velocidade 1 Fr~qiiê n c ia
pilh<L~ de moedas ou sacos de dinheiro. No Capítulo !2, diversos
gráficos ilustram padrões de dados ao longo do tempo. 42-43 14
Considere a figura no encarte, tida talvez como '·o melhor 44-45 11
gráfico estatístico jamais traçado". i\ figura inclui seis variáveis 46-47 )';
difcrentes relativas à marcha do exército ele Napoleão sobre 4&-49 6
Moscou em 1812. A faixa grossa à esquerda ilustra o tamanho
50-51 4
elo aérci to quando começou a invasão da Rússia a partir da
Polônia. A fa ixa inferior descreve a retirada de Napoleão, com 52-53 3
as correspondentes temperaturas e datas. E mbora elaborado em 54-55 1
1861 por C harles Joseph Minard, esse gráfico é considerado 56-57 2
engenhoso mesmo pelos padrões aluDis. 58-59 I o
Nes ta seção focalizamos a naturcz.a ou a forma da distribuição
C.0-61
de dados e os métodos de representá-los graficamente. Nas seções
seguintes abordaremos outras maneiras de avaliar caractetísticas 4. As companhias de seguro pesquisam co ntinuamente as idades e as
de dados. causas de morte. Construa um histograma de freqUênci as relativas
correspondente à tabela de freqüências ao lado. Os dados se baseiam
em um estudo da revi sta Time sobre vítimas fatais de armas de fogo
na América durante uma semana. O que o histograma sugere qu:~nto
2-3 !Exerddos A: IHabniidOI©Í'e.s e às id ades dess:1s vítimas fatais?
~©:nlbeitos Sáskos
ldacle na Morte j Freqüênci~

1. Os visitantes do Parque NacionJ! de YeUowstonc cons ideram uma 16-25 22


erupção do gê iscr Old Faithful umJ atração que não pode ser 26-35 lO
perdida. A tabela de freqüências a seguir resume uma amostra de Jlí-45 6
tempos (em minutos) entre erupções. Cons trua um histograma para
46-55 2
a tabela de freqüências dada. Se utn guia turístico desej a garantir
que seus tu ristas presenciem uma erupção, qual o tempo mínimo 56-65 4
•.Jue devem permanecer no pmqut:! 66- 75 i
Tempo Freqliéncia 76-85
- --- - - - - - -
40-49 8 Nos E.x:ercício:; 5 e 6, relacione os valores originais nos conjunros
de dados representados pelos dois gráficos ramo -efolhas.
50-59 44
60-69 23 5. Ramos Folhas 6. Ramos I Folhas
70-79 6 57 017 10 21 45 •:11
80-89 107 58 133!,9 11 ll 3 ·: <'3 :i
90-99 li 59 456678 12 04 22
100-109 1 60 23 13 69
30 ESTATÍSTICA

Nos Exercícios 7 e 8, construa o grá.ftco por pontos para os dados 19. Conjunto de Dados 3 do Apêndice B : pesos de ursos. (Tome 11
representados pelo ramo-e-folhas dos exercícios indicados. classes com amplitude de 5 0 e comece com -0,5 como limite
inferior de c lasse.)
7. Exercício 5 8. Exercício 6
20. Co nju nto de Dados ll do A pê nd ice B: pesos de 100 M&Ms.
Nos Exercícios 9-12, construa os gráficos ramo-e-f olhas para (U tilize 12 classes com arn plitude de 0,017 e tome 0,8375 como
os conjuntos de dados constantes do Apêndice B. limite inferior de classe.)
21. Conjunto de Dados 1 do Apêndice B: pesos ele papel descartado
9. Os comprimentos (em polegadas) de ursos do Conjunto de Dados
por 62 residências em uma semana. (Torne 10 classes.)
3. (Sugestiio: I n icialme nte, arredonde os comprimentos para a
22. Conjunto de Dados 12 do Apêndice B: os 300 números sorteados
polegada mais próxima.)
na loteria de M~u·yJand (não é a loteria P ick Thrcc).
10. As taxas de pulsação das alunas de estatística do Conj unto 8.
11. Pesos (em gramas ) das 50 moedas de 25 cen tavos de dólar Nos Exercícios 23-26, recorra à figura do encarte. que descreve
relacionados no Conjunto de Dados 13. (Utilize um gráfico ramo- a campanha de Napoleão na Rtissia em 1812. A faixa grossa à
e-folhas ampliado com cerca de 8 linhas.) esquerda ilustra o tamanho do exército quando ele começou a
12. Pesos (em libras) de artigos de plástico descartados po r 62 invadir a Rússia a partir da Po/ônia, e a faixa iJLferior descreve
residências: Recorra aos Dados I e arredonde inicialmente os pesos a retirada de Napoleão.
relacionados para o próx imo décimo de libra (uma casa decimal).
23. Dete1mine a porcentagem elos combatentes que sobreviveram a toda
(Use um gráfico ramo-e-folhas ampliado com cerca de ll linhas.)
a campanha.
13. Foi feiro um estudo para determinar como as pessoas obtêm
24. Determine o número e a porcentagem elos que motTerarn cruzando
empregos. A tabela que segue relac iona dados de 400 pessoas
o rio Berezina.
escolhidas aleatoriamente. Os dados se baseiam em resultados do
25. Quantos mo'n·eram, no retorno de Moscou, no intervalo de tempo
Nacional Center for Career Strategies (Centro Nacional de
cm que a temperatllra caiu de \6°F·p ara -6°F?
Estratégias de Carreiras). Construa um diagrama de Pareto que
corresponda aos dados em questão. Qual seria a abordagem mais
26. Dos que chegaram a Moscou, quantos morreram no percurso de
eficiente para uma pessoa qu~ deseje um emprego? volta entre Moscou e Botr? (Observe que 33.000 homens não foram
a Moscou, mas se juntaram aos que voltavam de li.)
Fontes de Trabalho dos que
Respondem à Pesquisa FreqUência

2-3 ~xerddos ~: A~ém d@ ~6sko


I
Anúncios tipo "Procura-se" 56
Firmas de pesquisas 44 '
Rádio e televisão 280 27. Um polígono de freqüência é urna variante ele um histograma que
Envio de correspondência em massa 20 utili za segmentos de retas ligando pontos em lugar de barras.
14. Construa um gráfico em setores para os dados do Exercício 13. Construa um polígono de freqüências modificando o histograma
Compare o gráfico em se tores com o diagrama de Pareto e indique qual da Figura 2-1 como segue: Inicialme nte, substitua as fronteiras de
deles melhor apresenta a imp01tância relativa das fontes de trabalho. classe na escala horizontal pelos pontos médios das classes. Ern
15. Uma análise de descarTilamentos de trens mostrou que 23 descarri- seguida, substitua as barras por pontos localizados acima de cada
lamentos foram causados por más condições da linha. 9 foram devi- ponto médio a uma altura igual à freqüência da classe. Terceiro,
dos a falhas no equipamento, 12 foram atribuídos a erro humano e 6 ligue os pontos e prolongue o grüllco à direi ta e à esquerda, de modo
ti veram outras causas. [Fome: Dados da Federal Railroad Adminis- que comece e termine com urna freqliência O.
tration (Departamento Federal de Administração de Ferrovias).] 28. São fornecidas tabelas de freqliência dos l 00 primeiros algarismos
Construa um gráfico em setores para representar os dados em questão. na representação decimal do número 1r e dos l 00 primeiros
16. Construa um d iagrama de Pareto para os dados do Exercício 15. algarismos ela representação decimal de 22/7.
Compare o diagram a de Pareio com o gráfico em setores, e
a . Construa histogramas que representem as tabelas de freqliên-
dete1mine qual dos gráficos mostra com maior eficiência a cias, e assinale quaisquer diferenças.
imp011ii.ncia rclativá das causas dt:! descarrilamentos de trens. b. Os números rre 22/7 são ambos reais; mas diferem fundamental-
Nos Exercício.; 17-18, use os dados emparelhados do Apêndice
B para construir w11 diagrama de dispersão. ..
mente um do outro; como?

-
2217

~
17. No Conjunto de Dados 4, utilize a escala horizontal para o alcatrão
e a esca la vertical para o monóxido de carbono. Com base no
X r
resultado, parece haver uma relação entre o alcatrão e o monóxido o 8 o o
de carbo no nos cigarros? Em caso afirmativo, descreva esse
1 8 I 17
relacionamento.
18. No Conjunto de Dados 3, use a escala horizontal para os perímetros 2 12 2 17
dos pescoços dos ursos e a escala vertical para os pesos dos animais. .3 11 3 1
Com base no resultado, qual é a relação entre o tamanho do pescoço
4 10 4 17
de um urso e o seu peso?
5 8 5 16
Nos Exercícios 19-22, reco rra aos conjuntos de dados do (l
6 9 6
Apêndice B.
7 8 7 16
a . Construa um diagrama.
b. Descreva a f orma geral da distribuição, como fo rma de 8 12 8 16
sino, uniforme ou assimétrica. · 9 14 9 o
·.- ~
Y.j

':.·=
~ - - -- ~ ~-.. -·- ,....:~ ......-.-;:-;- ~:- :;:_;:,;.;;;.~~-: .. ,::":·>, >.:::::"~~:~-:.~-:-··-A"'"

Descrição, Exploração e Comparação de Dados 31

a . Constma um ramo-e-folhas conjugado para esses dados . Os dois


primeiros valores de cada grupo foram reg istrados a seguir.
Idade dos Atares I Ramo I Idade das A trizes

2
nl 3
4 4
5 o
6
7
8
b. Utilizando os resultados da parte a, compare os dois conjuntos
distintos de dados e explique quaisquer diferetÍças.

29. Com uma coleção de dados amostrais, construímos uma tabela de


freqüências com 10 classes e, em seguida, construímos o histograma
correspondente. Indique como o histograma é afetado se se duplica
2-4 Medidas de üerndência CenifrQJI
O objetivo fundamental desta seção é apresentar as medidas de
i
o número de classes mas se mantém a mesma escala vertica l. tendência central importantes.
30. Em um estudo de seguro de acidentes com veículos motorizados no
estado de Nova York, classificam-se as colisões fatais de acordo com
a hora do dia, C'lll1 os resul tado~ constantes da tabela a seguir. [Fo11te: !!lHE I?D INl BÇÃ@
Dac.Jos do New York Srate Departmcnt of Motor Vehicles (Depar-
tamento de Veículos Motorizados do Estado de Nova Yo rk).] Uma medida de tendência central é um valor no centro
a. Complete o gráfico circular e construa um histograma ou no meio de um conjunto de dados.
b. Qual dos dois ilustra mdhur os dados? Por quê? '
c. Como o período de 4 às 6 horas da manhã é o que acusa menor
número de colisões fatais, podemos concluir que esse período Enquanto as Seções 2-2 e 2-3 trataram de tabelas de
é o mais ;egu ro para t.lirigir? Por que sim ou por que não? freq üência e gráficos que revelam a natureza ou a forma da
distribuição' ele um conjunto ele dados, esta seção focaliza a
Número de determinação de valores típicos ou representa tivos de um
Hora Acidentes Fatais conjunto de dados. Há diferentes maneiras de definir o centro
Man hã 12-2 194 e, assim, há diferentes definições de medidas de tendência
central, inclusive a média, a mediana, a moda e o ponto médio.
2--"l 149
Comecemos com a média.
4-6 100
6-8 131
8--10 119 O ParadoJto do Tamanho de uma Tu~rma
10--12 160 Há ao m,.nos duas maneiros de obter o tamanho médio de uma
!a.rk 1) ~ 152 turmo, que podem ter resultados muito ciferen tes . Em uma
faculdade, se tomarmos o núme10 de alunos em 737 turmas,
1 22 1 obtemos uma médio de 40 alunos. Mos se formos compilar uma
( .{> 230 listo dos tamanhos de turma poro cada estudan te e utilizar essa
listo, obteremos um tamanho médio de turma de 147. Essa
.:.-8 211 grande discrepância é devido ao foto de que há muitos alunos
em turmas grandes, mos poucos alunos em turmas pequenos.
h- !0 223 Sem alterar o número de turmas ou o faculdade, poderíamos
10- 12 178 reduzir o tamanho médio de turma, form ando turmas com
aproximadamente o mesmo tamanho. Isso melhoraria também o
31. No artigo '·Idades Jos Atures e Atrizes Ganhadores do Oscar" acompanhamento dos aulas, que é melhor em turmas menores.
(revista Mathematics Teacher), de Richard Brown e Gretche n
Davis, utiliwm-se gráfic;os ramo-e-folha para comparar as idades
de atares e de atrizes no momento da premiação. Eis os resultados
para os 34 últimos vencedores recentes de cada categoria . A Média
Atares: 32 37 36 32 51 53 33 61 35 · 45 55 39
76 37 42 40 32 60 38 56 48 48 40 A média (aritmética) é, de modo geral, a mais importante de
43 62 43 42 44 41 56 39 46 31 47 todas as mensurações numéricas descritivas. Na Figura 2-7
Atrizes: 50 't4 35 80 26 28 41 21 61 38 49 33 ilustramos a propriedade da média como centro do conjunto
74 30 33 41 31 35 41 42 37 26 34 de dados, no sentido de que é um ponto de equil íbrio dos
34 35 26 61 60 34 24 30 37 31 27 mes mos.
32 E>TATiST!CA

EXEMPLO Relaciona m-se a seg uir os tempos (em anos) que


os IOprimeiros presidentes americanos sobreviveram à posse.
Calcule a média desta amostra.
10 29 26 28 15 23 17 25 o 20
SOLUÇÃO Aplica-se a Fórmula 2- 1 para calcular a médi a.
Primeiro somamos os valores.
l:x = 1O + 29 + 26 + 28 + 15 + 23 + 17 + 25 + O + 20 =
193
Divi dimos em segu ida o total pelo número de valores. Como
há 10 valores , temos n = 10 e

- 193 "
x=w=19 ..:l
A média é, pois, 19,3 anos.

Fig. 2-7 A médio como ponto de equilíbrio. Para os 10 valores do exemplo precedente, 19,3 está no cenu·o,
Um fulcro, colocado na posição do. média. equilibrará o histograma. de acordo com a definição de média. Outras definições de uma
medida de tendência central envolvem diferentes percepções de
como se determina o centro.
!ill!lt::: B ND~ii:-@

A média aritmética de um conjunto de valores é o valor Seis Grous de Separação


obtido somando-se todos eles e dividindo-se o total pelo
Os psicólogos sociais, os historiadores, os cientistas políticos e os
número de valores. Essa medida particular de tendência especialistas em comunicações estão entre os que se interessam
central será utilizada freqüentemente em todo o resto deste pelo "Problema do Pequeno Mundo": Dados duas pessoas
texto, e será des ignada simplesmente como média. quaisquer no mundo, quantos ligações intermediários são
, necessárias paro ligar as duas pessoas originais? O psicólogo
socia l Stanley Milgrom fez um experimento utilizando o sistema
postal dos EUA. As pessoas foram instruídos o procurar contactar
Esta definição pode expressar-se como na Fórmula 2-1, onde outros pessoas-alvo enviando um formulário o uma pessoa
a letra grega 2: (sigma maiúsculo) indica um somatório de valores, conhecido que julgassem estar próximo do alvo. Dos 160 cadeias
de fom1a que 2-x representa a soma de todos os valores . O símbolo iniciais, apenas 44 foram completados. O número de
relacionamentos intermediários variou de 2 o 1O, com uma
n denota o tamanho da amostra, que é o número de valores em mediano de 5. Utilizou-se um modelo matemático poro mostrar
consideração. que, se essas cadeias que falta vam fossem completados, o
mediano seria ligeiramente superior a 5. !Ver "The Smoll World
média= 2:x Problem", de Stanley Milgrom, Psychology Todoy, maio de 1967.)
Fórmula2-1
lt

A média pode denotar-se por x (leia-se "x barra") se o conjunto


de valores de que dispo111os é uma amostra extraída de uma AMediemo
população maior; se todos os valores da população foram
considerados, denotamos por f.1 (minúscula grega mu) a média
calculada. (As estatísticas amostrais são em geral representadas !l»!!HrDrNIOÇ.i@
por letras do alfabeto latino, como x, ao passo que os parâmetros
popu lacionais costumam representar-se por letras gregas, como A mediana de um conjunto de valo res é o valor do meio
~L.) Muitas calculadoras podem calcular a média de um conju nto desse conju nto, quando os valores estão dis postos em
de dados: introduzem-se os dados e aciona-se uma tecla X. A ordem crescente (ou decrescente). A mediana é representa-
introdução dos dados varia de uma calculadora para outra, de da geralmente por X (lê-se: "x ri/") .
fo rma que é necessário consultar o respectivo manual.

~-'·' "Ki otElê6 0·;~~<~'''t'~·y,·. ·" :--~ !'.,,_,,, -;'


, ~ ; ,, ,, '• •. ! , ~~, : . ~ .•.• .}_~, .. - - ~-- :
.,_., 1~

2, denota somatório de um conjunto de valores.


X é a variável usada para representar valo res individuais dos dados.
n representa o número de valores em ttiiW amoscra.
N representa o número de valores em uma populaçlio.
LX
x= -- é a média de um conjunto de valores amostrais.
n
LX
J.l=!i denota a média de todos os valores de uma populaçcio.

·.;,

•'i
;. ~

d
·-- - ··-:~~.._~,. • >,:-.,..... -;.,"l\W~.,~i"·:~·,:.~~:.·~z~•:·:-.::··::;~:· ·~....,.~~r-
f" · -- --·-----~

Descrição, Exploração e Comparação de Dados 33

Para calcular a mediana, disponha primeiro os valores em EXEMPLO Determine a moda dos seg uin tes conjuntos de
ordem (crescente ou decrescente); em seguida ap.lique um dos dados.
do is processos a segui r:
a. 5 5 5 3 1 5 1 4 3 5
l. Se o número de valores é ímpar, a mediana é o nú mero b. 1 2 2 2 3 4 5 6 6 6 7 9
localizado exatamente no me io da lista. c. 1 2 3 6 7 8 9 10
2. Se o nú mero de valores é par, a mediana é a média elos dois
valores do meio. · SOLUÇÃO
a. O número S é a moda, porque é o valor que ocon·e com
maior freq Uência.
~~ EXEMPLO Calcule a mediana dos tempos de sobrevivência (em
~ anos upós a posse) dos cinco primeiros presidentes americanos. b. Os números 2 e 6 são ambos moda~. porque oco rrem com
~· a mesma freqUência máxima. O conjunto ele dados é
10 29 26 28 15 bimodal.
SOlUÇÃO Inicialmente, ordenemos os valores:
~ c. Não há moda, porque não há valor repetido.

lO 15 26 28 29
Das diferentes medidas de tendência central que estamos
11 O número de valores é 5, que é ímpar; assim, a mediana é considerando, a moda é a única que pode ser usada com dados
precisamente o número do meio. Logo, a mediana deste em nível nominal de mensuração, conforme ilustrado no próximo
co njunto de dados é 26. exemplo.

~ !EXEMPLO Os valores a seguir são os pagamentos (em dólares)

I~ feitos aos exec utantes de um concerto de rock. A média é ~~.


EXIEMPLO Um estudo sobre tempos de reação abrangeu 30
$8900. Calcule a mediana. f canhotos, 50 des tros e 20 ambidestros. Embora r.ão possa..rnos
~1tomar a média numérica dessas características, podemos
500 600 xoo 50.000 1000 500 ilafirmar que a moda é destra, que é a caracrerísrica que ocorre
SOLUÇÃO Ordenemos inicialmente os valores: ~ com maior freqüência.
soo soo 600 800 1000 50.000
l!i O número de valores é (Í, um número par; procuramos, Pon~o Médio "
poi.~.

r~
!.·~, os dois valores do meio c obtemos a sua média. Os dois valores
centrais são 600 t.: 800; a mediana é, pois, a soma desses
Wl-'IFBWJD~.i@

I
valores dividida por 2, ou sej a, $700.
Neste conjunto, a média de $8900 é fortemente afetada pelo O ponto médio é o valor que está a meio caminho entre o
valor atípico de $50.000. o q'1e não ocorre com a mediana de maior e o meno r valor. Para obtê-lo, sommnos esses valores
$700. extremos e dividimos o resul tado por 2, colllo na fórmula
a seguir:
Moda
ponto médio = maior valor + menor valor
Dt\!fDll\U~.i.@ 2

A moda de um conjunto de dado~ é o valor que ocorre com


maior freqüênci a. Qu;,nd0 dois valores ocorrem com a !J EXEMPLO Determine o ponto médio dos tempos de sobre-
mesma freqüGnci a JJ!áxilml, cada um deles é urna moda , e ,! vivência (apó:> a posse) dos 10 primeiros presidentes ame-
o conjunto se diz bimudal. Se mais ele dois valores ocorrem I' ricauos :
com a mesma frequê ncia máx1m:1, cada um deles é uma
moda, e o conjunto é multimodal. Quando nenhum valor ~ 10 29 26 28 15 23 17 25 o 20

I
é repetido, o conjunto não tem moela. Costuma-se denotar SOLUÇÃO Obtém-se como segue o ponto méd io:
a moda por M.
maior valor + menor valor 29 +O
·-----~-~ = - - - = 14 5 anos
2 2 ,

Um Cidadão Médio Embora o ponto médio não seja muito usado, incluímo-lo aqui
para enfatizar o fato de que há diferen tes maneiras de definir o
O homem americano "médio" se chamo Robert. Tem 31 anos, cen tro de tlm conjunto de dados. (Veja também Exercícios 20-22 .)
altura de 1,75 m, pesa 78 kg, seu manequim é 48, calço
sapatas tamanho 43 e tem 85 cm de ci nturo. Consome Ao nos referirmos ao valor médio de um·conjunto de dados,
anualmente 5,6 kg de mosso, i 1,8 kg de bananas, 1,8 kg de elevemos ser precisos, mencionando o termo ex ato, como média,
batotas fritos, 8,15 kg de sorvete c 35,8 kg de carne. Em cada med iana, moda ou ponto médio.
ano, vê televisão durante 2567 horas e recebe 585 cartas ou
assemelhados pelo correio. Após comer sua porção de batotas
frito s, ler o correspondência e ver televisão, ele termino o dia
~
com 7,7 horas de sono. O dia segui nte começo com 21 minutos EXEMPLO Para os 175 valores de cargas axiais de latas de ~ l\
de transporte para um emprego, onde trabalha 6,1 horas. alu mínio, relac ionados na Tabela 2-1, determine (a) a média, ·
(b) a media na, (c) a moda e (d) o ponto médio.
34 ESTATÍST ICA

SOLUÇÃO específicos desses 9 números. A fim de possibilitar os cálculos,


supomos que todos os 9 valores se concentrem no ponto médio 204,5.
a. Média: A soma dos 175 valores é 46.745 ; assim,
Com 9 valores de 204,5, temos um total de 9 X 204,5 = 1840,5
46·745 = 267 llb que contribui para o total geral de todos os valores. O número de ·
x= valores é igual à soma das freqüências, e assim podemos aplicar a
175 '
Fó1mula 2-2 para achar a média de uma tabela de freqUências. Na
h. Mediana: Dispostos os va lores e m ordem crescente, rea lidade, a Fórmula 2-2 não envolve um conceito funda-
verificamos que o 88. 0 valor, 273, está no meio ex ato, de mentalmente diferente; é apenas uma variante da Fórmula 2-1 .
modo que a m edian a é 273 ,0. (Os valores podem
facilmen te ser dispostos em ordem crescente construindo- , 2.(!. x) , . . ... .
se um gráfico ramo-e-folhas, conforme vimos na Seção 2- Formula 2-2 X = - -- m ediadeuma tabeladefrequenctas
"i,f
3, ou utilizando-se um programa de computador corno
STATDISK ou Minitab.) Expressamos o resultado com onde x = ponto médio da classe
mais uma casa decimal utilizando a regra do arredon- f = freqüência
damento que segue este exemplo. 2f = 11

c. Moda: A carga axial mais freqüente é 268 lb, que ocorre As cargas axiais das latas de alumínio da Tabela de FreqUências 2-
9 vezes. É, pois, a moda. 2 foram introduzidas na Tabela 2-5, onde aplicamos a Fó1mula 2-
d. Ponto médio: Obtemo-lo aplicando a fórmula 2. (Podemos também calcular a média de uma tabela de freqüências
intervalo maior valor + menor valor com uma calculadora TI-83 : Introduzimos os pontos médios em
L l, introduzimos as freqUências em L2 e utilizamos STAT, CALC,
médio 2 e I =Var Stats e introduzimos então LI, L2.) Quando utilizamos
297 + 200 = 748 Slb a coleção original de dados para calcular a média diretamente,
2 - • obtivemos o valor 267,1, de modo que o valor da média ponderada
Passamos a resumir os resultados acima. baseada na tabela de freqüências é apenas ligeiramente diferente.
Em certas situações, os valores têm graus de importância
média: 267,llb diferentes, o que nos leva a calcular uma média ponderada, que
mediana: 273,0 lb é uma média dos valores afetados de pesos diferentes. Em tais
casos, calculamos a média ponderada atribuindo pesos diferentes
moda: 268lb
aos diversos v<!lores, como se vê na Fórmula 2-3.
ponto médio: 248,5 lb
, . . _ "i(w · x)
Já construímos uma tabela de freqüências e um histograma Formula 2-3 media ponderada : X = >
~w
para os dados da Tabela 2-1, e vimos a distribuição dos dados.
Suponha, por exemplo, que queiramos a média de 5 notas de teste
Temos agora informações importantes sobre o centro dos
(85, 90, 75, 80, 95), com os quatro primeiros testes valendo 15%
dados.
cada um, e o último valendo 40%. Basta atribuirmos o peso 15 a
cada uma das quatro primeiras notas, o peso 40 à última nota e
calcularmos a média pela Fórmula 2-3, como segue:
''': Ré§~~, d~\~rr~dd~dci_m~nfci :·t;;·.,:\ · ·> ,,
L(w ,\j
x=
Eis uma regra simples para arredondamento ele respostas: 2:w
Tome uma decimal a mais, além das que aparecem nos =(15 X 85) + (15 X 90) + (15 X75) + (15 X 80) + (40 X 95)
dados. 15 + 15 + 15 + 15 + 40
Devemos arredondar apenas a resposta final, e não os 8750 = 87,5
= 100
valores intermediários. Por exemplo, a média de 2, 3, 5 é
3,33333333 ... , que pode ser atTedondada para 3,3. Como
os dados originais são expressos em números inteiros, TABELA 2-5 Determinação de 2-f e ""i (f · x)
arredondamos a resposta para o décimo mais próximo. Ponto Médio
Outro exemplo: a média de 2,1, 3,4 e 5,7 é arredondada Carga Axial Freqliência.f da Classex f ·x
para 3,73 com duas decimais (uma a mais em relação às
200-209 9 204.5 1.840,5
que tiguram nos valores origi nais). 210-219 214,5 643,5
3
220-229 5 224,5 l.l22,5
230-239 4 234,5 938,0
240-249 4 244,5 978,0
~ A Média de uma Tabela de FreqUências. A Média 250-259 14 254,5 3.563,0
rum Ponderada 260-269
270-279
32
52
264.5
274,5
8.464,0
14.274,0
280-289 38 284,5 10.811,0
Quando os dados estão resumidos em uma tabela de freqüê ncias, 290-299 14 294,5 4.123 .o
podemos aproximar a média substituindo os limites de classe pelos
pontos médios das classes e supondo que todos os elementos da classe Total 'i,{ = 175 L(j · x) = 46.757,5 ··-··
se concentrem no respectivo ponto médio. Na Tabela 2-2, por
exemplo, a primeira classe de 200-209 contém 9 valores que se situam 2.(/ ·:c) = 46.757,5 =267,2
em algum ponto entre os limites de classe, mas não sabemos os valores
x= Lf 175

ni:._.
'•'
. ~

~ :1

fi
,1 ------....-- . -- -- . ""~-;,- . . . ..
•,ç+:"r;T,..-...;.., ....,;-.~.:.:."!'•7õ,·,·.·~~·~o:f7~:=;;. :~

Descriç~o. Exploração e Comparação de Dados 35

Ourro exemplo: As notas de provas podem ser calculadas Assimetria


atribuindo-se a cada conceito (literal) um certo número de pontos
(A = 4, B = 3 etc.) e atribuindo-se então a cada número uma A comparação da média, mediana e moda pode nos dizer algo
freqUência igual ao número de horas de crédito. Um conceito C sobre a característica da assimetri a, definida a seguir e ilustrada
em um curso de 3 créditos seria equivalente a um ponto médio na Figura 2-8.
de classe 2 com freqüência 3. Novamente aqui, podemos aplicar
a Fórmula 2-3 para calcular esse tipo de média.
D~frglNJ3Çé
A Melhor Medida de Tendência Central
Uma distribuição de dados é assimétrica quando não é
Vimos que, para os dados da Tabela 2-1, a média, a mediana, a simétrica, estendendo-se mais para um lado do que para o
moda e o ponto médio tinham os valores 267,1, 273,0, 268 e outro. (Uma distribuição de dados é simétrica quando a
248,5, respectivamente. Qual dessas medidas de tendência central metade esquerda do seu histograma é aproximadamente a
é a melhor? Infelizmente, não há uma resposta única, porque não imagem-espelho da metade direita.)
há critérios objetivos para determinar a medida mais representativa
para todos os conjuntos de dados. As diversas medidas de tendência
central têm diferentes vantagens e desvantagens, a lgumas das quais Os dados assimétricos para a esquerda dizem-se negati-
estão resumidas na Tabela 2-6. Uma vantagem importante da média vamente nssimétdcos; a média e a med iana estão à esquerda da
é que leva em conta todos os valores, mas uma grande desvantagem moda. Embora nem sempre previsíveis, os dados negativamente
é que às vezes pode ser seriamente afetada por algu ns valores assimétricos têm cm geral a média à esq uerda da mediana. (Veja
extremos. Essa desvantagem pode ser superada com o uso da média Figura 2-8(a).) Os dados assimétricos para a direita dizem-se
aparada, descti ta no Exercício 25. positivamente assimétricos; a média e· a mediana estão à direita

1f'AJBIH.A 2-6 Comparação entre Média, Mediana, Moda e Ponto Médio


Leva em Afetada pelos
Quão Conta todos Valores Vamagcns e
Medida Definição Freqüente? Existência os Valores? Extremos? Desvantagens "
~~r
Média :r = - "média" e:tiste SI !TI sim usada em todo este
11. nuis familiar sempre livro; funciona bem com muitos
métodos estatísticos
Mediana valor do meio u s ~Ja existe não não costuma ser uma boa escolha se
co·nurnenle sempre h:í alguns valores extremos
\1ocla valor mais U' Jd:t pode não não não apropriada para dados ao nível
freqüenle :ts vezes existir; nomina l
pode haver
mais de
uma moda
Ponto médio alto+ baixo raramente existe não sim muito sensível a
-----2 U ~Jdt! sempre valores extremos
Corw;nt:trios gerJis:
P~•r:.t um co~j\lntO de d~tdos apro:di:J;~do:n:.:n~.... ..t:.:trk .J com um.t modJ., <I médi:..t. a mcdinna. a moda c o pl1nl0 m~Ui0 tendem~! coincidir.
·Para tnn conjunlO de dados ohvi.JmeniG a~slfrúric., , convém levar t:m LOnti.l a m~d in c a mcdiand.
A múlia é r~lativamcntc cmifiúvd; ou seja, t.~u :.mdo as umostnlS .sflo extraídas d;l mesma popu loçJo, as méd ias tendem a .o.;cr m::is consta ntes do que oulras medidas (constantes no
sentido dt: que as médias amostrais extrafdí'" d:1 'li;sm;Jpopuluç-iio não v:1ri am i:tnto quantn a~ outras m ~di U<J '\).

.'Y1ediana Mediana

(a) Assimétrica para a (b) SiméLrica (c) Simétrica para a direita


esquercb (negativamente (assimetria zero): (positivamente assimétrica):
assimétrica): A média e A média, a mediana A média e a mediana
a mediana cs tãú c n moda coincidem. estão à direita da moda.
à esquerda dn moda.

Fig. 2-8 Assimetria.


36 ESTATisT!CA

da moda. Novamente aqui, a maioria dos dados positivamente 4000 aC: 131 119 138 125 129 126 131 132 126 128 128 131
assimétricos tem amédia à direita da mecliana. (Veja Figura 2-8(c).) 150 aD: 136 130 126 126 139 141 137 138 133 131 134 129
Se examinarmos o histograma da Figura 2-1 para as cargas 8. Pesos (e m li bras) de papel e p lástico descartado em res idências
axiais de latas de alumíni o que estamos considerando neste durante uma semana (dados coletados para o Projeto do Li xo na
capítulo, veremos um gráfico que se aprese nta assimétrico para Universi dade do Arizona):
a esquerda. Na prática, mui tas distr ibui ções de dados são
simétricas. As distribu ições assimétricas para a direita são mais Papel: 9,55 6,38 2,80 6,98 6,33 6,16 10,00 12,29
comuns do-que as assimétricas para a esquerda, porque em geral Plástico: 2, 19 2,10 1,4 1 0,63 0,92 1,40 1,74 2,87
é mais fác il obter valores excepcionalmen te grandes do que
valores excepcionalmente pequenos . Com as rendas anuais, por Nos Exercícios 9- 12, recorra ao conjunto de dados do Apêndice
exemplo, é imposs ível termos valores abaixo do limi te inferio r B e dete rmine (a) a média, (b) a mediana, (c) a moda e (d) o ponto
zero, mas há algumas pessoas que ganham milhões de dó lares médio.
(ou rea is) em um ano. As rendas anu ais tende m, pois, a ser 9. Conjunto de Dados 2 do Apêndice B: Temperaturas do corpo às 8
assimétricas para a direita, conforme a Figura 2-S(c). horas da manhã no dia 1
10. Conjunto de Dados 4do Apêndice B: Conteúdo de nicotina de Lodos
os cigarros relacionados
2-4 Exercícios A: Habilidades e 11. Conj unto ele Dados 3 elo Apêndice B: Pesos dos ursos
ConceÜ'ios Bá sicos 12. Conjunto de Dados 11 do Apêndice B: Pesos dos bombons M&M
vermelhos.
Nos Exercícios l -4, detemzine (a) a média, (b) a mediana, (c) a
moda e (d) o ponto médio. Nos Exercícios 13-16, ache a médià dos dados resumidos na
1. Os valores a segu ir são os pesos (em onças) de bifes constantes do rabeia de freqüências dada.
cardápio de um restaurante como "Bifes Porterhouse de 20 onças" 13. Os visitantes elo Parque Nacional de Yellowstone consideram uma
{dados coletados por um 2luno do autor). Supõe-se que o peso seja erupção do Old Faithful uma atração que não deve ser perdida. A
de 21 oz porq ue os filés perdem cerca de uma onça ao serem tabela de freqüências resume uma amostra de tempos (em minutos)
cozidos. Os pesos a séguir parecem razoáveis 7 decorridos entre as erupções.
17 20 21 18 20 20 20 18 19 19 Tempo I Freqüência
20 19 2 1 20 18 20 20 19 18 19 - -
40-49 8
2. Algarismos selecionados na Loteria Pick Tllree ele Maryland:
50-59 44
o 7 3 6 2 7 6 6 6 3 8 1 7 8 7
6 8 6 9 5 2 1 5 o 3 9 9 o 7 60--69 23
70-79 6
3. Depósitos de nitrato (em kg por hectare) como parte da chuva ácida
no estado de Massachusetts de julho a setembro dos últimos anos 80-89 107
(com base em dados do l\ilinistério da Agricu ltura elos EUA): 90-99 11
6,40 5.21 4,66 5,24 6,96 5,53 8,23 6,80 5.78 6,00 5,41 100-109
4. Concentrações sangue-álcool de 15 motoristas envolvidos em 14. Na faculdade do autor obtiveram-se amostras de carros de estu-
acidentes fatais e condenados à prisão (com base em dados do dantes e carros dos professores e funcionários da fac uldade, com
Ministério da Jus tiça dos EUA): as respectivas idades (em anos). Essas idades estão resumidas na
0,27 0,17 0,17 0,16 0,13 0,24 0,29 0,24 tabela de f reqüência a seguir. Ache a idade média de ambos os
0.14 0,16 0,12 0,16 0,21 0,17 0,18 grupos de carros. Com base nos resultados, percebe-se a lguma
diferença significativa entre as duas amostras? Em caso allnnati vo,
Nos Exercícios 5-8, determine a média, a mediana, a moda e o quais são elas'?
ponto médio de cada uma das chtas amostras e compare os dois Idade Estudantes Profs. e Funcs.
conjuntos de resultados.
0- 2 23 30
5. Tempos de espera ele clientes no Banco Jefferson Yalley (onde
todos os clientes fo rm am uma ftla única) e no Banco de Providencc 3-5 33 47
(onde os clientes entram em três filas de guichês difere ntes): 6- 8 63 36
Jefferson Valley: 6,5 6,6 6,7 6 ,8 7, 1 7,3 7,4 7.7 7,7 7,7 9-1 1 68 30
Proviclence: 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0 12-1 4 19 8
6. Amostras das idades (em anos) de carros de alunos e carros de 15- 17 10 o '
''
professores e funcionários da fac uldade, obtidas na faculdade do .
18-20 1 o ;~ ::
autor:
2 1-23 o
Alunos: 10 4 5 2 9 7 8 8 16 4 13 12 ~:
15. A tabela de freqüê ncia a segui r dá as velocidades desenvolvidas :~
Profs. e Fu ncs.: 7 10 4 13 23 2 7 6 6 3 9 4
por motoristas multados pela polícia da cidade de Poughkeepsie.
7. Largura máxima de amos tras de crân ios de egípcios elo sexo Esses motoristas estavam dirigindo em uma zona ele Creek Ro ad \".;

masculino, de 4000 aC a 150 aD (com base em dados de Ancient com li~ ite de velocidade de 30 mi/h. Compare a velocidade média
~~;
Races of the Theba id por T homson e Randall-Maciver): observada com o limite de 30 mi/h. <'
:~
~ :
- • - -- ··- • -~~~~.:ji'i,~;:,~~~ffM~aít•._r;<"~~"(~=-'~
,.------·"·--~~~·~

Descrição, Exploração e Comparação de Dados 37

Ve locid ade I Freqüência (Nenhum valor pode ser zero.) Por exemplo, a média harmônica
de 2, 4, 10 é
42-43 14
n 3 ~
44-45 li 1 1 --= ~ -
2:2.X ;:; + - + .2_ 0,85 - 3,5
46-47 8
- 10 4
48-49 6 a. Quatro estudantes dir ige m de Nova York à Flórida (1200
50-51 4 milhas) a um a velocidade de 40 mi/h (sim , é verdade !) e voltam
52- 53 3 à velocidade de 60 mi/h. Qual é sua velocidade média para a
viagem de ida e volta? (Usa-se a média harmônica para calcular
54-55 1
médias de velocidades.)
56-57 2 b . Um despachante da Kram d e n Bus Compuny ca lcula a
58-59 o velocidade média, em mi/h, do percurso de ida e volta de Boston
60-61 a Pro vidence. Dão-se a seguir os resultados obti dos em 14
viagens diferentes . Com base nesses dados, qual é a velocidade
16. As companhias de seguro pesquisam continuamente as idades na média de um ônibus nesse percu rso?
morte e as respectivas causas. Os dados se baseiam em um estudo
ela revista Time sobre as mortes causadas por armas de fogo na
42,6 41,3 38,2 42,9 43,4 43,7 40,8
34,2 40,1 4 1,2 40,5 41 ,7 39,8 39,6
América durante uma semana. Que podemos concluir do resultado?
21. A média geométrica é usada em administração e economia para
Idade na morte I Freqüência
achar taxas médias de variação, ele crescimento, ou razões médias.
16-25 22 Dados n valores (todos positivos), a méd ia geométrica é a raiz n""
do seu produto. Por exemplo, determim-se ~média geométrica de
26-35 10
2, 4, 10 multipl icando-se os três valores- o que dá 80, e tomando-
36-45 6 se a raiz cúbica do resultado (porq ue há três valores ). O resultado
46 - 55 2 é 4,3. O f aro r de crescim ento m édio para o dinheiro, composto às
ta.~as anuais de jui<J de lO%, 8%, 9%, 12% e 7 % pode ser
56-65 4
determinado calculando-se a média geométrica de I, 10, 1,08. 1.09,
66 ·-75 5
1,12 e 1.07. Calcule esse fator médio ele crescimento.
76-85 22. A m édia quadrática é utilizada em gera l em experimentos físicos.
Em sistemas de distribuição de energia, por exe mplo, as tensões e
correntes são em geral dadas em termos de sua médi a quadrática.
2-4 !Exercícios 8: Além do Básko Obtém-se a média qundrá ti ca de um conjunto ele valores elevando-
se cada um ao quadrad o, somando-se os resultados, dividindo-se o
17. Um estudante obtém as notas 60, 84 e 90 em testes, e 88 no exame total pelo número 11 de valores e tomando-se a raiz quadrada do
final. Calcule a médi a ponderada elas no tas se cada teste resultado. Por exemplo, a média quadrá tica de 2, 4, 10 é
corresponde a 20% c o exame tina! corresponde a 40% ela nota final .
18. O boletim de um estudante acusa A em um curso de 4 créditos, A
em um curso de 3 créclitos, C em um curso de 3 créditos e D em
.Jrx V n
2
= ~4 + 16 + 100 =
3 'V
/120
3
= v40 = 6 .3
um curso de 2 créditos. Atribuem-se pontos aos conceitos como Calcule a média quadrática dos seguintes valores de fornecimento
segue: A = 4, B = 3, C = 2, D = 1, F = O. Se as notas são de energia (em volts): 15 1, 162, O, 81 , -68.
ponderadas de acordo com as horas de crédito, cletemline a média 23. As tabelas de fret1üência costumam apresentar classes com intervalo
ponderada arredondada para três decimais. aberto, como a tabel a a seguir, que resume os tempos p stos em
1<J. a. Calcule a média, a med tana. a moda e o pon to médio das estudo por ca lo uros (co m b as e em dado' ele Thc A111erican
seguintés rendas anuais (ern dó lares) de médicos autônomos
Freshm an , em USA Today). Não se pode aplicar diretamente a
(com base em dados da Ameri can Medical Associaticn) : Fórmula 2-2, porque o ponto médio ela classe "mais de 20" não está
l08.000 236.000 !79.000 206.000 236.000 defini do. Calcu le a média supondo que esta última classe seja
b. Se se adiciona um valor constante k a cada renda, como são realmente (a) 21-25, (b) 2 1-30, (c) 2 1-40. O que se pode concluir?
afetados os resultados da parte (a)? "
Horas de estudo
c. Se os valores das rendas na parte (a) são multiplicados por uma
constante k, como são afetados os resu ltados da parte (a)?
por semana I Freqüência
d. Às veLes os dados são transformados, substituindo-se cada valor o 5
x por log x. Para os valores dados de x, determine se a média
1-5 96
dos valores de log x é igual a log x.
20. A média hannônica costuma ser usada como medida de tendência 6-10 57
central para conjuntos de dados que consistem em taxas de variação, 11-15 25
co mo por exemplo velocidad es. Obtém-se a média harmônica 16-20 11
clividindo-se o número n de valores pela soma dos inversos de todos
Mais ele 20 6
os valores. Expressa-se como:
n 24. Quando os 9ados são resumidos em uma tabela de freqüênci a,;,
2:.!.X pode-se achar a mediana identificando primeiro a das se mediana
(a classe que contém a mediana). Supomos então que os valores se
38 EsTATÍSTICA

distribuam uniformemente nessa classe, e interpolamos. Esse acidentes ou de doenças assusto o povo, deixondCXJ vulnerável
processo é descrito por aos truques jornalísticos, à demagogia político, e à froude
comerciaL" O colunista ci ta diversos casos, inclusive o exemplo

~ ~ de um ortigo de página inteiro sobre o déficit do cidade de


(limite inferio r da classe
(~
n + 1)
- (m + 1) Novo York, com uma promessa do prefei to daquela cidade de
cobrir um déficit orçamentária de $2,7 bilhões; mos em todo o
mediana) + (amplitude da classe) eqüência da classe median a artigo não se menciona uma vez sequer a rara/ do orçomento, de
modo que a cifro de $2,7 bilhões por si só pouco sig nifica .
~.

onde 11 é a soma de todas as freqüências de classe em é a so ma das •..


freqüências das classes que precedem a classe mediana. Utilize este
Banco Jefferson Vallcy I 6.5 6,6 6,7 6,8 7,1 7.3 7 ,4 7,7 7,7 7,7
(Fila úni ca)
processo e os dados da Tabela de Freqüências 2-2 para achar a carga
a.léial mediana. Bam:odaProvidência I 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8.5 9.310,0
25. Co mo a média é muito sensível a valores extremos, é acusada de (Fila múltipla)
não ser um a medida robusta de tendência central. A média
Os clientes do Jefferson Valley B ank entram em uma fila única
aparada é mais robusta. Para ac har a média aparada em l 0% de
que é atend ida por três caixas. O s clientes do Bank of Providence ;:_
um conjunto de dados, primeiro ordenamos os dados. em seguida
podem entrar em qualquer uma de três filas que conduzem a três
eliminamos 10% dos valores superiores e 10% dos valores
guichês. Se fizermos o Exercício 5 da Seção 2-4, veremos que
inferi ores, e calculamos a média dos valores restantes. Para os pesos
ambos os bancos têm a mesma média de 7, 15, a mesma med iana
de ursos do Conjunto de Dados 3 do Apêndice B, determine (a) a
de 7,20, a mesma moda de 7,7 e o mesmo ponto médi o de 7 , I O.
média; (b) a média aparada em 10%; (c) a média aparada cm 20%.
Com base apenas nestas medidas de tendência cen tral, pode1ía-
Compare os resultados.
mos admitir que os tempos de espera nos dois bancos fossem
26. Consultando urn al manaque, um pesquisador determina o sal{rrio
praticamente os mesmos. Todavia, esquadrinhando os tempos de
médio dos professores para cada estado americano. Soma esses 50
espera originais, cons tataríamos uma dife ren ça fundamental: O
valores e divide o total por 50, para obter a média. O resultado é
Je ffe rson Valley Bank tem tempos de espera com muito menos
igual ao salário médio nacional dos professores? Por quê?
variação do que o Bank ofProv idence. Mantidas todas as outras
características, os clientes provavelmente preferirão o Jefferson
Valley Bank, onde não correm o risco ele entrar em uma fila mui to
~2 -5 Medidas de Variadio mais lenta do que as outras .
Fazendo uma comparação subjetiva dos tempos de espera Jlos
. Esta seção aborda a carac terístic: da variação, de g rande
dois bancos, podemos ver a caracter[stica da variação . Passemos
importância para a estatística, sendo, por isso, uma das principais
agora a algumas formas específicas de medir efetivamente a
de todo o livro. O leitor eleve dominar os seguintes conceitos-
variação. Começaremos com a amplitude.
chave: ( 1) a variação se refere a quanto os valores podem diferir
entre si e pode ser medida por números específicos ; (2) os
números relativamente próximos un s dos outros têm ba ixas Ampli~ude
medidas de variação, e nquanto os valores mais dispersos têm
maior medida de variação; (3) o desvio-padrão é uma medida de A amplitude de um conjunto de dados é a diferença entre o maior
variação particularmente importante, e devemos saber calcu lá- valor e o menor valor. Para calculá-lo, basta subtraümos o menor
lo para um conjunto de va lores; (4) os valores dos desvios-padrão valor do maior. Para o caso do Jefferson Valley Bank, a amplitude
devem ser inte1pretados corretamente. é de 7,7- 6,5 = 1,2 min. Os tempos de espera no BankofProvidence
Muitos bancos costumavam exigir que os clientes formassem têm uma ampli tude de 5,8 min, o que sugere maior variação.
filas separadas para os...diversos guichês, mas recen temente O cálculo da amplitude é bastante fácil , mas como ele depende
passaram aadotar fila única. Qual o motivo dessa modificação? O apenas do menor e do maior valor, em geral não é tão bom quanto
tempo médio de espera ·não se modifica, porque a fila de espera outras medidas de varia<;ão que levam cm conta todos os valores.
não afeta a eficiência dos caixas. A adoção de fila única se de ve u (Veja ao Exercício 25 um exemplo em qu e a ampl itude é enganosa.)
ao fato de os clientes preferirem tempos de espera mais comistentes
com menor variação. Assim é que milhares de bancos efetuaram i)esvio·Padrão e VOiriênciOJ
urna modificação que resultou em uma variação menor (e clientes
mais satisfeitos), mesmo que a média não tenha sido afetada.
De modo geral, o desvio-padrão é a mais importante e mais ütil
Consideremos agora a mesma amostra de dados bancários usada
medida de variação. Ao contrário da ampli tude, o desvio-padrão
no Exercício 5 da seção precede nte. Os valores relacionados são
leva em conta todos os valores, mas essa vantagem torna o cál-
tempos de espera (em minutos) de clientes.
culo mais difícil. Definimos a seguir o desvio-padrão, mas para ,.,
enlencler perfeitamente esse conceito, é preciso lermos cuidado-
(•
samente o reslante desta seção.
Um Bom Conselho aos Jornalistas
O colunista Max fronkel escreveu no The New York Times: "As
!l»~ffOINII~Ii@
r/
escolas de jornalismo não dão o devido importãncio à
!.~
estatístico, e algumas permitem que seus estudontes se formem
sem qualquer treinamento com números. Como podem tais O desvio-padl."ão de um conjunto de valores amostrais é
~J
repórteres escrever conscientemente sobre comércio, bem-estar .:.;
sacio!, crime, ou tarifas aéreas, sa úde e nutrição? O uso uma medida da variação dos valores em relação à média. i;{

descuidodo pela midio de números sobre o incidência de Calcula-se com o auxflio da Fórmula 2-4. ~!!
.~J

.. ,
~~

-~~~
.__ ~i
,,
'A
~:
~---- . - -- -. =~··~·"i;"t.• -:··!'t• •y·, . ·.-:~· ~: :. . . ::.::;;.:-:-:-~:..~·
n ----·~

Descrição, Exploração e Comparação de Dados 39

i/ EXEMPLO Determine o desvio-padrão dos tempos de espera


Fórmula 2-4 s =-y/"L(x-
n _ 1 desvio paclr~o amostral em guichês dos clientes elo Jefferson Valley Bank. Esses
tempos de espera (em minutos) são dados a seguir:
Qua~e todas as calculadoras científicas e pacotes estatísticos
são programados para calcula r autom at icamente o desvio- ,. 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7
padrão. Na Seção 2-6 discutimos a utilização de calculadoras SO LUÇÃO Muitos estudantes acham fácil utilizar a f unção
ecomputadores, mas é interessante o leitor cons ultar logo o - desvio-padrão embutida em suas calculadoras, mas recomen-
manual de sua calculadora para ver o processo ele cálculo que damos que o processo seja realmente e ntendido, seguindo os
dá o desvio-padrão. passos detalhados para o cálculo. (Ver Tabela 2-7, onde se
Por que defulir uma medida ele variação da maneira indicada executam os seguintes passos.)
na Fórmu la 2-4? Ao medir a variação em um conj unto de dados
amostrais, é razoável começarmos com os desvios dos valores Passo 1: Obtenha a média de 7, 15, somando os valores e
em relacão à média. Para determinado valor x, o valor do desvio d ividi ndo o total pelo número de valores:
éx - i, que é a diferença entre o valor e a média. Mas a soma -
de todos esses desvios é sempre zero, o que na verdade nada x = -LX
n
7 1,5
=- - = 7 ' 1-'i min
lO
si!!n ifica para nós: Para térmos uma estatística que realmente
m~ça a variação (em lugar de ser sempre zero), poderíamos tomar Passo 2: Subtraia de cada valor a média 7,15, obtendo os
a soma de valores absolutos, como em 2:1 x - xl. Determinando seguintes valores de (x - 1'): -0.65, -0.55, ... ,
a média deste somatório, obtemos o desvio médio (ou desvio 0,55.
absoluto), dado pela seguinte expr:::s<>ão: Passo 3: Eleve ao quadrado cada valor do Passo 2,
obtendo os valores (x- x )1 : 0,4225; 0,3025; ...:
. .. Il,- xl
DesviO med10 = ----- 0,3025 .
TL Passo 4: Some todos os valores precedentes, obtendo
Em vez de utilizar valores absolutos, pode mos obter urna
medida de variação ainda melhor, tCJmanclo os quadrados elos
2:(x - x) = 2 2,0450
desvios (x- x ), que são não-negmivos. Resulta que o desv io- Passo 5: Há n = 10 valores; divida, pois, por 9(= 10- 1):
padrão tem a mesma unidade de medida que os valores originais.
Por exemplo, se os tempos de espera elos clientes são medidos 2,0450 7 9 = 0,2272
t:m minutos, o desvio-padriio será expresso também em minutos. Passo 6: De term ine a raiz quadrada de 0,2272. O desv io-
Com base na Fórmula 2-4, podemos estabelecer como se segue padrão é
o processo ele cálculo do desvio-padrão.
Y0,2272 = 0,48 min
Processo para Determinar o !)esvio·Padrão com a Teoricamente, deveríamos dar aqui uma int<'. rprctação do
desvio-padrão de 0,48 min, mas essa interpretação será dada
Fórmula 2·4 mais adiante. Por ora, o leitor deve exercitar-se no cálculo de
um desvio-padrão utilizando os tempos de espera no Bank of
Passo l: Achar a média .\: dos valures.
Providence. Com esses dados, verificará que o desvio-padrão
Passo 2: Subtrair a média de cada valor individual (x - x ).
é de 1,82 min. Embora a interpretação desses. desvios-padrão
Passo 3: Elevar ao quadrado cada uma das diferenças obtidas
seja dada mais adiante, podemos compará-los; verificaremos
no Passo 2. [Este processo produz números da forma
ex- .xn que o desvio-padrão dos tempos de espera no Jefferson Valley
Bank (0,48 min) é muito menor do que o do caso do B;mk of
Passo 4: Somar todos os quadrado' rJbliclos no Passo 3, obtendo
2:(x - xf
Passo 5: Dividir o total de Pas,u ~ pd•' DUHicro (n- 1); isto é,
l menos que o nún1ero tc.t:tl de observações. TABELA 2-7 Cálculo do Desvio-Padrão para os Clientes
Passo 6: Extrair a raiz quadr~HID. ,lo resultado do Passo S. do Banco Jefferson Volley
X X- X (x - x )2
Mais Ações, Menor Risco 6,5 - 0,65 0,4225
6,6 -0,55 0,3025
Em seu livro lnveslmenls, os autores Zvi Bodie, Alex Kone e Alon 6,7 -0,45 0,2025
Marcus afirmam que "o desvio-pa drão 1nédio dos gonhos 6,8 -0,35 0,1225
proporcionados por uma co·teira composta apenas de ações de
u ma única componhio é de 0,554. O risco médio de uma
7,1 -0,05 0,0025
carteira diminui rapidamente no medida em que se diversificam 7,3 O, 15 0,0225
a s ações da corleira". Os autores observam que, com ações de 7,4 0,25 0,0625
32 companhias, o desvio-podrõo é de 0,325, indicando muita 7,7 0,55 0,3025
menor variação e risco. Salientam que com apenos uns poucos 7,7 0 ,55 0,3025
tipos de ações umo carteira tem um e!evodo grau de "risco 7,7 0,55 0,3025
específico", o que sig nifico q ue o risço é atribuído ao pequeno
número de ações e m jogo. Com mais de 30 tipas de oçõo, há Totais: 71,5 2,0450
um risco específico muito pequeno; quose todo o risco é um
"risco de mercado", a tribuído oo mercado de ações como um
lodo. Os autores obseiYom que esses principias nada mais são _ _ 7 1, 5 =7,15min
X- lQ s = ~ 2, 0450 = .Jo,2272 =o, 48 min
do que a oplicaçõo do bem conhecida lei das médios. 10- 1
4() EsTATÍSTICA

I Providence (1 ,82 min). Isso reforça a nossa co nclu são


sul:>jetiva, de que os tempos de espera no Jefferson Valley
Bank têm varia ção muito menor do que os do Bank of
Providence.
:,. ~egra ~o Az'reda.fldà·~ ~~içi '.:.
Tal como na Seção 2-4, util izamos a regra seguinte para
arredondar resultados finais:
Tomar u ma casa decimal a mais, em relação às que
Em nossa definição, referimo-nos ao desvio-padrão de constam dos d ados originais.
dados amostrais. Para o cálculo do desvio-padrão u (minús-
Devemos arredondar apenas o resultado ·f inal, e não resul-
cula grega sigma) de um apopulaçüo, vale uma fórm ula ligei-
tados intermediários. S e, por alguma razão, ti vermos de
ramente difere nte: em lug ar de dividirmos por 11 - 1, dividi-
a rredondar res ul tados intermediários, elevemos trabalhar
mos por N, tamanho da popul ação, como ·se vê na expressão
com pelo menos duas casas decimais além das que elevem
seguinte.
constar elo resultado final.
= /L(x - J.L)' desvio-padrão popu lacional
0
N y .
Por exemplo, se os lO valores ela Tabela 2-7 constituem uma Fórmula Abreviada e Dados Agrupados
população, o desvio-padrão é:
Damos a seguir duas outras fórmulas para o desvio-padrão. Essas
~'i(x - J.L)2 ~2,0450 4_ . fórmulas não envolvem qualquer conceito diferente; são apenas
CJ= N = - 1-0-= 0')rnm versões distintas da Fórmula 2-4. Primeiro, a Fórmula 2-4 pode
Como em geral lidamos com dados amostrais, vamos utilizar expressar-se na for ma equivalente: ·
a Fórmula 2-4, dividindo por n - 1. Mui tas calculadoras dão o
(2; 2) (" )'
desvio-padrão, com a ctivisão por n- 1 cotTespondendo a uma s= n· x - ..,x Fórmula abreviada para
Fórmula 2-6
tecla a;,_ 1 ou s, enquanto que a tecla a;, ou O" corresponde a uma n( 11 - 1 ) o desvio padrão
divisão por N. Por alguma razão, engen hosa mas estranha, as
calculadoras utilizam diversas notações; as que seguem, entre- As Fórmulas 2-4 e 2-6 são equivalentes no sentido de que sempre
tanto, são as mais comuns em estatística. Essas notações dão os mesmos resultados. Poupamos ao leitor o trabalho algébri-
compreendem referências à variância de um conjunto de valores; co para mostrar essa igualdade. A Fórmula 2-6 é chamada fórmula
passamos ago ra a descrever essa medida de variação. abreviada, porque tende a ser mais conveniente para uso com nú-
meros extensos ou com grandes conjuntos ele valores. A Fórmula
2-6 é usada em geral em calculadoras e programas de computador,
porque exige apenas três registras de memória (para n, 2x e 2:,t2 ),
em lugar ele um registro ele memória separado para cada valor indi -
s denota o desvio-padrão de um conjunto de dados vidual. A Fórmula 2-6 também elimina en·os de arredondamentos
amostrais intermediários, originados quando não se utiliza o valor ex.ato da
a denota o desvio-padrão de um conjunto de dados média. Não obstante, muitos professores preferem utilizar apenas
populacionais . a Fótmula 2-4 para o cálculo do desvio-padrão. Argumentam que
s2 é a variância de um conjunto de dados amostrais a Fórmula 2-4 reforça o conceito de que o desvio·padnlo é wn tipo
cf1 é a variância de um conjunto de dados populacionais de desvio médio, enquanto a Fó1mula 2-6 obscurece essa idéia.
Nota: Em artigos de revistas e relatórios profi ssionais, Outros professores não fazem qualquer objeção ~~ Fórmula 2-6.
costuma-se incticar o desvio-padrão por SD (standard Incluúnos a fórmL1la abreviada para aqueles que desejem utilizá-
deviation) e a variância por V ar. la. Já apresentamos um exemplo de cálculo do desvio-padrão com
a Fórmula 2-4; ilustraremos a seguir a aplicação da Fómlu!a 2-6.

Omitindo a Etapa 6 (tomar a raiz quadrada) no processo de EXEMPlO Calcule o desvio-padrão dos seguintes tempos de
cálculo do desvio-padrão, obtemos ·a variância, definida na espera (em minutos) ele clientes do Jeffe rso n Valley Bank,
Fórmula 2-5. aplicanjo a Fórmula 2-6 :
6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7
,
F ormu I 2- '.2;(x-X) 2 ., • I
a -:;, s- = varranc1a amostra SOLUÇÃO A Fórmula 2-6 exige a determinação dos valores
n- 1
de n, 2:x e 2:x 1 • Como há 10 valores, temos n = 10. A soma
Analogamente, podemos expressar a variância populacional como dos 10 valores é 71,5 e, assim, 2x = 71,5. Calcula-se como
se segue a terceira componente necessária:
a' = 2;(x - ~Lf variância populacional
N 2;x 2 = 6,5 2 + 6,62 + 6.7' + · · · + 7f
Comparando as Fórmulas 2-4 e 2-5, vemos que a variância é = 42,25 + 43 ,56 + 44,89 + ... + 59,2~
o quadrado do desvio-padrão. Embora a variância venha a ser = 513,27
usada mais adian te, devemos inicialmente concentrar-nos no Estamos e m condições de aplicar a Fórmula 2-6 para calcular
conceito de desvio-padrão, para bem apreender o sig nificado o valor do des vio-padrão.
dessa estatística. Uma dificuldade com a variância é que ela não
é expressa nas mesmas unidades dos dados originais . Assim é n(2'-x 2 ) - (1x) 2 10(513,27) - (71 ,5 ) 2
j' = :'.~~
que um conjunto de dados pode ter um desvio-padrão de $3,00 e n(n - 1) 10(10- 1)
L·~~:
uma variância de 9,00 dólares quadrados. Como dólar quadrado .....~··
é um conceito abstrato que não ati ngimos diretamente, a variância
se nos afigura difícil de ser compreendida.
= , / 20 ·45
y 90
= 0,4766783 = 0,48 min (arredondado) t~..•
.~

~)~
::::
r:l
~/l
;:·
:-.~~~n~J.;z.:~!t:-c~~e~~"';
...::·-:%'

- -- -- .. - -. ......._.._.__ '--"-'- ---- -· -~-- ;.-:;:y.,.;:;;;....;-~~'·.···:·:o-;.,..t'..j'~:8D~·;~:5~

Descrição, Exploração e Comparação de Dados 41

Pode-se estabelecer uma fórmula para o desvio-padrão quando 1-Varstats e introduzimos Ll e L2 para obter os resultados
os dados se apresentam-resumidos em uma tabela ele freqUências. q ue i ncluem a média e o desvio-padrão.
O resul tado é:
s=
- X)2 /2-t . (x Para Entender o Desvio·padrão
n - 1 V
Daremos a esta fórmula uma expressão equivalente, que em geral Procuraremos aqui atribuir um sentido intuitivo ao desvio-
simplifica os c·álculos. padrão. De início, devemos ter em mente que o desvio-padrão
m ede a variação entre valores. Valores próximos uns dos outros
Fórmula 2-7 originam desvios-padrão menores, enquanto valores mu ito
afastados uns do s ou tros dão um desvio -padrão ma ior.
jn[I (f · x 2 )J - [2: (f · xW desvio-padrão para Interrompamos a leitura e devotem os um momento ao estudo
s = \; n(n - 1) tabela de frcqüência da Figura 2-9. Veremos que, quando os dados se dispersam, o
com: .r = ponto médio da classe valor do desvio-padrão aumenta.
f = freqüência da classe Como a variação é um conceito relevante, e como o desvio-
11 =tamanho da amostra (ou "'i,f = soma das freqUências) padrão tem grande importância na sua medida, abordaremos três
maneiras diferente s ele atribuir um sentido ao desvio-padrão. A
primeira é uma regra prática que utiliza a amplitude para obter uma
EXEMPLO Aplique a Fórmula 2-7 para estimar o desvio-padrão
estimativa bastante rudimentar do desvio padrão. (Poderíamos
das 175 cargas axiais das latas de alumínio da Tabela de melhorar a precisão dessa regra levando em conta fatores como o
Freqüências 2-2. tcun anho da amostra e a natureza da distribuição, mas, por ora,
preferimos sacrificar a precisão cm. favor ela simplicidade.
SOLUÇÃO A aplicação da Fórmula 2-7 exige a determinação dos
Queremos uma regra simples que nos permita interpretar o valor
valores den, "'i,(j· x) e "'i,(j· ~). Determinados esses valores, pela do desv io-padrão; mais adiante estudaremos métodos q ue
Tabela 2-8, podemos aplicar a Fórmula 2-7, como segue: produzam resul tados mais precisos.)
s= /n[.:E (f · x2 )) - [.2. (f · x)f =
V n(n - 1) Regra Prático (desviO:[x1ar.Çig·ém·iérmos da : ~:unplitude)
....
= /175(12.579.173,75)- (46.757,5) 2
v 175(175 - l)
Pma conjuntos de dados típicos, a amplitude mede aproxima-
damente 4 desvios-padrão (4s), de forma que podemos
aproxin1ar como segue o desvio-padrão:
= {ís.o91·600 = V49s ' 6190476 = 22' 3Ib
\{- 30.450 . amplitude
desvJo-padrão = 4 regra prática
As 175 cargas axiais têm um desvio-padrão estimado em 22.3
lb . ( 0 valor exato calculado com base no conjunto original Esta expressão dá uma estimati va razoável para o desvio-
de dados é 22,1 lb; a apro ximação é, pois, bastante satis- padrão, quando conhecemos os valores :nínimo e máximo.
fatória.) Desde que conheçamos o desvio-padrão, podemos utilizá-
lo para entender melhor os dados, fazendo estimativas dos
~ Podemos tcunbém utilizar uma calculadora TI-83 para calcular valores mínimo e máximo como se segue:
!ffi.il o
desvio-padrão de dados condensaclus em uma tabela de
. mínimo = (média) - 2 X (desvio-padrão)
L~-á~~~o :--~média)+ 2 X (desvio-~adrão)
· ' f reqüências.lntroduzimos ptimeiro os pontos médios em Ll , em
seguida as freqüências em L2; utiliza mos então STNr. CJ.LC c _ _ _ _ _ jI

YABELA 2-8 Cálculo do Desvio-Padrão para uma Tabela de Freqüê nc ias


Ponto Médio
Carga Axial Freqüênciaf da Classe x f ·x f· x'
200-209 9 204,5 1840.5 376.382,25
210-219 3 214,5 643,5 138.030,75
220-229 5 224,5 1.122.5 252.001,25
230-239 4 234,5 938,0 219.961,00
240-249 4 244,5 978,0 239.121,00
250-259 14 254,5 3.563,0 906.783,50
260-269 32 264,5 8.464,0 2.238.728,00
270-279 52 274,5 14.274,0 3.9 18.213,00
280-289 38 284,5 10.811 ,0 3.075.729,50
290-299 14 294,5 4.123,0 1.214.223,50

Total 'iJ = 175 2lj · x) = 46.757,5 "'iif· rl = 12.579.1 73,75


42 EsTATÍSTICA

7 1
r;= o

a:f
~·L
!5= 0,8 !5 = 1,0 s = 3,0
·~
., 3

Jfb ,[1J]" o,- R 'D


.
J:: 2 .
1
.
o
1 2 3 4 5 6 7 1234567 1 2 3 4 5 6 7 1 2 3 4 5 6 7

:;;(q;#~~Vr9.~rát~í-1o~r~iic{éW~Fd.a.. fi 'dise~tE?ãodosdE;Jc/Ós aurn~nta.

Fig. 2-9 Média idêntica, desvios-padrão diferentes.

Ao calcularmos um desvio-padrão com uma das Fórmulas 2-4 Como as cargas axiais das latas de alurrúnio da Tabela 2-l têm
ou 2-6, podemos utilizar a regra prática como uma verificação do uma média d e 267,1, um desvio-padrão de 22,1 e uma
resultado obtido, mas não devemos esquecer que, embora a distribuição como a da Figura 2-1, concluímos que essas latas
aproximação leve a uma vizinhança da resposta, ainda assim pode podem facilmente suportar as pressões de l58lb-165lb aplicadas
acusar grande diferença. Para os tempos de espera dos clientes do ao se fixarem as tampas no lugar. Recordemos, do enunciado do
Jefferson Valley Bank (6,5; 6,6; 6,7; 6,8; 7, l; 7,3; 7,4; 7,7 ; 7,7; 7,7) Problema do Capítulo, que essas. latas têm uma espessura de
calculamos o desvio-padrão pela Fórmula· 2-6, obtendo s = 0,48. 0,0109 in., que é inferior à espessura comumente adotada. Com
A amplitude desses valores é 7,7 - 6,5 = 1,2, o que nos permite base em nosso conhecimento das características importantes elo
aplicar a regra prática para obter uma estimativa de s como segue : conjunto de dados da Tabela 2-1, concluímos que é possível
economizar utilizando essas latas menos espessas.
amplitude 1,2
s= 4 =-=03 min
4 , O exemplo precedente ilustra como utilizar dados sobre a
amplitude, para estimar o desvio-padrão . O exemplo que se segue
Ora, acabamos de ver que o desvio-padrão é realmente 0,48, de consti tui um a ilustração particularmente importante de uma
modo que a estimativa pbtida pela regra prática (0,3) parece Íl1le1pretação do desvio-padrão.
demasiadamente pequena. Todavia, nossa estimativa confirma
que, de modo geral, estamos bem próximos do valor correto; sem
dúvida, um valor como 7 paras se afiguraria incorreto. EXIEMPLO A Gates Electronics Company fabrica barbeadores
recarregáveis, sem fio, que têm vida média de 8,0 anos, com
desvio-padrão de 3,0 anos. Utilizando a regra prática, estime
Consistência no Correio
a vida mais longa e a mais breve desses barbeadores.
Pesquisa recente feita com 29 .000 pessoas que utilizam o
serviço postal dos EUA revelou que elas gostariam de maior
SOLUÇÃO Esti.illamos a maior e a menor duração de vida pela
consistência no tempo que. uma carta leva para ser entregue.
Ora, uma corta loca l pode levar um dia ou vários dias poro ser regra prática, como se segue:
entre~ue. O jornal USA Today regi strou uma queixo comum:
"Por rever, diga-me com quantos dias de ontec:edêncio eu devo mínimo = (média) - 2 X (desvio-padrão)
postar um cartão de aniversário paro minha mãe. " = 8,00 - 2(3,0) = 2,0 anos
O nível de consistência pode ser medido pelo desvio-padrão máximo =( média) + 2 X (desvio-padrão)
dos tempos de entrego. Um desvio-padrão mais baixo revelo maior
consistência. O desvio-padrão é em geral um recurso criticomenie
= 8.0 + 2(3,0) = 14,0 :mos
importante poro controlar o qualidade de bens e serviços. Podemos, pois , esperar que a maioria dos barbeado res em
questão dure de 2,0 a 14,0 anos. Tenha em mente que esses
resultados são estimativas grosseiras, mas, com o conhecimento
EXEMPLO Com auxílio da regra prática, estime o desvio-
da média e do desvio-padrão, estamos em condições ele obter
pad rão da amostra de 175 cargas axiais de latas de alu rrúnio
aproximações do menor e do maior valor, passando a entender
da Tabela 2-1.
melhor como os dados variam.
SOLUÇÃO Utilizando a regra prática para estimar o desvio-
padrão de dados amostrais, calculamos a amplitude e a dividimos
por 4. PercotTendo a lista de valores, vemos que o menor é 200 .:i~~e§ra Emp)ricci, {()0.~e9rci 6~:?5-?9) pdra os Da dó-s- ~ -
e o maior é 297, de forma que a amplitude é 297- 200 = 97. O
desvio-padrão s é estimado como segue: Outra regra que auxilia a interpretação do valor de um
intervalo 97 desvio-padrão é a regra empírica , aplicável somente a
s = - -- = - = 24 3 lb conjuntos de dados com distribuição aproximadamente em
4 4 '
fo rma ele sino, conforme a Figura 2-1 O. Essa figura mostra
..._, Esse resultado está próximo do valor correto de 22, 1, obtido
como a·média e o desvio-padrão estão relacionados com a
com o cálculo do valor exato do desvio-padrão pela Fórmula
2-4 ou 2-6. proporção dos dados que se enqu adram em determinados
'1
t ,
_L_ :1.,

;I
~- -- ·-- - .~~

Descrição, Exploração e Comparação de D ados 43

limites. Assim é que, com uma distribuição em ronna de conjuntos de dados com distribuição em forma de sino. O teorema
si no. temos 95% dos seus valores a menos de dois desvios- de Tchebichev se aplica a qua lquer conjunto de dados, mas seus
padrão da média. A regra empírica costu ma ser designada resultados são muito aprmumados.
abreviadamente como a regra 68-95-99.

Teo'~erria .dei't thoelJichév

A Regra 68-95-99 pa~ci Dàdos com Distribuição em' A proporção (ou fração) de qualquer conj unto ele dados a
Forma de Si no -· menos de K desvios-padrão a contar ela média é sempre ao
menos I - l/1(2, onde K é um número poE.itivo maior elo
• Cerca de 68% dos valores estão a menos ele 1 desvio- que 1. Para K = 2 e K = 3, temos os seguintes resultados
padrão a contar da média. específicos:
• Cerca de 95% dos valores estão a menos de 2 desvios-
padrão a contar ela média. • Ao menos 3/4 (ou 75%) de todos os valores estão no
• Cerca de 99,7% dos valores estão a menos de 3 desvios- intervalo que vai de 2 desvios-padrão abaixo ela média
padrão a contar da média. a 2 desvios-padrão acima da méd ia (X - 2s a :r + 2s).
• Ao menos 8/9 (ou 89%) de todos os va lores estão no
intervalo q ue vai de 3 desvios-padrão abaixo da média
até 3 desvios-padrão acima ela média ( x - 3s a .\' + 3s).
r,J EXEMPLO Os Qis de um grupo de ad ultos apresentam
M distribuição em forma ele sino com média 100 e desvio-padrão
~J 15. Aplique a regra empírica para achar a porcentagem de
H adultos com Ql entre 55 e 145. Utilizando valores de Ql com médià l 00 e desvio-padrão !5, o
H teorema de Tchebicnev afirma que ao menos 75% dos valores estarão
[1 SOLUÇÃO A chave para a resolução deste problema consiste entre 70 e 130, e ao menos 89% elos va1ores estarão entre 55 e 145.

i
em reconhecer que 55 e 145 estão, cada um, exatamente a três Após o estudo desta seção, deve estar claro para o leitor q ue
desvios-padrão da média. (Como o desvio-padrão és = 15, o desvio-padrão é uma medida da variação entre os valore~. O
decorre que 3s = 45, de modo que 3 desvios-padrão abaixo leitor deve ainda estar em condições ele calcu lar o desvio-padrão
da média ~1o 100 --45 =55, e 3 desvios-padrão acima da para um conjunto de dados, interpretar os valores elo desvio-

I~
média são 100 + 45 = 145.) A regra empírica afirma que padrão e reconhecer que, para um conjunto típico, é raro um valor
99.7% ele todos os valores estão a menos de 3 desvios-padrão do mesmo diferir da média por mais de 2 ou 3 desvios-padrão.
a contar da 1nédia, donde decorre que 99,7% elos adL!Itos
devem ter QI entre 55 e 145 . Como ns vnlores fora deste 2-5 íExerddos A: !Hk:nbnlêdade.s e
intervalo são bastante raros, uma pessoa com QI acima de 145 Conce8t©~s !Sóskcs
~ ou abaixo de 55 deve ser considerada excepcional.
Nos Exercícios 1-4, determine a amplitude, a Farttmcw e o
Um terceiro conceito importante para compreendermos e desvio-padrão do conjunto de dados. (Os dados são os mesmos
interpretarmos o valor do desvio-padrão é o teorema de utilizados na Seçüo 2-4, onde dete rminamos medidas de
Tchebichev. A regra empírica prececleme se ap lica apenas a tendência central. Aqui, !rata-se de medidas de variação.)

r----------· 99,7% dos dados rst.ão - - -- -·--·


d~ncro de 3 .:k:svio-?-padrão a conta1·
,.la mé&1: (x -- 3~. x f- 3s)

~
9S1.estão
de ~ desv~s-padrão

r 68/. estao ->


dentro de 1
desvio-padrão

0,024
/0 ,135
x- 3s x- 2s x- s x x+s :X + 2s x + 3s
Fig. 2· 1 O A regro empírica.
44 ESTATÍSTICA

1. Os valores a segu ir são os pesos (em onças) de bifes constantes do A tabela de freqüê ncias resume os intervalos de tempo (em mi nutos)
cardápio de um restaurante como "bifes Porterhouse de 20 oz" (com . entre as erupções.
base em dados coletados por um aluno do au tor).
Tempo Freqüência
17 20 21 18 20 20 20 18 19 19
20 19 21 20 18 20 20 19 18 19 40-49 8
50-59 44
2 . Algarismos escolhidos na 1oteria_pick Three de Mary land:
60-69 23
o7 3 6 2 7 6 6 6 3 8 J 7 8 7
70 -79 6
16 86 9 5 2 15 o3 9 9 o7 80-89 107
3. Resíduos de ni trato (em kg por hectare) como parte da chuva ácida
90-99 11
em Massachusetts, deju1ho a sete mbro do últimos anos (com base
100~ 109
em dados do Minis tério da Agricu ltura dos EUA):
6,40 5,2 1 4,66 5,24 6,96 5,53 8,23 6,80 5,78 6.00 5,4 1 14. Dá-se a segu ir, numa tabel a de frcqüências, um resumo das idades
de carros de al unos e de professores e funci~nários da faculd ade
4. Concen trações sangue-álcool de 15 motoristas envolvidos em do autor. Determine o desvio-padrão de cada conjunto de dados.
acidentes fatais e condenados 11prisão (Fonte: Dados do Ministério Com base nos resultados, há diferenças sensíve is entre as duas
da Justiça dos EUA): amostras? Em caso afim1ativo, quais?
0,27 0, 17 0,17 0 ,16 0,1.3 0,24 0,29 0,24
Professores/
0.14 0.16 0,1 2 0, 16 0,21 0,17 0,18 Idade Estudantes Funcionários

Nos Exercícios 5-8, determin e a amplitude, a variância e o 0-2 23 30


desvio-padrão para cada uma das duas amostras, e compare os 3-5 33 47
dois conjuntos de resultados. (Na Seção 2-4 utilizamos esses 6-8 63 36
mesmos dados.) 9-11 68 30
5. Tempos de espera de clientes no Jefferson V alley Bank (onde todos 12-14 19 8
os cüentes fonnam um a fila única) e no Bank ofProvidence (onde 15-17 lO o
os clientes fonnam filas separadas para cada um dos três gu ichês).
18-20 1 o
Esses conjuntos de dados já foram estudados nesta seção.
21-23 o
Jefferson Valley: 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7
Providência: 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0 15. A tabela de freqüências a seguir dá as velocidades desenvolvidas
6. Amostras das idades (em anos) de carros de alunos e de professores por motoris tas multados na cidade de Poughkeepsie em um trecho
e funcionários de uma faculdade, obtidos na faculdade do au tor. onde a velocidade máxima é de 30 mi/h.

Estudantes: 10 45 2 9 7 8 8 16 4 13 12 I
Velocidade Freqüência
Profs . e funcs.: 7 104 13 23 2 7 6 6 3 9 4
42-43 14
7. Largura máxima de crânios de homens egípcios de 4000 aC a 150 44-45 1l
aE> (Fonte: Dados de Ancient Races ofthe Thebaid, por Thomson
46 - 47 8
and Randall-Maciver):
48-49 6
4000a.C.: 131 119 138 125 129 126 131 132 126 128 128 131 50-51 4
150 A.O.: 136 130 126 126 139 14 1 137 138 133 131 134129 52-53 3
S. Pesos (em libras) de papel e plástico descartados em residências 54-55

I~
durante uma semana [Dados coletados no Projeto do Lixo da 56-57
Universidade de Arizona]: 58-59
Papel: 9,55 6,38 2,80 6,98 6,33 6,16 !0,00 12,29 60-6 1
Plástico: 2, 19 2,10 1,41 0,63 0 ,92 1,40 1,74 2,87 16. As companhias de seguro pesquisam continuamente as idades na
morte e as causas de morte. Os dados se baseiam no estudo levado
Nos Exercícios 9-12, recorra aos dados do Apêndice B e calcule a efeito pela revista Tim e sobre as pessoas que mO ITeram vitimadas
o desvio-padrão. por armas de fogo durante uma semana.

9. Conjunto 2, Apêndice B: temperaturas do corpo às 8 da manhã do dia 1 I


Idade na Morte Freqüência ,.::
10. Conjunto 4, Apêndice B: comeúdo de nicoti na em cigarros ' ···:
16-25 22
11. Conj unto 3, Apêndice B: pesos de ursos
26-35 10
12. Conj unto 11 , Apêndice B: pesos dos bo mbons M&M vermelhos
36-45 6
Nos Exercícios 13-16, determil!e o desvio-padrão elos dados 46- 55 2
resumidos na tabela de freqiiências. 56--<i5 4
r.;
66-75 5 '•
13. Os visitantes do Parque Nacional de Yellowstone (EUA) consi- .,:
deram urna erupção do gêiser Old Faithful urna atração irnperdível. 76-85 ;-.:
~~
')
~
i'"'

;:·

-r..
~~------........ __ ..-........._._ ___, __~=·. . . ·--~ -~-.- -~ --- --- c<\~~·--:-:-... ~v~.~f.7.>:l;~;.-~~..-.:~~7~~~::~"' ... -,llo~,.---'~

Descrição, Expl oração e Comparação de Dados 45

17. Se o lei ror vai comprar urna bateria para substituir a do seu carro, e o desvio-padrão para cada grupo. Que conclusões sobre a variação
preferirá uma que venha de uma população com u = 1 mês ou uma nos doi s grupos os valores da amplitude sugerem? Por que razão a
que venha de uma população com u = 1 ano? (S uponha que ambas amplitude é enganosa neste caso? Que conclusões sobre a variação
as populações tenham mesma média e mesmo preço.) Justifique nos dois grupos o desvio-pad rão sugere?
sua escolha. 1 20 20
Grupo 1: 20 20 20 20 20 20 20 20
18. Como administrador, o leitor deve comprar lâmpadas para um
Grupo 2: 2 3 4 5 6 14 15 16 17 18 19
hospital. Escolheria as lâmpadas Ultralight, que ti!m vida média J-L
= 3000 h eu= 200 h, ou as lâmpad2s Electrolyte. com J-L = 3000 26. a. Util iza -se o coeficiente de variação, expresso como porcen·
h e u = 250 h? Explique. tagem, para descrever o desvio-padrão cm relaç5o à média. Esse
19. Apl iq ue a regra prática para estimar o desvio-padrão das alturas coeficiente permite-nos comparar a variabi li dade de conjuntos
de seus colegas da turma de estatística. de dados com diferentes unidades de medida (como pés versus
20. Aplique a regra prática para estimar o desvio-padrão das notas do minutos), c se ca lcula como se segue:
último exame final de estatística. (T
!._. 100 - . 100 ou
X J-L
2-5 !Exercícios B: Além do !Sásko Determine o coeficiente de variação para as seguintes idades
de carros (em anos):
21. Um teste de datilografia acusa notas com X = 80,0 c s = 10,0, e
um histograma mostra que a distribu ição das notas tem a forma
o 3 3 5 6 6 6 6 8 12

aproximada de um sino. Aplique ~ regra empírica para responder: b. Gcnichi Taguchi desenvolveu um processo de melhoria de
qualid ade c redução de custo de fabricação median te uma
a. Qual a porcentagem das notas entre 70 e 90? comhinação de engenharia e es tatística. Um elemento funda-
b. Qual a porcentagem das notas a menos de 20 pontos da média? mental no processo de Taguchi é a razão sinal-par<J-ruído. A
c. Entre quais valores devem estar 99,7% das notas? (A média 80
maneira mais simples de calcular essa razão consis te em dividir
deve estar a meio caminho entre esses do!s valores .) a média peio desvio-padrão. Determi ne a razão sinal-para-ruído
22. As alturas de mulheres adultas acusam média de 63,ú in. e desvio- para os dados amostrais da parte (a).
padrJo de2,5 in. O que nos afl.IT!la o teorema de Tchcbicbev sobre as 27. Na Seção 2-4, introduzimos o conce ito gera l de assimetria . A
mu lheres com altura entre 58,6 in. e (,8,6 in.? Entre 56,1 in. e 77,1 in. ? assimetria pode ser medida pelo índ ice de assimetria d e Pearson:
23. a. Determine a amplitude e o desvi o padrãos da amostra segu in te
3(f - mediana)
de rendas (em dólares) de médicos autônomns (com base em [ =--- .
dados da Arnerican Medical Association):
s
Se I ;;:::: I ,00 nu r :s -1,00, os dados podem ser considerados
108.000 236.000 179.000 206.000 236.000
sigllificativamente as.1imécricos. Ache o índice ele assimetria de
b. Como são afetados os resultados da parte (a) se se adiciona um Pearson para as cargas axiais de latas de alumín io da Tabela 2-1, e
valor constante k a cada renda" detem1ine então se existe assimetria sign ificativa.
c. Se cada renda da parte (a) é multiplicada por uma constante k, 28. a. Uma amostra co nsiste em 6 valores que se situam entre 1 e 9
como são afetados os resultados de la)? inclu sive. Qual o maior valor possível do desvio-padrão?
d. Por vezes, os dados são transfurmados, substituindo-se cada b. Para qualq uer conjunto de n valores com desvio-padrão s, todo
valor x por log x. Para os valores daclns de x. determine se o valor deve estar a menos de s ~ Ja média. Uma professora
desvio-padrão dos valores de log .x é igual a log s. de esta tística afi rma que as notas de um tes te cm sua turma de
e. Para os dados relativos a ten, J.H.ora tu ras do Conjunto 2 do 17 alunos tiveram média 75,0 e desvio-padrão 5.0. Kclly, que
Apêndice B (12 horas do dia ?.j, .t = 98 ,20°F e s == 0.62°F. se julga a melhOI" aluna da turma, alega ter obtido nota 97. Pode
Dete rm ine X e s para os rl;:rlos, após trans formar cada ser verdadeira tal ale?aç~o~
te111paatnra para a escala Celsn,s [Sug. : C = 5(F · · 32)/9.]
24. Se considerarmos os valores l, 2. ~- .. . , n como uma população. o
desvio-padrão pode ser calcubdn oela fórmula 2-6 Medlode!!s dle lf»osnçêc
/n'l=-1
u=\f-12 Vamos ago ra introduzir os escores z, que permitem comparar
valores mais fac ilmen te, através de sua padronização. Introdu-
Esta fórmula é equivalente à FómvJla 2-4. modificada pela divisão z iremos também os quartis, percentis e decis, com os quais
por n eni lugar de n - l, onde o wnjunto de dados consiste nos podemos entende r melhor os dados, focalizando s ua posição
valores l, 2. 3, .... 11 . relativa em relação ao conjunto como um todo. Os quartis
a . Calcule o desvio-padrão da população 1, 2, 3, ... , 100. introduzidos aqui sedio também utilizados nos diagramas em caixa
b. Ache uma expressão para o cálculo elo desvio-padrão amostral (boxplots), a serem abordados na seção seguinte.
s para os valores amostrais l , 2, 3, ... , 11.
c. Os computadores e as calculadoras cm geral uülizam um gerador Escores z
de números aleatórios que produz valores entre 0,00000000 e
0,99999999. Com o decorrer do processo, todos os valores
Quase todos nó s es tamos fami l iarizados com os Qls , e re-
tendem a ocorrer coro a mesma freqüência relativa. Dete1mine a
conhecemos que um QI de 102 é bastante comum , e nqu anto um
média e o desvio-padrão da população desses valores. QI de 170 é raró. Esse Ql de 102 é bastante comum porque está
25. Dois grupos diferentes de uma turma de estatística fazem o mesmo próximo da média de 100, mas o QI de 170 é raro porque está
teste-surpresa, com as notas relacionadas a seguir. Ache a amplitude bem acim a de 100. Esta circu nst ân c ia pod e suge ri r uma
46 ESTATÍSTICA

diferen(,a entre os valores típicos e os valores raros, com base Nosso critério para classificar um escore z como incomum
em sua diferença em relação à média (x- x ). Mas o vulto, ou decorre. da regra empírica e do teorema ele Tchebichev. Recorde
tamanho, dessa diferença depende da escala que estamos que, pela regra empírica, para dados com distribuição em fo rma
utilizando. Com valores de QI, uma diferença de 2 pontos é de sino, cerca de 95% dos· valores estão a menos de 2 desvios-
insignificante, mas para médias de notas de uma fac uldade uma padrão da média. (Veja Figura 2- 10 da seção precedente.) Por
diferença de 2 pontos entre 2,00 e 4,00 é altamente significativa, outro lado, o teorema ele Tchebichev atirma que, para qualquer
sobretudo para os pais dos alunos. Seria muito melhor se . conjunto de dados, ao menos 75% elos valores estão dentro de 2-
dispuséssemos de um padrão que não levasse em conta a escala desvios-padrão a contar da média.
utilizada. Com o valor, ou escore, padronizado, div idim os a Já vimos que os escores z são úteis para comparar escores
diferençax- x (ou x- f.l) pelo desvio-padrão para chegarmos de diferentes populações com médias distintas e desvios-padrão
a esse resultado. diferentes. O exemplo que segue ilustra essa aplicação elos es-
cores z.

DIEt:!NDÇ.i.©
EXEMPLO Uma professora de estatística aplica dois testes
O escore padronizado, ou escore z, é o número de desvios- diferen tes a duas turmas do seu curso. Os resultados foram
padrão pelo qual um valor x dista da média (para mais ou Turrna 1: .:t= 75 e s = 14
para menos). Obtém-se como segue: Tunna 2: x = 40 e s = 8
Amostra População Que nota é relativamente melhor: 82 no teste da Turma 1, ou
46 no da Turma 2?
x-x X- ~L
z = --- ou ~
7=---
O" SOLUÇÃO Não podemos comparar di.retamente as -notas 82 e
s
(Arredondar z para duas decimais.) 46 porque provêm de escalas diferentes. Transformamo-las,
portanto, em escores:::. Para o valor 82 da Turma 1, obtemos
o escore z 0,50, porque
X- X 82 -75
EXEMPLO As alturas da população de homens adultos têm z:= - - = =0,50
s 14
média f.l = 69,0 in., desvio-padrão cr = 2,8 in. e distribuição Para a nota 46 da Turma 2, o escore z correspondente é 0,75,
em forma de sino. O jogador de basquete Michael Jordan porque
ganhou reputação de gigante por suas proezas no jogo, mas
X- X 46 -40
com 78 in., ele pode ser considerado excepcionalmente alto, z= - - = =0,75
comparado com a população geral de homens adultos? s 8
Determine o escore z para a altura de 78 in. Isso significa que a nota 82 do teste da Turma 1 está 0,5 desvio-
padrão acima da média, enquanto a nota46 elo teste da Turma
SOLUÇÃO Como estamos lidando com parâmetros populacio- 2 está 0,75 desvio-padrão acima da média. Isso implica que o
~ nais, o escore z se calcula como segue: resultado 46 do teste da Turma 2 é melhor, relativamente.
Embora inferior a 82, a nota 46 tem melhor posição relativa
X - ~L 78 - 69,0 no contexto dos outros resultados do teste. Mais adiante vamos
z =--= = 3,21
a 2,8 utilizar amplamente os escores z.
Podemos interpretar este resultado dizendo que a altura de
Michael Jordan , de 78 in ., está 3,21 desvios-padrão acima da
I média. Compra clle Carro

Poro o aquisição de um carro novo ou usado, uma boa


A importância dos escores z na estatística reside no fato de que refe rência é o grau de confiobili dade compilado e reportado
eles permitem distinguir entre valores usuais e valores raros, ou pelo revista Consumer Reports. Os dados relativas à freqüência
de consertas se baseiam em lO milhões de dadas caletodos de
incomuns. Consideramos usuais os valores cujos escores
milhares de leitores. Os estatísticas analisam as dados em busca
padronizados estão entre -2,00 e 2,00, e incomuns os valores com de padrões que conduzam a li stas de carros confiáveis e corras
escore z: inferior a -2,00 ou superior a 2,00. (Veja Figw-a 2-11.) que devem ser evitadas. A presidente da Consumers Un ion,
A altura de Michael Jordan corresponde a um escore z de 3,21, Rhoda Karpa tki n, escreve: "Já que os números têm tanta
que consideramos incomum, por ser superior a 2,00. Em compa- importãncia em nosso traba lho, não é de surpreender que as
estatísticos representem a chave desse processa. "
ração com a população geral, Jordan é excepcionalmente alto.

·· ~al~~e~ lnc~rnun~( Vaiare,; U,;uai,; Valores lncomun:i

-3 -2 - 1 o 2 3
z ~· .
Fig. 2-1 1 Interpretação do escore z. ,.
Valores com escores z inferiores a z = 22,00 ou superiores a z = 2,00 são considerados incomuns. :_.J
·,'>

j
;;
'1
-l
·J
,:
,---------·······-----.
I
.. --···· -· -.-·- - - -- ---~.- -- ·- - -~..·*"';.-~yr .. '"""•''"\o".·....~:~_;:>;f;i~'"7-.~:''

Descrição, Exploração e Comparação de D.ados 47

O exemplo precedente mostrou a eficácia dos escores z em O exemplo precedente ilustra o processo de determinação do
medidas de comparação entre conjuntos diferentes de dados. Da percentil correspondente a determinado valor. Para o processo
mesma forma, os quartis, os decis e os percentis são medidas de inverso, há vários métodos diferentes para achar o valor corres-
posição convenientes para comparar valores dentro de um mesmo pondente a determinado percentil; o que vamos utili zar está es-
conjunto de dados, ou entre conjuntos diferentes. quematizado na Figura 2-12, em q11e é adotada a notação seguinte.

~ Quartis, Decis e Percentis Notâçã<?- -, ~:,


Assim como a mediana divide os dados em duas partes iguais, 11 número de escores, ou valores. no conjunto de dados
os três quartis, denotados por Q 1, Q 2 e Q3 , dividem as observa- k percentil a ser utilizado
cães ordenadas (dispostas em ordem crescente) em quatro par- L indicador que dá a posição ele um escore
tes iguais. Grosso modo, Q1 separa os 25% inferiores dos 75% Pk k""' percentil
superiores dos valores ordenados; Q2 é a mediana; e Q3 separa os
75% inferiores dos 25% superiores dos dados: Mais precisamente,
ao menos 25% dos dados serão no máximo iguais a Q1, e ao
EXEMPLO Para as 175 cargas axiais de latas de alumínio da
menos 75% dos dados serão no mínimo iguais a Q 1• Ao menos
Tabela 2-9, determ ine o escore correspondente ao 25 .0 per-
75% dos dados serão no máximo iguais a Q3, enquanto ao me-
centil; ou seja, detem1ine o valor de P25 .
nos 25% serão, no mínimo, iguais a Q3•
Analogamente, há nove decis, denotados por 0 1, D 2, D 3, ... ,D9 , SOLUÇÃO Recorremos à Figura 2-12 e observamos que os
que dividem os dados em 10 grupos com cerca de J0% deles dados já estão ordenados, do menor para o maior. Calculamos
em cada grupo. Há, finalmente, 99 percentis, que dividem os a seguir o indicador L como segue:
dados em 100 grupos com cerca de 1% em cada grupo. (Os
quartis, decis e percentis são exemplos defractis, que dividem L = (~)11
100
= (~)
43 75
100'
· 175 =
os dados em partes aproximadamente iguais.) Um estudante que
se submeteu ao vestibular para ingresso em uma faculdade é Respondemos não à pergunta na Figura 2-12, se 43,75 é um
informado de que está no 92. 0 percentil. Isso não significa, número inteiro, e somos orientados a an·edondar L para cima,
entretanto, que ele tenha obtido 92% no exame; indica, apenas, ou seja, arredondar para 44. (Nesse processo em particular
que qualquer que tenha sido a nota obtida, çla foi superior a 92% arredon damos L para o inteiro superior mais próximo, mas na
(e inferior a 8%) das notas de toda a turma. O 92. 0 pcrcentil é, maior parte das situações neste livro seguimos o processo geral
pois, uma excelente classificação em relação aos outros que ele arredondamento.) O 25. 0 percentil, denotado por P 25 , é o
fizeram o exame. 44. 0 valor, ou escore, a contar do menor. Pariindo, pois, elo
O processo de determinação do percentil correspondente a um menor valor, 200, percorremos a lista até o 44. 0 valor, que é
determinado valor x é bastante simples, como se pode ver na 262; assim, P25 = 262.
expressão seguinte .
. d número de valores inferiores a x 100 Suponha agora que qu ei ramos achar o percentil corres-
percentl 1 o va1or x = ·
número total de valores pondente a um escore ele 262. Verificamos que há 41 valores
abaixo de 262, não deixando de considerar cada valor indi-
EXEMPLO A Tabela 2-9 relaciona as175 cargas axiais das latas v idu al, mesmo os que aparecem repetidos. Calculando o
de alumínio, ordenadas da mais baixa até a mais elevada. percentil correspo ndente a 262, obtemos (41/175) · 100 = 23
Determine o percentil correspondente a 241 . (arredondado) .

~
S~LUÇÃOPela Tabela 2-9, vemos que há 21 valores inferiores
n AI . de fotma que Custo do Riso

Há realmente um Índice de Custo do Riso (ICR) que levo em conto


percentil de 241 = 2!._ · 100 = 12 o cuslo de itens como óculos de Groucho Marx, entrado em clubes
175 de comédia e 13 outros indicadores. Trata-se de mesma
A carga axial de 241 é o 12. o percentil.

TABELA 2-9 Valores Ordenados de Cargas Axiais de Latas de Alumínio


200 201 204 204 206 206 208 208 209 215 217 218 220 223 223
225 ?.28 230 230. 234 236 241 242 242 248 250 251 25 1 252 252
254 256 256 256 257 257 258 259 259 260 261 262 262 262 262
262 263 263 263 263 263 264 265 265 265 266 267 267 268 268
268 268 268 2§8 268 268 268 269 269 269 269 270 270 270 270
270 270 270 270 271 271 272 272 272 272 272 273 273 273 273
273 273 274 274 274 274 275 275 275 275 276 276 276 276 276
277 277 277 277 277 277 277 277 278 278 278 278 278 278 278
279 279 279 280 280 280 281 28 1 281 28 1 282 282 282 282 282
282 283 283 283 283 283 283 284 284 284 284 285 285 285 286
286 286 286 287 287 288 289 289 289 289 289 290 290 290 291
291 292 292 292 293 293 294 295 295 297
....

48 EsTATÍSTICA

oboràcgem básico usado poro estabelecer o Índice de Preços ao


EXEM PLO Determine o 40. 0 percenül P.0 elas cargas axiais ela
'-
Consumidor (IPC), que se baseio em uma médio ponderado de Tabela 2-9.
bens e serviços adquiridos por um consumidor típico. Enquanto
valores padronizados e percentis permite!ll comparar diferentes SOLUÇÃO . Seguindo o processo delineado na Figura 2-12 e
valores, eles ignoram o elemento tempo. lndices como ICR e
IPC permitem-nos comparar o valor de uma variável com seu notando que os dados j á estão ordenados do menor para o
valor em uma época de referência. O valor de um índice é o maior, calculamos

I
valor otual, dividido pelo volor de referência e multiplicado por
100.
L ( k)n = (40
= Wo ")
100 · 175 = 70 (exatamente)

70 é um nú mero inteiro, e a Figura 2-12 indica que ? 411 está a


Há aqui uma pequena discrepância: no exemplo precedente meio caminho entre os 70. e 71. valores. E como esses
0 0

encontramos 262 para o 25. percentil, mas no processo inverso,


0
valores são ambos 269, concluímos que o 40. 0 percentil é 269.
262 corresponde ao 23 .0 percentil. À medida que aumenta o
número de dados, tais discrepâncias d iminuem . Poderíamos
eliminá-las utilizando um processo mais complicado, que aplica Uma vez dominados os cálculos para os percentis, podemos
a interpolação em lugar do arredondamento. seguir o mesmo processo para calcular os quartis e clecis, levando
Em razão do tamanho da amostra no exemplo precedente, o em conta as relações indicadas na margem.
indicador L calculado foi inicialmente 43,75 , valor que foi Utilizando essas relações, podemos ver que Q 1 é equivalente
arredondado para 44, porque o valor original de L não era inteiro. a P'-;· Em um exemplo anterior, vimos que P25 = 262, e assim o
No próximo exemplo ilustramos um caso em que o valor original primeiro quarti.l é Q1 = 262. Se precisarmos achar o terceiro
de L é um número inteiro. Essa condição nos levará para o ramo quartil, Q3 , basta reformular o problema para determinar P 15 e
direito no fluxograma da Figura 2- 12. proceder como mdicado na Figura 2-12.

ln(cio

l
Ordenar o;:, dados,
do menor para
o maior

Calcular
L = (k/100)n.
n = número de valores,
k = percentil desejado

O valor do kmo percentil e,;tá a meio


caminho entre o Lmo valor e o próximo
valor rnai5 alto no conjunto original de
dados. Obtém-,;e P, ,;omando-se o Lmo
valor ao próximo valor mais alto e
dividindo-,;e o re,;ultado por 2.

tvlodificar L, arredondando
seu valor para o maior
inteiro mai,; próximo

.
;;.
O valor de Pk é '·
o L' 00 valor a contar ~;

do mai5 baixo.
?i

Fig. 2-12 Determinação do k~ percentil.


..
·,
~~
;.:
~

:i
-. :~
J
r--------~=--- --- - ---- -- --- -- ··- -- ------ ~

Descrição, Exploração e Comparação de Dados 49

Quartis Decis utilizar STAT e Edi t para introduzir um conjunto de dados em urna
coluna, como Ll; em seguida, aplicar STAT e CALC para obter a
Q, = p25 D, = P,o opção 1 -Va r Stats. O s resultados apresentados pela TI-83
Q2 = p5'] D2 = P2o incluem a média, a sorna dos valores, a soma dos quadrados, o
Q) = p 15 desvio-padrão, o número de valores (ou observações), o mínimo, o
D9 = Pço máximo, a mediana e os quartis. Como a TI-83 e o Minitab calculam
os quartis de uma maneira ligeiramente diferente da adotacla neste
Além das medidas de tendência central e de variação já
livro, pode haver algumas disc repâncias.
introduzidas, costumamos definir outras estatís t ic::~s utilizando
guartis, decis ou percentis, como segue:

intervalo interguartil = Q3 - Q, 2-6 ll:xerddos A: IHiolbilüdades e


intervalo semi-i nterquartil = (Q3 - Q 1)/2 Conceitos Básicos
quartil médio = (Q 1 + Q 3)/2
amplitude de pe rcentis 10-90 = P90 - P 10 Nos Exercícios 1-4, expresse todos os esco-res z com duas
decimais.
1. Os homens adultos (nos EUA) têm altura média de 69,0 polegadas,
Utilização de Calculadoras e Computadores na com desvio-padrão de 2,8 polegadas. De termine os escores z
Estatística Descritiva correspondentes a:
a. O jogador de basquete Mugsy Bogues que tem 5 pés e 3 in.
Ao lidarmos com grandes conjuntos de dados, é conveniente b. O jogador de basquete Shaquille O'Nea!, que tem 7 pés e I
utilizarmos pacotes estatísticos a fim de obtermos resultados mais polegada.
rápidos, fáceis e confi <'íveis. Os resultados que seguem, obtidos c. O autor, que é um j ogador de golfe c tênis com 69,72 iri.
com STATDISK c Mi nitab, se baseiam nas 175 cargas a;'liais da 2. Os carros dos estudantes na faculdade do autor têm idade média
Tabela 2- I ; esses são cxe:nplos de resultados que se obtêm qliase de 7,90 anos, com desvio-padrão de 3,67 anos. Determi ne os
com a mesma rapidez com que se introduzem os dados. escores z para os carros com as seguintes idades:
Podemos também util izar as calculadoras para obter estatísticas a. Um Corvette de 12 anos
descritivas. A maioria das calculadoras científicas dá pelo menos a b. Uma Ferrari de 2 anos '
média e o desvio-padrão. Corr: uma calculadora T!-83, devemos c. Um Porsche novo

File Edil Analysis Data Help

Cans109
Samplc Size, 11 175
tl'iCllll, X 267.11
Merli<Jn 273.00
Mirlmnge 248.50
RMS 268.02
Vori<Juce, s2 403.95
stDev, s 22.112
Me<111Dev 16.019
R<Jnge 97.000
Minimum 200.00
1st Qum1ile 262.00
2nd Quartil e 273.00
Jrd Quartile 282.00
Maximum 297.00
:Lx 46745
L;x2 1257133:

"lariable lf Hean Hedian Tr llean S tDev SE Hean


OHS1 09 17 5 267 . 11 273 . 00 269.15 22 .11 1 .6 7

"<anable Hin Ma:< 01 Q3


CAJIS109 200.00 297 . 00 262.00 282.00
50 E STATiSTICA

3. Os números de horas que os calouros passam estudando cada Nos Exercícios 17-24, utilize as 175 cargas axiais da Ta bela 2-
sen~ana têm média de 7,06 h e desvio-padrão de 5,32 h (com base 9 para achar o pàcentil, quartil ou decil indicado.
em dados de The American Freshman). Determine o escore z para
um calouro que estuda 20 horas por semana. 17. P71 , 18. P,0 19. D 6 20. D 3
4. Os tempos que os estudantes de c urso secundário p assam 21. Q3 22. Q, 23. D, 24. P,
trabalhando em empregos cada semana têm média de 10,7 h e
desvio-padrão de 11,2 h [com base em dados da National Federation Nos Exercícios 25-28, com base nos pesos (em libras) de ursos
of Stale High School Associations (Federação Nacional d as do Conjullto de Dados 3, do Apêndice 8, determine o percentil
Associações das Escolas Secundárias Estaduais)]. Determine o correspondente ao peso indicado.
escore z con·espondente a um estudante que trabalha 8 horas por 25. 144 26. 2 12 27. 316 28. 90
semana.
Nos Exercícios 29-36, com base I lOS pesos ( em libras) de ursos
Nos Exercícios 5 -8, expresse todos os escores z com duas do Conjunto de Dados 3, do Apêndice B, determille o percentil,
decimais. Considere fora do comum um escore z infe rior a- 2,00 o quartil Ou o decil indicado.
ou superior a 2,00.
29. P., 30. p)5 31. Q, 32. Q)
5. A admissão ao Beanstalk Club é limitada a mulheres e homens 33. D, 34. D 3 35. Psn 36. p95
muito altos. A exigência de altura mínima para as mulheres é 70
in. As alturas das mulheres têm média de 63,6 in. e desvio-padrão
de 2,5 in. Ache o escore z correspondente a uma mulher com 70 2 a6 Exercidos la: Além do Básico
in. de altura e determine se se trata de uma altura fora do comum.
6. Uma mulher escreveu a Dear Abby, alegando ter dado à luz uma 37. Torne por base as cargas axiais ordenadas ela Tabela 2-9.
criança308 dias após urna visita do seu marido, que estava servindo
na Marinha. Os tempos de duração da gravidez acusam uma média a. Determine o intervalo interquartil.
de 268 dias, com desvio-padrão de 15 dias. Determine o escore z b. Determine o quartil médio.
conespondenle a 308 dias. Esse prazo pode ser considerado fora c. Determine a amplitude de percentis 10-90.
do comum? Que se pode concluir? d. P50 = Q,? Em caso aftrrnativo, isso ocorre sempre?
7. Certa máquina automática aceita moedas de 25 cents (de dólar) que e. Ql = (Q, + Q3)12? Em caso afirmativo, isto ocorre sempre?
não fujam ao padrão comum. Ache o escore z para uma moeda de
25 cents que pesa 5,50 g. Essa moeda será aceita pela máquina? 38. Ao determinar percentis utilizando a Figura 2-12, se o indicador L
(Os pesos das moedas de 25 cems têm média de 5,67 gramas, com "' nãÓ é 'um número inteiro, arredondamo-lo para o maior inteiro mais
desvio-padrão de 0,070 gramas.) próx imo. Um processo alternativo consiste em interpolar, de modo
8. Para os homens com idades entre 18 e 24 anos, os níveis de que lrm indicador 23,75 conduza a um valor que está a 0,75 (ou 3/
colesterol (em mg/100 ml) têm média de 178, 1 e desvio-padrão de 4) no caminbo entre os 23." e 24." escores. Utilize esse método de
40.7 [com base em dados do National Health Survey (Serviço interpolação para calcular Pw Q, e D 3 para os pesos relacionados
Nacional de Saúde dos EUA)]. Determine o escore< para um no Conjunto de Dados 3 do Apêndice B.
homem, com idade entre 18 e 24 anos, que te m um nível de 39. Para as 175 cargas axiais das latas da Tabela 2-1, a média é 267,1
colesterol de 275,2 mg/100 ml. Esse nível pode ser considerado
e o desvio-padrão é 22,!. Ache os dois valores fronteira que
excepcionalmente elevado?
9. Qual dos dois escores abaixo acusa melhor posição relativa? separam os valores ordinários dos valores incomuns.
40. Com os escores 2, 5, 8, 9 e 16, primeiro calcule .t ' e s; em seguida,
a. Um escore de 60 em um teste com x = 50 e s = 5 substitua cada valor pelo escore~ correspondente. (Não aneclonde
b. Um escore de 250 em um teste com x = 200 e s = 20. os escores z; tome tantas decimais quantas sua calculadora permitir.)
10. Dois grupos semelhantes de estudantes fazem testes equivalentes Ache então a média e o desvio-padrão dos cinco escores z. Esses
novos valores da médi a e do desvio-padrão serão obtidos para todo
...
de facilidade de linguagem. Qual dos resultados seguintes indica
maior facilidade relativa de linguagem? conjunto tle escores z?
a. Um escore de 65 em um teste com X = 70 e s = 10
b. Um escore de 455 em um teste com X = 500 e s = 80.
2-7 An6Jiise ~xplor@~Óra©J de Dad@s
11. Três candidatos a um emprego fazem testes equi valen tes de
pensamento critico. Qual dos escores abaixo corresponde à posição
(IEDA)
relativa mais elevada?
Às vezes obser vamos ou coletamos dados com um objetivo
a. Um escore de 37 em um teste para o qual x
= 28 e s = 6 específico em v ista- p or exemplo, verificar a eficiência de um
b. Um escore de 398 em um teste para o qual X = 312 e s = 56 novo tratamento de insônia. Outras vezes, não há qualq uer
c. Umescorede4, 10emumtesteparaoqual X = 2,75es =0,92 obje tivo específico; apen as desejamos explorar os dados para ver
12. Três estudantes fazem testes equivalentes de senso de humor e, após o que eles nos revelam. Na exploração de dados, podemos aplicar
terminada a risada. calculam-se seus escores. Qual é o escore muitas das técnicas já apresentadas neste capítulo. Recorde que,
relativo mais alto? na Seção 2- l, relacionamos três importantes características dos
dados: (l) n atureza ou forma da distribuição; (2) um valor
a. Um escore de 2,7 em um teste com x = 3,2 e s = 1,1
r epresentati vo; e (3) uma medida de variação. É imprescindível
b. Um escore de 27 em um teste em que x = 35 e s = 12
c. Um escore de 850 em um teste em que x = 92 1 e s = 87 conside rar a distribuição dos d ad os, porque ela pode afetar não
só os métodos es tatísticos a ser usados, corno também as ;:'·
conclusões a que chegarmos. No espíri to da análise exploratória
Nos Exercícios 13-16, utiliz.e as 175 cargas a.xiais ordenadas da
de dados, ni;io devemos apenas visualizar o histograma e achar
Tabela 2-9. Ache o percentil correspondente ao valor dado.
que entendemos a natureza da distribuição- é preciso explorar. •,

13. 254 14. 265 15. 277 16. 288 A título de exemplo, mostramos dois histogramas obtidos com o
r·:::
.•.,:·~

'
Descrição, Exp loração e Comparação de Dados 51

File Edit Analysis Data Help

Histogram of Cans109
250r-~~----~--T-~--r-~--~,-~----~-----,

Vi
::
5
~
à
:::
c-~ 100
~
u..

1000 2000 3 000


Samp le Value

File Edit Analysis Data Help


'
Histogram of Cans1 09
60~~~~-r-~~~-.--~,-~~~~~~~TO

:§"
::: 40 1 -J-----t-i
5
~

ª'
~
iif2o~--+----t---+----l
.!: ·

0 ' . r :.··w ,)!.~.-·~


180 200 22 U 240 2 60 280 300 320
Smnple Value

STATDISK das 175 cargas axiais da Tabela 2-1. O primeiro mais profunda da sua natureza . Adiante, nesta seção, fazemos
histograma representa os 175 valores com uma alteração: o uma comparação entre EDA e a estatística tradicional em três
primeiro valor, 270, é registrado incorretamente como 2700. O áreas principais da estatística.
segundo histograma está coneto. Note o efeito acentuado que um
simples erro ern um dos 175 valores tem sobre a forma do Análise Exploratória
histograma. Nesse caso, o valor extremo, incorreto, de 2 700 causa de Dados Estatútica Tradicional
séria distorção no histograma. Em outros casos, tais valores
Explora os dados em um Confirma conclusões fioa is
extremos (chamados outliers) podem ser COLTetos, mas podem nível preliminar sobre os dados
dar uma idéia enônea da verdadeira natureza da distribuição Poucas (ou talvez nenhuma) Tipicamente, exige hipóteses
quando ilustrada por um histograma. Sem urna exploração mais hipóteses são feitas sobre muito impmtantes sobre os
aprofundada dos dados, podemos tirar conclusões seriamente os dados dados
enôneas dos histogramas. Costuma exigir cálculos e Em geral, os cálculos são
Com EDA, dá-se ênfase à exploração origi nal, co m os gráficos relativamente complexos e os gráficos
objetivos de simplificar a descrição dos dados e obter uma visão simples desnecessários.
52 EsTATÍSTICA

Na Seção 2-3, estudamos os gráficos do tipo ramo-e-folhas, vemos primeiro ordenar os dados do menor para o maior.
um dos instrumentos comuroente utilizados em EDA. I ntrodu- Segue a lista ordenada dos 22 valores de pulsação de fu-
ziremos agora os diagramas em caixa (boxplots) que não foram mantes (Conjunto de Dados 8):
abordados antes porque exigem quartis só estudados na seção 52 52 60 60 60 60 63 63 66 67 68
precedente.
69 71 72 73 75 78 80 82 83 88 90
Nesta lista ordenada, é fácil identificar o mínimo 52 e o
Diagramas em Caixa (Soxp/ots) máximo 90. Com auxílio do fl uxograma da Figura 2-12,
vemos q ue o primeiro quartil Q 1 (ou ? 25 ) é 60, q ue
Os diagramas em caixa são convenientes para revelar tendênc ias
localizamos calculando L = (25/100)22 = 5,5, arredon-
centrais, dispersão, dist:J.ibuição dos dados e a presença de outliers
dado para 6. Q1 é o sexto valor na lista ordenada, a saber,
(valores extremos). A construção de um diagrama em caixa exige
60. A mediana é 68,5, que é o valor a meio caminho entre
que tenhamos o valor mínimo, o primeiro quartil Q~o a mediana
os 11. 0 e 12. 0 valores . Vemos também que Q3 = 78,
(ou segundo quartil Qz), o terceiro quartil Q3 e o valor máximo.
procurando na Figura 2-12 o 75. 0 percentil. O resumo de 5
Como as medianas revelam uma tendência central, ao passo que
números é, pois, 52, 60, 68,5, 78 e 90. ·
os quartis indicam a dispersão dos dados, os diagramas em caixa
b . Na Figura 2-13 temos o diagrama em caixas para os dados.
têm a vantagem de não serem tão sensíveis a valores extremos
Utilizemos o rrúnimo (52) e o máximo (90) para determinar
como outras medidas baseadas na média e no desvio-padrão. Por
uma escala de valores, e a seguir marcamos os valores com
outro lado, os diagramas em caixa (boxplots) não dão informação
base no resumo de cinco números
tão detalhada quanto os histogramas ou os gráficos ramo-e-folhas,
podendo não ser, assim, a melhor escolha quando lidamos com um
Na Figura 2-14 exibimos alguns diagramas em caixas
único conjunto de dados. Os diagramas em caixa são, entretanto,
genéricos, juntamente com as formàs usuais de distribuição.
mais convenientes na comparação de dois ou mais conjuntos de
dados. Ao utilizarmos dois ou mais diagramas em caixa para
comparar diferentes conjuntos de dados, é importante utilizarmos Valores Extremos (Outliers)
a mesma escala, de fom1a a possibilitar a comparação.
No decorrer da determinação de um resumo de 5 números e da

11 j'J)Il!l!FDN9ÇÕEES
O valor mínimo, o primeiro quartil Q 1, a mediana, o terceiro
construção de,ym diagrama em caixas, toma-se fácil identificar
outliers (ou valores extremos), que são valores extremamente
raros, no sentido de que estão muito afastados da maioria dos
dados. Ao explorarmos um conjunto de dados, não podemos
quartil Q3 e o valor máximo constituem um resumo de deixar de considerar os ouEliers, porque eles podem revelar in-
cinco números de um conjunto de dados. formações importantes. Consideremos, por exemplo, a lista com-
pleta de pulsações do Conjunto de Dados 8. Basta ordenarmos
Um diagrama em caixas (boxplot) é um gráfico de dados
os valores para ver que os valores 8 e 15 são outliers. Tratam-se
que consiste em uma reta que se prolonga do menor ao
de valores realmente excepcionais ou são valores en·ados? Em-
maior valor, e um retângulo com retas traçadas no primeiro
bora haja alguns estudantes cujas condições físicas podem ser
quartil Q1, na mediana e no terceiro quartil Q3 •
descritas como letárgicas, é extremamente improvável que al-
guém com uma pulsação de 8 ou 15 seja capaz de entrar em uma

EXEMPLO Com base nos dados sobre pulsação de fumantes


(Conjuto .de Dados 8 do Apêndice B),
-- --·- 78
a. Detemline os valores que constituem o resumo de 5 nú- 52 90
r--------r--------;----------r-----------~
meros.
b. Cor.strua um diagrama em caixa para esses valores.

SOLUÇÃO 50 55 60 65 70 75 80 85 90
a. O resumo de cinco números consiste no mínimo, Q1, me- Fig . 2 - 13 Diagrama em caixas de pulsações (batidos por minuto) d e
diana, Q2 e no máximo. Para determinar esses valores, de- fumantes.

~ ~
EB
Em forma de sino Uniforme
EE3 Assimétrica
l
~
ã
~

Fig. 2· 14 Diag rama s em ca ixas co rrespondentes às distribuições em formo de sino, uni forme e assimétrica.

II
~
i
Descrição. Exploração e Comparação de Dados 53

sala de aula e sair dela por suas próprias forças. Concluímos, Comparando os dois gráficos Minitab, vemos que não há
portanto, que 8 e 15 são erros, justifi'cando-se a eli minação des- diferenças substanciais. Os não-fumantes têm mais valores
ses valores do conjunto. Devemos eli minar também a pulsação extremos, mas as medianas parecem coincidir, e a dispersão dos
de 100? Não, porque esse valor não está demasiadamente dis- dados também é aproximadamente a mesma. Pru·a o grupo de
tante dos outros, e provavelmente se refere a alguém excitado estudantes que faz estatística, parece que não há diferenças
por es tar em uma au la de estatística. De modo geral, devemos dignas de nota entre a pulsação dos fumantes e a dos não-
eliminar os outliers quando eles decorrem de ·erros óbvios; mas fumantes.
freqüentemen te eles represe ntam anomalias interessantes que
merecem estudo mais detalhado. Na verdade, para alguns co n-
juntos de dados, os outliers são a característica mais importante. 2-7 !Exerddos A: Habilidades e
Um estudo sobre ovos e colesterol incluiu um homem que tinha
Concei~©ls B6Jsicos
consumido vários ovos por dia durante muitos anos. Sua taxa de
consumo de ovos representava um outlier, mas o aspecto impor- Inclua valores do resumo de 5 números em todos os diagramas
tante da questão é que o excesso de ovos não pareceu afe tar seu em caixas.
nível de colesteroL que se manteve na média. Ao explorarmos
1. Considere os dados do Conj unto 4 do Apêndice B e construa um
dados, podemos estudar os efeitos dos outliers construindo grá- diagrama em caixas para o conteúdo de nicotina de cigarros.
ficos e calculando medidas com eles e sem eles. (Veja Exercício 2. Com base nos dados do Conjunto 4 do Apêndice B, construa um
12, para uma forma de representar os ourliers em diagramas em diagrama em caixas para o conteúdo de alcatrão dos cigarros.
caixas.) 3. Em "Ages of Oscar-Winning Best Actors and Actresses" na revista ~ -
Mathematics Teacher, por Richard Brown e Grctchen Davis, .
e
Utilização de Computadores Calculadoras para
utilizam-se diagramas em caixas, ou boxplots, para comparar as .
idades dos atares e das aUizes na ocaSião em que recebemm o Oscar.
Diagramas em Caixas Relacionam-se adiante os 34 vencedores recentes de cada categoria.
Compare os dois co njuntos de dados com auxílio de um diagra ma
em caixas.
Podemos utilizar STATDISK, Minitab e a calculadora TI83 para
Cliar diagramas em caixas. Com ST ATDISK, escolhemos o item Atares: 32 17 36 32 51 53 33 61 35 45 55 39
Data do menu c uti lizamos Sample Editor para introduzir os 76 17 42 40 32 60 38 56 48 48 40
dados; clicamos COPY, escolhemos Data/Boxpl ot e clicamos 43 62 43 42 44 41 56 39 46 31 47 "
Pll.STE; fu1almente acionamos Eval uate. Com Nli nitab utilizamos
Atrizes: 50 44 35 80 26 28 41 21 61 38 49 33
a> opções de File/New Worksheet /Graph / Boxplo;;. Os valores
dos qurutis calculados por Minitab e peia Tl-83 podem diferir dos 74 30 33 41 31 35 41 42 37 26 34
obtidos com a aplicação da Figura 2- 12. de forma que os diagramas 34 35 26 61 60 34 24 30 37 31 27
em caixas podem se apresentar ligeiranJente diferentes . 4. Considere o Conjunto 8 do Apênd ice B para estes dois conjuntos
Vimos que os boxplots, ou diagramas em caixas, são úteis pru·a de dados: pu lsações dos fumantes e pulsações dos não-fumantes.
comparar conjuntos de dados; a figura a seguir apresenta os Construa um diagrama em caixas para cada conjunto. Com base
diagramas em caixa pa ra as pulsações de fuma ntes e não- nos resultados, parece haver diferença ele pulsação entre os dois
fum antes (Conjunto de Dados 8 do Apêndice B), feitos usando grupos? Em caso afirmativo, quanto? É este o resultado esperado?
Minitab Os outliers 8 e 1'i foram excluídos. (Exclua os valores 8 e 15, que devem ser erros.)

,oo r
00 ~
~ :j ~
50

'10
I
2
Yes SMOI--"E No
54 EsTATÍSTICA

S. Ccnsidere o Conjunto 8 do Apêndice B para estes dois conjuntos b. Desenhar normalmente a caixa com a mediana e os guartis, mas,
de dados: taxas de pulsação para homens e para mulheres. Construa - ao pro longar as retas que se ramificam da caixa, caminhar
um diagrama em caixas pa ra cada conjunto. C om base nos apenas até os escores q ue estão a menos de 1,5D ela mesma.
resultados, as taxas de pulsação dos dois conjuntos parecem ser c. Os outliers suaves são os .-al.ores que superam Q_~ em 1,5D a
diferentes? Em caso afirmativo, quanto? (Exclua os valores 8 e 15, 3D, ou estão l ,SD a 3D abaixo de Q 1• Marque os Olltliers suaves
que devem ser erros.) com pomos cheios.
6. Considere o Conj unto de Dados lO do Apêndice B. Com auxíl io cl. Os "outliers extr-em os" são escores que excedem Q, em mais
de-diagramas cm caixas, co mpare os com primentos elos fil mes de 3D ou estão a mais de 3D abaixo de Q 1• Mar·que os outliers
classificados R (restrito) com os dos fi lmes classificados não-R. extremos como pequenos círcu los vazios.
7. Considere o Conjunto de Dados 11 elo Apêndice B. Com o aux[]io A tigura que acompanha é um exemplo do diagrama em caixas
de diagramas em caixas, compare os pesos dos bombons M&M descri to aqui. Utilize esse rrocesso para construir o diagrama em
vermelhos com os dos bombons M&M amarelos. caixas para os valores dados, iuenlificando os out/iers extremos e
..... 8. Considere o Conjunto de Dados 13 do Apêndice B. Construa um suaves:
diagrama em caixas para os pesos das moedas de 25 cents. Compare 3 15 17 18 21 21 22 25 27 30 38 49 68
a forma do gráfico resultante com as formas genéricas mostradas
na Figura 2-14. Com base no diagrama em caixas. que podemos
concluir sobre a natureza da distribuição? a1 as "Out.lien;" ;'Ou"tliers"
9. Considere o Conjunto de Dados 12 do Apêndice B. Construa um ;Dutliers" )wlediana) Suaves Extremos
diagrama em caixas para os 150 algarismos da Loteria "Pick 1l1ree" ,----·--.~.-----
de Maryland. Compare a forma do gráfico resultante com as formas
genéricas da Figura 2-14. Com base no gráfico, o re.~ultado da loteria
de Maryland parece estar de acordo com o resultado esperado?
Suave,;
Q

EB
I~ o-l..- l,SD ---:_l
o a o

I
10. Considere o Conj unto de D ados 1 do Apêndice B. Com auxílio de .:>D •
diagramas em caixas, compare os pesos do papel descartado com
os pesos do plástico descartado.

Voeabulémrio
2-7 ~xerddos B: A~ém dlc IB\ásÕíc@ estatística desc1itiva histograma de freqUência relativa
estatística inferencial _gráfico por pontos
11. O supervisor de manutenção de uma frota de catTOS deve comprar tabela de freqüênc ia '- gráfico ramo-e-folhas
baterias de substituição de um de três fornecedores. Para isto, testa freqUência diagrama de Pare to
a durabilidade de amostras de baterias desses LI·ês fornecedores, limite inferior de classe gráfico em setores
registrando as vidas (em meses), conforme resumo nos diagramas limite superior de classe diagrama de dispersão
em caixa a seguir, obtidos com Minitab. Qual desses gráficos fronteiras de classe medida de tendência central
-~
corresponde à mar·ca que vai adqui rir? Por quê? pontos médios de classe média aritmética
12. Os diagramas em caixas, ou boxplots, disc utidos nesta seção amplitude de classe média
costumam chamar-se diagramas csque/eJais. No estudo dos freqüência relativa tamanho da <unostra
outliers, convém introduzir uma modificação na construção dos tabela de freqüência relativa mediana
IJJ diagramas em caixas, como segue: freqüência acumulada moela
~ a. Calcular a diferença entre os quartis Q3 e QI> denotando-a por tabela de freqüência acumulada bimodal
~u D: D = Q 3 - Q 1• histograma multi modal

GO

~
80

70

~
r-
z
o
2:
ôO

~ ~
20

2 3

~
SUPPLIER

~ ·. :

:r~
Descrição. Explora<;ão e Comparação ele Dados 55

ponto médio regra 68-95-99 3. Construa um histograma correspondente à tabela de freqüências do


média ponderada teorema de Tchebiche v Exercício I.
assimétrico escore padronizado 4. Para os dados do Exercíc io 1, determine (a) Q,, (b) P•s e (c) o
simétrico escore z percentil con·espondente ao te mpo de 335 s.
negat ivamente assimétrico quartis 5. Aplique a regra prática para estimar o desvio-pGdrão dos dados do
positivame nte assimétrico decis Exercício 1.
a mplitude percentis 6. Utilize a tabela de freqUências do Exercício I para achar a média e
desvio-padrão a nál ise ex p lorató r ia de dadós o desvio-padrão dos te mpos.
des vio (EDA) 7. Com os dados do Exercício 1, construa um g nífico ramo-e-folhas
desvio médio (ou absoluto) resumo dos 5 números com 10 ramos.
variância d iagrama em caixas 8. Construa um diagrama em caixas (boxplo1) pa ra us dados do
regra prática (desvio-padrão e m boxplot Exercício I.
termos da amplitude) outlier 9. D ão-se a seguir os te mpos (em segundus) deco rridos entre a
reg ra empírica formu lação do ped ido e a entrega elo prato em uma lanchonete
McD onald' s. Determine: (a) a média; (b) a mediana; (c) a moela: (d)
o ponto médio; (e) a amplitude: (f) o desvio-padrão; (g) a variância:
135 90 85 12 1 83 69 87 159 177 135 227
Revisão
lO. Dão-se abaixo as idades de presidentes dos EUA na ocas ião da
O Capítulo 2 abordou principalmente métodos e técnicas para resunúr, posse. Calcule: (a) a média; (h) a media na: (c) a moda; (d) o ponto
descrever, explorar e comparar dados. Vimos as três características mais médio; (e) o intervalo: (f) o desvio-padrão: (g) a variância; (h) Q,;
(i) P30 ; (j) D7 •
im portantes dos dados, a saber, (l) natureza ou forma da distribuição.
(2) valor representativo, e (3) medida de variação. Essas características 57 61 57 57 58 57 61 54 68 51 49 64 50 48
podem ser estudadas e descritas com os recursos do Capít ulo 2.
Especificamente, para determinado conjunto de dados. devemos saber 65 52 56 46 54 49 51 47 55 55 54 42 51 56

• Resumir os dados, construindo uma tabela de freqüências ou uma 55 5 1 54 5 1 60 62 43 55 56 61 52 69 64 46


tabela de frcqiiências relativas (Seção 2-2) 11. Os valores e m um teste de pcrcepçãu de profundidade acusam
• Apresentar visualmente a natureza da distribuição, construindo um média 200 e desv io-padrão 40.
histograma, um gráfico por pontos, um ramo-e-folhas, um gráfico a. Um valor de 260 pode ser considerado excepcionalmente alto?
cm setorcs, ou um diagrama de Pareto (Seção 2-3) Explique.
• Calcular medidas de tendência c:cntral: média, mediana, moda e b. Qual o escore z correspondente a I 85?
ponto médio (Seção 2-4) c. S upondo que os escores tenham uma distribuição em forma de
• Calcular medidas de variação: desvio-padrão, variüncia c amputude sino, que nos in forma a regra empírica sobre a porcentagem de
(Seção 2-5) escores entre 120 e 280?
• Comparar vaiare;; individuais, utilizando escores z, quartis, decis d . Qual é a média, após adicionar 20 pontos a todos os escores?
ou percentis (Seçâo 2-6) e. Qual é o desvio-padrão na hipótese d ?
• Investigar e explor;;.r a dispersão de Jados, o centro ele dados e a 12. A tabela a seguir dá os tempos (em anos) qne os estudantes ele certa
amplitude de valo•:es, com a construção de um di.agrama em caixas, faculdade levaram para obter o grau de bacharc:l (a partir de dados
ou boxp/ol (Seçã•• 2- 7) do National Center for Education Statistics). Com base na tabcb,
É preciso não só calcular as tabelas, gráficos e medidas, ma~ também ca lcule a média e o desvio-padrão. Podemos considerar como
incomum o fato de um estudante levar 8 a nos para concluir o
compreender c illle1 pre1ar esses resultados. i\ssim é que devemos
bacharelado? Explique.
entender com clareza que o desvio-padrão é uma medida da variação
dos dados, e saber utilizá-lo para distinguir entre valores usuais e valores Ternpo (auos) j Número
incomuns.
4 II 147
5 Rl
E:xerddos de Revosão 6 I 27
7 15
1. A NCAA estm·a estt>Jando meios de acelerar o término dos jogos
universitários de basquetebol. Dão-se abaixo os tempos (em
segundos) decn,Tidos para jogar os dois últimos minutos do tempo
7.5 - 11,5 I 30

regu lamentar em 60 j ogos das quatro pri meiras rodadas d o 13. Construa o histogram;~ de freqliências relativas para a tabela do
campeonato NCAA de basquetebol (com base em dados publicados Exercício J 2.
no USA Today). Tomando o tempo mínimo como limite inferior 14. Um psicólogo industrial deu a um empregado dois testes diferentes
da primeira classe, construa uma tabela de freqüências com 9 para medir o grau de satisfação no emprego. Qual resu ltado é
classes. melhor: um escore de 57 no primeiro teste, q ue teve média 72 e
desvio-padrão 20, ou um escore de 450 no seg undo teste , q ue
756 587 92:) 871 378 503 564 1 128 693 748 acusou média 500 e desvio-padrão 80? Explique.
448 670 1023 335 540 853 852 4l)5 ó66 474 15. Considere os doi s diagramas em caixas a seg uir, obtidos com
Minitab. O primeiro representa uma amostra de crânios de homens
443 325 514 404 820 9 15 793 778 627 483
egípcios de cerca de 4000 a.C., enquanto o segundo representa uma
861 337 2Q2 1070 625 457 676 494 420 862 amostra de crânios de homens egípcios de ce rca de 150 a.D. (com
991 6 15 609 723 794 447 704 396 235 552 base em dados de A ncient Race.s of the Thebaid , por Thomson and
Randali-M aciver). Uma variação do tamanho das cabeças podetia
626 688 506 700 240 363 860 670 396 345
sugerir mudanças sociais, como miscigenação com outras culturas.
2. Construa uma tabela de freqüências relativas (com 9 classes) para Comparando os dois gráficos, pode-se constatar variação na largura
os dados do Exercício 1. máxima dos crânios? Explique.
56 ESTATlsTICA

140 -l

w
r::::!
CJJ
130 l $
'm ~ I
2
I

4000 BC 150 AD
TIME

16. A Guarda Costeira dos EUA coletou d~dos sobre acidentes sérios esta mos usando? (aleatória, estratificada , sistemática, por
com embarcações, categorizando-os conforme a segutr, com as conglomerado, de conveniência)
respectivas freqüências dadas entre parênteses. Construa um c. Faz-se uma pesquisa abordando todas as pessoas que saem da
diagrama de.Pareto resumindo os dados. cabine eleitoral em 50 zonas eleitorais selecionadas aleato-
Colisão com outra embarcação (2203) riamente. Que tipo de amostragem estamos utilizando? (alea-
tória, estratificada, sistemática, pdr conglomerado, de conve-
Colisão com um objeto fixo (839)
niência)
Encalhe (341)
Queda de pessoa no mar (431) 3. Anualmente o Ministério da Energ ia dos EUA publica um Annua/
Soçobro (458) Energy Review que inclui o consumo de energia per capita (em
milhões de Btu) para cada um dos 50 estados. Calculando-se a
média desses 50 valores, o resultado é o consumo médio de energia
per capita para todos os 50 estados combinados? Em caso negativo,
explique como calcularia o consumo médio per capita para os 50
!Exercícios Cumulativos de Revisão estados em conju nto.

1. Dão-se a seguir os tempos (em horas) gastos em um dia com


serviços de escritório por uma amostra de chefes de escritório
(Fonte: Dados da Adia Personnel Services): !Proje~o parra Computador ~
3,7 2,9 3,4 0,0 1,5 1,8 2,3 2,4 1,0 2,0
Admite-se, de modo geral, que a temperatura média de um adu.lto
4,4 2,0 4,5 0,0 1,7 4,4 3,3 2,4 2,1 2,1
sadio seja de 98,G°F. Com base no Conjunto de Dados 2 do Apêndice
a. Calcule ~ média. a mediana, a moda e o ponto médio. B, considere as temperaturas tomadas à meia- noite do segundo dia.
h. Calcule o desvio-padrão, a variância e a amplitude. Como o Conjunto de Dados 2 não está armazenado como um arquivo
c. Os dados provêm de uma população discreta ou contínua? STATDISK o u Min itab, devemos utilizar STATDISK ou Minitab
d. Qual é o nível de mensuração desses valores? (Nominal, ordinal, para introduzir as 106 temperaturas e salvá-las como um arquivo de
intervalar, razão) nome BODY TEMP. Passamos então a obter um histograma, um
2. a. Um conjunto de dados está no nível nominal de mensuração, e d iagrama em caixas, medidas de te ndência central, medidas de
desejamos obter um valor representativo dos dados. Qual das variação, Q,, Q3 , o mínimo e o máximo. Esses resultados pennitem-
medidas seguintes é mais adequada: média, mediana, moda ou nos descrever características importantes dos dados. Com base nessa
ponto médio? Por quê? amostra, que podemos concluir sobre a crença comum de que a
b. O bté m-se uma amostra telefonando para os 250 pri meiros temperatura média do corpo humano seja de 98,6°F? É este o reSllltado
assinantes da lista telefõnica local. Que tipo de amostragem que esperávamos?

:·:

,.'
';· .·.
;

:·:
'\ •·
I· ··;

lL <;
.
j:j
H
~I
~---- - ---- -- "··-- - ~--·~·-· ~-· --· . - - -·-·---~--·---~--

Descrição, Exploração e Comparação de Dados 57

O Lixo e o Tamanho da !População

Consideremos o Conjunto de Dados 1 do Apêndice B. Os outros com os percentuais de 14%,38%, J 8%, 2%, 4%,
dados se referem aos pesos de diferentes· categorias de lixo ll'o/o e 13 %, respectivamente. Esses percentuais se
de 62 residências, e foram coletados como parte do Garbage afiguram compatíveis com o Conjunto de Dados 1 do
Project (Projeto do Lixo) na Universidade do Arizona. Há Apênd ice B?
vários aspectos a considerar nesse conjunto de dados. No c. Determine, para cada categoria, a média e o desvio·
Capítulo 9 veremos se há alguma relação entre o tamanho da padrão, e consu·ua um histograma dos 62 pesos. Registre
residência e a quantidade de lixo descartado, de forma que os resultados na tabela a seguir.
possamos predizer o tamanho da população de uma região d. As quantidades de lixo descmtado são dadas por peso.
analisando o lixo descartado. Por ora, vamos trabalhar com Muitas regiões têm serviço de coleta de I ixo residencial
estatística descritiva baseada nos dados. feito por caminhões que comprimem o lixo, e as taxas
a. Construa um diagrama de Pareto e um gráfico em setores do serviço se baseiam no peso. Sob essas condições, o
ilustrando os valores relativos dos pesos totais de resíduos volume do lixo tem importância para o problema de
de metal, papel, plástico, vidro, alimentos, jardinagem, coleta na comunidade? Há outros fatores importantes?
tecidos e outros. (Em lugar de freqüências, utiJizamos os Quais?
pesos totais.) Com base nos resultados, que categorias e. Com base nos resultados precedentes, se fosse neces·
parecem ser as maiores componentes da quantidade total sário desenvolver esforços de conservação ou recicla·
de resíduos? Há alguma categoria isolada que se distinga gem em virtude de a capacidade de coleta de resíduos
como a maior componente? em sua região estar quase esgotada, que providências
b. Um gráfico em setores do USA Today mostra os resíduos tomaria?
de metal, papel, plástico, vidro, alimentos, jardinagem e

Ali· Jardi-
Metal Papel Plcístico Vidro mentos na o em Tecidos Outros
Média
I
Desvio·
padrão
Forma da
distribuição
I I

1. Atividade Extraclasse: As Estimativas São Influenciadas avaliações de propriedades imo veis, de automóveis, ou
por Números Âncora? No artigo "Weighing Anchors" na estimativas da probabilidade de uma guerra nuclear.
revista Omni, o autor John Rubin observou que, quando as Realize um experimento para testar essa teoria. Escolha
pessoas estimam um valor, sua estimativa em geral é algumas pessoas e peça-lhes que estimem rapidamente o valor de
"ancorada" a (ou influenciada por) um número precedente,
8X7X6X 5 X4X3X2Xl
mesmo que esse número esteja total mente desvinculado da
grandeza que está sendo estimada. Para comprová-lo, pediu Selecione em seguida outro grupo de pessoas e peça-lhes que
a diversas pessoas CJUC e;timassem rapidamenl;:: o valor de estimem rapidamente o valor de
8 X 7 X 6 X 5 X 4 X 3 X 2 X 1. A resposta méd ia fo i
1 X 2X3X4X S X6X7X8
2250; mas, invertida a ordem dos números, a resposta média
foi de 512. Rubin explica que, quando começamos nossos Registre as estimativas, juntamente com a ordem utilizada.
cálculos com números maiores (como 8 X 7 X 6), nossas Planeje c uidadosame nte o experi me nto de modo que as
estimativas tendem a ser maiores. Observa que tanto 2250 condições sejam uniformes e os dois grupos amostrais sejam
como 5 12 estão muito abaixo do verdadeiro valor de 40.320. selecionados com o mínimo possível de tendenciosidade. Nãv
O artigo sugere que números irrelevantes podem influenciar revele a teoria aos indivíduos até que eles tenham feito suas
58 ESTATÍSTICA

es timativas . Compare os dois co njuntos de res ulütdo s 2. Atividade ém Classe: Em cada grupo ele três ou quatro
amostrais com auXl1io de métodos deste capítulo. Elabore um estudantes, ache o valor total elas moedas em poder de cada
relatório datilografado que inclua os dados coletados, os um. Ache a média e o desvio-padrão do gr-upo, e permute
métodos usados, o método de análise, qúaisq uer gráficos e/ · essas estatísticas co m os outros grupos. Utilizando as
ou estatísticas relevantes, e um resumo das conclusões. Inclua médias grupais como um conjunto ind ividual de dados,
uma crítica das razões por que os resultados poderiam não ser calcule a média, o desvio-padrão e a forma da distribuição.
corretos e indi que maneiras de melhorar o experimento. Compare esses resultados com a média e o desvio-padrão
Uma variante do experimento precedente consiste em achados originalmente no grupo.
en trevistar pessoas sobre seus conhecime ntos acerca da 3. Ati vidades em Classe: A seguir temos as idades de moto-
população do Quénia. Primeiro pergunte à metade das pessoas ciclistas mortos em acidentes de tráfego (com base em
do grupo se elas acham que a população é superior ou inferior dados do Mi nistério dos Transportes dos. EUA). Se seu
a 5 milhões; peça-lhes, em seguida, que estimem a população objetivo é dramatizar os perigos das motos para os jovens;
em um número efetivo. Pergunte à outra metade das pessoas que recurso se1ia mais eficiente: histogr-ama, diagrama de
se acham que a população é superior ou inferior a· 80 milhões, Pareto, gráfico em setores, gráfico por pontos, média,
e peça-lhes em seguida que estimem a população. (A população mediana, ... ?Construa o gráfico e ache a estatística que
efetiva do Quénia é de 28 milhões.) Compare os dois conjuntos melhor atende ao obj etivo. É correto distorcer delibera-
de resultados e identifique o efeito de "ancoragem" do número damente os dados se o objetivo é salvru· vidas de motoci-
inicial mencionado aos indivíduos pesquisados. clistas?

17 38 27 14 18 34 16 42 28 24 40 20 23 31
37 21 30 25 17 28 33 25 23 19 51 18 29

1
:i
i
r - - - - -·- . -- ,., -"- _..... ···- .. -· . --- -- ~ - - ---- . ---

. ~

en i ~eVISI ~
Anthony DiUglio
Ano/is/o Nuclear, Probabi/is/ic Risk Assessmenl, Cansalidated Edison Company af New York, lnc.
. . .
Anthony DiUglio trabalho no Pro bobilistic Risk Assessme nt [PRA) G rou p [G rupo de Ava liaçã o de Risco Pro ba bilístico) do Unidade N° 2 [lndian
Point) de geraçã o nucle ar do Consolidoted Edison e m Buchanan, Novo York. Em seu traba lho como Anal ista Nuclear, Tony estabelece
probabilidades utilizados poro quantificar vários a spectos do a valiação d o risco da usina . Tony é um ex-aluno do autor.

Q uais são s u as atribuições? surgem freqüentemen te pro blemas q ue até então não havíamos
encontrad o ; assim, muitos d e les exigem criatividade. Uma vez de
No PRA preocupam-nos três questões básicos sobre o risco : o que pode posse dos intrumentos básicos, seu tempo é empregado
acontecer, qual é a chance de aco ntecer, e quais são os conseqüêrlcia s eficientemente. Não podemos nos comunica r com eficiência o menos
coso aconteça. Essas questões sobre o risco se aplicam ao fu ncionamento q ue utilize mo s uma linguagem comum - e esta linguagem é o
seguro, confiável e contínuo de nossa usina. Quando qua ntificamos o estatístico.
risco, obtemos números que sã o probabilidades. Se alg uém sugere uma
modificaçã o no sistema de seg urança da usina, analisamo-la do ponta de
vista do risca. A modificação é melhor pcro o sistema? Afeta a operação Seu trabalho co nseguiu conven cer a opinião
da usina, ou coloca em risco a saúde público e a segurança? pública d e que sua usin a é segura?
A segurança é sempre nossa primeiro preocupação. f'la início do
Como o Sr. utiliza a probabilidade e / o u a década d e 1980, houve uma série de reuniões públicos realizadas
estatística? pelo Nuclear Regulatory Commission (NRCJ paro discutir se nosso
usina d evia, ou não, continuar em operação. A Consolidoted Edison
Troto-se de recursos fundamentais. Nossa PRA exige que afi rmava que suo usina era segura, justificando-se o continuação dos
quantifiquemos os taxas de reparo específicas da usina poro todos os o pera ções do mesmo através do nosso PRA. Ao término daquelas
componentes ligados à segurança. Ao estabelecer taxa s de reparo de reuniões, a NRC concordou com nossa posição, e continuamos o
' componentes pore bombos e válvulas, recorremos c dedos da indústria operar.
em gerei [genéricos) e a dados específicos de nossa usina.
Combinemos essas informações, sob incerteza, e chegamos a
probabilidades de reparo específicas para as diversas componentes. Quem foi sell.i melhor professor de matemá~ica?
O professor Mario Triola.
Como utiliza a probabilidde e/ou a esiatístka em
outros d e partamentos na lndian Poi nt? Sua u~ilização da probabilidade e da estatística
Nosso Performance Deportment calcula rliversos parâmetros da usina, ~em aume ntado, diminuído ou permanecido
como taxo de aquecimento, geração em megawatts, custo de geração constante ?
por kilowatt etc. Esses parâmetros são todos obtidos com o auxílio da
estatística. Os recursos estatísticos que utilizamos são tendência de Tem aumentado continuamen te. Estamos mui to envolvidos com os
d a dos, curvos normais, desvios-padrã o, histogromos etc. O Financial indicadores de desempenho da usina como parâmetros do eficiência
Planning utilizo amplamente o estatístico ao projetar o rçame ntos e operacional da usina . Com o PRA temos agora um instrumento que
determina r suas restrições. Nossos previsores utiliza m o teoria da nos permite focalizar o atenção sobre as co mpo nentes e funções mais
probabilida de para predizer a demanda em diferentes épocas do ano importantes da usina. No caso de três componentes necessitarem
[por exemplo, inverno e verão para um, três e cinco anos para a todos de manutenção, a PRA permite-nos ioentificar qual componente
frente}. Há tanta gente utilizando a estatística em seu trabalho cotidiano deve voltar ao serviço e m primeiro lugar. Em engenharia, se temos
que a estatística é hoje um instrumento poderoso para engenheiros, diversas componentes -que devem ser melhorados, o PRA permite
planejodores, previsores, e poro nós da Avaliaçãu do Ri,co. identificar qual debs deve ser melhorado primeiro. Podemos
quantificar os efeitos e, assim, dirig ir melhor nossos recursos,
tornando o usina ma is segura.
!Em termos de e statística, quais seria m suas
recome nda çõe s aos candidatos a emprego?
Eles devem ler um bom conhecimento de probabilidade, estatístico e
suas aplicações. Como PRA é ainda uma área relativame nte novo,

59
-~CtN\e.~

"~ Triola

Probabilidade

3-1 Aspectos Gerais 3-4 Regra da Multiplicação

._ Identificam-se os objetivos do capítulo, abordando-se a Introduz-se a regra da multiplicação para achar a


importância da probabilidade, juntamente com seu papel probabilidade de ocorrência de um evento em um
·nos métodos estatísticos básicos. experimento e outro evento em outro experimento.
Definem-se os eventos independentes. Descreve-se a
probabilidade de obter ao menos um resultado de um
determinado evento. Define-se ·e ilustra-se a
3-2 Fundamentos
probabilidade condicional.
Apresentam-se e ilustram-se as definições de
probabilidade - a definição clássica e a definição como
freqüência relativa. Dão-se métodos para achar 3-5 Probabilidades por Meio de Simulações
probabilidades de eventos simples. Descreve-se a lei dos
grandes números, definindo-se e ilustrando-se o Freqüentemente, as probabilidades podem ser estimadas
complemento de um evento. Cousideram-se as chances. com base em simulações que retratam experimentos.
Descrevem-se e ilustram-se métodos para criar simulações.

3-3 Regra da Adição


J-6 Contagem
Dá-se a regra da adição como método para achar a
probabilidade de ocorrência de um ou de outro evento Descrevem-se as seguintes técnicas importantes de
(ou de ambos) na realização de um experimento. contagem: o princípio fundamental da contagem, a regra
Definem-se os eventos mutuamente excludentes. Na do fatorial, a regra dos arranjos (quando todos os
aplicação da regra da adição, evita-se ou corrige-se a elementos são diferentes), a regra dos arranjos quando
contagem dupla de eventos que não são mutuamente alguns elementos são idênticos e a regra das combinações.
excludentes. Introduz-se a regra dos eventos Utilizam-se esses processos fundamentais de contagem
complementares. para determinar o número total de resultados.

.,,::;-:
,_·,
'•
Í-j
[!

~
·;
'i
:~---=~====~~-
==~ -~---~~~~--~-~-~~~--;N.-~~~~~~~ ~~,;;r.::~"\·~:?·~;;:~
--~·~·~

Problema do Capítulo
Qual ocorr§ncia parece ter maior chance para o leit or, ser atingido por um raio ou ganhar na
loteria?

Muitos de nós agimos com base na chance da ocorrência de eventos. Alguns de nós viajamos em aviões, reconhecendo que,
embora haja a chance de uma colisão com outro aparelho, essa chance é realmente mínima. Alguns aceleram seus automóveis
durante uma tempestade, sabendo que podem ser atingidos por um raio, mas, novamente, a cha;1ce de tal evento é também
mínima. Muitos compram bilhetes de loteria com a esperança de ganhar um prêmio, embora a chance de tal ocorrência seja
muito pequena- mas sabemos realmente quão pequena? A chance de ganhar na loteria é realmente menor do que a chance de
ser atingido por um raio? Neste capítulo, estudaremos a probabilidade ao determinar maneiras específicas de avaliar a chance
de ocorrência de vários eventos -em particular, a chance de ser atingido por um raio e a de ganhar na loteria. Veremos então
qual evento tem maior chance.

3-1 Aspectos Gerais só grande valor como instrumentos de tomada de decisões que
possibilitem melhor compreensão do nosso mundo.
"
No Capítulo 2 apresentamos o método da inferência estatística,
que se baseia na evidência amostral para formular inferências ou
conclusões sobre toda uma população. As decisões infcrenciais 3-2 lfyndamenihos
se baseiam em probabilidades- ou chances- de eventos. Su-
ponha, por exemplo, que em uma verificação dos registras dos Ao lidarmos com problemas de probabilidade, vamos encontrar
funcionários de sua faculdade fique constatado que os últimos experimentos, eventos e a coleção de todos os resultados possíveis.
100 admitidos são do sexo masculino. Em uma política não-ten-
denciosa de admissão, a chance de os 100 primeiros admitidos
serem todos homens é tão pequena, que somos levados a crer que @!ilrOINID~@tg$
se dá preferência aos homens. Este exemplo ilustra um impor-
tante princípio, que será a base de nosso raciocínio em vários Um experimento é qualquer processo que permite ao pes-
capítulos futuros. quisador fazer observações.
Um evento é uma coleção de resultados de um experimento.
Se, sob determinada hipótese (tal como a contratação
não-tendenciosa) a probabilidade de uma determinada Um evento simples é um resultado, ou um evento, que não
amostra (corno 100 homens contratados) é comporta mais qualquer decomposição.
excepcionalmente pequena, concluímos que a hipótese O espaço amostral de urn ex!Jerimento consiste em todos
provavelmente não é correta. os eventos simples possíveis; ou seja, o espaço amostral
consiste em todos os resultado.; que não comportam mais
Além de sua aplicação na metodologia estatística, a teoria da qualquer decomposição.
probabilidade vem adquirindo importância crescente como ins-
trumento analítico em uma sociedade que é forçada a medir in-
certezas. Por exemplo, antes de ativ ar uma usina nuclear, deve- Exemplo: o arremesso de um dado é um experimento, e ore-
mos analisar a probabilidade de um acidente. Antes de armar um sultado 3 é um evento. O resultado 3 é um evento simples porque
artefato nuclear, devemos analisar a probabilidade de uma deto- não pode ser decomposto; e o espaço amostral consiste nesses
nação acidentaL E antes de aumentar o limite de velocidade em eventos simples: 1, 2, 3, 4, 5, 6. Outro exemplo: o arremesso de
nossas rodovias, devemos procm·ar estimar a probabilidade do um par de dados é um experimç.nto, o resultado 7 é um evento,
aumento de acidentes fatais. mas 7 não é um evento simples porque pode ser decomposto em
O objetivo principal deste capítulo é firmar um conhecimen- eventos mais simples, como 3-4 e 6-l. Na jogada de um par de
to sólido dos valores probabilísticos que serão utilizados em ca- dados, o espaço an1ostral consiste em 36 eventos simples: 1-1 ,
pítulos subseqüentes. Um objetivo secundário é desenvolver os 1-2, ..., 6-6.
conhecimentos básicos necessários para a resolução ele proble- Embora não haja concordância universal sobre como definir
mas simples de probabilidade. Esses conhecimentos têm por si a probabilidade de um evento, duas definições são correntes.
62 EsTATÍSTICA

Apresentamos primeiro a notação básica, e passamos então às


definições de probabilidade.

\~::;R)8f~~~~~fi~t~·-P.r69~b1ri$~á~~-'f:,~jgW%B~~::r:~,~~~~;;··,e;·~1::-
p deno ta uma probabilidade. A, B, C deno tam eventos es-
pecíficos . P(A) denota a prõbab ilidade de ocorrênci a do
even to A. (a) (b)

fi g . 3- 1 Comparação entre freqüência relativa e abordagem clássica.

; ~ ~~t.:~t.~~~{~f~~~~~~~~:i~,~,{~{?:~~~~~~;i~:~. FfrJ~"-•-.;_; ~:;', ~- (a) Abordagem pela freqüência relativa (Regro i ): Ao procurar de ter-
mi nar P(toch inha cai r com a ponta para cimol devemos repelir o experi-
mento (joga r a tachinha) muitas vezes e determinar o razão do número
Realize (ou observe) um experimento um grande número de vezes q ue a ponto fica para cima para o número tota l de jogadas.
de vezes e conte quantas vezes o evento A ocorre efetiva- Essa razã o é a nosso esti mativa do probabilidade.
(b) Abordagem clássica (Regra 21: Ao procurar determinar P(21 com um
rnen te. E ntão P(A) é estimada como segue: dado equi librado, cada uma das faces tem o mesmo chance de aparecer,
nú mero ele ocorrências de A Pl2 l = nú mero de possib ilidades de ocorrência de 2
P(A) = , . _ .
numero de repetiçoes do expenmento número total de eventos simples 6

_i~{fHI§i~;-2'E~~firi:~~~~pfê~~~bª': ~él)P~.~ IJ9Hi l iqfide?!-''-~::-:.':· ,:,~:c~_j ' ~i%'.Gtdnd.é~-·• N6'i-iíM()s-);:,_~);?·::;g·::~_~i1iY-;-<.:;:t~;J,;i'~;


Suponha que um experi mento tenha n eventos simples di- Se se repete um experimento um grande número de vezes,
ferentes, cada um dos quais com a mesma chance de oco r- a probabilidade pela freqüência rela ti va (Regra 1) de um
rer. Se o evento A pode ocorrer em s dentre as n manei- evento tende para a probabilidade teórica.
ras, então

número de maneiras A lei dos grandes n(tmeros afirma que a aproximação pela ~

P(A)
como A pode ocorrer s freq üência relativa (Regra l) tende a melhorar q ~ando o nú m_ero !mi
número de eventos n de observações aumenta. Essa let reflete uma noçao bastante sun-
simples diferentes ples apoiada pelo senso comum: Uma estimativa probabilísüca
baseada apenas em umas po ucas observações pode apresen tar
grande divergência, mas com um nú mero crescente de provas a
estimativa tende a ser cada vez mais precisa. Por exemplo, se
Qual é a Probabilidade? fazemos uma pesquisa entrevistando apenas algumas pessoas, os
resultados podem acuslli· grande erro; mas se entrevistamos mi-
Como interpretar lermos como provável, improvável ou lhares de pessoas selecionadas aleatoriamente, os res ultados
extremamente improvável? O Departamento de Aeronáu tico dos amos trais estlli·ão muito mais próximos dos verdadeiros valores
EUA. (FAAI dó o segui nte jnterpretoção. Provável: Uma
probabilidade de 0,00001 ou mais poro cada hora de vôo. populacionais.
Espera-se a ocorrência de tais eventos várias vezes durante a A Figura 3-2 ilustra a lei dos grandes números através de re-
vida operacional de cada aeronave. Improvável: Umo sultados simulados em computador. Note que, à medida que
probabi lidade da ordem de 0,00001 ou menos . Tais eventos aumenta o número de nascimentos, a proporção de meninas ten -·
não são esperados no decorrer da vida operacional de uma
aeronave de determinado tipo, mos podem ocorrer du rante a
de para 0,5.
vida operacional de todos os aviões daquele tipo . Extremamente Se atentarmos para as Regras 1 e 2, pode parecer que deveii-
improvável: Uma probabi lidade da ordem de 0,000000001 ou amos utilizlli· sempre a Regra 2 quando um experimento tem re-
menos. Tais eventos são Ião improváveis que pode m ser sullados igualmente prováveis. Acontece freqüentemente, entre-
considerados como se jamais ocorressem. tanto, q ue tais experimentos são tão complicados que a aborda-
gem clássica (Regra 2) perde seu aspecto prático. Em lugar dis-
so, podemos mais fac ilmente obter estimativas das probabilida-
É importante notar que a definição clássica exige que os resul- des desejadas apelando para o processo da freqüência relativa
tados tenham todos a mesma chance. Se os res ultados não têm (Regra 1). Em ta is casos, as simulações costum am auxiliar. (Uma
todos a mesma chance, devemos apellli· para a estimativa pela simulação de um experime nto é um processo que se comporta
freqü ência relativa. A Figura 3- 1 ilustra essa importan te dis - da mesma m•meira q ue o próprio experimento, produzindo as-
tinção. sim resultados análogos.) Por exemplo, é muito mais fácii ·utili-
Ao calcular probabilidades pelo método da freqüência relati- zar a Regra 1 para estimar a probabilidade de ganhar em um j ogo
va (Re~ra 1), obtemos uma aproximação em lugar de um valor de paciência- isto é, j ogar um grande número de vezes (ou fazer
exato. A medida que o número de o bservações aumenta, as apro- uma simulação em um computador) do que efetu ar os cálculos
ximações tendem a ficar cada vez mais próximas da probabili- e xtre mame nte complexos exigidos pela Regra 2. -:
dade efetiva. Essa propriedade é enu nciada como um teorem a Os exemplos que seguem servem para ilus trar a aplicação das
·,
comumente conhecido como a lei dos grandes números. Regras 1 e 2. E m alguns deles, e mpregamos o te rmo aleatório. -·,

I
'
I

J
~l
~ov.~.,~...ijijõfr~,:ii:;::z-;--~
r-- -- - - -· - -- -·-

Probabilidnde 63

-~
6 I e 0
O, e;; a l!l o " s
~ 05J.
lll
'<: -
.I
~~ 0,4T 0 a 0 "' e "<5
~
~
0,31
I !ll..
. s
@

g. 0,2-,
~ 0,1--

OL-----~----r-----r-----r-----~----~
o 20 40 60 80 100 120
Número de Nascimentos

Fig. 3-2 lluslroçõo do Lei dos Grandes Números.

Recorde estas definições da Seção 1-4: Em uma amostra alea- teoria dos probabilidades, concluíram que Shakespeare
tória de um elemento de uma população, todos os elementos conhecia oo menm outros 35.000 polovros que não empregou
e m suas obras. A estimativo do tamanho de uma população é
da mesma têm igual chance de ser escolhidos; uma amostra de n um problema impo rtante, encontrado freqüentemenle em estudos
elementos é uma amostra aleatória (ou uma amostra aleatóri a de ecologia, mas o resultado apresentado aqui é outra
simples) se é escolhida de tal maneira que toda amostra possível oplicoçõo interessante, [Vejo "Estimating lhe Number of Unseen
de n elementos da população tem a mesma chance de ser esco- Species: How Mony Words Did Shakespeme Know?" (Estimativo
do Número de Espécies Não Vistos: Qua ntos palavras
lhida. O conceito geral de aleatoriedade é extremamente impor- Shakespeare conhecia?"), in Biomefrika, Vol. 63, N 2 3].
t:Jnle em estatística. Ao fazermos inferências baseadas em amos-
tras, devemos ter um processo de amostragem que seja represen-
tativo, imparcial e não-tendencioso. Se uma amostra não é sele- EXEMPLO Em um teste ACT (American College Test = Tes-
cionada cuidadqsamente, pode ser totalmente in útil. te para Faculdade Americana) ou SAT (Scholastic Aptitude
Test), uma questão típica de múltipla escolha tem 5 respostas
possíveis. Respondendo à questão aleatoriamente, qual é a
EX I:MPLO Determine a probabilidade de urna pessoa escolhi-
probabilidade de sua resposta estar errada?
da aleatoriamente ser atingida por um raio este ano.
SOLUÇÃO Há 5 resu itados ou respostas possíveis e 4 manei-
SOLUÇÃO O espaço amostral consiste nestes dois eventos
ras de responder incorretamente a questão. A aleatoriedade
simples: A pessoa escolhida é atingida por nm raio, ou não é.
implica que os resultados do espaço amostral são igualmente
Como estes eventos simples não são igualmente prováveis,
possíveis; pela abordagem clássica (Regra 2) obtemos
devemos apelar para uma aproximação por freqüência relati-
va, conforme a Regra 1. Não é prático realizar experimentos,
mas podemos pesquisar eventos passados. Em um ano recen- 4
P (resposta errada) 0,8
te, 371 pessoas foram atingidas por um raio nos EUA. Em uma 5
população de cerca de 260 milhões, a probabilidade de ser
atingida por um raio em um ano é estimada em
Em problemas básicos de probabilidade do tipo que estamos
3'!! considerando, é mu ito importante examinar cuidadosamente as
.1
~ ~~Gf1. noo. ooo 701.000 informações de que dispomos e identificar corretamente o número
total de resultados possíveis. Em alguns casos, temos esse número
diretamente, mas em outros casos devemos manipular as informa-
ções para obtê-lo. No exemplo precedente, temos a infom1ação ele
O Vocabulário de Shakespeare
que o número total de resultados é 5, mas o exemplo que segue ex.ige
De acordo com Broclley Efron e Ronald Thisted, os obras de que calculemos o número total de resultados possíveis.
Shakespeare contêm 31.534 palavras diferentes. Com a uxílio do

EXEMPLO A companhia de seguros American Casualty Com-


pany estudou as causas de morte por acidente doméstico e
compilou um arquivo que consistia em 160 mortes causadas
por quedas, 120 mortes causadas por envenenamento e 70
causadas por fogo e queimaduras. Selecionado aleatoriamente
um desses casos, qual é a probabilidade de que a morte tenha
sido causada por envenenamento?

SOLUÇÃO O número total de mortes por acidente é 160 + 120


+ 70 = 350. Com a seleção aleat6'ria, as 350 mortes são igual-
. mente prováveis, e a Regra 2 se aplica como segue:
64 ESTATÍSTICA ,,

número de B SOLUCÃO
mortes por
envenenamento 120
a a. '6 Dia de Ação de Graça~ sempre cai na quarta quinta-fei-
P (envenenamento)= , =-=O, 343 ra do mês de novembro. E, pois, impossível aquele dia cair
numero total 350 em uma quarta-feira. Quando um evento é impossível, di-
de mortes

Há uma probabilidade de 0,343 de que, selecionada alea toria-


1 zemos que sua probabilidade é O.
b. É certo que o Di ade Ação de Graças cairá em uma quinta-
feira. Quando a ocorrência de um evento é certa, dizemos
mente uma das mortes, ela tenha sido causada por envenena- que sua probabilidade é I.
mento.

,t;r 2.or Como qualquer evento imaginável é ce1to, impossível , ou se


situa entre esses dois extremos, é razoável conclui rmos que a
H-H-!·1 probabilidade matemática de qualquer evento é O,l ou um nú-
H-F!-JV! mero entre Oe 1 (veja Figura 3-3).
A pmbabilidade de um evento impossível é O.
exatamente H-M-H • A probabilidade de um evento cuja ocorrência é certa
2 Homens H-M-M é igual a 1.
• O ::s:: P(A) ::s:: 1 para qualquer evento A.
M-H-1-l
Na Figura 3-3, apresentamos à esquerda a escala de O a l e, à di-
M-H-M reita, as expressões mais familiares e coniuns da verossimilbança.

M-M-H
Eventos Complementares
M-M-M
Eventualmente, devemos detemünar a probabilidade de um even-
EXEMPLO Determine a probabilidade de que um casal com três to A nclo ocorrer.
filhos tenha exatamente 2 meninos. Suponha que as probabili-
dades de menino e menina sejam as mesmas, e que o sex:o de
uma criança não seja influenciado pelo sexo de qualquer outra. !l)!tr?BOOH~Ã@

SOlUÇÃO Inicialmente relacionamos o espaço amostral que O complemento de um evento A, denotado por A, consis-
identifica os 8 resultados. Como esses resultados são igualmente te em todos os resultados em que o evento A não ocorre.
prováveis, aplicamos a Regra 2. Dos 8 diferentes resultados
possíveis, 3 correspondem a ex:atamente 2 meninos; assim,

P (2 meninos em 3 nascimentos) = 2 = O, 375


8

Há uma probabilidade de 0,375 de que um casal com 3 filhos


tenha exatamente 2 meninos. ;~
:::

I
'""'-...Viável
EXEMPLO Ao escolher entre diversos fornecedores de com-
putadores, um co mprador deseja saber a probabilidade de um
computador pessoal falhar durante os dois primeiros anos.
Qual é essa probabilidade?
0,5 50-50 de Cha nce
l. SOLUÇÃO Há apenas dois resultados: Um computador pes-
soal falha durante os dois primeiros anos, ou não falha. Como
esses dois resultados não são igualmente prováveis, devemos
recorrer à aproximação por freq üência rela li v a. Isso exige que, i
·:!
de algum modo, observemos um grande nú mero de compu-
tadores pessoais. Uma pesquisa do PC World feita junto a :: ;~,, I .,
4000 possuidores de computadores pessoais revelo u que 992 ','I x nv1a ve l
dos computadores falharam durante os dois primeiros anos .
Com base em tais resultados, estimamos a probabilidade em ·;
992/4000, ou 0,248. ·~{

j
:i

~
EXEMPLO Selecionado um ano aleatoriamente, determine a ~ ;
0 lmpossrvel
.,,~
.l_L- . -
probabilidade de o Di. a de ~ção de Graças cair (a) numa quar- :.:
ta-feira, (b) numa qumta-te1ra. Fig. 3-3 Valores possíveis paro probabilidades.
l
,1 '·
:~ ;:~
lf~Ç~n., i'!
L~
, ..
·::.1
"
,------·---- ·=·-~·-~·-=-~=~-------'--'--'--'''"·'"' _,.=...,_,...,._,..;;,;;;;;;;;;;;;;;;;;;;;;;;;;;_
· --=----,__.._._..-.,_.... ;;;;~;;;
.;;;;;;,.,.,;;;
· õ<
·""=''·"""';;,;;;}o,.
" .;;:,;;-,:;;~
.,.._ ",. '!~~~...s~~·~:::Y'""í"':" :f.€5x;:·:·:~~:; .... .... :-~-,;-
;1
i'
i
1 Probabi Iidade 65
!
EXEMPLO A Nike Corporation deseja testar um no vo mate- U m conceito irnp01tante desta seção é a expressão matemáti-
rial a ser usado na fabricação de tênis. Um grupo de teste con- ca da probabilidade como um número entre O e I. Esse tipo de
siste em 20 homens e 30 mulheres. Escolhida aleatoriamente expressão é fund amental e m processos estatísticos; utilizá-lo-
uma pessoa desse grupo de teste, determine a probabilidade emos em todo o restante deste livro. Um resultado típico ele com-
de não ser homem. putador, por exemplo, pode incluir uma expressão "valor-? " (P-
value) como "significância inferior a 0,001." O significado dos
soLUÇÃO Inicialmente, observemos que o espaço amostral valores-? será discutido mais adiante; mas trata~·se essencial men:
total consiste em 50 pessoas. Em segundo lugar, como 20 te de probabilidades elo tipo estudado nes ta seção. Por ora, deve-
' dessas pessoas são homens, decorre que 30 são mulheres e, mos entender que uma probabil idade de O.om . equi valente a 1/
assim, I 000, cotTesponcle a um evento tão raro, que ocorre. em média,
apenas uma vez em mil prov:~s .

I
P(não escolher um homem)= P( homem )
= P(mull1er)
Probabilidades Subjetivtis
30 = o 6
50 '
Nesta seção apresentamos a abordagem pela freqüência relativa
e a abordagem clássica como dois métodos formais para deter-
Em bora seja difícil estabelecer uma regra universal para o minar probabil idades ele eventos; entretanto, outra abordagem
arredondamento de probabilidades, a orientação que segue se consiste si mples mente em conjecturar ("palpitar") ou estimar
aplica à maioria dos problemas deste livro. uma probabilidade. Essa técnica de "palpi tar" já deve ser famil i-
ar aos que às vezes não estão tão preparados para um exame como
deviam, mas é usada tam bém por profissionais q ue estabelecem
Arredond~;nêntó~Be~ Pfob~~iliddd~s as chances pat a um cassino. As prob:-tbilidades subjetivas são
Ao expressarmos o valor de uma probabilidade, devemos usudas também pe las companhias de segu ros, que esti mam pro-
dar a fração ordinária ou a cxpr~ssão decimal exala, ou ar- babilidades para circunstâncias especiais, como a probabilidade
redondar o resultado final para três algarismos signiftcati- ele acidente com uma estrela do rock, que faz com que um tour
vos. (Sug. : Quando uma pr-Qbabilidade não é uma fração seja cancelado. Uma probabilidade estimada com base no conhe-
simples como 2/3 ou 5/9, devemos expressá-la na forma cimento ele circunstâncias relevantes é ch:~macl a p r obabilidade
decimaL) subjetiva. Por exemplo, um apostador ele Las Vegas estima em
0,05 a probabilidade de o New York Giants ganhar a Supercopa
no próximo ano. Tal estimativa se baseia no conhecimento de
Todos os algarismos de t.m número são signiftcativos, me- fatores rele vantes. como a capacidade do treinador e dos joga-
nos os zeros incluídos pari.! a locali zação correta da vírgula. dores.

Coincidência? Chances
John Adams e Thomas Jeffersvil (segundo e terceiro pre sidentes As expressões ele verossi milhança são freqUentemente dadas em
dos EUA) morreram o mbos no di~ 4 de julho de 1 826. O forma de chonces, como 50: l (ou "50 para l "). Uma desvanta-
Pre sidente Lincoln Foi assassinado no Teotro Ford; o Presidente
Kennedy foi a ssassina do em um coc·o Lincoln fabricado pelo gem séria das chances é que elas tornam mu itos cálculos extre-
Ford Motor Company. Lincoln e KennP.dy foram ambos sucedidos mamente diríceis. Por isso, os estatísticos, m:~te máticos e cien-
por vice-presidentes com o nome Johnson. Q uatro a nos antes do ü stas prcfnem utilizar probabil idades. r\ van tagem das chances
na ufrágio do Titanic, uma r.ovcb d•csccevio o a fundamento do
é que facilitam o man useio com transfere ncias de clinl)eiro asso-
Titon, um navio que se chocorr:: LC'm urn iceberg; cf. The Wreck
of lhe Titanic Foretold? (O ~ lodrógi c do Titanic foi Previste?), ciadas ao jogo, tendendo :~ss im a ser usadas em cassinos, loteri-
por Martin Gordner. GordnE> · afirmo. "No maior parle dos casos as e corridas de cava los. Em pri me iro lugar, devemos saber que
de coincidência surpreendente, é impossível fazer sequer uma a verossimilhança de um evento pode expressar-se em termos ele
estima tivo grosseiro de suas i,robobriidodes ." chances co ntra ou a favor do evento.
----------------~

EXEMPLOS
Pro babilidad es Subjetivas no Turfe
• A probabilidade de 0,00001 28506 tem seis algatismos sig-
nificativos (128506), e pode ser atTedondada para três al- Os pesquisadores estudara m o capacid ade de os apostadores
do turfe estabelecerem probabilida des subje tivos realista s. [Cf.
garismos significativos como 0,0000129. "Racetrock Betting: Da Bettors Unde rsto nd the Odds?" [Aposta s
• A probabilidade l/3 pode ser mantida em forma de fração no Turfe : Os Apostadores Compreendem os Chances?), por
ou arredondada em forma decimal para 0,333, mas não para Brown, d 'Amoto e Gertner, in revisto Chance, Vol. 7 , N ? 3.]
0,3. Após analisar os re sultados de 4400 corridos, concluíra m que
embora os a postadores sobreestimem lige iramente a s
A probabilidade de "caras·· na jogada de uma moeda pode pro babilidades de ganho dos "ozarões" e subestimem
expressar-se como 112 ou 0,5; como 0,5 é exata, não pre- ligeiramente os probabilidades de ganho dos fa voritos, seu
cisamos expressá-la como 0,500. dese mpenha gera l é bastante bom. As proba bilidades subjetivos
~ • A fração 7659/32785 é exata. mas seu valor não é óbvio; foram calcu lados com ba se nos prê mios, que, por suo vez, se
ba seiam nos quantia s apostados, e os probabilidade s e fe tivos
~ devemos, assim, expressá-la em forma decimal como Foram calculados pelos resultados reais dos páreos.
0,234.
) 'f\;,00
X. ,;::lj '30
~~
~
~ u,~c, -<>
'"% j,C~ )

~) "" : .1.0~"
" "' .l-li \
1 1( I
}O{;q,
0 1.! {,'1 ....... lb% /ii
q)c -t> li '-~
N(_ 4> ::2 4<:;'6 Y(c.) = ~ 2.. o, ~:;Lo .... 3:2. o4
66 EsTATÍSTfCA 3 <0 '3 0
a... 3o
amostral: 1- l , 1-2, ..., 6-6. Determine a probabilidade de obter o
f!)fE!F HN I~ÃO total 4 no arremes so de um par de dados.
5. Com base nos resultados amostrais do Conjunto de Dados 11 do
A chance contra a ocorrênc ia d o evento A é a razão P( A )I Apênd ice B, estime a probabi lidade de um bombom M&M, esco- ·
P(A), comumente e xpressa na forma a:b (ou "a para b" ), 1hido aleatoriamente, ser vem1elho.
com a e b inteiros, primos entre si . ó. Com base nos resultados amostrais do Conjunto de Dados 8 do
Apêndice B, estime a probabilidade de um estudante de estatística
A chance a favor do evento A é o inverso da chance con- · selecionado aleatoriamente ter ao menos um carrão de crédito..
tra aquele evento. Se a chance contra A é a:b, então a ch ance 7. Um estudo de 500 vôos da American Airlines selecionados alea-
a favor do evento é b:a. toriamen te mostrou que 430 chegaram no horário (com base em
dados do Ministério dos Transportes). Qual é a probabilidade esti-
mada de um vôo ela American Airlincs chegar no horário? Acha
Como exemplo, se P(A) = 2/5, então que é um resultado satisfatório?
8. A Kelly-Lynne Advertising Company está cogitando lançar uma
P(A) 315 3 campanha por computador junto aos jovens de II a 19 anos . Em
chance contra A = - - = -- = - uma pesquisa com 1066 desses jovens, 181 tinham um serviço de
P(A) 215 2
computador mt-li11e em sua residência. Selecionado aleatoriamen-
Escrevemos: 3:2, ou "3 para 2". Como a chance contra A é 3:2, te um desses jovens, estime a probabilidade de ele ou ela ter aces-
a chance a favor de A é 2:3. Veja o Exercício 31 para a conver- so ao serviço on-lilze em sua residência. Aconselharia essa com-
são de chances em probabilidades. panhia a promover uma campanha publicitária por computador?
Nas apostas, a chance contra um evento representa a razão do 9. Em uma pesquisa entre estudantes de uma faculdade, 1162 afir-
maram que "colavam" nos exames, enquanto 2468 af!fiDaram não
ganho líquido para a quantia apostada.
"colar" [com base em dados.do Josephson ln sti tute ofEtbics (I ns-
Chance contra um evento A = tituto Josephson de Ética)]. Selecionado aleatorian1ente um des-
= (ganho líquido):(qmmtia apostada) ses estudantes, determine a probabilidade de e le ou ela ter "cola-
do" em um exame.
Suponhamos que uma aposta pague 50:1. Se a chance não é
10. Em um estudo efetuaclo em americanos de mais de 65 anos de ida-
especificada como sendo a favor ou contra, trata-se provavelmen- de, vetificou-se que 255 tinham o mal de Alzheimer, enquanto 2302
te de chance contra a ocorrência do evento. Se, por um pequeno não o tinham (com base em dados da Alzheimer Association).
milagre, o leitor gmiliasse esta aposta de 50:1, teria um lucro de Escolhido aleatoriamente um americano de mais de 65 anos, qual
$50 para cada $1 apostado. Assim é que, apostando $2, o lucro a probabilidade estimada de ele (ou ela) ter o mal? Com base nes -
líquido do apostador seria $100; ele receberia um total de $102, sa probab.ilidade, acha que o ma l de Alzheimer constitui uma pre-
que inclui o ganho de $100 e os $2 apostados. ocupação para as pessoas com mais de 65 anos?
11. Em tun estudo feito com doadores de sangue, 225 foram classifi-
cados como grupo O e 275 obtiveram classificação não-O [com
base em dados do Greater New York Blood Program (Grande Pro-
Apostos
grama de Sangue do Estado de Nova York)]. Qual a probabilidade
Na loteria estadual típico (dos EUA). o "coso" leva uma estimada de um'! pessoa ter sangue do grupo O?
vantagem de 65% o 70%, porque apenas 35% ou 40% do total 12. Em uma pesquisa Nielsen em 3857lares, constatou-se que 463 ti-
apostado são devolvidos como prêmios. Nos corridos de cavalo, nham sua televisão ligada no canal CBS na segunda-feira à noite
o vantagem do coso fico em torno de 15%. No cassino, o entre 10:00 e 10:30h. Selecionada aleatoriamente uma casa, esti-
vantagem da coso é de 5,26% na roleta, 5,9% no vinte-e-um, me a probabilidade de ela estar ligada no CBS naquele instante.
1,4% nos dados e 3% o 22% nos máquinas coço-níqueis. Alguns
jogadores profissionais podem ganhar sistemoticamente no vinte- 13. a. Selecionada uma pessoa aleatoriamente, determine a probabi·
e-um, utilizando técnicas compl icadas de con!ogem de cartas. !idade de ele ou ela fazer aniversário em 18 de outubro, que é
Eles sabem quando um baralho tem um número desproporcional Dia Nacional da Estatística no Japão. Ignore os anos bissextos.
de cartas de valor alto, e é aí então que Fazem grandes h. Dete1mine a probabilidade de o aniversário de uma pessoa esco-
apostas. Muitos cassinos reagem expulsando os contadores de
cartas ou baralhando as cartas com maior freqüêncio. lhi da aleatoriamente cair em Novembro. Ignore os <U10s bissextos
.14. Em um estudo de reconhecimento de marca, 331 consum icl ore~
corrheciam a Sopa Campbell, e I S não a conheci~m (com base err
dados ela Total Research Corporation). Com esses resultados, esti·
3-2 f::xerdcios A: Halbi!üdades e me a probabilidade de um consumidor aleatório reconhecer a Sop<
Conceitos Básicos Campbell. Compare essa probabilidade com os valores típicos re·
lati vos a outras marcas.
1. Quais dos valores abaixo nilo podem ser probabilidades? 15. Em uma pesquisa feita pela Bruskin-Goldring Research, pergun-
tou-se aos entrevistados como deveria ser utilizado um bolo d'
O, 0,0001, -0,2, 3/2, 2/3, .fi, .JO,'i frutas. Cento e trinta e dois responderam que deveria servir p<U'<
2. a. Quanto é P(A), se A é o evento "Fevereiro tem 30 dias este ano"? O calço de porta, e outros 880 indicaram outros usos , inclusive ali
b. Quanto é P(A), se A é o evento "Novembro tem 30 dias este .l menta de passarinho, aterro, e presente. Selecionado aleatoriamentt
ano"? um desses entrevistados, qual a probabilidade de obter alguém qw
c. Um espaço amostral consiste em 500 eventos separados, igual- utilize o bolo como calço de pOLta?*
mente prováveis. Qual a probabilidade de cada um? ~ 1-fP 16. O U_S.General Accounting Offtce (Depanameuto Geral de Conta
d. Em um exame de admissão, cada questão tem 5 respostas pos- bilidade dos EUA) testou recentemente a IRS (Internal Revenw
•'
síveis. Respondendo aleatoriamente (por "palpi te") a primeira Service =Serviço de Receita Interna) quanto à correção das resposta .,,

questão, qual a probabil idade de acertar? ~ f) a perguntas dos contribuintes. Em 1733 casos, a IRS se revelou cor
reta 1 l 07 vezes. Com esses resultados, estime a probabilidade de um
3. Determine a probabilidade do resultado "cara" ao jogar uma moeda.'/l-
4. Vimos nesta seção que o experimento que consiste em jogar um
par de dados comporta 36 eventos simples que formam o espaço ~ N. do T.: O bolo de frutas é considcrJdo muito p-.:.o;;ado pelos :1mcric:mos .

.1-3
~ - ~
>')(,
= o,o~ .U) O -<7

YlO .....
:U.~
2.1-5
:Pt::c) ., ~ ~
s-oo
O 1 '1 Ç' -P 4 fl',(
•'l

~-::L
~
500 ~:j
·'l
: t
:1
~ - -· ~- -- -.;- ..:..vf.'I...-~···,~.._..,.,. -.F·~"':'~7~ '· ',-.?,,-z.,•::;::~:-;-:~-::-:: .. ,: -:--

Probabilidade 67

consulta de um contribuinte aleatório ser respondida corretamente. c. Determi ne a probabilidade de haver ao menos uma criança de
Com base no resultado, diria que a IRS tem um bom desempenho cada sexo.
respondendo corretamente consultas de contribuintes? d. Determine a probabilidade de exatamente 2 crianças de cada sexo.
17. Dentre 400 motoristas selecionados aleatoriamente na faixa etária 25. Em um te> te com 3 questões elo tipo vcrclacleiro/falso , um estudan-
20-24, 136 estiveram envol vidos em um acidente de carro no ano te que não está preparado eleve responder cada uma aleatoriamen-
anterior (com base e m dados do Conselho de Segurança Nacional te (por "palpite").
- National Safety Council). Selecionado a leatoriamente um mo- a. Relacione os diferentes resultados possíve i>.
torista naquela faix a etária, qual a probabilidade aproximada de e le b. Qu al é a probabilidade de responder corretamente todas a> três
(ou ela) se envolver em um acidente ele carro no p róximo ano? O questões?
valor resultante chega a constituir preocupação para os motoristas c. Qual é a probabil idade de "palpi tar" inco1Tetamente todas as três
na fa ixa etária 20-24? questões?
18. Os dados do Departamento de Estat[s tica Judiciária (dos EUA) d. Qual é a probab ilidade ele passar no teste "palpitando" correta·
revelaram que, em uma amostra representa ti va de ladrões conde- mente ao menos 2 questões?
nados, 76.000 foram para a cadeia, 25.000 cumpri ram pena em li- 26. Ambos os pais têm o par de genes castanho/azul da cor dos o lhos,
berdade e 2.000 receberam outras sentenças. Com esses resulta- e cada um deles contJ.ibui com um gene para um filho. Suponha
dos, estime a probabilidade de um ladrão condenado ir para a ca- que se o filho tem ao menos uin gene castanho, essa cor dominará
deia. Acha que o resultado é suficientemente elevado para reduzir e os olhos serão castanhos. (Na realidade, a determ inação da cor
os furtos? dos olhos é a lgo mais complexa.)
19. Quando o antialérgico Seldane foi testado clinicamente, 70 pes- a. Relacione os diferentes resultados poss[veis, supondo-os igual-
soas experimentaram sonolência e 711 não (com base em dados mente prováveis.
da Merrell Dow Pharmaceuticals, Inc.). Com essa amostra, estime b. Qual a probabil icl~de ele um fil ho desses pais ter o par ele genes
a probabilidade de um usuário de Seldanc experimentar sonolên - azul/azul?
cia. Acha que a sonolência é um fator a ser levado em conta pelos c. Qual a probabilidade ele o filho ter olhos castanhos?
usuários ele Selclane? 27. Determine a chance contra uma respos ta correta em um a questão
20. De acordo com o Ministério dos Transportes elos EUA, a Ameri- de múltipla escolha com cinco respostas possíveis.
can Airlines transportou 59.377 .306 passageiros no último ano. 28. Determine a chance contra a escolha aleatória de um canhoto, sa-
Nesse mesmo ano, 82.796 passageiros foram deliberadamente bendo que I 0% das pessoas são canhotas.
impedidos de embarcar, enquanto outros 1.664 passageiros foram 29. a. A probabilidade de um 7 em uma roleta é l/38. Detem1ine a
invo luntariamente impedidos. Detem1ine a probabilid ade de um chance contra 7.
passageiro sclecionado aleatoriamente ser involuntariamente im- b. Apostando $2 no número 7 na roleta e ganhando, o cassino lhe
pedido de embarcar. Acha que uma pesso!\ eleve se ·preocupar com pagará $72, que inclu i os $2 da aposta. Identifique primeiro o
a possibilidade ele ser involuntariamente impedida de embarcar em ganho líquido, e em seguida determine a chance usada para
sua viagem de fétias? determinar o prêmio.
A MasterCard International efctuou um estudo de fraudes em car- c. Como explica a discrepâncin entre a> chances na parte (a) c na
21.
tões de crédito; os resultados estão consubs tanciados na tabela a parte (b)?
30. a. No jogo de dado<; em um cassino, pode-se apostar cm que a
seguir.
próxima jogada de dois dados dê a soma 2. A probabil idade ele
Tipo ele Fraude Número obter a soma 2 é l/36. Determine a chance contra o aparecimento
ela soma 2.
Cartão roubado 243 b. Apostando $5 no resultado 2 ela próxima jogada elos dois ela-
Cartão fal sificado 85 dos, o apostador receberá $155 (incluindo os $5 da aposta) se
Pedido por correioltdefone 52 ganhar. Iclcntifigue prim eiro o ganho llq uiclo e determine em
Outros 46 seguida a chance usada para determina r o resultado.
Selccionado aleatoriamente um caso ele fraude nos casos resumi- c. Como explica a discrepância entre as chances na parte (a) c na
dos na tabela, qual a p~ohabilidacl e ele a fraude resultar de um car- partc(b)?
tão falsificado?
22. Uma pesquisa Gallup origmou r>' dados amostrais da tabela a se-
guir. 3-2 lExerd d©s lB: t1Jém do t~ :6J s s.r:~
( " i><.b. ') :- _L :: ~
Escovadas por J ia Número JQH> ,,
31. Se a chance contra o evento A é a:b, então p(A) = b!(a + h). De-
228 temline a probabilidade de Horse Cents ganhar a próx.ima corrida,
~ 672 dado que a chance contra é de 10:3.
3 240 32. A chance contra Lazy Lady ganhar a próxima co1Tida é ele 9:2.
Se lecionado aleatoriamente um elos entrevistados, qual a probabi- Determine a prohabiliclade de Lazy Lacly ganhar o próximo páreo.
(Veja Exercício 31.)
lidade de obter alguém que escove os dentes três vezes por dia, con-
33. O gráfico ramo-e-fol has a seguir resume o tempo (e m horas) que
forme recomendam os dentistas?
os gerentes gastam em serviços burocnítieos em um dia (segundo
23. Um casal planeja ter 2 filhos.
dados el a Adia Personnel Services). Com base nessa amostra, esti-
a . Relacione os diferentes resultados, de acordo com o sexo de
me a probabil idade de um gerente se!ecionado aleatoriamente gastar
cada criança. Suponha que esses resultados sej am igualmente
mais de 2,0 horas por dia em serviços burocráticos.
prováveis.
b. Determine a probabilidade de o casal ter 2 meni nas . . o. 00
c. Determine a probabilidade de exa tamente uma criança ele cada l. 0578
sexo. 2. 00113449
24. Um casal planeja ter 4 filhos .
3. 34.7
a . Relacione os 16 resultados distintos possíveis de acordo com o
sexo de cada criança. Suponlta que esses res ultados sejam igual-
4. 44.5
mente prováveis. 34. Após coletar os escores ele QI de centenas ele indivíduos , constrói -
b. Determine a probabilidade ele serem todos meninas. se um diagrama em caixa (boxplot) com es te resumo de 5 míme-
68 EsTATÍSTfCA ;•;

ros: 82, 91, 100, 109, 118. Escolhido aleatoriamente um dos indi-
víduo~. determine a probabilidade de seu QI ser superior a 109.
!Qlf;!l=HNO~i.@
35. Na parte (a) do Exercício 13, foram ignorados os anos bissextos ,.~ '
na determinação da probabilidade de um indivíduo selecionado Um evento composto é qualquer evento que combina dois ;,
aleatoriamente ter ~eu aniversário no dia 18 de outubro. ou mais eventos simples .
a. Recalcule essa probabilidade, sabendo que um ano bissextQ
ocorre a cada quatro anos. (Expresse sua resposta como uma
fmção exata.)
b. Os anos bissextos ocorrem em anos divisíve is por 4, com exce-
·• ·• Np_idÇã~· .P(].f(] ·.~ :,R~gr~~'@t~i:Ú[gt~~~~~g[;,;:·,~j:(<,>,;:,;;f~::;~J:,;;:;;'
ção de 3 de cada 4 anos centenários (anos terminados em 00). P(A ou B) = ?(ocorrência de A, ou de B, ou ele ambos) I
Os anos 1700, 1800 e 1900 não foram bissextos, mas 2000 será
bissexto. Determine a probabilidade exala para este caso e ex-
presse-a como uma fração.
Comecemos com um exemplo simples. Os indivíduos a se-
36. a. Se duas moscas pousam em uma laranja, detem1ine a probabi- rem pesquisados costumam ser escolhidos utilizando-se compu-
lidade de elas pousarem no mesmo hemisfério. tadores para selecionar aleatoriamente os dois últimos algaris-
b. Escolhem-se aleatoriamente dois pontos em uma vara reliJínea.
mos de telefones. Se escolhemos aleatoriamente um dos dez al-
A vara é então quebrada nesses dois pontos. Determine a pro-
babilidade de os 3 pedaços resultantes formarem um triângulo. garismos O, 1, 2, 3, 4, 5, 6, 7, 8, 9 como último algarismo de um
(É um problema difíciL) número de telefone, qual é a probabilidade de o número escolhi-
do ser O ou 1? Aplicando a Regra 2 da Seção 3-2, vemos que o
evento "obter Oou 1" pode ocorrer de duas maneiras diferentes,
e o número total de resultados possíveis é 10; logo,

2
P(O ou 1) = - = O2
10 '
Esse exemplo parece sugerir uma regra geral, pela qual bas-
tmia adicionar os números de resultados correspondentes a cada
um dos eventos em questão. Antes de firmar essa regra, entre-
....
tanto, consideremos outro exemplo - uma escolha aleatória de
números do conjunto (0,1,2, ... , 9}, mas dessa vez vamos achar
a probabilidade de obter um número ímpar ou um número supe-
rior a 6. Notemos que, dentre os 10 resultados possíveis, 5 são
ímpares (1,3 ,5,7,9) e 3 são superiores a 6 (7,8,9). Ao contar o
número de resultados ímpares ou superiores a 6, devemos ter
cuidado para não contar um número mais de uma vez. Há, na·
realidade, seis resultados separados que são ímpares ou superio~
Probabilidades Que Desafiam a Intuição
res a 6: 1,3,5,7,8,9. A probabilidade correta é, pois,
Em certos casos, nossas estimativos subietivos de probabilidades
diferem acentuadamente dos probabilidades efetivos. Eis um
exemplo dássico: Se o leitor respiro profundamente, há mais de P(írnpm· ou superior a 6) = ~ = 0,6
99% de chance de inalar uma molécula que tenho sido exalado no 10
último suspiro de César. Nesse mesmo contexto mórbido e intuitivo,
se o taça de cicuta fatal que mofou Sócroles continha águo em suo
Eis a chave ela questão: Ao determinar a probabilidade da ocor-
maior porte, então o próximo copo de águo que o leitor beber rência do eve nto A ou elo evento B, devemos achar o total de
provavelmente conterá uma daquelas mesmos moléculas. Eis outro maneiras como A. pode ocon·er e o total de maneiras corno B pode
exemplo menos rnórbido, que pode ser verificado em aula: Em uma ocorrer, mas de modo que nellhum resultado seja contado mais
turma de 25 alunos, há uma cha nce superior o 50% de dois alunos
terem o mesmo doto de aniversário. de uma vez. Um método de cálculo consiste em combinar o nú-
mero de ocon·ências possíveis de A com o número de ocorrên-
cias possíveis de B e, se houver qualquer superposição, subtrair
o número de resultados que são contados duas vezes, de acordo
3-3 RegrCil da AdiçS!@ com a regra abaixo. '

O principal objetivo desta seção é introduzir a regra da adição


para achar P(A ou B), a probabilidade de ocorrência do evento
A, ou do evento B, ou de ambos, como resultado de um experi- J)~~9"r 9 )-9rmal d.a ;;.9/Çõo ·
mento. A palavra-chave aqui é a conjunção ou. (É o ou inclusi- P(A ou B) = P(A) + P(B) - P(A e B)
vo, que significa um, ou outro, o u ambos, e que será utilizado
em todo este texto. Afora o Exercício 27, não consideraremos o onde P(A e B) denota a probabilidade de ocorrência simul-
ou exclusivo, que significa um, ou outro, mas não ambos.) Na tânea de A e B em um mesmo experimento.
seção precedente consideramos eventos classificados corno sim- ·'
ples, porque envolviam apenas um resultado, geralmente deno-
tado por A. Em muitas si tuações reais, entretanto, temos eventos Embo ra a regra formal da adição seja apresentada como uma ij
compostos, tais como a escolha aleatória de um consumidor que fórm ula, é preferível entender o espírito da regra e aplicá-lain- ·=·
,.~.

é mulher ou que tem menos de 40 anos de jdade. tuitivamente, como segue. ~:~
!$:
•·'
~~~
:1
:J
- -· - tE ..,--·r<Pn~,...;;.f-~@-.3'~~~:7_:-~~.~::!~--~·:·~::': :.~·; ... :.,4~ ....... ..-..:. ... ·"····"· .... T.oo .::_:.~~~~~~:~~~=:;:~
r

Probabilidade 69

Área Total = 1 Área. Total= 1

F'(A) P(B)
P(A) P(B)

01 ··P(AeB)

Fig . 3-4 Diagrama de Venn exibindo evenlos que se superpõem.


o•
Fig. 3-5 Diagrama de Venn exibi ndo eventos que não se superpõem.

do os dados em uma forma mais favoráveL Consideremos esta


··.. Regr~.:l~tu!tiv'~ ~-(:19j\di~6?· . :,~· ; '
afirmação. Em um teste com o antialérgico Seldane, 49 dos 781
Para achar P(A ou B), somamos o número de ocmTências usuários de Se!dane experimentaram dores de cabeça, 49 dos 665
possíveis de A e o número de ocorrências possíveis de B, que usaram placebo experimentaram dores de cabeça, e 24 dos
adicionando esses nzímeros de tal modo que cada resulta- 626 indivíduos do grupo de controle experimentaram dores de
do seja contado apenas uma vez. P(A ou B) é igual a essa cabeça. (Esses resultados se baseiam em dados de Merrell Dow
soma, dividida pelo número total de resultados possíveis. Pharmaceutical, lnc.) Nessa afirmação, os dados são um tanto
difíceis de ser compreendidos, mas se tornarão muito mais cla-
ros se forem reorganizados em formá tabular (veja Tabela 3-1).
A Figura 3-4 mostra um diagr<una de Venn que ilustra visu- Os exemplos que seguem utilizam dados da Tabela 3-1.
almente a regra fom1al da adição. Vemos ali que a probabilida-
de de A ou B é igual à probabilidade de A (círculo esquerdo) mais
EXEMPLO Se um dos 2072 indivíduos da Tabela 3-1 é esco-
a probabilidade de B (círculo direito) menos a probabilidade de
lhido aleatoriamente, determine a probabilidade de se obter
A e B (região comum aos dois círculos). Esta figura mostra que
alg uém que fez uso de um placebo ou estava no gn;po de
a adição pura e simples das áreas dos dois círculos acarre'!a uma
controle.
dupla contagem da área do meio. Esse é o conceito básico subja-
cente da regra da adição. Em virtude da relação entre a regra da
SOLUÇÃO Pode mos denotar a probabilidade procurada por
adição e o diagrama de Yeun da F igura 3-4, é costume usarmos
P(placebo ou controle). A Tabela 3-1 mostra que os indiví-
a notação P(A u B) em lugar de P(A ou B). Analogamente, cos-
duos que usaram o [Jlacebo e os do grupo de controle se ex-
tuma-se utilizar a notação P(A n B) em lugar de P(A e B). A regra
cluem mutuamente. Ou seja, não há superposição desses dois
fom1al da adição pode, poic. ser expressa como
gru pos. Conseqüentemente, o número total de pessoas que
P(A u B) ~ P(A) + P(B) - P(A n B) utilizaram um placebo ou que estavam no grupo de controle
A regra da adição se simplifich q:~<m doA e B não podem ocorrer é 665 + 626 = 1291, e a probabilidade procurada é 1291/2072
= 0,623 .
simultaneamente, de fonTiil tjUe P (A e B) é zero . Pela Figura 3-5
vemos que, quando não há superposição ue A e B, temos P(A ou 665 626 ·- 1291
8) = P(A) + P(B). A defi.1ição seguinte formaliza a ausência de P(placebo ou controle) = 2072 + 2072 -- 2072
superposição mostrada na Fi_!!nra 3-5.
= 0,623

:Li!:[;D!Niü~i.@ EXEMPLO Escolhido aleatoriamente um dos 2072 indivíduos


r - - - - - - -- - - - - - --------------~ da Tabela 3-1, determine a probabilidade de obter alg uém que
Os eventos A e B dize111-~e mutuamente cxcludentes se tenha usado Seldane ou que não teve dor de cabeça.
não podem ocorrer simultaneamente.
--------------------~ SOLUÇÃO Podemos denotar a probabilidade procurada por
P(Seldane ou não-dor de cabeça). A Tabela 3-1 mostra que
O fluxograma da Figura 3-() JUostra como os eventos mutuamente há uma superposição entre o grupo dos usuários de Seldane e
excludentes afetam a regra da adi cão. o grupo dos que não tiveram dor de cabeça. Ou seja, os dois
Às vezes podemos ~mpliar nrto só nossa compree nsão dos eventos não são mutuamente excludentes; devemos, pois, ter
dados como nossa capacidade de resolver problemas, recolocan- cuidado de evitar dupla contagem ao calcularmos nossas so-

TABELA 3·1 Teste de Seldane


Seldane Placebo Grupo de Controle Total
Dor de cab·cça 49 49 24 122
Não-dor ele ~abeça 732 616 602 1950
Total 781 665 626 2072

·-
70 E STATÍSTICA

Sirn
P(Aou B) = P(A) + P(B)

P(A ou B) =P(A) +P(B) -P(A e B)

Fig. 3 ·6 Aplicação da regra do adição.

mas. A abordagem intuitiva consiste simplesmente em somar o palpite, mos não o penalizam. Poro questões com cinco
a coluna Seldane e a linha "sem dor de cabeça" de tal forma escolhos de resposta, usualmente subtrai-se um quarto de ponto
que o elemento 732 seja contado apenas uma vez. poro cada resposta incorreto. Os princípios da probabilidade
mostram que, o longo prazo, o simples "palpite" aleatório não
P(Seldane ou sem dor de cabeça) = aumento nem diminui o resultado do exame. O estudante deve
efetivamenle "palpi tar" se pode eliminar ao menos uma escolho
49 + 732 + 616 + 602 = 1999 = 0965 ou se tem cerlo senso do resposta correto, mos deve evitar
2072 2072 ' questões ardilosos com respostas atraentes. Também não deve
, . perder muito tempo com essas questões.
Cheganamos ao mesmo resultado aphcando a regra formal da "' I · · I
adição, como segue:
P(Seldane ou sem dor de cabeça) = Eventos Complementares
= P(Seldane) + P(sem dor de cabeça) - P(Seldane e sem
dor de cabeça) = Na Seção 3-2 del'inimos o complemenw do evento A e denotamo-
~ + 1950 732 1999 lo por A . A definição de eventos complementares implica que eles
O, 965 devem ser mutuamente excludentes, pois é impossível um evento
2072 2072 2072 2072
ocorrer e mio ocorrer simultarJeamente. Outrossim, podemos ter
certeza absoluta ele que A ocorre ou não ocorre. Ou seja, um dos
Resumimos a seguir os pontos-chave desta seção. dois, A ou A. deve ocorrer. Essas observações permitem-nos apli-
car, como segue, a regra para eventos mutuamente excludentes:
1. Para calcular P(A ou B), começamos por associar a conjun-
ção ou à adição. P(A ou A)= P(A) + P(A) = l
2. Verificamos se os eventos A e B são mutuamente excluden- :•'
tes; em outras palavras, podem e les ocorrer simultaneamen- Justificamos P(A ou A) = P(A) + P( A) notando que A e A são
te? Se não são mutuamente excludentes (isto é, se podem muluamente excludentes; e justificamos o total 1 pela certeza
ocorrer simultaneamente), devemos ter o cuidado de evitar absoluta de que A deve ocorrer, ou não. Esse resultado da regra
(ou, ao menos, compensar) a contagem dupla ao somarmos ela adição conduz às três formas equivalentes que seguem:
as probabilidades. Se o leitor compreendeu a importância de
evitar a contagem dupla ao calcular P(A ou 8), não terá ne-
cessarian1ente de calcular P(A) + P(B) - P(A e B).
Regra deis Evenfbs:'Comple~entares
P(A) + P(A) = 1
Os erros cometidos na aplicação da regra da adição freqiien-
P(A) = 1 - P(A)
temente envolvem contagem dupla; isto é, eventos que não são
mutuamente exciudentes são tratados como se o fossem. Uma P(A) = 1- P(A)
indicação da p resença de um tal erro é uma probabilidade total
superior a 1. Mas nem sempre os erros que envolvem a regra da
adição conduzem a uma probabilidade total superior a I . A primeira forma decotTe diretamente de nosso resultado origi-
nal. A segunda (veja Figura 3-7) e a terceira variantes envolvem '· ·
manipulações muito simples da equação.

I
Palpite em Testes SAT?
Recomenda-se freqüentement;, a os estudantes que se preparam EXEMPLO Se ?(chuva) = 0,4, determine ?(não-chuva) .
paro um teste de múltiplo escolho, que não recorram a o
"palpite"; mos isso não é necessariamente um bom conselho. Os SOLUÇÃO Pela regra dos eventos complementares, temos
testes padronizados de múltiplo escolha tipicamente compe nsam
?(não-chuva) = L - P(chuva) = I - 0,4· = 0,6
t':
:. .:

~-!'
.. ,: ~: ,-. ..~~:- J ~«iiiãs.~~--R~
~-

Probabilidade 7l

Á rea í otal = 1 8. Com base na Tabela 3-1 desta seção, se escolhermos aleatOiiamente
um elos 2072 indivíduos, qual é a probabilidade ele obter alguém
que utilizou um placebo ou teve dor ele cabeça?
9. Os pesquisadores estão preocupados com o declínio do nível de

8
cooperação por parte dos entrevistados em pesquisas. Um pesqui-
sador aborda 84 pessoas na faixa etária 18-21 e constata que 73
respondem, enquanto 11 recusam responder. Quando são aborda-
das 275 pessoas na faixa etária 22-29, 255 respondem e 20 recu-
sam responder [com base em dados ele "Ouvi Você Bater Mas Você
P(A) = 1- P(A) Não Pode Emrar·· ("I Hear You Knock.ing but You Can't Come In"),
por Fitzgerald and Fuller, Sociological Me1hods and Research, Vol.
11, N.0 1]. Suponha que 1 dos 539 indivíduos seja escolhido alea-
Fig. 3-7 Diagrama de Venn poro o complemen ta do evento A toriamente . Determine a probabilidade de obter alguém na faixa
etária 18-21 ou alguém que recuse responder.
] O. Com base nos mesmos dados do Exercício 9, determine a probabi-
Uma grande vantagem da regra dos eventos complementares lidade ele obter alguém na fa ixa etária de 18-21 ou alguém quere-
é que sua aplicação pode simplificar consideravelmente certos nha respondido.
problemas. Ilustraremos essa vantagem na seção seguinte. 11. Os problemas de assédio sexual têm recebido muita atenção nos
últimos ~mos. Em uma pesquisa, 420 trabalhadores (240 dos quais
homens) consideram uma simples batida no o mbro como uma for-
ma de assédio sexual, enquanto que 580 trabalhadores (380 dos
3-3 IExercídos A: Habü~id()]dles e quais homens) não consideram isso como assédio (com base em
Coru:eitcs Báskos dados de Bruskin/Goldring Research). Escolhido aleatoriamente
um dos trabalhadores pesquisados, detcm1ine a probabilidade de
Para cada parte dos Exercícios 1 e 2, os dois eventos são mLIIu- -.z::Oeter alguém que não considere um simples tapa no ombro como
amente excludentes em 11111 único experimento? urna forma ele assédio sexual.
1. a. Escolha de um espectndor de televisão do sexo masculi110 12. Com base nos mesmos dados do Exercício ll, determine a proba o
Escolhaf!e alguém que rar:un~nte utiliza o controle remoto da bilid~de de escolher aleatoriamente um homt::m ou alguéii'l que não
TV rv considere uma simples batida no ombro como uma forma de assé-
b. Escolha de um cid~·.i':íC' 'cgistrado no Partido Democrata dio sexual.
Escolha de um cidadão contrário a todos os planos de bem-es- 13. Um estudo tle húbitos de fumantes compreende 200 casados (54
tar social ~ N dos quais f umam), 100 divorciados (38 dos quais fumam) e 50
c. Girar uma roleta e obter •; n:~ultado 7 q. adultos que nunca se casaram (11 dos quais fumam)[com base em
Girar uma roleta c obter um numero par dados do Dcpartment of Health and H uma.• Scrviccs (Departamen-
2. a. Adquirir um Corvette novo ~err. defeitos S to de Saúde e Serviços Humanos dos EUA)]. Escolhido aleatoria-
Adquirir um carro com faníis inoperantes mente 1 indivíduo dessa amostra, determine a probabi lidade de
b. Escolher um curso de r:1atemá1;c a ,...) obter alguém divorciado ou fumante.
Escolher um curso qut' se afigL re interessante ' 14. Com base nos dados do Exercício 13, determine a probabilidade
c. Escolher uma pessoa com cobclo louro (natural ou aniticial) de obter alguém yuc nunca se casou ou que não fume.
Escolher uma pessoa careca S
3. a. Se P(A) = 215, dctem1ine P( ;[) ., I<) Nos Exercícios 15 e 16, use os deu/os da rabeia Ci seguir, que
b. Com base em dados recentes d( U.S. National Centcrfor Health resumem uma amostra de 200 tempos (em 111inutos) entre erup-
Statistics (Centro N;...:1onal 'il- statística da Saúde dos EUA), ções do ,;ê1ser Uld Faithfulllo Parque Nuciunal de Ye/low>tone.
a probabilidade de,, 'TL c.ri;u•, .I :r mt:nino é 0,513. Dctc1 miue
Tempo Freqüência
a probabilidade de un •• L crian-;:• ser menina. O; '1", 1
4. a. Dett:rrnine P( A), dHdo que P lA ) = 0,228. 40 - 49 8
b. Com base em dado:; d, I\; <.ti< n:: 1Conference ofBm· Examiners
50-59 44
(Conferência Nacio,·:l de Ex.u·hadores forenses), se escolher"
mos aleatoriamente un:a pes.<o1 que se submete ao exame para 60-69 23
exercício da advocari<~, a prohahilidade de obter alguém que 70-79 6
seja aprovado é 0,57. /,c!Ie a prooabilidade de escolher alguém R0-89 107
que seja reprovado. 90-99 11
5. Ao jogar vinte-e-um com um úni.:o haralho de curtas no cassino
100-109
Stardust, em Las Vegas , o apost<•C:ur tira a primeira e-1rta de um
banúho bem baralhado. Qu<tl é 't probabilidade de obter (a) uma 15. Os visitantes de Yellowstone naturalmente desejam assistir a uma
carta de paus ou uin ás (b) um is nu um 2? erupção do Olcl Faithful, e assim o intervalo entre as erupções tor-
6. Escolhida uma pessoa abtíoriameoJtc, determine a !Jrobabilidade na-se uma preocupação para os que não dispõem de muito tempo.
de seu aniversário não cair uo dia 1!i de outubro, que é o Dia Nacio- Escolhido aleatoriamente um dos tempos da tabela, qual é a pro-
nal da Estatística no Japão. Ignore os anos bissextos. babilidade de ser no mínimo de uma hora?
7. Com base na Tabela 3-1 dcsla :;eçã,:, se escolhermos aleatoriamente 16. Escolhido aleatoriamente um dos tempos da tabela, qual é a pro-
um dos 2072 indivíduos, qual é a probabilidade de obter alguém babilidade de ser no mínimo de 70 minutos, ou de estar entre 60 e
que tomou Seldane ou usou um P~'·cebo? 79 minutos?
72 ESTATÍSTICA

Nos Exercícios 17-24, recorra à fig ura a seguir, que descreve questões de múltipla escolha. Suponhamos que a ptimeira questão
os grupos sanguíneos e os tipos de R h de I 00 pessoas (com base em um teste seja do tipo verdadeiro/falso, enquanto a segunda ques-
em dados do C reate r New York Blood Program). Suponha, em tão é do tipo múltipla escolha, com 5 respostas possíveis (a,b,c,d,e).
cada caso, que i dos 100 indivíduos seja selecionado aleatoria- Utilizaremos as duas questões seguintes. Tente resolvê-las'
mente, e determine a probabilidade illdicada.
1. Verdadeiro Gu falso: O fumo é uma das principais causas do
17. ? (não-grupo 0) câncer.
18. ? (não-tipo Rh •) 2. o coeficiente ele COITelação de Pearson é assim cham::t.do em
19. ? (grupo B ou tipo Rh- ) homenagem a
20. ? (grupo O ou grupo A) a. Karl Marx.
21. ? (tipo Rh-) b. Carl Frieclri ch Gauss
22. ? (grupo A ou tipo R h+) c. Karl Pearson
23. ?(grupo AB ou tipo Rh- ) d . Carly Simon
24. ? (grupo A ou B ou tipo Rh+) e. Mario Triola

Grupo AB Quando se j ulgam testes padronizados, faz-se em geral uma com-


4Rh+ pensação pelos "palpites"; assim, vamos determinar a probabi-
lidade ele que, se alguém palpita as respostas a ambas as ques-
tões, tanto a primeira como a segunda respostas estejam corre-
tas. Uma forma de determinar essa probabilidade consiste em
listar o espaço amostral como segue: .
V,a V,b V,c V,cl V,e
F,a F,b F,c F,d F,e
Se as respostas são aleutórias, então os 10 res ultados possíveis são
igualmente prováveis. As respostas corretas são V e c, e ass im

P(ambas corretas) = P(V e c) = _!__ = 0,1


' . 10
3-3 Exercidos ta: .A~é m do 86sko
Considerando as respostas individuais de V e c, respectivamen-
25. a. Se P(A ou 8) = 1/3, ?(8) = 1/4 e P(A e 8) = 1/5, determine te, vemos que, com suposições aleatórias, temos P(V) = 1/2 e
P(A). P(c) = 1/5. Como 1110 é o produto de 112 e 115, vemos que P (V
b. Se P(A) = 0,4 e ?(8) = 0,5, que se pode dizer quanto a P(A ou e c)= P(V).P(c). Isso sugere que, de modo geral, P(A e 8) = P(A)
8) se A e B são eventos mutuamente excludentes? · P(B), mas consideremos outro exemplo, an tes de firmar esta
c. Se P(A) = 0,4 e P(8) = 0,5, que se pode dizer quanto a P(A ou generalização.
B), se A e B não são mutuamente excl udentes? Notemos por ora que os diagramas em árvore podem auxiliar-
26. Se A e B são mutuamente excludentes e B e C também o são, os nos na determinação do número de resultados possíveis em um
eventos A e C devem ser mutuamente excludentes? Dê um exem- espaço amostral. Um diagrama em árvor e é uma representação
plo que confirme sua resposta. pictórica dos resultados possíveis de um experimento, consistindo
27. Corno se modifica a regra da adição, se utilizamos ou exclusivo em segmentos retilíneos que emanam de um ponto de partida. Tais
em lugar de ou inclusivo? Recorde que ou exclusivo signi fica um diagramas süo úteis para a contagem do número de resultados pos-
ou outro, mas não ambos. síveis, desde que o número de possibilidades não seja demasiada-
28. Dado que P(A ou B) = P(A) + P(B) - P(A e 8), estabeleça uma mente grande. O diagrama em árvore da Figura 3-8 resume os re-
regra formal para P(A ou B ou C). (Sug.: Trace um diagrama de sultados das questões verdadeiro/fal~o e múltipla escolha. Pela Fi-
Venn.) gura 3-8 vemos que, se ambas as respostas são aleatórias (palpi-

3-4 Regra d©J Multiplk (OIÇÕ©> Ta


~: Tb

~"
O objetivo da Seção 3-3 foi estabelecer uma regra para calcular Te
P(A ou B ), a probabilidade de uma prova em um experimento ter T d
Td
o resultado A, ou o resultado 8, ou ambo~. Nesta seção, temos em / e

~F~~
Te
vista estabelecer uma regra para calcular P(A e B), a probabilida-
de de o evento A ocorrer em uma primeira prova, e o evento 8 Fa
ocorrer em uma ~gunda prova. Na Seção 3-3. associamos a con- Fb
junção ou à adição; nesta seção, vamos associar a conjunção e à Fc
multiplicação. Veremos que P(A e B) envolve multiplicação de Fd
probabilidades, e que às vezes é preciso ajustar a probabilidade do Fe ~:

I ~:
evento B de modo a refletir o resultado do evento A. },

A teoria da probabilidade tem extensa aplicação em análise e


planejamento de testes padronizados como SAT, ACT, LSAT (para
direito) e MCAT (para medicina). Para facilidade de correção, tais
2 X
i
5 =
I
10
!·1
"
,,,,~
~;
testes utilizam tipicamente questões do tipo verdadeiro/falso ou Fig. 3 -8 Diagrama em árvore para respostas de um teste. it
~
~
~r~
Probabilidade 73

tes), todos os 10 ramos são igualmente prováveis e a probabilidade No exemplo precedente, para achar a probabilidade de um ás
de obter a resposta correta 0/,c) é 1/10. Para cada resposta da pri- na primeira extração e um rei na segunda, sem reposição da pl"i-
meira questão, há cinco respostas da segunda. O número total de meíra carta extraída, temos
resultados é 5 tomado 2 vezes, ou s~ja, 10. O diagrama em árvore
da Figura 3-8 justifica o uso da multiplicação. P(ás na primeira extração) = ~
Nosso primeiro exemplo de questões verdadeiro/falso e mú l- 52
tipla escolha sugeriu que P(A e B) = P(A) · P(B), mas o próxi-
mo exemplo introduzirá outro elemento importante. Este exem- P (reijás) = 2_
51
plo envolve um bmalho comum, de forma que o contexto deve
ser familiar à maioria dos leitores, mas os princípios utilizados onde P (reij ás) denota a probabi lidade ele obter um rei na segunda
podem ser aplicados a circunstâncias mais s ignificativas. e xtração, supondo que a primeira carta extraída tenha sido um ás.

Motores a Joto Independentes


Amostragem Composta
Um jota de três motores decolou do Aeroporto lnlernocionol de
O Exército Americano resolveu lazer um teste de sífilis, Miami com desfino à Américo do Sul, mos um dos motores
aplicando em cedo recruto um teste individuo[ de sang ue, que falhou logo após o decolagem. Enquanto o avião retornava à
foi analisado separadamente. Um pesquisador sugeriu que se pista, os outros dois motores também folharam , mos o piloto
misturassem pores de amostras de sangue. Após testados esses conseguiu fazer uma aterrissagem seguro. Com três motores
pores misturados, os recrutas sifilíticos podiam ser identificados, independentes, o prabobílidode de todos os três folharem
testando-se os poucos amostras de sangue que estavam nos simultaneamente é de apenas 0,0001 3 , ou seja, uma chance em
pares que acusaram resultado positivo. Reduziu-se o número lotai um trilhõo. As autoridades do Ministério do Aeronáutico
de análises emparelhando-se espécimes de sangue. Por que americano constataram que um mesmo mecãnico havia trocado
então não colocá-los em grupos de três, quatro ou mais? Com o óleo nas três turbinas, colocando ini:orrelamente os anéis de
auxílio da teoria dos probabilidades, determinou-se o tamanho vedação do entrado de óleo. A utilização de três motores
mais eficaz de grupo, elaborando-se uma teoria poro detector os distintos independentes tem por ob jetivo aumentar a segurança,
defeitos em qualquer população. E:sso técnico é conhecido como mos o interferência de um único mecânico tornou os motores
amostragem composto. dependentes. Os processos de manutenção exigem agora q.Je os
motores sejam vistoriados e ajustados por mecânicos diferentes.

~ EXEMPLO Na extracão de duas cartas de um baralho bem mis-


'
!:1 turado, determine,{probabilidade de que a primeira carta sej a @ffi!Jii&\!!D~@jg$
Í. um ás e a segunda seja um rei. (Admita que a primeira cana
( extraída não seja reposta antes da extração da segunda cmta.) Dois eventos A e B são independentes se a ocorrência de
t
um deles não afeta a probabilidade ele ocorrência do ou-
SOLUÇÃO Pela Regra 2 da S•:ção 3-2, achamos a probabili- tro. (Analogamente, vários eventos são independentes se
dade de obter um ás na primem\ extração. Como há 4 ases nas a ocorrência de qualquer um deles não afeta as probabili-
52 cartas distintas, temos P(ás) = 4/52. Para· a segunda extra- dades de ocorrênc ia elos outros.) Se A e B não sãn mde-
~ ção, suponha que tenhamos ~btido um ás na primeira ex tra- pendentes, dizem-se dependentes.
I~j~ ção, de modo que temos agor,\ 4 reis entre apenas 51 cartas,
donde P(rei)_= 4/51. A_ probabilitlad: de obter um ás na pri-

~
meu·a extraçao e um ret na segunda e, pots, Assim é que a jogada de uma moeda e a jogada de um dado são
eve ntos indepelldentes, porque o resu ltado da moeda não afeta a
4 4 probabiiidade elo resultado do dado. Por outro lado, os eventos
P(ás e rei) = - - = O 00603
57 51 ' "consegUir dar pmtida no seu carro" e "chegar à aula no horário"
sãu depende11tes. porque o resultado da operaçüo de t:~u p11tida
·1 Poderíamos justificar melhor t'"sse resultad,) listando o espa-
no CUlTO influi na probabil1clacle ele chegar à aula nulitníric>.
~~· ço amostral ou fazendo um di2grama em árvore. Mas o espa- Com a notação e as definições precedentes. juntamente com os
i, ço amostral tem 2652 possibilidades diferentes, e o diagrama
t em árvore tem 2652 ramos . Obviamente, este exemplo seria
princípios ilustrados nos exemplos m1teriores, resumimos o con-
ceito-chave desta seção na Figura 3-9 e na regra da multtp/;('ação.
f por demais laborioso, mas os resultados mostrariam que, dcn-
lltre as 2652 possibilidades, há 16 casos que consistem em um
~ ás seguido por um rei.

Esse exemplo ilustra o importan te princípio de que a proba-


bilidade do evento B deve levar em conta o fato de o evento A já
~~~;~;~~a ~;~~~;~;~;a;:;~;~;;,;~:,~·~c,,:,,l j-
ter ocorrido. Costuma-se expressar esse princípio com a seguin-
te notação.
Regra Intuitiva da ·M~ItiplicâÇqô: ··

:.N;t~9~9::~~b~~" ti Re~ ~d:~á· M~ltiP.ii~~c;9;C;.r"::: _;,_.-: Para determinar a probabilidade de ocorrência do evento A
em uma prova e de ocorrência do evento B na próx..ima ;>ro-
P(BjA) representa a probabilidade de ocorrência de B quan- va, devemos multiplicar a probabilidade de A pela probabi·
do se sabe que o evento A já occl'Teu. (Pode-se ler BjA como Iidade deB, não olvidando que a probabilidade do evento E
''B dado A".) deve levar em conta a ocorrência prévia do evento A.
·.;;

74 EsTATÍS T'ICA

bém que, sem reposição, a chance de obter do is filtros bons


é ligeiramente interior. Ao estabelecermos um processo para
testar lotes de produtos por amostragem, devemos utilizar
amostras sem reposição, por duas razões: Primeiro, há me-
nor chance de obter apenas artigos perfeitos quando há al-
guns defeituosos; segundo, não faz sentido utilizar amos tra- ~· .

gem com repos ição, porque há a possibilidade de selecio-


P(A e B) =P(A) · P(B) narmos o mesmo artigo mais de uma vez - o que é uma ::~
perda de trabalho.

Macacos Datilógrafos
Uma afirmação clássico é que .um macaco, batendo ao ocaso
P(A eB) =P(A) · P(BIA) nos teclas de uma máquina de escrever, acabaria compondo o
obra completo de Shakespeare, a dmitindo-se q ue continuasse
datilagrofondo indefinidamente, século após século. Poro tal ",,
Fig. 3-9 Apl icaçã o do Regro do Multiplicação. estimativo, aplicou-se a regro do multiplicação do teoria dos
proba bilidades. Um resultado de :.
1.000.000.000.000.000.000.000.000.000.000 .000.000 '·
anos é considerada muito pequeno por alguns. Nesse mesmo '
A regra da multiplicação é extremamente importante em vir- espíri ta, Sir Arth ur Eddington escreveu este poema: "Havia uma
tude de suas inúmeras aplicações. Uma área de aplicação envol- vez um macaco inteligente, que sempre tocava um baixo, e que
ve o teste de produtos, conforme exemplo a seguir. disse: 'Parece que, em bilhões de anos, acabarei compondo
uma melod io.'

Redundância ·
Até aqui abordamos o caso de dois eventos, mas a regra da
A confiobilidode de um sistema pode ser grandemente reforçado multiplicação estende-se facilmente a três ou mais eventos. De
com o redundância, ou replicação de componentes críticos. Os modo geral, a probabilidade de qualquer seqüência de eventos
aviões têm dois sistemas elétricos independentes, e os aeronaves
usados em vão por instrumento têm tipicamente dois rádios. independentes é simplesmt:[lte o produto das probabilidades cor-
Damos o seguir o extraio de um artigo publicado no revisto respondentes. Assim é que a probabi lidade de obter três "caras"
Popular Science: "Um avião construído em grande porte de em três jogadas de uma moeda é (0,5)(0,5)(0,5) = O, 125. A re-
fibras de carbono era o Leor Fan 2 100, aue devia levar dois gra da multiplicação também se ap lica ao caso de vários eventos
tronsceptores de rodar, porque se um único tronsceptor folhasse
o avião se tornaria quase invisível na tela do rodar." Essa depende ntes; basta ajustarmos conveniente mente as probabili -
redundância é uma aplicação do regra da multiplicação da dades. Por exemplo, a probabilidade de obtermos três ases em
teoria das probabilidades . Se um componente tem 0,001 de três extrações de cartas de um baral.ho, sem reposição', é dada por
probabilidade de fa lha, o probabilidade de duas componentes
idênticos folharem simultaneamente é de apenas 0,000001. 4 3 2
- - - = o 000181
52 51 50 '
EX EMPLO A Detroit Auto Supply Company produz um lote Neste último exemplo envolvendo três ases, consideramos os
de 50 fi ltros de combustível, dos quais 6 são defeituosos. (Os eventos como dependentes porque as escolhas foram feitas sem ,,·'
otimistas diriam que 44 são bons.) Escolhem-se aleatoriamente reposição. Todavia, é prática comum considerar os eventos como
,."
e tes tam-se dois filtros do lote. Determine a probabilidade de independentes quando se extraem pequenas amostras de gran- .·:
ambos serem bons, se os filtros são selecionados (a) com re- des populações. (Em tais casos, é raro extrairmos o mesmo item
posição, (b) sem reposição. duas veze.s.) Uma orientação comum consiste em supor indepen-
dência sempre que o tamanho da amostra não supere 5% do ta-
SOLUÇÃO manho da população. Quando um entrevistador pesquisa 1200
adultos de uma população de milhões, supõe independência,
a. Se os fi ltros são escolhidos com reposição, as duas esco-
mesmo que a amostragem se faça sem reposição.
lhas são independentes, porque o segundo evento não é
afetado pelo primeiro resultado. Obtemos, portanto,
A Probabilidade de 11 Ao MenosUm"
?(primeiro e segundo bons) = 44 · 44 = 0,774
. ~ 50 50
A regra da multiplicação e a regra elos complementos podem ser
b. Se os fLitros são escolhidos sem reposição, as duas esco- conjugadas para simplificar consideravelmente certos tipos de
·lhas são dependentes, porque o segundo evento é afetado problemas, como a determinação da probabilidade de que, e m
pelo primeiro resultado. Te mos: várias tentati vas, cw menos 1 te nha um resultado especificado.
Em tais casos, devem ficar bem claros os conceitos:
. .
P( pnme1ro 44 43 .
e segundo bons)= - - = O 772 • "Ao menos 1" é equivalente a " 1 ou mais".
50 49 '
• O complemento de "obter ao menos 1 item de determina-
Note que, nesse caso, aj ustamos a segunda probabilidade de do tipo" é "não {)bter nenhum ite m daquele ti po." ~:
fo rma a levar em conta a escolha de um filtro bom na pri- ~
meira seleção. Após selecionado um filtro bom na primeira Suponhamos que um empregado na cidade de San Francisco ~·;
;·1.,
vez, teremos 43 filtros bons entre os 49 restantes. Note tam- precise falar com 1 de seus 5 colegas em sua casa. Admita que
~
!~j
;i
,~.
;r--·-- ---·'"""~- ~- ~- -· . ~"":~-;;;.v.w:t;~,~.:;~.'...~ .õ,"<:~~o;-~;::~--:-: ... . •. ~

Probabilidade 75

os 5 colegas sejam escolhas aleatórias de uma população, e que P( A)= P(3 meninos em 3 filhos)= (0,5)(0,5)(0,5)
39,5% dos números de telefone de San Francisco não estejam = (0,5) 3 = O,125.
na lista (com base em dados da Survey Sampling, lnc.). Deve-
Etapa 4 : Determinar a probabi lidade do evento desejado,
mos determinar a probabilidade de que ao menos 1 dos 5 cole-
subtraindo de 1 a probabilidade do complemento.
f!aS de trabalho do nosso empregado tenha seu número de tele-
fone na lista. Veja as ~nterpretações que seguem. P(A) = I - P(A) = 1-0,125 = 0,875
Ao menos 1 número na lista = 1 ou mais números na lista Há, assim, uma probabilidade ele 0,875 de ao menos 1 meni-
O complemento de "Ao menos 1 número na lista" = na em 3 filhos.
"nenhwn n úmero na lista" (ou "todos os númer os são
não-listados")
~robabilidode CondicioMI
A resolução direta deste problema é complexa, mas a solução do
exemplo seguinte dá uma abordagem simples, indireta.
A regra da mul tiplicação para e ventos dependentes po~e expres-
sar-se formalmente como P(A e B) = P(A) · P(B/A). E fácil re-
EXEMPLO Determine a probabilidade de ao menos 1 dentre 5 solver algebricamente essa equação e m re lação a P (B/.4.); basta
~
C:J
Will r~. empregados em San Francisco ter o mímero de telefone na lista
(podendo, portanto, ser chamado). Suponha que os números
dividir ambos os membros da equação por P(A). O resultado é
chamado probabilidade condicional de ocorrência do evento B,

~
de telefone sejam independen tes e que, em San Francisco, dado que o evento A já ocorreu.
39,5% dos números não estejam na lista.

~ SOLUÇÃO rg,rnfFRINI D~Ã@

I
f~
Etapa 1: Represente por um símbolo a probabilidade dese-
jada.
Em nosso caso, seja L = ao menos 1 número na
lista, dentre os números dos 5 empregados.
Etapa 2: Identificar o complemento do evento indicado em 1.
A probabilidade condicional de B dado A é a probabili-
dade de ocorrência do evento B, sabido que o evento A já
ocorreu. Pode ser determin ada dividindo-se a probabilidade
ele ocorrência de ambos os eventos A eB pela probabilid a-
de do evento A; como se mostra a segu ir.
fi
r L = nenhum número na lista dentre os 5 empre-
gados
= 5 números não-listados deritre os 5 empregados P(H/A) = P(A e B )
11
rJ Etapa 3: Determinar a probabilidade do complemento da P(A)
H Etapa 2.
!J Essa fórmula é a expressão formal da probabilidade condicional,
jol
t P( L)= P(5 números não listados entre 5 empre- mas podemos também adotar a ahordagem intuitiva:
I,

gados)

I
= (0,395)(0,:J95)(0,395)(0,395)(0,395) =
= (0,395) 5 = 0,00962
Abordagem lntuiliva da Prôbabilidade C~11c!lciônal ·

Etapa 4: Determinar a probabilidade do evento considerado, Podemos detemlinar a probabi lidade condicional deB dado
subtraindo de 1 a prohabitidade do complemento. A supondo que A já tenha ocorrido e, sob essa hlpólese, cal-
culando a probabilidade de oconência do evento B. ~ r\
1:1 P(L) = 1 - P(T) = I - 0,00962 = 0,990 . C \'\'-'.
f~ - I.?
1e""-~'-- cx..-
_\ _, \'fV f
ÍlHá, pois 0.990 de probabilidade de ao menos 1 dos emprega-
S dos ter seu número na lista, podendo, portanto, ser contactado. Na regra da multi plicação para eventos dependentes, se 1'(8IA>
= P(B), e ntão a ocorrência do evento A não influi ·na probabili-
dade elo evento B. Esse fato costuma ser usado como teste de
V EXEMPLO Determinar a probabilidade de ao menos l meni- independê nc ia. Se P(B/A) = P(B), então A e B são eventos inde-
~~ na se um casal planeja ter 3 filho~. Admita que as probabili- pendentes; mas se PC8 IA) cf P(B), então A e B são eventos de-

~
~ dades de 111enino e menina sejam iguais, e que o sexo de qual- pendentes. Outro teste de independência envolve a igualdade de
~ quer filho não seja influenciado pelo sexo dos que o pre- P(A e 8) e P(A) · P(B). Se essas probabilidades são iguais, os
cedem. eventos A e 8 são inclepentlentes. Se P(A e B) =F P(A) · P(B),
t SOLUÇÃO
en tão A e B são even tos dependentes. Esses resultados se resu-
mem como segue:
E~apa 1: Represente por um símbolo a probabilidade dese- Dois eventos A e B são independentes se
jada. Em nosso caso, A = ao menos 1 me nina em P(8/A) = P(B)
3 fi lhos. ou P(A. e 8) = P(A) · P(B)
Etapa 2: Identificar o complemento do evento da Etapa 1. Dois eventos A e B são dependentes se
A = m!o obter ao menos l menina em 3 filhos P(B/A) =F P(B)
= obter 3 meninos e m 3 filhos o u P(A e B) cf P(A).P(B)

Etapa 3: Determinar a probabilidade do complemento da Por exemplo, se P(B/A) = 0,2 e P(B) = 0,2, então P(B/A ) = P(B)
Etapa 2: e concluímos que A c B são e ventos independentes. Como P(B!A)
76 lisTATiST!CA

= P(B), concluímos que a probabilidade do evento B não é afe- SOLUÇÃO


tada pela ocorrência do evento A; essa é a defi nição de indepen- a . Queremos P(estranhoifurto). Se a pessoa selecionada foi
dência. Entretanto, se P(BiA) = 0,5 e P(B) = 0,6, então P(B iA) vítima de furto, estamos lidando com as 505 pessoas da
=/= P(B) e concluímos q ue A e B são dependentes. Aqui, os valo- segunda coluna de valores. Dessas 505 , 379 foram vítimas
res diferentes de P(BiA) e de P(B) mostram que a probabilidade de estranhos. Portanto,
do evento B é afetada pela ocorrência do evento A e, assim, A e
B são eventos dependentes. P(estranhol furto) = 379 = 0,750
505
Podemos chegar ao mesmó resultado com a abordagem
Condenad os por Probabilida de
formal:
Uma testemunha descreveu uma ladra de Los Angeles coma
uma mulher caucasia no com cabelos louros penteados em P(fwto e estranho)
P( estran hol fu rto) = - 379/2000
'--------'-
forma de rabo de cavalo, que fugira em um carro amarelo ?(furto) 505/2000
dirigido por um homem afro-americano com bigode e barbo.
Janet e Malcolm Collins coincidiam com as característicos = 0,750_
descritas, e foram condenados com base na hipótese de que há b. Aqui, queremos P(estranho iassalto). Se a pessoa selecio-
apenas 1 chance em 12 milhões de um casal ter essas mesmos
coroclerísticas. A probabilidade de um corro amarelo era de nada foi vítima de assalto, está entre as 1426 pessoas da
I I 1O, e as outros probabilidades foram estimadas em 1I 4, terceira coluna. Dessas 1426 pessoas. 727 foram vitima-
1110, 113, 114 e 111000. As sente nça s foram posteriormente das por estranhos, de forma que
revertidos, quando se observou que não havia evidência que
apoiasse os probabilidades estimadas ou o independência dos
eventos. Entretanto, coma o casal não foi selecionodo P(estranholassalto) = 727 = 0,510
aleatoriamente, cometeu-se sério erro em não considerar o . 1426
probabilidade de outros cosais com os mesmos coroct"rísticos Novamente aqui, chegamos ao mesmo resultado por uma
estarem na me sina área.
abordagem formal:
P(es tranholassalto) =
EXEMPLO Com referência à Tabela 3-2, admita que todas as ?(assalto e estranho) 727/2000
escolhas envolvam os 2000 indivíduos representados na ta-
?(assalto)
= 142_6/2000 · =o'510
bela e determine:
a. Se uma pessoa é selecionada aleatoriamente, qual é a pro- Compm·ando os resultados das partes (a) e (b), vemos que
babilidade de ela ter sido vítima de um estranho, dado que a probabilidade de a pessoa ser vítima de um estranho é
foi escolhida uma vítima de furto? muito diferente, conforme se trate de furto ou de assalto.
b. EscoUlida uma vítima de assalto, qual a probabilidade de Há, assim, uma dependência entre o tipo de crime e a rela-
o criminoso ser um estranho? ção entre criminoso e vítima.

O Teorema de Bayes 3-4 IExell"dd©s A : Htíllbnlãdladles e


Cotrllceitos !Básicos
Thomas Bayes (1702-17 61) afirmou que as probabilidades
devem ser revistos quando conhecemos algo mais sobre os
eventos. Eis uma formo do Teoremo de Boyes: Nos Exerdcios 1 e 2, para cada par de eventos classifique-os como
independentes ou dependentes. Algulls dos outros exercícios se
P(AIB) baseiam em conceitos de seções anteriores deste capítulo.
1. a. Assistir a aulas de estatística b
P(A) · P(BIA) Passar em um curso de estatistica
P(A) · P(BIA) + P(A) · P(BV\) b. Furar um pneu no trajcto para a aula J:
Suponho que 60% dos chips do computador de uma componhiCJ Acordar tarde demais para as aulas \)
sejam produzid2_s pelo fábrica A e 40% por outro fábrica c. Eventos A eB, comP(A) = 0,40, P(B) = 0,60eP(A eB) = 0,20
(denotado por A) . Poro um chip escolhido aleatoriamente, o 2. a. Encontrar seu fomo de microondas com defeito
probabi lidade de provir do fábrica A é 0,60. Suponho que um
chip se revele defeituoso, e que os taxas de ~feito nos duas
Encontrar seu detector de fumaça a bateria com defeito
fábricas sejam de 35% poro A e 25% poro A. Com auxilio do b. Encontrar a lâmpada de sua cozinha queimada
fórmula acima, podemos determinar que o probabilidade de o Encontrar seu refrigerador com defeito
chip defeituoso provir da fábrica A é 0,677. c. Eventos A e B, tais que P(A ) = 0,90, P(B) = 0,80 e P(A e B) =
0,72
3. Dez por cento das pessoas são canhotas. Qual é a probabilidade de
selecionar aleatoriamente 2 pessoas canhotas?
TABELA 3-2 Relação entre Criminoso e Vítima ·.:.
4. Detennine a probabilidade de responder corretamente, por "palpi-
Homicídio Furto Assalto T otais te", as duas primeiras questões de um teste se
a. As 2 primeiras questões são do tipo verdadeiro/falso
Estranho 12 379 727 1118 .
b. As 2 primeiras questões são do tipo múltipla escolha com 5 pos-
:.<
Conhecido ou parente 39 106 642 787 .. ·.;
Ignorado 18 20 57 95 sibilidades.

Totais 69 SOS 1426 2000 5. Determine a probabilidade de tirar 4 ases consecutivos na extra-
ção, sem reposição, de 4 cartas de um baralho.
;>~
.;.::.
.. ~
;;

~ ~•. j~
:•!
r. .......~ ,.. 'i~;
.-'/_ ..______,~ ·:, - -' ·- ' .• -- ~ - -- ~...... ,"t" "(~·"··~:~:-··~···:·~ ~ ··~-·-~-~-~::-~-::-: •.7::~;-z-~~.:::!.'~:7.~: :-:-:-:---:·

Probabilidade 77

6. Determine a probabilidade de ao menos 1 menina em um casal com empregados, 2 estão roubando. Se o gerente verifica 4 emprega-
5 filhos. Admita que menino e menina sejam igualmente pro vá- dos selecionados aleatoriamente, qual é a probabilidade de nenhum
veis, e que o sexo de um dos filhos seja independente do sexo dos dos ladrões ser identificado?
outros. 18. Em um caso oconido em Riverhead, New York, 9 vítimas dife-
7. Um estudante tem dificuldade com o mau funcionamento de des- rentes ele crimes ouviram a gravação das vozes de 5 homens dife-
pertadores. Em lugar de utilizar l despertador, ele decide utilizar rentes. Todas as 9 vítimas identificaram a mesma voz como a voz
3. Qual a probabilidade de ao menos 1 despertador funcionar, se do ·c rimínoso. Se as identificações de voz foram feitas aleatoria- ·
cada despertador tem 98% de chance de funcionar? mente, determine a probabilidade de todas as nove vítimas indica-
8. Já vimos que jogar um par de dados co mport~ 36 resultados possí- rem a mesma pessoa. Isso constitui uma dúvida razoável?
veis: 1-1, l-2, ..., 6-6. 19. Um avaliador de sinistros de uma companhia de seguros suspeita
a. Qual a probabilidade de um 7? de 4 irmãos que reportaram um carro furtado cada um em diferen-
b. Se você acaba de entrar em um jogo ele dados em casa de ami- tes regiões de Houston. Se a taxa anual~.1rto de carros em Hous-
gos, e se a pessoa que trouxe os dados obtém oito 7 consecuti- ton é de 4,5%, determine a probabilidade ele que, em 4 carros es-

Q vos, qual é a sua conclusão? Por quê?


uatro estudantes que chegaram atrasados para o exame deram a
clássica desculpa do pneu furado. No teste substitutivo, o instrutor
colhidos aleatorütrnente, todos tenham sido furtados em determi-
nado ano. (Há 970.000 carros em Houston.) O que é que o resulta-
do sugere?
pede que os estudantes identifiquem o pneu que furou. Se não houve 20. Uma relação aprovada de jurados contém 20 mulheres e 20 homens.
realmente nenhum pneu furado e os estudantes responderam na base Determine a probabilidade de que, em uma escolha aleatória de 12
do "palpite", qual a probabi lidade de todos eles escolherem o mes- dessas pessoas, ttenhamos um júri composto só de homens. Nes-
mo pneu? sas circunstânci, \ ' se o acusado é condenado por um tal júri , há
10. Três firmas que trabalham com o mesmo auditor escolhem, inde- evidência suficiente para sugerir que a escolha elos jurados não foi
pendente e aleatoriamente, um mês para a realização da auditoria aleatória?
anual. Qual a probabilidade de os três meses escolhidos serem di - 21. Um processo de exame de sangue se torna mais eficaz combinan-
ferentes? do-se amostras de espécimes de sangue. Se se combinam amos-
11. Um gerente ele controle ele qualidade utiliza equipamento de teste tras de sangue de S pessoas e o resu I cada do exame da mistura é
para detectar modems de computador defeituosos. Retiram-se ale- negativo, podemos afirmar que todas as 5 amostras individuais
atoriamente 3 rnodems diferentes de um grupo onde há 12 defeitu - são negativas. Determine a probabilidade ele um resultado posi-
osos e 18 sem defeito. Qual a probabilidade (a) de todos os 3 se- tivo para 5 amostras combinadas em uma ún ica mistura, supon-
rem defeituosos; (b) de ao menos um dos modems escolhidos ser do que a probabilidade de o teste de uma amostra indi vidual ser
defei tuoso? positivo é de 0 ,0 15.
12. Em seu trajeto para a aula, um estucl~te deve passar por tlois si- 22. Um empregado afirma que um novo processo de fabricação de
nais de tráfego que operam independentemente. Para cada sinal, a videocassete é melhor, porque a taxa de defeitos é inferior a 5%
probabilidade rle "verde" é 0,4. Se ele deve encontrar os dois si- (que era a taxa de defeitos no passado). Fabricados 20 videocasse-
nais abertos para chegar a tempo na aula. qual a probabilidade ele tes pelo novo processo, não se constata qualquer defeito. Supondo
não se atrasar? que o novo método tenha a mesma taxa de defeito de 5% vetifica-
13. O IRS (Internal Revenue Service- Serviço de Receita ln tema dos da no passado, determine a probabilidade de não aparecer qualquer
EUA) reporta que, de todos os contribuintes auditados, 70% aca- defeito entre os 20 videocassetes. Esse resultado constitui evidên-
bam tendo que pagar diferença de imposto. Um auditor novo sele- cia suficiente de que o novo processo é melhor?
cionou aleatoriamente 12 declarações ele imposto, auditou-as e se
gabou de ter cobrado diferenç..1 de imposto de todos os 12 contri- Nos Exercícios 23 e 24, utilize os dados da Tabela 3-2.
buintes. Qual a probabilidade de isso realmente ocorrer? Com base 23. a. Determine a probabilidade de que, quando se escolhe 1 dos 2000
no resultado, é possível que ele esteja dizendo a verdade? indivíduos, a pessoa escolhida tenha sido vitimada por um co-
14. Um casal atraiu :! atenç·ão tla il!lprensa pelo fato de seus três li- nhecido ou por um parente, sabendo sr.: que foi vítima de furto .
lhos lerem nosc:ido no mesmo dia 4 de julho de anos diferentes. b. Determine a probabilidade de que, quando se escolhe I dos 2000
Ignorando os anos bissextos, determine a probabilidade ele que indivíduos, a pessoa escolhida tenha sido furtada por um co-
três pessoas selccionadas aleatoriamente tenham nascido no dia nhecido ou por um parente.
4 de julho. c. Determine a probabilidade de que, quando se escolhe 1 dos 2000
15. Escolhida aleatoriameute uma pessoa dentre as que morreram há indivíduos, a pessoa escoUüda tenha sido roubada ou vitimada
poucos anos, há uma probabilidade de 0,0478 de que a morte te- por um conhecido ou por um parente.
nha sido causada por acidente (conforme dados do Statistical A bs- d. Escolhidos aleatoriamente dois indivíduos diferentes, determi-
tract of the U11ited States- Resumo E<>tatísrico dos EUA). Um ne a probabilidade ele ambos terem sido vítimas de furto.
detetive de Baltimore tem suspeitas quanto às mortes de 5 pesso- 24. a. Escolhida aleatoriamente uma elas vítimas ele crime constantes
as, classificadas como acidentais. Determine a probabilidade de da tabela, determine a probahil iclade ele obter uma pessoa que
que, dentre cinco mortes selecionadas aleatoriamente, todas tenham tenha sido vitimada por alguém desconhecido ou que tenha sido
sido causadas por acidente. vítima ele homicídio.
16. Em um método de amosrragem, seleciona-se uma amostra aleató- b. E scolhida aleatoriamente uma elas vítim as ele crime constan-
ria, sem reposição, e todo o lote é rejeitado se há ao menos um tes da tabela, determine a probat.ilidade de obter alguém que
defeito. A Niko Electronics Company acaba ele fabricar 5000 CDs, tenha sido vítima de homicídio, dado que o criminoso é um
3% dos quais apresentam algum defeito. Escolhidos e testados 10 estranho.
dos CDs, qual é a probabilidade de todo o lote ser rejeitado? c. Escolhida aleatoriamente uma das vítimas de ctime constantes da
17. Um gerente pode identificar roubos cometidos por empregados tabela, determine a probabilidade de obter alguém que tenha sido
verificando amostras de despachos efetuados pelos mesmos. De 36 vitimado por um estranho, dado que foi vítima de homicídio.
78 ESTATiSTICA

d. 'Escolhidos aleatoriamente dois indivíduos distintos, determi- b. Determine uma fórmula para a probabilidade de não obter A ou
ne a probabilidade de ambos terem sido vítimas de criminosos não obter 8 em uma única prova; isto é, dê uma expressão para
desconhecidos. PcA ou B).
c. Compare os resultados das panes (a) e (b). São os mesmos ou
Nos Exercícios 25-30, utilize a informação seguinte. O Depar- são diferentes?
tamellto de Saúde do Estado de Nova York reporta uma taxa de 33. Devemos extrair aleatoriamente duas cartas, sem reposição, de um
10% de incidência do vírus HIV na-população considerada "de baralho bem misturado. Determine a probabilidade de obter um I O
rüco ", e uma taxa de 0,3% de incidência de HIV para a popula- na primeira exrração e uma carta de paus na segunda.
çiio em geral. Os resultados dos testes de laboratório do vírus _!:i-,. I~ -=- o , o-:;~ v <0/~~'5"
H!V são corretos 95% das vezes. Com base nesses resultados, 'i);{.. ')I
se selecionamos aleatoriamente 5000 pessoas do grupo "de ris- ·3-5!P~robabmdades pc;- Meõo de
co " e 20.000 pessoas da população geral, e~p eramos obter os
resultados da tabela a seguir. Simu~OJç©es

Amostra Extraída da Amostra Extraída da A determinação direta de probabilidades de eventos às vezes é


População de Risco População Geral muito difícil. Eventualmente os resultados, embora corretos, não
são os que esperávamos. Em lugar de confiar exclusivamente nos
Resultado do princípios abstratos da teoria das probabilidades, a simulação
Teste de HIV Positivo Negativo Positivo Negativo pode vir em nosso aux!lio.
Infectado pelo
vírus HfV 475 25 57 3
Não-infectado fi»ffilrBiNll~j_@
pelo vírus HIV 225 4275 997 18.943
- !
Uma simulação de um experimento é um processo que se
25. Escolhida aleatoriamente uma pessoa da população "de risco", qual comporta como o próprio experimento, produz indo resul-
é a probabilidade de estar infectada com o vírus HfV? tados análogos.
26. Escolhida aleatoriamente uma pessoa da população geral, qual é a
probabilidade de seu teste de HIV dar resulwdo positivo?
27. Escolhida aleatoriamente uma pessoa da população de risco, qual
'
EXEMPLO Em técnicas de teste sobre seleção de sexo , os pes- ~
é a probabilidade de seu teste ser positivo ou de ela estar infectada quisadores médicos precisam conhecer probabilidades rela- ~
com HIV? cionadas com o sexo de nascituros. Admitindo que os sexos
28. Escolhida aleatoriamente uma pessoa da população geral, qual é a masculino e ferrúnino tenham a mesma probabilidade, descre-
probabilidade de seu tes te ser positivo ou de ela estar infectada com va um experimento que simule o sexo em nascimentos.
HIV?
29. a. Considere apenas a amostra de risco e determine a probabili- SOLUÇÃO Uma simulação consiste no simples arremesso de
dade de uma pessoa rcr o vírus HIV, dado que seu teste de HIV uma moeda, com "cara" representando masculino e "coroa"
foi positivo. representando feminino. Outra abordagem consiste em utili-
b. Considere apenas a população geral, e determine a probabili- zar um programa de computador, como STATDISK ou
dade de uma pessoa ter o vírus HIV, dado que seu teste de HIV Minitab, para gerar Os e ls, com O representando masculino e
foi positivo. 1 representando feminino; Tais números devem ser gerados :::
c. Compare os resultados das partes (a) e (b). Por que razão acha ;.;
de maneira que os Os e os ls sejam igualmente prováveis,
que o médico faz perguntas sobre o modo de vida do cliente c omo no caso de geradores de números aleatórios de uma
durante uma consulta após um teste de HIV? distribuição uniforme. Mostra-se a seguir um resultado típi-
30. a. Considere apenas a amostra de risco e deter·mine a probabili- co gerado por computado r. Co m base nesse resu ltado, pode-
cbde de uma pessoa não ter o vírus Hl V, dado que o resultado mos utilizar a aproximação da probabilidade por freqüência
do tes te foi positi vo. relativa para estimar ?(masculino) = 6/10, porque há 6 ho-
b. Considere apenas a amostra da população geral e determine a mens entre os lO nascimentos.
probabilidade de uma pessoa não ter o vírus HIV, dado que o
resultado do teste foi positivo. o o 1 o 1 1 1 o o o
c. Compare os resultados das partes (a) e (b). Se o leitor fosse o j,. j,. j,. j,. j,. j,. j,. j,. j,. j,.
médico, como agiria no caso de um teste positivo de HIV para
uma pessoa de cada grupo? H H M H M M M H H H

EXEMPLO O problema do aniversário é um exercício clássi- [i


3-4 Exercícios B: Além de Básko coem probabilidade. Trata-se de determinar a probabilidade U
de que, em uma turma de 25 estudantes, ao menos dois tenham
- I a mesma data de ani versário. Ignorando os anos bissextos,
31. Determine a probabilidade de que, em 25 pessoas selecionadas
aleatoriamente,
a. Não haja duas com a mesma data de aniversário.
descreva um a simulação do experime nto que dê os aniversá-
rios de 25 estudantes em uma turma. f~:.:
b. Ao menos duas tenham a mesma data de aniversário. ?:
I
32. a. Determine uma fórmula de não obter A ou 8 em um único ex- SOLUÇÃO Inicialmente, representemos as datas de aniversá-
~;~
perimento. Isto é, dê uma expressão para P (A ou 8). rio co mo números inteiros de I a 365, como segue: ::;t
r·:
"•
~1

..j
(J
·-·- Uô'IM- Y ~~~ fijlõi ~~-~~~~~~~~'•i?-~ ~~..~.·.:·-•,";',- ... ~-~;~~::.~~~:~;:~~-~--~
-~--= ~:-'
~
.
. ...... . ...... ._. . . ._.,...... ~.- ....- .....

Probabilidade 79

l = 1 de Janeiro
2 = 2 de Janeiro
I M initab (obtidos com a aplicação de Stat/ Tables /
Tal ly). Por esses resultados, vemos que 7 ocorreram 84
vezes entre as 500 provas, e assi m estimamos P(7) = 84/500

I!
J 365 = 31 de Dezembro
= 0,168. (A aplicação das regras da pro babi lidade dão P(7)
= 6/36 = 0,167.)
Com est:1 representação, basta germmos inte iros enu·e l e 365,
em lugar dos dias e meses separados. Utilizando qualquerfo n- É de extrema importância construir a simulação com todo o
te de in teiros igualmente prováveis (como os geradores alea- cu idado, a fim, de que ela reproduza o mais fie lmente possível

I
tórios uniformes em STATDJSK, Mi nitab ou a calculadora as circunstâncias efetivas. Teríamos cometido sério erro no exem-
Tl-83), podemos gerar uma relação de 25 inteiros aleatórios plo preceden te se tivéssemos gerado os totai s 2, 3, 4, ... , 12 cor-
entre 1 e 365. Essa lista pode ser ordenada para facilitar ave- respondentes aos dois dados, como se esses totais fossem igua l-
rificação da coincidência de "an iversários". Repetindo mui- mente prováveis. Os resultados se assqnelhariam a totais com
tas vezes esse processo, podemos simular muitas turmas di- os dados no sentido de que eles fossem inteiros entre 2 e 12, in-
ferentes e estimar então a probabi lidade de que, em uma tur- clusive; deixando de simul a r cada dado individual e somar se us
ma de 25 estudantes, ao menos 2 tenham a mesma data de valores, não estaríamos imitando os verdadeiros dados. Um tal
aniversário. erro ocasionaria resultados bastante enganosos.
Além de permitir resolver problemas que, de outra forma,
poderiam parecer insolúveis, as simul ações podem ser ut ilizadas

~~
EXEMPLO A fabricante de telefones celulares Delmarva Com-
munications Company vem experimentando uma taxa de 6% para verificar resultados de cálculos com probabilidades. Um
de defeitos. O controlador de qualidade sabe que os telefones problema que tem despertado muita atenção nos últimos anos é

I são produzidos em lotes de 250 e que. em média, há 15 defei- o Problema de Monty Hall, baseado no ve lho jogo de televisão
tos por lote. Ele deseja saber a variação típica do número de "Let's Make a Deal" (Façamos um Negócio), patroci nado por
defeitos. Descreva uma simulação de 250 telefones celu lm·es Monty HalL Suponha que um competidor tenha escolhido uma
fabricados com uma taxa ele 6% de incidência de defeitos . de três portas, após ser informado de que duas delas não escon-

~
dem coisa alguma, mas que atrás da terceira está um Corvette
SOLUÇÃO Com o STATDlSK, Minitab, ou a calculadora TI- vermelho novo. Em seguida, o patrocinador abre uma das portas

I!
83, gere 250 inteiros, cada inteiro entre 1 e 100. Os inteiros que o competidor não escolheu, mostrando que não h:í coisa al-
l ,2,3,4,5,6 representarão os telefones defeituosos, enquanto guma atrás dela. Ele oferece então ao competidor a chance de
7,8,9, ... , 100 representm·ão os apare lhos perfeitos. Ordena- ficar com a primeira escolha ou mudar para a porta que não foi
dos os 250 inteiros, toma-se fácil achar o número de "defei- aberta. Qual deveria ser a opção do competidor? A solução está
tos··, que são os números entre l e 6, encontrados no começo longe de ser óbvia e não vamos calcul á-l a aqui, mas, com a teo-
.; da lista ordenada. ria das probabilidades, é possível mostrar que o competidor de-
veria mu dar sua escolha, porque a probabi lidade de ganhar seria
EXEMPLO Utilize Minitab para simulm· 500 jogadas ele um par então de 2/3 . Uma alternativa para este cálculo teórico consiste

i
c
. de dados e, com base nos resultados, es time ?(7) .

SOLU ÇÃO Podemos utilizar as opções Mini tab Cal cI


em simular o jogo com um amigo . A simulação deverá mostrar
que mudar a escolha é melhor do que man ter a primeira escolha,
porque o competidor ganhará 2/3 das vezes. De acordo com a
Random Data/Integer para simular 500 jogadas ele um revista Chance , as escolas de admin istração em instituições como
d único dado, com os resultados armazenados na coluna C l. As Harvard e Stanford utilizam este problema para melhorar a ca-
~ l mesmas opções valem para um segundo dado, com os resul- pacidade de decisão dos estudantes.
~ tados armazenados na coluna C2. O comando LET C3 =
tJ C 1 + C2 c1ia uma coluna C3 que consist<õ nas 500 somas
fl dos do is dados. Damos a seguir um resumo dos resultados de 3-5 IExerddtils A: K~tOJbniôdtlldes e
;j
p
Ccrtllt:e~ i'@S g6Jskos
!Jf; C3 Co n tagem
- - -- -- · 1. Simule um experimento para reg istrar o número de meninas cm

li ?.
3
1j
29
famíli a~ de 3 filhos, utilizando os resultados da Loteria Pick Three
de Maryland, do Conj unto de Dados 12 do Apêndice B. Cada li-
nha de 3 algarismos representará os 3 filhos em uma família, um
ti 4 3Ll
número par rcpresenwrá um homem e um número ímpar represen-
5 56 ta rá uma mulher. Com base nas 50 fam ílias simuladas, qual é a
6 73 probabilidade estimada de obter uma família com 3 meninas, quan-
do se escolhe aleatoriamente uma família com 3 filhos? Compare
7 84
o resultado simulado com a probabilidade efctiva, qu e é 0,125.
8 61 2. Considere os resultados da Loteria Pick Three de Maryland, do Con-
9 55 junto de Dados 12 do ApêndiceB , ignorando o terceiro algarismo em
lO 45 cada li nha. Represente um homem por um algarismo par, e un:a mu-
lher por um algarismo ímpar. Com base nas 50 famílias simuladas,
11 3 ?.
qual é a probabilidade estimada de obter uma família com 2 meninas,
12 18 quando se escolhe aleatoriamente uma fanu1ia com dois filhos? Com-
N= )00 pare o resultado simulado com a probabilidade real de 0,25.
80 ESTAT ÍSTICA

3. A Telektronic Company fa brica te lefones cel ul ares em lotes de três Rh Grupo Resu ltado
e vem ex:Jerimentando uma taxa global de defeitos de 10%. Recor-
rendo aos resultados da loteria Pick Three.de Maryland, do Conjun- A +A
to de Dados 12 do Apêndice B, represente por O um aparelho defei- o +O
tuoso, e por 1,2,3, ... ,9os aparelhos sem defeito. Represente por li-
nha de três algarismos um lote simulado de telefones celulares e uti- /+ B +B
lize os 50 lotes simulados para estimar a probabilidade de ao menos +AB
um defeito em um lote. Compare a probabil idade esümada com o -A

-~~
resultado teórico de 0,271.
4. Refaça o Exercício 3 se a taxa global de defeitos é de 20% . .Repre- -o
sente por O e I os apare lhos defeituosos. Compare a probabilidade -B
estimada com o resultado teórico de 0,488.
5. Sabemos que, quando se joga um dado equilibrudo, a probabilidade ' "- AB - AB
de obter 1 é 1/6, ou 0,167. Qual é a probabi lidade estimada quando
f ig. 3-1 O Diagrama em árvore para tipas sanguíneos/fatores Rh.
se simula a jogada de um dado com os elementos da loteria Pick
Three de Maryland (Co njunto de Dados 12 do Apêndice B)? (Sug.:
Represente com os 150 algarismos as jogadas simuladas de um dado,
ignorando quaisquer resultados que não sejam I, 2, 3, 4, 5 ou 6.) bilidade de ganhar nessa loteria. Essa regra, que ex.ige res ultados
6. Um estudante responde ao aca~o cada uma das três questões de um igualmente prováveis, afirma que a probabilidade de um eve nto A
teste do tipo verdadeiro/falso. Utiuze os dados da Loteria de Maryland se obtém aplicando P(A) = s!n, onde sé o número de maneiras como
Pick Three (Conjunto de Dados 12 do Apêndice B) pma estimar a A pode ocorrer e n é o número total de resul tados possíveis. Na
probabilidade de exatamente uma resposta certa entre as três. loteria do estado de Nova Yorlc, há apenas uma maneira de ganhar
o grande prêmio: E scolher a mesma combinação de 6 números que
sai na loteria. Sabendo que há apenas uma maneira de ganhar, pas-
3-5 IE.xerdcics B: Além do faÓlsnco semos a determinar o número total de resultados, isto é, quantas
combinações de 6 números são possíveis. Relacionar todas as pos-
7. Com os dados da loteria Pick Threc de Maryland (Conjunto 12 do sibilidades uma a urna exigiria cerca de 4 a nos de trabalho. Podería-
Apêndice B), simule 50 famílias com 3 filhos cada. Represente os mos construir um diagrama em árvore, mas teria 120 milhas de
meninos por números pares e as meninas por números ímpares . aitura e violaria as regras do espaço aéreo. Devemos encontrar um
a. Ache o número médio de meninas em uma família. meio mais prático de calcular o número total de possibilidades .
b. Ache o desvio-padrão do número de meninas. Nesta seção introduziremos métodos eficientes para determinar tais
8. O segundo exemplo desta seção descreve um método para simttlar uma números. Voltm·emos ao problema da loteria após apresentannos
turma com 25 aniversários. Use Minitab, ou STATDISK, ou uma alguns princípios básicos. Começamos com a regmfimdamental
calculadora TI-83. ou qualquer outra fonte de números entre l e 365 da co11tagem.
(como uma lista telefônica) para simular uma turma. Ordene os resul-
tados e verifique se há ao menos dois aniversários coincidentes. Des-
creva detalhadamente o processo utilizado. No caso de ter utilizado ~-:: Regrd :FQndanie;ntdl .da:Ç()iifá'g~[n.'
Minitab ou STATDISK, obtenha uma cópia impressa dos resllltados.
(Veja também o Projeto para Computador no fi nal deste capítulo.) Dados dois eventos, o primeiro dos quais pode ocorrer ele
m maneiras distintas e o segundo pode ocorrer de n ma-
neiras distintas, então os dois eventos conjuntamente po-
3-6 Contagem dem ocorrer de m · n maneiras distintas.

Consideremos um problema de probabilidade cogitado seriamente


por milhões de americanos esperançosos. Quais são as chances de Por exemplo, se um médico laboratorista deve escolher alea-
ganhar na loteria? Na loteria do estado de Nova York, devemos toriamente I dentre os 2 tipos de Rh (positivo, negativo) e 1 dos
escolher 6 números entre 1 e 54. Se sair a mes ma combinação de 6 4 grupos sanguíneos (A, O , B, AB), o núme ro total de possibili-
números escolhida, o apostador ganhará milhões de dólares. Há dades é 2.4 = 8. Podemos ver a razão da multiplicação na Figu-
ainda alguns prênúos menores, mas são relativamente insignifican- ra 3-10, onde ilustramos as diferen tes possibi lidades por meio
tes. Poderíamos aplicar a Regra 2 da Seção 3-2 para achar a proba- de um d iagrama em árvore . A regra fundamental da contagem

Primeira Cidade Seg unda Cidade Tercei ra Cidade Cami nho

A~~
c
1
~·=::::::~
B ABC
ACB
3!= 6
-r
c BAC caminhos ~:::
:--·
A BCA dife rentes :-·.
possíveis ·:·

'c~;
B CAB
A CBA

Fig. 3· 11 Diagra ma e m árvore poro rateamentos.


~
---~-----==~------------ ............._....________..,.,.......,_,........
iffl',:;r--r~.. :·:•:•::·, ".~~....-~.:- ~~·...-:::-:-~:·:. · ::::.::'::~~:~!_:~~;;_~

'i

P robab ili dade SI

se estende facilmente a situações que envol vem ma is de três as cartas são misturadas aleatoriamente antes de serem postas
eventos, confonne ilu strado no exemplo a seguir. nos envelopes . Oual é a probabilidade de que ao menos uma
carta vá para o envelope correto? Embora à primeira visto a
probabilidade possa parecer pequen a , é efetivamen te de 0,632 .
Mesmo com um milhão de cartas e um milhão de envelopes, ela
EXEMPLO Ao planejarmos um computador, se defi nimos um con tinua sendo 0,632. A demonstração ultrapassa de muita o
byre como uma seqüência de 8 bits, e cada bit deve ser O ou 1, â mbito deste livro.
" quantos bytes diferentes são possíveis? (Costu ma-se usar um
byte para representar um caráter indi vid ual, como um a letra,
~
EXEM PLO Os proble mas de rateamento costumam envolver
um algarismo, ou um símbolo de pontuação. Por exemplo, em
um sistema de cod ificação a letra A é representada por ap iicações da regra do fatorial. A AT &T (American Telephone
01000001.) f: and Telegraph) deseja estabelecer rateamentos para chama-
t~ das telefônicas a través das redes mais curtas. A Federal Ex -
SOLUÇÃO Como cada bit só pode ocorrer de duas maneiras ~ press deseja efetuar suas entregas através elas rotas mai s cur-
(0 ou 1), e temos uma seqüência de 8 bits, o número tota l de ti tas. Suponha que um vendedor ele computadores deva visitar
possibilidades distintas é dado por 3 cidades distintas denotadas por A, B e C. Quantos caminhos
- pOSS 'IVeiS.
sao . ?
2 . 2 . 2 . 2 . 2 . 2 . 2 . 2 = 256
Há, pois, 256 bytes dis tintos possíveis. SOLUÇÃO Pela regra do fatorial, vemos que as 3 diferentes
cidades (A, B , C) podem ser dispostas de 3! = 6 maneiras
disti ntas. Na Figura 3-ll, vemos que há 3 esco lhas para a
EXEMPLO Ao planejar pesquisas, os entrevistadores procuram primeira cidade e 2 escolhas para a segund a. Com isto, resta
minimizar o efeito causado pela ordem em que as questões apenas l escolha para a terce ira cidade. O número de arran-
são apresentadas. (Isto porque algumas questões influenciam jos possíveis para as 3 cidades é, poi s, 3 · :2 · l = 6.
as respostas das questões que seguem.) Se o Gallup planej a
fazer uma pesquisa j unto a consumidores formulando 5 ques-
tões aos entrevistados, quantas versões distintas ela pesqu isa ~ iEXEMPLO Em virtude de seus bons resultados em um curso~

~ •ão "'""'ri" d' modo''"''"'' '"''"' M mdoo•çõ"1 ~ de estatística, o leitor foi contratado pelo Gallup e sua primeira miD
atribu ição é fazer uma pesqu isa na capital ele cada um elos 50 ·-
SOLUÇÃO Para qualquer pesqui sa em particular. há 5 esco- estados americanos. Ao planejar a viagem , o leitor quer de-
lhas poss1veis para a primeira questão, 4 escolhas restantes terminar o número ele caminhos distintos possíveis. Quantos
para a segunda questão, 3 escol has para a tercei ra questão, 2 são esses cami nhos?
~

I
para a quarta e apenas 1 escolha para a quin ta questão. O nú-
mero total de arranjos possíveis é, pois, r~ SOLUÇÃO Pela regra do fatoria l, sabemos que 50 elementos
podem ser orden ado~ de 50! maneiras difere ntes. Ou seja, as
5 · 4 · 3 · 2 · I = I 20
50 capitais ele estados podem ser dispostas ele 50! maneirns,
Isto é, o Gallup necessitaria de 120 versões da pesquisa para de forma que o número de cami nhos dife rentes é 50!, ou
i,i incluir mdas as ordenações possíveis.
30,414,093,201,713,378,043,612,608,166,064,768,844,377,
641,658,960,512,000,000,000,000
No exemplo pn::cedente, vimos que é possível dispor 5 ques-
Trata-se ue um número des comunalme nte grande, que bem
tões em 5.4.3.2.1 = 120 ordens possíveis. Essa solução particu-
merece o símbolo ! util izado para fato riais.
lar pode ser generalizada utilizando a definição do símbolo ! e a
seguinte regra do fatorial.
O exemplo precedente é uma variação ele um problema clás-
sico denominado prob/,•nw do cdixeim t•iajante. É especialmente
. Notqção interessante porque o grande nú mero de possibilidades mostra
que não podem o~ utilizar um comp utador para calcular a distân-
O símbolo fatorial! denota o produto dos inteiros positivos
cia de cada caminho. O tempo necessá1i o para o mais rápido
em ordem decrescente. Por exemplo, 4! = 4 · 3 · 2 · l = 24.
computador calcul ar o caminho mais curto possível é
Por definição, O! = J. (Muitas calculadoras têm a tecla I)
- - - - -·---- l,OOO,OOO,OOO,OOO,OOO,OOO,OOO,OOO,OOO,OOO,OOO,OOO,OOO,OOO
séculos
··:R~gr~~d~ 'F~t6'fial ·~>c:?·J~T '<"··.····:·:~'· <:'' - ' ... que é demasiada mente longo I Vêm sendo estu dadas outras ma-
ne iras eficientes para resolver tais proble mas.
Uma coleção de n objetos diferentes pode ser ordenada de
Com a re gra da conLagem do fatorial, determ inamos qu antas
IZ ! maneiras distintas. (Esta regra do fatorial traduz o fato
de que o primeiro objeto pode ser escolhido de rz maneiras diferentes maneiras de dispor um número de objetos são possí-
veis em algum tipo de seqUência ordenada. A regra do fatorial
diferentes, o segundo objeto pode ser escolhido de n - 1
nos diz quantos arranj os são possíveis quand o se tomam todos
maneiras distintas, e assim por diante.)
os 11 eleme ntos distintos ele um conjunto. Às vezes, entretanto,
desejamos selecionar apenas alguns dentre os n elementos. Se,
e m uma pesquisa em capitais elos estados, temos te mpo para vi-
A Secretária Aleatória sitar apenas quatro capi tais, o número ele caminhos difere ntes
Eis um problema clássico de probabilidade: Uma pessoa expede possíveis é 50 · 49 · 48 · 47 = 5.527.200. Outra manei ra de ob-
50 cartas e envelopes diferen tes para 5 0 pessoas d istintas, mas ter este mes mo resu ltado é calcu lar
82 EsTATÍSTICA

-
50!
46!
= 50 . 49 . 48 . 47 = 5.527. 200
Vamos observar, nesse cálculo, que os fatoriais 46! e 50! (parte)
se cancelam, restando apenas os fa tores 50, 49, 48 e 47 no nu-
merador. De modo geral, se dispomos de n elementos diferentes
I npr = (
n!
n - r) ! = (30 - 6).I
30!
= 427.518.000
Como há um total de 427.51 8.000 programações, torna-se
impossí vel considerar cada uma individualmente.

e queremos escol her r dentre e les, o número de aJTanjos possí- A regra dos aJTanj os pode ser encarada como uma extensão
veis é n!/(n - r)!, como em 50!/46!. Essa generalização é co- da regra fundamental da contagem. Aplicando-a ao exemplo
nhecida corno regra dos arranjos. precedente, temos o seguinte: Com 30 shows disponíveis, e com
a estipuláção de que devemos escolher 6 deles, sabemos que há
30 escolhas p ara o primeiro tempo, 29 escolhas para o segundo
A Segurança nos Números tempo e assim por diante. O número total de arranjos possíveis
é, pois,
Alguns hotéis a bandonaram a tradicional cha ve d os quartos,
substituindo-o por umo chove eletrônica com um código 30. 29. 28 . 27 - 26. 25 = 427.518.000;
numérico. Um computador centrei mudo o código de acesso a
mas 30 · 29 · 28 · 27 · 26 · 25 é, na verdade, 30! -;- 24! [ou 30!
um quarto assim q ue um hóspede deixa o ho tel. Umo chave
eletrônico típico tem 32 posições diferentes, que ou são -;- (30 - 6) !]. De modo geral, quando selecionarnos r dentre n
perfuradas ou permanece m intocados. Essa configuração obj etos, o número de aJTanjos possíveis é n! -;- (n- r)! , o que é
comporta 2 32 , ou 4.294.967.296 códigos d iferentes expresso pela regra dos arranjos.
passiveis, não sendo, assim, prático fabricar um conjunto Às vezes devemos determinar o número de arranjos, quru1do
completo de choves ou tentar forçar uma entrada ilegal por
tenta tivo-e-erro. alguns dos elementos são idênticos entre si. Aplica-se então a
segui nte variante da regra dos arrarrjos.

~eJ~~~~~~R~,:~~~):~ :\~Y.~nt~;"~:5:.•~t:;~~,~~~J,j~S{:.~t:.c~. ;:},· Pesquisas Sens íveis


Os entrevistados às vezes relutam em responder perguntas sobre
O número de arranjos (ou seqüências) de r elementos es- tópicos considerados delicados, como sexo, furto de um
colhidos dentre n elementos (sem repetição) é empregado etc. Stanley Warner (Universidade de York, Ontário)
elaborou um esquema que leva o resultados mais precisos em
nl tais casos. Como exemplo, pergunte a um empregado se e le já
p =---
" r (n - r )! roubou no passado, pedindo-lhe também que jogue uma moeda.
Os empregados devem responder não se e les não furtaram e o
moeda dà "cara". Em coso contrário, devem responder sim . Os
empregados tendem a ser honestos em suas respostas porque o
Algumas calculadoras calculam automaticamente os valores jogado do moeda ajuda a preservar suo p rivacidade. Pode-se
então recorrer ó teoria dos probabilidades a fim de obter
de ,P,_Na TI-83, por exemplo, introduzimos o valor de n e aci- resultados mais precisos.
onamos MATH, PRB, np r e o valor de r. Mesmo que sua cal-
culadora não tenha tal dispositivo, ainda assim é fácil calcular

: :,.~.~ejj;rJ~:f);"~r~~t\J.~i;('~j-~íj~_?;f~{~~~iw~;l~ill~j!~~f:9~}D=~
nt/(n - r)! utilizando a tecla do fatorial identificada com!.
É importante termos em mente que a regra dos arranjos exige
as seguintes condições:
Se há n elementos com 1! 1 iguais, 17.-z iguais, ... , nk iguais, o
• Devemos ter um total de n elementos diferentes. (A regra
número de permutações (aJTanjos com a totalidade elos ele-
não se ap lica se alguns dos elementos são idênticos.)
mentos) de todos os n elementos é
Devemos selecionar r dentre os n elementos (sem repetição).
• Ordenações distintas dos mesmos elementos devem ser nf
consideradas arranjos diferentes. n1 ! n 2 ' ··· n,!
Quando empregamos os termos arranjos ou següências, está
implícito que a ordem deve ser Levada em conta. As letras ABC
comportam seis arranjos distintos: ABC, ACB, BAC, BCA, EXEMPLO Os exemplos clássicos da regra dos arranjos são os
CAB, CB A. (Mais adiante estudaremos as combinações, em que que mostram que as letras da palavra Mississippi comportam
a ordem dos elementos não é levada em conta.) No exemplo que 34.650 permutações distintas, enquanto as letras da palavra
segue. pede-se para achar o número total de seqi.iências diferen- statistics comportam 50.400 permutações. V amos considerar as
tes possíveis. Isso sugere a aplicação da regra dos arranjos. letras DDDDRRRRR incluídas em uma discussão do teste de
repetições pm-a aleatoriedade (Seção 13-7). As letras represen-
tam uma seqüência de coca-colas tipos dieta (D) e regular (R).
EX~ MPLO No planejamento de um programa noturno da rede

I de televisão NB C, devem ser escolhidos 6 shows dentre 30


disponíveis. Quantas programações diferentes são possíveis?
De quantas mm1eiras podemos dispor as letras DDDDRRRRR?

SOLUÇÃO Na seqüência DDDDRRRRR temos n = 9 elemen-


tos, com n 1 = 4 iguais e n 2 = 5 iguais. O número de permuta- ...
SOLUÇÃO Devemos selecionar r = 6 dentre n = 30 progra- ções (a1Tanjos com a totalidade dos elementos) é:
mas disponíveis. Aqui a ordem tem importância, porque os
n! 9!
espectadores são outros mais tarde. Como a ordem influi, ------- = ----- = 362.880 126 :.:
"
devemos calcular o número de aJTanjos, como segue: nt! n2 ! 4! 5 ! 2880
[;,i
;j
"
~1
'-~
•'~"3
õ'i --~-,~- --~- .---- - - - ·"'·--- .-.~ .. ~---..................,_.;-_,-~ ···--- --- ·· - -~ "'""'~· ....~..--;:-;:-~ .

Probabilidade 83

i Na Seção 13-7levamos em conta a existência de 126 seqüên-


cias diferentes possíveis deDDDDRRRRR; agora vemos como
se obtém esse resultado.
an ualmente, um presidente, um v ice-presidente e um secre-
tário.
a . Na eleição do comitê de edifícios e campus, quantos co-
mitês diferentes, compostos de 3 pessoas, pode m ser for-
O exemplo precedente envolveu n elementos, cada um deles mados?
pertencente a uma de duas categorias. Quando há apenas duas b. Quando o Conselho elege o presidente, o vice-presidente
categorias, podemos estipular que x elementos são iguais e os e o secretário, quantas chapas são possíveis?
o utros n - x são tam bém iguais, de modo que a fórmu la das
permutações se simplifica para SOLUÇÃO Observe qu e a ordem é indiferente na eleição do
comitê dos edifícios e campus. Mas na eleição dos dirigen-
n! tes, as diferentes ordens são consideradas distintas.
(n- x)! x!
a . Trata-se aqui do número <;!e combinações de r = 3 pessoas
Esse resultado particular será utilizado em experi mentos bino- a serem selecionadas dentre 9. Temos:
nuais, a serem introduzidos na Seção 4-3.
Quando queremos selecionar r elementos de um conjunto de n! 9! 362.880 = 84
ll elementos distintos sem levar em coma a ordem, estamos coo-
c3 -- (n -r)! r!
= (9 - 3)! 3!
9 4320
siderando combinações, e não arranj os. Ou seja, quando conta-
mos separadamente ordenações diferentes dos mesmos ele- b. Aqui, desejamos o número de seqUências (ou permutações)
mentos, temos um problema de arranjos; mas quando as de r = 3 pessoas a serem escolhidas dentre as n = 9. Te-
diferentes ordenações não são contadas separadamente, te- mos :
mos um problema de combinações, c podemos aplicar a regra Jt!
seguinte: 9p3
9! = 362.880 = 504
(n - r)! (9 - 3)! 720
Há 84 possibilidades de formação de comitês dife rentes com-
· R~g;a :~~:fs. Çó:mhi9.2féiÕ.~S" i~~ ·· postos de 3 membros, mas há 504 chapas diferentes.
O nú mero de combinações de relementos extnúdos de um
conjunto de rz elememos diferentes é Voltaire Vence a lo~eria
nl
C = - -- Em 1729,o filósofo francês Voltaire ficou rico elaborando um
" ' (n - r) I r ! esquema para vencer a loteria de Pa ris. O governo havia
instituído uma loteria para compensar a desva lorização das
apólices munici pa is. Como o c idade acrescen tou gran des
quan tias, resultou que o valor dos prêmios ultrapassava o preço
Algumas calculadoras estão prepm·adas pm-a calculm· au.tomati- de todos os bilhetes. Voltaire formou um gru po que comprovo
camente .,C,.. Com a TI-83, por exemplo, introduzimos o valor todos os bilhetes do loteria de um mês e ganh ou durante mais
de 11, acionamos ~1ATH , PRB , nCr, e introduzimos r . de um ano . Um apostador do loteria do estado de Novo York
ten tou gan har uma parcela de um prêmio excepcionalmente
É importante tem10s em mente que, ao aplicar a regra das
grande, resultante do folio de ganhadores em sorteios prévios.
combinações, valem as seguintes condições: Ele pretendia emitir um cheque de 6.135.756,00 dólares
abrangendo todas as combinações, mos o estado não a ceitou,
• Devemos ter um total de' n elementos distintos . sob a alegação de que a natureza da loteria teri a sido
Devemos selecionar r dentre os n elementos (sem repetição). alterada.
• Devemos considerar como uma mesma comb inação
ordenamentos diferentes dos mesmo:: clei:v::r-tos.

Como a distinção entre a regra dos arranjos e a regra das com-


binações nem sempre é clm·a, damos a seguir um exemplo que
enfatiza essa diferença.

Quantas Embaralhadas?

Após extensos pesquisas, o ma temático de Harvard , Persi Dioconis,


constatou serem necessárias sete em baralhados para que se tenha
uma mistura completa das cartas de um baralho. A mistura é
completa no sentido de que todos os arranjos possíve is são
igualmente prováveis. Mais de sete em baralhadas não têm efeito
significativo, e menos de sete não são suficientes. Os crupiês dos
cassinos raramente e mbaralham sele vezes, de modo que os
baralhos nã o ficam misturados adequadamente. Alg uns jogadores As técnicas de contagem apresentadas nesta seção costumam
profissionais conseguiram tirar vantagem desse fato. ser usadas em problemas de probabilidades . Os exemplos seguin-
tes ilustra m tais aplicações.
EXEMPLO O Conselho Curador da faculdade do autor tem 9

111 membros. Cada ano é eleito um comitê de três pessoas para


supervisionar os prédios e o campus. São eleitos também,
R E)(IEMPLO Na loteria elo estado de Nova York, um apostador
~ ganha o primeiro prêmio se ace rtar a combinação de 6 núme-
84 ESTATÍSTICA

ros extraídos do conjunto de 1 a 54. Determine a probabilida- Há n elementos diferentes e apenas alguns deles entrarão
de de um apostador ganhar. (O jogador não precisa escolher em arranjos d istintos? Em caso afirmativo, calcuk ,,?,.
os 6 números na mesma ordem em que são extraídos; a or- • Há n elementos com alguns deles idênticos uns aos outros,
dem é irrelevante.) e devemos achar o número total de arranjos (permutações)
com todos esses n elementos? Em caso afirmativo, utilize
SOLUÇÃO Como devem ser extraídos 6 números diferentes a expressão seguinte, onde n 1 elementos são iguais, n 2 são
de um total de 54 possibilidades distintas, o número total de · iguais etc.
combinações é
n!
54! 54! nl! n2 ! . . . nk!
54c6 = <54 _ 6 ) 1 61 = 481 61 = 25.827.165
• Há n elementos diferentes, dos quais alguns devem ser
Jogando apenas em uma combinação, a probabilidade de o escolhidos, não importando a ordem de escolha? Temos
apostador ganhar é de 1125.827.165. então as combinações dos n elementos tomados r de cada
vez, e devemos calcular ,C,..
No exemplo precedente, vimos que a probabilidade de ganhar
na loteria de Nova York é de apenas 1/25.827.165. Na Seção 3-
2, vimos que a probabilidade de ser atingido por um raio em um 3-6 Exen:ícios A: Habilidades e Conceitos
ano é de 11701.000. A comparação dessas duas probabilidades Básicos
mostra que, em determinado ano, há uma chance muito maior
de ser atingido por um raio do que de ganhar na loteria com uma Nos Exercícios 1-16. calcule a expressão dada.
única aposta. Naturalmente, é possível aumentar a chance de
ganhar na loteria adquirindo muitos bilhetes - uma estratégia L 61 2. 11! 3. 100!/97! 4. 85 !/82!
que não parece aconselhável. 5. (10- 4 )! 6. (90- 87)! 7. 6 c4 8. 6 p4
--,
I
9. 12?9 10. 10 C 9 11. 40 c 6 12. 40? 6
13. nCO 14. ,P0 15. npn 16. ,C,
--, EXEMPLO Um despachante da UPS envia um caminhão a 8
localidades diferentes. Se a ordem das entregas é aleatória, 17. O autor utiliza um sistema de segurança doméstica ADT que tem
--,
determine a probabilidade de o percurso resultante ser o me- um código consistindo em 4 algarismos (0, l, ..., 9) que deve ser
nor possíveL introduzida na seqüência correta. Os algarismos podem ser repeti-
dos no código.
SOLUÇÃO Com 8 localidades, há 8!, ou 40.320 percursos a. Quantas passibilidades distintas existem?
possíveis. Entre essas 40.320 possibilidades diferentes, ape- b. Se um ladrão leva 5 segundos para tentar um código, quanto
nas dois percursos são mínimos (na verdade, o mesmo per- tempo levaria para tentar todas as possibilidades?
curso, em direções diferentes). Portanto, há uma probabilida-
de de apenas 2/40.320, ou 1120.160, ou 0,0000496 de o per- 18. Há 12 membros na diretoria do Hospital Geral de Newport.

' curso escolhido ser o menor possível. a. Se eles devem eleger um presidente, um primeira vice-presi-
dente, um segunda vice-presidt:nte e um secretário, quantas
'-11 chapas de candidatos são possíveis?
Regiões com Diferentes Códigos Telefônicos b. Se devem formar um subcomitê de ética com 4 membros, quan-
!:
tas são as possibilidades?
Periodicamente, as companhias Ielefõnicas dividem regiões com
i: um único código de óreo em sub-regiões com dois ou mais 19. Cada número de inscrição no seguro social é uma seqüência de 9 ~

--, códigos diferentes, porque o número crescente de áreas de fax e


de internei praticamente exauriu os números que podem ser algarismos. Qual é a probabilidade de serem gerados aleatoriamente
enquadrados em um único código. Um número de telefone de 9 algarismos, obtendo-se o seu número de inscrição?
sele algarismos não pode começar com O nem l , mas levando 20. Uma fechadura típica do tipo de "combinação" abre com a seqüên-
,. em conta todas as outras possibilidades, obtemos 8 · lO · l O ·
1O· 1O· 1O · 1O = 8.000.000 de números distintos passiveis!
cia correta de 3 números entre Oe 49. Quantas seqüências são pos-
síveis? (Um número pode ser usado mais de nma vez.) Tais seqüên-
Mesmo assim, a cidade de Nova York, tendo conseguido
sobreviver 80 anos com um único código de área, 2 12, c ias são efetivamente combinações ou arranjos?
recentemente foi subdividida em duas áreas com códigos 212 e 21. Ao fazer um teste de repetições para aleatoriedade (Seção 13-7),
718. Muitos outras regiões também foram subdivididos dessa obtém-se os sexos dos pesquisados na ordem consecutiva seguin-
l forma.
te: HHHHHHHHHHMMMMMMMM (H = homem, M = mu-
lher). De quantas maneiras podemos ordenar estas letras?
22. Um percurso de entregas da Federal Express deve incluir paradas
Nesta seção apresentamos cinco processos diferentes de con-
em 5 cidades.
tagem. Ao decidir qual iremos aplicar, devemos levar em conta
vários aspectos relevantes. O resumo a seguir pode ajudar. a. Quantos percursos diferentes são possíveis? ,.
b. ' Se a percurso é escolhida aleatoriamente, qual é a probabilida-
.-.
Há uma seqüência de eventos em que o primeiro pode :·:
de de as cidades serem escolhidas em ordem alfabética?
ocorrer de m maneiras, o segundo pode ocorrer de n ma- ..'·':~:,
!·•

~
neiras e assim por diante? Em caso afirmativo, aplique o 23. Ao tentar decifrar uma mensagem interceptada da Líbia, um téc-
princípio fundamental da contagem e multipliquem, n , etc. nico decide relacionar todos os arranjos possíveis da palavra MGB -
• Há n objetos distintos e todos eles entrarão nos diferentes
arranjos? Em caso afirmativo, aplique a regra do fatorial e
TQRS: Quantos arranjas distintos há?
24. a . Se um casal planeja ter 8 filhos (é possível), quantas seqüên-
~l
!;1
r9
calcule n!. c ias de sexos são possíveis? :;~
I' ~~
~j
•'·l
~j
~------- ........... - - ----
--~~~----------------_., -..-- ........-....__...,...,....,....__..,.,._"'~"--""'...,....,'=....~~;;;"::·:-:·· -:-·--- ~~:-~::::.: ;::··z:7:~:::::~:~~~·;:~::::-=:-- :-:.~ .
:!
'
!
I

Probabilidade 85

b. Se um casal tem 4 filhos e 4 filhas, quantas seqüências distin- 34. O diretor de programação da TV ABC decidiu apresentar shows
tas de sexos são possíveis? de 30 minutos entre 8 horas e 10 horas da noite às segundas-fei-
c. Com base nos resultados das partes (a) e (b}, qual é a probabi- ras. Se ele dispõe de 22 shows, quantas programações são possí-
lidade de um casal com 8 filhos ter 4 meninos e 4 meninas? veis para esses intervalos nas segundas-feiras?
25. A loteria do estado de Nova Y ork e as loterias de alguns outros 35. Em um caso de discriminação de idade contra a Darmin, Inc., fi-
estados costumavam prever a escolha de 6 números entre 1 e 40 cou provado que, dos últimos 40 candidatos a emprego, apenas os
inclusive. 8 mais jovens foram contratados. Determine a probabilidade de
escolher as 8 pessoas mais jovens em um grupo de 40 pessoas. Com
a. Quantas escolhas diferentes são possíveis? base no resultado, parece estar havendo discriminação de idade?
b. Escolhendo 6 números, qual a probabilidade de ganhar selecio- 36. Dá-se a seguir um trecho de Tire Mail Who Cast Two Shado ws, de
nando os mesmos números sorteados? Carol O'Connell: "A menina tinha apenas os números escritos a
c. Quais são as chances contra ganhar em tal loteria? tinta na palma de sua mão ---· todos exccto os quatro últimos desa-
26. Considere a mesma loteria do Exercício 25. Qual é a probabilida- pareceram cm uma mancha de sangue ... Ela devia colocar as mo-
de de ganhar, se as novas regras agora exigem que o apostador edas nos telefones públicos e discar três números não tentados e
escolha os 6 números na mesma ordem em que sfio sorteados? em seguida os quatro que ela sabia. Se uma mulher atendesse, ela
27. No Directory of Tu11es and Musical Themes, de Denys Parson, diria, 'Sou Kathy. Estou perdida'." Se cada chamada custa 25 cen-
relaciona-se as melodias de mais de 14.000 canções, de acordo com tavos para Kathy c ela tenta todas as possibilidades excero as que
o esqnema seguinte: A primeira nota de cada canç5o é representa- começam com O ou 1, qual é seu desembolso total?
da por um asterisco(*}, e as notas sucessivas sf!o representadas por 37. Após testar a presença de radônio em 12 residências, um pesqui-
R (repetir a nota anterior}, U para uma nota acima. ou D para uma sador começou a descontiar do seu aparelho de teste, porque o ní-
nota abaixo. A Quinta Sinfonia de Beethoven começa com *RRD. vel de radõnio medido em cada residência era sempre superior ao
As melodias clássicas são representadas por suas primeiras J 6 precedente. Isto é, os 12 resultados se dispunham em ordem ascen-
notas. Com esse esquema, quantas melodias clássicas é possível dente. Se as residêrrcias foram selecionadas aleatoriamente, qual é
representar? a probabilidade de:.se arranjo particular? Com base no resultado.
28. O Departamento de Pesca solicitou auxílio à Bel! Laboratories para justifica-se sua desconfiança quanto ao aparelho?
determinar a rota mais curta para obter amoo.tras de locais no Gol- 38. Um trem de carga deve ter 12 carros de carvão, 5 carros cniTega-
fo do MéYJco. Quantas rotas diferentes s~o possíveis, se as amos- dos de madeira e 4 carros-tanque p:~ra transporte de combustível.
tras d(!vcm ser obtidas de 11 locais? Quantos arranjos dJstintos são possíveis?
29. Deve-se fonnar um comitê de 4 membros selecionados dentre 50 39. O repórter Paul Wiseman ele USA Today descreveu as velhas nor-
agente~; do FBI que não estejam trabalhando cm um projeto espe-
mas para códigos de área para telefone escrevendo sobre "códigos
cial.
de área possíveis com I ou O como segundo algarismo. (Excluí-
dos: códigos terminando em 00 ou 11, para chamadas gratuitas,
a. Quantos comitês diferentes são possíveis? serviços de emergência e outros casos especiais.)" Deveriam ser
b. :k as esco lha~ são aleatórias, qual é a probabilidade de obter excluídos também os códigos começando com O ou l. Quantos
<,s 4 agentes que estejam há mais tempo cm serviço? códigos diferentes seriam possíveis sob aquelas velhas normas?
30. Começamos a suspeitar quando um pesquisador de genética selc- 40. Há 22 membros no comitê de orçamento des ignado dentre 100
ciona aleatoriamente um grupo de 20 recém-nascidos e obtém con- membros do senado americano. Quantos comitês diferentes de 22
sistentemente lO meninos e I Omeninas. O pesquisador explica que membros podem ser formados com os 100 senadores?
é comum obtermos lO meninos e 10 meninas em tais cüsos.
a. Sdecionados aleatoriamente 20 recém-nascidos, quantas se- 3-6 Exercícios la: Aném do !Básõco
qiiências diferentes de sexo são possíveis?
b. De qt~antas m<'ltÚras 10 meninos e 10 meni n;ts podem ser dis- 41. Uma regra comum de programação de computador é que os no--
posto~ rm sec1üêr.cia?
mes de variáveis elevem ter de I a 8 caracteres. O piimeiro deve
c. Qual é a probabilidade de 1O meninos e JO meninns cm 20 cri- ser exclusivamente literal (qualquer uma das 26 letras), e os de-
anças sclecionadas aleatoriamente? mais podem ser qualquer uma das 26 letras ou qualquer um dos 10
d. Com base nos resultados precedentes, concorda com a alega- algarismos. Exemplos: A, BBB. e M3477K. Quantos nomes dife-
ção do p~quisador, que é comum obter 1O meninos c lO meni- rentes é possível formar?
nas em uma escolha aleatória de 20 crianças'! 42. a . Em uma reunião de cinco gerentes, se cada um deles troca aperto
31. A Detroit Music Company adquiriu os direitos de 15 canções di- de mão com cada um dos outros exatamente uma vez, qual o
ferentes e pl.;neja lançar um novo CD com 8 delas. Admitindo que número total de cumprimentos?
a ordem das c.mções seja importante, quantos CDs diferentes são b. Se 11 gerentes trocam apertos de mão com cada um dos demais
possíveis? exatamente uma vez, qual o número total de cumprimentos?
32. Em um departamento de montagem da Ford Motor Company, 8 c. De quantas maneiras 5 pessoas podem sentar-se em torno de
peças d'ferentes devem ser montadas cm um carro, mas a ordem uma mesa redonda? (Admita que, se todos se movem para a
de montagem é indiferente. O gerente decide detenninar a seqüên- direita, a disposição dos assentos continua a mesma.)
cia mais eficiente, tentando todas as possibilidades. Quantas se- d. De quantas maneiras 11 pessoas podem sentar-se em tomo de
qüências distintas são possíveis? uma mesa redonda?
33. a. Quantos códigos CEP são possíveis, se cada código é uma se- 43. Muitas calculadoras ou computadores não podem calcular direta-
qüência de 5 algarismos? mente valores de 70! ou superiores. Para n muito grande, n! pode
b. Se U!l1 computador gera aleatoriamente 5 algarismos , qual é a ser aproximado por n! = 10", onde o valor de K é dado por K = (11
probabilidade de gerar seu código CEP? + 0,5)logn + 0,39908993 - 0,43429448n.
86 EsTATÍSTICA

a. Calcule 50! utilizando a tecla fatorial de uma calculadora e tam- Após a Seção 3-2, passamos a considerar eventos compostos, que
bém pela aproximação dada acima. envolvem mais de um evento. De modo geral, associamos a conj unção
b. O Departamento de Pesca solicitou ajuda a Bell Laboratories para ou à adição, e a conjunção e à multiplicação. Tenhamos sempre em mente
as seguintes considerações básicas.
detem1ioar o menor percurso para obter amostras de 300 locali-
dades no Golfo do México. Há 300! rotas diferentes possíveis. • Se, em uma prova, queremos a probabilidade do evento A ou B ,
Calculando-se 300!, quantos algarismos aparecem no resultado? devemos aplicar a regra da adição, tendo, porém, o cuidado de não
44. Os computadores podem "pensar"? De acordo com o teste de contar qualquer resultado mais de uma vez.
• Ao calcular a probabilidade de o evento A ocorrer em uma prova e
Turing;pode-se admitir que um computador pensa se, q~ando uma
o evento B ocorrer em outra prova, devemos aplicar a regra da
pessoa se comunica com ele, ela crê estar se comunicando com
multiplicação: Mu ltiplicar a probabilidade do evento A pela pro-
outra pessoa, e não com um computador. Em um experimento no babilidade do evento B. C11idado: Ao calcular a probabilidade do
Boston's Computer Museum (Museu dos Computadores de Bos- evento B, leve em conta o fato ele o evento A já ter ocorrido.
ton), cada um dentre 10 juízes se comunicou com 4 computadores
Em alguns problemas de probabilidade, o maior obstáculo é determi-
e com 4 outras pessoas, devendo distinguir entre eles.
nar o número de resultados possíveis. A última seção deste capítulo
a . Suponha que o primeiro juiz não possa distinguir entre os 4 abordou as seguintes técnicas de contagem, resumidas no final ela Se-
computadores e as 4 pessoas. Se esse juiz faz suposições alea- ção 3-6:
tórias, qual é a probabilidade de identificar corretamente os 4
• Regra fundamental da contagem
computadores e as 4 pessoas?
• Regra do fatoria1
h. Suponha que nenhum dos I Ojuizes possa distinguir entre com- • Regra dos arranjos (quando todos os elementos são diferentes)
putadores e pessoas e que, assim, faze m suposições aleatórias. • Regra dos arranjos (quando alguns elementos são iguais)
Com base no resultado da parte (a), qual é a probabilidade de • Regra das combinações
que todos os 10 jtúzes façam suposições corretas? (Este evento
Grande parte do assunto dos·capímlos que seguem se refere a infe-
nos levaria a concluir que os computadores não podem "pen- rência estatística com base em probabilidades. Como exemplo da abor-
sar", mas pelo critério de Turing podem.\ dagem básica utilizada, consideremos o teste da atirmação de que uma
moeda usada em um jogo de cara-ou-coroa é equilibrada. Se jogamos a
moeda 10 vezes e obtemos 10 caras, podemos inferir desse resul tado:

Vocabulário 1. A moeda é equilibrada, e a seqüência de 1Ocaras seguidas é um acaso.


2. A moeda não é equilibrada (é viciada).
.... experimento evento composto
evento regra da adição A decisão do estatístico sobre qual inferência é correta se baseia na pro-
evento simples mutuamente excludentes babilidade de obter 10 caras seguidas, a qual, neste caso, é tão pequena
espaço amostral regra dos eventos (1/1024) que a inferência de moeda viciada é a melhor escolha. Pode-
aproúmação de uma complementares mos ver aqui o papel im portante desempenhado pela probabilidade nos
probabilidade por freqüência diagrama em árvore métodos-padrão de inferência estatística.
- I· relativa eventos independentes
i: abordagem clássica da eventos dependentes
probabilidade regra da multiplicação
le i elos grandes números probabilidade condicional rExerrddos de Revis5Io
amostra aleatória de um simulação
elemento regra fundamental da contagem Nos Exercícios 1-8, utilize os dados da Tabela 3-3, que resumem
_,
I amostra aleatória símbolo fatorial resultados de um estudo de 1000 mortes, selecionadas aleatoria-
___,, complemento regra do fatorial mente, de homens com idade de 45 a 64 (com base em dados de
probabilidade subjetiva regra dos arranjos "Chartbook on Smoking, Tobacco and Health," USDHEW).
chances contra regra das combinações
chances a favor 1. Se, dos 1000 indivíduos, l é selecionado aleatoriamente, determi-
ne a probabilidade de se obter um fumante.
2. Se, dos 1000 indivíduos, 1 é selecionado aleatoriamente, determi-
ne a probabilidade de se obter um fumante ou alguém que tenha
Revisão morrido em conseqüência de doença cardíaca.
3. Escolhidos aleatoriamente dois indivíduos. determine a probabili-
Neste capítulo introduzimos os conceitos básicos da teoria da probabi- dade de ambos terem morrido de câncer.
lidade. Na Seção 3-2 apresentamos as definições e a notação bás icas, 4. Escolhido aleatoriamente um indivíduo, determine a probabilida-
inclusive a representação de eventos por letras como A. Definimos as de de obter um não-fumante que tenha moiTido de câncer.
... ·. .i
probabilidades de eventos simples como 5. Escolhido aleatoriamente um indivíduo, determine a probabilida-
de de obter alguém que tenha morrido de câncer ou de doença car-
P(A) = número de ocorrências de A (f ..• . · ) díaca.
requencta re 1at1va
número de repetições do experimento
número de ocorrências de A
P(A)
número de eventos simples diferentes TABIELA 3 - 3
= !_ (para resultados igualmente prováveis) Causa da Morte
n
Câncer Doença Cardíaca Outros
...,.
Notamos que a probabilidade de um evento impossível é O, a probabili-
dade de um evento certo é l, e que, para qualquer evento A , O~ P(A) ~ ::~
Fumante 135 3 10 205
l. Também, Ã denota o complemento do evento A, ou seja, Ã indica Não-fumante 55
•':
155 140
( que o evento A não ocorre.
''
,,.

..:\..
q----

Probabilidade 87

6. Escolhidos aleatoriamente três indivíduos diferentes, detem1ine a Idade Número


probabilidade de serem todos fumantes.
7. Escolhido aleatoriamente um individuo, determine a probabiiida- 0-4 3.843
de de se tratar de um fumante, dado que morreu de câncer. 5-14 4.226
8. Escolhido um indivíduo aleatoriamente, determine a probabilida-
de de obter alguém que tenha morrido de câncer, dado que se tra- 15-24 19.975
tava de um fumante. O fumo e a incidência de câncer são eventos 25-44 27.201
independentes? Por que sim ou por que não?
9. Ao delinear um processo de fabricação para um dispositivo de a r- 45-64 14.733
mazenamento de memória de computador, a configuração inicial 65-74 8.499
tem um resultado positivo de 16%. Isto é, 16% dos dispos itivos são
75 UU
aceitáveis, e 84% são defeituosos . Fabricados 12 desses dispositi-
vos, qual a probabilidade de obter ao menos I qu e seja bom? Se é mais 16 .800
de grande importância obter ao menos I dispositivo bom para fins
de teste, a probabilidade resultante é adequada? d . Escolhida aleatmiamente uma das 95 .277 idades, determine a
10. Com base na experiência passada, um estudante que l'ai às aulas proba bilidade ele ser inferior a 15 ou estar entre 5 e 44.
de carro sabe que, quando ele excede o lin1ite de velocidade, tem e. Escolhidas aleatoriamente duas idades da tabela, determine a
uma chance de 2% de ser multado. Q ual a probabilidade de n~o probabilidade de ambas estarem entre Oe 4 anos.
ser multado, se e le excede o limite em todos os !50 dias do ano 2. O diagrama em caixa a seguir ilustra as alturas (em polegadas) de
letivo? Se esse estudante não pode arcar com o custo do aumento um grande conjunto ele mulheres selecionadas aleatoriamente.
do seguro em função da multa, que decisão a probabilidade resul-
tante sugere? 71,1
11. A diretoria do Jefferso n Valley Bank tem 8 membros.
a. Formado um comitê de 3 membros mediante seleção aleatória,
qual a probabilidade de serem esco lhidos os 3 mais ricos? 65,0
b. Se a dÍretoria deve eleger um presidente, um v ice-presidente e ~
um secretário, qu antas chapas são possfveis? -63,6
12. A New England Life Insurance Company emite apólices temporá-
rias por l ano cm nome de 12 homens, mdos com 27 anos de idade. --:
Com base em dados do Departamento de Saúde e Recursos Huma- 62,2
nos, cada um deks tem 99,82% de chance de sobreviver por um ano.
Qual é a probabi lidade de todos os três sobreviverem um' ano?
13. Ao apostar em par na roleta, há 38 resultados igualmente prová- 56,1
veis, mas somen te 2, 4, 6, ... , 36 são gan hadores.
a. Determine a probab ilidade de ganhar ao apostar em par. a. Escolhida aleatoriamente uma dessas mulheres, determine a
b. Detennine a chance contra o ganho ao apostar em par. probabilidade de sua altura l!Star entre 56,1 e 62,2 polegadas.
c. Os c1~sinos pagam apostas vencedoras de aco rdo com chances b. Escolhida aleatoriamente uma dessas mulheres, determine a
descritas como 1:1. Qual é seu lucro líquido se aposta $5 em probabilidade ele sua altura ser inferior a 62.2 ou superior a 63,6
par e ganha?
polegadas.
14. Uma qu~~tão de um tes te de história exige que. 5 eventos sejam c. Escolhidas aleatoriamente duas mulheres, determine a proba-
relacionados na mdcm cronológica adequada. Escolhida uma or- bilidade de ambas terem altura entre 62,2 e 63 ,6 polegadas .
dem aleatória, qual a probabi lid ade de ser a ordem correta? 3. Realizou-se uma pesquisa das relações entre os diâmetros, altu-
15. Um entrevistador afirma que 12 e leitores foram selecion ados a le- ras e volumes de certo tipo de cereje ira na Allegheny Nationa l
atoriamente de uma população de 200.000 eleitores (30% dos quais Forest, na Pennsylvania. O gráfico ramo-e-folhas abaixo repre-
são republicanos), e todos os 12 eram republicanos. O entrevista- sen ta os diâmetros (em centímetros) de uma amos tra de 15 árvo-
dor afirma que esse resultado pode ocorrer facilmente por pura res util izadas no es tudo (com ba~e em dados do Minirab Swdenc
chance. Detennine li probabilidade de obter 12 republ icanos quando Handbnnk).
se escolhem altatoriamente I 2 e leitOLes dessa população. Com base ~i.) :i 7 'o
no resuii.,tlo, :1 afinnação do e ntrevistador parece correta?
16. Em um:1 turma de estatística de 8 mulheres e 8 homens, formam- cl. 00123447
se aleatoriJmentc 2 grupos de 8 estudantes. Qua·l a probabilidade 1~. 099
de todos serem mulheres no primeiro grupo e todos serem homens
no segundo grupo? (Sug.: Determine o nú mero de permutações de \3. 3
MMMMMMMMHHHHHHI-IH.) a. Detennine o diâmetro médio.
b. Determine o diâmetro mediano .
c. Ache o desvio-padrão elos diâmetros.
d. Ache a variância dos diâmetros .
Exercícios Cumula ~ivos d e Revisão c. Que expressão identifica melhor o nível de mensuração dos
diâmetr·os: nominal. ordinal, intervalar ou razão?
I. Utilize a tabela de freqü ências a seguir, que dá a di str i~uição de f. Escolhido aleatoriamente um desses diâme tros, determine a
idade dos americanos mortos por ac idente (com base em dados do probabilidade de ser inferior a 11.0 cm.
Conselho de Segurança Nacional). g. Escolhidos a leatoriamente dois di âmetros diferentes, determi-
a. S upondo que a classe de "75 ou mais" tenha 80 como ponto ne a probabiiidade de serem ambos superiores a 11 ,9 cm.
médio, calc ule a idade média dos americanos mortos por aci- h. Se lecionados aleatoriamente dois diâmetros, com reposição,
dente. determine a probabilidade de serem ambos superiores ~ 11 ,9
b. Com a mesma hipótese utiiizada na parte (a), calcule o desvio- cm.
padrão das idades resumidas na tabela. i. Escolhido aleatoriamente um desses diâmetros, determine a
c. Escolhida aleatoriamente uma das 9 5.277 idades, determine a probabilidade de ser inferior a 11 ,O cm ou de estar entre I 0,6 e
probabilidade de ser inferior a 15 ou superior a 64. ll,6cm .
88 ESTATÍSTICA

g Proie~o para Computador


Paru utilizar STA TDISK, escolha primeiro Data na ban·a principal
elo menu; escolha então Uni form Generator e utilize Format para
fixar em O o número de casas decimais (porque queremos gerar núme-
É po~sível achar probabilidades por computador simulando-se llm ex- ros inteiros). Passe a gerar um tamanho de amostra de 25 , com um má-
perimento. Recorde que uma simulação de um experimento é um pro- ximo de 365 e um mínimo de I. Utilize a característica Sampl e
cesso que se comporta da mesma maneira que o próprio experimento, Edi to r' s Forma t para ordenar e apresentar os 25 aniversários si-
produzindo assim resultados semelhantes. No Exerdcio 31 da Seção 3-

1 4 pedia-se para calcular a probabilidade de obter ao menos duas pesso-


as com mesma data de aniversário, em um grupo aleatório de 25 pesso-
as. Em lugar de fazer cálculos teóricos, utilizaremos STA TDISK ou
mu lados, para ver se ao menos 2 coincidem.
Para utilizar Minitab, selecione as opções Calc/Random Data,
Integer e introduza 25 como número de linhas de dados, C! como
a coluna em que vai armazenar os resultados, I como valor mínimo,
Minitab para simular o experimento. E em lugar de gerar datas ele an i- 365 como valor máx imo, e clique OK. Selecione agora 1-ianip/ Sort
versário, geraremos números entre I e 365, que representam os diferentes e introduza C I para a coluna, Cl para a coluna em que vai armazenar
aniversário~ possíveis. (Ignoraremos os anos bissex tos.) Por exemplo, os res ultados. Cl para a coluna pela qual os resultados serão selecio-
o número 5 gerado representa 5 de janeiro, e 364 repre~enta 30 de de- nados, e clique OK. Os resultados ordenados devem aparecer na pri-
zembro. Podemos trabalhar com os próprios números gerados, não sen- meira coluna.
clo necessário identificar o dia e o mês correspondentes. Gerados esses Pode-se usar também a calculadora TI-83 para este experimento.
25 números, podemos ordená-los, o que faci lita ver ~e ao menos 2 deles Acione MATH, selecione PRB, a seguir randint e introduza randint
são o mesmo "aniversário.n (1 ,365,25) para gerar 25 aniversários simulados. Os aniversários podem
Utilize STATDISK ou Minitab para gerar 25 "aniversários", e or- ser armazenados na lista Ll acionando STO e L l. Os dados podem ser
dene-os para ver se ao menos 2 coincidem. Registre o resultado. Repita ordenados (ou escolhidos) acionando-se STAT, e escolhendo-se Sort
o experimento até tercontiança em que sua probabilidade estimada está A, e introduzindo LJ. Acione agora STAT e selecione Edi t para visu-
aproximadamente correta. alizar os aniversários ordenados.

Teste de Uso -de Drogas em Candidatos a fmpYego


De acordo com a American Management Association, a maio- ado? A companhia pode ter a certeza de que não está contratan-
ria das empresas dos EUA está fazendo teste do uso de drogas do usuá1ios de drogas? A tabela a seguir apresenta os dados para
em alguns empregados e candidatos a emprego. O U.S. Natio- Allyn e outros 1999 candidatos a emprego. Com base nesses re-
nal lnstitute on Drug Abuse alega que cerca de IS% das pesso- sultados, determine a probabilidade de um "falso positivo", isto
as na faixa etária de 18-25 consomem drogas ilegalmente. Allyn é, determine a probabilidade de selecionar aleatoriamente um
Clark, de 21 anos de idade, bachare l por uma universidade, dos indivíduos cujo teste foi positivo e obter alguém que não
candidatou-se a um emprego na Acton Paper Company, subme- use drogas. Determine também a probabilidade de um "falso ne-
teu-se a um teste de drogas e não obteve o emprego. Clark sus- gativo", isto é, determine a probabilidade de selecionar aleato-
peita que não tenha passado no teste de drogas, mesmo não sen- tiamente um dos indivíduos cujo teste foi negativo e obter al-
do usuário. Ao investigar a situação no departamento de pesso- guém que seja usuário de drogas. As probabilidades desses re-
::tl da companhia, constatou que o teste tem urna sensibilidade sultados enados são suficientemente baixas para não preocupa-
de 99%, e assim apenas 1% dos usuários dão resultado negati- rem nem os candidatos a emprego nem a Acton Pape r Company?
vo. Ouu-ossim, o teste tem 98% de especificidade, o que signi-
fica que apenas 2% dos não-usuários são incmretamente identi-
Usuários Não-usuários
ficados como usuários. Allyn sentiu-se aliviado com essas ci-
fr<Js, porque pareciam tracluzir um teste bastante confiável que Testes com resultado positivo '297 34
costuma dar bons resultados - mas deveria mesmo es tar aLi vi- Testes com resultado negativo 3 1666

:.

1. Arividade na Classe: Divida a tun:na em grupos de três ou c ima. Quantas tentativas são necessárias para dar um re-
quatro e estime P(2 meninas em 3 nascimentos) utili zan- sultado que se afigure razoavelmente preciso?
do uma simulação com moedas. Descreva o processo exa- 3 . Arividade na Classe: Divida a turma em grupos de três ou ·;.
to utilizado e os resultados obtidos. quatro. Em cada grupo, estabeleça uma probabilidade sub-
2. Atividade na Classe: Divida a turma em grupos de três ou jetiva do e. vento de uma mulher ser e leita presidente dos
quatro e utilize tachinhas para estimar a probabilidade de EUA em 2008. Os valores dos diversos grupos são apro-
que, quando jogada, uma tachinha caia com a ponta para
·--:;
ximadamente os mes mos, ou são muito diferentes? A con-
-~

. . .1
·; ~

:.j
~)
~)

~:
·--~vv.r~
....-.-...-c........... _ .-. -...:..~--.:.·"""----""->L-.;:. ,......._ ·.::...;..;

Probabilidnde 89

l'l cordância entre os grupos indicaria que os resultados são nado por Monte HaJl. Comece escolhendo um dos membros ~
precisos? do time para servi.r como patrocinador. O outro membro do
4. Ati vidade em Aula: Cada estudante eleve receber uma pá- ti.rne é o concorrente, e há três po11as numeradas 1, 2, 3. O
gina diferente retirada de uma velha lista telefônica. Simule patrocinador deve escolher aleatoriamente uma das portas
uma seleção de 25 aniversários utilizando os três últimos e a escolha não deve ser revelada ao concorrente. Admita
algarismos dos números dos telefones, escolhidos aleato- que o patrocinador tenha estipulado o prêmio de um Cor-
riamente (ignorando os que excederem 365). Após regis- verte novo, vermelho, atrás da po rta que foi escolhida alea-
trar os 25 a11iversários, determine se há dois coincidentes. toriamente ; atrás das outras duas po11as não há nada. O con-
Os resul tados das turmas podem ser comb inados para for- corrente deve escolher uma das três portas. Após o concor-
mar uma estimativa da probabilidade de que, em 25 pes- rente revelar que porta escolheu, o patrocinador deve esco-
soas escolhidas aleatoriamente, ao menos duas lenham a lher uma porta "vazia" e informar o concorrente de que esta
mesma data de an iversário . porta não esconde coisa alguma. O patrocinador eleve agora
5. Atividade Fora de Aula: O Método da Captum-Recaptu- oferecer ao concorrente a escolha de ficar com a porta ori- [~,
ra. Os biólogos marinhos costumam uri.lizar o método da ginal ou optar pela outra porta que não foi abe11a. Após o
captura-recaptura para estimar o tamanho de uma popula- concorrente ter comunicado sua decisão, o patrocinador deve
ção, como a de peixes em um lago. Esse método consiste anunciar que o concorrente ganhou (ou não ganhou) o Cor-
em C<"lpturar uma amostra da população, etiquetar cada ele- verte. Registre o resultado juntamente com a decisão do g
mento da amostra e devolvê-lo à população. Coleta-se mais concorrente (manter a porta, ou não). Repita o jogo 20 ve- ~
tarde urna segunda amos tra e contam-se os elementos eti- zes, com o concorrente mantendo a porta 1Ovezes e trocan- •·

i
quetados entre a população total capturada. Como exem- elo a porta 10 vezes. ln verta então os papéis e jogue o jogo .
plo, suponha uma amostra de 50 peixes capturada e outras 20 vezes. Determine a proporção das vezes em que o r,
etiquetada. Suponha ainda que uma segunda amostra (cap- jogo foi ganho mantendo-se a porta e·a proporção elas vezes 1].'.

turada mais tarde) consista em 100 peixes com 20 deles em que foi gan ho mudando-se a porta. Com base nos res ul- ]
etiquetados - o que sugere que, quando um peixe é cap- tados, qual é a melhor estratégia: manter ou trocar? §
turado, a probabilidade de ser etiquetado é estimada em 7. Atividacle em Aula: Divida a turma em grupos ele dois, a t~
0,20; isto é, 20% da população de peixes são etiquetados. fim de fazer um experimento destinado a mostrar uma abor- "
Como a amostra origina] de 50 consistia em peixes todos dagem de questões delicadas como uso de drogas, roubo ou
etiquetados, podemos estimarem 250 peixes o tamanho da 'e.tividade sexual. Para os fins desta ati vidade, uti Iizaremos
população (50 :-20/100 = 250) . a pergunta inócua: "Você nasceu entre l de janeiro e 31 de
Não é fácil capturar e recapturar peixes efetivamente, março?" Esperamos que 1/4 das respostas seja "si.rn", mas
mas podemos simul ar um experimento utilizando uma admitamos que a questão seja bastante delicada e as pes-
coleção uniforme de elementos como bolinhas de mesma soas relutem em responder honestamente. Um membro elo
cor. Os elementos "capturados" na primeira amostra ele- time (o "entrevistador") deve pedir ao outro (o "pesquisado")
vem ser substituídos por elementos análogos de cor dife- que jogue urna moeda e escreva "não'· em um pedaço de
rente. ilustre o método ela captura-recaptura planejando e papel se o pesquisado não nasceu entre 1 de janei.ro e 31 de

l
realizando um tal experimento. Tomando um grande nú- março e a moeda dá "cara"; se o pesquisado nasceu enu·e
mero de bolinhas coloridas, selecione uma amostra ele 50. aquelas datas ou se a moeda dá "coroa", eleve ser escrita a
Substi tua as bolinhas selecionadas por bolinhas ele outra resposta "sim". Inverta os papéis de modo que as respostas
cor, restituindo-as à população original. Selecíone uma se- sejam obtidas de cada time. Supõe-se que os pesquisados
. gunda amostra e estime então o tamanho da população, tendam a ser mais honestos porque a jogada da moeda pro-
comparando o 1esultado com o tamanho efetivo da popu- tege sua privacidade. Combine todos os resultados e an<;~h­
lação obtido pela contagem de todos os elementos. se-os, a fim de determinar a proporção das pessoas nascidas F
9 6. Ati11idade em Aula: Divida a turma em grupos de dois. Na entre I de janeiro e 31 de março. A precisão elos resultados ·
H Seção 3-5 abordamos o problema "Monte Hall'', que, de pode ser verificada confrontando-os com as datas reais ele
acordo com a revista Chance, fo i utilizado no estudo ela to- nasc imento. O experimento pode ser repetido com um a ,.
mada ele decisões nas faculdades de economia de Harvm·d c questão mais clelicacla, mas essa questão não é dada aqui, fl
Stanford. O problema se baseia em um jogo de TV patroci- porque o autor já recebe correspondência suficiente. ~
r~~~~~,_ . ,_.. .......,.-.;-lo .. '!'"· .. s , __ *····-·~ ·.,,···n··..,...-..·-t::..:..f!..,....,~> ·~*BW·--,b~•-2-•':t ·· > -t1~~tt'ii§i• ...+.. ·~---•~
'-

.'
® '

-- I
elilrrevmsl~
I

·-··
Barbara Carvalho
Diretora de Pesquisa do Morist College

Lee Miringoff
Diretor do Marist College lnstitute for Public Opinion

Barbara Carvalho e Lee Miringo ff relatam os resultados de suas pesquisas em muitos entrevistos poro a imprenso e o televisão, incluindo noticiári
paro NBC, CBS, ABC, FOX e a TV estatal. Lee Miringoff aparece regularmente no programa "Todoy" da NBC.

Que tipos de pesquisa fazem? encontrá-las em estágios posteriores de suas vidas, seja em suas
carreiras ou simplesmente coma cidadãos. O povo é hoje
Fazemos pesquisa de interesse público. Pesquisamos assuntos de bombardeado com informações de pesquisas, sendo, pois,
in teresse público como índice de aprovação de autoridades da cidade absolutamente vital que a cidadão esteja em condições de avaliar o
de Nova York, do estado de Nova York e do pois em ge ral. Não precisão e o valor das mesmos.
trabalhamos paro partidos políticos, candidatos políticos ou grupos de
/obby. Somos subvencionados independenteme nte pelo Maríst College,
e não recebemos qualquer outro subsídio que posso sugerir a lgum Que conceitos da esliaflística uitiliz:a?
vínculo com q ualquer grupo, sobre qualquer assunto em particular.
Nosso programa é efetivamente um programo educacional, A estatística entra em cena logo no amostragem, antes mesmo de
amplamente reconhecido porque os resultados são divulgados chegarmos à análise dos dados. Com auxílio da estatístico,
-~ publicamente. Os repórteres passaram o depender de nossos resultadas determinamos o tamanho do amostra e formulemos uma estimativo do
não só por sua precisão e profissionalismo, mas também porque sabem que seria estatisticamente significante. Na anál ise dos dadas,
que nossas pesqu isas são independentes, sem compromisso com .. aplicamos a estatíStico descritiva básica à maior parte de nossos
qualquer fonte de noticias e m particular, como acontece com muitas estudos. Alguns estudos a cadêmicas vão até a a nálise de regressão.
pesquisas.
-,
Como séleciona seus pesquisados?
Q uem realiza suas en~revisiias e quais são seus Para uma pesquisa de âmbito estadua l, escolhemos indivíduos na
fundamentos? proporção das registras de ele itores nos municípios. Diferentes
Todos as nossos entrevistas são feitas porestudontes pagos, que são municípios acusam diferentes taxas de recusa, e se fôssemos seleciono
treinados na técnico de entrevistar e no assunto específico em que estão aleatoriamente os pessoas no estado como um todo, não teríamos um<
trabalha ndo. Os estudantes podem escolhe r o cominho da pesquisa de imagem uniforme de coma o estado se apresento. Fazemos a
opinião pública e colete de dadas. Os estudantes de ciência política estratificação par municípios e utilizamos uma colete aleatória de
constituem um grupo natural, mos também controlamos muitas números, de moda a obter números listados e não-listadas.
graduados em comunicação, bem como estudantes interessados em
estatística, análise computacional, psicologia, economia, sociologia, Qual seu tamanho típico de amostra?
! administração e marketing.
-,· Cerco de quatro ind ivíduos; mas eles são selecionodos com mui to
cuidado. Na real idade, poderiam ser de 400 o 1200 ou 1500. Se
Recomendaria a estatística a estudaniies de áreas qu iséssemos fazer uma análise de subgrupos dentro de nosso g rupo
como história, govemo ou dêndas sociais? populacional a umentaríamos o tama nha de nosso amostra de modo
r Sem dúvida. Eles devem ter ao menos um curso de pesquiso
que tivéssemos subgrupos como homens versus mulheres, ou diferentes
I g rupos regionais, ou diferentes grupos de rendo.
I relacionado com o análise estatístico básico que lhes dê uma base paro
lidar com os números que vão encontrar - seja qual for o cam po em
que vão trabalhar. O estudo da estatístico é importante poro entender O processo politico sofre efetivamente influêndo
um aspecto do conhecimento e constitui uma chave poro o abertura de
dos resultados d e pesquisas?
outros caminhos o ser trilhados. A estatístico permeio as discipl inas. Os
estudantes fatal me nte o encontrarão em algum ponto de suas carreiras. Embora a mo_ioria das pesquisas que o povo vê sejam pesquisas
Pode ser na avaliação do seu trabalho ou do seu local de trabalho, públicos, o realidade é que o processo político é influenciado por
cama pode envolver aspectos de mercado ou promocionais. As pesquisas privadas que o público nunca vê . Ninguém concorre o um
pesquisas invadem hoje nossa cultura a tal ponto que o estudante irá pasta elevado sem utilizar uma pesquisa privado.

J 90

i
...t.
~C\_ ...e. A~o.de'

~
I
I
T
Triola
T

Dôstn-ibuicões
, de Probabilidade -

4-1 Aspectos G erais da fórmula binomial de probabilidade, de tuna tabela de


probabilidades, ou de um pacote estatístico.
Identiftcam-se os objetivos do capítulo. Descrevem-se as
variáveis aleatórias e as distribuições de probabilidade
em geral, examinando-se algumas distribuições especiais 4-4 M éd ia , Variância e Desvio-pad rão da
de probabilidade. Distribuição Binomial
Calculam-se a média, a variância e o desvio-padrão de
4-2 Variáveis Aleatórias uma distribuição binomial, discutindo-se também a
interpretação desses valores.
Apresentam-se nesta seção variáveis aleatórias e
distribuições de probabilidade discretas e contínuas.
Dão-se métodos para determinar a média, a variância e o 4-5 A D~stribuição de Poisson
desvio-padrão de uma distribuição de probabilidade.
Define-se o valor esperado de uma distribuição. Apresenta-se a distribuição de Poisson como outro
exemplo especial e importante de uma distribuição
discreta de probabilidade. Uma característica
4-3 Experimentos Binomi a is fundamental da distribuição de Poisson é que ela se
aplica a ocorrências de um evento em um intervalo
Definem-se os experimentos binomiais. Calculam-se especificado de tempo, distância, área ou unidade
probabilidades em experimentos binomiais com auxílio semelhante.

'-r

í-------·------l,
l. .
I ~-.,,li"_.,.'!:" I
~~~ cL,·~? ~~2}~=, 1
~-
tJ
·, .
t;::·~'
J

j ll
l _L,,~,v. ·- ~-=_j I
1 ~ ::.. ........ :"1

I
-..,.
I

I
I
I
I
• ..._,_I....- - - - - - - - - -~·-'1-·~.....,...,.....,--- ·• - --- '"'~ ~~~
r~------------

Problema do Capítulo
Seriam os acidentes aéreos com jatos da USAir apenas uma coincidência?

Recentemente, os meios de comunicação deram grande cobertura ao fato de que jatos da USAir estavam envolvidos em quatro
dentre sete acidentes aéreos graves con'?eCIJtivos nos Estados Unidos. /\ USAir de;tém 20% das linhas domésticas. Se a
USAir, detendo 20% das linhas, fosse tão segura quanto qualquer outra companhia de a viação, seria de esperar que a USAi r
tivesse 20%dos e-ete desastres ocorridos, ou seja, 1,4. Como a USAi r teve quatro acidentes em lugar de apenas um ou dois, é
lícito concluirmos que a USA ir não é -cão segura quanto as outras companhias , ou que o envolvimento da USAir é apenas uma
coincidência? Essa conclusão depende da probabilidade de que os eventos ocorram por puro acaso. Vamos considerar as duas
questões seguintes:

1. Dado que a USAir detém 20% de todas as linhas domésticas e supondo que a USAir seja tão segura quanto qualquer out ra
companhia aérea e que os acidentes com avião sejam eventos independentes que ocorrem aleatoriament e, qual é a probabili-
dade de a USAir ter quatro dentre sete acidentes consecutivos?
2. Para decidir se a USAi r não é segura ou se é vítima de coincidência, a probabilidade relevante é _a descrita no item preceden-
te? Em lugar de procurarmos a probabilidade de a USAir ter exatamente quatro dentre sete acidentes, há outra pergunta
que melhor reflita o pro!:Jiema de saber se a USAi r é tão segura quanto as outras?

A primeira questão pede ser respondida facilmente com auxílio dos métodos apresentados neste capítulo. A segunda
questão é mais difícii e exige estudo sério, mas é extremament e importante para identificar corretamente o evento que consti-
t ui a chave do problema. Abordaremos ambas as questões mais adiante neste capítulo. '

4- 1 Aspectos Gea-ais observados; neste capítulo, entretanto, vamos construir distribui-


ções de probabilidade apresentando resultados possíveis junta-
No Capítulo 2 vimos que é possível explorar um conj unto de mente com as freqüências relativas que esperamos, à vista do
dados utilizando gráficí·S (como um histograma ou o boxplot), conhecimento de circunstâncias relevantes.
medidas de tendência centra.! (como a média) e medidas de vari- Suponha que o gerente de um cassino suspeite de fraude e m
ação (como o desvio padrão). No Capítulo 3 abordamos os prin- uma mesa de dados. Ele pode comparar a distribuição de freqüê n-
cípios básicos da teoria d;ls probabilidades. Neste capítulo, com- cias re lativas dos resultados amostrais efetivos com um modelo
binaremos esses conceitos ao estabelecermos tlistribuições de teórico que descreva a distribuição de freqüênc ias esperada com
probabilidade .:;_c:e dcscrc·>c'n o que provoFelmente aco ntecerá, um dado equilibrado- que deve ter um histograma de freqüên-
em lugar do qt•c dct:,:tn,.:ntc aconteceu. N~J Capítulo 2, cons- cias relativas semelhante ao da Figura 4-l(a); já o histograma de
truímos rabehs de freqü2u-.:ia ,, histogramas utilizundo valores freqüênc ias relativas da Figura 4-l(b) espelha um dado viciado,

5 '
lO

~ ':
·;:;
~ t1S
-.;;
"·c;
~
t1S
~

·~
·c;

--r--,--[]_
t:: c
<U .:u
:::J 1 ::::s
<S' - <S'
~
u.
6 " I I
~
u. 1
1.- . I
10
r . •·• I.
j_~~L~~J
J

o 2 ::; 4 _r:::; 6
o 2 3 4 5 6
Fig. 4· 1 Histograma de resultados de dados para {a)
(a) (b) um dado equilibra do e (b) um dado viciado.
Distribuições de Probabilidade 93

em que o aparecimento do 3 é favorecido . Se alguém é apanha- escolhidos) porque não têm aparecido ultima mente; outros
do jogando com um dado como o da figura 4-l(b) certamente apelam para o foto de que algu ns nú meros são "frios" [devendo
terá problema. _ ser evitados), porque não têm apa recido com frequência; outros
Na Figura 4-l(a), vemos freqüências relativas baseadas não ainda apelam poro o astrologia; o numerologio ou sonhos.
Como as combinações vencedoras no loteria são eventos
em resultados efetivos, mas em nosso conhecimento das proba- independentes, tais teorias não têm valor algum. Uma
bilidades dos resultados de um dado equilibrado. Essa figura abordagem válido consistiria em escolher números "raros ", no
representa uma distribuição de probabilidades que serve de mo- sentido de 9ue não são escolhidos por o utros pessoas, de modo
delo para a distribuição de freqüência de uma população teodca- que, se gannor, o apostador não tenha que repartir o "bolo"
com muitos outros. Por essa razão, a combinação 1, 2, 3, 4, 5,
mente perfeita. Essencialmente, podemos descrever a tabela de 6 não é uma boa escolho, porque muitos o util izam; e nquanto
freqüências e o histograma para um dado jogado um número infi - 12, 17, 18, 33, 40, 46 é uma escolho muito melhor, pelo
nito de vezes. Com tal conhecimento da população de resultados, menos olé ter sido divulgodc neste livro ..
estamos em condições de determinar características importantes,
como a média e o desvio-padrão. O restante deste livro e o pró-
prio âmago da inferência estatística se baseiam em algum conhe-
' EXEMPLO Um experimento consiste em selecionar aleatoria-
cimento de distribuições de probabilidade. Examinaremos inici-
mente sete acidentes aéreos com vôos domésticos e contar os
almente o conceito de valiável aleatóda e a seguir consideraremos
que envolvem aviões da USAir. Se a variável aleató1ia repre-
distribuições importantes que têm vári as aplicações reais.
senta o número de acidentes com aviões da USAir, dentre sete
ocorrências, esse expedmento comporta os resultados O, l, 2,
3, 4, 5, 6, 7. (O representa nenhum acidente com a USAir, 1
4-2 Variáveis Ale(lltÓII"ias representa 1 acidente com a USAir e assim por diante.) A
variável é aleatória no sentido de que só sabemos seu valor
Nesta seção abordaremos os conceitos de vadável aleatória, dis- após havermos selecionado sete acid'entes.
tribuição de probabilidade e processos para cálculo da média e
do desvio-padrão de uma distribuição de probabilidade. Veremos
que uma vadável aleatória tem um número para cada resultado Na Seção 1-2 fizemos uma di stinção entre dados discretos e
de um experimento e que un;~a distribuição de probabilidades dados contínuos. As variáveis aleatórias também podem ser dis-
associa· uma probabilidade a cada resultado numérico de um cretas ou contínuas, e as duas definições que seguem são consis-
experimento. tentes com as que foram daàas na Seção J-2. Este capítulo abor-
Muitas situações cotidianas podem ser usadas como experi- da variáveis aleatórias discretas; as variáveis aleatórias contínuas
mentos que dão resultados correspondentes a algum valor, e tais serão objeto de capítulos seguintes.
situações podem ser descritas por uma vadável aleatória.

ll)!IHFD !Nl BÇé @IE~Bff\3~~@tll~

Uma vmiável aleatória é uma vadável (geralmente represen- Uma variável aleatória discreta ou admite um número
tada por x) que tem um valor numérico único (determinado finito de valores ou tem uma quantidade enumerável de
aleatmiarnente) para cada resultado de um expedmento. valores.
Uma va riável aleatória contínua pode tomar um núme-
ro infinito de valores, ·e esses valores podem ser associa-
Exemplos de vadáveis ale~tódas: dos a mensurações em uma escala contínua, de tal forma
que não haja lacunas ou interrupções.
x = número de acidentes com aviões da USAi r dentre' sete
acidentes aéreos selecionados aleatoriamente
x = número de mulheres entre lO empregados recém-admi-

X=
tidos
x = número de alunos que não compareceram à aula de esta-
tística hoje
altura de Um adulto do SeXO masculino selecionado alea-
toriamente.
I EXEMPLO

O número de espectadores que vêem um filme é um nú-


a. mero inteiro, sendo, portanto, uma variável aleatóda dis-
creta. O dispositivo de contagem ilustrado na Figura 4-2(a)
registra apenas números inteiros, podendo, assim, ser utili-
zado para obter valores de uma vmiável aleatória discreta.
Empregamos o termo variável aleatória para descrever o valor
b. A voltagem na pilha de um detector de fumaça pode ser
que corresponde ao res ultado de determinado experimento. A
qualquer valor entre Ovolts e 9 volts, sendo, por consegtiin-
palavra aleatória indica que em geral só conhecemos aquele valor
te, uma variável aleatória contínua. O voltímetro ilustrado
depois de o experimento ter sido realizado.
na Figura 4-2(b) indlca valores em uma escala contínua,
gerando valores de uma variável aleatória contínua.
Profetas dos Lucros

Muitos livros e prog rama s de computador prete ndem a judar a Além de identificar valores de uma variável aleatód a, freq üen-
ganhar no loteria. Alg uns se baseiam no teoria de que temente podemos atribuir uma probabi lidade a cada um desses
determinados nú me ros "devem" aparecer [devendo, por isso, ser
valores. Quando conhecemos todos o s valores de uma variável
~ ::
:~- '

;·:1
•.f/~I
i: l
:l
T
1
-----·"· •4-!: tt: ......-:- -- • -~ --- --- -· __ "i-;:üõi;.,..--::i~~~:-·0'"."'~-

94 EsTATÍS11CA

(Na Seção 4-3 veremos corno obter as probabilidades da Ta-


be la 4-1 .) Por essa tabela, a probabilidade de O acidentes com
a USA ir (de ntre sete acidentes) é 0,21 0; a probabili dade de
um acidente é 0,3 67 etc. Os valores denotados por o+re pre -
sentam probabilidades tão pequenas que equivalem a 0,000
quando arredondadas para três decimais. Prefe rim os não es-
crever 0,000 porq ue sugere (erroneamente) um even to impos-
sível com probabi lidade O.

(a) Variáve' /Jea r.ória Di!;cre-Ca:


Contagem du número de
Ilá várias ~.·eprese ntações gráficas para uma distribuição de ~
espect-ad•Jr"s
probabilidades: apresentaremos apenas o histograma à e proba- ~
bilidade. A Ftgura 4-3 é um histograma de probabilidades que
se assemelha ao histograma de freqüências re lativas do Capítulo
2, mas a escala verti cal representa probabilidades, em lugar das
correspondentes freqüências relativas.
Observe, na Figura 4-3, que, ao longo do eixo horizontal, os
valores O, 1, 2, ... , 7 estão localizados nos centros dos retângu-
los. Isso implic:a q ue os retângulos têm cada um a largu ra de 1
unidade, de modo que suas áreas são 0.210, 0,367 etc. Quando a
área total de tal histogram<t de probabilidade é 1, as probabili-
dades são iguai s às áreas dos retângulos correspondentes . No
(b) Variável "-leatória Capítulo 5 e nos capítul os seguintes veremos a importância e a
Conúnua: hJ! ;;agem de utilidade dessa correspondência entre área e probabilidade.
uma pilha d,; detect-or Qualquer dis tribuição de probabilidades deve satisfazer as
defumaçs. duas condições seguintes:
Fig. 4·2 Variáveis aleatórias discreta e contínua .

;.-:;coridrç~ês . r:}O:r8 0.f11a'ÔisJr1b~içã6 de ,p;-9 bêibilldáde$::


aleatória juntamente com suas respectivas probabilidades, temos
uma distribuição de probabi lidades, definida como segue. 1. 'i.P(x) =~ I , onde x torna todos os valores poss(veis
2. O :::::; P(x ) :::::; 1 para toe! o x

@!!:!FY!NJSÇÂ@
A primeira condição afirma que a soma de todas as probabi !idades
Uma distribuição de probabilidades dá a probabilidade individuais é J e se baseia na regra da ad ição para eventos
de cada valor de uma vari:í ·c! ~Jcatória. mutuamente excludentes. Os valores da variável aleatória x repre-
sentam todos os eventos passiveis em todo o espaço amostral, e

I
assim temos a certeza (com probabilidade 1) de que um dos eventos
EXEMPLO Suponha que a u SAi r detenha 20% de todas as li- ocorrerá. Apl icamos a regra simples da adição dos valores de P(x)
nhas aéreas domésticas, e q~1e todos os vôos tenham a mesma porque os difereHtes valores de x correspondem a eventos que são
chance de um acidente. Se~ variável aleatóriax representa o mutnamcnte e'<cludentes . Por exempl o, se escolhemos a leato-
. número de ar.ide t.te~ com · l.JS "\ir dentre sete acidentes es
colhidos a l eatorüun.~nte, en::'\o a distrib uição de probabilida-
des é dada pela faiY.la 4- '
0.40

TABELA 4 - 1 Distri bu!cõc de: Proba bilidade do Núme ro d e


Acidentes com a US/\(r, d entre Sete Ac identes 0 ,30
'l)
-.:s
x
--+--
1 P(x) ~"'
I ~ 0 ,20
o I o,21o -"

I o,367 ~
0 ,10
2 ! '1,275
3 : t), J 15
o L-L-~~~-6~------

I n.020 o 1 2 3 4 5 6 7
5 ' J,004 Número de Acidente;; da USAi r
em Sete Aciden t:es
6 !0+
7 I Ü+ Fig. 4 -3 Histograma de probab ilidades para a número de desastres d a
USAi r cle ntre sete desa stres aé re os.
Distribui ções de Probabilidade 95

riamente sete acidentes aéreos e representamos por x o número de Fór m ula 4-3 O"-=?
. <-<X - · P(x ~ - 11-- Variância para uma
[" , ) ,

acidentes com a USAir, x não pode ser 4 e 5 ao mesmo tempo. Na dis tribuição de p r obabilid ades
Tabela 4-1 podemos ver que as probabilidades individuais têm
efetívamente a soma 1. Outrossim, a regra de probabilidade (veja Fórmula4-4 a= ~[.2.x 2 ·P(x)]- p, 2 Desvio-padrão para
Seção 3-2) que afirma que O !S P(A) !S 1 para qualquer evento A uma d istribuição de probabilidades
implica que P(.x) deve estar entre O e 1 para qualquer valor de x.
Voltando à Tabela 4-1, vemos que cada valor de P(x) está de fato Cuidado: A expressão 2.x · P(x) é a mesma que I[x · P(x)], ou seja,
entre O e 1. Como a Tabela 4-1 satisfaz du as dessas condições, é primeiro multiplique cada valor de x por sua probabilidade e em
exemplo de uma distn1mição de probabilidade. Uma distribuição seguida adici one os resultados. Também, Ix' · P(x) se calcula
de probabilidades pode ser dada por uma tabela, como a Tabela 4- elevando-se cada valor ele x ao quadrado, multiplicando-se cada
J, ou por um gráfico, corno na Figura 4-3 , ou por uma fórmula, como quadrado pela probabilidade P(x) correspondente e sornando os
nos dois exemplos seguintes. resultados; isto é, 2:x2 · P(x) = I[.x2 · P(x)].
A Tf-83 calcula a média e o desvio-padrão ele uma distribui-
ção de probabilidades. In troduza os valores de x n:J li sta L I, in-
g EXEMPLO P(x) =x/5 (ondex toma os valores O, 1, 2, 3) define
troduza as probabilidades correspondemes na lista L2, selecio-
~ "m' di'"ib"ição d' pmb,bilidad"? ne STAT, CALC, 1-Var Statseintroduza Ll,L2(coma vír-
gula). Após acionar a tecla ENTER, o valor exibido como X é
SOlUÇÃO Para que fique definida uma distribuição de pro-
efetivamente a média p,, e o valor mostrado com ax é o valor do
babilidades, devem ser satisfeitas as duas condições anterio- desvio-padrão a.
res . Ora,
2.P(x)= P(O)+ P(l) + P(J.) + P(3)
~ o l 2 -3
=-+-+-+-
Ri_~~; ·Cle: ,6r~~'â8hd~hi"e'nto pard.f.L, é eu

I
5 5 5 5
Ao utilizar as Fórmulas 4-1 a 4-4, aplique esta regra para.
6
5 (mostrando quel.P(x) *1) arredondar os resultados:

I Como a primeira condição não é satisfeita, conclufmos que Arredonde os resultados tomando uma decimal
P(x) dada neste exemplo não é uma distribuição de probabi-
a mais além do número de casas dedmais usadas
na variável x . Se os valores de x sâ'O inteiros, ar-
lidade.
redonde p., cr e u para uma decimal.
!EXEMPLO P(.x) = x/3 (onde x pode ser O, L ou 2) define uma
distribuição de probabilidades?
Às vezes é preciso aplicar urna regra de arredondamento di-
SOLUÇÃO Para a função dada, temos queP(O) = 0/3, P(l) = ferente em virtude de cit·cunstâncias especiais, como resultados
l/3 e P(2) = 2/3, e assim que exigem mais casas decimais para terem sentido.
Ao calcularmos a média de uma distribuição de probabili-
1. "'> P (x)
o 1
= -3 + -3 +-3 =
2 3
- =1 dade, obtemos o valor médio que esperaríamos obter se pu-
.. - 3 déssemos repetir as provas indefinidamente. Não obtemus o

i~·
valor que esperamos ocorrer com maior freqüência. Na reali-
2. Cada um dos valores de P(x) está entre O e 1 inclusive.
dade, obtemos em geral um valor médio que não pode ocor-
· Como as duas condições são satisfeitas, a função P(x) deste rer em nenhuma prova (como 1,5 meninas em 3 nascimentos).
exemplo é uma distribuição de probabilidades. O desvio-padrão nos dá uma medida do quanto a distribuição
de probabilidade se dispersa em torno da média. Um grande
desvio-padrão reflete dispersão considerável, enquanto um
Média, Variância e Desvio·Padr&o desvio-padrão menor traduz menor variabilidade. com valo-
res reJaÚ vamen te mais próximos da méd ia. A regra prática da
No Capítulo 2 vimos que há três características extremamente Seção 2.5 pode também auxiliar na interpretação do valor de
importantes de dados: um desvio-padrão. De acordo com essa regra, a maioria dos
valores deve estar a menos de dois desvios-padrão da média;
L Valor representativo, como uma média
não é comum um valor diferir da média por mais de dois des-
2. Medida de dispersão ou variação, como um desvio-padrão
vios-padrão .
3. Natureza ou forma da distribuição, como forma de sino.
O histograma de probabilidade permite-nos visualizar a nature- EXEMPLO A Tabela 4-1 representa a distribuição de proba- ~
za ou forma da distribuição. A média, a varifmc ia e o desvio-
padrão traduzem outras características. Podemos achar a média,
bibdade do número de acidentes com a USAir, dentre sete aci- mm '.
::·;
dentes selecionados aleatoriamente (supondo que a USAir ;·-·-
~··:
a variância e o desvio-padrão de uma distrib uição de probabi li- de tenha 20% dos vôos e que os acide ntes sejam eventos in- t '~
dades aplicando as Fórmulas 4-1,4-2, 4-3 e 4-4. dependentes e aleatórios). Com a distribuição de probabili-
dade descrita na Tabela 4-1, suponha que repitamos o experi-
Fórm ula 4-1 p, = .2. x . P(x) M édia de uma dis tribu ição de me nto que consiste ern selecionar sete acidentes e que a cada
probabilidades vez achemos o número de aciden:tes com a USA ir. Determi-
Fórmula 4-2 u 1 = .2.[(x - p, ) 2 · P(x)] Variância pa ra uma ne o número médio de acidentes com a USAir (en tre sete), a
distribuição de probabilida des variância e o desvio-padrão.

';)P:?TT"'Tf'f!ª W~??@f@éff!f"'~' 'IH' FW~ msz lê'


,-- ~ -- -~ -~ --- .__._, ,--._-....·4:r'"f"~'?""o'<,. " · '~;'tr~.,o;v-o;,~~~~~:·~·:.J: •. ~- ... ,-~~

96 EsTATÍSTICA

TABELA 4 -2 Cálculo de m, (? e o- paro uma Distribuição Na fraçãojlN, o valor de fé a freqUênci a com qu e o valor x ocor-
de Probabi lidade re e N é o taman ho da população, de forma que jlN é a probabi-
lidad e elo valor x.
X I P(x) X · P(X) x-
?
x2 · P(x) Raciocínio aná logo permite-nos tomar a fórmula ela variân- .
cia do Capítulo 2 e aplicá- la a uma variável aleatória para uma
o I 0,210 0,000 o 0,000 distribuição de probabilidades; o resultado é a Fórmula 4-2 . A
0.367 . 0,367 I 0,367 Fónnul a 4-3 é uma versão abreviada que dá sempre o mesmo
2 0,275 0,550 4 l.l OO resultado q ue a Fórmula 4-2. Embora a Fórmula4-3 tenha a van-
tagem do manuseio mais fácil, a Fórmu la 4-2 é mais fácil de ser
3 0.115 0,3:15 9 1.035
entendida d ire tamente. Com base na Fórmu la 4-2, podemos ex-
4 0,029 0.116 ló 0,464 pressm· o desvio-padrão como
5 0,004 0,020 25 0.100
o- =VI(x- 1-~?- P(x)
6 0+ 0,000 311 0,000
ou como a forma equivalente dada pela Fórmula 4-4.
7 Ü+ 0,000 49 0,000

Torai 1,000 !.398 3.06{)


Valor Esperado
t t I
2-P(x) Ix · P(x) :Sx 2 • P(x)
A média ele uma variável aleatória discreta é o resultado médio
teórico de um número infinito de provas. Podemos encarar essa
média como o valor esperado no sentido ele que é o valor méciio
que esperaríamos obter se as provas se prolongassem indefini-
SOLUÇÃO Na Tabela 4-2, as duas colunas à esquerda descre- damente. As aplicações do valor esperado (também chamado
vem a distribuição de probabilidade dada anteriormente na esperança o u esperan ça matemática) são extensas e variadas e
Tabela 4-L As três colunas 3 direita foram criadas para pos- desempenham papel ele ex trema importância em uma área de
sibilitar os cálculos necessários. apl icação cha mada teo ria da decisclo. (Para um estudo da teoria
Com as Fórmulas 4-1 e 4-3 e os resultados da tabela, obtemos da decisão, vej a Business Statistics, de Triola e Franklin.)
f-L = ~x · P(x) = 1,398 = 1,4 colísOcs (arredondado)

o- 2 = 1Ix 2 • P(x)]- f-L 1 ~iê!rnú'IB~j.@


= 3,066 - 1 ,398 2 = 1.111596
O valor esper ado ele um a variável aleatória discreta é
= I, 1 colisões (arredondado) denotado por E E representa o valor médio dos resultados.
O desvio-padrão é a raiz quadrada rla variância: É dado por 'J.x-P (x):
E= .Ix · P(x)
H rr = \ll, 111596 = I,054323 = l,l colisões (arrcdomlauo)
r1l Sabemos agora que, entre ~ete acidentes aéreos, o núme ro
. médio de aciden tes com a USA ir é 1 ,4. a variância é J, 1 "ac i-
Pela Fótmu la 4-1, vemos que E= f-L· Isto é, a média de uma
dentes ao quadrado" e o. des vio-padrão é 1,1 acidentes . Ap li-
variável ale atória discreta coincide com se u valor esperado. Re-
ca ndo a regra prática dada na Seção 2-5, podemos concluir
pita 5 vezes o experimento da jogada de uma moeda; o número
que, na maior parte das vezes, a USA ir deve ter de O a 3,6
médio de caras é 2,5; aojogrumos uma moeda cinco vezes, o l'{zlur
acidentes dentre sete escolhidos aleatori:1mente. (Recorde que,
esperado elo núme ro ele car::ts é também 2,5.
~~. por rssa regra prática, poc,.,,11o" obter estimativas de valores
ij mínimo c máximo partindn na média de i ,4 c somando e sub-
.J tra indo 2,2, que é o dohro .ln Jesvio padrão.) íl EXEMPlO Considere o jogo de números praticado há mui-
tos anos por organizações ligadas ao crime c agora legaliza-
Por que trabalhar com as F.:•1mulas 4-1 a 4-4? Uma clistribui- do por muitos governos organizados - assim como também
~ão ele probabilidades é na verdade um modelo de distribuição ele por algun s govemos não muito bem organizados. Em geral
frcqüências de uma população ·~'oricrunente perfeita. A distribui- conhecido como "Escolha três" (Pick three), o apostador .·
ção de probabilidades é com! uma distribuição de fre qüências aposta em três números, que deverão coi ncidir-com os nú- ,;
relativas baseada em dados que se comportam de modo perfeito, meros sorteados. O ganho típico é ele 499 para I, o que sig-
sem as imperfeições da amostra. Como a distribuição de probabi- nifica que para cada $1 apostado o j ogador recebe $500; o
!idades permite-nos predizer os resultados populacionais, podemos re torno líqu ido é, pois, de $499. SLtponha o leitor que apos-
de terminar a média, a variâm:i:. r o desvio-padrão. A Fórmula 4- tou $1 no nú mero 327. Qual é o valor esperado de seu ganho
J desempenha a mesma funçã n q ue a fórm ula da média de uma ou perda?
tabela de freqüêncías. (Recorde que f representa a freqüên cia de
uma classe e N representa o tamanho da popul ação.) Reescreven- SOLUÇÃO Para essa aposta há dois resultados si mples: ou o
do afórmula da média de uma tabela de Freqüências ele modo que leitor ganha, ou perde. Como o n úmero escolhido foi 327, e
ela se aplique a uma população, e mudando sua fonna, temos como há I 000 possibilidades (ele 000 a 999), a probabilida-
de de ganh ar é ele 111000 (ou 0,001) e a probabilidade de
-
"'if
,<_, • X
r.,.
) = ""' _ _:._ = 2: X .-
r = 2: X . p (X) perder é 999/1000 (ou 0 ,999) . A Ta be la 4-3 resume a situa-
JL- ., LJ N N ção.
D istribuições de Probabilidade 97

3. O nú mero de ovos que uma galinha põe. ) O


~
TABELA 4-3 O jogo dos números
4. A quantidade de leite ordenhado de uma vaca.

~
Evento X P(x) X· P(x)
Nos Exercícios 5-12, detennine se é dada uma distribuição de

~.·
Gauha $499 0,001 $0,499 probabilidade. Nos casos em que não é descrita uma distribui-
Perde -$1 0,999 -$0,999 ção de probabilidade, identifique a condição que não é satisfei-
B
f ta. E quando for descrita uma distribuição de p robabilidade,
t determine sua média, variância e desvio-padrão.
..

Total - $0,50
(ou- 50~ )
r 5. Ao escolher aleatoriamente um colega de cela condenado por diri-
gir alcoolizado (DWI) . a distribuição de proba h i!idade do número

~ Pela Tabela 4-3, vemos que, para uma aposta ele $ 1 no jogo
x de sentenças anteriores cm casos de DWf é dada na tabela a se-
guir (baseada em dados do Ministério da Justiça dos EUA).
..
!
~ dos números, o valor esperado é
X P (x)
E= 1:x · P(x) = -50 centavos. o 0,512
Isso significa que, a longo prazo, para cada aposta de $1 I 0,301
podemos esperar perder em média 50 centavos. Não se trata 2 0,132
[! de um programa muito seguro de investimento. 3 0,055
6. Se sua faculdade contrata os 4 próximos funci onários sem distin-
No exemplo precedente, um jogador perde $1 ou ganha $499; ção de sexo e o conjunto de candidatos é grande, com números
nunca haverá uma perda de 50 centavos, como o valor esperado iguais de homens e mulheres, a tabela a seguir dá a distribuição de
de -50 centavos poderia sugerir. Esse valor esperado é uma probabilidade do número x de mulheres contratadas.
média para uma longa seqüência de apostas feitas. Mesmo que
pretendamos fazer apenas uma aposta, o valor esperado de -50
centavos mostra que não se trata de um bom negócio. O ganho ~
0,0625
potencia l é mais do que su perado pela perda potencial. 0,2500
...., Nesta seção, vimos que uma variável aleatória tem um valor 2 0,3750
numérico associado a cada resultado de um experimento aleatório,
e que uma distribuição de probabilidade tem uma probabilidade
3 0,2500 "
4 0,0625
associada f! cada valor de uma variável aleatótia. Estudamos méto-
I dos de determinação da média, da variância e do desvio-padrão de 7. A Associação de Cardiologia de Newport planeja abrir um escri-
tório de consu!ta telefônica com 8 empregados. Ao planejar a área
uma distribuição de probabilidades. Vimos que o valor esperado
de estacionamento para esse escritório, é preciso saber quantos
de uma variável aleatória coincide efetivamente com a média. V i- funcionários dirigirão seus próptios carros. De acordo com a Hertz
~ tnos ainda que as loterias não são investimen tos aconse lháveis. Corporation, 69% de todos os funcionários utilizam seus próprios
-~
carros; a tabela a seguir descreve, assim, a distribuição de proba-
bilidades do número de funcionários (dentre oito selecionados ale-
O s Telefones Celulares Podem Causar Câncer no atoriamente) que utilizam seus próprios carros.
~- Cérebro?

~
-<~· ·
;...!
Na revisi<J Oiscover, o matemático John Allen Paulos cita o caso . o
de um processo movido por um cidadão, sob a alegação de que
o câncer no cérebro de suo esposo foro causado pelo üso de um 0.002 '·
telefone celular. Esse processo despertou considerável atenção no
I imprenso e na TV e causou uma baixa na colação das ações das
2 0.0!2
empresas fabricantes de telefones celulares. Pavios concluiu que, 3 0.053
com uma taxa anual de 0,007% de incidência de câncer no 4 0.!47
'(' cérebro e com 1O milhões de usuários de telefones celulares,
podemos esp~rar, cada ano, cerca de 700 casos de câncer 5 0,261
cerebral entre os usuários desses aparelhos. A conclusão de 8. Ao avaliar riscos ele crédito, o Jefferson Val!ey Bank investiga o
Paulos foi : "Como apenas uns poucos casos chamaram a atenção número de cartões de crédito que a pessoa tem. Com x sendo o nú-
do pública, deveríamos concluir que os telefones celulares mero de cartões de crédito que os adultos possuem, a tabela a seguir
r ~'J poderiam olé mesmo eliminar o câncer cerebral. Absurdo, sem
dá a distribuição de probabilidades para um conjunto de solicitantes
-~=i
dúvida, mas não mais absurdo do que o raciocínio que motivou a
·:t ~ histeria original." Pau los cita esse caso como um exemplo "das (com base em dados da Maritz Marketing Research, Inc.). ·
-J:I~
obstáculos psicológicos à compreensão racional da estatística". X P(x)
,. , ,___ _ _ __ _ _ _ _ _ _ __ _ __ _ _ _ __ _____j

o~~ o
1
0,26
O.l6
~~4-2 íExerddos A: Habiiidades e 2 0,12
-d~itonceitos Básicos 3 0,09 ..
~~
~~
4 0,07
1~jNo.1· Exercícios 1-4, identifique a variável aleatória como dis-
5 0,09
~~~crera ou contínua. .
' i:"'l, 1. O peso de um livro escolhido aleatoriamente.
"~ 2. O custo de um livro escolhido aleatoriamente.
>c, 6
7
0,07
0,14
:•i

':'SI
~~
.1
;!j '1
- .:al .j

~
~----· ·--·- ~--~~--~~--------~~=-----~-~-~
-;-~~~~--~-
~~-~
--~
- --~~
-~--
--~
-~-~
-;-~ . ......~,,-.~· •p;.,..~·-·-
-~--~--.-~~~~~~~~

98 EsTATÍSTICA

9. Para resol ver uma q uestão de paternidade. fazem-se testes de san- 4-2 !Exerddos B: J}Jé m clo Básüco
gue em duas pessoas diferentes. Se x é o número dos que têm sa n-
gue do grupo A, então x pode ser O, 1 o u 2, e as probabilidades 21. E m cada caso, dete rmine se a função dada é uma c.li stribu ição de
correspondentes são 0,36, 0,48 e O, 16, respectivamente (com base probabil idade.
em dados do Programa de Sangue de Nova York).
1.0. A Baltimore Computer House afirma que as probabilidades de a . P(x) = 112 r onde X = l , 2, 3, .
ve nder O, l , 2, 3 e4 microcomputadores cm um dia são 0,240, 0,370, b. P(.:t) == 1/2x oude x = 1, 2, 3, .
0,205, 0,075 e 0,080, respecti vamente. c . P(x ) = 3/[4(3- x)l x '] o n de x = O, I , 2, 3,
11. Relaciona-se a seguir o núme ro de j antares q ue os americanos tí- d. P(x ) = 0.4(0.6) r - I o nde X == 1, 2. 3, . . ..
picos preparam e m uma semana, juntamente co m as respectivas 22. A média c o desvio-padrão de uma variá vel a leatória x siio 5,0 e
probabilidades (com base em dados de Millward Brown, citados 2,0, respecti vame me. Determine a média e o dcsvio-pad r5o el a ~
cm USA Today): O (0,08); I (0,05); 2 (0, 10); 3 (0, 13); 4 (0, 15); 5 seguintes v;:u·iáve is aleatóri as:
(0,21); 6 (0,09); 7 (0, 19).
12. Um estudo da tenclenciosidacle quanto ao sexo nos meios de co- a. 3 + x
municação envolve a escolha de pessoas que figuram como pe rso- b. 3x
nagens em shows da ta rde da TV. As pessoas são sclecionadas ale- c. 3.r + 4
a toriamente e m grupos c.lc quatro, registrando-se o número de 23. Selecionam-se aleato1iamente os algarismos (0, I, 2, ... , 9) pan
mulheres. As probabilidades de obter O, I, 2, 3 e 4 mulheres são números de tele fo ne e m pesquisas. A variável aleatória x é o alga
0,334, 0,42 1, 0,200, 0,042 e 0.003, respec tivamente (com base em rismo esco lhido.
dados do USA Today).
a. Ache a média e o desvio-padrão ele x.
13. Ao apostar em um cassino $5 no número 7 da roleta. tem-se uma
b. Ache o escore z para cada um dos valores possíveis de .\~ dete r
probabilidade de 1/38 de ganhar SI75 e uma prob~b ilidade de 37/
mine então a média e o clesviocpadrão da populaç5o de escores z
38 de perder $5. Qual é o valor esperado? E m um número muito
grande de apostas, quanto se perde para cada dó lar apostado? 24. Suponha que a variável aleatória discrelax possa tomar os valo re;
14. Quando jogamos $ 5 e m um cass ino na pass fine do jogo de dados, l, 2, .. ., H , e que esses valo res sejam ig ualme nte prováveis.
há uma probabilidade de 244/495 de ganhar $5 e uma probabilida- a. Mostre que fJ- = (n + I) /2.
de de 251/495 de perder $5. Qual é o valor esperado? Em um grande b . Mostre que cr = (n' - 1) /12.
número de jogadas, quanto perde mos para cada dólar apostac.lo? c. Um experimento consiste em escolher aleatoriamente um núme
15. Urna mulhe r de 27 anos decide contratar uma apól ice de seguro de ro inteiro entre 1 e 50; a variável aleatória x é o valor elo númen
vida ele $ 100.000,00 por I ano, pagando um prêm io de $ 156. A escolhido. Determine a média e o desvio-padrão de x .
probabilidade de ela sobreviver 1 a no é de 0,9995 (co m base em (Sugesrão: 1 + 2 + 3 + ... + n = 11 (n + 1) /2.
dados do Ministério da Saúde e Recursos Humanos dos EUA e da F + 2' + 3" + ... + n 2 = n (n + I )(2n + l ) /6.;
AFT Group Life Insurance). Qual é seu valor esperado para a apó-
lice de seguro?
16. O Reader's Digestlançou um conciJfsO (.11veepstake), relacio na n-
do os prêmios com as respectivas chances de ganhar: $5.000.000
4-3 !ExperrimerntO>s 8 gncmôais
( I chance em 20 1.000.000), $150.000 (J chance e m 201 .000.000),
$ 100,000 (1 chance em 201.000.000), $25.000 (1 chance em Na Seção 4-2, vimos que uma variável alea tória associa um va
I 00.500.000), $ 10.000 (I chance em 50.250.000), $5.000 ( 1 chance la r numérico a cad a resultado de um experimento ale atório e um
em 25. 125.000), $200 ( I chance em 8.040.000), $ 125 ( l chance distribuiç ão de probabilidade assoc ia u m a probabilidade a cad
em 1.005.000) e um relógio no válor ele $89 ( I ch:l.I1ce em 3774). valor de uma va.ti áve! aleatória . Na maiori a dos exemplos e exe1
a. Determine o va lor esper:~do elo ganho para uma apos ta. cícios da Seção 4-2, d avam-se probabilidades pam os valo res d
b. Determi ne o valor esperado se o custo para participar desse variável a leató1ia; nesta se ção , vere mos com o determ inar as prc
sweepitake é o preço de um selo do correio. bab il idades p ara uma categor ia i mportan te d e dis tribu iç ão d
17.A vari>ível aleatóriaxreprescnta o número de meninas cm uma família probabilidades : os experimentos binomiais. Os expe rimento
de 3 fi lhos. [Sugestt1o: Admitindo que menino c menina sejam b inomiais têm a característica de apre se ntarem exa tamcnle doi
igualmente prováve is, ob.le mos !'!7."1 = 3/'15 atentando para este resultado<; c cmple m entares: em processos inclu5tria is , a <; peç a
espaço amostral · HHH, . !HM, HMH. H1YIM, M I·l[-f; l\1HM, tvllVIH, falh a m ou ll<io ral h am_ Na medic ina, u m pac iente ~obre v ive m
MMM.] Determine a média, a variil ncia e o des vio- pad rão da ano, ou m o1Te . Em pr opaganda, um cons umidor reconhe ce ur
variável aleatória x. Aplique a reg a prática (da Seção 2-5) para produto, ou não.
obter uma aprox imação dos valores mínimo e múx.imo de .L
18. A variável aleatória x represe nta o r úmero de meninos em uma
farru1ia com 4 filhos. (Veja Exercício 17.) Determine a média, a
[§)ffiU:I!NI §~i.©
variância e o desvio-padrão da variável aleatória x. A plique a re-
gra prática (Seção 2-5) para o bter uma aproximação elos valores
Um experimento b inomial é um experim ento q ue sat is-
mínimo e máximo de x.
19. A Menlo Park Electronics Company fabrica interruptores para si- faz a~ seguintes condições:
nais de tráfego. Um lo te de I O i nlt:rruptores tem 2 defeituosos. 1. O ex pe ri mento eleve co m portar um mímerofixo de pro-
Escolhidos aleatoriamente 2 intermptores desse lote (sem reposi- vas.
ção), represente pela vari ável a leatória x o número de intemiplo-
2. As provas devem ser indepe nden tes. (O re s ultado d e
res defeituosos. Determine a média, a variância c o desvio-padriío
da variável aleatória x. q ua lqu er pr ova não afeta as probabilid ades das o utras
20. Uma turma de estatística co mpr~ende 3 canhotos e 24 destros. provas .)
Selecionam-se aleatoriamente dois estudantes diferentes para um 3. C a d a p ro va deve ter todos os r esultados classificados
projeto de coleta ele dados, representando-se por x o número de em duas categorias. .
estudantes canho tos esco lhidos. Calcule a média, a variância e o 4 . A s probabilidades devem perma necer cons/arues p ara
desvio-pad rão ela variável aleatória x. [Sugestão: Aplique a regra da cada pro va.
multiplicação das probabilidades para achar primeiro P(O) e P (2)].
p =o,.s.o
1(\ " t')
"')._~"')
Distribuir,:ões de Probabilidade 99
q.. ~ o v""L

Se fazemos um experimento binomial, a distribuição da vari- !EXEMPLO Dado que 10% das pessoas são canhotas, suponha
ável aleatória x é chamada uma distribuição de probabilidade que queiramos achar a probabilidade de obter exatamente 3
binomial (ou distribuição binomia[). Usa-se comumente a seguin- estudantes canhotos em uma turma ele 15 estudantes. (Algu-
te notação. mas carteiras são adaptadas para estudantes canhotos, e a pro-
babilidade resultante poderia a:fetar o número de tais cartei-
ras a serem encomendadas para as salas de aula.) y ('I.) = o, i-=<.~
Not~çi5R. ·pa(a:· ~ 'ri(~i~i~iJiÇào~ Bi'nómià l .~ ·~ ~ ~ · . .. · · >-.:· -· a. Trata-se de um experimento binomial? .,
b . Em caso afirmativo, identifique os valores ele 11. x, p e q.
S e F (sucesso e falha) denotam as duas categorias possí-
veis de todos os resultados; p e q denotam as probabilida-