Você está na página 1de 91

('llnlir irrlrorlrtr.

iru;t
I )t,: l'Rr lttAtìn,n)AI)E l,lsllr olrr ir

[tlolrrrlrilirlirtlc c rt l,ìstlrtíslit it, It'ttrlrr


Ís'l'rt rA si<[o llirlrot'ir<[l ;rirtir irlrrtros rlrrs r'rrcirs

<k' < iôn< iirs lriolrigi< lrs, ('xlrlirs ('

hrrmanas. Ao corrtliilio rlt' orr(rrrs

rrItr'trlo Mlrgalhães textos e lcrlc'Ìì1iìr'('s, os ttilli<'os <lc

Estatística l)escritivir rriro Íìlrarrr


lur l't'rlt'rlsrl <lc [,ima
apresentados enì urìì Írnit o capítìrlo:

procurou-se i n trodrrzir csses conceil os

em paralelo corn outros tópicos mais


teóricos no decorrer do livro. Desse
modo,.buscou-se desenvolver ó texto
de forma similar ao uso prático da
Estatística, quando normalmente um

conjunto de dados é explorado


descritivamente antes da modelagem
e aplicação de técnicas estatísticas.

Não foi explicitado o uso de nenhum


software em particular, uma vez que se

procuroÌÌ enfatrzar as idéias envolvidas

e não a habilidade computacional.

Não obstante, vários exercícios -


apresentados ao {im de cada seção
e em uma seçào específica ao final

de cada capítulo - assumem o uso de

computadores para sua resolução e

alguns conjuntos de dados mais


extensos são disponibilizados na

internet, o que estimula o leitor 4

utilizar um programa computacional


com o qual tenha famiÌiariclade panì
ar rxíl io ttits t'csoltr'ç<-rcs.
"
)''

tÌrpyrlglrt O hy Mulcos Nascinrcnlo Magalhãcs c Arrtonio Carlos l)ctltoso clc Lima Prefácio da 6s edição
l" r'rliçÍo 1999 (lMli-tJSP)
J'' r'rlt1'rlo 2(XX)( lMll-l.JSl') Bste texto é fruto da nossa experiência de vários anos como professores clÕ
.1" crliçlio 2(X) I (lMli-tJSP) Departamento de Estatística do Instituto de Matentática e Estatística eln
crliçrìo 2(X)2 (lJclusp)
Unìversidade de São Paulo. Nesse período, foram ministradas diversas disciplinns
,1"

.1" crliçrìo 2{X}2 (Ddusp)


(rn ctliçlìo 2(X)4 (liclusp) lrírsicas de Estatística para cursos nas áreas de Ciências Humanas, Exatns e
Biológicas.
Buscamos enfatizar dois aspectos neste livro. O primeiro se refere $
l )utkrs lnlct nacionais dc Catalogação na Publicaçào (CIP)
(('iìnrala Ilrasileira do Livro, SP, Brasil) rcpartir a Estatística Descritiva ao longo do texto, suavizando, assim, a transiçilo
pariÌ Probabilidade e Variáveis Aleatórias. Em geral, os alunos sentem o impacto
<le uma maior formalizaçáo e, muitas vezes, não conseguem estabelecer o elo clc
Mttgrt lhilt's, Mitt cos Nascinrento
Nuçiics rlc I'robabilidade c Estatística / Marcos Nascimento
Mngllhitcs, Ânlonio Carlos Pcclroso cle Liml - ó ed. - São Paulo: ligação entre essas partes. Um segundo interesse é transmitir a importância dn
Jltlilurl tlu IJrtive lsichclc de São Paulo, 2004. - (Acadêmica; 40) colrputação na Estatística. Não atrelamos o texto a nenhum softvvare especíÍ:ico,
lllhliogr';r li,rt permitindo que o conhecimento computacional anterior dos estudantes pudesse ser
tstìN tì5-3 I 4-0ó77-3 incorporado, minimizando o desgaste de um novo aprendizado. Ressaltamos qUe
L listltísticl - llstuclo e Ensino 2. Matemática - Estudo e vários software disponíveis no mercado podem ser utilizados. Os arquivos
lirrsirur 3. lÌoltabiliclaclcs - Estudo e Ensino I. Título IL Série. mencionados no decorrer do livro estão disponíveis em www.ime.usp.br/-noproest
tì,1 0.171 cDD-5 t 9.507 juntamente com outras informações de interesse'
índicos para catálogo sistemático: O livro contém exercícios ao final de seções e capítulos. Os exercícios de
l, l1\lirlíslicl: Matcnriitica: Estudo e Ensino 519.507 seção são mais diretos e visam a aplicação imediata dos conceitos discutidos. Ao
2, lÌolrlhilitlrtilcs c Estatística: Maternática: fim de cada capítulo, um considerável número de exercícios ajuda os estudante$ nll
lisluclo c Errsino 519.507
fixação global das idéias apresentadas. Também são propostos exercícios ptlrn
serem desenvolvidos com a ajuda do computador. O principal objetivo desses
I)ll'cllns lcsclvltlos à
{i exercícios, é enfatizar as idéias estatísticas envolvidas e não a habilidncle
computacional. No Apêndice'8, "apresentamos as soluções comentadas dos
lklusp lulitrtrt tll [Jnivclsidade de São Paulo Coutro dç Ciêaerap Ldarcai{h a exercícios de séção e fornecemôs as respostas para os exercícios ímpares de fim de
Av, lÌrrl,l,rrciarto Gualbclto, Tlavcssa J,374 do ìì*hrreln
(Í'untlll lltl. rll Ântiga lìeitoria - Cidade Universitária Iiibirotecl capítulo.
0550tl U{X) .- Siìo l'uulo - SP - Brasil ll.. í:;,gilí''rs Em relação à edição anterior, a sextâ edição apresenta pequenfls
I)ivisalo (lrrucrcial: tcl. (Oxxl l) 3091-4008 / 3091-4150 rnodificações. Uma das figuras do Capítulo 7 foi mudadapara o Capítulo 6, locnl
SA(l (0xxl l) 3091-291 I - Fax (Oxxll) 3091-4151
que nos pareceu mais apropriado. Foram acrescentados exercícios em alguns
www,rrsp,lrr'/ctlusqr - c-mail: edusp@edu.usp.br 4658108 0\Íú/0s capítulos. Os erros em respostas, identificados até então, foram corrigidos,
cr|sEra
lrrslilulo rlc Mllcntítica c Estatística - IME-USP Pequenas alterações de redação também foram feitas. As mudanças, em relaçãO tì
Ituil rkr Millikr, l0l0 - Cidadc Universitária
quinta edição, estão listadas no endereço Internet mencionado acima.
0-55()t1"9(X) - S;io I'aulo - SP - Brasil
l)cplrlnnlcnt(ì tlc listatística - Tel. (Oxxl l) 3091-6129 / 3091-6130 Ao longo das várias edigões, diversos colegas contribuiram com sugestões,
('uixil lÌrslIl (r(),2tÌI - 05315-970 Entre eles destacamos Adilson Simonis, Cláudia Monteiro Peixoto, Clélia Tsloi,
rvww, irrx',rrsgr,lrr'/*ttoproest - c-mail: noproest@ime.usp.br Denise Botter, Elisabeti Kira, Elisete da Conceição Q. Aubin, Julio da Mottt
lÌ irt('(l iil llril/il l(X)4 Singer, Lighia B. Horodynski-Matsushigue, Lúcia P. Barroso, Marli Mikael,
Nelson Tanaka, Rinaldo Artes e Silvia Ferrari. Maria Cecília Camargo MagalhÍies
lroi leito o rlt'1tr1silo lcgal
vrt
vlu Prefácio

colnborou na revisão final da redação. A estudante Tatyana Maya Okano auxiliou


nn COrreção das respostas de vários exercícios. Apontamos, ainda, o recebimento Conteúdo
CJc vírrias mensagens eletrônicas com comentários e/ou sugestões. A todos que
Colnboraram, o nosso sincero muito obrigado. Agradecemos, ainda, aos alunos de
vÍlrias unidades da USP, que apontaram erros e deram sugestões. Finalmente,
gostaríamos de agradecer a Luís Ricardo Câmara, da ADUSP- Associação dos ì

Docentes da USP, pela diagramação das tabelas e auxílio na arte final de algumas
dns figuras apresentadas no texto.
Pedimos, desde já, desculpas pelos erros que serão eventualmente
identificados nesta nova edição. As críticas e sugestões de colegas e estudantes I
gcrão muito bem-vindas e, certamente, auxiliarão na rnelhoria da próxima versão.

São Paulo, janeiro de2004

Marcos N. Magalhães e Antonio Carlos P. Lima ì'


(marcos @ime.usp.br) (acarlos@ime.usp.br) '
Í

t"r
Conteúdo

Lista de Defïnições
2.r Probabilidade ......,........ .................... 38
2.2 Probabilidade condicional ............. ..................,,,42
2.3 Independência de eventos....... .........,44 .

2.4 Partição do espaço amostral ............46


3.r Função discreta de probabilidade ...........

3.2 Função de distribuição deprobabilidade ............63


3.3 Modelo Uniforme Discreto ........;.......... ..............68
3.4 Modelo Bernoulli ................... ......... 70
3.5 Modelo Binomial ................... ..........72

3.6 Modelo Geométrico ......78


3.7 Modelo Poisson ......,,,,,,79
3.8 Modelo Hipergeométrico ........... .....,82
4.1 Medidas de posição para um conjunto de dados .......,..,......,,94
4.2 Medidas de posição para variáveis aleatórias discretas ........................... 98
4.3 Amplitude de uma variável em um conjunto de dados ....,.. 103
4.4 Variância e desvio-padrão em um conjunto de dados ......... 104
4.5 Variância de uma variável aleatória discreta ....109
5.1 Função de probabilidade conjunta ............... ..,..128
5,2 Probabi lidade condicional para variáveis aleatórias discretas ............... 137

.5.3 Independência de variáveis aleatórias ..........,... 137


5.4 Correlação entre variáveis num conjunto de dados brutos ...........,.......,. l4l
5.5 Covariância de duas variáveis aleatórias .........,147
.5.(r Correlaçiro entre variáveis aleatórias ................. ................,.149

..t-,
xu Lista de Definições

6.1 Função densidade de probabilidade ........... ...... 168 Lista de Figuras


6,2 Medidas de posição paravariâveis aleatórias contínuas .....I73
6.3 Variância paravariâveis aleatórias contínuas .....................1,73
1.1 População e amostra
6.4 Modelo Uniforme Contínuo ..........177
Classificação de variáveis....'..'....... ........"'."",.,', d
r.2
6.5 Modelo Exponencial ................. .....180
Exemplos de gráficos publicados na imprensa ..:'....."""""" l2 '
1.3
6,6 Modelo Normal
t.4 DiagramacircularparaavariávelToler.....'.'. .'.....'..""""""13
7,1 Parâmetro
1.5 Gráfico de barras paÍa avariável Idade ......'.. ......."""':"""" 14
7,2 Estimador e estimativa .................. 208
Histograma paraavariável Peso .'.'....'. .'..'.......'.15
t.6
7.3 Vício ......... ..................213
1.7 Box-plot para o número de laranjas por caixa ...'........""""" 18
7.4 Consistência ................ ...................213
1.8 Box-plot para a variável Peso '.....'... ....'.....".'.....18
7,5 Eficiência ....................216 r.9 Box-plotda variável Peso para cada sexo .'.'......'."...'..'........ 19

2,1 Regra de adição de probabilidades .'....... ....'.,'..' 39

2.2 Regra do produto de probabilidades .'....... ....',,,,43

2.3 Árvore de probabilidades ......'.. ,...,.,45

2.4 Partição do espaço amostral (k : 6) .'....,""""" 46


3.1. Árvore de probabilidades - alterações no subsolo ...........'.,..60

3.2 Função de distribuição - doses de vacina ...........65

3.3 Modelo Uniforme Discreto [0, 10] .'...'...'.......,..,69

3.4 Gráfico de freqüências - natalidade em porcos .'."...'..'.........75

3.5 Modelo Geométrico (P: 0,0t) ..'.'7g


3.6 Modelo Poisson (À : 5) "..........."'.80
5.1 Independência de variáveis aleatórias '.....'.".."137
5.2 Valor esperado da soma de variáveis aleatórias ..'.'.'.':"'......"'.......'....'. 145
5,3 Valor esperado do produto e independôncia de variáveis aleatórias ..,..146
.5.4 Correlação para conjuntos de dados (brutos) .'.'.'....'.". '.'....151

5,.5 Covariância e correlação de variáveis aleatórias ..'............. l5l

xtu
.qft

I'islu ilct liigrtnts


rlv

5,6 Variância da soma de duas variáveis aleatórias """"""""" 151


6,1 Densidade Uniforme Contínua ""' 178 Lista de Tabelas
Densidade Exponencial """"""""' """""""""'180
.l lnformações de questionário estudantil - dados brutos
6,2 """""'1
6,3 Densidade Normal
""' 183 l

1.2 Tubela de freqüência para a variável Sexo """"" """""""""' 9


6.4 Aproximação Normal para o Modelo Binomial """"""""' 189 """"""""' 10
1,3 Tlbela de freqüência para a variável Idade ""'""
Histogramas para valores simulados da Binomial """"""""""""""""'
190
6.5 """"""""" I
1,4 Tabela de freqüência para a variável Peso """""
1

7.l Efeito de n na distribuição amostral de X - N(10,I6/n) """"""""""22I


de X """"" """"""224 L5 TabeladefreqüênciaparaavariávelTV""""""' """"""""'1l
7.2 Efeito do tamanho da amostra sobre a distribuição """" 100
4,1 Meclidas de tendência central
8.1 Erros associados a testes de hipóteses """"""'248
"""""""""" 11
4,2 Medidas de dispersão
1

8'2Representaçáográficadoserrosd'ep.,.'..... """"""""" 11
4,3 Propriedades da média e da variância """""""'
1

S.3Representaçáogrâficadaregiãoderejeição-unilateral...,.250 I l3
4,4 Modelos discretos- valor esperado e variância """"""""""""""""""" 187
8,4Representaçáogrâf\cadaregiãoderejeição-bilatera1 e variância """"""""""""""""""'
6, I Modelos contínuos- valor esperado
8.5 Poder """""""""' """"""'254
7,l Estimadores para média' proporção e variância """''"""""211
Função

8,6 EtaPas de um teste de hiPóteses """"'234


Intervalos de confianç apaÏa p e """""
p
1 ,2
8.7 Student """"""""""'259
9,I Comparação de médias para duas populações """"""""""309
Densidade ú-

8.8 """"""" """""""""264


Nível descritivo unilateral
com Hoi F : Fo """"""""'265
g,2 Tnbela de Análise de Variância (ANOVA) ""' 326
8.9 Regiões desfavoráveis num teste bilateral

8. l0 Nível descritivo bilateral"""""""' """""""""'266


8.1 I Densidade .Ïf e Região Crítica ""'27O

9.1 Cirsos na comparação de duas amostras """""""' """""""'295


9.2 Distribuição de Fisher- Snedecor """"""""""'317
9.3 Resíduos no modelo de regressão linear simples """"""""':""""""""'335
Capítulo L

Introdução à Análise Exploratôria de Dados

t.1 O que é Estatística?


Neste capítulo, pretendemos formalizar alguns conceitos que constitucrn tt
base de técnicas desenvolvidas com a finalidade de auxiliar a responder, de I'ortrtit
objetiva e segura, situações que envolvem uma grande quantidadc dc
irrformações. A utilização dessas técnicas, destinadas à análise de situitçõcs
complexas ou não, tem aumentado efaz parte de nosso cotidiano. Tome-sc' pof
cxemplo, as transmissões esportivas. Em jogos de futebol, o número cle
cscanteios, o número de faltas cometidas e o tempo de posse de bola são daclos
geralmente fornecidos ao telespectador e fazem com que as conclusões sobre qunl
time foi o melhor em campo, se tornem objetivas (não que isso impliqlle que
tcnlra sido o vencedor...). O que tem levado a essa quantificação de nossas viclus
no dia a dia? Um fator importante é a populatizaçáo dos computadores. No
passado, tratar uma grande massa de números era uma tarefa custosa e cansativtt,
que exigia horas de trabalho tedioso. Recentemente, no entanto, grnnCle
quantidade de informações pode ser analisada rapidamente com um computudor
pessoal e pfogramas adequados. Desta forma, o computador contribui,
positivamente, na difusão e uso de métodos estatísticos. Por outro lado, o
computador possibilita uma automação que pode levar um indivíduo serÌ prepilro
específico a:utilizar técnicas inadequadas para resolver um dado problema. Assitrt,
é necessário a compreensão dos conceitos básicos da Estatística, bem como 0s
suposições necessárias para o seu uso de forma criteriosa. Entendemos it
Estatística como um conjunto de técnicas que permite, de forma sistemátictt,
organizar, descrever, analisar e interpretat dados oriundos de estudos tltt
experimentos, realizados em qualquer ârea do conhecimento- Estatrtos
denominando por dados um (ou mais) conjunto de valores, numéricos ou nito. A
aplicabilidade das técnicas a serem discutidas se dá nas mais variadas árels tln
atividade humana.
A grosso modo podemos dividir a Estatística em três áreas:
o Estatística Descritiva
o Probabilidade
i o Inferência Estatística

I
Capítulo 1: Introdução à Análise Exploratória de Dados l.lOqueéEstatística?

Estatística Descritiva é, em geral, utilizada na etapa inicial da análise, cle funcionamento das lâmpadas produzidas por uma indústria, não podemOS
cprlndo tomamos contato com os dados pela primeira vez. Objetivando tirar observar toda população de interesse.
conclusões de modo informal e direto, a maneira mais simples seria a observação Tendo em vista as dificuldades de várias naturezas para se observal todos
tlos valores colhidos. Entretanto, ao depararmos com uma grande massa de dados, os elementos da população, tomaremos alguns deles para formar um grupo iì Ser
lrcrcebemos, imediatamente, que a tarefa pode não ser simples. Para tentar cstudado. Este subconjunto da população, em geral com dimensão sensivelmentC
depreender dos dados informações a respeito do fenômeno sob estudo, é preciso rrìenor, é denominado amostra. A Figura 1.1 ilustra as etapas da anólige
irplicar alguma técnica que nos permita resumir a informação daquele particular cstatística.
conjunto de valores. Em outras palavras, a estatística descritiva pode ser definida
cotììo urn conjunto de técnicas destinadas a descrever e resumir os dados, a fim de
quc possamos tirar conclusões a respeito de características de interesse.
Probabilidade pode ser pensada.como a teoria matemática utilizada para
sc cstudarr a incerteza oriunda de fenômenos de caráter aleatório. Apesar de ser
urrrn írrea extremamente atraente e estudada do ponto de vista matemático,
abordaremos, aqui, apenas os aspectos necessários para as técnicas estatísticas
irprcsentadas neste livro. Amostra
Inferência Estatística é o estudo de técnicas que possibilitam a w
cxtrapolação, a um grande conjunto de dados, das informações e conclusões
obtidas a partir de subconjuntos de valores, usualmente de dimensão muito
ffìenor. Deve ser notado que, se tivermos acesso a todos os elementos que
clesejamos estudar, não é necessário o uso das técnicas de inferência estatística.
Entretanto, elas são indispensáveis quando existe a impossibilidade de acesso a
todo o conjunto de dados, por razões de natureza econômica, ética ou física.
Estudos complexos que envolvem o tratamento estatístico dos dados,
tusnalrnente, incluem as três áreas mencionadas acima. Na terminologia estatística,
o grande conjunto de dados que contém a característica que temos interesse Figura 1.1: População e amostra.
reccbc o nome de população. Esse termo refere-se não somente a uma coleção de
inclivícluos, mas também ao alvo sobre o qual reside nosso interesse. Assim, nossa A seleção da amostra pode ser feita de várias maneiras, dependendo, entre
populnçiro pode ser tanto todos os habitantes de Sorocaba, como todas as ()lrlr'os Íhtores, do grau de conhecimento que temos da população, da quantidade
lârnpaclas produzidas por uma fátbrica em um certo período de tempo, ou todo o rlc rccursos disponíveis e assim por diante. Devemos ressaltar que, em princípio, A
sarìgue no corpo de uma pessoa. Algumas vezes podemos acessar toda a sr:lcçiro da amostra tenta fornecer um subconjunto de valores o mais pareciclo
po;lulação para estudarmos características de interesse, mas, em muitas situações, possívcl com a população que lhe dá origem. A amostragem mais usada é a
tal llroccciirnento não pode ser realizado. Em geral, razões econômicas são as mais (rtt!o,\lru r:ustral simples, em que selecionamos ao acaso, com olt sem reposiç:âo, os
clctclrninantes dessas situações. Por exemplo, uma empresa, usualmente, não ilcrrs da população que farão parte da amostra.
dispõo clc vcrba suficiente para saber o que pensam todos os consumidores de Eventualmente, se tivermos informações adicionais a respeito cltt
scus proclutos. Hir ainda razões éticas, quando, por exemplo, os experimentos de lrrrlrrrlirçlio de interesse, podemos utilizar outros esquemas de amostragem muis
lttlornttilio cnvolvem o uso de seres vivos. Além disso, existem casos em que a soÍ'isticuclos. Por exemplo, se numa cidade, tivermos mais mulheres do clue
irnpossillilitltclc clc sc accssárr toda a população de interesse é incontomável. Na 111y111çlrs, podernos selecionar um certo número de indivíduos entre as'mulheres e

tndlisc rlo sirngr"rc cle unra pessoiÌ ou em um experimento para determinar o tempo outl'o núnrero entre os homens. Esse procedimento é conhecido colno
(tt,toslt'o!:ct"tt. astraíificada. Outras vezes, pode existir uma relação numeradl dOS
-"--qt

Capítulo I: Introdução à Análise Exploratória de Dados 1.2 Organização de Dados

itens da populagão (uma lista de referência) que nos permitiria utilizar a chamada 3. Discuta, para cadaum dos casos abaixo, os cuidados que precisam ser tomadOa
1mostragem sistemática em que selecionamos os indivíduos de forma pré- para garantir uma boa conclusão a partir da amostra.
determinada, por exemplo de 8 em 8 ou de 10 em 10. Outros esquemas de a. Um grupo de crianças será escolhido para receber uma nova vacina contra
ilmostragem poderiam ser citados e todos fazem parte da chamada Teoria da meningite.
Amostragem, cujos detalhes não serão aprofundados neste livro. Assim sendo, b. Sorteamos um certo número de donas de casa, para testar um novo sabEO en
terminamos esta seção mencionando que quanto mais complexa for a amostragem' pó.
maiores cuidados deverão ser tomados nas análises estatísticas utilizadas; em c. Uma fâbrica deseja saber se sua produção de biscoitos está com o ssbof
contrapartida, o uso de esquemas de amostragem mais elaborados pode levar a previsto.
uma diminuição no tamanho de amostra necessário para uma dada precisão. d. Aceitação popular de um certo projeto do governo.

Exercícios da Seção 1.L: 1.2 Organização de Dados


1. Classifique em verdadeiro ou falso as seguintes afirmações: Nesta seção, discutiremos alguns procedimentos que podem ser utilizados
a. Estatística é um conjunto de técnicas destinadas aorganizar um conjunto de pnrt organizar e descrever um conjunto de dados, seja em uma populaçãO OU em
valores numéricos. ulìB omostra. Veremos como conceitos relacionados à Teoria das Probabilidades
b. Sempre que estivermos trabalhando com números, deveremos utilizar a 11pnrecem naturalmente, levando-nos, assim, a uma exposição maiS criteriosa dO
Inferência Estatística. Rssullto.
c. A Estatística Descritiva fornece uma maneira adequada de tratar um A questão inicial é: dado um conjunto de dados, como "tratar" os vttlofeE,
conjunto de valores, numéricos ou não, com a finalidade de conhecermos o nurnéricos ou não, a fim de se extrair informações a respeito de uma ou mAlC
fenômeno de interesse. elllctcrísticas de interesse? Basicamente, faremos uso de tabelas de freqüênclas e
d. Qualquer amostra representa, de forma adequada, uma população. grc'('icos, notando que tais procedimentos devem levar em conta a natUreZ& dOÊ
e. As técnicas estatísticas não são adequadas para casos que envolvam dnelos,
experimentos destrutivos como, por exemplo, queima de equipamentos, Suponha, por exemplo, que um questionário foi aplicado aos alunog do
destruição de corpos de provas, etc. prirneiro ano de uma escola fornecendo as seguintes informações:

2, Para as situações descritas a seguir, identifique a população e a amostfa Id: identificação do aluno
correspondente. Discuta a validade do processo.de inferência estatística para Turma: turma a que o aluno foi alocado (A ou B)
cada um dos casos. Scxo: F se feminino, M se masculino
a. Para avaliar a eficá'cia de uma campanha de vacinação no Estado de São Iclade: idade em anos
Paulo, 200 mães de recém-nascidos, durante o primeiro semestre de um Alt: altura em metros
dado ano e em uma dada maternidade em São Paulo, foram entrevistadas a Peso: peso em quilogramas
respeito da última vez em que vacinaram seus.filhos.
lìilhos: número de filhos na famíli'a
b. Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. Ílumn: hábito de fumar, sim ou não
c. Para verificar a audiência de um programa de TV, 563 indivíduos foram Toler: tolerância ao cigarro:
entrevistados por telefone com relação ao canal em que estavam (I) indif'erente, (P) incomoda pouco e (M) incomoda muito
sintonizados.
d. A fim de avaliar a intenção de voto para presidente dos brasileiros, 122
pessoas foram entrevistadas em Brasília.
. -Edl

Capítulo I: Introdução à Análise Exploratória de Dados 1.2 Organização de Dados 7

Exerc: horas de atividade física, por semana


Cine: número de vezes em que vai ao cinema por semana Tabela 1,1: Informações de questiondrio estudantil - dados brutos,
OpCine: opinião a respeito das salas de cinema na cidade:
.[d Turma Sexo Idade AIt Peso Filh Fuma Toler Exer Cine Opcine TV OpTV
(B) regular a boa e (M) muito boa
TV: horas gastas assistindo TV, por semana 1.AF 1,7 L,60 60 ,5 2 NAO P 01- 81.6R
2AF 18 1,69 55,0 1 NAO M 01 B7R
OpTV: opinião a respeito da qualidade da programação na TV: 3AM 1,8 L,85 12,8 2 NAO P 52 M1.5R
(R) ruim, (M) média, (B) boa e (N) não sabe 4AM l-, 85 80, 9 2 NAO P 52 B20R
5AF 19 1", s8 55, 0 l- NAO M B5R
6AM 19 1_,76 60,0 3 NAO M a1 13 Z .b{

7\F 20 1,60 58.0 1 NAO P 3l- B7R


O conjunto de informações disponíveis, após a tabulação do questionário BAF l-8 L,64 41,0 3- SIM I MlOR
ou pesquisa de campo, é denominado de tabela de dados brutos e contém os 9ÀF t_8 L,62 57,8 3 NAO M M1-2R
IOAF T7 t,64 58,0 2 NAO M 22 MlOR
daclos da maneira que foram coletados inicialmente. Os valores obtidos para cada 11 À F l-8 r,72 70,0 L SIM I 102 B8N
uma dessas informações estão apresentados na Tabela 1.1. Cada uma das 12 A F 18 L,66 54,0 3 NAO M 02 BOR
13 A F a1 L,70 58,0 2 NAO M 6t M 30 R
Características perguntadas aos alunos, tais como o peso, a idade e a altura, entre T4AM I9 1, 78 68, 5 l- SIM I 5l_ M2N
outras, é denominada de variável. Assim, a variável Altura assume os valores 15AF 18 1,65 63,5 l- NAO I 41- BlOR
16AF 7,63 47 ,4 NAO P 01 B18R
(em metros) 1,60; 1,58;... e a variável Turma assume os valores Á ou B.
t-9 3
LTAF L7 1.,82 66 ,0 r NAO P 31 BlON
Claramente tais variáveis têm naturezas diferentes no que tange aos possíveis 1g À M 1"8 1-,80 85,2 2 NAO P 34 BlOR
19 A F 20 1,,60 54,5 t NAO P 11 B5R
valores que podem assumir. Tal fato deve ser levado em conta nas análises e, para 30 A F l_8 L,68 52,5 3 NAO M 1) B14M
fixar idéias, vamos considerar dois grandes tipos de'variáveis: numéricas e não 11 A F 2L 1.,70 60,0 2 NAO P 82 B5R
22ÀF 18 1,65 58,5 1 NAO M 03 B5R
numéricas. As numéricas serão denominadas quantitativas, ao passo que as não 33 À F L8 1,57 49 ,2 1 SfM I 54 BlOR
numéricas, qualitativ as. 24AF 20 L,55 48,0 1 SIM T 01 M 28 R
25 A F )^ 1.,69 57,6 2 NAO P M4N
A variável é qualitativa quando os possíveis valores que assume B6 A F. L9 L,54 51,0 2 NAO I 62
82
B5R
M5R
representam atributos e/ou qualidades. Se tais variáveis têm uma ordenação 3'/ B F z3 L,62 63 ,0 2 NAO M
3E B F 18 L,62 52,0 1 NAO P 1"1 MlOR
natural, indicando intensidades crescentes de realizaçáo, então elas serão 39 B F 18 L,57 49,0 2 NAO P 3L BL2R
30 E F 25 t,65 59,0 4 NAO M 12 M2R
ctassificadas como qualitativas ordinais. Caso contrário, quando não é possível 31 B F 18 t,6L 52,0 1- NAO P 22 M6N
estabelecer uma ordem natural entre seus valores, elas são classificadas como 3ã E M 17 L,71. 73 ,0 L NAO P 1L B 20 R
ã3 B F t,65 56,0 NAO 21 BL4R
qualitativas nominais. Variáveis tais como Turma (A ou B), Sexo (feminino ou
T7 3 M
34 ll F L7 r,67 58,0 L NAO M 42 BlOR
masculino) e Fuma (sim ou não) são variáveis qualitativas nominais. Por outro 1E li M J.õ 1",73 87,0 r NAO M 7L B25B
16 t! Ir 18 r,60 47,0 t NAO P 51 M14R
lndo, variáveis como Tamanho (pequeno, médio ou grande), Classe Social (baixa, 1't 11 M 77 1,70 95,0 1 NAO P 1-0 2 M12N
rnódia ou alta) são variáveis qualitativas ordinais. ãË t1 M 2L L,85 84,0 1 SIM T 64 B],OR
19 11 10 1,70 60,0 1 NAO P 52 BT2R
Variáveis quantitativas, isto é, variáveis de natureza numérica, podem ser 4L
1,'

4r.) B M 1A 1,73 '73 ,0 1 NAO M B2R


subdivididas em discretas e contínuas. A grosso modo, variáveis quantitativas 41 t] F 1,70 55,0 NAO f 54 BlOB
4ã Fr F'
L7
23 1,45 44,0
1
2 NAO M )) B 25 R
discretas podem ser vistas como resultantes de contagens, assumindo assim, em 41 HM 24 I,76 75,0 2 NAO I 70 M1.4N
geral, valores inteiros. De uma maneira mais formal, o conjunto dos valores 44DF L8 1,68 55,0 1 NAO P 51 B8R
4F F F 18 1,55 49,0 NAO 01 MlOR
assumidos é finito ou enumerâvel. Jâ as variáveis quantitativas contínuas
1 M
4€ E TI L9 1,70 50,0 7 NAO M 01 B8R
assumem valores em intervalos dos números reais e, geralmente, são provenientes 478Iil 19 1,5s 54,5 2 NAO M 43 B3R
4E H F 18 r., 60 50, 0 I NAO 2L B5R
de uma mensuração. Por exemplo, Número de Irmãos (0, I,2, ...) e Número de
P
éS H M t7 L,8o 71,o 1 NAO P "t0 M1.4R
Def'eitos (0, 1,2,.,.) são discretas, enquanto que Peso e Altura são quantitativas h0 11 M 1B 1,83 86,0 L NAO P 70 M 20 B

contÍnufls.
Capítulo I: Introdução à Anólise Exploraúrta de Dados 1.2 Organízação de Dados I

Resumimos a classificação das variáveis no esquema apresentado na Apesar de conter muita informaçáo, a tabela de dados brutos pode nãO Sef
Figura I.2 (atítulo de exercício, tente classificar todas as variáveis da Tabela 1.1). prática pu.u r"rpondermos às questões de interesse. Por exemplo, da Tabela 1'1
rriro é imediato dizer se os alunos se incomodam muito ou pouco com Os
l'umantes. Porlanto, a partir da tabela de dados brutos, vamos construir UmO nOvtl
Nominal t1$ela com as informações resumidas, para cada variável. Essa tabela Sefd
clenominada de tabela de freqüência e, como o nome indica, conterá os valOfeg dA
virriável e suas respectivas contagens, as quais são denominadas freqüênelAEq
' -.ordinal ttbsolutas ou simplesmente, freqüências. No caso de variáveis qualitativas OU
-a"Qualitativa tprantitativas discretas, a tabela de freqüência consiste em listar os valorog
Variável
possíveis da variável, numéricos ou não e fazer a contagem na tabela de dadOg
\ 'Quantitativ u 1--""-Discreta lrrutos do número de suas ocorrências. Representaremos por n; a freqüência dq
.-,contínua vulor i e por ?? a freqüência total. Para efeito de comparação com outros grupOS
ou conjunìos de dadoi, será conveniente acrescentarmos uma coluna na tabela de
lì.oqüência contendo o cálculo da freqüência relativa, definida por fi = U/t\:,
Convém notar que, quando estivermos comparando dois grupos com relaçãO àS
freqiiências de ocorrência dos valores de uma dada variável, grupos cgm Um
1.2: Classificação de varidveis. número total de dados maior tendem a ter maiores freqüências de ocorrência dos
liSura
vtlores da variável. Desta forma, o uso da freqüência relativa vem resolver èBte
Vale ressaltar que, em muitas situações práticas, a classificação depende problema.
de certas particularidades. Por exemplo, a variável ldade, medida em número de A Tabela 1.2 apresenta as freqüências para a variável Sexo, obtida a p0rtir
anOS, pode ser vista como discreta, entretanto, Se levarmos em conta os dias, não é cln Tubela I .1.
absurdo falar que a idade ê 2,5 ou 2,85 anos, dando assim respaldo para classificá-
la como contínua. Por outro lado, dependendo da precisão do instrumento
utilizado para se obter medidas em um objeto, podemos ter limitações no número Tabela 1.2: Tabela de freqüêncía para a variúvel Sexo.
cle casas decimais e uma variável de mensuração pode se "tornar" discreta. E
Sexo n,i .ït
importante salientar que a classificação apresentada acima se refere à natureza da t t'7
variável e, em geral, devemos utilizar o bom senso na hora de decidir qual F dí 0,74
procedimento adotar para caracterizar uma variável. Para salientar tal fato, M 13 0,26
menciOnamos que podemos, inclusive, discretizar uma variável contínua para total n:50 1

obter uma melhor representação da ocorrência de seus valores no conjunto de


dirclos.
Outro ponto que pode trazer confusão é que, muitas vezes, na utilização Note que, para variáveis cujos valores possuem ordenação n0tufel
Cle programas computacionais, associamos códigos numéricos a uma variável (eluglitltivas ordinais e quantitativas em geral), faz sentido incluirmos também
qqalitativa. Por exemplo na Tabela 1.1, pode-se associar ao sexo feminino o valor urttrt coluna contendo asJreqüências acumuladas Ír,,'' Afreqüência acumulada at&
I e ao masculino 2. Apesar da variável ser representada por valores numéricos, un1 cefto valor é obtida pela soma das freqüências de todos os valores da variúvel,
issO não a torna uma variável quantitativa. Novamente, vemos que a natureza da tncnorcs ou iguais ao vator considerado. Sua utilidade principal é ajudor o
vnriável deve sempre ser levada em conta na hora de se interpretar resultados estu$eleccr pontos de corte com uma determinada freqüência nos valores da
obtidos na análise descritiva. vurióvel. Poi exemplo, na Tabela t .3, observamos que 907o dos alunos tôm idadcs
rrté 2l unos, cle fato úé 22, umâ vez que este valor tem Í'reqiiência zero.
l0 Capítulo 1: Introdução à Análise Exploratória de Dados L2 Organização de Dados il

Tabela 1.4: Tabela de freqüêncía para a varídvel Peso.


Tabela 1.3: Tabela de freqüência para a varíável ldade,
Peso fl,4 lt. fo"
Idade TLi .ft .f o" 40,01-- 50,0 B 0,16 0,16
L7 9 0,18 0,18 50,0 F 60,0 22 0,44 0,60
18 22 0,44 0,62 60,0 l-- 70,0 8 0,16 0,76
19 I 0,L4 0,76 70,0 F 80,0 6 0,L2 0,BB
20 4 0,08 0,84 80,0 t-- 90,0 5 0,10 0,98
2L
22
.1

0
0,06
0
0,90
0,90
90,0 F 100,0 1 0',02 1,00
ôt total 50 1
ZJ 2 0,04 0,94
24 1 0,02 0,96
25 2 0,04 1,00 Vamos estudar, agora, a situação em que a variável é por natureza
total n:50 1 cliscreta, mas o conjunto de possíveis valores é muito grande. Por exemplo, a
vflriável TV, definida como o número de horas assistindo televisão, tem valores
inteiros entre 0 e 30 e uma tabela representando seus valores e respectivas
Com relação à variável Peso, lembremos que foi classificada como Íieqüências seria muito extensa e pouco prática. O caminho adequado, nesse caso,
quantitativa contínua e assim, teoricamente, seus valores podem ser qualquer é trotar a variável como se fosse contínua e criar faixas para representar seus
número real num certo intervalo. Aqui os valores variam entre 44,0 e 95,0 kg e vulores. Assim, passamos a tratar como contínua uma variável que seria,
foram medidos com apenas uma casa decimal. Ainda assim, existe um grande originnlmente, classificada como discreta.
número de valores diferentes de modo que, se a tabela de freqüência fosse feita
nos mesmos moldes dos casos anteriores, obteríamos praticamente os valores Tabela 1.5: Tabela de freqüência para a variável TV.
originais da tabela de dados brutos. A alternativa que vamos adotar consiste em
construir classes ou faixas de valores e contar o número de ocorrências em cada TV ni .ft fu"
laixa. Para a variável Peso, usamos faixas de amplitude 10, iniciando em 40 kg. 0F-6 L4 0,28 0,28
Na Tabela 1.4, escolhemos incluir o extremo inferior e excluir o superior. Dessa
I'orma, a freqüência da faixa 40,0 F 50,0 não incluiu os alunos 46 e 48 que
6- 12 t7 0,34 0,62

tinham peso igual a 50,0 kg. A opção de qual extremo incluir pode ser arbitrátria,
12- 18 11 0,22 0,84
18 t- 24 4 0,08 0,92
n"ìos o importante é indicar claramente quais são os valores que estão sendo
conterdos em cada faixa. 24l---136 4 0,08 1,00
Apesar de não adotarmos nenhuma regra formal quanto ao total de faixas, total 50 1

utilizarnos, em geral, de 5 a 8 faixas com mesma amplitude. Entretanto,


ressaltamos que faixas de tamanho desigual podem ser convenientes para
A organização dos dados em tabelas de freqüência proporciona um meio
representar valores nas extremidades da tabela.
cl'icitz cle estudo do comportamento de características de interesse. Muitas vezes, tt
irríbrnração contida nas tabelas pode ser mais faci'lmente visualizada através dc
grírl'icos. Meios de comunicação apresentam, diariamente, gráficos das mais
vlriiÌdils formas para auxiliar na apresentação das informações. Órgãos públicos e
('nìprcsos sc municiom de grírficos e tabelas em documentos internos e relatórios
--- qFFF TF
1,2 Organtzação de Dados
t) Cttpftulrt l; hilnxluçiltt à Antilise ll.rplorutórfu dt l)urlt*

equivocodâír, Obviamente, questões de manipulação incorreta da informação


de atividades e desempenho. Graças à proliferação de recufsos gráficos, cuja p,id.* ocorrer em qualqueí e,"7: nã: cabe culpar a Estatística' O uso e a
Cçnstrução tem sido cada vez mais simplificada em programas computacionais, divulgação ética e criteriôra de dados devem ser
pré-requisitos indispensáveis e

cxiste hoje uma infinidade de tipos de gráficos que podem ser utilizados' Como inegociárveis.
ilustraçãõ deste ponto, apresentamos na Figura 1.3 alguns gráficos publicados em pizza, barras çt
vamos definir três tipos básicos de gráficos: disco ou
na gráfica pode sef
írrgãos de imprensa. li$t(,t4ruma. como dissemos, a criatividade apresentação
entre vários' de
inrerrsa e os gráficos que discutiremos sintetizam três caminhos,
CIìÉDIO representação.
'grâfico circular, se adapta muito
RU|ìAT
EVOLUÇÃO DO LUCRO tiQÜIDO
o de d.isco, otr pizza, ou ainda diagrama
em repartir um disco em setores
U$$ MII"HÓES RECURSOS PROPRIOS
hem às variáveis qualitativas nominais. consiste
circularescorrespondentesàsporcentagensdecadlvalor,calculadas
freqüência
exemplo, O,20 de
rnnltiplicando-se por 100 a freqüêncìa relativã f6.Por
relativa a207o o-ã u"' que 100 x 0'20:20' AFigura 1'4 apresenta
"o.r"rpond" da Tabela 1.1. Note que
o cliagrama de disco para avariável Tol-er, obljd^a.a .nartir
fntiir correspondentè à categoria "indiferente" foi destacada.
'

12,ç t5,9 E[/ SIR = 22'l 0Ì


LLiPLTO 8,9 No D[ C0NTRATCìS

VALO|ìES A-IUATIZADOS NOS IüOIDES DA COR|ìEÇAO INÏEGRAI

RECURSOS HUMANOS RECURSOS HUN/ANOS

DrsTRrBUrÇÂO POR ruívrL HtrnRRSUtCO


DISIRISUÇÂO POR ESCOLARiDADE

ls I t
e=
t

Figura 7.4: Diagrama circalar pard ü varilúvel Toler'


' ===
,= ográficodebarrasut\|\zaoplanocartesianocomosvaloresdavariável
TSCR Ï
== no eixo das abiissas e as freqüênciai ou porcentagens no
eixo das ordenadas'
barra com altuf8
Note que píIia cada valor ãa variável desenha-se uma
CAIMS

de gráfico se adapta
==GÍou == ,nrr"rptnd"rrdo à sua freqüência ou porcentagem. Esse tipo
23,891
l. GÍor
== 2Ô

==
SuPeÍior

rnelhoi às variáveis discretas ou qualitativas ordinais'

Figura 1.3: Exemplos de grdficos publicados na im'prensa'

Deve ser notado, entretanto, que a utilização de recursos visuais na


criação de gráficos deve ser f'eita cuidadosamente; um gráfico desproporcional em
suas medidãs pode dar falst impressão de desempenho e conduzir a conclusões
t4 Capítulo l: Introdução à Aruilise Exploratória de Dados 1.2 Organização de Dados t5

em cada faixa são homogeneamente distribuídas, para um mesmo retângulo, fatias


de mesmo tamanho contém uma mesma porcentagem de observações. Apesar do
suposição de homogeneidade não ser sempre verificada, ela é bastante razoávol
em muitas situações e pode ser uma boa aproximação da realidade.
25

20 \r
.g
t;
oc
e15
E
L
$ru'
10

18 le 20
,í1"

Fígura 1.5: Gráftco de barras para a varíável ldade.

/-'t'
O histograma consiste em retângulos contíguos com base nas faixas de 40x {)
I
60 70 80 90 100
valores da variável e com área igual à freqüência relativa da respectiva faixa. .?- Peso '

Dessa forma, a altura de cada retângulo é denominada densidade de freqüência oa Figura 1.6: Histograma para a variável Peso.
simplesmente densidade definida pelo quociente da âreapela amplitude da faixa.
Para a variável peso, as densidades de cada faixa podem ser obtidas dividindo-se a Exemplo 1.1.' Vamos calcular a mediana da variável Peso através do histogramÊ,
coluna fi da Tabela 1.4 por 10, que é a amplitude de cada faixa. O histograma Inicialmente identificamos o retângulo que deve conter a mediana. Uma simplos
correspondente a essa variável é apresentado na Figura 1.6. Note que incluímos, soma das áreas resulta que a mediana pertence ao intervalo [50,0; 60,0), uma vsz
no topo de cada retângulo, a porcentagem de observações correspondente, para eluc até o valor 60,0 temos acumuladas 607o das observações. Dentro dessa faixa,
fìtci I itar a interpretação. precisamos determinar um retângulo com área igual a 34Vo, que é o que falta para
É importante ressaltar que alguns autores utilizam a freqüência absoluta rrÍingir o valor 50Vo. A situação é ilustrada na figura a seguir, cujo retângulo
ou porcentagem na construção do histograma. Preferimos o uso da densidade de procurado está marcado com área mais escura.
Íì'eqüência, pois ela faz çom que o histograma não fique distorcido, quando Com uso de proporções, estabelecemos a seguinte igualdade:
amplitudes diferentes são utilizadas nas faixas. Uma outra vantagem diz respeito à
relação entre histograma e gráfico da função densidade de probabilidade, que será mdor,,- 50 _ 60 - 50 lo
visto mais adiante. 0,34 0,44
O histograma também pode ser utilizado no cálculo da mediana (mdor,),
que é o valor da variável que divide o conjunto de dados ordenados em dois
subgrupos de mesmo tamanho, Isto é, das observações ordenadas, 507o estão f;,li4 .,t. - JJ-' i,!t
rn , 1í-,
rtlt
abaixo e 507o estão acima da mediana. Assumindo que as observações da variável r ), ,lr,
-,-'ì
,I''

"r'qr

t6 Capítulo 1: Introdução à AnáIise Exploratória de Dados 1.2 Organização de Dados I7

q)
E
p
0,05 .,,'60-
'--'^ú
a 6r,'6Ò ''
o
(D

o,o+ C,t\
í:

0,03
',r"r''",'4'
o,o2

0,01

0,0

50 60
mdot, Qt Peso

l)c I'orma semelhante, obtemos para o terceiro quartil Qs : 69,38 kg. tr


Daí segue qtte mdo6, : 57,73kg. tr
Para o cálculo de quartis e medianas usando a tabela de dados brutos,
O conceito de mediana, que será considerado ern detalhes no Capítulo
4' prccisamos ordenar as observações e escolher os valores que dividem os dados
pode ser generalizado para situações em que o conjunto de dados é dividido em
nits proporções desejadas. Eventualmente, será necessário tomar médias de
mais do q:ue dois subgrupos' Um caso importante é aquele -em que dividimos
o
vulores vizinhos. No caso de tabelas de freqüências, os dadosjá estão ordenadoË Ê
conjunto em quatro iubg*pot. Para tanto, deveremos determinar' além da ru procedimento é similar.
rn"ãiunu, dois valores tais quã 25Vo das observações ordenadas estarão abaixo
de
Uma representação grâfica envolvendo os quartis ê o box-plot Definimoa,
um deles e 75Vo estarão abaixo do outro' Tais valores são denominados' ul'nn "caixa" com o nível superior dado pelo terceiro quartil e o nível inferior pelo
respectivamente, primeiro quartil e terceiro quartil, Usualmente representados plirneiro quartil. A mediana é representada por um traço no interior da caixa o
poi 8r e Q3. Note que a mediana, discutida anteriormerrte, representa o segundo seglÌlcntos de reta são colocados da caixa até os valores máximo e mínimo, que
q""ríii. O cálculo ãos valores dos quartis também pode ser feito através do rrÍlo scjam observações discrepantes (o critério para decidir se uma observaçãío é
histograma, conforme mostrado no exemplo a seguir. tliscrcpante não será discutido aqui, mas, em geral, envolve a diferença entre o
tercciro e o primeiro quartis)- O próximo exemplo ilustra a construção do box-plot
Exemplo 1.2; No Exemplo 1.1, o valor da mediana (segUndo quartil) calculado
pnrt uma variável quantitativa discreta utilizando-se os dados brutos.
atravéì do histogram u, é 57,73 kg. De forma semelhante, vemos que o valor do
primeiro quartii também se encontra no intervalo [50,0; 60,0)' isto é' Ilwtttplo 1.3.' Suponha que um produtor de laranjas costuma guardar as frutns cm
correrpondãrâ ao valor 8r que determinará uma âtea de 9Vo no retângulo cuixus c estír interessado em estudar o número de laranjas por caixa. Após um dia
correspondente. Assim, temos (ver figura a seguir) rle colhcita, 20 caixas foram contadas. Os resultados brutos, após a ordennção,
silo: 22, 29, 33, 35, 35, 37, 38, 43, 43, 44y 48, 48, 52, 53, 55, 57, 61, 62, 67 e 69,
: *=
Q^=
0,09
=-!o lo + Qt:52,,05kg' lÌrrrr osses dados, temos qüe md,,6, ilfOo+ 11s) l2 : (44+48) 12 = 46,
Annlogarnente, obtemos Qr : 36 e Qs :56. Também observamos que o número
0,44
'

r(-

\,i',, 511,,\ ''i I r(. ,


l,.l ()rganização de Dados t9
18 Capítulo 1: Introdução à Análise Exploratória de Dados

o número máximo, 69. O box-Plot Gráficos tipo box-plol também são úteis para detectar, descritivamentc,
mínimo de laranjas em uma caixa é' 22 e
rliÍirl'crrças nos comportamentos de grupos de variáveis. Por exemplo, poclemos
correspondente é apresentado na Figura 1'7'
tturrsitlornr gráficos da variável Peso para cada sexo. O resultado é apresentado nn
l'jigrrlir 1,9, em que podemos notar que os homens apresentam peso mediano
atrllet'iur ito das mulheres, além de uma maior variabilidade'

60 100

90

3so
e 80
E
J

40
En
o
Í!
I

60

30 50
I

40 I I

F M
20
Sexo

Figara 1.7. Box'plot para o número de laranjas por caixa' Irigura 1.9: Box'plot da variável Peso para cada sexo,

A representaçáo grá,ficaatravés do box-plot é bastante rica no sentido de


llxerr'Íclos tll Scção 1.2:
informar, entre outras coisas, a variabilidade e simetria dos dados' Note'que na
Figura 1.7 os dados apresentam simetria acentuada (a distância da mediana para l, tlllssil'ique cacla uma das variáveis abaixo em qualitativa (nominal / ordinal) ott
os"quartis é a mesma), o mesmo podendo ser observâdo a respeito da distância
dos
rltmnl il rt i vil (cliscreta / contínua):
ponìo, de mínimo e máximo em relação à mediana. Em contraste, temos na Figura
$. Ocorrêlrcia de hipertensão pré-natal em grávidas com mais de 35 anos (sütl
i.A o box-ptot paraa variável Peso, que apresenta uma pecluena assimetria. tttrttílrtsf,opossíveisrespostasparaestavariável). l' ", t;t/ìtitt( i ,,r r

h, Inlelrçiio clo voto para presidente (possíveis respdstas são os nomes dos
ctttttlitlitrtts,alémde não sei).''',,,t11 )1' t t'r, "
(
'100
C. l,r't'rhì rlc pcso de maratonistas ná Corrida de São Silvestre, em quilos. 'tl,\ttì, 1'l
90
rl, lrrlr.rrsirlnrlc clt perda de -"
peso de maratonistas na Corrida de São Silvcstre
80 (lt'Ve, tttoclCrilCla, fOrte).
(
' 1t r/ ç/
l1 't.\ l;rtJ' '
o
3to
L ë, (lrrrrr rle satisÍ'açiro cla população brasileira com relaçãro ao trabalho cle seu
60 presirlerrte (vnlores de 0 a 5, com 0 indicando totalmente insatisÍ'eito e 5
50
lrtlttltnettlc satisl'eito). i,,t tt! t (l' r/lr'l I , ,,1,','
,

40 l, {Jrrirrzt pncientcs clc unra ólírrica de ortopcdia foram entrevistados quânto ito
nrÌnrr'r'rì rk: r'ttcscs prcvistos cle I'isiotcrapin, se haverá (S) ou niro (N) secltlelus
Figura 1.8: Box-plot para a varidvel Peso.
'.qt

20 Capítulo I: Introdução à Análise Exploratória de Dados 1.3 O Uso de Computadares em Estatística 2t

após o tratamento e o grau de complexidade da cirurgia realizada: alto (A), do que em uma região industrial (Região B). Para tanto, uma amostrâ foi
médio (M) ou baixo (B). Os dados são apresentados na tabela abaixo: tomada em cada região, fornecendo a tabela de freqüências a seguir:
Pacientes 2 3 4 5 6 7 8 9 10 ll t2 l3 I4 I Região B
Fisioterapia 7 8 4 7 6 8 6 5 5 4 5
5 5 7
Peso ni
Seqüelas s S .N: ,N) N S s N N' S S rN S N N)
Cirurgia A M A M M B A M B M ts ts M M A <60 10 (,1,

a. Classifique cada uma das variáveis. 60F70 34


b. Para cadavariâvel, construa a tabela de freqüência e faça uma representação TOFBO 109
grâlica. BOF90 111
c. Para o grupo de pacientes que não ficaram com seqüelas, faça um gráfico de >90 55
barras para a variável Fisioterapia. Você acha que essa variável se comporta total 319
de modo diferente nesse grupo?
a. Os dados apresentados sugerem que o grau de desnutrição é diferente nas
3. Os dados abaixo referem-se ao salário (em salários mínimos) de 20
duas regiões? (Note que o total de observações difere em cada região).
funcionários administrativos em uma indústria. b. Construa, apartir dos dados das tabelas, um histograma para cada regiã0,
10,1 nt
ltú 8,5 5,0 412 3,1 ))
- )- 9,0 914 6,1 Faça uma suposição conveniente para as faixas não delimitadas.
tt
Jr9 10,7 1,5 8;2 10,0 4,7 315 6,5 8,9 6,1 c. Com base nos histogramas apresentados em (b), obtenha as medidas
necessárias e construa o box-plot, um para cada região. Com base nessa
a. Construa uma tabela de freqüência agrupando os dados em intervalos de representação gráfica, rediscuta o item (a).
amplitude 2 apartir de l.
Ìr. Construa o histograma e calculo o 1e e o 3e quartil.
1.3 O Uso de Computadores em Estatística
4. Um grupo de estudantes do ensino médio foi submetido a um teste de
Foi mencionado anteriormente que o desenvolvimento da indústrirr de
matemática resultando em:
computadores deu grande impulso ao uso da Estatística. Vários progrumes
Nota freqüência computacionais de uso comum contém rotinas estatísticas incorporadas às suas
0F-2 L4 [a ,.r' funções básicas. É o caso das planilhas eletrônicas, usualmente pié-instaladas em
computadores novos. Programas especificamente desenvolvidos para efetuar
2+4 28
análises estatísticas são conhecidos como pacotes estatísticos. Existe um número
4-6 27 considerável desses pacotes, alguns voltados para análises mais comuns na dretl
6FB 11 de humanidades, outros para a área de biomédicas; alguns são extremamente
8F10 4 simples de se utilizar através de menus, outros pressupõem conhecimento de uma
linguagem de programação específica. Qualquer que seja o programa a ser
a. Construa o histograma. utilizado, três são as etapas que envolvem seu uso:
b. Se a nota mínima para aprovaçã,o é 5, qual será a porcentagem de 1 Entrada de Dados
aprovação? 2. Execução da Análise Estatística
c. Obtenha o box-plot. 3. Interpretação de Resultados
5. Um estudo pretende verificar se o problema da,desnutrição em adultos medida A Entrada de Dados deve assumir certas convenções. Apesar de certos
pelo peso, em quilos, em uma região agrícola (denotada por Região A), é maior programas terem rotinas desenvolvidas de forma a simplificar a criação do banco
Capítulo 1: Introdução à Análise Explqratória de Dados 1.4 Exercícios 23
22

de dados, intrinsecamente o que se temê a criação de uma matriz, em que cada


linha corresponde a uma unidade experimental e cada coluna a uma variável. 1".4 Exercícios
Por unidade experimental, entende-se o elemento da população ou
amostra no qual observaremos as variáveis. Por exemplo, na Tabela 1.1, 1. Responda certo ou errado, justificando:
observamos 50 unidades experimentais, os estudantes, nos quais foram a. Suponha duas amostras colhidas de uma mesma população, sendo uma de
observadas 14 variâveis. Assim, os dados podem ser representados por uma tamanho 100 e outra de tamanho 200. Então, a amostra de tamanho maior é
matriz com dimensão 50 por 14. Leitores familiares com planilhas eletrônicas mais representativa da população. F
não terão problema em visualizar esta situação. Assim, quando estudamos uma b. Duas variáveis diferentes podem apresentar histogramas idênticos' I
única variâvel, consideramos a coluna correspondente. Se estamos interessados c. Duas variáveis combox-plol iguais não podem ter valores diferentes' Fj
em saber o comportamento desta variável em dois grupos diferentes (como na 2. Suponha que duas empresas desejam empregá-lo e após considerar âs
Figura 1.9), precisamos estudar os valores da coluna em que ela se encontra, uuntug"n. de cada uma, você vai escôher aqoelá que lhe pãgar melhor' Após
conjuntamente com a coluna que contém a informação dos grupos' certa pesquisa, você consegue a distribuição de salário das errÍpresas, dadas
A fase da execução da análise estatística pressupõe o conhecimento de segundo os gráficos abaixo.
como o programa que está sendo utilizado trabalha as informações. Torna-se, Empresa B
EmpÍesa A
assim, importante se ter acesso ao manual do programa'
Após as informações terem sido trabalhadas, vem a fase da interpretação
dos resultados obtidos. Nesta hora, é aconselhável consultar o manual sempre que
houver dúvida, se o que foi calculado relaciona-se, de fato, à análise estatística
desejada. Ao interpretar as características observadas, é importante verificar se
resultados absurdos não estão ocorrendo. Em caso positivo, releia o manual e
certifique-se de ter executado a análise correta para os dados em questão. Em
muitos casos, a fase de interpretaçáo é a mais difícil e interessante, pois envolve o 5101520253035404550
Sãlários Mínimos

equacionamento das características apresentadas na análise com vistas a


responder as questões inicialmente colocadas' Com base nas informações de cada gráfico, qual seria sua decisão?
3. Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo
Exercícios da Seção 1.3: indagou sobre os diferentes tipos usados nas suas locomoções diárias. Dentre
ônibus, metro e trem, o número de diferentes meios de transporte utilizados foi
l. Utilizando alguma planilha eletrônica ou pacote estatístico disponível e com as oseguinte:2,3,2, 1,2, 1,2, 1,2,3,I,1,1,2,2,3,1,1, 1,I,2, I, 1,2,2, 1,2,
informações da Tabela 1.1, construa um banco de dados para os 20 indivíduos 1,2 e 3.
iniciais e as 4 primeiras colunas. Imprima e confira os valores digitados. a. Organize uma tabela de freqüência.
2. Considerando o banco de dados criado no Exercício 1 desta seção, construa b. Faça uma representação grâfica.
histogramas para as quatro variáveis e, baseado no gráfico, descreva os seus c. Admitindo que essa amostra represente bem o comportamento do usuário
comportamentos. paulistano, você acha que a porcentagem dos usuários que utilizam mais de
um tipo de transporte é grande?
3. Considerando o banco de dados criado no Exercício I desta seção, divida a
idade em três categorias (menores de 18 anos, idade entre 18 e 21 inclusive, e 4. A idade dos 20 ingressantes num certo ano no curso de pós-graduação em
maiores de 2l anos). Construa gráficos de barra para essa variável, incluindo jornalismo de uma universidade foi o seguinte: 22,22,22,22,23,23,24,24,
toclos os indivíduos e um para cada sexo. Interprete os resultados obtidos. 24, 24, 25, 25, 26, 26, 26, 26, 27, 28, 35 e 40.
24 Capítulo l: Introdução à Análise Exploratória de Dados I -l li rrt t:ícios 2.\

a. Apresente os dados em uma tabela de freqüência, incluindo a freqüência rl, l{cpita o item (c) para a variável Salário.
relativa. r,. (lonsiderando apenas os funcionários com mais de três anos clc clsn,
b. Idades atípicas parecem ter ocorrido nesse ano. Após sua retirada do tlcscreva o comportamento da variável Salário.
conjunto de dados, refaça o item (a). Comente as diferenças encontradas. ll. I lrrr gnrpo de pedagogos estuda a influência da troca de escolas no descntpcttlto
Um novo medicamento para cicatrizaçáo está sendo testado e um experimento é tlt. llrrnos do ensino fundamental. Como parte do levantamento realizndo, lìri
feito para estudar o tempo (em dias) de completo fechamento em cortes nrotiulo o rrúmero de escolas cursadas pelos alunos participantes do estttclo.
provenientes de cirurgia. Uma amostra em trinta cobaias forneceu os valores: Escolas Cursadas freqüência
15,17,16, 15, \7, 14,17, 16, 16,17,15, 18, 14,17, 15, 14,15,16,17, 18, 18, 1 46
17, 15, 16, 14,18, 18, 16, 15 e 14.
2 57
a. Organize uma tabela de freqüência.
.) 2T
b. Que porcentagem das observações estão abaixo de 16 dias?
4 15
c. Classifique como rápida as cicatrizações iguais ou inferiores a 15 dias e
como lenta as demais. Faça um diagrama circular indicando as 5 4

porcentagens para cada classificação. ru. (.)rlrl ó a porcentagem dos alunos que cursaram mais de uma escola?
6. O Posto de Saúde de um certo bairro mantém um arquivo com o número de Ir- ('onstrua o grírfico de barras.
crianças nas famílias que se utilizam do Posto. Os dados são os seguintes: 3, 4, c. ('lirssil'i11r.rc os alunos em dois grupos segundo a rotatividade: a/Íc pnt'u
3, 4, 5, r, 6, 3, 4, 5, 3, 4, 3, 3, 4, 3, 5,5, 5, 5, 6, ll, r0, 2, l, 2, 3, r, 5 e 2. itlulìos cclur rnais de 2 escolas e baixa para os demais. Obtenha a titbclit tlc
a. Organize uma tabela de freqüência. lìr'r;iiôncin dcssa variável.
b. Faça uma representação grâfica. rr. Alrrrros tlir Escola cle Educação Física foram submetidos a urn lcslc rkr
c. Você identifica valores nruito discrepantes? Que fazer com eles? rr.sistôrrciir rpranto ao número de quilômetros que conseguiram corrcr sertì
lrrrrirr'. )s clirclos cstiro apresentados a seguir.
(
Um questionário foi aplicado aos dez funcionários do setor de contabilidade de
uma empresa fornecendo os dados apresentados na tabela. rr. (-)rr;rl ó ir vtriiivcl em estudo?
b. ('orrsllrrir o ltistograma.
Funcionário Curso (completo) Idade Salário (R$) Anos de Empresa

e. ( )lrlt'rrltir o lnx-pktl.
supenor 1100,00 5
2 superior 43 1450,00 8 Faixas freqüência
3 médio 31 960,00 6 0t-4 438
médio 960,00
4 dl

24 600,00
8
4FB 206
5 médio
6 médio 25 600,00 2 8F12 125
1 médio 27 600,00 5 12 F I6 22
8 médio 22 450,00 2
I6 F 20 I
9 fundamental 2l 450,00 J

10 fundamental 26 450,00 J I0. lltrrrPo t[r rrtilizirçiio rlc citixus clctrônicos clcpcrrclc dc cada usuÍrio c rlits
a. Classifique cada uma das variáveis. tl lrrrirçÕr's r'lctrrirtlirs. liorarn colctadas 2(l rncclidas dcssc tcmpo (crn rnirtutos):
b. Faça uma representação gráfica para zì variírvel Curso.
l,t 1,2 1,7 0,Í) t.4 lr7 1,0 1,0 0,8
I ,l'r I ,:Ì I .(i I ,l-r
c. Discuta a melhor forma de construir a tabela de I'reqiiência para a vitriiivcl l,i l.(' 1,2 I,0 0,Í) l,g 1,7 [,5
I ,:t | ,,1 1,2 I ,ll I l-"r

Idade. Construa uma representação griiÍ'ica,


,
26 Capítulo I: Introdução à Andlise Exploratória de Dados I .l l';rtx:ícios ,.J

a. Organize uma tabela defreqüência sem agrupar os dados. 6,1 612 617 615 6,9 6,3 714 7,6 7r7 7,6
b. Agrupe os dados em faixas de tamanho 0,2 a pattit de 0,8 e obtenha uma /tó 7r7 7,6 714 712 7,2 ító 716 7r5 7,4
nova tabela de freqüência. 7r5 7,7 8,2 8,3 8,1 8,1 8,1 7,9 7,8 714

c. Compare as tabelas obtidas em (a) e (b). Comente as diferenças' 7r5 716 7,5 716 7,4 író 714 7r5 7,5 714
d. Se ao invés de 26 medidas tivéssemos 1000, qual procedimento, dentre
agrupar ou não, você utilizaria? rr- ( )rgnnize os dados em faixas de tamanho 0,4 a partir de 6.
h. ('orrstrua o histograma.
11. Vinte e uma pacientes de uma clínica médica tiveram o seu nível de potássio
no plasma medido. Os resultados foram os seguintes: c. ('irlculc o segundo quartil.

Nível freqüência l.l. () lrirlcro de gols marcados no último campeonato daFederação Paulistl tle
liutclxrl pelos 20 clubes participantes nos seus 38 jogos é uma variável conl os
2,25 a 2,55 1
:;r'1it r i tttcs veìlores:
2,55 - 2,75 t
J

2,75 - 2,95 2 Clube 1 2 , 4 5 6 7 8 I 10


ìat
52 35 25
2,95 F 3,15 4 Gols 32 42 td 35 79 57 dt

3,15 F 3,35 5
Clube 11 72 13 t4 15 16 17 IB 19 20
3,35 F 3,65 6
Gols 55 70 42 4L 6B 66 74 29 47 53
a. Construa o histograma.
b. Determine os 1e, 2e e 3e quartis. ir, ('lirssií'iquc iÌ variável. Você acha razoâvel construir uma tnbclit tle
c. Qual a porcentagem dos valores que estão acima do nível 3? l'r'ct;iiôncia de atcordo com a classificação dada?
Ir. ('orrslnrt unra tirbela de freqüência agrupando as observações em intcrvillos
12. Foram feitas medidas em operários da construção civil a respeito da taxa de
rlt, t:ornprirnento l0 a partir de 20 (não esqueça de indicar claráìnìclìto os
hemoglobina no sangue (em gramas/cm3):
irrlt't'vit los).
11,1 L2,2 LL,7 12,5 13,9 12,3 74,4 13,6 !2,7 12,6 r'. ( )lrtt'rrhir o histogranta.
11,3 II,7 12,6 73,4 L5,2 L3,2 13,0 16,9 15,8 L4,7 rt. (.)rrçr lrorccntagent dos clubes mârcaram mais de 38 gols?
13,5 L2,7 L2,3 13,5 15,4 16,3 L5,2 72,3 L3,7 L4,1
lã, A t;rlrclir ir soguir apresenta as freqtiências relativzts de ocorrências de lÌrixns tle
a. Organize os dados em faixas de tamanho 1 a partir do 1 1. illluut (r.nì cnt) para uma iìmostra de 100 criiìnçáìs de l2 anos de icladc.
b. Construa o histograma. ar, ('orrslt'ttit o histograma.
c. Determine o terceiro quartil e a mediana. lr, ( )lrlcrrhrr <t lxtx-ploÍ.
d. Taxas abaixo de 12 ou acima de 16 são consideradas alteradas e requerem r'. I )r'st'ilrnclo-so sopirral' os l5o/o mâis eÌltos, qual seria o ponto de cortc'/
acompanhamento médico. Obtenha a tabela de freqüência da variável
Acompanhamento Médico com duas opções sim ou não.

L3. O valor médio de comercializaçáo da saca de milho de 60 cluilos nir Bols:t clc
Cereais é apresentado abaixo, em reais, para últimos 40 meses.
28 Capítulo l: Introdução à Análise Exploratória de Dados I 'l l',ttn'ícios 29

Faixas freqüência relativa Ganho freqüência


100 F 110 0,10 1,0 F 2,0 45

110 F 120 0,25 2,0 F 3,0 83

120 F 130 0,30 3,0 F 4,0 52

130 F 140 0,25 4,0 F 5,0 15

140 F 160 0,10 5,0 F 6,0 4


6,0 F 7,0 I
1.6. O índice de germinaçáo é um dos principais fatores para definir a qualidade
das sementes, Ele é determinado em experimento científico conduzido pelo tH. Nrrrrr cstudo sobre rotatividade de mão-de-obra na indústria, anotou-sc o
fabricante e regulamentado pelo órgãos fiscalizadores. Um fabricante afirma nunr(rro de empregos nos últimos 3 anos para operários especializados e nfro
que o índice de germinação de suas sementes de milho é de 85Vo. Para verificar tspt'r'iir Iizados.
tal afirmação, uma cooperativa de agricultores sorteou 100 amostras com 100 tr, (lonstrua o diagrama de barra correspondente a cada tabela usanclo it
sementes em cada uma e anotou a porcentagem de germinação em cada porc:cntagem no eixo das ordenadas.
amostra. b. ,lrrrrto as inÍormações das duas tabelas em uma só e obtenha um diagratnn tle
Ir:rn'irs cla rotatividade de mão de obra na indústria (sem dif'erenciar it
Germinação (Vo) freqüência
r's1 rr'c ilrl iz.itçiro).
60F75 B
r'. Vocô ircha que os trabalhadores especializados trocam menos cle errtllrcgo'/
75F80 20 ,f rrslil'it1uc.
BOFBS 42 Não Especializados izados

85F90 18 Iirnprcgos ïì,; Empregos TLi

90F95 10
I 106 1 2lo
2 222 2 342
95 F 100 2
3 338 J 109
a. Faça uma representação gráfica da tabela acima. 4 292 4 9l
b. Construa o box-plot. lr 164 5 35
c. Comente a afirmação do fabricante. totitl 7I22 total 787

17. Uma nova ração foi fornecida a suínos recém desmamados e deseja-se avaliar 19, ('orrrtl ;lrltc do uurn avaliaçiro rnédica em uma certa universidade, fbi rneclirln
sua eficiência. A ração tradicional dava um ganho de peso ao redor de 3,5 kg n lrr'r1íiôrrciir cirrdíitca clos alunos do primeiro ano. Os dados são rprcscrttaclos
em um mês. A seguir, apresentamos os dados referentes ao ganho, em quilos, elrt:ir'1',ttirlit.
para essa nova ração, aplicada durante um môs em 200 animais nas condições it. ( )lrtrrrlrir o histograrna.
acima. ll, lirctl(lêrrciirs cnrclíacls quc cstc.ianr rbaixo de 62 ou ercima de 92 rccluercrn
a. Construa o histograma. irlrrrrrpirnlrirrrrcrrto rnéclico, Quirl ó n porcentiÌgem de alunos rìcssits
b. Determine o 1e, 2e e3e quartis. r ltttliçotrs'/
c. Você acha que a nova ração é mais eficiente que a tradicional? Justifique. r', llrrur Íì'cr1ílôrrcil iur rcclor clc 72 baticlas por nrinuto ó considerada paclriìo,
Vor't' irt'lrir rprc dc nroclo gcral csscs alruros sc cncaixaln ncssc caso'Ì
.to Capítulo I: Introdução à Análise Exploratória de Dados I J I t,'ttít'irts 3t

Freqüência Cardíaca freqüência Slt' o Íìrbricante vende


cada bateria por 207o acima do preço de custo, em
l(XX) baterias fabricadas, descontadas as que repõe, quanto será seu lucro
60F65 11
pol birtcria em função do preço de custo?
65F70 35
Durabilidade freqüência relativa
70 t- 75 68
75F80 20 0F3 0,02

80F85 L2 3F6 0,05

85F90 10 6F9 0,15

90F95 1
I -L2 0,25

95 F 100 3
72-15 0,30
15F20 0,23
20. Um exame vestibular para uma faculdade tem 80 questões, sendo 40 de
português e 4O de matemática. Para os 20 melhores classificados, It, lfr.st. jir-sc comparar três técnicas ciúrgicas pata a extração de dente de siso,
apresentamos o número de acertos em cada disciplina, em ordem decrescente ('itrlir trrttir clas técnicas foi aplicada em 20 pacientes e os resultados sÍio
do total de pontos. apt r'st'rrtirrlus a seguir.
a. Organize uma tabela de freqüência para cadavariâvel.

ït
10
b. Faça uma representação grâfica das tabelas obtidas em (a).

F
c. Construa a tabela de freqüência da variável total de pontos. .qo
!t
d. Comente sobre a afirmação: os aprovados são melhores em português do ã
que em matemática.
'8. I
E
c)
o.
a,
o
aluno 1 2 J 4 5 6 7 8 9 10 d)

Português 35 35 34 32 31 30 26 26 24 23 s6
Matemática 27 &
31 29 28 28 26 30 28 25 23
Es
c)

t3 I9
t--"
aluno 11 t2 T4 15 T6 t7 18 20 4
Português 23 L2 11 20 17 T2 L4 20 B 10
t.\
Matemática 27 òz 31 20 27 25 20 13 23 20
Técnica cirúrgica
21. Vinte baterias para automóveis de uma certa marca foram testadas quanto à
*r, lirrr rrrínr virlrlrcs a1-lloximados pilráì er mediana de cada técnica,
sua vida útil. O teste simula autilização da bateria, acelerando seu desgaste de
rnodo a criar uma réplica da situação real. Os resultados da durabilidade (em
b,ll tttlrtvttltt ittlerqltdrtil. é, dcl'inido colno eÌ dil'erença entre o tcrccirc c rr
1rr irtrt'iro rlttiulis, Cllculc scu valor para cerda uma das técnicers e comentc.
mcses) são apresentados a seguir:
.:. llir('ulit rr vlrrilrllilidlrclc do tcnìpo dc rccupcração ern cada técnica.
a. Construa o histograma.
ri. ,'jt, r'rrr't-' t'r otirrrisla, clual tócnica cscolhcria'l
b. Se a amostra acima for considerada representativa do desempenho desszr
rïiìrceì de bateria, quantas, em 1000 fabricadas, serão repostas pelo 3ì, tllr*. o corrrPrrlirtlor') Os cllclos a scguir representam indivíduos que Íbtlrrr
labricante, se ele oí'erece 6 meses de garantia? r {r!rl'urinrr(krs llr,tlo vcrìclìo clc um ccrto tipo clc inseto e submcticlos ir
Irrllrlrrí'nl() (tr'ês rliI'crcnlos Iipos). As virriiivcis são:
-t2 Capítulo l: Introdução à Análise Exploratória de Dados I ,-t l','rrn'ír:ios 33

No.: número associado aos pacientes; Atrlvés do computador, crie uma planilha com os dados apresentados.

Idade: idade do paciente no momento de admissão' em anos; lìirsoando-se nesta planilha: :

Diag: tempo, em horas, gasto entre o contato com o inseto e l. Cltssifique cada uma das variáveis.
ll. Construa uma tabela de freqüência (através do computador) para a
administração do tratamento;
viriável Diag. Utilize 5 classes.
Recup: tempo, em horas, entre a administração do tratamento e
lll. Através de representaçáo grâfica adequada, compare os três tratameÌìtos
recuperação; corn relação à idade dos pacientes. Você diria que a idade se distribui
Tratam: tipo do tratamento administrado; Itotttogeneamente nos três tratamentos?
Coag: presença de coágulos no momento de admissão. lv. l{cpita o item (iii) para a variável Coag.
b, Strltctrrha, que ao invés de trabalhar corn a variâvel ldade, cria-se uma novÉl
Pac.No. Idade Diag Recup Tratam Coag vuriírvcl denominada Etário, assumindo valor 0 se Idade for menor que 29
T9 28 7 3 II nao rlnos c I caso contrário. Utilizando o computador:
4 15 52 45 I nao l. lixplique como você poderia criar tal variável.
27 76 30 23 IIÌ slm ll, Construa um box-plot para a variável Recup, para cada grupo de Etário,
7 15 53 46 I stm Corn base nos gráficos, você diria que o tempo de recuperação é diferente
14 2l 3 2 II nao dependendo da faixa etâria? Justifique sua resposta'
5 11 46 42 I nao €, tJmn nova variável denominada Cura é criada: Cura será rópida se Recup
11 16 55 47 I nao frrr rnenor ou igual a 10, será normal se entre 10 e 40 (inclusive) e serí lentct
54 41 I m pnt'n lìccr.rp acima de 40. Verifique, graficamente, se pacientes em cada umit
10 16 S

ilI m clns cntcgorias de Cura apresentam diferenças no que se refere ao tempo


25 47 13 12 S

II nao eltttr! o ccltttitto com o inseto e a administração do tratamento.


6 18 59 51
l6 40 20 l1 ru slm Elt nttlttit',t:; ilc dutlos mencionados nos exercícios a seguir podem ser obtidas ent
20 24 J 1 II nao lflPlt" üllr, rt,y t, b r/- n rt p ro e s t
l3 32 9 J il nao
#, (LIse o corrrputador) Os itens seguintes referem-se aos dados contidos no
15 31 9 -) il nao
âf'rluivo clr.: nome cancer.txt. Esse arquivo contém os dados de uma pesquisa
8 10 44 40 I slm fOtrrr: irrcidOncia de câncer e é apresentado em 9 colunas representando ns
18 3t 9 J il slm rÊEu i nlFs vitriÍtvcis de interesse:
T2 3l 10 4 il slm
l: iderrt i l'icação do paciente.
e'eilttntt
24 46 t3 11 m sim
e'ulumr 2i tliitgttóstico:
21 21 1 2 il slm
I = Ínlso-negativo: diagnosticados como não tendo a doença qunnclo
22 39 l7 B il slm nl verclade a tinham,
-) l5 53 46 I slm 2 = ncgativo: diagrrosticados como não tendo a doença quarrdo ele
2 9 42 39 I nao Í'ato niro a tinham.
23 75 30 22 III slm -ì = llositivo: diagnosticados corretamente como tendo er doença.
26 54 l8 l6 III nao 4 = lulso-positivo: diagnosticados como tendo a doença quando na
l7 35 t2 5 I] S m verclircle niro tinham.
9 In -58 50 II s ln úilutu.li irlnrle.
34 Capítulo l: Introdução à Análise Exploratória de Dados
1,4 l',ltex'ícios 35

coluna 4: espectro químico da análise do sangue-alkaliine phosphatose (AKp).


d. Crrlcnle a ârea útil total para cada apartamento. Armazene esta informação
, coluna 5: concentração de fosfato no sangue (P).
erìì uma variável denominada Total. Repita os itens (b) e (c) para a variável
c o luna 6 : enzima, lactate dehydro genase (LDH). 'lÌrtal,
coluna 7: albumina (ALB).
c. Buserndo-se nos itens anteriores, você diria que existem diferenças nas áreas
coluna B: nitrogênio na uréia (N). rkrs apartamentos dos blocos A e B? Em caso positivo, qual(is) cômodo(s)
coluna 9: glicose (GL). rrplcsenta(m) o problema?
a. Escolha 3 variáveis dentre as colunas 2 a 9. classifique-as e faça o f. lrxplore descritivamente os dados referentes a problemas estruturais
histograma e a tabela de freqüência para cada uma delas (se necessário, crie (rlchaduras e infiltrações). Com a informação contida na variável Andar
até cinco faixas). clivicla os apartamentos em três categorias dependendo do andar onde se
b. unia afirmação feita por alguns médicos é a de que o grupo dos falso- cncontra: baixo, médio e alto. Estude a ocorrência de rachaduras e
positivos é mais jovem do que o dos falso-negativos. para os dados dessa inÍ'i ltrações para cada categoria.
pesquisa, o que você diria a respeito? Justifique sua resposta baseando-se
em gráficos e tabelas de freqüência.
l€, (tJse o computador) Os itens seguintes referem-se aos dados contidos no
êrquivo de nome aeusp.txt, que contém parte dos dados de uma pesquisa,
25. (Use o computador) Um empreendimento imobiliário consistiu da construção reslizuda pela Associação dos Educadores da USP (AEUSP), sobre aspectos
de dois edifícios residenciais, com apartamentos de I dormitório e área útil de ãóeio-econômicos e culturais de comunidades de baixa renda da região do
fi #. Em uma primeira fase, foi construído apenas um edifício, denominado ãutuntÍi, São Paulo. O questionário foi respondido por um dos moradores dn
"'Bloco 4". Para a conclusão do Bloco B houve uma troca de empreiteiras. gãËü sortcada para participar da pesquisa. Os dados estão organizados da
Suspeita-se que seus apartamentos foram construídos com metragem diferente ãêgtlinlc lbrma:
daquela especificada na escritura. O arquivo areas.txt contêm as seguintes golund /: Número do questionário (Num).
variáveis, obtidas por peritos de uma firma independente: êalunu 2: Comunidade (Comun).
Id: identificaçãoda observação no arquivo êalnnu.?: Sexo (Sexo):
Bloco: bloco a que pèrtence o apartamento L : masculino;
Andar: andar onde o apartamento está situado 2 : feminino.
Final: número identificando a posição do apto. no andar Faixas de idade, em anos (Idade):
Sala: áreada sala, em m2 1 = 114,25);
Cozinha: ârea da cozinha, em m2
2:125,35);
Banheiro:
3: [35,45);
4:
ârea do banheiro, em m2
[45, oo).
Dorm: área do dormitório, em m2
ëHltl,d 5l Bstado civil (Ecivil),
Rachad: ocorrência de rachaduras no apto: 0 - não, 1- sim 1 :
solteiro;
' Infiltr: ocoÍrência de infiltrações no apto: 0 - não, I - sim 2 = casado;
a. Explore o arquivo de dados. Qual o número total de apartamentos no ll : clivorciado;
empreendimento? Quantos apartamentos existem por prédio? E por andar? 4 = viúvo;
b. Construa tabelas de freqüência para cada uma das variáveis quantitativas l'r =
outro.
contínuas e faça gráficos adequados, eetlttnu (t: llegiíio de procedência (Reproce).
c. Repita o item (b), para cada bloco, separadamente. construa gráficos clo tipo ttúunt 7i Tentpo de residência em São Paulo, em anos (Ternposp),
box-plot e compare as áreas para cada cômodo considerado. è:olwtil Íli Número de residentes na casa (Resid).
ì6 Capítulo 1: Introdução à Análise Exploratória de Dados

coluna 9: Trabalho (Trab):


1: sim;
2: náo;
3: aposentado. habilidades
coluna l0: Tipo de trabalho, só para os que trabalham (Ttrab) :

1 : emPregado com carteira;


2 : emPregado sem carteira;
3 : profissional liberal; Introdução
4 : autônomo;
5 :rural.
No capítulo anterior, vimos como caracterizar uma massa de dados, com o
coluna I l: Idadeque começou a trabalhar, em anos (Itrab).
do organizar e resumir informações. Neste capítulo, apresentamos o
coluna 12: Rendafamiliar em faixas de reais (Renda):
ã nntemiltica que dá a base teôrica para o desenvolvimento de técnicas
Íatlens tt $erem apresentadas no restante do livro.
1
-- [0,150); Denominamos fenômeno aleatório à situação ou acontecimento cujos
2:1t50,300);
g : [300,450); nõo podem ser previstos com certeza. Por exemplo, as condições
4 : [450, 900);
clo próximo domingo não podem ser estabelecidas com total acerto, O
pocle ser dito da taxa de inflação do próximo mês. Veremos que, cm
5 - [900,1500);
como essas, modelos podem ser estabelecidos para quantificar os
6 : [1500, oo).
dus diversas ocorrências.
coluna 13.' Acesso a computador (Acompu):
: Aprcsentamos, a seguir, alguns conceitos de teoria dos conjuntos, que
1 sim;
Ëãados neste capítulo. Chamamos de espaço amostral ao conjunto de todos
z: nao.
possÍveis de um certo fenômeno aleatório. Ele será represontedo
coluna t4: Sêrieem que parou de estudar (Serief).
letfa gregn O (ômega). Os subconjuntos de 0 são denominados eventoge
Branco : não parou de estudar;
aclos pelas letras latinas maiúsculas A,8,. . . . O conjunto vazio, como jÍl
1a B : séries do ensino fundamental;
lelpnnl, será denotado por 0.
9 aL2: séries do ensino médio.
A união de dois eventos A e B, denotada por AUB, represento tt
a. Explore o conjunto de dados e classifique as variáveis. Verifique se existem ia ele, pclo menos, um dos eventos Aou B. Aintersecção do evento á
variáveis com valores incompatíveis ou inválidos e proponha alternativas ã, denotrrcln por.rl a B, é a ocorrência simultânea de A e B.
para a solução do problema. Observe que existem variáveis com respostas Dois eventos A e B siro disjuntos ou mutuamefie exclusivos quando não
em branco e discuta porque isso acontece. êlcmcntos ern coffrurïì.Isto é, Ao B : A.
b. Estude a variável Renda em função de Comun. Você diria que os moradores Dlzemos qr,re Á e B são complementares se sua união é o espaço amostral
da Cohab e do Jardim d'Abril têm a mesma renda? Justifique sua resposta lnteraecçÍlo é vuzia. O complementarr de Á será representado por Á" e temos
baseando-se em gráficos e tabelas de freqüência. :4.
U á', _: fl e .zt À A,,
c, Verifique se o comportamento'da variável Temposp é influenciado pelo tipo Vamos considerar probabilidade como sendo uma função P(') que
de trabalho (variável Ttrab). valores nurnéricos aos eventos do espaço amostral, conforme a defiriiçõo n
d. Faça um box-plot para a variável ltrab.

37
38 Capítulo 2 : Probabilidades ?,1 ltitit,tlttl'ãtt 39

D efínição 2. 7 : Probabilidade flËl:n popullção, definimos a probabilidade dele ter uma certa idade pela
fuqttêrre irr rclativa associada à respectiva idade. Assim,
uma função P(.) é denominada probabilidade se satisfaz as condições:
P(17) : 0,18; P(18) : 0,44; ...; P(25) : 0,04. tr
?) 0< P(A)< 1,VÁcQ;
i,i,) P(A) : r; No 1lróximo exemplo, obtemos a probabilidade da união de eventos.

iiü P(UAj) : t P(Aì, com os Á7t disjuntos. 2.2; Considere a Tabela L2 do Capítulo 1, contendo informações a
j:t .i:r r tlirs Íì'cqiiências da variável Sexo. Sabendo que 52Vo dos alunos estão na
tr A e 48Vo niÌ turma B, suponha que escolhemos um estudante ao acaso da
lnçno, Quirl seria a probabilidade de escolhermos um estudante do sexo
A
pergunta que poderia surgir seria: como atribuir probabilidades aos r ott itlguérn da turma B?
elementos do espaço amostral? Há duas maneiras principais de responder essa l)rrs inÍbrrnações a respeito da freqüência relativa acima e da Tabela 1.2,
questão.
A primeira delas consiste na atribuição de probabilidades, baseando-se
em características teóricas da realizaçáo do fenômeno. Por exemplo, ao lançarmos /'(/") : 0,74, P(M) :0,26, P(A) :0,52, P(B): 0,48.
um dado, temos o espaço amostral 0: {1,2,3,4,5,6}. Admitindo que o dado
trilidrrdc que precisamos determinar pode ser representada por P(F U B),
foi construído de forma homogênea e com medidas rigorosamente simétricas, não
guLl se sirnplesmente somarmos P(.F') com P(B), obtemos uma somn
temos nenhuma razão para privilegiar essa ou aquela face. Assim, consideramos
P(1) : P(2) :. '. : P(6) :716. Flor l I , E,videntemente isso não pode acontecer, pois o valor clu
llidnde poclc ser, no máximo, igual a 1. Não é difícil perceber que estamos
Uma outra maneira de obter probabilidades é através das freqüências de
n trlg,rrns elcmentos duas vezes, pois ao considerarmos apenas estudantcs
ocorrências. Observando as diversas repetições do fenômeno em que ocorre a
t€Xo l'errrinino, temos estudantes da turma A bem como da turma B e ao
variável de interesse, podemos anotar o número de ocorrências de cada valor
los upotìeìs iÌ turn'ìa B, temos estudantes do sexo feminino e masculino,
dessa variável. Para um número grande de realizações, a freqüência relativa
on r:sluclnntcs do sexo feminino e da turma B, isto é, o evento F O B, estd
poderia ser usada como probabilidade. For exemplo, desejando estabelecer as
Ito rlvcnlo ,Í;' c também no evento B.Logo, precisamos subtrair umiì vez
probabilidades de cada face de um dado sem fazer nenhuma suposição inicial
n IJ) ;turn obter a probabilidade correta. Desta forma, temos qllc il
sobre sua construção, usamos a experiência de sucessivas ocorrências. O ponto
ilitlrrtle rlit uniÍo FU B é igual àsomadas probabilidades de ,F' e B menos
delicado é decidir quanta experiência é necessária para se fazer a atribuição de
lirlnrlc rlu intersccção f' O B. tr
probabilidades, com alguma garantia de não se estar muito distante do verdadeiro
valor. Questões dessa natureza não serão discutidas aqui e fazem parte doS A plohnbilidaclc da união de eventos é calculada através da regru dct
capítulos de inferência estatística. Por ora, vamos assumir que, à medida que O tltt ltnilnhilitlutlcs apresentada niì Figura 2.1. Não faremos unlu
número de repetições vai aumentando, as freqüências relativas se estabilizam em àlf ÍrçÍio lìrrrnul, pois ncreditamos que o resultado é bastante sirnples c
um número que chamaremos de probabilidade. Em ciências biológicas e humanas, itivo,
essa é a forma mais comum de atribuir probabilidades.
De modo geral, diremos que estamos fazendo um sorteio aleatório ou ao
acaso em uma população, se a escolha desse ou daquele elemento só depende da
probabilidade a ele atribuída, seja através da freqüência relativa ou de algumit
suposição teórica.
Exemplo 2.1: Para a variável ldade, ver Tabela 1.3 clo Capítulo l, o cspitço ltignra 2.1: Ilegru de adição dc probahiliclaclcs.
amostral será f) : {17,18, .. . ,25}. Supondo que um aluno é escolhiclo ao iÌcoso
Capítulo 2 : Probabilidades 2.2 P robab ilidade Condic ional e Indep endêncía 4T
40

2. Sendo A e B dois eventos em um mesmo espaço amostral, "tÍadrtza" pafa A

Observe qu€o, se A e B forem disjuntos, a expressão acima se reduz à linguagem da Teoria dos Conjuntos, as seguintes situações:'
sorna das probabilicdades dos eventos A e B, pois a intersecção é vazia e a a. Pelo menos um dos eventos ocorre.
correspondente probabilidade é nula. A regra de adição de probabilidades pode b. O evento Á ocorre mas B não.
ainda ser expandidan para mais de dois eventos. Jente, por exemplo' escrever a c. Nenhum deles ocorre.
expressão para P('$UBUC) considerando D: Bl)C e aplicando a regra de cl. Exatamente um dos eventos ocorre.
adiçãro de probabilid,lades duas vezes. 3. Uma universidade tem l0 mil alunos dos quais 4 mil são considerados
Comq cons€eqüência da regra da adição, obtemos que, para qualquer csportistas. Temos, ainda, que 500 alunos são do curso de biologia diurno, 700
evcnto A c {1, cla biologia noturno, 100 são esportistas e da biologia diurno e 200 são
P(A):I-P(A'), csportistas e da biologia noturno. Um aluno é escolhido, ao acaso, e pergunta-
sc a probabilidade de:
que pode ser verifiúcada aplicando a regra da adição com Ac no lugar de B. a. Ser esportista.
Tctnos, b. Ser esportista e aluno da biologia noturno.,-:l
tr(Art A') : P(A) + P(A") - P(AÀ A") c. Não ser da biologia.
: p(A) + P(A') - P(A) d. Ser esportista ou aluno da biologia.
: p(A) + P(Á") c. Não ser esportista, nem aluno da biologia. À ,---
- 0. (,,,-/
:9,2,
4. Sejam A e B dois eventos em um dado espaço amostral, tais que P(A)
Como P(Au A) : P(Cl) : 1, segue imediatamente a igualdade desejada' P(B) : p, P(AU B) : 0,5 e P(A n B) : 0,1. Determine o valor de p.

5. l)ois processadores tipos A e B são colocados em teste por 50 mil horas. A


Ilxercícios da Seçãco 2.L: probabilidade de que um erro de cálculo aconteça em um processador do tipo
1. Para cada um dors casos abaixo, escreva o espaço amostral correspondente e A é de 1/30, no tipo B, 1/80 e, em ambos, 1/1000. Qual a probabilidade de que:
conte seus elementos' ri. Pelo menos um dos processadores tenha apre.sentado
b. Nenhum processador tenha apresentado erro?
"rrorc---.-u---
\
a. Uma moeda é Íançada duas veze,s, e observam-se as faces obtidas'
b. Um dado é lrançado duas vezes e a ocorrência de face par ou ímpar é c. Apenas o processador A tenha apresentado erro?
observada.
c. Uma urna contém 10 bolas azuis e 10 vermelhas com dimensões
rigorosamento iguais. Três bolas são selecionadas ao acaso com reposição e 2.2 P r obabilidade Condicional e Independência
as cores são arnotadas. Em muitas situações práticas, o fenômeno .aleatório com o qual
çL Dois dados sãio lançados simultaneamente e estamos interessados
na soma Irrrbalhamos pode ser separado em etapas. A informação do que ocorreu em uma
'- clas faces observadas. rletr-:rrninada etapa pode influenciar nas probabilidades de ocorrências das etapas
g( Em uma cid;ade, famílias com 3 crianças são selecionadas ao acaso,
' anotando-se o sexo de cada uma.
srrccssivas.
Nestes casos, dizemos que ganhamos informação e podemos "recalcular"
. f.'Urna máquina produz 20
peças por hora, escolhe-se um instante qualquer e
rrs probabilidades de interesse. EsSas probabilidades "recalculadas" recebem o
observa-se o número de defeituosas na próxima hora. Irrrrrrc cle probabilidade condicional; cuja definição apresentamos a seguir.
g. Uma moeda é lançada consecutivamênte até o aparecimento da primeira
' cafiÌ.
42 Capítulo 2 : Probabilidades ?. J l' t r il x t It i I i datle Condicional e Independência 43

Definíção 2.2 : Probabilidade c ondicional P€les srrposições iniciais, 1/ í) B : H e entáo, P(H n B) : P(H): 0,02.
Dados dois eventos A e B, a probabilidade condicional de Á dado que Ettln,t,
ocorreu .B é representada por P(A I B) e dada por
P(!,1,8). PíB)
P(Htrl:r#ã?: ffi:0,025
'|P(Al
\ B\ '
: P(B) \ /' > 0.
â ftgur rr, n scguir, apresenta o efeito da informação l no espaço amostral'
Caso P(B) : g, P(Al B) pode ser definido arbitrariamente; neste texto
usaremos P(Al B): P(A). tr
Exemplo2.3.' Considere a seguinte situação hipotética. Uma grande região de 100
km2 contém um aqüífero (reservatório de água) subterrâneo com ârea igual a 2 O = Região (100 km2)
km2, cuja localização é_ desconhecida (ver figura a seguir). A fim de determinar a
posição do aqüífero, perfurações são feitas ao acaso. Vamos representar por If o
evento de encontrar água. Temos P(H): 0,02, obtido pelo quociente da área do
aqüífero pela área total, onde usamos que o espaço amostral é f) : {região de 100
k*tÌ.

C)'= Nova Região (80 km2)

Ç2 = Região (100 km2)

@ e:ptrç,, rrtttostral perdeu 20 kmz , que é a área descartada para novos furos, tr
l)rr tlcÍ'iniçiro de probabilidade condicional, deduzimos a regra do produto

Suponha agora que, após uma ano de pesquisas, uma área de cerca de 20
fr Stnilultililrulcs, uma relação bastante útil que é apresentadanaFigura2'2,
km2jâ foi amplamente perfurada sem encontrar água e pode ser descartada para
novos furos. Representamos essa informação por 1. Qual seria, agora, a,

probabilidade de um furo, feito ao acaso, atingir o aqüífero? Vamos representar


por P(H I 1) u probabilidade desejada. Com a mesma argumentação utilizada
acima, a nova região de procura terâírea B0 km2 e portanto P(H I I):0,025,
Isto é, como esperávamos, a probabilidade de obter água aumentou devido iì Itigura 2.2: Regra do produto de probabilidades.
informação recebida. Vamos refazer esse cálculo utilizando agora a fórmula de
probabilidade condicional. Para tal, seja B a nova região de procurir I lrrr corrceito nruito inrportante em probabilidade é o da irulependênciu cle

correspondendo a área total inicial menos a parte que foi descartada para novas etêrrl.t,\', rllrL1 rict'ii utiliznclo rcpeticlitntcntc ao lottgo de toclo o texto'
tentirtivits. Temos que P(B) : 0,8. O evento H a B representa a ocorrôncin dc,
scrn ncnhuma informação etuxiliar, çncontrarmos água num Í'uro f'eito na regiiro .R.
44 Capítulo 2 : Probabilidades
P rt tl t il ti I i r k u I c Co ndic ional e Indep endê nc ia 45

Deftnição 2.3: Independência de eventos


Dois eventos A e B sáo independentes, se a informação da ocorrência ou
não de Bnão altera a probabilidade da ocorrência de ,4. Isto é,

P(Al B): P(A), P(B) > o, ol


0.9 5

ou ainda a seguinte forma equivalente:


o.;
P(A . B) : P(A) P(B). tr
o2
Não é difícil verificar que se A é, independente de B, então B é
oi
0,0
independente de A. O uso da expressão acima permite, ainda, verificar que o 5

evento vazio é independente de qualquer evento. As demonstrações são deixadas


a cargo do leitor.
E muito comum, à primeira vista, confundir eventos independentes e o;
eyentos disjuntos. O próximo exemplo ajuda a esclarecer essa questão.
Figura 23: Árvore de probabilidades.
Exemplo 2.4: lJnaempresa produz peças em duas máquinas 1e f f , quepodem
apresentar desajustes com probabilidade 0,05 e 0,10; respectivamente. No início A tabeln u seguir resume as ocorrências e suas respectivas probabilidades,
do dia de operação um teste é realizado e, caso a máquina esteja fora de ajuste, ela
ficará sem operar nesse dia passando por revisão técnica. Para cumprir o nível Eventos Probabilidade
mínimo de produção pelo menos uma.das máquinas deve operar. Você diria que a oro, 0,95x0,90:0,855
empresa corre o risco de não cumprir com suas metas de produção? OrOí' 0,95x0,1,0:0,095
Seja O; o evento da máquina i estar operando, ,i : 7,2. Pelas informações ol'o, 0,05x0,90:0,045
disponíveis temos P(Ot): 0,95 e P(O2): 0,90.
oí'o;' 0,05x0,10:0,005
Na Figura 2.3, apresentamos um diagrama conhecido como árvore de
probabilidades, qu'e consiste em representar os eventos e as probabilidades
Parn otrter o nível mínimo de produção dií'ria, precisamos ter pelo menos
condicionais associadas às realizações. Cada um dos caminhos da árvore indica
uma possível ocorrência.
nilleluinn opcrando. Isto corresponde à ocorrência do evento
U (, t( )i' t J Oj'0r.Ternos,
No preenchimento dos valores de probabilidades na árvore, observe que
assumimos a independência entre 01 e 02, pois acreditamos que a eventual falta t1(()(),,Q OLOI u Oí'O2) : P(OQz) + P(OLO;') + P(Oí'O),
de ajuste em uma máquina não interfere no comportamento da outra. Note que, no
caso de independência, o segundo ramo da árvore não é afetado pela ocorrência ãr ll'êe renlizflçõcs são disjuntas. Por exemplo, não é possível as duns
dos eventos que aparecem no primeiro ramo. Portanto, pela definição de lncs estnrenr operunclo (evento Op)
e ao mesmo tempo só a máquinn .I
independência, segue que P(O2l Ot) : P(Or): 0,90. (evento O()ú').Dessn Íbrma, concluímos que a probabilidade dè manter o
Para facilitar a notação, vamos escrever O1O2 para o evento OtÀOz. trfninro dc procluçiio é 0,995, Portanto, a empresa tem alta probabilidade de
sua probabilidade da ocorrôncia é dada pelo produto dos ramos que levam nesse Êr1nì Huns rnetus cle produção. tr
evento. Isto correspondendo à aplicação da regra do produto de probabilidades: No exernplo anterior, os eventos representados pelas intersecções
P(Ap2) P(Oz I 01) P(Ol).
Ëg,f,l1(J,j', ()i02 c Oi'Oi'lonnnrn novos cventos que têm a propriedacle de
=
ltlulrlnnrente exclusivos e cuja uniflo contenrplt toclas as possíveis
46 Capítulo 2 : Probabilidades F tt il t t I t iI il h ul c Co ndicional e Independência 47

combinações. Eventos que satisfaçam essas duas características têm importante


papel no cálculo de probabilidades e, assim, merecem destaque.

Definição 2.4: Partíçã.o do espaço amostrsl


Os eventos Cr,Cz,... ,Ct, formam uma partição do espaço amostral, se
eles não têm intersecção entre si e se sua união é igual ao espaço amostral. Isto é,

Ca)Ci:Q i'+i
1,

Para e U Ci:9.
.i:t tr

A Figura 2.4 apresenta um exemplo de uma partição com 6 eventos. A= (A nFr) u (A.F) u (Ánq)
uittcln,estar interessados em saber qual a probabilidade de que a amostra
tenlrir siclo obtida do leite fornecido pela fazenda F1, isto é,, P(4lA),
lmpllen erìì se inverter a probabilidade condicional conheciOa P(ÁlF'1).
conro cssa são típicas para o uso do resultado apresentado a seguir, tr
dc llnycs: Suponha que os eventos Ct,Cz, ... ,Cn formem uma
íl e que suas probabilidades
çle sejam conhecidas. Suponha, ainda, que
EFl evr:ttlo A, se conheçam as probabilidades P(AlCt) para todo
11 3, ,, . , ft, lintão, para qualquer j,
Figura 2.4: Partição do espaço amostral (k=6).
P(A I cò P(c j)
I'(C,il A) :
Exemplo 2.5.' Suponha que um fabricante de sorvetes recebe 20Vo de todo o leite
que utiliza de uma fazenda F1, 307o de urìa outra fazenda F2 e 50Vo de -F's. Um D p(A I cr) p(cr)
i:l
órgão de fiscalizaçáo inspecionou as fazendas de surpresa e observou que20Vo do
leite produzido por .F'1 estava adulterado por adição de água, enquanto que para rãção: t)r clcl'inição de probabilidade condicional temos
F2 e Fs, essa proporção era de 57o e 2Vo, respectivamente. Na indústria de
P(ci I A) :
P(C1n A)
sorvetes os galões de leite são armazenados em um refrigerador sem identificação
das fazendas. Para um galão escolhido ao acaso, vamos analisar o leite para
P($
decidir sobre sua adulteração ou não. ãËEtettdor dcssl expressão pode ser reescrito 'pela regra do produto,
Se denotarmos por Á o evento "o leite está adulterado", temos que lgnedo rì f,'i, isto é,

P(Al.p'r) : 0,20, P(Al Fz):0,05 e P(Al rs):0,02. Além disso, .F'1, F'2 e P(A;1n A) : P(AÀCì : P(Al C,:j)P(C.j).
,F3 formam uma partição do espaço amostral pois uma dada amostra de leite vem,
necessariamente, de uma e apenas uma das três fazendas. Desta forma, o evento Á EEttlFletnr u clentonstraçiro note quê
pode ser escrito em termos de intersecções de Ácom os eventos F1, F2 e F3, l;
r,,(A) :Dnra.ìci) :Do(1l
À:

conforme ilustra a figura a seguir. c,) P(c). tr


i=l i=L

I
? ( t,' u \") -- T ((trn.r1') -Ì lC-0" v-w d"t- J'lv'ng.r.,rzn i, ( àÒ a) b'\ - P ( ('*t'r',-,ll' )

48
'"
.
^\ Capítulo 2: P
rr(È,. s') p[n'', -? (al@) 49

l
l/
Exemplo 2.6: Yoltando à situação do fabricante de sorvetes (exemplo anterior), I
rt ttÍ'irttritção: se dois eventos são mutuamente exclusivos então eles'
podemos agora calcular facilmente a probabilidade desejada, isto é,
lnrlelrcttclcntes.
P(.il)
P(FrlA):--i(A)-A) Pgulo llutebol Clube ganha com probabilidade 0,7 se chove
Éeve, l'inr Sctcrnbro a probabilidade de chuva é de 0,3.
;e com 0,8 se
O São Paulo
P(A I F'l)P(rl) ull1n l)nrticln em Setembro, qual a probabilidade de ter chovido nesse
,

que sc AeB são independentes entáo A e B" também ião


les.
e, então

P(Frlrl: :0,615.
reíelos
Portanto, a probabilidade de que a amostra de leite em questão tenha si fuedn é vicitclu de modo que a probabilidade de sair cara é 4 vezes maior
produzida pela fazenda F1é, de 0,615 em contraste com as probabilidades 0,231 I de urir coloiì. Para 2 lançamentos independentes dessa moeda,
0,154 para as fazendas F2e F3, respectivamente.
p@btthiliduclc de sair somente uma cara.
Exercícios da Seçáo 2.22
pbchiliclnde dc sair pelo menos uma cara.
L. Considere dois eventos A e B, mrtuâmente exclusivos, com P(Á) :0,3 ffebntrllidurle de dois resultados iguais.
P(B) :0,5. Calcule: urrr conjunto de 4 números dos quais nenhum deles é zero, dois são
a. P(An B). c dois sÍio negativos. Sorteamos ao acaso, com reposição, 2 números
b.P(Au B). /-t / €enjunto, l)eterrnine a probabilidade de:
c.P(Al B). (-" deler r,rer negntivo.
d. P(A.). qune ietrle set negativo.
e. P((A u B)").
dclr núrrrerc)s terem o mesmo sinal.
2. Se P(AU B) : 0,8;P(Á) : 0,5 e P(B) : r, determine o valor de rno caso He sf,o vrlliclas ats afirmações:
de: á) - lllaf'@ lÁ) :3/5então AeB
:
nãopodemserdisjtrntos'
a. Ae -B serem mutuamente exclusivos.,
b. Áe B serem independentes. U'
& ntá) -- 12,l'(Dl A):r I e P(A lB) Lf2 então An'/ao pode estar
€€f,tldn ettt /J.
3. Uma escola do ensino médio do interior de São Paulo tem 40Va de estudanteg €lÉrce dr, estuíística tcve a seguinte distribuição das notas finais: 4 do sexg
do sexo masculino. Entre estes, 207a n]unca viram o mar, ao passo q\Ìe, entre AÕ lnu c fi clo Í'crnirrino íbram reprovados, 8 do sexo masculino e 14 do
meninas, essa porcentagem é de 50Vo. Qual a probabilidade de que um aluno ãlno frtrurn ttprovndos, Para um atluno sorteado dessa classe, denote por M
selecionado ao acaso seja: Ëlutto eseollrirlo íbr do scxo masculino e por Á se o aluno foi aprovado.
a. Do sexo masculino e nunca tenha visto o mar?
'/
b. Do sexo feminino ou nunca tenha visto o mar? F1d t=t ltl";,
a.SeP(f) :0,4;P(A) =0,7e P(A nr) = 0,3;calculc P(AI D"), F(é' rr ilI"),
F(d | /1/).
50 Capítulo 2 : P robabilidades Ëfét'r't{'ií,,f
5t

d.P(M'I A). €F ttttr l)uirrg existem três empresas de TV a cabo e 20 mil residôncias. A
e,P(M I A). 'l'A lcrn 2100 assinantes, a TB tem 1850 e a empresa TC tem 2600
Ë:in1ttl,,s, scttclo que algumas residências em condomínios subscrevem aos
?eças produzidas por uma máquina são classificadas como defeituosas, lçr'u tlc: urais de uma empfesa. Assim, temos 420 residências que sito
,"c,rpe.ãveis ou perfeitas com probabilidade de 0, 1 ; 0,2 e 0,7 ; respectivamente. Irlr:s tlo TA e TB, 120 de TA e TC, 180 de TB e TC e 30 que sito
De um grande lote, foram sorteadas duas peças com reposição. Calcule: rrtrs tlns trôs empresas. Se uma residência desse bairro é sorteada ao
ruu, quttl é l probabilidade de:
a. P(duas serem defeituosas)
b. P(pelo menos uma ser Perfeita).
ËFr nssirrlrrtc somente da empresa TA?
c. P(uma ser recuperável e uma perfeita).
E se o A$lttnr 1rclo tncnos uma delas?
,,@)t"Oiqu. as suposições utilizadas para resolver os itens anteriores. !ÍEe t.'r''l'V n cabo?
vsorteio for sem rePosição?
I gttrrrit'ios guardam as bolas de voleibol e basqüete. O armário 1 tem 3
6.Paradois evento s A e B,num mesmo espaço amostral, verifique, através ile um de vrrleibol eI de basquete, enquanto o armário 2 tem 3 bolas de
diagrama, que é sempre possível escrever o evento A como sendO I r' ? clc basquete. Escolhendo-se, ao acaso, um armário e, em seguida'
çe"o A1U (Á n B") e que, portanto, vale P(Á)
: P(An B) + P(AÀ B")'
tle runs bolus, citlcule a probabilidade dela ser:
7. Numa cidade do interior de São Paulo, estima-se que cerca de 20Va doS p€ vok ibol, sitbcndo-se que o armário 1 foi escolhido' -
habitantes têm algum tipo de alergia. Sabe-se qne 50Vo dos alérgicos praticam ãà burq,,.,*, sitbcnclo-se que o armário 2 foi escolhido.0
esporte, enquanto que essa porcentagem entre os não alérgicos é de 407o'PatA fu buE,lrrcte,
um indivíduo aleatoriamente nessa cidade, obtenha a probabilidade
"r"olhido Fgclctrtcs clc uma Clínica de Ginecologia com idade acima de 40 anos,
de: tõrr rrrr lìrtrn casadas e 407o são solteiras. Sendo solteira, a probabilidnde
a. Não praticar esporte. ' ',
ëf tlrlo urn rlistúrbio hormonal no último ano é de I07o , enquanto que poftl
b. Ser alérgico dado que não pratica esportes.
ftnrn I r e sstt probnb i I idade aumenta para 30Va' Pergunta-se :
8. As preferências de homens e mulheres por cada gênero de filme alugado em QU*rl tr prtoltnbiliclade de uma paciente escolhida ao acaso ter tido um
uma locadora de vídeos, estão apresentadas na próxima tabela' dlrlúr'trirt ltortttottal ?
Romance Policial ãe A pncierrte sortcada tiver distúrbio hormonal, qual a probabilidade de ser
Sexo \ Filme Comédia
:sltëit'u'/
248 é
Ë€ excullr!'rnus cluits pacientes ao acaso e com reposição, qual
Homens 136 92 a
Mulheres r02 195 62
pfolruhilirlittlc clc pclo lrenos uma ter o distúrbio?
Sorteando-se, ao acaso, uma dessas locações de vídeo, pergunta-Se A
Yt*ê elttr,'g.tt il s!:tl amigo uma cartáì, destinada à sua namorada, parat sgt
probabilidade de: :4111 tro crtrrcio. Entrcttnto, ele pode se esquecer com probabilidade 0,1 .
a. Uma mulher ter alugado um filme policial? llãu Er. i,sr.lltec:cl', l probltrilidacle de que o correio extravie a carta é de 0'1,
b. O filme alugado ser uma comédia? êlSetttr:, st: liri cnviacla pclo correio a probabilidade de que a namorada nlio
c. Um homem ter alugado ou o filme ser um romance? * tscehrr rt tL: 0, I .
d. O filme ser policial dado que foi alugado por um homem? 1 Efu trrrrturt'urlit ttíio rcccbctt o carta, qual a probabilidade de seu amigo tel
prquecirto tlc crtlocít-la no corrcio'l
,f,Ooit dados equilibrados são lançados' Calcule a probabilidade de:
a. Obter o par (3,4), sabendo-se que ocorreu face ímpar no prirneiro dado. br Avrrltr, rrs llossillilidnclcs clcsse rlanìoro cotttinuar, se aÌ comunicaçiio
,,'i'
' Ètepett,l,,r rltts ctrtits ottviitdas.
ll. Ocorrcr face ímpar no segundo ditdo, sabenclo-se quc ocorrcu íacc par nO
pritttciro dado.
52 Capítulo 2 : Probabilidade 53
Ëtçtr t,',,,.r

14. Numa certa regiáo, a probabilidade de chuva em um dia qualquer de Flnr'rtttlt'ttt' ígua em até duas tentativas.
primavera é de 0,1. Um meteorologista da TV acerta suas previsões em 807o Eneottlt'rtr iigtta.
dos dias em que chove e em907o dos dias em que não chove.
a. Qual é a probabilidade do meteorologista acertar sua previsão? UFt ttrrurlico closconfia que um paciente tem tumor no abdômen, pois isto
b. Se houve acerto na previsão feita, qual a probabilidade de ter sido um dia de nn 70(k' clos casos similares que tratou. Se o paciente de fato tivcr o
chuva? , u rxnnìo rrltra-som o detectará com probabilidade 0,9. Entretanto, se ele
tlvr.r o lurÌror, o exame pode, erroneamente, indicar que tem com
15. A tabela a seguir apresenta informações de alunos de uma universidade lirlirrle 0,1. Se o exame detectou um tumor, qual é a probabilidade clo
quanto às variáveis: Período, Sexo e Opinião sobre a Reforma Agrá'ria, lcnte tô lo tlu ílto?
Determine a probabilidade de escolhermos:
t*helu dos 1000 ingressantes de uma universidade,
rt segttir itpresenta dados
a. Uma pessoa do sexo masculino e sem opinião sobre a reforma agrâria?
lnfolrrrrrçt'ics sobre área de estudo e classe sócio econômica.
b. Uma mulher contrária a reforma agr6,ria?
c. Dentre os estudantes do noturno, um que seja a favor da reforma agrâria? Area \ Classe Alta Média Baixa
d. Uma pessoa sem opinião, sabendo-se que ela é do sexo feminino? Exatas L20 156 68
Período Sexo Reforma Agrária Humanas 72 B5 LL2
Biológicas 169 I45 -q
A Favor
ÍL)

Contra Sem opinião


Diurno Feminino 2 8 2 BFI ttltttur ittplt'cssiutte é escolhido ao acaso, determine a probabilidade dc:

Masculino 8 9 8
&r du clussc cconôtrrica mais alta.
&tg,l,tt'ttu rit'cit clc exatas.
Noturno Feminino 4 8 2
&tu,lgr t,,, 1il'r:iì dc humanas, sendo de classe média.
Masculino T2 10 I ãgf du r'lrsstr bitixit, clado que estuda na ârea de biológicas.

16. Três candidatos disputam as eleições para o Governo do Estado. O candidato it probabilidade de gostar de teatro é, Il3, enquiìnto
t'r:r'lrr poprrlitçiro,
do partido de direita tem30Vo da preferência eleitoral, o de centro tem307o e o Ë tlc gostlr rlc cinerna é 112. Determine a probabilidade de gostar de tcatro
da esquerda 40Vo. Em sendo eleito, a probabilidade de dar, efetivamente, :lc citrt'rttir, rtos scguintes casos:
prioridade para Educação e Saúde é de 0,4; 0,6 e 0,9 para os candidatos de €grlnl'rlt, lerrtnr o gostilr cle cinema são eventos disjuntos.
direita, centro e esquerda, respectivamente. €lnrttu'rh' lntltrr o gostar de cinema são eventos independentes.
a. Qual é a probabilidade de não ser dada prioridade a essas áreas no próximo Fgd,,r rlllr' ÈloslnrÌì clc teatro gostáìm de cinema.
governo? A Frrihirlrilirlrtrlo clc gostitr de teittro e de cinema é Ll8.
b. Se a área teve prioridade, qual a probabilidade do candidato de direita ter t flenlre os (lueì niÍo gostam de cinema, a probabilidade de nãro gostar de tcitlro
,.
,.,,.
ganho a eleição? É ;l/.1,

lf:.Uma companhia que fura poços artesianos trabalha numa região escolhendo, I TÉr hilrrir'ns lìrrnccctn ecluipamcntos de precisão para o laboratório tle
"âleatoriamente, o ponto de furo. Não encontrando água nessa tentativa, sorteio lpflnlr.rt rlr' untit ttttivct'siditcle, Apesar cle serem aparelhos de precisão, cxiste
outro local e, caso também não tenha sucesso, faz uma terceira e últirnn EFa p€rlut'nl clrirrrco clo subcstirnirçÍo ou superestimação clas rnecliclns
tentativa. Admita probabilidade 0,7 de encontrar água em qualquer ponto dcssn *lttit,lrrq A tlbcln it scgttit' aprcscnta o collportamcnto do equiparncnto
regiãro. Calcule a probabilidade de: Fdttrl,l,, t'!!t t'iltlll I'iillricl:
a. Encontrar írguir na seguncla tcntativa.
54 Capítulo 2: Probabi E.ttt't'it'irts 55

Fábrica I Subestima Exata Superestima ãUporrhl que X represente o número de horas de atividade física por semana.
Probabilidade 0,01 0,98 0,01 €cnriirlcrc a tabela a seguir:

Fábrica II Subestima Exata Superestima Sexo \ Atividade 0<x<3 3<X<5 x>5


Probabilidade 0,005 0,98 0,015 Feminino 22 B 7
t 4 6
Masculino d
Fábrica III Subestima Exata Superestima
Probabilidade 0,00 0,99 0,01 ãr Qull ó a probabilidade de sortear aleatoriamente uma menina com atividade
físicit scrnanal na faixa de [3, 5) horas?
As fábricas I, II e III fornecem, respectivamente, 20Vo, 30Vo e 50Vo dos Èr enlculc P(X > 5).
aparelhos utilizados. Escolhemos, ao acaso, um desses aparelhos e Cr €*rlcrrlc a probabilidade de que um rapaz escolhido aleatoriamente dedique
perguntamos a probabilidade de: pelo rncnos 5 horas à atividade física. Idem para uma moça.
a. Haver superestimação de medidas? Ë, €utttltitt'c iìs respostas dadas nos itens (b) e (c)'
b. Não haver subestimação das medidas efetuadas?
c. Dando medidas exatas, ter sido fabricado em III? A ptrrtlrtrilidade de encontrar gás numa certa região é, llrc. Três sondas
i!'ns estito perfurando de modo independente.
d. Ter sido produzido por I, dado que não subestima as medidas?
ãgbertrlo-se que uma delas (qualquer) não achou gás, qual a probabilidade
22. Acredita-se que numa certa população, 207o de seus habitantes sofrem dHg ottlt'its duets encontrarem?
algum tipo de alergia e são classificados como alérgicos para fins de saúde ã$bcttrltt-so que uma delas (qualquer) não achou gás, qual a probabilidade
pública. Sendo alérgico, a probabilidade de ter reação a um certo antibiótico é dê etteorttrar gás na região através dessas perfurações?
de 0,5. Para os não alérgicos essa probabilidade é de apenas 0,05. Uma pessoa ãtllrc:nrkr-sc que não mais de uma delas (qualquer) achou gás, qual a
dessa população teve reação ao ingerir o antibiótico, qual a probabilidade de: prohrrbiliducle de nenhuma encontrar gás?
a. Ser do grupo não alérgico?
b. Ser do grupo alérgico? ! I A, ll c C pertencentes a um mesmo espaço amostral. Mostre que:
AltJ) :1-P(AlB).
23. Estatísticas dos últimos anos do departamento estadual de estradas são F(a U B I c) : P(Al c) + P(B lc)-P(A)Blc).
apresentadas na tabela a seguir, contendo o número de acidentes incluindo te Jt /'' cntito P(Au B I C) : 1.
vítimas fatais e as condições do principal motorista envolvido, sóbrio ou F(,4 t t 11U C) : P(A) + P(B) + P(c) - P(A. B) - P(A. c)
= t'(/t íì íl) + P(An B nC).
alcoolizado.
Motorista \ Vítimas fatais Não Sim vilja ao litoral para passar um fim de semana. A probabilidade
Éjlntr fnrrrÍlil
Sóbrio L22B 275
ft euttgr.slirtttittnento net estrada é de 0,6. Havendo congestionamento, a
Sbttlrilirlrrrkr clos seus dois filhos brigarem no carro é de 0,8 e,
Alcoolizado 2393 762 sem
$€ngesti.rrrnnrenlo, a bríga pode aparecer com probabilidade 0,4. Quando há
Você diria que o fato do motorista estar ou não alcoolizado interfere na
or.l scln congestionamento, â probabilidade do pai perder a
ocorrência de vítimas fatais? biëtl, ,,.,",
p€iêIe in r'(ìnì os Í'ilhos é de 0,7. E claro que havendo congestionamento o pai
24. Sejam A e B dois eventos de f), tal que P(B) ) 0. Mostre que: p€de per,l,.r'tt pitciênciil com os filhos mesmo sem brigas, o que aconteceria
a. Se P(Á I B) : P(Á) então P(Aí18) : P(A)P(B)' É€Ft ptohlhilirlndo 0,5. Quando niro hír nem congestionamento, nem briga, o
b. Se P(Á n B) : P(A)P(B) entito Á e D siro independcntes' pi eltrtgr. trnrtqiiilo c níto 1:crdc a puciôncia, Determine a probabilidade de:
* Nnrr kt'ltitvirkl congestiottittrtcnto se o pai não percleu a paciência com seus
flllrrtF
56 Capítulo 2: Probabi

b. Ter havido briga, dado que perdeu a paciência. ultt.ì


29.Um candidato a motorista treina na auto-escola e acredita que passa no exame
com probabilidade 0,7. se não passar, fará mais treinamento, o que ele estima
que lhe aumentará em lj%o a probabilidade de passar, isto é, no segundo
rklvcis Aleatórias Discretas
exame passará com0,77 de probabilidade.
a. Supondo que ele continue acreditando nesse aumento de possibilidade, em
que exame será aprovado com certeza?
b. Qual é a probabilidade de serem necessários mais de 2 exames? IRtrorluçiro
Os arquivos de dqdos mencionados nos exercícios a seguir podem ser obtidos em
Nr.rlc c'irpítulo, incorporamos o conceito de probabilidade no estudo de
www. i me. us p. b r/- no p ro e s t
l: Êtsrociirclls a características em uma população. No Capítulo 1, vimos
30. (Use o computador) Considere os dados do arquivo areas.txt descrito no Hllllrrrrrrlo rrrtlr tabela de freqüência, podemos apresentar os valores oossíveis
Exercício 25, capítulo 1. Suponha que você ganhe um apartamento em uma glua rlrtrlir vnriírvel e suas respectivas freqüências. Evitamos, dessa forma,
promoção feita por uma cadeia de lojas. utilizando o computador, construa $endr, ltet'tlir clc informação, a repetição, às vezes muito grande, dos valores
tabelas de freqüência necessárias para responder às seguintes questões. dvc.l, l)tr Íornra irnáloga, vamos formalizar, com a ajuda da Teoria das
a. Qual a probabilidade do apartamento estar situado entre os andares 4 e7? llrlnrk's, o conrportamento de variáveis na população, associando a cada
b. Qual a probabilidade do apartamento estar situado no bloco B? vllor sua probabilidade de ocorrência. Como já mencionamos no
c. Qual seria a probabilidade de você ganhar um apartamento com algum iilrtrli()r', irlónr da probabilidade poder ser obtida a partir do estudo das
problema de construção? (Isto é, com rachaduras ou infiltrações). Irts, clrr tirrnbém pode ser deduzida a partir de suposições feitas a respeito
d. Repita os itens anteriores, dado que o apartamento esta situado no bloco B. llrtç;t,r rlo í'r:nômeno. Na formalizaçáo que faremos com a introdução de
llklnrlr's, nos ocrìparemos apenas das variáveis quantitativas. Vamos
3L. (Use o computador) Considerando o arquivo cancer.txt calcule:
It'etrlrr os casos discreto e contínuo, pois a atribuição de probabilidades
a. As probabilidades de que um paciente selecionado, ao acaso, seja
h' r'trt ciulrt situação. As variáveis qualitativas podem ser, em algumas
classificado em cada uma das quatro categorias da variável Diagnóstico.
! E corrl o ctovido cuidado, tratadas como discretas na atribuição de
b. utilizando apenas o item (a), qual a probabilidade de um paciente, hliirlt's,
selecionado ao acaso, ser diagnosticado como não tendo a doença? Utnir rilrirrrticlaclc X, associada a cada possível resultado do espaço
32. (use o computador) considere os dados do arquivo aeusp.txt descrito no , é tlt'rrrrrrrirtirdn dc veviável aleatória discreta, se assume valores num
Exercício 26, Capínlo 1. Suponha que escolhemos, ao acaso, um dos r etttttrrel'iivol, corn certa probabilidade. Por outro lado, será denominada
moradores entrevistados. ctle'ttltit'itt t:rtttlítuta, se seu conjunto de valores é qualquer intervalo dos
a. Qual a probabilidade da idade do entrevistado ser inferior a 35 anos? iFntH. o tltrc scria um conjunto não enumerável.
b. Dado que o morador tem menos do que 35 anos, qual é a probabiridade ( rnlrì i'i rrtcrrcionamos arnteriormente, existem variáveis que são
!r

dele ser do sexo feminino? çrrlr rlrl'irritlls courcl discretas ou contínuas, porém essa atribuição não é
c. Qual seria a probabilidade de escolher um morador do Jardim Raposo quo e rlt';rt.trth-r tkr irrstrumento de medida e do estudo que está sendo feito.
tenha acesso a computador? Életttlrlrr, rr virliiivol tninrero dc,filltos em.famílias é discreta, enquanto o
d. Determine a probabilidade de escolher um entrevistado qr"re tcnha vinclo clo clr te'tt1'titt u utn t:erlo mulicdnrcnÍ.o ó contínua. A discussão sobre
nordeste, seja do sexo feminino e estír trabalhando. Se esse rnoraclor Íbi iflr.ttç;to rh' vrrliiivcis, lbitn lro Capítulo l, serír utilizada em todo o texto e a
escolhido, qual é a probabilidaclc delc tor cartcira assinacla? fEl rtl:.'tttrrt'itt ir itcrcscicln itqui pttt'it inclicar qtle, áÌ cada possível valor,
r!1 unut prohullilidnclc clc ocorrôlrciu. No caso discreto, a atribuição é

57
58 Capítulo 3: Varidveis Aleatórias Disc 59
folr,t,lrt1,t,,

similar à tabela de freqüência; jáL no caso contínuo, utilizaremos


= (l) 0,20. De forma semelhante, temos que P(l'r 1) : 0,30 e
:
generalizaçáo da idéia de histograma.
=: '=l ) 0,1ì5. Para completar
a catacterização probabilística a variável
lrt N. Íjrltn obter as probabilidades P(lí : 3), P(l/ :4) e P(N : 5).
Neste capítllo apresentamos os resultados e modelos mais comuns
variáveis aleatórias discretas, deixando para o Capítulo 6 a discussão do
r rrs irrÍìlrmações fomecidas, elas são iguais e, digamos, têm valor p.
contínuo.
r rr rlcl'irtição de função discreta de probabilidade, temos que:
Seja X uml variável aleatória discreta e 11,12,ryt..., seus dife
valores. /)(N : :
0) + P(.^'r *
1) ... + P(,^f - 5) :
Definição 3.1: Função dìscreta de probabilidade 0,20 + 0,30 +0,35 + p+ p + P r :
A função que atribui a cada valor da variável aleatória sua probabr 0,85 + 3p: I
0,15
é denominada de função discreta de probabilidade ou, simplesmente, função èp:ï:0,05.
probabilidade. Anotaçáo a ser utilizada é:
P(X = r;) : p(r1) : pi,'i : I,2,... ê Ftttrçiìo rlc probabilidade para l/ é dada pela tabela a seguir:

ou ainda, tr

.1,): Nir construção de um certo prédio, as fundações devem atingir 15


\1

1 p, < pt : de prolìrnrliclade e, para cada 5 metros de estacas colocadas, o operador


"I
Uma função de probabilidade satisfaz 0 1 L.
lé lrorrvt. ;rltcração no ritmo de perfuração previamente estabelecido. Essa
É icsrrltlulo de mudanças para mais ou para menos, na resistência do
Note que, na maioria dos casos, X terâ apenas um número finito
Nps rlçis c1sos, medidas corretivas serão necessárias, encarecendo o
valores possíveis e, assim, a verificação de qge a soma de probabilidades é igunl
pltru, ('otrì lrase em avaliações geológicas, admite-se que a probabilidade
I será feita através deuma soma finita. As variáveis aleatórias são complet dÊ
caracterizadas pela sua função de probabilidade e uma parte importantg
tliit rltr irltcrações é de 0,1 para cada 5 metros. O custo básico inicial é
Estatística é, justamente, obter, para uma dada variável de interesse, a funçÍlo
tlf'('s (rrrrirllrlc padrão de construção) e será acrescido de 50k, com k
rtirhr o rrtirncto de alterações observadas. Como Se comporta a variável
probabilidade que melhor represente seu comportamento na população.
ÉÉr rilrtrrs tkr lìtndaçito?
Exemplo 3.1.' Com do último censo, a assistente social de um Centro
dados Assrrrrrirrros cluc as alterações ocorrem independentemente entre cada um
Saúde constatou que para as famílias da região, 20Vo não têm filhos, 30o/o tê,m $r ltrt,,rvitlos tlc -5 metros e representamos por A a ocorrência de alteração
filho, 35Vo têm dois e as restantes se dividem iryglgrglf" entre três, quatro ê*lç, lrrlr,rrzlo, scltclo Á'' seu complementar. A Figura 3.1 apresenta as trôs
cinco filhos. Suponha que uma família será es'colhida, aleatoriamente, ne !,r!u (ìs possívcis resultados da perfuração. Cada etapa tem duas
região e o número de filhos averiguado. Definimos N como sendo a vari llrlri,l,'s (lu(:, (lr.riurclo combinadas com as outras duas etapas, originam 8
aleatória ntimero deftlhos e consideramos que a escolha é feita entre as cli là ç-vlrrlos. lÌlr cxcmplo, o evento AA"A representa que, na primeira e na
opções de valores parn N. Isto é, náo importa qual a família escolhida, mas ClÍllill,, it(.()tìloccriÌl-n alterações, enquanto que na segunda nada se alterou.
qual é a resposta dada quanto ao número de filhos. Desse mocJo, est letfrr ri ll ('lirl)irs, coltt 2 possibilidades emcadauma, temos no total 23 :B
sorteando um valor deNdentre 0,7,2,3, 4 ou 5. A função de probabilidaclo
variável segue das informações disponíveis, isto ó, como 20ok das l'amílius I I r-r,|nço itrttoslt'itl cclnsistc na união de todos os caminhos que levam de
têm filhos, então a ptobabilidade de uma ftrrrríliir sortcacla ao iÌcaso niro ter I'ilhoË pHltlrlr {riil!o (llr iirvorc clc probabiliclacles,
60 Capítulo 3: Variáveis Aleatórias Discretas lllln,ilrrç'ïro 61

P(C :150) : P(AA"A') + P(A'AA") + P(A'A'A)


-----_-----
^0,t4 :3 x 0,1 x 0,92 :0,243.
0,9 A"
ptrrlrlbilidades para os outros valores de C podem ser obtidas de modo
o' on,
r, r'csultando na seguinte função de probabilidade:
o"
0,9

lìrrrna, o comportamento da variável de interesse pode ser estudado através


ãtsoc:iação de cada custo com sua probabilidade de ocorrência. Essa
tçiio pode auxiliar na previsão de gastos e na elaboração de orçamentos. I
Figura 3.1: Árvore de probabilidades- alterações no subsolo. Vlmos considerar agora exemplos em que as probabilidades associadas
ê[:rucrrtos do espaço amostral são obtidas a partir de uma suposição teórica.
Sendo C a varilrvel aleatória custo da obra, obtemos a seguinte tabela: 3.3r Considere o experimento de lançar uma certa moeda é observar se
eilnr ou coroa. Descreva o comportamento da variável número de caras em
Eventos Probabilidade Ú' (em UPCs) lilnçt mentos dessa moeda.
AAA 0,1" 250 Sc denotamos por ly' a variável de interesse, segue imediatamente que l/
AAA" 0,12 x 0,9 200 nssrrrrrir os valores 0, 1 ou 2.Para atribuir probabilidades a cada um desses
AA.A 0,12 x 0,9 200
ó rrecessário fazu alguma suposição a respeito da probabilidade de
rciir de cara ou coroa. Admitindo que a moeda é equilibrada, as
AA"A" 0,1 x 0,92 150
lrilitlrrcles de cada face serão iguais, isto é, P(cara): P(coroa) : Ll2.
A.AA 0,12 x 0,9 200 ttos ainda a independência entre lançamentos, de modo que a ocorrência de
A.AA. 0,1 x 0,92 150 rlclclnrinada face no primeiro lançamento não altere a probabilidade de cara
A" AcA 0,1 x 0,9' 150 €proír n0 segundo lançamento.
AcAcAc 0,9 t 100 l)oclemos considerar como espaço amostral o seguinte conjunto:
g : {cc ,c R, RC , RR},
Note que associamos a cada evento do espaço amostral um valor para a
variável aleatória C. Os distintos possíveis valores são c1 - 100, cz: L50, (I c /Ì rcpresentando a ocorrôncia de cara e coroa, respectivamente.
cs : 200 a c4 :250. Além disso, podemos ter um mesmo valor da variável l'lra deduzir a função de probabilidade de -ôy', observe que o valor 1
associado a mais de um elemento do espaço amostral, por exemplo, ã€rrttr. rros cventos CR e ÃC, enquanto que os valores 0 e 2 têm apenas um
Éïetttrr ir cles associado, respectivamente, -RÃ e CC. Segue então que as
P(C : cz) : P(C: 150) : P(AAA'l) AAA'U A"A"A). pfehnlrilitlucles associadas aos valores de Iy' são as seguintes:
Tendo em vista que os eventos são disjuntos, a probabilidade da união fica sendo
tr
simplesmente a soma das probabilidades de cada evento. Então,
62 Capítulo 3: Variáveis Aleatórias Disc 63

Exemplo 3.4: tJmjogador paga 5 fichas para participar de um jogo de (1, 1)


disputando com a banca quem tem o ponto maior. O jogador e a banca (2,L) (2,2)
cada um o seu dado e a seguinte regra de premiação é estabelecida: (3,1) (3,2) (3,3)
- se o Ponto do jogador
Joga é maior, ele ganha 2 vezes a diferença entre o (4,1) (4,2) (4,3) (4,4)
ponto e o obtido pela banca; (5,1) (5,2) (5,3) (5,4) (5,5)
se o ponto do jogador é menor ou igual ao da banca, ele não ganha (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
O que você acha desse jogo? 3l 1r,t'.r tôrn todos a mesma probabilidade de ocorrência e, portanto,
Vamos admitir que os dados utilizados são perfeitamente homogêneos, Jtlf'l 0) :21136. De modo análogo, calculamos os demais valores e
tal forma que não há preferência na ocorrência de qualquer uma das seis f ê futtçiio clc probabilidade:
Assim, podemos considerar que os pares de valores (b, i) representt (;l 0 2 4 6 B 10
respectivamente,o resultado obtido pela banca e pelo jogador, têm a met 7t, I ztlze 5lJ6 4lJ6 Jls6 2186 Llz6
probabilidade de ocorrência. Isto é, qualquer par tem probabilidade 1136
ocorrer. fiubrc o jogo fica, então, evidente. Tendo em vista as 5 fichas pagas
Para cada par (b,7) sorteado, a premiação é baseada nos seus va o .jogirclor só não terâ prejuízo nos casos em que obtiver 6, 8 ou 10
Definimos a variável aleatória discreta G como sendo o ganho bruto do io de, rctorno, o que acontece com probabilidade
em uma jogada, isto é, o valor arrecadado sem descontar as fichas iniciais !/aC t lf 36:6/36. Portanto, o jogo é altamente favorável à banca e,
para participar do jogo. Pela regra de premiação' segue que: €rint nruitl sorte (1/36), o jogador ganharâ o dobro do que apostou. tr
Ent vriliirs situações é útil calcular a probabilidade acumulada até um
t:l o, se i<b. , A tlel'inição a seguir apresenta esse conceito.

Dessa forma, se o jogador obtém 5 e a banca 6, temos G : 0 pois j < b (5 < ã,2: Itunção de distribuição de probabilídade
Por outro lado, se o jogador tira 3 e a bancaJ, o valor do ganho bruto do j $ Jiutr;iltt dc tlistribuição ou função acuru.ulada de probabilidade de uma
serâG:2x(3-1):4. ãlerrlririrr cliscretzr X é definida, para qualquer número real r, pela
O espaço amostral, correspondente a uma jogada, é apresentado a €xpl'rsstìo:
através dos pares (b, j): !
F(r): P(X < r) n
(1,1) (\,2) (1,3) (r,4) (1,5) (1,6
(2,1) (2,2) (2,3) (2,4) (2,5) (2,6
J,.f,' llrrt população de 1.000 crianças foi analisada num estudo para
(3,1) (3, 2) (3,3) (3,4) (3, 5) (3,6
n cl'ctiviclnclc de uma vacina contra um tipo de alergia. No estudo, as
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6
fer.t:lrirrnr r.rrna dose de vacina e, após um mês, passavam por um novo
(5, 1) (5,2) (5,3) (5,4) (5,5) (5,6
r rritrrlir livcsscm tido alguma reação alérgica, recebiam outra dose da
(6,1) (6,2) (6,3) (6,4) (6,5) (6,6
Ao lirrr rlc.5 closcs todas as crianças foram consideradas imunizadas. Os
O valor G : 0 acontecerá quando o ponto do jogador for menor ou unrrr;rletos cstÍo na tabela a seguir.
ao da banca. Esse caso corresponde ao seguinte subconjunto do espaço
l)oses 2 3 4 5
í'r'ccy. 245 28tì 256 t45 66
64 Capítulo 3: Variáveis Aleatórias Discre 65

Supondo que uma criança dessa populaçáo ê sorteada ao acaso, qual será I(.r)
probabilidade dela ter recebido 2 doses? Utilizando a idéia de atribui
l,Õoo
probabilidade através da freqüência de ocorrência, a probabilidade desejada é
9,954
288/1000:0,288. A função de probabilidade da variável aleatíria número
doses recebidas fica sendo: Õ,7fltl

0,145
€,É113

Suponha, agoÍa, que desejamos calcular a probabilidade da criança ter recebi


até duas vacinas. O que precisamos obter é a função de distribuição no ponto
ou seja, calculamos a probabilidade acumulada de ocorrência de valores men
ou iguais a 2. Assim,

F(2) : P(X < 2) : P(X : 1) * P(X :2) : 0,533.

Note que, tendo em vista que avariánel só assume valores inteiros, esse valor 012s45
inalterado no intervalo 12,3).Isto é, F(2,L);F(2,45) ou F(2,99) têm todos
mesmo valor acirn*a. Por essa razão escrevemos: I,'lgura 3.2: Função de distribuição - doses de vacina.

F(r):P(X<r) :0,533 Pata2 (r(3' 3,6.' Nurn cstudo sobre a incidência de câncer foi registrado, para cada
eonr essc diagnóstico, o número de casos de câncer em parentes
Os valores completos da função de distribuição são os seguintes: (pais, ilrniros, tios, filhos, primos e sobrinhos). Os dados de 26 pacientes
irttes:

0
.ser<1;
0,245 se 1( r 12;
se 2( r13;
: 0,533
se 3(r14;
",r, 0,789
0,934 se 4( r15;
5

{ 1 se r)5. Èllltcliorcs irssurnem que a incidência de câncer em parentes próximos


teut'icrrrrrcrrto nrodelada pela seguinte função discreta de probabilidade:

A notação utilizada para escrever a função de distribuição pode,


primeira vista, parecer confusa, mas como as contas efetuadas são simp
acreditamos que com um pouco de treino o leitor ficará familiarizado com
função. A Figura 3.2 apresenta um diagrama dessa função. frh*ir,t'vitrlos concordam com o modelo teórico?

Fg tnlrcln rlc dados brutos com as 26 observações, coletamos para cada


dê vtrt'liivel, o númcro de suas ocorrências. Por outro lado, seguindo o
tcót'ico, o rrrirrrcro cle observações que seria esperado em cada incidência
66 Capítulo 3: Variáveis Aleatórias Discre 67

(freqüência esperada) é calculado coÍno €i:26x pi. Note que os valores tlc Scçõo 3.1:
esperados não precisam ser números inteiros, pois representam uma freqüência
teórica caso o modelo fosse adequado. A tabela a seguir apresenta os resultados: fltu*rlii viciada tem probabilidade de cara igual a 0,4. Para dois
nlos itttlcpcndentes dessa moeda, estude o comportamento da variável
rlet rttnlr c lìrça um gráfico de sua função de distribuição.
Incidência n; (observados) ei (esperados)
4
bgcu ltrt itrlìlrrnação que você conhece, crie os valores e as respectivas
0 216
lirlrrrlcs f)ura a variável número de filhos em famílias, no caso da
1 4 216
lsçõn eonsiclcrada ser:
2 6 7,8
€lgx*e rtrr"ídil paulistana.
3 6 7,9
hehitntrtcs clo interior do Maranhão.
4 2 216
5 4 216 ëgtttittlro lturit chcgar a uma festa pode ser dividido em três etapas. Sem
total 26 26 o tlrr.jeto ó I'cito em t hora. Se enganos acontecem na primeira etapa,
[e l0 rninutos ao tempo do trajeto. Para enganos na segunda etapa, o r,'l',1
,t v

tÌtn É 20 o, pilra er terceira, 30 minutos. Admita que a probabilidade de


Representando em um mesmo diagrama as duas freqüências obtemos: é 0, I ; 0,2 e 0,3 para a primeira, segunda e terceira etapas,
vênlenÍc. I'i provável haver atraso na chegada à festa? Determine a
Irlurk tlc ltavcr atraso, e o atraso não passar de 40 minutos.
iãátttetn de iuros prestando vestibular para conseguir uma vaga na
lttlc. esíÍr scttdo estudado. As carreiras têm procura diferentes e, em
delux, o col-r'ullrì pode ser prestar vestibular mais de um ano. Suponha
€ttiolltr'tttos, ito acaso, um dos ingressantes da sua carreira. Que
Itlirtle vocô atribuiria (invente!) à necessidade de 1, 2,3, ...anos de
I

levrt tt í'illro to cinema filho vai


e vai gastar nas duas entradas R$ 15. O
plltll e onre r pipocu com probabilidade 0,'l e, além disso, pode pedir bala
pnrbnbilidnrlc 0,9. Esses pedidos são atendidos pelo pai com
illtllrlc 0,.5; inclcpendentemente um do outro. Se a pipoca custa R$ 2. e a
fl$.1, r,strrrlc o gusto eletuado com a ida ao cinema.
Vntl:lvrl rrh:lttirin X tcrn a seguinte função de distribuição:

se r<10;
se 10(r1I2;
Notamos que os dados observados seguem a mesma tendência do P(r) : se 12(r<13;
teórico, porém seus valores são dis-crepantes. É uma amostra pequena, mas se 1"3 ( r 125;
não haver boa adaptação entre os dois conjuntos de números.
{ü se r)25.
I
68 Capítulo 3: Variáveis Aleatórias Disc I t lt't t n la lr ts D iscretos 69

€i êrdl'icrr tln densidade é apresentado na Figura 3.3 para o caso k : L0.


Determine:
a. A função de probabilidade de X.
b. P(x < L2). í- Fl,r =.r )

c. P(X < L2).


d.P12<X<20). E,l0
e.P(x t rs). (t
B,tlH

3.2 Principais Modelos Discretos E,Ofi

Os exemplos da seção anterior ajudam a esclarecer a relação entre


g,Õ4
variável e a realização do experimento aleatório que a origina. Cada possí
elemento do espaço amostral é uma realizaçáo do experimento e corresponde
um valor da variável, nem sempre distinto. €,sa
Algumas variáveis aleatórias aparecem com bastante freqüêncra
situações práticas e justificam um estudo mais aprofundado. Em geral
casos, a distribuição de probabilidade pode ser escrita de uma maneira 2 3 4 5 6 7 I 9 l0 x
compacta, isto é, existe uma lei para atribuir as probabilidades.
Por exemplo, se uma variável aleatória W tem função de probabili ú'ittura 3,3: Modelo Uniforme Discreto [0, 10].
dada por
Clhrelve (ple it cxpressão na definição anterior, de fato, representa umn
wl r 2 3 4 5 6 dhet'etn rlc llrubabilidade, uma vez que seus valores estão no intervitlcl
Ë Fntilr tle loclits as probabilidades é igual a 1. O modelo Uniforrne tem
i pofrlue loclos os seus valores ocorrem com a mesma probabilidade e,
pedetnus tlizer quc a probabilidade se distribui uniformemente entre os
então, escrevemos essas probabilidades como P(W : k) : k
1[hrres,
k:L,2,...,6. Dessa maneira, temos uma forma abreviada de apresentar
variável e sua função de probabilidade. Vamos apresentar os principais mode J,7,' llrrrn rilìr tcrl 100 billretes numerados de 1 a 100. Tenho 5 bilhetes
de variáveis aleatórias discretas, começando pelo mais simples a seguir, quo lvrrr nrtnre'rrulrts dc2l 'd 25 e meu colega tem outros 5 bilhetes, col'ì1 os
aquele que atribui igual probabilidade a todos os possíveis valores da variável, Il, I l, .l(), (rtJ c 93. Quem tem maior possibilidade de ser sorteado?
à prlrìreill vistn tcnr-se a impressão de que "espalhar" os números é tt
Definição 3.3: Modelo Uniforme Discreto
llìtllleill ([. giltìlìitr o $orteio. Entretanto,
assumindo a honestidade da ritìt,
Seja X uma variável aleatória cujos possíveis valores são represe Ël tttintr:rus lettt it ttrcsma probabilidade de ôcorrência, com l/100 para cnclit
por Jü1 , t2,r."1,...,tt. Dizemos que X segue o modelo Uniforme Discreto $ Yntlrivel ttletttór'ia cm questão, o nú,mero sorteado, segue o rnodelo
atribui a mesma probabilidade llk a cada um desses k valores, isto é, sua fu Fr prrllrrrrlu, !:u c mcu colcgit com 5 bilhetes temos et fiìesll1lt
de probabilidade é dada por llrhirlo t['
gnttltitr l riÍÌr. Ncstc sorteio, como no modelo Unilorme cttt
É lltllnr ou tncllot'probabiliclade clc garrhar clcpcndc dc quantos bilhetes'sc
P(X : x.ì : Ilk: ,V.:i : L,2,... ,k. tr
ããn rlrt pirrlit'rtlrtr escolltu tlo núntcro,
\ ..l s
ir""\ - {-'r
70 Capítulo 3: Varidveis Aleatórias Disc tl.t A l, n I t' I o^t I)iscretos '^ J - ' ., '-'' 7t

Em muitas situações práticas a variável de interesse assume somente {F r'nrrsllrril a /rrvore de probabilidades, consideramos que a escolha dos
valores. Por exemplo, â peça éclassificada como boa ou defeituosa; or loi I'cilir a partir de uma população muito grande. Dessa forma, cadit
entrevistado concorda ou não com a afirmação feita; a vacina imunizou ou ebuullritkr torn probabilidade 0,80 de estar imunizado, independente dos
criança. Estas situações têm alternativas dicotômicas, que genericamente vírlrros rllr população. Se classificamos como sucesso a ocorrência dc
ser representadas por respostas do tipo sucesso-fracasso. A atribuição de qual r, lururs ir repetição independente de três ensaios de Bernoulli.
{Lle rlt'srrjirnros estudar o comportamento da variável X: número dc
respostas será referida como sucesso é feita de modo arbitrário, mas deve
definida claramente para evitar ambigüidades. Esses experimentos recebem llrrrrrrizrrrkls nesse grupo. Ela assume os valores 0, 1,2 e 3 cont
nome de Ensaios de Bernoulli e dã,o origem a uma variável aleatória com le,ri t'ir['rrlirclas com o auxílio da árvore e apresentadas na tabela:
mesmo nome.
Dffinição 3.4: Modelo Bernoullí Eventos Probabilidade X
TTT 0,8' J
Dizemos que uma variável X segue o modelo Bernoulli se atribui Õ ou
ocorrência de fracasso ou sucesso, respectivamente. Com p representando ITI'' 0,Bz x 0,2 2

probabilidade de sucesso, 0 ( p 1 7, sua função discreta de probabilidade é I T,'I 0,82 x 0,2 2


por T I,'1,' 0,8 x 0,22 I
rII 0,8" x 0,2 2

p
[( J J(: 0,8 x 0,2" 1

T,'1,, I 0,8 x 0,22 1


ou, de modo resumido, P(X - r) : p'' (7 - O1L-:r: , r :0,L [( I( J(l 0,2" 0
A repetição de ensaios de Bernoulli independentes dá origem à
importante variável aleatória discreta denominada modelo Binomial. nrcnle, ir Íìrnçiro de probabilidade de X fica sendo
Exemplo 3.8.' Sabe-se que a eficiência de ume vacina é de 80Vo. Um grupo de
0 2
indivíduos é sorteado, dentre a população vacinada, e submetido a testes
averiguar se a imunização foi efetiva, evento representado por .I. A árvore o,2ir ll x o,B x 0,22 3 x 0,82 x 0,2 0,8'
probabilidades é apresen tada a seguir.
f,l çrrnrpurturrre:nlo tlc X ó completamente determinado pela função acima,
0,8 / lirlrrrlrs lirrrrbótl podem ser escritas através da expressão
. --_-_--_-_-.----..
0,2
o''
I
I'(,ï Â') : (i) x o,gÀ' x or23-k" k :0,7,2,3.
," ',,
0,2 t :lue lrrohllliliclirclcs correspondem aos temos do desenvolvimcnto
Ê?rlirti
Irr rlr. Newl91 rlo (0,8 + 0,2):Ì, o qr-re justifica o nome escolhiclo pala
0,8
ú
72 Capítulo 3: Variáveis Aleatórias Discretas .ì,2 Principais Modelos Discretos 73

Definíção 3.5: Modelo Binomial Em muitas situações práticas, a variável Binomial aparece a partir de
outras variáveis, através da criação de duas categorias excludentes, como no
Considere a repetição de n ensaios de Bernoulli independentes e todos
excmplo a seguir.
com a mesma probabilidade de sucesso p. A variâvel aleatória que conta o
núrmero total de sucessos é denominada Binomial com parâmetros n e p e sua Ilxemplo 3.9: O escore em um teste internacional de proficiência na língua
função de probabilidade é dada por itrglesa varia de 0 a 700 pontos, com mais pontos indicando um melhor
rlcscmpenho. Informações, coletadas durante vários anos, permitem estabelecer o
$
P(X : rl : (i,)ru (i - p)''-k, k : 0,L,2,...,n,
scgr.rinte modelo para o desempenho no teste:

Pontos lo,200) 200,300) 1300,400) 1400,500) 1500,600) 1600,7001


com (ii) representando o coeficiente binomial calculado por n; 0,06. 0,15 0,16 0r25 0,28 0,10

VÍrits universidades americanas, exigem um escore mínimo de 600 pontos para


(n\ nt.
\n) -- kG-4. ruccitar candidatos de países de língua não inglesa. De um grande grupo de
estudantes brasileiros que prestaram o último exame, escolhemos ao acaso 20
tlclcs. Qual seria a probabilidade de no máximo 3 atenderem ao requisito mínimo
Usaremos a notação X -U1,",p) paraindicar que a variável aleatória X segue o ttrcncionado?
modelo Binomial com parâmetros n e p. tr Vamos admitir que a tabela acima representa o escore dos estudantes que
É importante notar que as probabilidades são completamente estÍio prestando esse último exame. Essa é uma suposiçáo razoixel tendo em vista
caracterizadas pela informação dos parâmetros. Por exemplo, desejando calcular a clrc a tabela foi feita a partir de um conjunto muito grande de dados. Isto quer
probtrbilidade de 3 sucessos numa b(12;0,4) temos rliz,cr que um aluno selecionado ao acaso apresentará um dos vários escores de
ttcordo com as probabilidades apresentadas na tabela. Por exemplo, a chance de
nprcsentar menos de 200 pontos é 0,06. Admitimos ainda que os estudantes
P(x - :3) (lj;o,n'0,6n - -1{e,4s o,6e : 0,142 . lunsileiros têm comportamento similar aos demais e portanto a tabela também
porlc ser usada para representar esse desempenho.
Pelo critério das universidades, o estudante é classificado como apto, se
De modo similar, obtemos os outros valores da função discreta de probabilidade: neu cscore é de 600 pontos ou mais, caso contrário, será considerado não apto.
l)cssa fbrma, para cada indivíduo, teremos a classificação de apto ou não, feita de
X 0 I 2 4 5
ttrotlo independente e com as seguintes probabilidades
-t 6
0,002 0,017 0,064 0,142 0,2r3 0,227 0,777
Pt'
P(aPto) : 0,10 e P(não apto) : 6,99 .

X l 8 9 10 11 12
Definindo uma nova variável X como o número de estudantes aptos
0,101 0,042 0,012 0,002 0+ 0+
Pt
tlrttlrc os 20, temos que X - b(20;0,10). A probabilidade de no máximo 3 serem
nptos ó calculada pela função de distribuição no ponto 3, ou seja,
O valor 0+ indica uma probabilidade muito pequena que, na aproximação de F(3) :P(x<3).
rnilésimos (3 casas após a vírgula), não teve casa decimal diferente de zero.
Diversos programas computacionais contêm rotinas que calculam as I)ç'ssr Íbrma, temos:
probabilidades da distribuição Binomial e alguns livros-texto incluem tabelas
dessa clistribuiçiro, para vários valores dos parâmetros.
!

74 Capítulo 3: Varidveis Aleatórias Discretas .ì.2 Principais Modelos Discretos 75

e, cntão, podemos concluir por uma expectativa de ll,7 nascimentos com 7


:
ã (ï)
r1x 3ly 0,1È o,e2o-È I'ilhotes dentre as 100 inseminações. Observe que os valores esperados não
prccisam ser números inteiros, pois representam uma freqüôncia teórica de
ocorrência. A tabela a seguir contém os valores observados e os esperados, se o
: (ï)0,100,e20. (ï)0,11 0,e1e. (ï)0,120,e18. (ï)0,130,e17 nxrclelo Binomial fosse utilizado.

Filhotes 0 2 3 4 5 6 7 8 9 t0
: 0,r22 + 0,270 + 0,285 + 0,190 : 0,867. lrrccl. Observada 0 1 6 7 23 26 2t t2 ,) I 0
Iì'cq. Esperada 0,1 I 4,4 tr,7 20,5 24,6 20,5 I,7 4,4 1 0,1
Esse valor reflete as altas probabilidades atribuídas aos escores menores de 600,
conforme o modelo de desempenho no teste. tr O modelo proposto parece se ajustar bem aos dados observados (veja a
F'igtrra 3.4) e tendemos a acreditar que o modelo Binomial é uma escolhn
Exemplo 3.10: Um veterinário está estudando o índice de natalidade em porcos
ttdccluada. A representação gráfica torna-se assim, um importante passo inicial
sujeitos à inseminação artificial. Para tal, coletou informações sobre a variável
purt auxiliar na escolha de um modelo probabilístico. A verificação aqui foi
número de fllhotes nascidos vivos em cada uma das 100 inseminações re'alizadas
flpcnas visual, mas é possível estabelecer procedimentos estatísticos que testam o
com o mesmo reprodutor. A tabela a seguir apresenta os resultados.
ajustc do modelo proposto de forma objetiva. Procedimentos mais rigorosos
devcrn ser utilizados para a decisão final e podem se basear em um teste
Número ) 2 J 4 5 6 7 8 9 estirtístico conhecido como Teste de Aderência. tr
Freq. Observada 1 6 7 9a 26 2L L2 t
t) 1

a Observada
É muito comum buscar estabelecer um modelo para a variável de interesse, o que o Esperada
nesse caso possibilitaria, por exemplo, p comparação entre diferentes
reprodutores. O veterinário informa que 11 ou mais filhotes nascidos vivos é uma
ocorrência muito rara e pode ser desprezada em termos de modelÒ. Nestes termos,
ele sugeriu considerar que a variável N: número de filhotes nascidos vivos,
poderia ser ajustada pelo modelo Binomial com parâmetros n : 10 e p: 0,5. O
que você acha da sugestão do veterinário?
Note que, mesmo não tendo havido nenhuma observação do valor 0 ou
10, o veterinário sugeriu o modelo de uma variável que contém esses valores, pois
apesar de não serem comuns eles podem acontecer. Com o modelo sugerido,
calculamos as probabilidades de cada um dos valores de 0 a 10 e, a partir deles, os
resultados que seriam esperados em 100 inseminações realizadas. Por exemplo,
7 I I 10
Filhotês
P(N :7) : (ï;o,t'0,53: o,rr.;
Fígura 3.4: Gráfico de freqüências- natalidade em porcos.
76 Capítulo 3: Variáveis Aleatórias Discretas .ì,.1 Outros Modelos Discretos 77

Ao finalizar essa seção, é oportuno


mencionar as diferentes formas b. Escolhemos 20 lâmpadas ao acaso na prateleira de um supermercado, sendo
utilizadas para referenciar os modelos teóricos das variáveis aleatórias. Por 10 de uma fábrica e 10 de outra. Contamos o número total de defeituosas.
exemplo, alguns autores referem-se a uma variável aleatória com distribuição c. Quinze automóveis 0 km de uma mesma marca e tipo são submetidos a um
Binomial enquanto outros enfatizam uma variável aleatória seguindo o modelo teste anti-poluição e contamos o número deles que passaram no teste.
Binomial. Neste livro, vamos utilizar indistintamente essas duas formas que d. Um motorista é submetido a um teste em que deve estacionar seu veículo
consideramos equivalentes. num pequeno espaço (isto é popularmente chamado defazer baliza). Em l0
tentativas, contamos o número de vezes em que o motorista estacionou
corretamente.
Bxercícios da Seção 3.2:
5. Sendo X uma variável seguindo o modelo Binomial com parâmetros n : 15 e
1. Discuta a validade do modelo Uniforme Discreto nos seguintes casos:
a. O número sorteado numa rifa com 100 números. P:0,4; Pergunta-se:
b. A escolha de um aluno que vai representar a classe junto à direção da a. P(X > 14).

escola.
lr.P(8<X<10).
c. P(X 12 ou X > 11).
c. O dia da semana em que ocorrem mais acidentes de trabalho numa indústria.
d. O mês do ano com maior número de enchentes na cidade de São Paulo. d.P(X ) tL ou X > 13).
a.P(X)3eX<6).
2. Sendo X uma variável seguindo o modelo Uniforme Discreto, com valores no r. P(x < 13lx > 11).
conjunto {L,2,3,.. . , 10}, pergunta-se:
a. P(X > 7\. 6. Urna certa doença pode ser curada atravós de procedimento cinirgi co em 80Vo
/
dos casos. Dentre os que têm essa doença, sorteamos 15 pacientes que serão
b.P(3 <X<7).
P(X 12 ou t > submetidos à cirurgia. Fazendo alguma suposição adicional que julgar
' c. 8).i
nccessária, responda qual é_a probabilidade de:
d..P(X)5ouX>B)) ru. Todos serem curados? L--

',1çf.e.P(X)3e X<6).
P(x < e lx 2 o;.r
\,
ll. Pelo menos dois rìão serem curados?
c. Ao menos l0 ficarem livres da doença?
3. Um usuário de transporte coletivo chega pontualmente às 8 horas para pegar o
seu ônibus. Devido ao trânsito caótico, a demora pode ser qualquer tempo
7. Calcule a função de distribuição da variável X nos casos:
t. X éBernoulli com p : 0,6.
entre 1 e 20 minutos (admita que o relógio "pule" de minuto em minuto).
b. X - b(4;0,20).
Pergunta-se:
a. Qual a probabilidade de demorar mais de 10 minutos? e c. X - b(B;O,10).
b. Qual a probabilidade de demorar pelo menos 5 mas não mais de 10 minutos?
c. Qual a probabilidade da demora não chegar a 5 minutos?
q._
d. Se um amigo chegou 10 minutos atrasado e vai pegar o mesmo ônibus (que
3.3 Outros Modelos Discretos
/n ainda não passou), qual a probabilidade do amigo atrasado esperar até 3 Apresentamos, nesta seção, os modelos Geométrico, Poisson c
minutos? L lliptrgcométrico, que têm várias aplicações práticas, conforme ilustram os
e'xcrnrplos desta seção. Na seção anterior, os modelos definidos assumiram apenas
4. Discuta a validade do modelo Binomial nos seguintes casos:
rrrrr número finito de varlores distintos. Foi assim com o modelo Unifbrme
a. Dos alunos de uma grande universidade, sorteamos 5 e contamos quantos se
l)iscrcto com valores L,2,,..,À;, Bernoulli com 0 e L e Binomial com os valores
declaram usuários de drogas.
Iüf,t

78 Capítulo 3: Variáveis Aleatórias Discretas .1.-l Outros Modelos Discretos 79

1,...,n,
Como veremos a seguir, os modelos Geométrico e Poisson podem ter P(Q=
0,
um número infinito de valores dentre os inteiros positivos. 0,010

Definição 3.6: Modelo Geométrico


0,008
Dizemos que uma variável aleatória X tem distribuição Geométrica de
parâmetro p, se sua função de probabilidade tem a forma 0,006

P(X: k): p(L- p)o', 0<p 1le k:0,1,2,.... 0,004

Nesse caso, usaremos a notação X- G(p). tr 0,002


Interpretando p como a probabilidade de sucesso, a distribuição
Geométrica pode ser pensada como o número de ensaios de Bernoulli que
precedem o primeiro sucesso. Note que a expressão apresentada na Definição 3.6 0 4 I 12 16 20 24 28 32 36 40 44 48 tc

é de fato uma função de probabilidade, pois é positiva e sua soma é igual a 1,


conforme pode ser verificado através da fórmula da soma de progressão Figura 3.5: Modelo Geométrico (n:0,01).
geométrica (PG) infinita:
Clorno podemos verificar através da figura, a probabilidade vai ficando muito

t p)Ã :et - p)^ :


llc(luena para valores grandes de k. Em tese, a produção nunca seria interrompida
r
@mm
k):
8"," - [of -
(1
r_fr1: se rriro houvesse o aparecimento de uma peça defeituosa. tr
Detïnição 3.7: Modelo Poisson
Exemplo 3,11: lJma linha de produção está sendo analisada para efeito de Uma variável aleatória X tem distribuigão de Poisson com parâmetro
controle da qualidade das pêças produzidad. Tendo em vista o alto padrão À > 0, se sua função de probabilidade é dada por
requerido, a produção é interrompida para regulagem toda vez que uma peça
e-]'Àk
defeituosa é observada. Se 0,01 é a probabilidade da peça ser defeituosa, estude o \/kl=/c) :
P(X , k : 0,1,2, ... ,
comportamento da variável Q, quantidade de peças boas produzidas antes da la.
defeituosa. corìì o parâmetro À sendo usualmente referido como a taxa de ocorrência, A
Vamos admitir que cada peça processada tem a mesma probabilidade de notução utilizadaserâ X- Po(\). tr
ser defeituosa, independentemente da qualidade das demais. Sendo a ocorrência
de peça defeituosa um sucesso, podemos aplicar o modelo Geomótrico. Observe O modelo Poisson tem sido muito utilizado em experimentos físicos e
que o número de peças boas produzidas é exatamente o quanto se "espera" para a lriológicos e, nesses casos, À é a freqüência média ou esperada de ocorrêncins
ocorrência do primeiro sucesso. Temos,
trtrrn determinado intervalo de tempo, Vamos verificar que a expressão
rrprcsentada realmente representa uma função de probabilidade. Não é difícil
:k) :0,01 x 0,99À', k:0,L,2,"', rrlrscrvar que, para qualquer k, ela é um número positivo. Resta mostrar que tls
P(Q
prrrllabilidades somam 1. Temos,
cuja representação grâfica está na Figura 3.5.
80 Capítulo 3: Variáveis Aleatórias Discretas Otrtros Modelos Discretos 81
=1,.1

Ëtt" : 4=Ë# : "-^Ë# :


Se o intervalo de tempo é alterado, a variável aleatória mantém a mesma
e-\eÀ : r' dlrtritruição de Poisson, mas com o valor do parâmetro ajustado de forma
l':0 k:U Á:ll Ggrrvcniente. Assim, se o período de tempo considerado for de dois minutos,
tglepros que o número de partículas emitidas em dois minutos terá distribuição
No cálculo acima, usamos que a série \R' 1kt , somada para valores de k entre 0 e tr
Po( l 0),
oo, produz eÀ. Esse resultado é bastante conhecido e segue do desenvolvimento
em série de Taylor do termo el. O leitor interessado poderá consultar, para outros Eyemplo 3./3; Engenheiros da companhia telefônica estudam se o modelo de
detalhes, textos básicos de Cálculo Diferencial e Integral. Poisson pode ser ajustado ao número N de chamadas interestaduais que chegam,
FÕr [ora, a uma central telefônica,
durante o período notumo. Os dados coletadOS,
Exemplo 3.12: A emissão de partículas radioativas tem sido modelada através de
Efl:r'cntes a 650 períodos de uma hora, estão apresentados a seguir:
uma distribuição de Poisson, com o valor do parâmetro dependendo da fonte
utilizada. Suponha que o número de partículas alfa, emitidas por minuto, seja uma 2 t 4 5 6 7 >8
Chamadas 0 1
variável aleatória seguindo o modelo Poisson com parâmetro 5, isto é, a taxa
média de ocorrência é de 5 emissões a cada minuto. Calculemos a probabilidade
Freq. Observada I 38 7t 115 r25 106 79 50 57

de haver mais de 2 emissões em um minuto.


Seja Á o ntimero de partículas alfa emitidas por minuto. Pelas suposições Da tabela temos que, por exemplo, em 125 períodos de uma hora
feitas, temos A - Po(5) e a probabilidade desejada será €€orrcram 4 chamadas.
Os engenheiros sugerem rttilizar uma taxa de ocorrência de 4-5-chamadas
6 ,
P(A> 2) :t P(A:a) :1-t P(A:0) :1- $e-s,n
4 o,l
pet lrora no período estudado. Seguindo o modelo indicado, a freqüência esperada
{g ocorrências com k chamadas é obtida multiplicando 650 (o total das
ãbnr-t'vações) pela probabilidade de k chamadas. Assim, para k : 2, temos
Após os cálculos n":"lrrur,or, obtemos ir'o 12) : 0,875. **r"r"t,"*os na
Figura 3.6, alguns valores da função discreta de probabilidade da Po(5). Freq. esperadapara 2 chamadas : 650 x P(N :2)
:650x "-4's
4152
2l
P(N=n) :73,13.
0,1 8
0,16 Ee rrurclo análogo obtemos os demais valores.
0,14
>8
o,12 Flr'! utrlas
rvadn
0
a
I
38
2
71 115
3 4
125
5
106
6
79
7
50 57
0,1 0 LOhsc
7,22 32,50 73,13 109,66 123,37 111,02 83,27 53,56 56,36
0;08 fllsl'1 iì

0,0 6

A tabela acima parece indicar que o modelo Poisson, com À : 4,5


0,04
0,02
ftl'rrr..c,c unr bom ajuste para a variável aleatóiia de interesse. O leitor pode
14 e'otrslnrir um gráfico de freqüência'para visualizar melhor essa aderência. A
4 6 I 10 12 16 18 20
cxh.nsiro clessas conclusões aos diferentes períodos de tempo e/ou outros tipos de
Figura 3.6: Modelo Poisson (),: 5). G:hirrrrncla deve ser feita com cuidado, porém o ajuste já obtido é uma "boa pista"
Flt'n il cscolha do modelo. Como mencionamos anteriormente, a conclusão obtida
82 Capítulo 3: Variáveis ,Aleatórias Discretas ,ì..ì Outros Modelos Discretos 83

aqui poderia ser feita de modo mais objetivo através de Testes Estatísticos de Acaixa pode ter peças boas ou defeituosas e vamos sortear algumas
Aderência. tr pcças, sem reposição. Baseado no número de peças defeituosas encontradas
Encerramos esta seção, definindo o modelo Hipergeométrico. Este rlccidimos por aceitar ou rejeitar o lote. Seja D a variável que conta o número de
moclelo surge da contagem de objetos de certo tipo, retirados ao acaso e sem pcrças defeituosas neste sorteio. Ela segue o modelo Hipergeométrico e vamos

reposição, de um conjunto contendo dois tipos de objetos. Por exemplo, num itlcrrtilicar os diversos parâmetros. O total de peças é n:25, o número de
grupo de jovens com 5 meninas e 5 meninos, sorteamos 3 deles ao acaso, para elel'cituosas ém : 4 e o número de retiradas é r: 5.

íazer uma comissão. O sorteio será feito sem reposiçáo, para evitar a escolha de P(aceitar o lote) : P(no máximo 2 peças defeituosas) : P(D < 2).
utrìiì mesma pessoa, o que inviabilizaria a formação da comissão. Na primeira
escolha cada um dos 10 jovens tem 1/10 de probabilidade de ser sorteado. Na
lintiio,
segunda, cada um dos 9 restantes, será sorteado com probabilidade I/9 e, na

: (á).(';) . (ï)=('i ) . (Í)=!'il -0,e84


('J)
terceira, 1/8. A variável aleatória número de meninas na comissão segue o modelo
Hipergeométrico, conforme definido abaixo.
Definição 3.8 : Modelo Hipergeométríco
p(D<r)
(',J) (',J)
Considere um conjunto de n objetos dos quais msáo do tipo I e n - m C-oncluímos que, mesmo havendo quatro defeituosas na caixa inspecionada, a
são do tipo II. Para um sorteio de r objetos (r < n), feito ao acaso e sem probabilidade de aceitar o Iote é 0,984 ou, equivalentemente, para rejeitar o lote a
reposição, defina X como o número de objetos de tipo I selecionados. Diremos prolrabilidade é 0,016. Claro que, na prâtica, não saberemos quantas peças
que a variável aleatória X segue o modelo Hipergeométrico e sua função de rlcÍcituosas existem em cada caixa. Entretanto, a probabilidade calculada acima
probabilidade é dada pela expressão purlcria ser um indicativo para avaliar se o critério do controle de qualidade está
t'rrzoiivel ou não e, neste caso, parece que não! Poderíamos também criar uma

P(X:*)-,^., _
(T) (",--T
/n,\
) ,k:A,I,...,min(r,rn).
,-_ ., , ^;^t_ tr
tobcla contendo os valores da probabilidade de rejeição do lote, em função de
Irrrvcr certo número de peças defeituosas na caixa sorteada. tr
("/
l,lxcrcícios da Seção 3.3:
Note que os valores possíveis de X vão de 0 a min(r,rn), uma vez que
não podemos ter mais do que o número de objetos existentes do tipo I, nem l. Scndo X(DG(0,4), calcule:
tillnpouco mais que o total de sorteados. Utilizando resultados de análise n. P(X:3).
combirratória, pode-se verificar que a expressão de P(X : k) é um número não b.P(2<X<4).
negativo entre 0 e 1 e a soma, para todos os valores de k, éigual a l. Assim estão c. P(X > LIX < 2).
cumpridos os requisitos necessários para ser uma função de probabilidade. rl. P(X > 1).
Exentplo 3.14: Uma fátbrica produz peças que são embaladas em caixas com 25 2. IJrrrir moeda equilibrada élançada sucessivamente, de modo independente, até
(f ue ocorra a primeira cara. Seja X avariâvel aleatória que conta o número de
unidades. Para aceitar o lote enviado por essa fábrica, o controle de qualidade de
uma empresa procede da seguinte forma. Sorteia uma caixa do lote e, em seguida, lirnçamentos anteriores à ocorrência de cara. Determine:
sorteia cinco peças, sem reposição, dessa mesma caixa. Se constatar no máximo u. P(X < 2).
dr"ras defeituosas, aceita o lote fornecido pela fábrica. Se a caixa sorteada tivesse 4 b. P(X > 1).
pcças defeituosas, qual seria a probabilidade de rejeitar o lote? c.P(3<x<5).
rl. Quantas vezes deve, no mínimo, ser lançada a moeda para garantir a
ocorrência de cara com pelo menos 0,8 de probabilidade.
8{ Capítulo 3: Variáveis Aleatórias Discretas
3,4 [ixercícios

3. A variírvel aleatória Y temdensidade poisson com parâmetro À : 2. obtenha:


a. P(Y < 2), LJrna agência de turismo apresenta aos clientes o orçamento de uma certa
b.P(2<Y <4). viagem em duas partes. A primeira é o transporte aéreo que têm três opções
c. P(Y > 0). com preços 3;3,5 e 4 mil reais e preferências de escolha de 0,5; O,3 e 0,2 para
d. P(Y: 1l]'< 3). ;rs companhias TWA, TWB e TWC, respectivamente. A segunda parte do
or'çamento é a escolha de estadia. Existem quatro opções de hotéis que custam
4. A aplicação de fundo anti-corosivo em chapas de aço de 1 m2 é feita 2; 2,5; 3 e 3,5 mil reais e são escolhidos pelos clientes com a mesma
mecanicamente e pode produzir defeitos (pequenas boihas na pintura), prcferência, independentemente da companhia aérea. Seja x a variável
de
ncordo com uma variável aleatória poisson de parâmetro À : t pã, *2.
ú-a irlcatória orçamento da viagem. Calcule a função de probabilidade e a função
chapa é sorteada ao acaso para ser inspecionadã, pergunta-se a probabilidade rlc distribuição da variável X .
de:
n. Encontrarmos pelo menos I defeito. Urn equipamento consiste de duas peças A e B que têm 0,10 e 0,15 de
b. No máximo 2 defeitos serem encontrados. ;lrobabilidade de serem de qualidade inferior. um operário escolhe ao acaso
c. Encontrarmos de 2 a 4 defeitos. utniÌ peça tipo A e uma tipo B para construir o equipamento. Na passagem pelo
d. Não mais de 1 defeito ser encontrado. controle de qualidade o equipamento vai ser classificado. Será considerado
como nível I, se as peças A e B forem de qualidade inferior. será nível II, se
5. A variável 11 segue o modelo Hipergeométrico com parâmetros n: r0,m : trrna delas for de qualidade inferior e, nível III, no outro caso. o lucro na venda
5
a r' : 4. Determine: ó dc R$ 10, R$ 20 ou R$ 30 para os níveis I, II ou III, respectivamente. Como se
a, P(H :2). cornporta a variável lucro? Para dois equipamentos vendidos, obtenha a função
b. P(H < L). tlo probabilidade do lucro. Nesse caso, qual seria a probabilidade de pelo
c. P(f/ > 0). rrìonos R$ 30 de lucro?
6. Por engano 3 peças defeituosas foram misturadas com boas formando um lote Na verificação de máquinas, observam-se as partes elétrica, mecânica e
corn l2 peças no total. Escolhendo ao acaso.,4 dessas peças, determine a estrutural. A probabilidade de aparecer uma falha em cada uma das partes é
probabi lidade de encontrar: 0,01; independente das demais. ocorrendo falha, o tempo de conserto é ro,z0
n. Pelo menos 2 defeituosas. t orr 50 minutos para falha elétrica, mecânica ou estrutural, respectivamente. Se
b. No rnírximo I defeituosa. rr Íalha elétrica aparece junto com a falha mecânica, teremos ainda um
c. No mírrimo I boa. ircróscimo de 20 minutos. Para uma máquina escolhida ao acaso, qual a
lrrobabilidade do tempo de interrupção (se não há falha, esse tempo ê, zero):
tt. Durar menos de 25 minutos?
3.4 Exercícios b. Ultrapassar 40 minutos?
l. urn agricultor cultiva laranjas e também produz mudas para vender. Após llrna empresa paga a seus estagiários de engenharia de acordo com o ano de
irlguns meses a muda pode ser atacada por fungos p.ôbubilidade 0,0j e, ctrrso do estudante. Para se obter o salário mensal pago por 30 horas semanais,
nesse cASo, ela é escolhida para ser recuperada com "o-
probabilidade 0,5. Admita rnrrltiplica-se o salário mínimo pelo ano de curso do estagiário. Dessa forma, o
que o processo de recuperaçáo é infalível. o custo áe cada muda produzida trstudante {o primeiro ano ganha um salário mínimo, o do segundo recebe dois
é
lì$ 1,00; acrescido de mais R$ 0,50 se precisar ser recuperada. Cada muda é r' itssim por diante até o quinto ano. A empresa vai empregar 2 novos
vorrdida a R$ 3,00 e são descartadas as mudas não recuperadas de ataque cstngiírrios e admitimos que todos os anos têm igual número de estudantes
de
lïngos. Estude como se comporta o ganho por muda produzida. intcressados no estágio (considere a população de candidatos muito grande de
trulclo a não haver diferença entre escolher com ou sem reposição). pergunta-se
;r protrabilidade de:
86 Capítulo 3: Variíweis Aleatórias Discretas .1.4 Exercícios 87

a. Os dois serem do primeiro ano? 9. Num certo restaurante, paga-se pelo almoço uma quantia fixa dependendo da
b. A empresa gastar no máximo 3 salários míninos com os estágios? escolha feita de prato e bebida. A carne de peixe tem I}Vo de preferência,
c. Sabendo que gastou pelo menos 4, gastar menos de 7 salários mínimos? enquanto frango tem 40Vo e carne bovina 50Vo. As três escolhas de bebida
estão condicionadas à opção do prato, segundo a tabela abaixo:
6. Uma variável aleatória X tem a seguinte função de distribuição:

Opção:Peixe Agua Vinho


0 se r<-1;
P(Bebida Peixe)
Cerveia

0,2 se -1 1 r 12; 0,4 0,3 0,3


0,5 se 2(r15;
",rr: 0,7 se 5(r16; Opcão: Frango Cerveia Azua Vinho
0,9 se6(r115; P(Bebida I Frango) 0,3 0,5 012

{ 1 se r)15. Opção:Bovina Cerveja Agua Vinho


Determine: P(Bebida I Bovina) 0,6 0'3 0,1
a. A função de probabilidade de X.
b. P(x < -2). Admita os seguintes preços:
c. P(X < 2).
d.P(3<X<12). Bovina
Pedido Peixe Frango Cerveja Agua Vinho
e. P(X > 14).
Preço T2 l5 t8 6 J 9
7. Estatísticas de acidentes, num trecho da rodovia SP330, indicam probabilidade
de 0,05 de haver um acidente durante a madrugada (24 às 6 horas). Em ru. Dado que alguém escolhe peixe, qual a probabilidade de que escolha
ocorrendo um acidente nesse período, a chance de gerar vítimas é de 0,5. cerveja?
Ainda considerando o período acima, se acontece um acidente com vítima, ela ll. Se escolhe carne bovina, qual a probabilidade de tomar vinho?
será fatal com probabilidade 0,1. o serviço de ajuda aos usuáriqs :utiliza 2 c. Sabendo que tomou água, qual a chance de ter escolhido frango?
veículos na inspeção do tráfego naquela ârea. A esse número, acrescentamos tl. Determine a função de probabilidade para cada uma das variáveis X: preço
mais 2 se houver acidente. Se o acidente tem vítimas, acrescente aos anteriores do almoço e Y: preço do almoço para aqueles que preferem cerveja.
mais 2 veículos e, finalmente, acrescente mais 1 se a vítima for fatal. Encontre
a lunção de probabilidade da variável aleatória ntimero de veículos em serviço l(1. Supondo igualdade de probabilidade entre nascimentos de cada sexo, para
de auxílio nessa estrada durante a madrugada. rrrrra família com três filhos, calcule a probabilidade de que:
a. Exatamente dois sejam do sexo masculino.
8. Em treinamento de animais, usa-se a repetição como estratégia de ll. Pelo menos um deles ser do sexo masculino.
aprendizagem. Num experimento, um macaco realiza certa tarefa corretamente, c. Todos serem do sexo feminino.
pela primeita vez, com probabilidade 0,5. Caso falhe, a probabilidade de
realizar corretamente na segunda tentativa cresce I\Vo, ou seja, a probabilidade lf . tJrn time paulista de futebol tem probabilidade 0,92 de vitória sempre que
é, agora 0,55 e assim sucessivamente. Admita que o experimento termina em ioga. Se o time a\uar 4 vezes, determine a probabilidade de que vença
quatro tentativas ou antes, na primeira vez que o macaco acertar. Descreva o n. Toctas as 4 partidas.
comportamento probabilístico do número de tentativas. b. Exatamente 2 partidas
c. Pelo menos uma partida.
tl. No rnáximo 3 partidas.
88 Capítulo 3: Variáveis Aleatórias Discretas .1,,1 lixercícios 89

e. Mais da metade das partidas. lS.Considere uma variável aleatória Xassumindo os valores 0,1,2,...,5 e tal
clLre P(X : j) :/c x 0,8 x 0,2i, i : 0,L,2,...,5.
12.tJm certo equipamento é expedido em lotes de 500 unidades. Antes que uma
remessa seja aprovada, um inspetor escolhe 5 desses equipamentos e os ir. Para qual valor de k a expressão acima é uma função de probabilidade?
inspeciona. Se nenhum dos equipamentos inspecionados for defeituoso, o lote lr. Calcule P(X :3 I X < 5).
é aprovado. Se um ou mais equipamentos forem defeituosos, todos as unidades lír. Uma vacina contra a gripe é eficiente em707o dos casos. Sorteamos, ao acaso,
são inspecionadas. Suponha que existam, de fato, dez equipamentos 20 dos pacientes vacinados e pergunta-se a probabilidade de obter:
defeituosos no lote. Utilizando uma suposição conveniente, qual é, a ru. Pelo menos 18 imunizados.
probabilidade de que seja necessário testar todos os equipamentos? b. No máximo 4 imunizados.
13. Suponha que um modelo teórico para a variável notas em um teste de história c. Não mais do que 3 não imunizados,
(X), ê dado por: 17. 25Vo dos universitários de São Paulo praticam esporte. Escolhendo-se, ao

P(X: i1 : lj - 111
, j:0,7,2,...,10.
ilcilso, 15 desses estudantes determine a probabilidade de:
a. Pelo menos 2 deles serem esportistas.
66
b. No mínimo 12 deles não serem esportistas:
Para 2l alunos submetidos a esse teste, apresentamos um resumo de suas c. Havendo mais de 5 esportistas no grupo, obtermos menos de 7 que praticam
notas: esporte.
Notas Freqüência Itl. As pacientes diagnosticadas com câncer de mama precocemente têm 80Vo de
0-2 6 probabilidade de serem completamente curadas. Para um grupo de 12 pacientes
2-4 10 lìessas condições, calcule a probabilidade de:
:r. Oito ficarem completamente curadas.
4-6 5
ll. Não serem curadas de 3 a 5 pacientes.
6F8 5 c. Não mais de 2 permanecerem com a doença.
8 Ft10
19. A resistência (em toneladas) de vigas de concreto produzidas por uma
1

clrpresa, comporta-se conforme a função de probabilidade abaixo:


Um professor desconfia que o modelo não é adequado. O que você acha?
Resistência
14. Um laboratório estuda a emissão de partículas de certo material radioativo.
Seja l/; número de partícula; emitidas em I minuto. O laboratório admite que
l/ tem função de probabilidade Poisson com parâmetro 5, isto é, Admita que essas vigas são aprovadas para uso em construções se suportarem
pclo menos 3 toneladas. De um grande lote fabricado pela empresa,
P(.^/ : k) :;, --5 ^A k:0,7,2,.... cscolhemos 15 vigas ao acaso. Qual será a probabilidade de:
a. Todas serem aptas para construções?
a. Calcule a probabilidade de que em um minuto não haja emissões de
ll. No mínimo 13 serem aptas?
partículas.
b. Determine a probabilidade de que pelo menos uma partícula seja emitida em 2{). Ern momentos de pico, a chegada de aviões a um aeroporto se dá segundo o
um minuto. rnodelo Poisson com taxa de 1 por minuto.
c. Qual a probabilidade que, em um minuto, o número de partículas emitidas ru. Determine a probabilidade de 3 chegadas em um minuto qualquer do horário
esteja entre 2 e 5 (inclusive)? de pico.
90 Capítulo 3: Variáveis Aleatórias Discretas 3,4 Ii.rercícios 91

24, Considere uma variável aleatória X - G (0,8). Construa uma nova variável
b. se o aeroporto pode atender 2 aviões por rninuto, qual a probabilidade de
haver aviões sem atendimento imediato? )/ tal que Y : X para os valores 0,1,2,...,5 e Y : 6 para X ) 6. Dessa
c. Previsões para os próximos anos indicam que o tráfego deve dobrar nesse Íìrrma, Y corresponde ao truncamento de X a valores menores ou iguais a 6.
aeroporto, enquanto que a capacidade de atendimento poderá ser no ( )btenha a função de probabilidade de Y e calcule:
máximo ampliada em 50vo. como ficaút a probabilidade de espera por r. P(Y :2).
atendimento?
b. O valor da função de distribuição (acumulada) no ponto 2,5.
21. IJma indústria de tintas recebe pedidos de seus vendedores através de fax, c. P(Y :
3lY < 5).
telefone e Internet. o número de pedidos que chegam por qualquer meio (no d.P(Y>3eX<8).
horário comercial) é uma variável aleatória discreta com distribuição Poisson
25. A duração (em centenas de horas) de'uma lâmpada especial segue o modelo
com taxa de 5 pedidos por hora.
Ceométrico com parâmetro çt :0,7. Determine a probabilidade da lâmpada:
a. Calcule a probabilidade de mais de 2 pedidos por hora.
rr. Durar menos de 500 horas.
b. Em um dia de trabalho (8 horas), qual seria a probabilidade de haver 50
b. Durar mais de 200 e menos de 400 horas.
pedidos?
c. Sabendo-se que vai durar mais de 300 horas, durar mais de 800 horas.
c. Não haver nenhum pedido, em um dia de trabalho, é um evento raro?
rl. O item anterior é uma aplicação de um resultado geral válido para o modelo
22. No estudo do desempenho de uma central de computação, o acesso à unidade Geométrico. Assim, mostre que para X - G (p) e quaisquer números
central de Processamento (cPU) é assumido ser poisson com 4 requisições inteiros positivos rn e n,vale P(X > m * nlX > m) = P(X > n).
por segundo. Essas requisições podem ser de várias naturezas tais como:
imprimir um arquivo, efetuar um certo cálculo ou enviar uma mensagem pela 2ír. l}n um estudo sobre o crescimento de jacarés, uma pequena lagoa contém 4
cxemplares de espécie A e 5 da espécie B. A evolução de peso e tamanho dos 9
Internet, entre outras.
a. Escolhendo-se ao acaso um intervalo de 1 segundo, qual é a probabilidade .iacarés da lagoa é acompanhada pelos pesquisadores através de capturas
pcriódicas. Determine a probabilidade de, em três jacarés capturados de uma
de haver mais de 2 acessos à cPU? E do número de acessos não ultrapassar
vcz, obtermos:
5?
ru. Todos da espécie A.
b. considerando agora o intervalo de 10 segundos, também escolhido ao acaso,
b. Nem todos serem da espécie B.
qual é a probabilidade de haver 50 acessos?
c. A maioria ser da espécie A.
23. Toda manhã, antes de iniciar a produção, o setor de manutenção de uma
27, Un livreirodescuidado mistura 4 exemplares defeituosos junto com outros 16
indústria faz a verificação de todo o equipamento. A experiência indica que em
pcrfeitos de um certo livro didático. Quatro amigas vão a essa livraria para
95vo dos dias tudo está bem e a produção se inicia. caso haja algum problema,
cornprar seus livros escolares.
uma revisão completa será feita e a indústria só começarâ a trabalhar após o
ir. Calcule a probabilidade de 3 levarem livros defeituosos.
almoço. Faça alguma suposição adicional que julgar necessária e respondá:
a. Qual é a probabilidade de demorar 10 dias para aprimeira revisão completa?
ll. Qual a probabilidade de, após a visita dessas meninas, restarem o mesmo
número de defeituosos na livraria? E de não restar nenhum?
b. E de demorar pelo menos l5 dias?
c. um esquema de manutenção, com revisão preventiva, está sendo montado 2ll. (Use o computador) Para os dados apresentados na Tabela l.l no Capítulo l.
de modo a evitar a revisão completa num dia aleatório. Deterrïrine um dia d, l. Construa a tabela de freqüências para a variável Exer, horas de atividade
tal que probabilidade de quebra além de d seja pelo menos igual a 0,6. i'ísica por semana.
Revisando conr intervalos de d dias, o que estaremos garantindo? b. Suponha que 5 pessoas são selecionadas ao acaso. Qual a probabilidade de
que 3 delas pratiquem, pelo menos, 6 horas de atividade física por semana?
92 Capítulo 3: Variáveis Aleatórias Discretas

c. Repita o item (b) calculando a probabilidade de todas as pessoas escolhidas Capítulo 4


praticarem pelo menos 6 horas de atividade física.

29. (Use o computador) Considere a variável altura apresentada na Tabela 1.1, Medidas Resumo
Capítulo 1.
a. Crie uma variável lj assumindo o valor 1 se a altura do indivíduo e for
maior que a média de altura da população (indivídu os altos) e 0 caso
contrário (indivíduos baixos). Apresente a distribuição de freqüência para 4.1 Introdução
esta variável e uma representação grâfica adequada. Neste capítulo, vamos apresentar algumas medidas que buscam sumarizar
b. Suponha que 13 alunos vão ser sorteados com reposição e a cada
um deles âs informações disponíveis sobre o comlortamento de uma variável. podemos
será associada uma variável V, ,i:1, ..., 13. Defina X: número de alunos del'inir essas medidas nos casos de ur.t còìilnto de dados ôu de uma função de
altos. Como você expressaria X em termos das variáveisY, i,: 1, ..., 13? prrrbabilidade de variável aleatória. Apesar danatureza diferente de cada caso, as
c. Obtenhauma amostra de 100 valores da variável X, isto é, repita 100 vezes itcrtlidas terão a mesma interpretação, variando apenas na forma de serem
o sorteio de 13 alunos nas condições do item (b). Construa uma tabela de çtrlcu ladas.
freqüências. Lembremos que, no Capítulo 1, tivemos a oportunidade de discutir
d. Qual seria o modelo de probabilidades adequado para as variâveis Y;, Illg,ttrnas técnicas para estudar e apresentar descritivamente quantidades na
'i : L,...,73? O modelo Binomial se aplica para X? Em caso afirmativo, peipulação, seja por tabelas de freqüências ou por gráficos adequados. o conjunto
quais seriam os parâmetros? Justifique suas resposta. (Uma boa idéia é tle dados com que trabalhamos poderia ser toda a população ou apenas uma parte
calcular valores esperados e observados e colocá-los em um mesmo delir. Já estudamos, no capítulo anterior, que a representação de eventos de
gráfico). lnlcrcsse pode ser feita através de variáveis aleatórias discretas e definimos alguns
e. Assumindo que o modelo Binomial é adequado para X: ntotlclos cuja ocorrência na vida prática é mais comum.
i. Calcule P(X :7), P(X < 9) P(0 S X < 13). Nosso interesse é caracterizar o conjunto de dados através de medidas que
"
ir'. Qual é a probabilidade de pelo menos 4 alunos serem baixosT E de fsstllìliìm a informação, por exemplo, representando a tendência central dos dados
mais de 7 e menos do que 12 alunos serem altos? gu ir rnaneira pela qual estes dados estão dispersos. Tais medidas também podem
FL'r' tlcfinidas para variáveis aleatórias, permitindo caracterizâ-las de forma
30. (Use o computador) Considere os dados do arquivo aeusp.txt descrito no
ãetrrclhante ao que é feito para um conjunto de dados qualquer.
Exercício 26, Capítulo L
a. Para a variável Temposp, construa uma tabela de freqüência com faixas de
tamanho 10, a partir dq zero. Obtenha o histograma correspondente e 4.2 Medidas de Posição
discuta a adequação de algum modelo discreto a esses dados. Se estamos numa parada de ônibus urbano e nos pedem alguma
b. Faça um histograma da variável Resid. Verifique se o modelo Binomial com llrÍ'orrnação sobre a demora em passar um determinado ônibus, que diremos?
parâmetros n: l0 e p : 0,5 seria adequado para representar o Nirrgtrórn imagina que poderíamos dar como resposta uma tabela de freqüências
comportamento dessa variável na população. rltr(' l)acientemente coletamos no último mês, ou ano! Tampouco, seria adequado
ttllt1'sclìtar um modelo teórico pelo qual teríamos ajustado o comportamento da
virrirívcl aleatória de interesse. Quem perguntou deseja uma resposta breve e
t,tllrirla que sintetize a informação que dispomos e não uma completa descrição dos
tlltrlos colctados ou da modelagem que porventura fizemos.

e3
94 Capítulo 4: Medidas Resumo 1,) Madidas de Posição 95

Nesta seção, definiremos medidas de posição ot medidas de tendência Notcr que o número de parafusos, em cada caixa, ó um valor inteiro, porém, a
central para um conjunto de dados qualquer (população ou amostra) e, então, Ftérlirr não precisa ser necessariamente um número inteiro, Para este exemplo,
consideraremos as correspondentes definições para variáveis aleatórias. tclrros que, em média, as caixas contém 98,6 parafusos.
Colocando os dados em ordem crescente, obtemos: 95,96,97,98,99,99,
Definição 4./: Medidas de posição para um conjunto de dados 100, 100, 100 e 102. Neste caso, como o número de elementos no conjunto de
datlos ó 10, um número par, tomamos a mediana como sendo a média dos dois
Considere uma variável X com observações representadas por
Yãhrrcs que ocupam a posição central. Temos
ï1,t2,... ,tn,. A média desse conjunto é a soma dos valores dividida pelo número
total de observações. Isto
: 99+99 :
é,
ftrdrh, 99.
n
D*u
Iohs:
rL+ir2*..,*rI, i:T E imediato que o valor mais freqüente ó 100 e assim, mo,,1,. - L00. tr
n
As medidas de posição podem ser utilizadas em conjunto para auxiliar a
A mediana, representad a pot rnd,,6r, é o valor que ocupa a posição central êndliso dos dados ou, em determinadas situações, uma pode ser mais conveniente
dos dados ordenados. 6o rpr,: a outra. Por exemplo, se um ou mais valores são muito discrepantes do que
A moda é dada pelo valor mais freqüente e será denotada poÍ moobs. € gerirl das observações, a média será muito influenciad.a por este valor, tornando-
Se houver possibilidade de confusão, faremos menção à variável X ã1 nssirn, inadequada para representar aquele conjunto de dados. Se uma das
representando a mediana e a moda por md,,6r(X) e mo,,6r(X) tr €êlxirs ao invés de 95 tivesse 45 parafusos, a média passaria de 98,6 para 93,6.
NcFl('' cilso, como a mediana não é afetada por valores discrepantes, seu uso seri0
Note que as definições acima também podem ser aplicadas quando o
ffiêis irclcquado para representar os dados. Por outro lado, para conjuntos de dados
conjunto de dados jâ estâ organizado numa tabela de freqüência. Por exemplo,
€Õttr rrruitas observações, a mediana é difícil de ser calculada, uma vez que o
para a média temos
pfoccsso de ordenação é custoso, mesmo com o uso de computadores. É nindn
Egtttrrrrr o aparecimento de distribuições multimodais, isto é, conjuntos de dados
Dr,.ru f-?'ài
A:

possuem mais de uma, moda. Como regra geral, .precisamos usar essfls
ntrt * n2r2 * "' I TTÀ'íxAt i:l
À;
QE:-r
rohs:
nt*"'lnk, n - 4n*" ffieclitlirs com o cuidado de não distorcer informações e características dos dados
quË rlril iunos analisando.

k diferentes valores, ponderada


llm muitos casos, a variável de iqteresse não é observada diretamente e é
e, assim, 7n6, pode ser pensada como a média dos
Unln Íìlrìção do conjunto original de dados. Assim, pode ser necessário considerar
pelas respectivas freqüências relativas de ocorrência. De modo análogo também
ãs vrrlorcs originais multiplicados ou acrescidos de constantes para produzir.um
podemos obter, através da tabelabe freqüência, a mediana e a moda.
lltivo corrjunto de valores. Nos próximos exemplos, estudamos como as medidas
Exemplo 4.1.. Suponha que parafusos a serem utilizados em tomadas elétricas são de grosiçiro se alteram e veremos como podem ser obtidas a partir das respectivas
embalados em caixas rotuladas como contendo 100 unidades. Em uma construção, flterlirlirs do conjunto original.
10 caixas de um lote tiveram o número de parafusos contados, fornecendo os
valores 98, 102, 100, 100, 99,97,96,95,99, 100. Para essas caixas, o número
El'entplo y'.2.. Nas caixas de parafusos do Exemplo 4.1, vamos admitir um custo
de ,' p,rr paraÍìso e de e pela embalagem da caixa. Desejamos calcular as medidas
médio de parafusos será dado por
ele lrtrsição clo custo total (T), definido como a soma dos custos dos parafusos c
dtt t'rrrlrirhgcm. Iniciamos, calculando as novas medidas de posição apenas piÌra o
ëulttt líqttido por caixa (.L), isto é, o custo dos parafusos contidos na caixa sem it
9() Capítulo 4: Medidas Resumo 4,2 Merlidas de Posição

embalagem. Temos,
,,!0/l'
md'o1,"(X) : 75" + 76" I+2
9Bc f I02c *.'. * 100c t' .jÊ'',
MédiadeL:lnbs: 986 c
: 98,6 c. /'
10 10 : 1.
n"ff\P.To,,,(x)
Para a mediana segue que, Potlt scr de inteúse estudar o gasto dos alunos associado com as despesas do
ï€stilrular. Para simplificar um pouco a situação, vamos supor que se atribui, para
mdr,6r(L) : 99c*99c :99c, €êdu irluno, uma despesa fixa de R$ 1300, relativa à preparação e mais R$ 50 para
Eãeltr vcstibular prestado. De posse dessas informações, vamos calcular as medldas

e, sern maiores dificuldades, moo65(L) : 100 c. Concluímos que a multiplicação €e posição da variável D: despesa com vestibular. Pela definição desta nova
;rcla constante c resultou em que as novas medidas de posição são as antigas QUnrrlirladc temos
nrultiplicadas por c. 50x
Vamosincluiragoraocustodaembalagem.Ascaixascustarão t! --
LCgt,, clo cálculo que fizemos, vem imediatamente que
98c * e, L02c*e,..., 100 c+e.
ãoh.,:50 x 1,73 * 1300 :
Entãro,

í,,hs:
(9Bc + e) +... + (100c + e) _ 9B6c * 10e :98,6c * e.
md,o1,r(D) x 1,5 * 1300 : 1375;
10 10

Il fácil ver que para a mediana md"6,(T) : 99c * e e que para a moda, mo"1,"(D) : 50 x 1+ 1300 : 1350. fI
tno,1,"(T): 100c * e. Dessa forma, o acréscimo por uma quantidade e teve o fuenplo 4.4: l-lm estudante está procurando um estágio para o próximo ano. As
eí'eito de somar essa mesma constante às medidas de po.sição. n €Btttltrurlrias A e B têm programas de estágios e oferecem uma remuneração por
Iixemplo 4.3: Foram coletadas 150 observações da variável x, representando o ãÕ lr,,r',,* semanais com as seguintes características (em salários mínimos):
ttúnlaro de vestibulares FUVEST (um por ano) que um mesmo estudante prestou,
Assim, foi observado que 75 estudantes prestaram vestibular FUVEST, uma única Companhia A B
vcz, e assim por diante. Os dados estão na tabela abaixo: média )5 2,0
mediana T,7 1.9
moda 1,5 l,g
QUttl c.rrnpanhia é mais adequada?
lrricialmente vamos discutir as informações fornecidas, supondo que o
ëlttttlirrrtc terít seu salário "escolhido" de acordo com uma política salarial
FcErrrrritlir na tabela anterior. A companhia Á tem 50vo dos seus estagiários
Calculando as medidas de posição de X, obtemos @r'elrrtttltl ú(: l,'7 salários mínimos e o valor com maior freqüência de ocorrência
,é f ,t, ('rrrÌìo a média é2,5 deve haver alguns poucos estagiáiios com salário bem
Ix75t_2x47-t3x2I+4x7 : llìtris irlío, isto ó, valor alto de salário com freqüência pequena de ocorrência. A
I $#t'l''' - Lr73;
150 €Elrtlrttttltiit R tem as três medidas bem próximas indicando umaíazoâvel simetria
\' êltttr: sllítrios altos e baixos. A opção do estudante dependerá de sua qualificação.
9,ï Capítulo 4: Medidas Resumo 99
1,2 Al*lidas de Posição

Se ele for bem qualificado, deve preferir a companhia ,4, pois terá mais chance de
irlgurnas situações, as desigualdades são satisfeitas por qualquer valor num
obter um dos altos salários. Se tiver qualificação próxima ou abaixo dos outros
o intervalo e, nesse caso, tomamos a mediana como o ponto médio do
cstudantes, deve preferir a B que parece ter uma política mais homogênea de
salários. tr A moda é o valor (ou valores) da variável que tem maior probabilidade de
vamos, agora, descrever algumas medidas associadas às variáveis Egrt'êttcia, representando-a por Mo, temos
aleatórias eue, como já mencionamos, serão correspondentes às medidas
P(X : Mo) : max (P1, Pz,' ' ', Pn)' tr
apresentadas para um conjunto de dados.
sabemos que a descrição completa do comportamento da variável 4.5: Considbre a variável aleatória X com a seguinte função discreta de
aleatória discreta é, feita através da sua função de probabilidade. Assim sendo, é
razoável pensar que, qualquer que seja a quantidade destinada a resumir esse
comportamento, sua definição deverá envolver, de alguma forma, essa função de
probabilidade.
A medida mais popular é o valor esperado, ou simplesmente média, el Enttts.
representa o ponto de equilíbrio da distribuição de seus valores. Da mesma forma,
como mencionado no caso de um conjunto qualquer de valores, o uso do valor /Í,.= t i ïipi: (- 5) x 0,3 * 10 x 0,2 * 15 x 0,4+20 x 0,1 :8,5.
esperado como síntese de toda a informação pode levar a distorções e
interpretações equivocadas. Em especial, é possível construir uma função de A mrrrll ó o valor com maior probabilidade e, portanto, segue q1ae Mo: 15. Por
probabilidade, com valores da variável muito diferentes uns dos outros, em que a ËÈltnr lnclo, a mediana poderá ser qualquer número entre 10 e 15, pois, para
rnódia não caracteriza o real comportamento da variável aleatória. A média junto P e I ttt, J.5], temos
com a moda e a mediana são medidas de posição ou de tendência central e são
clefinidas a seguir.
P(X<b)>0,5 e P(X >b) >0,5.
Suponha que os possíveis valores da variável aleatória sejam Md:12,5 (ponto médio do intervalo). tr
rcpresentados por tt, 12, . . . , tÃ., com correspondentes probabilidades ftln c'orrvenção adotada, tomamos

'l)t,'l)2,',. ,Pk. O$serve que nem a mediana, nem a média precisam ser valores assumidos
peln vrrriÍrvel aleatória. No exemplo anterior, a média de X foi 8,5 e a mediana
De.finição 4.2: Medidas de posição para varídveis aleatórias discretas
13,õi tpro são valores não assumidos pela variável aleatória'
A média, valor esperado ol esperança de uma variável X é dada pela l)c modo similar ao ocorrido com as medidas de posição num conjunto de
cxprcssão: dcrl,rs, ir rnultiplicação ou a adição de constantes a uma variável aleatíriafaz com
gue suiÌs medidas de posição fiquem multiplibadas ou acrescidas pelas mesmas
: Dr,
À

E(X) ou . €Elllslitttlcs.
' i:L
Eremplo 4.ó.. Considere uma v. a. X com função densidade discreta dada por
umer notação alternativa é representar E(x) por px ou simplesmente p, se não
Itouver possibilidade de confusão.
A mediana é o valor Md que satisfaz às seguintes condições
P(x > Md)>Ll2 e P(x < Md) > 1/2. Nnrr rl tlil'ícil verificar que f/ : 10,3; Md : 8 e Mo : 5. Se uma nova variáxelY
é rrlrlitlir it partir de X através de Y : 5 X - 10, sua função de probabilidade será
100 Capítulo 4: Medidas Resumo
4,2 Medidas de Posição 101

Ressaltamos que, no caso de conjunto de dados, usamos letras minúsculas


pnrit denotar as referidas medidas, eniluanto, no caso de variáveis aleatórias,
Ulilizamos letras maiúsculas. Como mencionamos, a interpretação é feita de modo
o cálculo das suas medidas de posição pode ser feito pela definição. Temos girnilar nos dois casos.

Fv : g x 0,1 * 15 x 0,3+... +90 x 0,2 : 4L,5)


Fxcrcícios da Seção 4.2:
Md(Y) : 30, pois é oúnico valorcom p(y > 30) > 0,5 e p(y < B0) ) 0,5; l. l)iscuta quais medidas de posição seriam mais adequadas para os conjuntos de
Mo(Y) : 15, pois é o valor com maior probabilidade. dados abaixo. Comente suas escolhas.
tu. Estão disponíveis dados mensais sobre a incidência de envenenamento por
Estes mesmos resultados poderiam ser obtidos a partir das medidas de posição de picada de cobra. Deseja-se planejar a compra mensal de antídoto.
X multiplicadas por 5 e subtraídas de 10. Isto é, lr. O número diário de usuários, entre 17 e 19 horas, de determinada linha de
ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a
Fv:5x10,3-10:41,5; frota em circulação
Md(Y):5xB-10:30; c. Um fabricante de baterias deseja divulgar a durabilidade do seu produto e
coleta a informação sobre a duração de 100 de suas baterias.
Mo(Y):5x5-10:15. tl. Num vôo internacional uma companhia serve dois tipos de pratos no jantar:
peixe ou frango. Um banco de dados contém os pedidos feitos nos últimos
facilita cálculos e pode ser bastante útil.
0

Esta propriedade tr 200 vôos. Pretende-se planejar o número de cada tipo a ser colocado à i

Na Tabela 4.1, apresentamos as expressões para as medidas de posição disposição dos passageiros.
para as duas situações estudadas: conjunto de dados e variável aleatória.
2, Vinte e cinco residências de um certo bairro foram sorteadas e visitadas por um
l
cntrevistador que, entre outras questões, perguntou sobre o número de
Tabela 4.1: Medidas de tendência càntral. tclcvisores. Os dados foram os seguintes:
l
2,2,2,3,7,2,1, 1, 1, 1, 0, 1, 2,2,2,2,3,r,1, 3, 1, 2,7,0 e 2. //
Orgirnize os dados numa tabela de freqüência e determine as divers as
rlc posição. ^eai#
I

.1. Ntrrn experimento, l5 coelhos foram alimentados com uma nova ração e seu
pcso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em

f
I

r;uilogramas) foram os seguintes:


I

1,5; 1,6; 2,3;\7,7; !;5;2,0; L,g; I,8;2,7;2,L; L;9i \,8;i.!,7;2,5 e 2,2.

n. Utilizando os dados brutos, determine média, moda e mediana desse


conjunto.
lr. Organize uma tabela de freqüência com faixas de amplitude 0,2 a partir de
1,5'
t02 103
Capítulo 4: Medidas Resumo 4,.ì Medidas de DisPersãtt

c. calcule, a partir da tabela de freqüência e com o ponto 'krédio como Ee rtumente os altos rendimentos de alguns residentes serão suficientes para fazer
representante de cada faixa, a média, a moda e a mediana. comente ê trróclia atingir um patamar comparável às melhores economias do
mundo, porém
as
diferenças encontradas com o item (a). e rliscrepâncìa entre os diversos valores deve ser muito grande. O que podemos
d. se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais cntrrr.esquecendo é a variabilidade dos valores da variável e isto não é captado
conveniente: o de (a) ou o de (c)? Ter acesso a computador faz diferença? pelrr rnéãia e sim pelas medidas de dispersão' Por exemplo, para o conjunto de
Vnl.,,'cs 0, 20 e 40 a média é igual a 20. O mesmo acontece com o conjunto 20,
4. Sendo x
uma variável aleatória com função de probabilidade dada a seguir,
obtenha as medidas de posição 1t, Md e Mo. 30 c 20. Os dois conjuntos têm valores bem diferentes, apesar de terem a mesma
fltérliir. De fato, éfâctl construir exemplos onde dois conjuntos de dados distintos

a-.'' possuem medidas de posição idênticas. Em muitas dessas situações existe


ãli'.r"nço em relação à dispersão dos dados, isto é, quanto à maneira como os
Valer.cs de cada conjunto se espalham. A fim de quantificar tal çaracterística,
vtliuos definir algumas medidas de dispersão'
5. Para cada item abaixo, construa uma_variável aleatória que atenda as condições
indicadas. Dc,f'ittição 4.3: Amplitude de uma varidvel em utn coniunto de dados
à. p: Md : Mo. A amplitude, referente a uma certa variável, é definida como a diferença
b. > Md.: Mo.
pr,
( -" €lltr.c o maror e o menor valor do conjunto de dados. Será denotada
por A. n
c.t-L < Md < Mo.
A amplitude só leva em conta dois valores de todo o conjunto e, assim,
6. um atacadista recebe ãer.iir mais cónveniente considerarmos uma medida que utilizasse todas
de vários fornecedores uma certa peça para revenda. A as
peça ê produzida com material de qualidade diferente e, portanto, tem custo Ëltscrvações. Uma idéia inicial é considerar o desvio de cada observação em
diferenciado. Levando em conta a proporção fornecida e o preço apresentado felrrçiro a um ponto de referência e então tomar sua média. caso a observação
seja
por cada fabricante, pode-se admitir que o custo de uma peça em reais, nttrilr do que a referência, o desvio seria negativo, caso seja maior, positivo' A
escolhida ao acaso, é uma variável aleatória (C). Admita a seguinte função de Fqrrur cle tais desvios fará com que termos de sinais diferentes se compensem,
probabilidade para C: p6tlcrrclo ocultar o efeito da variabilidade. Esta dificuldade é discutida no exemplo
ê üegtlir.

E,rttttplo 4.7: Numa classe com 12 alunos de um curso de inglês, os alunos


llrlir:itt'am o número de outras línguas (além do português e inglês) que tinham
Hlg,rrrla familiaridade. Os resultados ordenados foramos seguintes: 0;0,0,0,
a. Determine as medidas de posição davariâvgl C. 1, 1,
b. Suponha que o atacadista revenda cada uma dessas peças acrescentando f , l, I ,2,2 e 4. Calculamos sem dificuldade a média e a mediana e obtemos
50% sobre o custo da peça, além de um adicional de R$0,10 pelo frete. iT,,/,r . 13f 12 e md,,6* : L.
Calcule as medidas de posição davariâvel preço de revenda. O desvio de cada observação em relação à mediana é obtido pela
ex;rlcssito ri - m(1o65. Para o conjunto de dados acima temos: -1, -1' -1, -1, 0,
4.3 Medidas de Dispersão [], 0, 0, 0, ]-, 1 e 3. Se calculamos a média desses desvios obtemos 1/12'
Nultrrrr<ts que valores negativos e positivos se compensam, diminuindo a média
Apesar das medidas de tendência central fornecerem uma idéia do rlrs rlcsviós e dando a falsa impressão de pequena variação. Um caminho
trlÍcr.nirtivo seria tomar a média dos valores absolutos dos desvios acima, o
comportamento das variáveis, elas podem esconder valiosas informações. Essas que é
medidas podem não ser suficientes para descrever e discriminar diferentes rllrrrrtttitttdo tlesvio mediano e definido por
conjuntos de dados. Por exemplo, um bairro nobre da capital paulista inclui umir
das maiores favelas de São Paulo. o que podemos dizer da renda média do bairro?
104 Capítulo 4: Medidas Resumo 4,.1 Medidas de Dispersão 105

A vantagem de usar essa expressão alternativa é evitar a operação de subtração,


desvio mediano :
iElni - md.o6,l : *
qrrc em muitos casos envolve decimais e torna-se muito trabalhosa.

Exemplo 4.8: No Exemplo 4.1, foram fomecidas as quantidades de parafusos em


uma outra maneira de calcular os desvios é em relação à média e, neste caso, a l0 caixas de um lote. Pelos valores observados, o maior número de parafusos foi
expressão a ser usada é r,; - rotr. A soma desses desvios sempre dá zero se o 102, ao passo que o menor foi 95. Logo, a amplitude será dada por
cálculo for feito sem arredondamento e, portanto, a média deles também é sempre
zero. Dessa maneira, essa medida não seria nada informativa sobre a dispersão
A--102-95:7.
das observações. Entretanto, podemos tomar os valores absolutos obtendo o Para calcular a variância, utilizamos o valor da média, 98,6; já,obtido no
desvio m,édio, que é definido como a média dos valores absolutos dos desvios em teÍ'crido exemplo. Para auxiliar nos cálculos, podemos construir as tabelas abaixo.
relação à média. Isto é, tJlilizando a expressão da Definição 4.4, é necessário criar colunas com os
vrrlrrresri - Tohs (*o - Tnt r)2, enquanto que a expressão alternativa requer
"12 " rf
- a \-
b( llpcnas uma coluna com os valores
médio:
L24lri-T"n''l: 6 '
.
desvio D
I)efinição 4.4: i,,)lsiò$ Alternativa:
ri'- / -I,'hs)'\., ri'
os desvios mediano e médio utilizam a função módulo que, por suas
,L
1:; Tob, \ri - L lLi
características matemáticas, torna mais difícil o estudo de suas propriedades. I 98 - 0,6 0,36 1 98 9604
Definimos a seguir uúa nova medida de dispersão que úiliza o quaãrado dos 2 r02 3,4 11,56 2 102 70404
desvios em relação à média. L) 100 r14 1,96 .) 100. 10000
Definição 4.4: Variâ,ncia e desvio-padrão etn um conjunto de dados 4 100 L,4 1,96 4 100 10000
5 99 0,4 0,16 5 99 9801
A variôncia, referente à variável x de um conjunto de dados, é definida 6 97 - 1,6 2,56 6 97 9409
por
I 96 - 2,6 6,76 7 96 9276
aTl
lÍ-.- 8 95 - 3,6 L2,96 8 95 9025
ver(,hs:: /-'
n,
) .(", -T,,t r)2 . Í) 99 0,4 0,16 I 99 9801
l0 100 L,4 1,96 10 100 10000
Para manter a mesma unidade dos dados originqis, é conveniente definirmos o total 40,40 total 97264
desvio-padrão como sendo dpob,: var,n . se houver
f possibilidade de
X, utilizando
confusão, faremos menção à variável a notação var,,6_(X). tr Scp,rrc da Definição 4.4 e da tabela correspondente que:
A expressão apresentada na Definição 4.4 auxilia o leitor na interpretação
1.\.
da variância como uma medida de variabilidade. Entretanto, é possível obter uma
expressão alternativa que facilita os cálculos. Fica como exercício ao leitor
vlr(,hs:
; L\",-
X:I
\, :
t1,6*)'
ff : n,on'
mostrar que:
lrt:lir cxpressão alternativa, temos
t
4'ILl
_u
Vgfobs - v \--,
Q-t
*obs' 1.\
vctt'(il).\:- > .rí" -ri,t^
-1 :- 97260 -:1nu,u;): n,on.
n,-' z=l 10
t0(t Capítulo 4: Medidas Resumo 1,.1 Ã4uliclas de Dispersão 107

Naturalmente, qualquer que seja a expressão utilizada, o desvio padrão é dado por
Ee trtorlo análogo, escrevemos
dpohr: JT,04:2,AI. n
Para o caso em que o conjunto de dados está organizado numa tabela de var,,6,(Y):
#
(7b x 502 +.'. + 7 x200\ -86,52 :1917,5i
freqüência, o cálculo da variância será modificado de forma conveniente com a
ponderação dos desvios pelas respectivas freqüências. Aproveitamos o próximo I :rgr7,5.
exemplo para ilustrar essa situação, além de discutir o efeito, sobre a variância, da rttr,6,(D):
#
(75 x 13502 +...+7 x 15002) - 1386,52
multiplicação ou adição de constantes aos valores da variável de interesse.
Note que a variável D nada mais é do que Y acréscido de 1300. Não
Exemplo 4.9; No Exemplo 4.3, definimos a quantidade D, despesa no vestibular,
€bãliyì(e, suas variâncias são iguais, isto é, o acréscimo de constante não alterou a
obtida a partir de x pela expressão D:50 x x*1800, com x indicando o
ïCrilìrrcia. Esse resultado é de certa forma previsível, pois a adição ou subtração
número de vestibulares prestados. Para efeitos didáticos, antes de obter a
$g çorrstante corresponde a uma translação dos valores dessas quantidades, não
variância de D, vamos calcular a variância de X e da quantidade auxiliar
êltet'ntrclo sua variabilidade relativa. Por outro lado, Y é igual a 50 vezes a
Y:50 x x. Iniciamos por ampliar a tabela de freqüência de x, para incluir yât'irívcl X e sua variância é 502 vezes a variância de X. Esse resultado se explica,
também os valores deY e D. Temos,
pgls l multiplicação por constante altera a distância entre os valores da variável
àflgirrll e, pela fórmula da variância, o efeito será pelo quadrado da constante. E
X Y D Tri
1 50 1350 75 E*emplo 4.10: O salário de professores do ensino fundamental da rede privada
2 100 1400 47 €Flri scrrclo estudado. A tabela abaixo apresenta os valores, em salários mínimos,
€btitlos em um levantamento numa certa cidade. Desejamos calcular a média e a
J 150 r450 2L
Vât'iÍìncia desse conjunto de dados.
4 200 1500 7

As médias de X e D jâforam calculadas no Exemplo 4.3 e a de Y segue Salário freqüência


sem dificuldade. Assim, Ír,hs : I,73; y,,6-: 86,5 e ã,,h, L 1386,5. Para calcular a 1F3 L4
variância de X, via tabela de freqüência, adaptamos as expressões apresentadas 3F5 25
anteriormente obtendo:
5-7 1B

14 7-9 I
var,,6.(X): -
#
-- " D",(*,
i:l
r,,0,)' ,
9F11 4
total 70
ou, na forma alternativa,
f-o1lo ir variável está apresentada em faixas de valores, não temos os valores
_c
:
Vafr,6r(X)
hD",", nohs' elï.livirnrente observados e, portanto, não podemos aplicar as fórmulas da média e
rlrr virriârrcia. Para contomar essa situação e obter resultados aproximados para as
ttrt,rlirlas clesejadas, tomamos como representante de cada faixa seu ponto médio.
Optando por utilizar essa última expressão temos o seguinte cálculo:
['orrr cssit alternativa, o cálculo é feito nos mesmos moldes das variáveis
(Tsxt2 *4T x22 +2r x 32 + r x +2)-r,TJ2 :0,767.
1

var,,1,,,(X):
r,o
4,.1 Medidas de Dispersão 109
t08 Capítulo 4: Medidas Resumo

quantitativas discretas. Assim, , Se apenasa informação dos valores esperados, medianas e modas
ctitivesse disponível, concluiríamos por uma perfeita harmonia de desempenho
.5
:
ln
:
14x2+25 x 4+ ". *4 x 10
: elttrc os vários métodos. Entretanto, como podemos observar pelas distribuições
Iohs '(0 ) Tli.:xi 4,97. de probabilidade, esse não é o caso. Por serem medidas de tendência central, as
- 70
- trÊs rnedidas acima não captaram a variabilidade existente em cada método. D
Para a variânpia: Como mencionamos para as variáveis em um conjunto de dados, podemos

VQfohs :h'"*r -77,u":29,7I - 24',72: 4,99.


ter várias maneiras de medir a dispersão. Para o caso de variáveis aleatórias
vnrlìos definir apenas a variância, que é a medida mais utilizada.

De.linição 4.5: Vartância de uma varidvel aleatória discreta


Seja X uma variável aleatória com P(Xi - *n) : P,i,'i : L,2,... ,k e
Para um salário mínimo de R$ 180, a média e a variância dos salários em reais
seriam, respectivamente, 180 x 4,g7: 894,60 e 1802 x 4,gg: 161.676,00. tr
Itrédia p. A variância de X é a ponderação pelas respectivas probabilidades, dos
Vamos, agora, apresentar as medidas de dispersão para variáveis tlesvios relativos à média, elevados ao quadrado, isto é,
aleatórias. Como já mencionamos no início da séção, as medidas de posição não k
"explicam tudo" que está acontecendo, seja num conjunto de dados ou com
variáveis aleatórias. O próximo expmplo reforça essa idéia para o caso de
Var(X):
'
t (*, - p)' pu .

i:I'
variáveis aleatórias.
Muitas vezes, denotamos a variância por o2 e, se houver possibilidade de
Exemplo 4.11: llma pequena cirurgia dentária pode ser realizada por três €otìÍusão, usamos o2r.Exttaindo araiz quadrada da variância obtemos o desvio-
métodos diferentes cujos tempos de recuperação (em dias) são modelados pelas tr
pulrtÍo que é representado por d ou ox.
variáveis Xr, Xz e Xs. Admita que suas funções de probabilidade são dadas por
Exctnplo 4.12: Retomando o exemplo anterior, calculamos as variâncias dos
10
tenrpos de recuperação para cada método. Temos,
0,2 0,2 0,2 .
Wtr(X): (0- x0,2+(4-5)2 x0,2 + "'+ (10-b)2 x0,2:10,40.
x, I 1 5 9 5)2

Pi I tls 113 rl3 l)e rrrodo análogo, obtemos:


O valor 0 na variável X1 pode ser interpretado como recuperação no mesmo dia Var(X2) : L0,67 e Var(X3): 0,60.
da cirurgia. Na tabela abaixo, apresentamos o valor esperado, a mediana e a moda
para cada uma das três variáveis. Vale ressaltar que a moda nem sempre é única e l)cssa Íbrma, utilizando-se os métodos 1 e 2 (variáveis X1 e X2),teremos maior
para construir a tabela a seguir, escolhemos o valor 5 como representante dos vrrrinbilidade no tempo de recuperação. n
valores modais de X1e X2. A variância definida
anteriormente pode ainda ser considerada como o
vrrlor csperado de uma nova variável aleatória, o desvio ao quadrado. Isto é,
X1 X2 X3
valor esperado 5 5 5
Var(X):E[(X-p)2],
mediana 5 5 5
it rltrirl pode ser convenientemente reescrita na seguinte forma
moda 5 5 5
u0 Capítulo 4: Medidas Resumo 1,,ì Medidas de Dispersão IlI

Tabela 4.2: Medidas de dispersão.


k
Var(X) : E(X\ - P2 : la,"? - ut'
i:L
Esta última expressão é bastante útil e, para não criar confusão, explicitamos os ',:ri;,iií

'
I llìlìÌ

u"lsf#'"!'üli
seus termos. O termo E(Xt) é o valor esperado da variável ãleatória X2, ao passo
que p2 indica o quadrado do valor esperado de X. O próximo exemplo recalcula :,'i;i;iiir,-:u^€2,;t
as variâncias do exemplo anterior, através da expressão acima. :. i tl'.:li!;!.?.ì

Exemplo 4.13: A partir das funções de probabilidade de X1,X2 e Xs ::. Variânciá-,.Ì;=


*: ::::::::::-r:.,,
apresentadas no Exemplo 4.11, obtemos
: r:l

::: ::.:!;:::..:!..í:l/a;U

$Jr
llllllltlììÌffi
j un',;6;f1[rÍi:=
(nltcrhâti.v,a),[
: r-r,ip',í.Ít,i;

I r 25 81 x?l 16 2b 36
w"@
x3

As funções de probabilidade acima foram obtidas a partir de operações simples,


Tabela 4.3: Propriedades da média e da variância.

rlf;\
-:i.' "4,::r
t

conjünió oe nàaos
como por exempÌo,

P(X?: 16) : P(Xt -- 4 ou Xt : 4) : P(Xt : 4),

uma vez que X1 não assume valores negativos.


Temos então que
i::i; , ,

E(x?) : 0 x x 0,2 t"' + Ë*íY,ÍÍ ,Ïi.fiffi


#,,
0,2 + 16 100 x 0,2 :35,40.
Então,
Vamos concluir esta seção apresentando, através de exemplos, os cálculos
Var(X):35,4-* - 10,40. do vlrlor esperado e da variância de alguns dos modelos teóricos que foram
del'irr itlos no capítulo anterior.
De modo análogo, obtemos E(Xï :35,67 e n(X'zr) :25,60; resultando
emVar(X2) = 70,67 e Var(X3): 0,60. tr Et'ttttpltt 4.14: SejaX com distribuição Bernoulli de parâmetro p. Temos

A Tabela 4.2 auxilia o estabelecimento da correspondência entre as E(X):0x(1 -p)+Lxp:p e

medidas de dispersão obtidas a partir de um conjunto de dados e aquelas 6\: 02 x Q - p) * L2 x p: p '


calculadas para variáveis aleatórias. Em seguida, na Tabela 4.3, apresentamos um Lrrg,,, ir variância
resumo das propriedades da média e da variância discutidas até agora.
""rf
Var(X)-p-p2:p(t-p). tr
1t2 Capítulo 4: Medidas Resumo 1,.1 l+4cdidas de Dispersão 113

Exemplo 4.75: Para uma variável aleatória X com distribuição Var(Y): E(Y\ - E'(Y)
parâmetrosnep,temos
: Ë i2P(Y : i)- (ry)'
k

E(x):IkP(x:k) j:r
À;:0

:ik, n'
(r- P)"-*
:iD,r- (+)'
?'" (n-úub* .:J: L
A:I
_L k(k+r)(zk+7) _ (tç + t)2
:Ë k6
6-#@='Pk(1-P)'-k :- k2-L
(n - 1)!
n,
L)t
. nk_r (7\ - p)-' 12
''' 2 @-\r,k)t(k

- 1)!' ú
À:1 Para se calcular o valor esperado e a variância, no caso dos modelos de
Substituindo nesta última expressão, k-L por j e, em seguida n-I pot r Pglss<rn, Geométrico e Hipergeométrico, são necessárias técnicas um pouco mais
obtemos rrdas. Optamos por não apresentá-las aqui, tendo em vista o objetivo desse
EXto c, para o leitor interessado, indicamos o livro de Mood, Graybill e Boes
E(x) - "e'F_(,) r, e - p)' -i : np, ílq7q. Na Tabela 4.4 apresentamos os valores esperados e as variâncias para
tãelos os modelos discutidos no capítulo anterior.

uma vez que a somatória é igual a 1, pois corresponde a somar todas Tabela 4.4: Modelos discretos- valor esperado e variâncía.
probabilidades de uma variável Binomial com parâmetros r e p'
A variância será calculada mais facilmente no próximo capítulo, qua tffiëi1,///,//rÈij"l;,.?.ï*.-tF.

apresentaremos propriedades da variância da soma de variáveis a Variável Diicietá';


independentes. Por ora, só informamos que seu valor é nplL - p)'
/ji;..!. ... .........:.:;....-. - : ;;
wffi"',
Exemplo 4.16: Considere a variável aleatória Y com modelo Uniforme
entre os valores I e k. Aplicando a definição de esperança matemática ;-.
utilizando a conhecida expressão para a soma de uma progressão aritméti Ì)( r:
r! !.!ìl$nìN! !i:!1
b)ii
Èiii:l:::

temos
k:k k+7
E(Y):Lipv : ì:Di ï>,t:
_:::h6 :

L
,
t x|| I LLtìt\\\riìti

j:1 j:1 k '" .:i=t


Ésffi\è,wqryì
lìsì,::l:ì;;,:: :I

Para calcular a variância usaremos o seguinte resultado de soma de séries:


Ws'..14)! r.É

D/:
"riltii;it
k
+ L)(zk +
'W"{"/"Kí,2/'r'*?tí:;i-z7:titi
k (k L)

.:i:r

então,
il4 Capítulo 4: Medidas Re
4,4 li.rtrcícios t15

Exercícios da Seção 4.3:


.jogador ganhou menos o pagamento inicial (prejuízo 'é lucro negativ.o).
l. Você está indeciso em comprar uma televisão e decide avaliar a l)ctermine média, moda, mediana e variância dessa variável.
informações estatísticas, fornecidas pelo fabricante, sobre a duração (e
lroras) do tubo de imagem. 6. Nrrma certa cidade, o número de crianças em idade escolar, em famílias com 4
f ilhos, é uma variável aleatória modelada pela Binomial com parâmetros n : 4
Marca da TV GA EB HW c 1r: 0,6. Para cada filho em idade escolai, um projeto de apoio à educação
Média 8000 8200 8000 prrga 1 salário mínimo para a família. Calcule a média e a variância do custo
Mediana 8000 9000 7000 rlcsse projeto por família. ,-
Desvio Padrão 600 1500 2500 e ---'t'
Com que marca você ficaria? Justifique. 4.4 Exercícios
2. A pulsação de 10 estudantes no início de uma prova de estatística?úam l, tlrrr certo cruzamento tem alto índice de acidentes de trânsito, conforme pode
scr constatado em uma amostra dos últimos 12 meses: 5,4,7, B, 5, 6, 4,7, g,
)86. Calcule a média a uuriân"iu O"rr" 7, 6 e B. Determine a média e a variância do número de acidentes mensais
" "âÈ".âì rrcsse local.
3. Num estudo sobre consumo de combustível, 200 automóveis do mesmo ano
modelo tiveram seu consumo observado durante 1000 quilômetros. l. listudando uma nova técnica de sutura, loram contados os dias necessários para
infbrmação obtida é apresentada na tabela abaixo em km/litro. ir completa cicatrizaçáo de determinada cirurgia. Os resultados de 25 pacientes
lìrlam os seguintes: 6, 8,9, 7,8,6,6,7,8,9,10,7,8, 10,9, 9,9,7,6,5,7,7,8,
Faixas Freqüência
l0 e I 1. Organize os dados numa tabela de freqüência e calcule a mêdia e a
7F8 27 (-_:,. virriância.
8F9 29
ã, IJrna amostra de vinte empresas, de porte médio, foi escolhidapata um estudo
9F10 46 sobre o nível educacional dos funcionários do setor de vendas. Os dados
10 F 11 43 coletados, quanto ao número de empregados com curso superior completo, são
11 F 12 55 rrpresentados abaixo.

Detennine o desvio padrão do consumo. Empresa 1 2 t


d 4 5 6 7 8 I 10 11
t
No. Funcionários 1 0 0 r) 0 L I 2 2 2 0
4. Nurn certo bairro da cidade de São pauro, as companhias de seguro
cstabeleceram o seguinte modelo para o número de veículos furtados por
Empresa 72 13 14 15 16 t7 1B 19 20
sclnaniì: t

_1_ 2 J n
purtosl_o. No. Funcionários 2 0 2 0 2 2
t"
\.
1 1 L)

ru.Organize uma tabela de freqüência e calcule média, moda e mediana.'


b. Determine o desvio padrão.
calcule a média e a variância do número de furtos semanais desse bairro.
c. As empresas pretendem incentivar o estudo dos seus funcionários
5. Nunr jogo de dados, umjogador paga R$ S puralançar um dado equilibrado e oÍ'erecendo um adicional de 2 salários mínimos para cada funcionário com
ganha R$ 10 se der face g, ganha R$5 se der face 5 e não ganha nãda as curso superior. Qual será a despesa média adicional nessas empresas?
outras faces. Defina a variável luçro por jogadacomo sendo o saldo do"o* que o .1. As notas finais de estatística para alunos de um curso de Administração foram
e irs scguintes: 7, 5, 4, 5, 6, 3, 8, 4, 5, 4, 6, 4, 5,6, 4,6,6,3, 8, 4, 5, 4, 5, 5 e 6.
ilô Capítulo 4: Medidas R 4.4 li.rarcícios t17

a. Determine a mediana e a média.


l)aciente 27 22 23 24 25 26 27 28 29 30
b. Separe o conjunto de dados em dois grupos denominado s aprovados, 206 206 217 214 2IB
Colesterol 203 205 208 209 225
nota pelo menos igual a 5, e reprovados para os demais. Compare
variância desses dois grupos. n. (lllcule a média, a moda, a mediana e a variância a partir da tabela de dados
llrutos.
5. um lrospital maternidade está planejando a ampliação dos leitos para recé
nascidos. Para tal, fez um levantamento dos últimos 50 nascimentos, obtendo
b. ( )r'ganize os dados em uma tabela de freqüência com faixas de tamanho de
informação sobre o número de dias que os bebes permaneceram no h l0 a partir de 160.
e, l{cÍìrça o item (a) usando a tabela de freqüência obtida em (b).
antes de terem alta. os dados, já ordenados, são apresentados a seguir: 1, 1,
al. (lomente as diferenças encontradas entre os valores das medidas calculadas
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4,
4,4,4,4,5,5,5, 5, 5, 5,6,7,7, g e 15. crn (a) e (c).
n. Organize uma tabela de freqüência. ã, o tcrnpo, em horas, necessário para um certo medicarnento fazer efeiÍo é
b. Calcule média, moda e mediana. Itplcscntado abaixo:
c. Determine o desvio padrão.
0,2r 2,71 2,12 2,81 3,30 0,15 0,54 3,r2 0,80 1,76
d. Dentre as medidas de posição calculadas em (b), discuta quais delas seri
1,I4 0;16 0,31 0,91 0,18 0,04 l,16 2,16 I,48 0,63
mais adequadas para resumir esse conjunto de dados.
c. você identifica algum valor excepcional dentre os que foram observados, H. ( lllcLrle a média e a variância para o
conjunto de dados.
Se sim, remova-o e recalcule os itens (a) e (b). Comente as difr b. (bnstrua uma tabela de freqüência para classes com amplitude de 0,5 hora,
encontradas. corneçando do zero.
6. o departamento de atendimento ao consumidor de um concessionária f. Suponha que o conjunto original de dados foi perdido e só dispomos da
tirbcla construída em (b). Utilizando alguma suposição conveniente,
veículos recebe, via telefone, as reclamações dos clientes. o número
rcrculcule a média e a variância e comente as possíveis diferenças
clramadas dos últimos 30 dias foram anotados e os resultados foram: 3,4,5,
cncontradas.
4, 5, 6, g, 4, 4, 5, 6, 4, 3, 6, 7, 4, 5, 4, 5, 7, g, g, 5, 7, 5, 4, 5, 7 e 6.
a. Construa uma tabela de freqüência. ç
1 Ertrrrlirnclo-se o número de acertos em 100 lances-livre de bola ao cesto, uma
b. Calcule a média e o desvio padrão. $uros(r'a com 20 jogadores forneceu os seguintes resultados: 68,73, 61, 66,96,
c. Admitindo que cada telefonema acarreta serviços sob a garantia avali ft), (t5,86, 84, 79,65,78,78,62,80,67,75,88, 75 e 82. Agrupe as
em R$ 50 por chamada, calcule a média e o des.rio padrão das obsr:r'vações em intervalos de comprimento 5 a partir de 60 e, usando alguma
oriundas do atendimento ao consumidor. Irrgrosiçiro adicional, determine a média e a variância do número de acertos em
l(10 irllcmessos.
7. lioram anotados os níveis de colesterol (em mg/l00m1) para trinta pacientes
urna clínica cardíaca. As medidas se referem a homens entre 40 e 60 anos 10. t I Sindicato dos Engenheiros do Estado de São Paulo está estudando o
idade que foram à clínica fazer um check-up. irrrgrircto do estágio na obtenção de bons empregos. Dentre os engenheiros
a'r'r'd'ru Í'ormaclos e com empregos considerados bons, foi sorteada uma aúostra
Paciente 1 2
.)
d 4 5 6 I 8 I 10 c' olrscrrvado o número de anos de estágio anteriores à formatura.
Colesterol 160 160 161 163 167 170 172 172 173 177 $, ('irlculc a média e a variância.
Paciente 11 T2 13 74 15 16
It- l'irnr cl'eito de análise, decidiu-se desprezar os valores que se distanciassem
T7 1B 19 20
Colesterol 178 181 181 782 185
tlir rnódia amostral por mais de dois desvios-padrão, isto é, só serão
186 194 797 199 203
crrrrsiclcrados os valores no intervalo fronr* 2 dponr. Recalcule o item (a) e
corncntc os resultitdos.
il8 Capítulo 4: Medidas Resumo
1,.1 Exercícios 119

Anos de estágio freqüência Interrupções freqüência


0 25 t2
0
1 5B 1 t4
2
,
t47 2 I
r) i05 .) I
4 72 t
4 d
5 45 5 3
6 10 2
6
total 462 total 50

ru. Determine a média e a variância do número de interrupções semanais.


11. Na linha de produção de uma grande montadora de veículos, existem 7
b. O Governo Federal aplica uma multa de 10 mil reais por semana, se há pelo
verificações do controle de qualidade. Sorteamos alguns dias do mês e
menos uma interrupção no fornecimento. Calcule a média e a variância do
anotamos o número de "OKs" recebidos pelos veículos produzidos nesses dias,
valor das multas aplicadas por semana.
isto é, em quantos dos controles mencionados o automóvel foi aprovado.
c. A Prefeitura dessa cidade fez um levantamento dos prejuízos, nos vários
Aprovações freqüência setores, decorrentes da falta de energia e atribuiu um valor total de 900 mil
4 L26, reais para ser ressarcido pela companhia responsável pelo fornecimento de
5 359 eletricidade, referente ao período de 50 semanas. Qual seria o prejuízo
6 1685
médio por semana?
7 4764
rl. Nesse período, qual será a média e a variância do desembolso semanal da
companhia, incluindo multa e ressarcimento de prejuízo?
total 6934
l.l. O Centro Acadêmico de uma faculdade pretende iniciar uma campanha junto
a. Determine média, moda e mediana do número de aprovações por automóvel
à direção da escola com vistas à melhoria das salas de informática. Para tal, fez
produzido. o
e
uma enquete com todos os alunos perguntou sobre número de
tr. Calcule a variância.
computadores que cada um tinha na sua residência.
c. crie uma nova variável Reprovações, indicando o número de verificações
não "OKs" no veículo. Determine média, moda, mediana e variância dessa Computadores freqüência
variável. 0 156
d. Cada reprovação implica em custos adicionais para amontadora, tendo em 1 135
vista a necessidade de corrigir o defeito apontado. Admitindo um valor 2 47
básico de R$ 200 por cada item reprovado num veículo, calcule a média e a t
t) 25
variância da despesa adicional por automóvel produzido. 4 B

12. O órgão do Governo Federal encanegado de fiscalizar a distribuição de total 37L


energia elétrica tem acompanhado o núméro semanal de intemrpçáes de
a. Obtenha a média e a variância.
fornecimento numa certa cidade. Os dados, referentes às últimas 50 semanas,
b. O Centro Acadêmico argumenta qüe o ideal é ter uma média de 1
consideraram apenas as interrupções que ultrapassaram 3 horas e são
cornputador por tluno, .iuntando os 20 da sala de informática da faculdade
apresentados na tabela abaixo.
H8 Capítulo 4: Medidas Re lixercícios 119

Anos de estágio freqüência Interrupções freqüência


0 25
0 12
1 5B
I T4
2
t
747
2 I
e) 105 t
t) I
4 72 t
4 J
5 45 t
5 r)
6 10
6 2
total 462 total 50

tt. l)etermine amédia e a variância do número de interrupções semanais.


1L.Na linha de produção de uma grande montadora de veículos, existem,
It. O Govemo Federal aplica uma multa de 10 mil reais por semana, se há pelo
verificações do controle de qualidade. Sorteamos alguns dias do mês
rìlenos uma interrupção no fornecimento. Calcule a média e a variância do
anotamos o número de "oKs" recebidos pelos veículos produzidos nesses d
valor das multas aplicadas por semana.
isto é, em quantos dos controles mencionados o automóvel foi aprovado.
e. A Prefeitura dessa cidade fez um levantamento dos prejuízos, nos vários
Aprovações freqüência sctores, decorrentes da falta de energia e atribuiu um valor total de 900 mil
4 726 rcais para ser ressarcido pela companhia responsável pelo fornecimento de
5 359 clctricidade, referente ao período de 50 semanas. Qual seria o prejuízo
rrródio por semana?
6 1685
I 4764 d. Ncsse período, qual será a média e a variância do desembolso semanal da
companhia, incluindo multa e ressarcimento de prejuízo?
total 6934
() (-lentro Acadêmico de uma faculdade pretende iniciar uma campanha junto
a. Determine média, moda e mediana do número de aprovações por au
â rlircção da escola com vistas à melhoria das salas de informática.Parata\ fez
produzido.
ullìir enquete com todos os alunos e perguntou sobre o número de
b. Calcule a variância.
€ornllutadores que cada um tinha na sua residência.
c. Crie uma nova variável 'Reprovações, indicando o número de veri
não "OKs" no veículo. Determine média, moda, mediana e varrancla Computadores freqüência
variável. 0 156
d. Cada reprovação implica em custos adicionais para a montadora, tendo 1 135
vista a necessidade de corrigir o defeito apontado. Admitindo um 2 47
básico de R$ 200 por cada item reprovado num veículo, calcule a média 3 25
variância da despesa adicional por automóvel produzido. 4 B

12. O órgáo do Governo Federal encarregado de fiscalizar a distribuição total 37r


energia elétrica tem acompanhado o número semanal de interrupçõec
n, ( )lrtcnha a média e a variância,
fomecimento numa certa cidade. Os dados, referentes às últimas 50
consideraram apenas as interrupções que ultrapasszrram 3 horas I
b. ( ) Centro Acadêmico argumenta qüe o ideal é ter uma média de 1
c'onrputador por aluno, juntando os 20 da sala de informática da faculdade
apresentados na tabela abaixo.
t20 Capítulo 4: Medidas Resumo 4.,1 lixercícios 121

com os que os alunos têm em casa. Quantos computadores precisariam ser 10. Uma peça produzida por uma máquina pode receber do controle de qualidade
acrescentados à sala para atender o Centro Acadêmico? lrôs classificações: boa, defeituosa ou recuperável, com as seguintes
14. Duas moedas estão sobre a mesa, uma delas tem duas caras e a outra tem probabilidades, 0,5; 0,2 e O,3, respectivamente. Suponha que sejam vendidas a
probabilidade igual de cara e coroa. Sorteamos, ao acaso, uma dessas moedas e lì$ 100, R$ l0 ou R$50 conforme forem boas, defeituosas ou recuperáveis,
a lançamos duas vezes. Seja X a variâvel aleatória que conta o número de rcspectivamente. Se duas peças, escolhidas ao acaso, são vendidas, qual é o
caras nesses dois lançamentos. Qual é a média de X? vtlor médio da venda?

15. Num teste de digitação, o tempo em minutos (7) que os candidatos le 2(1. O tempo de duração em horas de uma lâmpada especial foi modelado por uma
para digitar um texto é modelado, de forma aproximada, pela seguinte funç vlriável aleatória X com a seguinte função de probabilidade:
de probabilidade:
xl5 6 7 8910
pi l0,L 0,1 0,2 0,4 0,1 0,1

O candidato recebe 4 pontos se terminar a digitação em 9 minutos, 5 (lacla lâmpada custa ao fabricante R$ 10, mas se sua duração for inferior a 6
terminar em 8 minutos e assim por diante. Determine amédia e a variância Iroras ele se compromete a indenizar o comprador com R$ 15. Qual deve ser o
número de pontos obtidos no teste. prcço de cada lâmpada para o fabricante obter um lucro médio por lâmpada de

16. A função de probabilidade da variável X é P(X:. k) : r/5 lì.$ 20?

k :7,2,"',5.Calcule E(X) e E(X') e, usando esses resultados, determi 11. tlrna concessionária tem disponível, para um certo automóvel, os modelos S,
E[(X + 3)2] evar(3x - 2). ('1, c GL com duas versões de combustível, álcool ou gasolina. Com motor a
rilcool os preços são 30, 35 e 40 mil reais para os modelos S, CL e GL,
17. Estatísticas obtidas junto às assistências técnicas indicam que a bomba rrspcctivamente. Esses preços são 107o superiores se o combu3tível for
água de uma certa lavadora só pode apresentar defeitos após 4 anos de g,rrsolina. A procura por carros a álcool é, de 307o e a gasolina 707o. Qualquer
Admita que nos próximos 6 meses, após esse tempo, um mal funcioname tlnc seja o combustível escolhido há igual preferência entre os modelos.
tem probabilidade 0,10 de ocorrer e, caso ocorra, terá 0,5 de probabilidade ('irlcule a função de probabilidade do preço desse automóvel e obtenha sua
ser recuperável. O reparo, que só pode ser feito uma vez, tem o preço de R$ I
Irrúrlia e variância.
enquanto uma bomba nova custa R$ 30. Determine a média e a variância
gasto com essa peça em 4,5 anos de uso. ,2, Nurn cassino, um jogador lança dois dados, cujas probabilidades são
lrroporcionais aos valores das faces. Se sair soma 7, ganha R$50, se sair soma
Itì. Os alunos do curso de estatística têm um time de futebol que não é I l, ganha R$ 100 e se sair soma 2, ganha R$ 200. Qualquer outro resultado ele
melhores. O cartola que administra o time paga um prêmio de vitória rriio garrha nada. Qual é o ganho médio do jogador?
partida de um sorvete porjogador, acrescentando mais um sorvete por saldo
gols maior que I (saldo de gols é a diferença entre gols feitos e sofri l-1. I lrrra indústria pretende comprar 3 lotes de peças que são produzidas por dois
Admita que a função de probabilidade dos diversos saldos é a seguinte: lìrlrrcccdores, A e B. Ela inicia, comprando de um dos fornecedores escolhido
n(l ilciìso e, se ficar satisfeita com o material entregue, compra o próximo lote
Saldo de gols
rhr nrcsmo fornecedor. Se não ficar satisfeita, troca o fornecedor. Admita que
lrirlir cacla lote o índice de satisfação é de 80Vo e de 707o para A e B,
rrspcctivamente. Calcule a média e a variância do número de lotes fornecidos
Qu"rl é a despesa média do cartola com cada jogador por partida? E corn os I
"c rilques" ?
por A.
122 Capítulo 4: Medidas Resumo 4,4 lixercícios t23

24. A experiência de diversas companhias de resgate de navios naufragados indica vcz. se o ganho acumulado da equipe (em milhares de reais) é, 50c , sendo c o
que a probabilidade de um resgate ser bem sucedido na primeira tentativa é de rrrimero de corridas completadas por esse motor antes de quebrar, calcule:
0,6; caindo para a metade a cada nova tentativa. Uma empresa de resgate tem 1. Qual a probabilidade da equipe completar 8 corridas? E de participar de B

como norma não realizar mais de três tentativas e cobra 50 mil reais para corridas?
iniciar os trabalhos e mais 10.000 x (k - 1) reais, com k sendo o número de [. Quanto receberá em média essa equipe durante sua "vida" em corridas?
tentativas.
a. Qual o custo médio dos serviços dessa empresa?
19. tlrn vendedor de cachorro quente trabalha na porta do Estádio do Morumbi
errr clias de jogo. Ele pode deixar preparado 5, 6 ou 7 dúzias de sanduíches que
b. Se um navio resgatado pode render ao proprietário 65 mil
(:lstam a ete R$ 5 adúzia,. Sabe-se que a procura do cachorro quente (X), no
interessante para ele contratar essa empresa? Justifique.
s!ìu ponto, é uma variável aleatória com a seguinte função de probabilidade:
25. Suponha que a demanda por certa peça, numa loja de autopeças, siga o
seguinte modelo:

: P(X: k,):+, tt:r,2,J,4. Sirbo-se que cada dúzia de sanduíche é vendida a R$ 12 e os sanduíches não
Vcrrrlidos vão para um canil que paga R$ 2 pela dízia. Qual é o número de
eltiz,ias de sanduíches que devem ser preparadas de modo a maximizar o lucro
a. Encontre o valor de a.
nrúrlio do vendedor?
b. Calcule a demanda esperada.
c. Qual é a variabilidade da demanda? floricultura vende rosas, cravos e jasmins com lucrO de, respectivamente,
t.lrrra
R$ ltl, R$ 12 e R$ 15 por dezena. Observa-se que a procura é igual para as três
26. Numa indústria farmacêutica, uma máquina produz 100 cápsulas por minuto,
flolcs. Se o estoque do dia não for vendido, a floricultura tem um prejuízo
A máquina está regulada de modo que no máximo 5Vo das cápsulas n (lrrcro negativo) de, respectivamente, R$ 5, R$7 ou R$ 10 com cada'dezena de
contenham remédio e, assim, sejam consideradas defeituosas.
fosils, cravos ou jasmins. Se a floricultura dispõe de duas dezenas de cada flor
a. Se as cápsulas são acondicionadas em vidros com 20 unidades, qual € tr'ôs clientes visitam a floricultura sucessivamente e compram uma dezena
probabilidade de um vidro apresentar no máximo 2 cápsulas com defeito?
€nrlir um. Fazendo alguma suposição adicional que seja conveniente, determine
b. Qual o número esperado de cápsulas com defeito, por vidro? s lrrcro esperado da loja.
c. Qual o número esperado de cápsulas com defeito por minuto de produção?
,t{t pita o problema anterior, se a procura por rosas e cravos forem iguais e
27. Um fotógrafo negocia com o jornal o seguinte trato: ele submete al çorrcsponderem ao dobro da procura porjasmins
fotos semanalmente e por cada foto publicada, ganha R$ 50. Se a foto não
publicada, não ganha nada. Nesta semana 4 fotos são submetidas com ãjl, l,rrlir 1tn exame com 25 questões do tipo certo-errado, um estudante sabe a

uma tendo probabilidade 0,60 de ser publicada, independentemente da demais, l'r,slroslrÌ correta de 17 questões e responde as demais "chutando".
gQVo das respostas.
a. Qual a probabilidade que o fotógrafo tenha pelo menos duas f, n. ('rrlcule a probabilidade dele acertar pelo menos
publicadas esta semana? It. l)ctcrrnine a média e a variância do número de acertos.
b. Calcule a distribuição de probabilidade de Y: montante que o fotó f. Srrpottlra que nesse mesmo exame, um outro estudante saiba a resposta
recebe esta semana; col'rolit para l5 questões e tenha probabilidade de acerto nas demais de 0,7.
(.)rrlrl clo.s estudantes você espera que tenha melhor desempenho?
c. Calcule o ganho médio do fotógrafo nesta semana.
tl, Nirs lncsmas condições do item (c), qual dos estudantes terá desempenho
28. Admita que, em cada corrida de Fórmula l, o motor tem 0,4 de probabi rrriris Irornogêneo?
de quebrar, independentemente das corridits anteriores. Suponha que a
encerrará sua participação no torneio quanclo o motor quebrar pcla pri
124 Capítulo 4: Medidas Resumo

33. (Use o computador) Usando a Tabela 1.1 do Capítulo 1: Capítulo 5


a. Obtenha as medidas de posição e de variabilidade para o Peso e a Altura.
b. Compare, através de medidas de posição e de variabilidade, o peso e a altura
dos alunos das turmas A e B. Comente as diferenças em relação ao item (a).
Variáveis Bidimensionais
c. Com respeito à variável TV, alunos e alunas tôm o mesmo comportamento?
Justifique sua resposta com o uso de medidas resumo.
34. (Use o computador) Considere as observações contidas no arquivo cancerlxt 5.L Introdução
(ver Exercício 24, Capítulo 1).
ì É muito comum estarmos interessados no comportamento conjunto de
a. Obtenha as medidas de posição e de variabilidade para as variáveis Idade e
Glicose (GL). viirias variáveis. Neste capítulo, vamos tratar de duas vâriáveis. Todavia, os
b. Repita o item (a) para cada tipo de diagnóstico. Compare as respostas conceitos discutidos aqui podem ser, em geral, expandidos para situações em que
obtidas. lrôs ou mais variáveis são estudadas. Nesta primeira seção apresentamos, para
variáveis em um conjunto de dados, a tabela de freqüência conjunta e, para o caso
35. (Use o computador) Com os dados do Exercício 25, Capítulo 1: tlc variáveis aleatórias, a função de probabilidade conjunta. A tabela de
a. Para cada bloco, determine medidas de posição e de variabilidade pãra a lì'cqüência conjunta também pode ser utilizada com variáveis qualitativas,
área total do apartamento e para a ârea de cada cômodo. Você diria que conforme veremos nos exemplos. Nas seções subseqüentes, estudamos a
existem diferenças nos apartamentos, dependendo do bloco? russociação entre variáveis e a obtenção de funções de variáveis aleatórias.
b. Construa uma tabela de freqüência para a ârea total dos apartamentos do As informações em um conjunto de dados, sejam elas referentes ao todo
bloco I, utilizando faixas de valores convenientemente definidas. Suponha ou parte de uma população, quase sempre contêm observações multidimensionais,
que um apartamento é escolhido ao acaso. Defina por X a variável aleatória isto é, observações relacionadas a várias v4riáveis. Por exemplo, num
área total do apartamento selecionado. Baseando-se na tabela de rprestionário aplicado a alunos de uma universidade, podemos obter a idade, o
freqüência construída, qual é o valor esperado de X? Como este valor se llmanho da família e o número de disciplinas já cursadas, entre outras
compara com aquele observado no item (a) para a área total? Porquê tluantidades que podem ser de interesse para cada aluno. Considerando duas
deveriam ser iguais e se não são, qual é arazáo? variáveis, digamos idade e tamanho da família, podemos listar todos os pares que
36. (Use o computador) As variáveis desse exercício fazem parte do arquivo ocorrem. Como pode haver repetição de valores, os resultados podem ser
aeusp.txt (ver Exercício 26, Capítulo 1). organizados em uma tabela, com os possíveis pares associados às suas respectivas
a. Obtenha as medidas de posição e de variabilidade para as variáveis Itrab e
Íì'cqüências.
Renda. Ilxemplo 5.1.. Uma amostra de 20 alunos do primeiro ano de uma faculdade foi
b. Repita o item (a) para cada uma das comunidades estudadas. Existem cscolhida. Perguntou-se aos alunos se trabalhevam, variável que foi representada
diferenças entre elas? ;ror X, e o número de vestibulares prestados, variável representada por Y' Os
c. Utilizando os valores da variável Serief, divida os moradores em três tlados obtidos estão na tabela abaixo.
categorias: os que não pararam de estudar, aqueles que pararam até a 8Â
série e os demais. Para cada uma das categorias, obtenha as medidas de
X nao slm nao nao nao slm slm nao slm stm

posição e a variância da variável Itrab. Y 1 1 2 1 I 2 D


t) 1 1 1

d. Baseado nas variáveis Sexo e Itrab, você diria que os homens começam a X nao nao slm nâo slm nao nao nao slm nao
trabalhar mais cedo?
Y 2 2 1
D
J 2 2 2 1 .) 2

t25
I2() Capítulo : Variáveis Bidimensionais 5.1 Introdução
5 127

A variável x é qualitativa com dois valores: sim ou não. por outro lado, a Ilxcmplo 5.2: Um estudo envolveu 345 pacientes HfV positivos, acompanhados,
variável Y é quantitativa discreta com valores inteiros I,2 ou 3. Podemos coletar dttrante um ano, pelo setor de doenças infecciosas de um grande hospital público.
as freqüências de ocorrência dos possíveis pares, construindo uma tabela de Os dados apresentados contêm as ocorrências relacionadas às variáveis número de
freqüência conjunta de X eY. itttt:rnações (I) e número de crises com infecções oportunistas (C).
(X,Y) freqüência 1\c 0 1 2 D
rJ 4
(sim,1 4 0 B4 27 8 2 0
(sim,2) 2 1 20 59 35 T4 2
(sim,3) 2 2 6 11 43 28 12
(não, 1 5
(náo,2) 6
l)irra obter as marginais dessas variáveis, acrescentamos mais uma linha e uma
(não,3) coluna na tabela anterior, contendo os respectivos totais de ocorrência. Assim,
1

total 20 1\c 0 1 2
q
O 4 total
0 B4 27 8 2 0 115
O par (não,1) tem freqüência de ocorrência igual a 5, pois, na amostra coletada,
foi esse o número de alunos que não trabalhavam e prestaram o vestibular apenas 1 20 59 35 t4 2 130
uma vez. Os outros valores são obtidos de forma semelhante. Esta mesma tabela 2 6 11 43 2B 72 100
pode ser apresentada de modo mais conveniente através da tabela de dupla total 110 91 B6 44 L4 345
entrada, mosfada a seguir.
Cbnro já mencionamos, a última coluna da tabela acima fornece as freqüências
x\v 1 2 .) total eorrcspondentes aos valores da variável -I, enquanto que a última linha fornece as
lì'ct1i.iências para C. Logo,
slm 4 2 2 8
nao 5 6 1 12 I freqüência C freqüência
total I B
t
a) 20 0 115 0 110
Note que a última linha e a última coluna contêm os totais de ocorrências de cada 1 130 1 91
variável, separadamente. Dessa forma, fica facilitad a a tarefa de obter a tabela de 2 100 2 B6
ÍÌ'eqtiência individual para cada "variável que, pela posição em que seus valores total 345 3 44
aparecem na tabela de dupla entrada, é chamada de tabela marginal de
freqíiência
4 I4
du vuridvel x (ou Y), ou simplesmente marginal de x (ou y). Temos então para total 345
X eY as seguintes tabelas de freqüência:
D
X freqüência Y freqüência
Ii:ccrnplo 5.3.' Numa amostra de 195 empregados de uma grande indústria,
slm 8 1 I rrlrscrvou-se o Salário recebido (em salários mínimos) e o Tempo de Serviço na
nao L2 2 8 l')rrprcsa (em anos). Tendo em vista que a variável Salário é quantitativa contínua,
total t t
20 t) r) lìrrirrn escolhidas algumas faixas para representâ-la. Por outro lado, apesar da
total 20 vrrt'iírvel Tempo ser discreta, ela apresentou valores tão diferentes que se achou
rrlris conveniente organizâ-latambém em faixas. Assim,
l2tì Capítulo : Variáveis Bidimensionais
5 5.1 Introdução

Salário \Tempo <5 5F10 10 t-- 15 >15 total Note que, pela notação utilizada na Definição 5.1, o termo (X: r)
<4 36 21 4 2 63 rcpresenta o conjunto de eventos que levam a variável X a assumir o valor r. No
4t--B 16 2B 2T 12 77 próximo exemplo, ilustramos esse ponto.
8-72 5 6 74 10 35
Ilxemplo 5.4: Uma empresa atende encomendas de supermercados dividindo os
>12 1 2 72 5 20
pcclidos em duas partes de modo a serem atendidos, de forma independente, pelas
total 5B
suas duas fábricas. Devido à grande demanda, pode haver atraso no cronograma
57 51 29 195
rlc entrega, sendo que afátbrica I atrasa com probabilidade 0,1 e a II com 0,2.
Segue então que as marginais são: Scjam A1 e All os eventos correspondentes a ocorrência de atraso nas fábricas I e
Salário freqüência
ll, respectivamente. Vamos admitir que as encomendas sempre serão entregues,
Tempo freqüência
<4 tììcsmo que com atraso. O espaço amostral, associado ao atendimento da
63 <5 58 encomenda, ficará sendo:
4F8 77 5 t-- 10 57
8F12 35 10F15 : AïAïr}.
{A1A1r, AïArr, ArAïr,
51 Q
>12 20 >15 29
total 195 total 195
Pirra aliviar a notação, os eventos serão representados sem os respectivos
tr xubscritos mantendo, entretanto, a ordem das fábricas. Dessa forma, o evento
Pelos exemplos anteriores, podemos perceber que variáveis de qualquer /"Á significa que a fátbrica I entregou sem atraso e afâbrica II com atraso.
natüreza podem ter seu comportamento conjunto representado através Suponha que para um certo pedido, a indústria recebe 200 unidades
do tabãlas tnonetárias (u.m.) pela encomenda total entregue, mas paga uma multa de 20 u.m.
de freqüência. Dessa forma, variáveis qualitativas ãu quantitativas, discretas
ou pirra cada fábrica que atrasar sua parte. Considere que o supermercado, que fez a
contínuas, têm seu comportamento estudado com tabelãs de dupla
entrada, para cncomenda, criou um índice relacionado à pontualidade da entrega. Este ihdice,
dados oriundos de toda a população ou de uma amostra. veremos
a seguir como trllibui 10 pontos pata cada parte da encomenda entregue dentro do cronograma
tratar essa questão no caso de variáveis aleatórias discretas, definidas
a partir das prcvisto. Vamos denotar por X o valor recebido pelo pedido eY o índice obtido.
suas funções de probabilidade. Iniciamos estendendo a definição
de função de Para cada evento do espaço amostral, podemos obter os valores das
probabilidade para o caso de duas variáveis.
virriírveis. Assim, se ocorre o evento AA', avariâvel X tem valor 180, pois de
Definíção 5.1: Função de probabílidade conjunta ?(X) subtraimos a multa de 20, decorrente de um atraso. Por outro lado, a variável
Sejam X e Y duas variáveis aleatórias discretas originárias do mesmo )' assinala 10 pontos provenientes de uma entrega dentro do cronograma. A
fenômeno aleatório, com valores atribuídos apartir do mesmoãspaço lirbcla a seguir, apresenta os eventos, as respectivas probabilidades e os
amostral. A crrrrcspondentes valores de X eY.
íunção de probabilidade conjunta é definida, para todos os possiveis pares
de
valores de (X, Y), da seguinte forma: Eventos Probabilidade X Y
p(r,a) : P[(X: u) n (Y : Ò]: p(X : r,y : a), AA 0,1 X 012 160 0
AA' 0,1-x 0,& 180 10
isto é, p(r,A) representa a probabilidade de (X,y) ser igual a (r,A).
É comum A'A 0,9 X 012 180 10
nos referirmos, sempre que não houver ambiguidades e o contexto permitir,
à A. A. 0,9 x 0,8 200 20
ftnção de probabilidade conjunta como distribuição conjunta ou simplesmente
t:otti unta das variáveis. Ap(rs coletarmos os pares idênticos, obtemos a conjunta das variáveis:
tr
130 Capítulo 5 : Variáveis Bidimensionais 5.1 Introdução r3I

(X,Y) p(r,y) Note que pares idênticos foram agrupados e somamos as respectivas
(160, 0) 0,02 probabilidades. Uma forma equivalente de apresentar a distribuição conjunta,
(180, 10) 0,26 porém com maior apelo visual, é através da tabela de dupla entrada.
(200,20) 0,72
x\), 0 1 2
Dessa forma, a distribuição conjunta de (X, Y) contém todas as possíveis 0 r/rc 2lLj 2110
combinações dos valores (r, g), com suas correspondentes probabilidades. tr 1 L/n r/rc 0

Da função de probabilidade conjunta p(r,E) é possível obter as funções


2 L/n rlL0 rl10
de probabilidade marginal de X ou de Y, através da soma de uma dàb As distribuições marginais também podem aparecer na tabela, bastando efetuar a
coordenadas. Assim, soma nas linhas para obter a marginal de X e, nas colunas, paÍa a marginal de Y.
Por exemplo, para calcular a probabilidade de X ser igual a zero, temos
P(X : : t p(r,a) e P(Y : a) :\n@,Ò
") u:D
,
P(X :0) : P(X :0,Y: 0) * P(X :0,Y :1) + P(X :0,Y :2)
r225
:10-10-10:10
com a somatória percorrendo todos os valores possíveis de X ou Y, conforme o
caso.
Iìepetindo os cálculos para outros valores de X e Y, obtemos a tabela a seguir:
Exemplo 5.5.' Uma região foi subdividida em 10 sub-regiões. Em cada uma delas,
foram observadas duas variáveis: nítmero de poços artesianos (X) e número de x\v 0 1 2 P(X : r)
riachos ou rios presentes na sub-região (y). Os resultados são apresentados na 0 rlt0 2170 2lr0 5lr0
tabela a seguir: 1 7/70 rl70 0 2/r0
2 r/L0 r/n r/t0 3l70
Sub-região 1 2 J 4 5 6 7 8 9 10
P(Y : u) 3/L0 4lro 3lr0 1
X 0 0 0 0 I 2 I 2 2 0
Y I 2 1 0 I 0 0 1 2 2 Portanto, as funções de probabilidade marginais são as seguintes:
xl o 1 2 e Yl o 1 2
n I slto 2lro sllo
Considerando que escolhemos uma das sub-regiões ao acaso, isto é, cada sub-
região têm mesma probabilidade 1/10 de ser escolhida, podemos construir a p I slro 4lro slro
distribuição conjunta de (X,Y): tr
(X,Y) probab.
Em muitas situações há interesse em estudar o comportamento de uma
(0,0) L/70 í'Lrnção das variáveis tal como soma, produto ou alguma outra relação entre elas.
(0,1) 2/70 Vamos nos restringir ao caso de variáveis aleatórias, mas o tratamento é similar
(0,2) 2lr0 para conjunto de dados referentes à população ou à amostra. Se conhecemos a
(1,0) r/10 clistribuição conjunta de X e Y, o comportamento de outras variáveis, tais como
(1,1) r/rc X +Y, X2 + 5Y ou X Y, pode ser determinado como ilustramos a seguir.
(2,0) rlL0 Ilxemplo 5.6: Emuma cidade do Estado de São Paulo, admite-se que o número de
(2,1 rlrc unos para completar o ensino fundamental (variável F) e o número de anos para
(2,2) r/t0 cornpletar o ensino médio (variável M) tê,m função de probabilidade conjunta:
total 1
t32 Capítulo 5 : Variáveis Bidimensionais 5.1 Introdução

(F, M) p(.f ,m)


lìxercícios da Seção 5.1:
(8,3 3/L0
(8,4 r/rc l. O setor de emergência de um Pronto Socorro Infantil anotou o numero de
(8,5 r/70 crianças atendidas (C), de médicos (M) de auxiliares (Á) de plantão em 15
"
clias de atividades. Os dados são apresentados na tabela abaixo.
(9,3) 2/r0
(9,4 r/20 Dia 1 2 t
J 4 5 6 I 8 I 10 11 12 13 L4 15
(9,5 r/10 C 5 7 5 6 5 5 7 5- 6 6 I 5 5 6 6
(10,4 r/70 M 1 1 2 2 2 1 2 1 1 2 2 2 2 2 2
(10, 5) r/20 A 4 4 5 6
È7
I I 6 5 5 6
È7
I I 6 6 7

Suponha que exista interesse em estudar as variáveis F+M e FxM. a. Determine as tabelas de freqüência marginais de C, M e A.
Acrescentando, à tabela anterior, colunas correspondendo aos valores dessa novas b. Obtenha a tabela de freqüência conjunta entre (C, M), (C, A) e (M, A).
variáveis temos c. Represente a tabela de freqüência conjunta de M e A, atravês de uma tabela
(F,M) pU,m) F+M FxM de dupla entrada.
d. Calcule amédiadas variáveis M e A.
(8,3 3/10 11 24
(8,4) L/70 L2 32 2.Paru famílias de um certo bairro de São Paulo, apresentamos abaixo a tabela de
(8,5) 7/L0 13 40 f'reqüência conjunta das variáveis: número de automóveis (A) e de Ws (T).
(9,3) 2/L0 L2, 27 Á\" 2 total
0 1
9,4) L/20 13 36 0 110 235 t20 465
9,5) 7/r0 74 45 1 51 r22 178 351
(10,4) L/70 L4 40 2 15 84 L62 267
(10,5 r/20 15 50 total 176 44r 460 L077
Para obter a função de probabilidade de tr.
valores comuns. Por exemplo,
* M, somamos as probabilidades nos a. Calcule as marginais de A e T.
b. Determine as médias dessas variáveis.
?t'
P(F + M : : P(F : 8,M : * P(F : 9,M .. 1 1 ó
3. Uma moeda equilibrada é lançada 2 vezes de forma independente. Ao final dos
13) 5)
n'
A\ _
-
'1020 lançamentos, duas variáveis aleatórias são anotadas: o número total de caras (C)
Procedendo de modo similar com os outros valores, obtemos as funções de c o número de coroas no 2o. lançamento (K).
probabilidade de.F * M e de F x M: a. Construa uma tabela com os possíveis eventos, as respectivas probabilidades
C e K.
r+twl tt L2 13 1.4 15 e os valores de
b. Apresente a tabela de dupla entrada com a função de probabilidade conjunta
prob. | 3/10 3lL0 3120 2lI0 Il20 ' das variáveis aleatórias C e K.
c. Determine o valor esperado de C.
FxMl Z+ 27 32 36 40 45 50
prob. l B/10 2lL0 ' 4. Num estudo sobre o tratamento de crises asmáticas, estabeleceu-se a seguinte
Íunção conjunta de probabilidades entre o número de crises de asma (Á) e o
tr ttíi,mero de internilções hospitalares (H).
134 Capítulo 5 : Variáv eis Bidimensionais 5,2 Associação entre Variaveis 135

Á\H 0 1 2 foi construída


inglôs. Para esses alunos, a próxima tabela com as notas de inglês
0 r/8 I/16 0 (l), português (P) e matemática (M):
1 3/16 L/8 r/16 ì7
I
Aluno 1 2 3 4 5 6 I 8 10 11 T2 13 L4 15
r/L6 3lL6 3/L6
2
I ( 7 7
F7
I 8 8 B 8 8 8 8 9 I I 10
a. Determine as funções de probabilidade marginal das var,{eis Ar/H. P 8 6 B 9 8 6 I I 7 6 7 B^ I 8 8
b. Calcule o valor esperado dessas variáveis. M 5 6 7 5 t) 5 6 4 7 6 5 5 6 5 5
c. Obtenha a função de probabilidade da variável A + H. '-/
A tabela de freqüência conjunta de (.I, P) é dada por:
5. A função conjunta de probabilidade entre as variáveis X eY é apresentada
abaixo (com algumas entradas faltando):
1\ P 6 I 8 I
7 1 0 2 1

x\v -1 0 2 4 P(X : r)
8
I
2
0
J
0
1
2
1

-2 ,14't 3/64 Ll32 %6ü 5lL6 10 0 0 1 0


-1 L/16 7/16 0 \lt (" Ji tto
1 7/at 77/64 1/6tt L/64 5/76 tlrn gráfico contendo as informações dessa tabela é apresentado, a seguir, com as

2 /64 0 /'r . 3t64 7t32 lì'oqüências ao lado de cada ponto. Note que há uma tendência das notas altas em
5 ì/n(^
P(Y : y1 ,^ 5/16 311ìÇ r/4 1
irrglês, serem acompanhadas por notas altas em português.
P
a. Complete a tabela.
b. Obtenha as marginais de X e Y.
10

c. Calcule afunção de probabilidade da variável X x Y.

5.2 Associação entre Variáveis


Uma pergunta freqüente de pesquisadores e usuários de Estatística é ,l

sobre a associação entre uma ou mais variáveis. Buôcar explicar como se


comporta uma variável em função do desempenho de outras têm sido o objetivo
de vários estudos que utilizam a Estatística como ferramenta auxiliar. Nesta
seção, começamos a responder a essa questão. Uma resposta mais completa será
dada na parte referente à Inferência Estatística.
Com dados de duas variáveis, em uma população ou amostra, podemos
construir um gráfico no plano cartesiano com a freqüência de ocorrência dos
diversos pares de valores. Esse diagrama pode auxiliar a identificação de Considere agora as variáveis I e M. A tabela de freqüência conjunta é
tendências de associação entre as variáveis, conforme veremos no próximo scguinte:
exemplo.
Exemplo 5.7: Dentre os alunos do 1o. ano do ensino médio de uma certa escola,
selecionou-se os quinze alunos com melhor desempenho (nota acima de 7) em
IJô
Capítulo 5 : Variáveis Bidimensionais 5,2 Associaçdo entre Variaveis

I\M 4 5 6 7 Deftnição 5.2: Probabilidade condicional para variáveis aleatórias discretas


I 0 2 1 1
8 t
J 2 I Dadas duas variáveis aleatórias discretas definidas no mesmo espaço
urnostral, a probabilidade condicional de X : :L,dado que Y : a ocorreu, é dada
1

I 0 2 1 0
pcla expressão:
10 0 1 0 0

P(X:rlY:g): P(X:r,Y:y) P(Y: g) >


P(Y : a)
, se 0.

Caso P(Y : A) :0, a probabilidade condicional pode ser definida


rtrbitrariamente e adotaremos P(X : r lY : A) : P(X : r). D
Definição 5.3: Independência de varidveis aleatórías
Duas variáveis aleatórias discretas são independentes, se a ocorrência de
rlualquer valor de uma delas não altera a probabilidade de ocorrência de valores
tla outra. Em termos matemáticos,

P(X:rlY:y): P(X
prra todos os possíveis valores (r,g) das variáveis (X,Y). Como definição
irlternativa e equivalente podemos usar que:
P(X : n,Y : A) : P(X : n) P(Y : A), para quaisquer (*,A). O
,
8 I 10 A verificação da equivalência entre as duas expressões, acima, pode ser
Observe que o bom desempenho em inglês parece, lbita de modo análogo ao realizado no Capítulo 2. Deixamos ao leitor essa tarefa.
neste caso, não implicar num
bom desempenho em matemática. Note, ainda, que a definição de independência exige que a igualdade seja
D vcrdadeira para todas as escolhas dos pares (r,A). Assim, basta encontrarmos um
Apesar de ser um instrumento útil para identificar
tendências, os l)rÌr em que a igualdade não se verifique para concluirmos que as variáveis
rliagramas rornam-se de difícit interpreração, irleatórias não são independentes. A Figura 5.1 resume esses comentários.
conjunto de dados tem muitas observãções "rïigun.
;;;;;.;", exempro, se o
pou.os valores diferentes,
freqüências serão altas atrapahándo "oà a visualização de uma eventual
'lgumas
tcndência' Dessa forma, é importanie ampliar o estudo da
associação entre
variáveis, para buscar.uma caracterização que não
dependa só da interpretação
visual' com este objetivo, definimos piobabilidad"
e independência
para variáveis aleatórias, estendendo os conceitos "ondi"ional
apresentados no capítul o 2 para
cventos aleatórios. Aqui, o condicionamento, na
ocorrência de um valor da
variável aleatíria, é equivalente ao condicionamento na ocorrência
de um evento.
Figura 5. 1 : Indep endêncin de variáv eis aleatórias .

Ilxemplo 5.8r O Centro Acadômico de uma faculdade de administração fez um


lovantamento da remuneraçiro dos estírgios dos alunos, em salários mínimos, com
/.ftï Capítulo 5 : Variáveis Bidimensionais
5.2 Associação entre Variáveìs 139

relação ao ano que estão cursando. As probabilidades de cada caso


apresentadas na próxima tabela, incluindo as distribuições marginais.
são u\r'r 0 1 2 ou mals total
Sim 2r,lvo 53,8%io 87,l%o 53,SVo
Salário \ Ano 2 ,) 4 5 P(Sal. : z) Não 7B,9Vo 46,2Vq L3,}Vo 46,7Vo
2 2/25 2/25 r/25 0 5/25 total I00Vo l0OVo L00Vo L00Vo
.) 2/25 5/25 2/25 2/25 Lr/25
(lgnsiderando os valores de [/ no conjunto total de dados, temos 53,3Vo de
4 7/25 2/25 2/25 4/25 I /25
P(Ano: y) rcspostas positivas e 46,7V0 de negativas. Caso não haja associação dessa variável
5 /25 s/25 5/25 6125
eoln o número de parceiros, devemos esperar porcentagens similares em cada
1

Pclas informações apresentadas, as variáveis salário e Ano de curso virlor da variável ,fí, indicando que esses valores não interferem com as respostas
não sãil
inclcpendentes pois, por exemplo, tlo [/. Assim, por exemplo, para ly' : 0 seria esperado ter, aproximadamente,
: : 4]:2lzs I p(Sat.: lil,3%o de respostas positivas, que é a mesma ocorrência verificada no total da
P[(Sal. 3) n (Ano B)p(Ano - 4) : rr/r2s. linha. Como se pode observar da tabela acima, as porcentagens são próximas
Unra maneira bem prá'tica de verificar independência consiste em usar a lpenas no caso l/: 1, sendo bem diferentes nos outros casos. Dessa forma, os
tabela de
clupla entrada, checando se o produto da última linha e última coluna (as rludos sugerem que as variáveis não são independentes' n
rnargirrais) reproduz o corpo da tabela. se a tabela contiver um zero no
seu corpo, Continuando o estudo da associação entre variáveis num conjunto de
brsta verificar se uma das marginais correspondentes é zero. caso nenhuma
tllctos, construímos, no próximo exemplo, uma tabela de dupla entrada contendo
marginal seja zero, concluímos imediatamente a não independência, uma
vez que rrs freqüências que seriam esperadas, caso houvesse independência entre as
o produto de dois números não nulos nunca é zero.
tr vlriáveis. Precisamos decidir se as duas tabelas, a de freqüências observadas e a
A verificação da independência, no caso de duas variáveis em um tlc esperadas, estão suficientemente próximas uma da outra.
conjunto de dados, será discutida com maior profundidade no capítulo g que Ilxemplo 5.-f 0.. Apresentamos os dados relativos a uma amostra de 80 famílias, de
trata
cle Testes de Hipóteses. Entretanto, podemos utilizar as idéias de
indepeìdência lun certo bairro, com as informações sobre o número de pessoas que trabalham
cle variáveis aleatórias para estudar a relação de duas variáveis observadas
numa nufamília (") e o número de adolescentes entre 12 e 1B anos (A).
população ou amostra. Uma das formas utilizadas é construir a tabela
cntrada com porcentagens em relação ao total de colunas ou linhas.
de dupla
r\Á 0 1 2 t
rJ 4 total
0 5 4 2 3 1 15
Ilxcntplo 5.9.' Em uma clínica médica foram coletados dados em 150 pacientes,
relbrcntes ao último ano. observou-se a ocorrência de infecções urindriàs (J)
I 2 B 6 4 I 2t
eo 2 4 8 B 5 2 27
tttítncru tle parceiros sexuais (,n/). Deseja-se verificar se essas variáveis estão
.1 ,
4 2 2 5 4 I7
russociadas. os dados são apresentados a seguir, com as respectivas
marginais. B, 80
total 15 22 1B T7
u\r/ 0 7 2 ou mais total
A rnarginal deT e as freqüências de seus valores, restritas ao grupo Á- 0, serão
Sim t2 2L 47 BO
irpresentadas em seguida. Note que as freqüências de ocorrência, restritas a cada
Não 45 1B 7 70 grr.rpo de valor de A, nada mais são do que as colunas da tabela de dupla entrada
total 57 39 54 150 rlo início do exemplo.
Cottstruindo uma nova tabela com as porcentagens em relação ao total de coluna,
otrtcmos a proporção relativa da variável (J em relação i cada subconjunto
de
valores de N.
t40 Capítulo 5 : Variáv eis Bidimensionais 5,2 Associação entre Variáveis 141

T freq. T /A:0 freq. observ. eube agora quantificar se essa tabela está ou não "muito" distante da tabela
0 15 0 5 ohscrvada. Uma medida usualmente calculada é a seguinte:
1

2
3
2L
27
L7
2
J
1 2
4
4
Q':D4, i,i "11

total 80 total 15
Eonl o,;.i e eiirepfesentando, respectivamente, as freqüências observadas e
Se houvesse independência entre T e A, o comportamento da variâvel ? csl)cradas na linha 'i e coluna j. A medida Q2 usa a diferença entre oi.j e ei.j
em cada grupo deveria ser o mesmo e, portanto, esperaríamos que as freqüênci elcvada ao quadrado para evitar o cancelamento de termos positivos por
de cada valor de 7 mantivessem a mesma proporcionalidade encontrada na flL:gativos. A divisão pot ei.i objetiva padronizar a medida, relativizando o
ilmostra como um todo. Em outras palavras, as duas tabelas acima precisariam ser tnrrranho da diferença encontrada. Como estamos tratando de observações de
parecidas quanto à freqüência relativa. Acrescentamos, na tabela restrita ao grupo vrrriÍrveis, podem ocorrer flutuações devido à natureza aleatóúa da amostragem e
A.:0, uma nova coluna com a freqüência esperada caso a independência se €rrrrcluiremos pela independência entre essas variáveis, se houver razoáxel
verifique. Essa coluna foi calculada multiplicando a freqüência relativa do valor proximidade nas tabelas. Não é difícil perceber que isto significa valores
cle ? (em toda a amostra) pela freqüência do grupo. Por exemplo, a freqüência pe(luenos da medida Q2 e,no Capítulo 8, desenvolveremos um critério estatístico,
esperada do valor T:7, no grupo dos Á:0, seria 21180 x 15:3,94. Note piìriÌ tomar a decisão de aceitar a independôncia de duas variáveis. Para este
que esta freqüência não precisa ser um número inteiro. excrnplo, vamos nos contentar em apresentar o cálculo da medida Q2 que, pelo
tlr:rr valor, consideraremos uma indicação de não independência:
T\Á:0 freq. observ. freq. esperada
0 5 2,87
Q,:
(5-2,81)2
+...+ (4-r,70)2 :12.63.
1 2 3,94 2,81 L,70
2 4 5,06
D
3 4 3,19
total 15 15 No caso de dependência linear e de variáveis quantitativas, existe uma
prrtla medida que é freqüentemente utilizada e será definida, a seguir, para um
De modo análogo ao feito para o grupo Á: 0, calculamos as freqüências corr.junto de dados brutos.
esperadas para todas as colunas da tabela de dupla entrada (valores aproximados):
I)t1[iníção 5.4: Correlação entre variáveis num conjunto de dados brutos
7 \.4 0 1 2 ò 4 total
Considere um conjunto de dados com n pares de valores para as variáveis
0 2,Bl 4,13 3,37 3,19 1,50
por (ru,g),'í:I,2,...,fr.O coeficiente de correlação
15
I 3,94 5,77 4,73 4,46 2,r0 27
.\ c Y, representados
rrrcrlc a dependência linear entre as variáveis e é calculado da seguinte forma:
2 5,06 7,42 6,08 5,74 2,70 27
t 'n
3,19 4,67 3,83 3,61 I,70 17
- r,,r,,)(ar. -
t)
D@o a,*,)
total 15 22 1B 77 B 80 i,:l
Px,Y =
142 Capítulo 5: Variáveis 5.2 Associação entre Variáveis 143

ou, em uma forma mais conveniente para cálculo, Scgue que r o6, : l-35, 63 e y oo,
: 38, 75. Utilizando a expressão de cálculo da
n,
currelação vem que:
LrtAt.-TLIohsAobs 43245-8x135,63x38,75
i:l PX,Y:
PX,Y:

lÌrrtanto, a correlação entre índice pluviométrico e produção é positiva e bastante


titzoável. Desta forma, locais com maior intensidade de chuva tenderiam a ter
As expressões anteriores podem ser adaptadas para o caso em que tttlior produtividade. tr
dados estão agrupados em uma tabela de freqüência. As expressões não Vamos voltar nossa atenção agora paravariâveis aleatórias discretas. Para
apresentadas aqui, mas acreditamos que podem ser obtidas sem dificuldade. elcí'inir medidas de dependência entre elas, precisamos estudar, inicialmente, as
É possível verificar que o coeficiente de correlação é sempre um nú propriedades do valor esperado.
entre -1 e 1. Um ponto a ser ressaltado, que muitas vezes causa confusão, é Sejam X e Y duas variáveis aleatórias discretas com distribuição
correlação igual a zero não indica independência. Se a correlação é zero, o conjunta p(r,y). As marginais de X e )z serão representadas, repectivamente, por
podemos dizer é que não existe dependência linear entre as variáveis. p(t:) e p(y).
interpretação para os termos presentes no seu cálculo será dada mais adian Vamos determinar o valor esperado da variável X +Y:
quando definiremos coeficiente de correlação para variáveis aleatórias.

Exemplo 5.11: A quantidade de chuva é um fator importante na produtivi


agrícola. Para medir esse efeito foram anotados, para 8 diferentes regi
E(x-+Y): tIt"
r.u
+üp@,a)
produtoras de soja, o índice pluviométrico em milímetros (X) e a produção
:I D,p@,Ò +L,\un@,u)
TU:E'!J
,tí'ítt(. Tfutuúll>
çr"ned'u,tt7-D
: > -,1, rtÌ''ú'UtA : I" (t p@,a))+t, (f p(*,Ò)
' auxílio o" rr-uofrín[ilf"
, . | ,,\J-
ìlca o uma
o, út rUUT
"o-'o 88 :trp@)+tap@)
D"o: 10Bb ,D"?: 151533; X;U
i--L
88
i:l : E(x) + E(Y).
Dru:310,
i:t
tú:12640;
i:L Notc que obtemos essa importante propriedade do valor esperado, sem necessitar
8
tlc rtcnhuma hipótese adicional sobre as variáveis. Dessa forma, esse resultado
lcrn ampla aplicação e também é válido para mais de duas variáveis.
D*oro:
i:l
43245.
Considere agora o produto XY. O valor esperado do produto será o
pt'oduto dos valores esperados, sempre que as variáveis forem independentes.
Para X eY variâveis aleatórias discretas independentes, temos:
t44 Capítulo 5 : Variáveis B idimensionais 5.2 Associação entre Variáveis 145

E(xY): tL"yp@,a)
r '!l xl o 1 2
p | 5/10 2/70 slto
: I D,*aP@)P@) -$
r lt
'.ü* vl o t z
: (T 'p@)) (Duna) pi | 3lt0 4lr0 3lt0

: E(x) E(Y) .
ít
\ ,nf Segue então que E(X) : S/10 e E(Y) : L'
/t Podemos agora verificar que
Exemplo 5.12.' No Exemplo 5.5, o par de variáveis f*,h represenr
: ISlto: E(X) + E(Y):
respectivamente, a quantidade de poços artesianos e de riachos em sub-regiões E(X +Y) B/10 + 1, '

uma certa ârea. A próxima tabela contém os valores das variáveis X f Y e X isto é, o valor esperado da soma é igual à soma dos valores esperados.
com suas probabilidades. Entretanto, para o produto temos
(X,Y) X+Y XY p(r,a) R
(0,0) 0 0 L
/10
E(xY):7lLo+E(x)E(Y): õ * t,
(0,1) I 0 2/r0
(0,2) 2 0 2/r0 ou seja, o valor esperado do produto de duas variáveis não é igual ao produto de
seus valores esperados. Note que, conforme já havíamos mencionado, as variáveis
(1,0 1 0 L/n independentes. tr
aleatórias X eY não são
(1,1) 2 I 1170
(2,0) 2 0 L/10 Na Figura 5.2, apresentamos a expressão do valor esperado da sorra de
( t variáveis aleatórias.
(2, 1 r) 2 L/rc
(2,2) 4 4 r/70

Utilizando a tabela acima, a função de probabilidade de X +Y e a de XY


obtidas sem dificuldade:

x+rl 0 L 2 3 4

Fígura 5.2: Valor esperado da soma de vuriáveis aleatórias.

Para os valores esperados temos: É importante salientar a relação unidirecional de implicação entre a
E(X+Y):18/ro e E(XY) :7lto. independência e a fatoração da esperança do produto. O resultado váfido afirma
que a independência de X e Y implica no valor esperado do produto XY set
As distribuições marginais de X e Y jâ foram calculadas no Exemplo 5.5 e são igual ao produto do valor esperado de X pelo valor esperado de Y. Todavia, se o
reapresentadas em seguida: valor esperado do produto de duas variáveis é o produto dos valores esperados,
t4(, Capítulo 5: Variáveis Bidimensionais t47
5.2 Associação entre Variáveis

niio necessariamente é verdade que X e Y


são independentes. A Figura
c, desde que temos um par em que a probabilidade da conjunta não é igual ao
resume esse comentário, que é ilustrado no próximo exemplo.
;rroduto das probabilidades marginais, concluimos que as variáveis aleatórias W e
Z não são independentes. tr
Se as variáveis são dependentes, a relação entre elas pode ser de vários
tiflcs e, no caso de ser linear, vamos definir uma medida dessa dependência.
Definição 5,5: Covaríância de duas varidveis aleatórias
Uma medida de dependência linear entre X eY ê, dada pela covariância:

Cov(X,Y) : ox,Y : E[(X - LLx) (Y - P")]'


Itigura 5.3: Valor esperado do produto e independêncía de varióveis aleatórias.
Iirn palavras, a covariância é o valor esperado do produto dos desvios de cada
variável em relação à sua média. tr
IÌxemplo 5.13.' Considere as variáveis WeZ com a seguinte distribuição No próximo exemplo ilustramos o cálculo da covariância e, para auxiliar
conjunta: ir interpretação de sua expressão, faremos uma representação gráfica dos valores
W\Z 2 t
L) 4 P(W : w) clas variáveis.

-1 2/72 0 3/12 5l12 Ilxemplo 5.14: As variáveis U eV têm a seguinte distribuição conjunta:
0 0 r/L2 L/T2 2/12
1 I/L2 2/12 2/12 5/r2 (u,v) (2,2) (3,4) (3, B) (4,6) (5,4) (5,8) (6, 10)
P(Z : z) 3/L2 3/12 6/12 1 P(u,u) 0,1 012 0,1 012 0,1 012 0,1

A variável W Z tem função de probabilidade dada por:


l{epresentamos a seguir essa distribuição através de uma tabela de dupla entrada,
wzl-4 -2 0 i ncluindo as marginais.

prob. | 3lL2 2/L2 2/L2 7/72 2


Temos então,
u\v 2 4 6 B 10 P(U : u)
0,1 0 0 0 0 0,1
E(W Z) : (-4) x 3lL2+ .'. + 4 x 2lLz
2
D
t) 0 012 0 0,1 0 0,3
-0. 4 0 0 012 0 0 012

Por outro lado, utilizando as distribuições marginais de W e Z, podemoscalcular 5 0 0,1 0 012 0 0,3
seus valores esperados. Assim, 6 0 0 0 0 0,1 0,1

E(W) : (-1) x 5lI2 + 0 x 2lI2 * L x 5fL2 : 0 ;


P(V : u) 0,1 0,3 012 0,3 0,1 I
E(Z) : 2 x 3lI2 + 3 x 3112 + 4 x 6lL2 : 391L2
Utilizando as probabilidades marginais, obtemos imediatamente que E(t/) : 4 e
Vale portanto a relação E(WZ):E(W)E(Z).Nesse caso, seriam WeZ Ii(V) :6. Nosso interesse é verificar a existência de uma relação linear entre U e
independentes? A resposta é não, uma vez que, por exemplo, |/. No diagrama a seguir, apresentamos a função de probabilidade conjunta das
P(W : -I,Z - 2) : 2lI2 + P(W : -L)P(Z - 2) : L5/L44,
cluas variáveis.
148 Capítulo 5: Variáveis 5,2 A,r,vtciação entre Variáveis
r49

os pontos localizados no 1" e 3" quadrantes têm suas coordenadas


com o
ffiênnro sinal, Iogo o produto delas é positivo. No 2" e 4o, o produto
e n"guii;o.
Sonr'ndo esses produtos, ponderados ielas respectivas probabilidades, temos:

tf @ - n(u))x (u - E(v)) x p(u,u),


€ essc número inai"u'ï t"naon"iu de alinhamento no sentido dos quadrantes
Ímp'res ou pares, de acordo com o sinal positivo ou negativo, respectivamente.
A
€r;trcssão acima nada mais é do que a fórmula da covariância entre
x e y,
Êprcsentada aqui em uma forma mais detarhada do que na Definição
5.5.
€rçu.rirnoo os cálculos,
Etbtuando Cov(U rV) :2,
calculos, obtemos Cov(U,V) : 2, inOi"ãnao
indicando u a tendência das
variÍrveis moverem-se na mesma direção, isto é, quando uma variável
cresce na
€UÍru também cresce.
tr
A covariância pode ser calculada mais facilmente pela seguinte
expressão
ãlternativa:

Fazemos agora uma translação de eixos para colocar a origem : o*,, : E(Xlí) - E(X) E(y).
Cov(X,Y)
respectivas médias, isto é, no ponto (4,6).Dessa forma, os pontos anteri
Õbserve que' no caso em que xe y serem independentes, temos
transformam-se em (u - 4,a - 6), com cada coordenada representando o desvi cov(x,y) : 0,
utì1il vez que o valor esperado do produto se torna igual ao produto do, uâIo.",
em relação à sua média.
A partir da covariância, definimos uma nova medid" d" d;;"dêï;;;
ffJl*'.for'
lllìcilr.
Derfinição 5.6: Correlação entre vatríáveis aleatórías
O coeficiente de correlação entre as variáveis aleatórias discretas
X ey
é r:irlculado pela seguinte expressão:

Cov(X,Y)
4'.,- :
OX OY

E
Pela definição acima, o coeficiente de correla
ção ê o quociente entre a
crviuiância e o produto dos desvios-padrão de x e )2. A divisão
pelo produto dos
rlcsvios-padrão tem a função de padronizar a medida
e torná-la possível de ser
,tilizada para comparações com outras variáveis. Não é difícil
u"rifi.u, gue px,v
é rrrrr número adimensional e limitado por 1, isto é, <
lpx,vl 1. A interpretação de
suir cxpressão segue os mesmos passos da covariância,
sendo que valores de
1t,y,y próximos de Í 1 indicam correlação forte.
t50 Capítulo 5: Variáveis
5,2 Associação entre Variaveis 151

Vamos, agora, deduzir a expressão da variância da soma de duas variá


aleatórias. Desenvolvendo a partir da definição de variância temos:

Var(X +Y): E16 +Y) - (trt + t"y)l'


: El(x - px) + (Y - pt)l'
E16 - px)z + (v - pv)2 + 2(x - px)(Y - p")l Figura 5.4: Correlação para conjuntos de dados (brutos).
E(x - px)2 + E(Y - ttv)2 +2El(X - px)(Y - p")].
Então,

Var(X + y) : Var(X) + Var(Y) i 2 Cov(X,Y)


que, se rcdtzirâ à soma das variâncias, no caso de independência entre X eY.
Exemplo 5.15.' Nos Exemplos 5 .5 e 5 .I2, o par de variáveis (X ,Y) representa
respectivamente, o número de poços e de riachos em sub-regiões de uma
6trea. Figura 5.5: Covariância e correlação de varidveis aleatórias.

Já calculamos .E(X Y) : 7 ltO, E(X) :8/10 e E(Y) : 1, portanto,

cov(x,Y) : E(xY) - E(x) E(Y) :+t0- *10t t : -*.


10

Usando as distribuições marginais, podemos obter 2x :76/100


ozr: ï ::60/1
e o2u
Para avariância de X i Y temos

Var(X +n:
''100 2 # +2(-#) : 116
Figura 5.6: Variância da soma de duas variáveis aleatórins.
" 100

O coeficiente de correlação será


Vamos encerrar essa seção, aplicando as propriedades do valor esperado e
Cov(X,Y) -Llt0 :
ox oY ffi@ -0,15. rlu variância na obtenção dessas quantidades para o modelo Binomial.

Il"rctnplo 5.1ó.' Considere uma sequência de variáveis aleatórias independentes


eorrr distribuição Bernoulli de parâmetro p. Como se comporta a soma de n dessas
virliiiveis?
Nas figuras a seguir, resumimos algumas fórmulas dessa seção.
Representemos por Xr, Xz, .. ., X,,, a sequência de variáveis de Bernoulli.
lisíirrnos interessados em X : Xr t Xz * '.' * Xn, e, pela definição do modelo
Ilirrornial, já sabemos que X - b(n,p).
Lembrando que E(Xa) : p e Var(X6) : p(l - p) para 'i:1,2,..., D,
virrrìos calcular a média ea variância de X, utilizando as propriedades
t52 Capítulo 5 : Varidv eis Bidimensionais 5.2 Associação entre Variáveis t53

r\c
apresentadas anteriormente. Temos,

E(X):E(Xt+Xz.-"'+X,) 0 1 2

: E(xt) + E(x2) + ... + E(x")


1 1B 16 10

: p+ p+...+ p
2
o
J
34
T2
45
16
38
31
- np.
Para obter a variância, usaremos a independência dos X;,r: a. Obtenha as tabelas marginais de freqüência.
b. Construa a tabela de freqüências esperadas, caso houvesse independência
Var(X) : Var(Xr t Xz + "' 1 X,,) entre as variáveis.
: Var(Xt) * var(X2) + ... + var(X") c. Determine o índice Q2.
: p(l - p) + p(I - p) + ... + p(L - p)
4. A função de probabilidade conjunta entre as variáveis aleatórias X eY
: np(I- p). apresentada na próxima tabela.
ê,

Esses resultados coincidem com aqueles apresentados no Capítulo 3. tl x\y -2 0 2 4


Exercícios da Seção 5.2: -1 0,1 0,2 0,1 012
1. Na tabela a seguir encontram-se os conceitos de história (H), matemótica (M) 1 012 0 0,1 0,1
efísica (F ) de alguns alunos do 3o. ano do ensino médio de uma escola. a. Obtenha as funções de probabilidade marginais das variáveis.
b. X e Y são independentes?
Aluno I 2 J 4 5 6 7 8 9 10 11 l2 c. Calcule a covariância e a correlação entre X eY.
H C C' 'c C b. h b b b b b a, ,

M c C d c b c a c c c c c 5. Na caixa I existem duas bolas numeradas 0 e 1, enquanto que a caixa II contêm


duas bolas numeradas 1 e 0. Uma bola é retirada aleatoriamente de cada
F d c b C b c c b b c c b
caixa, de forma independente uma da outra. A esse experimento, associamos as
variáveis aleatórias: número da bola retirada na caixa I (X), soma dos valores
a. Construa as tabelas de freqüência conjunta para H e M e para H e F.
das duas bolas retiradas (Y) e a difurença, em módulo, desses valores (Z).
b. Calcule a proporção de alunos com ó em física, dentre os com pelo menos c a. Determine a função de probabilidade conjunta entre X eY e entre Y e Z.
em matemática.
b. Verifique se X e Y são independentes. Idem paraY e Z.
2. rJm levantamento obtido, junto aos funcionários de um pequeno escritório; c. Calcule a covariância entre X eY.
busca relacionar as variáveis: anos de estudo (X) número de diftrentes d. Obtenha Var(X +Y).
"
empregos nos últimos 5 anos (y). O que você pode dizer com os dados
6. A variável X é,Bernoulli com p : 0,4 eY é Binomial com p : 0,5 e n : 3.
fornecidos?
Admita que X e Y são independentes.
X 8 I 10 11 l2 a. Determine P(X :\lY :2).
Y 4 2 I 2 I b. Obtenha a função de probabilidade conjunta de X e Y e do produto XY.
c. Calcule E(X),8(Y) e E(XY) e verifique que: E(X) x E(Y) : E(XY).
3. Uma amostra de 220 clientes de uma clínica dentária foi selecionada' As d. Determine o valor de Cov(X,Y) e de py,y.
variáveis tempo, em anos, decorridos desde a última visita ao dentista (V) eo
número de córies encontradas (C) é apresentado na próxima tabela'
Capítulo 5 : Variáv eis Bidimensionais 5.3 Exercícios 155
t54

(F,C) freq.
5.3 Exercícios
(0,0) L2
1. A tabela a seguir apresenta os valores observados em uma amostra de 130 (0, 1 25
empregados do ramo do comércio. (0,2) 8
Sexo \ Fumante Sim Não (1,1) t4
Masculino 24 18 (2,1 57
Feminino 25 63 (3,1 40
(3,2) 45
a. Construa as tabelas marginais de freqüência para as variáveis Sexo e (4,r 27
Fumante. (4,2) 22
b. Se usássemos a amostra para tirar uma conclusão sobre toda população,
você diria que, proporcionalmente, mais homens fumam do que mulheres? 5. Os dados a seguir referem-se a uma amostra de 5 alunos que informaram, no
c. Calcule o índice de associação Q2 entre as variáveis. início do curso, seu peso e idade.
,,
Em uma amostra de 8 funcionários de uma empresa, observou-se duas Aluno I 2 J 4 5
variáveis: anos de empresa (A) e número de promoções recebidas (P). Com Peso 7L 65 70 57 66
os resultados apresentados a seguir você diria que, para essa empresa, essas Idade L7 L7 18 17 19
variáveis estão associadas?
a. Encontre a média e o desvio padrão do peso dos alunos c"om l7 anos.
A 5 6 6 7 I B B 8 b. Construa o diagrama de Peso por ldade.
P 2 2 1 2 0 t
J 1 0 c. Obtenha o coeficiente de correlação entre peso e idade.

3. Está sendo estudado o efeito do teor de ferro na capacidade ile car p de vigas ír. Para cinco volumes de uma mesma solução foram medidos os tempos de
de concreto. Os dados abaixo apresentam os resultados de medidas btidas em aquecimento, em um mesmo bico de gás, e as respectivas temperaturas de
uma amostra. Obtenha a correlação entre as variáveis. ebulição:

Ferro (7o peso) 5,4 6,8 6,9 7,3 7,7 8,1 8,2 8,5 8,6 8,9 Tempo (min.) 20 22 19 23 17
Carga (ton./m2) 2rL ,) 2r9 2r9 3,0 3,1 3,1 3,1 314 3,5 Temperatura ('C) 75 BO 75 82 78

4. A tabela de freqüência conjunta entre número de filhos (f') número de a. Obtenha o gráfico do Tempo pela Temperatura e calcule a correlação.
cusamentos
"
oficiais (C) é apresentada, a seguir, para os 250 funcionários de b. Você acha que existe associação entre as variáveis?
urïáì certa empresa. 7. Alguns cientistas sociais acreditam que a opinião sobre o aborto independe da
a. Determine as tabelas de freqüência marginais, correspondentes a cada uma situação familiar. O que você diria, após estudar a amostra?
das variáveis, isoladamente, e calcule as médias de F e C.
Situação \ Opinião Favoráveis Contrários
b. Construa um gráfico com a distribuição de freqüência das variáveis. Você Casados 56
chega a alguma conclusão? r
Solteiros
2:4
25
coeficiente de correlação entre F e C. Note que será
15
c. Determine o Divorciados 24 16
necessário adaptar a expressão apresentada na Definição 5.4.
Viúvos 13 27
t56 Capítulo 5 : Variáveis Bidimensionais 5.3 Exercícios r57

8. A tabela a seguir consiste de 16 valores de três variáveis observadas em alunos Pac. No. t ll
2 J 4 5 6 7 8 9 10 12 I3
do curso de ciências sociaisr sexo (S), nota de estatística (E) nota de
" C I 1 2 1 2 1 I t
a) 2 2 1 1 2
antropologio (A).
s 2 2 D
t) 1 1 2 t
L)
t
d 2 J 1 2 I
s M F M F M M F F F M M F M F F M F 0 2 4 0 1 1 1 2 0 D
L) 0 1 2
E t
r) 6 4 o
iJ 6 5 5 I 4 5 5 6 5 4 t
r) 6
A t
e) 4 3 5 5 5 4 6 5 5 4 4 5 5 6 5
Pac. No. I4 15 t6 ï7 18 t9 20 2I 22 23 24
a. construa a tabela de dupla entrada para as notas de estatística er C 2 I I 1
t
a) 1 2 1 1 1
t
r)
antropologia. ,9 ,f
D
() 2 1 2 2 1 1 2 t
!)
D
t)

b. Repita o item (a), considerando apenas os homens. F t


d ,) 0 0 1 0 0 1 1 2 4
c. calcule, para os alunos do sexo masculino, o coeficiente de correlação entre
as notas de estatística e de antropologia. a. Construa a tabela de dupla entrada com as variáveis C e S.
d. Com o uso da tabela obtida em (a), calcule a porcentagem de cada b. Estude a associação entre as variáveis C e S, através das porcentagens em
freqüência conjunta em relação ao total de alunos. relação ao total de coluna.
9. Num certo distrito de saúde, o comportamento conjunto dos de c. Repita os itens (a) e (b) para C e F.
sarampo (S) e difteria (D) foi o seguinte: d. Repita os itens (a) e (b) para S e F.
11. Odepartamento de vendas de certa companhia ofereceu um curso de
atualizaçáo a seus funcionários e, para estudar a eficâcia do curso, resolveu
comparar a noto de teste no curso (7) com o volume de vendas, em rhilhares
de unidades, nos seis meses seguintes ao curso (V). Os resultados estão na
tabela abaixo.
t6 I7 18 t9 20 2t 22 23 24 25 26 27 28 29 30
I
,1, É q
2 ó 0 2
R 9 7 8 6 8 .J 5 6 7 4 7 d 5 3
1 1 1 1 0 0 0 1 L 2
I2
2 2 I t
.) 2 2 2 2 I 2 1 I 1
t
i)
t
()
V 74 13 T2 13 10 11 11 10 T2 10 13 10 T2 11

a. Obtenha a tabela de dupla entrada. a. A variável ? serve para explicar a variável I/? Justifique.
b. Calcule a porcentagem de cada ocorrência conjunta em relação ao total de b. Calcule a correlação entre as variáveis.
casos.
12. Um total de 1000 passageiros de vôos domósticos foram entrevistados no
c. Repita o item (b), fazendo a porcentagem em relação ao total de colunas.
Aeroporto de Guarulhos. Duas variáveis foram observadas: número de viagens
d. Que conclusão se pode tirar da relação entre a incidência de sarampo e
mensais (V) número de automóveis na família (Á). O resultado está na
próxima tabela"que, por descuido, está incompleta.
difteria?
10. As informações da tabela a seguir foram coletadas de 24 pacientes da ârea de
cardiologia de um grande hospital público. A variável C indica o número de V\A 1 2 t
r) total
intervenções cirúrgicas sofridas pelo paciente, ,9 representa o número de 1 ì/0 BO 60 -zt)O
pontes safena colocadas pelo paciente em uma ou mais cirurgias e a variável F 2 150 :.{.,t C 450
indica o número de.familiares próximos com problemas cardíacos. õ /t0
J L20 ,l4a 300
total 300 Ì 200 'i i Ì.. ),
/51J Capítulo 5 : Variáveis Bidimensionais 5.3 Exercícios
t59

a. Complete a tabela. !
16. A função de probabilidade conjunta das variáveis x ey ê dadapela seguinte
tabela de dupla entrada.
b. Calcule as porcentagens em relação ao total de coluna.
c. As variáveis são independentes? Justifique. x\y -1 0 1

13. A tabela de freqüência apresentada em seguida está incompleta e contêm -1 I/B 1/8 r/8
0 1/8 1/B
observações das variáveis: vida útil do equipamento (t/)
0
garantia do
fabricante (G), ambas medidas em anos.
" 1 L/8 I/B L/8
a. Verifique se E(XY) : E(X)E(Y).
U\G 2 4 6 B total b. X e Y são independentes? Comente.
8
t
t) 3 o 0 6
17. Numa caixa existem 4 bolas numeradas 3, 5, 5 eT.rJmabola é sorteada ao
10 6 +4.
4 I
acaso, seu número anotado (xr) devolvida à caixa. uma segunda bola é
t2 1 í) 5 4 10\ "
escolhida, também ao acaso, e seu número denotado por X2.
total 5 '.,Ú 1t <,O / a. Determine a conjunta de X1e X2.
b. Calcule as marginais de X1 e X2. Elas são independentes?
a. Complete tabe c. Encontre o valor esperado e a variância de X1, X2 eX : e+Ãt.
b. Construa o gráfico de [/ por G e verifique se há associação entre as
variáveis. 18. Uma moeda equilibrada é lançada três vezes e são definidas as variáveis
c. Calcule a vida útil média para cada subgrupo de valor da garantia. Comente aleatórias: número de caras nos dois primeiros resultados (x), número de
os resultados. caras no último lançamento (Y) e número total de caras (S).
a. Construa a tabela conjunta de (X,Y).
L4. Para o lançamento de dois dados equilibrados, defina duas variáveis b. Verifique se X e Y são independentes. ' ,
aleatórias. Seja X o número de vezes que aparece aface 2 eY igual a 0 se a c. Calcule E(X), E(Y) e Cov(X,Y).
soma for par e 1, caso contrário. d. Expresse ,5 em função de X e Y e determine E(.9) e Var(S).
a. Determine a função de probabilidade conjunta de X eY.
b. Calcule E(X), E(Y) e E(X +Y). 19. considere a frase: "Para mais saúde pratique mais esporte,,. Escolha ao acaso
c. Verifique se X eY são independentes. uma palavra dessa frase e considere as variáveis aleatórias número de vogais
d. Calcule o coeficiente de correlação entre X eY. (V) e número de consoantes (C).
a. Determine a conjunta deV e C.
15. Considere a função conjunta: b. Obtenha as funções de probabilidade marginais.
x\v 0 1 2 c. Calcule os valores esperados dessas variáveis.
0 t/78 rls rl6 d. As variáveis são independentes? Justifique.
7/9 I/I8 e. se a escolha acima resultou em v : 2,, qual é a probabilidade da palavra
1 U9
"mais" ter sido a escolhida.
2 L/6 r/6 r/18
P(l < X 12,y > 1) e P(X:
20.A tabela a seguir representa a função de probabilidade conjunta de duas
a. Calcule 1, Y ) 1).
variáveis aleatórias independentes.
b. Determine E(X), E(Y) e Cov(X,Y).
c. X e Y são independentes? Justifique.
160 \..Ì lÌxercícios r61
Capítulo 5 : Variáveis Bidimensionais

x\ ), 1 2 3 P(X : r) a. Determine o valor esperado e a variânciadavariâvel X :1- 18.


b.IdemparaY:E-l.tp.
-1 L/6
c. Obtenha a conjunta entre X eY.
0 2/6
1 3/6 25. A conjunta das variáveis aleatórias independentes X e Y é' parcialmente
P(Y : y1 r/5 3/5 L/5 1 apresentada a seguir:

x\v P(X : r)
cov(x'Y) -2
a. Complete a tabela. 0 2
I
1 0,3
i:3i,iïil'ïl :,Y';E(Y) " 2 0r7

21. sorteia-se ao acaso um dentre os números g, 12,À e zz e é feita a P(Y : u) 012 0,3
decomposição do número sorteado em fatores primos.
$ejam D e T, as a. Complete a tabela.
variáveis que representam, respectivamente, o número de b. Calcule o valor esperado e a variância de 2X Y.
3 aparecem na decomposição.
/ezes em que o 2 e o -
a. Obtenha a conjunta entre D e T.
{
\ 26. Sendo Xr,Xz e X3 variáveis aleatórias independentes, seguindo o modelo
b. calcule a covariância e o coeficiente de correlação entre as variáveis. Bernoulli de parâmetro p, pergunta-se:
a. Qual é a função de probabilidade de Xt t Xz * Xs? Você reconhece essa
22. As variáveis F e M representam, respectivamente, o número de anos para variável?
complêtar o ensino fundamental e o ensino médio. Numa certa cidade , a tabela b. Qual é o valor aeVar(È$h)t
a seguir é adotada pafa a função de probabilidade conjunta dessas variáveis.
Determine o valor esperado e a variância da variâvel F + M que representa o 27. Sabe-se que X e Y são independentes e assumem, respectivamente, os valores
total de anos ató completar o ensino médio. 7,2 e 3 e-0, I e2. Admita conhecidas as probabilidades P(Y:0):1/3,
P(X :3) : Ll3, P(X : L,Y :0) : 1/9 e P(X :3,Y :2) : Llq,
F\M 3 4 5 6 a. Construa atabela de dupla entrada para X eY.
8 e 160 I /60 7/60 r/60 b. Calcule E(X x Y) e Var(X + Y).
9 7/60 7 /60 5/60 3/60
28. Um paleontólogo acredita que o número de minerais presentes em certo tipo
10 3/60 4160 3/60 2/60
de rocha pode influir na chance de se encontrar fósseis perto de uma indústria
23. Sejam X -b(5;0,5) e Y -b(3;0,2) independentes. Determine o valor calcâria. Através de amostras de rocha obtidas em levantamentos de campo, elc
esperado e a variância da variável2X - BY. obteve a distribuição conjunta para as variáveis Z:número de minerctis
presentes eW: variâvel que assume 1, se for observada a presença de fóssil e 0
24. A rabela a seguir representa a função de probabilidade conjunta entre o
caso contrário.
número de empregos desde que começou a trabalhar (E) e a idade do primeiro
enlprego (1), de jovens em uma pequena cidade do Estado de são paulo. w\z 1 2 t
r)

r/8 r/8 r/4


E\r 13 14 15 16
0
I L/8 L/4 1/B
b 0,02 0,02 0,02 0,03
6 0,07 0,09 0,L2 0,13 a. Calcule P(W :0, Z > L).
I 0,10 0,08 0,03 0,05 b. Encontre as distribuições marginais para Z e W .

8 0,10 0,06 0,04 0,04 c. Qual a esperança de Z?


I ()2 Capítulo 5 : Variáveis Bidimensionais
.\.-l Exercícios 163

d. A suspeita do paleontólogo é confirmada pelos valores apresentados na


tabela? Justifique sua resposta quantitativamente. c. Se o produto deverá ser vendido poi 50 reais, qual será o lucro médio por
unidade?
29. Sejam (J :Y2 eV : X +Y, com a função de probabilidade conjuntaentre
X eY dada na tabeia a seguir: 33. A caixa Icontém uma bola vermelha e uma azul, enquanto que a caixa II

x\v 0 7 2
contém duas vermelhas e uma azul. Um experimento consiste em escolher uma
bola ao acaso da caixa I e passar para a caixa II e, em seguida, escolher uma
-1 L/12 Ll6 r/3 bola da II e passar paraa I. Sejam X eY os números de bolas vermelhas nas
1 7/6 7/4 0 caixas Ie II, respectivamente.
a. Calcule a conjunta de X e Y. Elas são independentes?
a. Obtenha a conjunta de U e V.
b. Comente o que ocorre com a variável X +Y.
b. Calcule P(U : 4lV : L).
c. Determine a média e a variância para cada uma das variável X eY .
c. Determine Cov(U,V).
34. Considere duas variáveis aleatórias independentes U-Po(2) e V-G(0,3). A
30. considere duas ua.iáveis aleatórias discretas ,1, a/l,aoota que Áassume
somente os valores ay, a2 e oJ, enquanto B "
os valore sl6 e b2. Sabemos que:
partir dessas variáveis definimos outras duas da seguinte forma:

P(A: ot):0,2; P(A - or) : 0,,5 ; P(B: br) : seU:0; seI/:0;


0,6; -_í0l1 sel/)1: e Y: seI/:1;
P(A : a1,B :bt) : 0,,L2 e P(B : bz I A : as): 0,b,
\- {Í' seV ) 2.
a. Construa a tabela de dupla entrada entre A e B. a. Construa a conjunta de X e Y e determine Cov(X,Y).
b. As variáveis são independentes? Justifique. b. Determine o valor esperado e a variância de 2X - 3Y .
c. Calcule P(A: or l B: br).
35. Duas moedas são lançadas simultaneamente. Uma delas é equilibrada e a
31. sejam x e Y independentes com função de probabilidade G(0,5). Determine outra tem probabilidade 213 de sair face cara. Considere as variáveis U: total
o valor esperado e a variância de: de caras observadas eV éuma Bernoulli que assume valor I se as duas faces
a.S: X+Y. são iguais.
b.D:X-Y. a. Determine a conjunta de U e V e verifique se são independentes.
b. Calcule a média e a variância de 2U - V .
32. Baseando-se nas projeções de preço de duas matérias primas, M1 e M2,
pretende-se estudar a viabilidade econômica do lançamento de um certo 36. (Use o computador) Com os dados das variáveis altura e peso da Tabela 1.1
produto. A função conjunta de probabilidade com os preços (em reais) é do Capítulo l:
apresentada a seguir. a. Verifique o grau de associação através do cálculo do coeficiente de
correlação.
Mt\ Mz 5 I 13
b. Obtenha a média e o desvio padrão para cada uma das variáveis.
I 0,1 0
I
0
c. Calcule o coeficiente de correlação entre as variáveis peso e altura
r) 0,1 0,2 012 padronizadas. Os valores da variável padronizada são obtidos subtraindo-se
5 0 012 012 a média e dividindo-se pelo correspondente desvio padrão. Compare com o
a. Determine o preço médio e a variância das matérias primas. resultado encontrado no item (a).
b. O produto usa 2 unidades de M1e 3 de M2. Qual é seu custo médio? .17. (Useo computador) Considere os dados apresentados no Exercício 23 do
Capítulo 1, onde, no item (b) foi definida a variável Etário.
IÕ.1 Capítulo 5 : Variáveis Bidimensionais

n. crie uma tabela de dupla entracla, contendo Etário nas linhas e Coag nas
colunas. Com base em tal tabela, reavalie se a presença de coágulos
Capítulo 6
é
diferente dependendo da faixa etária.
b. Suponha que um paciente é escolhido ao acaso.
Qual a probabilidade de que Variáveis Aleatórias Contínuas
a pessoa apresentasse coágulos no momento de admissãol E uma pessoa
de
faixa etária mais alta?
c. Você diria que Coag e Etário são independentes? por quô?
38. (Use o computador) Novamente com os dados do Exercício 23 do Capítulo
1.
(r.1 Introdução
considere agotaavariávelCuracriadanoitem(c).
\ Neste capítulo, discutiremos a çVracteriz4ção de variáveis cujos possíveis
a. Crie uma tabela de dupla entrada com Cura nas linhas e Tratjm nas colunas.
b. com base na tabela do item (a), você diria que neste caso,/rapidezda cura valores ocorrem aleatoriamente e pertencem a um intervalo dos númerd's reais:
depende do tipo de tratamento considerado? Justifique. virriáveis aleatórias contínuas. Renda, salário, tempo de uso de um equipamento,
/ comprimento de uma peça e área atingida por certa praga agríeola são exemplos
c. Qual a probabilidade de que uma pessoa selecionada áo u"uro tenha cura
rápida, dado que recebeu tratamento do tipo I ? dc quantidades que podem ser modeladas por variáveis aleatórias contínuas. De
d. Qual a probabilidade de uma pessoa ter recebido tratamento do tipo I, dado lìrrma semelhante àquela desenvolvida. para variáveis aleatórias discretas,
que teve cura normal? prccisamos estabelecer, para as contínuas, a atribuição de probabilidades às suas
cliversas realizações que, neste caso, podem assumir um número infinito de
39. (use o computador) Responda os itens a seguir, baseado nos dados de vtlores diferentes. Abordamos esta questão no prgximo exemplo.
incidência de câncer apresentados no Exercíc io 24, capítulo l.
a. utilizando a mediana da variâvel GL, classifique os pacientes em dois Iixemplo ó.1.' Estudos anteriores revelam a existência de um grande lençol de
grupos, de alta e de baixa taxa de glicose. Denote essa nova variável por ígua no subsolo de uma região. No entanto, sua profundidade ainda não foi
Clagl e construa uma tabela de dupla entrada entre Clagl e ALB. Você diria tlcterminada, sabendo-se apenas que o lençol pode estar situado em qualquer
que as duas variáveis estão relacionadas de alguma forma? ponto entre 20 e 100 metros.
b. considere os valores da variável Idade em três grupos: jovem com até,25 Vamos supor que escolhemos, ao acaso, um ponto nessa região e
anos (inclusive), meia idade para indivíduos com idades entre 25 e 55 anos tlispomos de uma sonda que, ao fazer a perfuração, detecta com precisão a
(inclusive) e senior para maiores de 55 anos. construa uma tabela de dupla lrlofundidade do reservatório de água. Denotamos por X a variâvel aleaÍória
entrada para estudar o comportamento desses grupos em relação à rcpresentand o a p rofundidade.
concentração de fosfato, tirando as conclusões pertinentes. Notemos que, apesar de X poder ser qualquer número entre 20 e 100
c. Escolhendo-se um paciente ao acaso, qual a probabilidade de que ele seja do nìctros, o instrumento, com que trabalhamos, pode não ser tão preciso como
grupo .falso-negativo, dado que tem mais de 50 anos? E ter acima liostaríamos. Por exemplo, uma profundidade de 32,571 metros poderia ser
de 50 rrrcdida por 32,6 metros. Vamos assumir, entretanto, que temos um instrumento
irnos, dado que não é do grupo falso-negativo?
itlcal que náo faz aproximações. Nessas condições, podemos supor a sonda
40. (use o computador) utilize as informações do arquivo aeusp.txt, introduzido ;rcoplada a um instrumento indicador da profundidade e um dispositivo que,
no Exercício 26 do Capítulo 1. tlrrnndo a sonda encontrar água, provoque a imediata interrupção da perfuração.
a. crie uma tabela de dupla entrada com as variáveis comun e Renda. Você Uma vez que não temos informações adicionais a respeito da
diria que existe associação entre elas? lrroÍnndidade do lençol, é razoâvel assumirmos que a sonda pode parar em
b. Repita o item (a) para as variáveis Reproce e Trab. rprnlquer ponto entre 20 e 100 metros, sem que tenhamos motivos para privilegiar
c. O que pode ser dito da associação entre número de residentes (variável cssn oll aquela profundidade. Assim, consideraremos todos os pontos como
Resid) e idade que começou a traballrar (variírvel Itrab),? igrralmcnte prováveis. Se utilizarmos a mesma idéia de atribuir a cada possível
l6(t Capítulo 6: Variáveis Aleatórias 167
6,1 Introduçõo

ponto uma probabilidade, teremos uma dificuldade extra, pois eles pertencem
intervalo [20, 100], em que existem infinitos números reais. Assim, se cada Densidade

cleles tiver, individualmente, probabilidade maior que zero, a soma


probabilidades será igual a infinito e não 1, como requer a definição da função
probabilidade. Em geral, em situações como esta, não é de intEresse conside
um único valor para a variá..vel aleatória, mas intervalos de valores na atribui
dc probabilidades. Neste caso, sabemos que o espaço amostral corresponde
intervalo [20, 100] e as profundidades são igualmente prováveis. suponhã, por
nìomento, que dividimos o espaço amostral em 8 intervalos de comorimento 1
Logo, é razoâvel atribuir aos intervalos a probabilidade us,l/g, corres\ondendo
corre$ondend,
relação entre o comprimento de cada um deles e o compri-"ntoldo
nmostral. Isto é, 10 para 80 ou 1/8. Assim, com a divisão ém s fzías de".p,is
comprimento e sem intersecção entre elas, teremos os intervalo d po, 30), Ï
20 30 40 50 ô0 70 80 90 100
40),..., [90, 100] todos com a mesma probabilidade l/g, pois todós tem o mes
termanho. O histograma mostra que, apesar de termos diferentes intervalos, a
Para construir um histograma, nos mesmos moldes do capítulo clcnsidade permanece com o mesmo valor, igual a 1/80.
podemos supor que l/8 é, a freqüência relativa da ocorrência de cada um taumentando cada vez mais o
Podemos continuar esse procedimento,
irrtervalos. As ordenadas do gráfico são as densidades, calculadas de modo que rrúrnero de faixas, com a conseqüente diminuição das suas amplitudes de tal forma
úrea de cada retângulo seja a freqüência relativa (probabilidade) do intervalo. (ple, em uma situação teórica com infinitos intervalos, temos o seguinte
Iristograma:
Densidade

Densidade de
Probabilidade

1/8 1/8 lta 1t8 1/8 'v8 1lA 118

Note que, dada as características do problema, a divisão em g intervalos 100

produziu o mesmo valor de densidade de l/80 para todos eles. Se dividirmos o


intcrvalo [20, 100] em l6 faixas iguais, utilizando o mesmo argumento anterior, Estamos agora em condições de caracterizar, completamente, a atribuição
tcrnos que os intervalos [20, 25), [25, 30), [30, 35), .. . , [95, 100] terão todos a rlc probabilidades para o caso contínuo. Ela será definida pela fuea abaixo de uma
rììosma probabilidade l/16. O histograma correspondente será: I'unção positiva, denominada densidade de probabilidade. Observe que a
clcnsidade em si não é uma probabilidade, mas uma função matemática que nos

Você também pode gostar