Escolar Documentos
Profissional Documentos
Cultura Documentos
iru;t
I )t,: l'Rr lttAtìn,n)AI)E l,lsllr olrr ir
tÌrpyrlglrt O hy Mulcos Nascinrcnlo Magalhãcs c Arrtonio Carlos l)ctltoso clc Lima Prefácio da 6s edição
l" r'rliçÍo 1999 (lMli-tJSP)
J'' r'rlt1'rlo 2(XX)( lMll-l.JSl') Bste texto é fruto da nossa experiência de vários anos como professores clÕ
.1" crliçlio 2(X) I (lMli-tJSP) Departamento de Estatística do Instituto de Matentática e Estatística eln
crliçrìo 2(X)2 (lJclusp)
Unìversidade de São Paulo. Nesse período, foram ministradas diversas disciplinns
,1"
Docentes da USP, pela diagramação das tabelas e auxílio na arte final de algumas
dns figuras apresentadas no texto.
Pedimos, desde já, desculpas pelos erros que serão eventualmente
identificados nesta nova edição. As críticas e sugestões de colegas e estudantes I
gcrão muito bem-vindas e, certamente, auxiliarão na rnelhoria da próxima versão.
t"r
Conteúdo
Lista de Defïnições
2.r Probabilidade ......,........ .................... 38
2.2 Probabilidade condicional ............. ..................,,,42
2.3 Independência de eventos....... .........,44 .
..t-,
xu Lista de Definições
xtu
.qft
8'2Representaçáográficadoserrosd'ep.,.'..... """"""""" 11
4,3 Propriedades da média e da variância """""""'
1
S.3Representaçáogrâficadaregiãoderejeição-unilateral...,.250 I l3
4,4 Modelos discretos- valor esperado e variância """"""""""""""""""" 187
8,4Representaçáogrâf\cadaregiãoderejeição-bilatera1 e variância """"""""""""""""""'
6, I Modelos contínuos- valor esperado
8.5 Poder """""""""' """"""'254
7,l Estimadores para média' proporção e variância """''"""""211
Função
I
Capítulo 1: Introdução à Análise Exploratória de Dados l.lOqueéEstatística?
Estatística Descritiva é, em geral, utilizada na etapa inicial da análise, cle funcionamento das lâmpadas produzidas por uma indústria, não podemOS
cprlndo tomamos contato com os dados pela primeira vez. Objetivando tirar observar toda população de interesse.
conclusões de modo informal e direto, a maneira mais simples seria a observação Tendo em vista as dificuldades de várias naturezas para se observal todos
tlos valores colhidos. Entretanto, ao depararmos com uma grande massa de dados, os elementos da população, tomaremos alguns deles para formar um grupo iì Ser
lrcrcebemos, imediatamente, que a tarefa pode não ser simples. Para tentar cstudado. Este subconjunto da população, em geral com dimensão sensivelmentC
depreender dos dados informações a respeito do fenômeno sob estudo, é preciso rrìenor, é denominado amostra. A Figura 1.1 ilustra as etapas da anólige
irplicar alguma técnica que nos permita resumir a informação daquele particular cstatística.
conjunto de valores. Em outras palavras, a estatística descritiva pode ser definida
cotììo urn conjunto de técnicas destinadas a descrever e resumir os dados, a fim de
quc possamos tirar conclusões a respeito de características de interesse.
Probabilidade pode ser pensada.como a teoria matemática utilizada para
sc cstudarr a incerteza oriunda de fenômenos de caráter aleatório. Apesar de ser
urrrn írrea extremamente atraente e estudada do ponto de vista matemático,
abordaremos, aqui, apenas os aspectos necessários para as técnicas estatísticas
irprcsentadas neste livro. Amostra
Inferência Estatística é o estudo de técnicas que possibilitam a w
cxtrapolação, a um grande conjunto de dados, das informações e conclusões
obtidas a partir de subconjuntos de valores, usualmente de dimensão muito
ffìenor. Deve ser notado que, se tivermos acesso a todos os elementos que
clesejamos estudar, não é necessário o uso das técnicas de inferência estatística.
Entretanto, elas são indispensáveis quando existe a impossibilidade de acesso a
todo o conjunto de dados, por razões de natureza econômica, ética ou física.
Estudos complexos que envolvem o tratamento estatístico dos dados,
tusnalrnente, incluem as três áreas mencionadas acima. Na terminologia estatística,
o grande conjunto de dados que contém a característica que temos interesse Figura 1.1: População e amostra.
reccbc o nome de população. Esse termo refere-se não somente a uma coleção de
inclivícluos, mas também ao alvo sobre o qual reside nosso interesse. Assim, nossa A seleção da amostra pode ser feita de várias maneiras, dependendo, entre
populnçiro pode ser tanto todos os habitantes de Sorocaba, como todas as ()lrlr'os Íhtores, do grau de conhecimento que temos da população, da quantidade
lârnpaclas produzidas por uma fátbrica em um certo período de tempo, ou todo o rlc rccursos disponíveis e assim por diante. Devemos ressaltar que, em princípio, A
sarìgue no corpo de uma pessoa. Algumas vezes podemos acessar toda a sr:lcçiro da amostra tenta fornecer um subconjunto de valores o mais pareciclo
po;lulação para estudarmos características de interesse, mas, em muitas situações, possívcl com a população que lhe dá origem. A amostragem mais usada é a
tal llroccciirnento não pode ser realizado. Em geral, razões econômicas são as mais (rtt!o,\lru r:ustral simples, em que selecionamos ao acaso, com olt sem reposiç:âo, os
clctclrninantes dessas situações. Por exemplo, uma empresa, usualmente, não ilcrrs da população que farão parte da amostra.
dispõo clc vcrba suficiente para saber o que pensam todos os consumidores de Eventualmente, se tivermos informações adicionais a respeito cltt
scus proclutos. Hir ainda razões éticas, quando, por exemplo, os experimentos de lrrrlrrrlirçlio de interesse, podemos utilizar outros esquemas de amostragem muis
lttlornttilio cnvolvem o uso de seres vivos. Além disso, existem casos em que a soÍ'isticuclos. Por exemplo, se numa cidade, tivermos mais mulheres do clue
irnpossillilitltclc clc sc accssárr toda a população de interesse é incontomável. Na 111y111çlrs, podernos selecionar um certo número de indivíduos entre as'mulheres e
tndlisc rlo sirngr"rc cle unra pessoiÌ ou em um experimento para determinar o tempo outl'o núnrero entre os homens. Esse procedimento é conhecido colno
(tt,toslt'o!:ct"tt. astraíificada. Outras vezes, pode existir uma relação numeradl dOS
-"--qt
itens da populagão (uma lista de referência) que nos permitiria utilizar a chamada 3. Discuta, para cadaum dos casos abaixo, os cuidados que precisam ser tomadOa
1mostragem sistemática em que selecionamos os indivíduos de forma pré- para garantir uma boa conclusão a partir da amostra.
determinada, por exemplo de 8 em 8 ou de 10 em 10. Outros esquemas de a. Um grupo de crianças será escolhido para receber uma nova vacina contra
ilmostragem poderiam ser citados e todos fazem parte da chamada Teoria da meningite.
Amostragem, cujos detalhes não serão aprofundados neste livro. Assim sendo, b. Sorteamos um certo número de donas de casa, para testar um novo sabEO en
terminamos esta seção mencionando que quanto mais complexa for a amostragem' pó.
maiores cuidados deverão ser tomados nas análises estatísticas utilizadas; em c. Uma fâbrica deseja saber se sua produção de biscoitos está com o ssbof
contrapartida, o uso de esquemas de amostragem mais elaborados pode levar a previsto.
uma diminuição no tamanho de amostra necessário para uma dada precisão. d. Aceitação popular de um certo projeto do governo.
2, Para as situações descritas a seguir, identifique a população e a amostfa Id: identificação do aluno
correspondente. Discuta a validade do processo.de inferência estatística para Turma: turma a que o aluno foi alocado (A ou B)
cada um dos casos. Scxo: F se feminino, M se masculino
a. Para avaliar a eficá'cia de uma campanha de vacinação no Estado de São Iclade: idade em anos
Paulo, 200 mães de recém-nascidos, durante o primeiro semestre de um Alt: altura em metros
dado ano e em uma dada maternidade em São Paulo, foram entrevistadas a Peso: peso em quilogramas
respeito da última vez em que vacinaram seus.filhos.
lìilhos: número de filhos na famíli'a
b. Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. Ílumn: hábito de fumar, sim ou não
c. Para verificar a audiência de um programa de TV, 563 indivíduos foram Toler: tolerância ao cigarro:
entrevistados por telefone com relação ao canal em que estavam (I) indif'erente, (P) incomoda pouco e (M) incomoda muito
sintonizados.
d. A fim de avaliar a intenção de voto para presidente dos brasileiros, 122
pessoas foram entrevistadas em Brasília.
. -Edl
contÍnufls.
Capítulo I: Introdução à Anólise Exploraúrta de Dados 1.2 Organízação de Dados I
Resumimos a classificação das variáveis no esquema apresentado na Apesar de conter muita informaçáo, a tabela de dados brutos pode nãO Sef
Figura I.2 (atítulo de exercício, tente classificar todas as variáveis da Tabela 1.1). prática pu.u r"rpondermos às questões de interesse. Por exemplo, da Tabela 1'1
rriro é imediato dizer se os alunos se incomodam muito ou pouco com Os
l'umantes. Porlanto, a partir da tabela de dados brutos, vamos construir UmO nOvtl
Nominal t1$ela com as informações resumidas, para cada variável. Essa tabela Sefd
clenominada de tabela de freqüência e, como o nome indica, conterá os valOfeg dA
virriável e suas respectivas contagens, as quais são denominadas freqüênelAEq
' -.ordinal ttbsolutas ou simplesmente, freqüências. No caso de variáveis qualitativas OU
-a"Qualitativa tprantitativas discretas, a tabela de freqüência consiste em listar os valorog
Variável
possíveis da variável, numéricos ou não e fazer a contagem na tabela de dadOg
\ 'Quantitativ u 1--""-Discreta lrrutos do número de suas ocorrências. Representaremos por n; a freqüência dq
.-,contínua vulor i e por ?? a freqüência total. Para efeito de comparação com outros grupOS
ou conjunìos de dadoi, será conveniente acrescentarmos uma coluna na tabela de
lì.oqüência contendo o cálculo da freqüência relativa, definida por fi = U/t\:,
Convém notar que, quando estivermos comparando dois grupos com relaçãO àS
freqiiências de ocorrência dos valores de uma dada variável, grupos cgm Um
1.2: Classificação de varidveis. número total de dados maior tendem a ter maiores freqüências de ocorrência dos
liSura
vtlores da variável. Desta forma, o uso da freqüência relativa vem resolver èBte
Vale ressaltar que, em muitas situações práticas, a classificação depende problema.
de certas particularidades. Por exemplo, a variável ldade, medida em número de A Tabela 1.2 apresenta as freqüências para a variável Sexo, obtida a p0rtir
anOS, pode ser vista como discreta, entretanto, Se levarmos em conta os dias, não é cln Tubela I .1.
absurdo falar que a idade ê 2,5 ou 2,85 anos, dando assim respaldo para classificá-
la como contínua. Por outro lado, dependendo da precisão do instrumento
utilizado para se obter medidas em um objeto, podemos ter limitações no número Tabela 1.2: Tabela de freqüêncía para a variúvel Sexo.
cle casas decimais e uma variável de mensuração pode se "tornar" discreta. E
Sexo n,i .ït
importante salientar que a classificação apresentada acima se refere à natureza da t t'7
variável e, em geral, devemos utilizar o bom senso na hora de decidir qual F dí 0,74
procedimento adotar para caracterizar uma variável. Para salientar tal fato, M 13 0,26
menciOnamos que podemos, inclusive, discretizar uma variável contínua para total n:50 1
0
0,06
0
0,90
0,90
90,0 F 100,0 1 0',02 1,00
ôt total 50 1
ZJ 2 0,04 0,94
24 1 0,02 0,96
25 2 0,04 1,00 Vamos estudar, agora, a situação em que a variável é por natureza
total n:50 1 cliscreta, mas o conjunto de possíveis valores é muito grande. Por exemplo, a
vflriável TV, definida como o número de horas assistindo televisão, tem valores
inteiros entre 0 e 30 e uma tabela representando seus valores e respectivas
Com relação à variável Peso, lembremos que foi classificada como Íieqüências seria muito extensa e pouco prática. O caminho adequado, nesse caso,
quantitativa contínua e assim, teoricamente, seus valores podem ser qualquer é trotar a variável como se fosse contínua e criar faixas para representar seus
número real num certo intervalo. Aqui os valores variam entre 44,0 e 95,0 kg e vulores. Assim, passamos a tratar como contínua uma variável que seria,
foram medidos com apenas uma casa decimal. Ainda assim, existe um grande originnlmente, classificada como discreta.
número de valores diferentes de modo que, se a tabela de freqüência fosse feita
nos mesmos moldes dos casos anteriores, obteríamos praticamente os valores Tabela 1.5: Tabela de freqüência para a variável TV.
originais da tabela de dados brutos. A alternativa que vamos adotar consiste em
construir classes ou faixas de valores e contar o número de ocorrências em cada TV ni .ft fu"
laixa. Para a variável Peso, usamos faixas de amplitude 10, iniciando em 40 kg. 0F-6 L4 0,28 0,28
Na Tabela 1.4, escolhemos incluir o extremo inferior e excluir o superior. Dessa
I'orma, a freqüência da faixa 40,0 F 50,0 não incluiu os alunos 46 e 48 que
6- 12 t7 0,34 0,62
tinham peso igual a 50,0 kg. A opção de qual extremo incluir pode ser arbitrátria,
12- 18 11 0,22 0,84
18 t- 24 4 0,08 0,92
n"ìos o importante é indicar claramente quais são os valores que estão sendo
conterdos em cada faixa. 24l---136 4 0,08 1,00
Apesar de não adotarmos nenhuma regra formal quanto ao total de faixas, total 50 1
cxiste hoje uma infinidade de tipos de gráficos que podem ser utilizados' Como inegociárveis.
ilustraçãõ deste ponto, apresentamos na Figura 1.3 alguns gráficos publicados em pizza, barras çt
vamos definir três tipos básicos de gráficos: disco ou
na gráfica pode sef
írrgãos de imprensa. li$t(,t4ruma. como dissemos, a criatividade apresentação
entre vários' de
inrerrsa e os gráficos que discutiremos sintetizam três caminhos,
CIìÉDIO representação.
'grâfico circular, se adapta muito
RU|ìAT
EVOLUÇÃO DO LUCRO tiQÜIDO
o de d.isco, otr pizza, ou ainda diagrama
em repartir um disco em setores
U$$ MII"HÓES RECURSOS PROPRIOS
hem às variáveis qualitativas nominais. consiste
circularescorrespondentesàsporcentagensdecadlvalor,calculadas
freqüência
exemplo, O,20 de
rnnltiplicando-se por 100 a freqüêncìa relativã f6.Por
relativa a207o o-ã u"' que 100 x 0'20:20' AFigura 1'4 apresenta
"o.r"rpond" da Tabela 1.1. Note que
o cliagrama de disco para avariável Tol-er, obljd^a.a .nartir
fntiir correspondentè à categoria "indiferente" foi destacada.
'
ls I t
e=
t
de gráfico se adapta
==GÍou == ,nrr"rptnd"rrdo à sua freqüência ou porcentagem. Esse tipo
23,891
l. GÍor
== 2Ô
==
SuPeÍior
20 \r
.g
t;
oc
e15
E
L
$ru'
10
18 le 20
,í1"
/-'t'
O histograma consiste em retângulos contíguos com base nas faixas de 40x {)
I
60 70 80 90 100
valores da variável e com área igual à freqüência relativa da respectiva faixa. .?- Peso '
Dessa forma, a altura de cada retângulo é denominada densidade de freqüência oa Figura 1.6: Histograma para a variável Peso.
simplesmente densidade definida pelo quociente da âreapela amplitude da faixa.
Para a variável peso, as densidades de cada faixa podem ser obtidas dividindo-se a Exemplo 1.1.' Vamos calcular a mediana da variável Peso através do histogramÊ,
coluna fi da Tabela 1.4 por 10, que é a amplitude de cada faixa. O histograma Inicialmente identificamos o retângulo que deve conter a mediana. Uma simplos
correspondente a essa variável é apresentado na Figura 1.6. Note que incluímos, soma das áreas resulta que a mediana pertence ao intervalo [50,0; 60,0), uma vsz
no topo de cada retângulo, a porcentagem de observações correspondente, para eluc até o valor 60,0 temos acumuladas 607o das observações. Dentro dessa faixa,
fìtci I itar a interpretação. precisamos determinar um retângulo com área igual a 34Vo, que é o que falta para
É importante ressaltar que alguns autores utilizam a freqüência absoluta rrÍingir o valor 50Vo. A situação é ilustrada na figura a seguir, cujo retângulo
ou porcentagem na construção do histograma. Preferimos o uso da densidade de procurado está marcado com área mais escura.
Íì'eqüência, pois ela faz çom que o histograma não fique distorcido, quando Com uso de proporções, estabelecemos a seguinte igualdade:
amplitudes diferentes são utilizadas nas faixas. Uma outra vantagem diz respeito à
relação entre histograma e gráfico da função densidade de probabilidade, que será mdor,,- 50 _ 60 - 50 lo
visto mais adiante. 0,34 0,44
O histograma também pode ser utilizado no cálculo da mediana (mdor,),
que é o valor da variável que divide o conjunto de dados ordenados em dois
subgrupos de mesmo tamanho, Isto é, das observações ordenadas, 507o estão f;,li4 .,t. - JJ-' i,!t
rn , 1í-,
rtlt
abaixo e 507o estão acima da mediana. Assumindo que as observações da variável r ), ,lr,
-,-'ì
,I''
YÍ
"r'qr
q)
E
p
0,05 .,,'60-
'--'^ú
a 6r,'6Ò ''
o
(D
o,o+ C,t\
í:
0,03
',r"r''",'4'
o,o2
0,01
0,0
50 60
mdot, Qt Peso
r(-
o número máximo, 69. O box-Plot Gráficos tipo box-plol também são úteis para detectar, descritivamentc,
mínimo de laranjas em uma caixa é' 22 e
rliÍirl'crrças nos comportamentos de grupos de variáveis. Por exemplo, poclemos
correspondente é apresentado na Figura 1'7'
tturrsitlornr gráficos da variável Peso para cada sexo. O resultado é apresentado nn
l'jigrrlir 1,9, em que podemos notar que os homens apresentam peso mediano
atrllet'iur ito das mulheres, além de uma maior variabilidade'
60 100
90
3so
e 80
E
J
40
En
o
Í!
I
60
30 50
I
40 I I
F M
20
Sexo
Figara 1.7. Box'plot para o número de laranjas por caixa' Irigura 1.9: Box'plot da variável Peso para cada sexo,
h, Inlelrçiio clo voto para presidente (possíveis respdstas são os nomes dos
ctttttlitlitrtts,alémde não sei).''',,,t11 )1' t t'r, "
(
'100
C. l,r't'rhì rlc pcso de maratonistas ná Corrida de São Silvestre, em quilos. 'tl,\ttì, 1'l
90
rl, lrrlr.rrsirlnrlc clt perda de -"
peso de maratonistas na Corrida de São Silvcstre
80 (lt'Ve, tttoclCrilCla, fOrte).
(
' 1t r/ ç/
l1 't.\ l;rtJ' '
o
3to
L ë, (lrrrrr rle satisÍ'açiro cla população brasileira com relaçãro ao trabalho cle seu
60 presirlerrte (vnlores de 0 a 5, com 0 indicando totalmente insatisÍ'eito e 5
50
lrtlttltnettlc satisl'eito). i,,t tt! t (l' r/lr'l I , ,,1,','
,
40 l, {Jrrirrzt pncientcs clc unra ólírrica de ortopcdia foram entrevistados quânto ito
nrÌnrr'r'rì rk: r'ttcscs prcvistos cle I'isiotcrapin, se haverá (S) ou niro (N) secltlelus
Figura 1.8: Box-plot para a varidvel Peso.
'.qt
após o tratamento e o grau de complexidade da cirurgia realizada: alto (A), do que em uma região industrial (Região B). Para tanto, uma amostrâ foi
médio (M) ou baixo (B). Os dados são apresentados na tabela abaixo: tomada em cada região, fornecendo a tabela de freqüências a seguir:
Pacientes 2 3 4 5 6 7 8 9 10 ll t2 l3 I4 I Região B
Fisioterapia 7 8 4 7 6 8 6 5 5 4 5
5 5 7
Peso ni
Seqüelas s S .N: ,N) N S s N N' S S rN S N N)
Cirurgia A M A M M B A M B M ts ts M M A <60 10 (,1,
a. Apresente os dados em uma tabela de freqüência, incluindo a freqüência rl, l{cpita o item (c) para a variável Salário.
relativa. r,. (lonsiderando apenas os funcionários com mais de três anos clc clsn,
b. Idades atípicas parecem ter ocorrido nesse ano. Após sua retirada do tlcscreva o comportamento da variável Salário.
conjunto de dados, refaça o item (a). Comente as diferenças encontradas. ll. I lrrr gnrpo de pedagogos estuda a influência da troca de escolas no descntpcttlto
Um novo medicamento para cicatrizaçáo está sendo testado e um experimento é tlt. llrrnos do ensino fundamental. Como parte do levantamento realizndo, lìri
feito para estudar o tempo (em dias) de completo fechamento em cortes nrotiulo o rrúmero de escolas cursadas pelos alunos participantes do estttclo.
provenientes de cirurgia. Uma amostra em trinta cobaias forneceu os valores: Escolas Cursadas freqüência
15,17,16, 15, \7, 14,17, 16, 16,17,15, 18, 14,17, 15, 14,15,16,17, 18, 18, 1 46
17, 15, 16, 14,18, 18, 16, 15 e 14.
2 57
a. Organize uma tabela de freqüência.
.) 2T
b. Que porcentagem das observações estão abaixo de 16 dias?
4 15
c. Classifique como rápida as cicatrizações iguais ou inferiores a 15 dias e
como lenta as demais. Faça um diagrama circular indicando as 5 4
porcentagens para cada classificação. ru. (.)rlrl ó a porcentagem dos alunos que cursaram mais de uma escola?
6. O Posto de Saúde de um certo bairro mantém um arquivo com o número de Ir- ('onstrua o grírfico de barras.
crianças nas famílias que se utilizam do Posto. Os dados são os seguintes: 3, 4, c. ('lirssil'i11r.rc os alunos em dois grupos segundo a rotatividade: a/Íc pnt'u
3, 4, 5, r, 6, 3, 4, 5, 3, 4, 3, 3, 4, 3, 5,5, 5, 5, 6, ll, r0, 2, l, 2, 3, r, 5 e 2. itlulìos cclur rnais de 2 escolas e baixa para os demais. Obtenha a titbclit tlc
a. Organize uma tabela de freqüência. lìr'r;iiôncin dcssa variável.
b. Faça uma representação grâfica. rr. Alrrrros tlir Escola cle Educação Física foram submetidos a urn lcslc rkr
c. Você identifica valores nruito discrepantes? Que fazer com eles? rr.sistôrrciir rpranto ao número de quilômetros que conseguiram corrcr sertì
lrrrrirr'. )s clirclos cstiro apresentados a seguir.
(
Um questionário foi aplicado aos dez funcionários do setor de contabilidade de
uma empresa fornecendo os dados apresentados na tabela. rr. (-)rr;rl ó ir vtriiivcl em estudo?
b. ('orrsllrrir o ltistograma.
Funcionário Curso (completo) Idade Salário (R$) Anos de Empresa
oÁ
e. ( )lrlt'rrltir o lnx-pktl.
supenor 1100,00 5
2 superior 43 1450,00 8 Faixas freqüência
3 médio 31 960,00 6 0t-4 438
médio 960,00
4 dl
24 600,00
8
4FB 206
5 médio
6 médio 25 600,00 2 8F12 125
1 médio 27 600,00 5 12 F I6 22
8 médio 22 450,00 2
I6 F 20 I
9 fundamental 2l 450,00 J
10 fundamental 26 450,00 J I0. lltrrrPo t[r rrtilizirçiio rlc citixus clctrônicos clcpcrrclc dc cada usuÍrio c rlits
a. Classifique cada uma das variáveis. tl lrrrirçÕr's r'lctrrirtlirs. liorarn colctadas 2(l rncclidas dcssc tcmpo (crn rnirtutos):
b. Faça uma representação gráfica para zì variírvel Curso.
l,t 1,2 1,7 0,Í) t.4 lr7 1,0 1,0 0,8
I ,l'r I ,:Ì I .(i I ,l-r
c. Discuta a melhor forma de construir a tabela de I'reqiiência para a vitriiivcl l,i l.(' 1,2 I,0 0,Í) l,g 1,7 [,5
I ,:t | ,,1 1,2 I ,ll I l-"r
a. Organize uma tabela defreqüência sem agrupar os dados. 6,1 612 617 615 6,9 6,3 714 7,6 7r7 7,6
b. Agrupe os dados em faixas de tamanho 0,2 a pattit de 0,8 e obtenha uma /tó 7r7 7,6 714 712 7,2 ító 716 7r5 7,4
nova tabela de freqüência. 7r5 7,7 8,2 8,3 8,1 8,1 8,1 7,9 7,8 714
c. Compare as tabelas obtidas em (a) e (b). Comente as diferenças' 7r5 716 7,5 716 7,4 író 714 7r5 7,5 714
d. Se ao invés de 26 medidas tivéssemos 1000, qual procedimento, dentre
agrupar ou não, você utilizaria? rr- ( )rgnnize os dados em faixas de tamanho 0,4 a partir de 6.
h. ('orrstrua o histograma.
11. Vinte e uma pacientes de uma clínica médica tiveram o seu nível de potássio
no plasma medido. Os resultados foram os seguintes: c. ('irlculc o segundo quartil.
Nível freqüência l.l. () lrirlcro de gols marcados no último campeonato daFederação Paulistl tle
liutclxrl pelos 20 clubes participantes nos seus 38 jogos é uma variável conl os
2,25 a 2,55 1
:;r'1it r i tttcs veìlores:
2,55 - 2,75 t
J
3,15 F 3,35 5
Clube 11 72 13 t4 15 16 17 IB 19 20
3,35 F 3,65 6
Gols 55 70 42 4L 6B 66 74 29 47 53
a. Construa o histograma.
b. Determine os 1e, 2e e 3e quartis. ir, ('lirssií'iquc iÌ variável. Você acha razoâvel construir uma tnbclit tle
c. Qual a porcentagem dos valores que estão acima do nível 3? l'r'ct;iiôncia de atcordo com a classificação dada?
Ir. ('orrslnrt unra tirbela de freqüência agrupando as observações em intcrvillos
12. Foram feitas medidas em operários da construção civil a respeito da taxa de
rlt, t:ornprirnento l0 a partir de 20 (não esqueça de indicar claráìnìclìto os
hemoglobina no sangue (em gramas/cm3):
irrlt't'vit los).
11,1 L2,2 LL,7 12,5 13,9 12,3 74,4 13,6 !2,7 12,6 r'. ( )lrtt'rrhir o histogranta.
11,3 II,7 12,6 73,4 L5,2 L3,2 13,0 16,9 15,8 L4,7 rt. (.)rrçr lrorccntagent dos clubes mârcaram mais de 38 gols?
13,5 L2,7 L2,3 13,5 15,4 16,3 L5,2 72,3 L3,7 L4,1
lã, A t;rlrclir ir soguir apresenta as freqtiências relativzts de ocorrências de lÌrixns tle
a. Organize os dados em faixas de tamanho 1 a partir do 1 1. illluut (r.nì cnt) para uma iìmostra de 100 criiìnçáìs de l2 anos de icladc.
b. Construa o histograma. ar, ('orrslt'ttit o histograma.
c. Determine o terceiro quartil e a mediana. lr, ( )lrlcrrhrr <t lxtx-ploÍ.
d. Taxas abaixo de 12 ou acima de 16 são consideradas alteradas e requerem r'. I )r'st'ilrnclo-so sopirral' os l5o/o mâis eÌltos, qual seria o ponto de cortc'/
acompanhamento médico. Obtenha a tabela de freqüência da variável
Acompanhamento Médico com duas opções sim ou não.
L3. O valor médio de comercializaçáo da saca de milho de 60 cluilos nir Bols:t clc
Cereais é apresentado abaixo, em reais, para últimos 40 meses.
28 Capítulo l: Introdução à Análise Exploratória de Dados I 'l l',ttn'ícios 29
90F95 10
I 106 1 2lo
2 222 2 342
95 F 100 2
3 338 J 109
a. Faça uma representação gráfica da tabela acima. 4 292 4 9l
b. Construa o box-plot. lr 164 5 35
c. Comente a afirmação do fabricante. totitl 7I22 total 787
17. Uma nova ração foi fornecida a suínos recém desmamados e deseja-se avaliar 19, ('orrrtl ;lrltc do uurn avaliaçiro rnédica em uma certa universidade, fbi rneclirln
sua eficiência. A ração tradicional dava um ganho de peso ao redor de 3,5 kg n lrr'r1íiôrrciir cirrdíitca clos alunos do primeiro ano. Os dados são rprcscrttaclos
em um mês. A seguir, apresentamos os dados referentes ao ganho, em quilos, elrt:ir'1',ttirlit.
para essa nova ração, aplicada durante um môs em 200 animais nas condições it. ( )lrtrrrlrir o histograrna.
acima. ll, lirctl(lêrrciirs cnrclíacls quc cstc.ianr rbaixo de 62 ou ercima de 92 rccluercrn
a. Construa o histograma. irlrrrrrpirnlrirrrrcrrto rnéclico, Quirl ó n porcentiÌgem de alunos rìcssits
b. Determine o 1e, 2e e3e quartis. r ltttliçotrs'/
c. Você acha que a nova ração é mais eficiente que a tradicional? Justifique. r', llrrur Íì'cr1ílôrrcil iur rcclor clc 72 baticlas por nrinuto ó considerada paclriìo,
Vor't' irt'lrir rprc dc nroclo gcral csscs alruros sc cncaixaln ncssc caso'Ì
.to Capítulo I: Introdução à Análise Exploratória de Dados I J I t,'ttít'irts 3t
90F95 1
I -L2 0,25
95 F 100 3
72-15 0,30
15F20 0,23
20. Um exame vestibular para uma faculdade tem 80 questões, sendo 40 de
português e 4O de matemática. Para os 20 melhores classificados, It, lfr.st. jir-sc comparar três técnicas ciúrgicas pata a extração de dente de siso,
apresentamos o número de acertos em cada disciplina, em ordem decrescente ('itrlir trrttir clas técnicas foi aplicada em 20 pacientes e os resultados sÍio
do total de pontos. apt r'st'rrtirrlus a seguir.
a. Organize uma tabela de freqüência para cadavariâvel.
ït
10
b. Faça uma representação grâfica das tabelas obtidas em (a).
F
c. Construa a tabela de freqüência da variável total de pontos. .qo
!t
d. Comente sobre a afirmação: os aprovados são melhores em português do ã
que em matemática.
'8. I
E
c)
o.
a,
o
aluno 1 2 J 4 5 6 7 8 9 10 d)
Português 35 35 34 32 31 30 26 26 24 23 s6
Matemática 27 &
31 29 28 28 26 30 28 25 23
Es
c)
t3 I9
t--"
aluno 11 t2 T4 15 T6 t7 18 20 4
Português 23 L2 11 20 17 T2 L4 20 B 10
t.\
Matemática 27 òz 31 20 27 25 20 13 23 20
Técnica cirúrgica
21. Vinte baterias para automóveis de uma certa marca foram testadas quanto à
*r, lirrr rrrínr virlrlrcs a1-lloximados pilráì er mediana de cada técnica,
sua vida útil. O teste simula autilização da bateria, acelerando seu desgaste de
rnodo a criar uma réplica da situação real. Os resultados da durabilidade (em
b,ll tttlrtvttltt ittlerqltdrtil. é, dcl'inido colno eÌ dil'erença entre o tcrccirc c rr
1rr irtrt'iro rlttiulis, Cllculc scu valor para cerda uma das técnicers e comentc.
mcses) são apresentados a seguir:
.:. llir('ulit rr vlrrilrllilidlrclc do tcnìpo dc rccupcração ern cada técnica.
a. Construa o histograma.
ri. ,'jt, r'rrr't-' t'r otirrrisla, clual tócnica cscolhcria'l
b. Se a amostra acima for considerada representativa do desempenho desszr
rïiìrceì de bateria, quantas, em 1000 fabricadas, serão repostas pelo 3ì, tllr*. o corrrPrrlirtlor') Os cllclos a scguir representam indivíduos que Íbtlrrr
labricante, se ele oí'erece 6 meses de garantia? r {r!rl'urinrr(krs llr,tlo vcrìclìo clc um ccrto tipo clc inseto e submcticlos ir
Irrllrlrrí'nl() (tr'ês rliI'crcnlos Iipos). As virriiivcis são:
-t2 Capítulo l: Introdução à Análise Exploratória de Dados I ,-t l','rrn'ír:ios 33
No.: número associado aos pacientes; Atrlvés do computador, crie uma planilha com os dados apresentados.
Diag: tempo, em horas, gasto entre o contato com o inseto e l. Cltssifique cada uma das variáveis.
ll. Construa uma tabela de freqüência (através do computador) para a
administração do tratamento;
viriável Diag. Utilize 5 classes.
Recup: tempo, em horas, entre a administração do tratamento e
lll. Através de representaçáo grâfica adequada, compare os três tratameÌìtos
recuperação; corn relação à idade dos pacientes. Você diria que a idade se distribui
Tratam: tipo do tratamento administrado; Itotttogeneamente nos três tratamentos?
Coag: presença de coágulos no momento de admissão. lv. l{cpita o item (iii) para a variável Coag.
b, Strltctrrha, que ao invés de trabalhar corn a variâvel ldade, cria-se uma novÉl
Pac.No. Idade Diag Recup Tratam Coag vuriírvcl denominada Etário, assumindo valor 0 se Idade for menor que 29
T9 28 7 3 II nao rlnos c I caso contrário. Utilizando o computador:
4 15 52 45 I nao l. lixplique como você poderia criar tal variável.
27 76 30 23 IIÌ slm ll, Construa um box-plot para a variável Recup, para cada grupo de Etário,
7 15 53 46 I stm Corn base nos gráficos, você diria que o tempo de recuperação é diferente
14 2l 3 2 II nao dependendo da faixa etâria? Justifique sua resposta'
5 11 46 42 I nao €, tJmn nova variável denominada Cura é criada: Cura será rópida se Recup
11 16 55 47 I nao frrr rnenor ou igual a 10, será normal se entre 10 e 40 (inclusive) e serí lentct
54 41 I m pnt'n lìccr.rp acima de 40. Verifique, graficamente, se pacientes em cada umit
10 16 S
37
38 Capítulo 2 : Probabilidades ?,1 ltitit,tlttl'ãtt 39
D efínição 2. 7 : Probabilidade flËl:n popullção, definimos a probabilidade dele ter uma certa idade pela
fuqttêrre irr rclativa associada à respectiva idade. Assim,
uma função P(.) é denominada probabilidade se satisfaz as condições:
P(17) : 0,18; P(18) : 0,44; ...; P(25) : 0,04. tr
?) 0< P(A)< 1,VÁcQ;
i,i,) P(A) : r; No 1lróximo exemplo, obtemos a probabilidade da união de eventos.
iiü P(UAj) : t P(Aì, com os Á7t disjuntos. 2.2; Considere a Tabela L2 do Capítulo 1, contendo informações a
j:t .i:r r tlirs Íì'cqiiências da variável Sexo. Sabendo que 52Vo dos alunos estão na
tr A e 48Vo niÌ turma B, suponha que escolhemos um estudante ao acaso da
lnçno, Quirl seria a probabilidade de escolhermos um estudante do sexo
A
pergunta que poderia surgir seria: como atribuir probabilidades aos r ott itlguérn da turma B?
elementos do espaço amostral? Há duas maneiras principais de responder essa l)rrs inÍbrrnações a respeito da freqüência relativa acima e da Tabela 1.2,
questão.
A primeira delas consiste na atribuição de probabilidades, baseando-se
em características teóricas da realizaçáo do fenômeno. Por exemplo, ao lançarmos /'(/") : 0,74, P(M) :0,26, P(A) :0,52, P(B): 0,48.
um dado, temos o espaço amostral 0: {1,2,3,4,5,6}. Admitindo que o dado
trilidrrdc que precisamos determinar pode ser representada por P(F U B),
foi construído de forma homogênea e com medidas rigorosamente simétricas, não
guLl se sirnplesmente somarmos P(.F') com P(B), obtemos uma somn
temos nenhuma razão para privilegiar essa ou aquela face. Assim, consideramos
P(1) : P(2) :. '. : P(6) :716. Flor l I , E,videntemente isso não pode acontecer, pois o valor clu
llidnde poclc ser, no máximo, igual a 1. Não é difícil perceber que estamos
Uma outra maneira de obter probabilidades é através das freqüências de
n trlg,rrns elcmentos duas vezes, pois ao considerarmos apenas estudantcs
ocorrências. Observando as diversas repetições do fenômeno em que ocorre a
t€Xo l'errrinino, temos estudantes da turma A bem como da turma B e ao
variável de interesse, podemos anotar o número de ocorrências de cada valor
los upotìeìs iÌ turn'ìa B, temos estudantes do sexo feminino e masculino,
dessa variável. Para um número grande de realizações, a freqüência relativa
on r:sluclnntcs do sexo feminino e da turma B, isto é, o evento F O B, estd
poderia ser usada como probabilidade. For exemplo, desejando estabelecer as
Ito rlvcnlo ,Í;' c também no evento B.Logo, precisamos subtrair umiì vez
probabilidades de cada face de um dado sem fazer nenhuma suposição inicial
n IJ) ;turn obter a probabilidade correta. Desta forma, temos qllc il
sobre sua construção, usamos a experiência de sucessivas ocorrências. O ponto
ilitlrrtle rlit uniÍo FU B é igual àsomadas probabilidades de ,F' e B menos
delicado é decidir quanta experiência é necessária para se fazer a atribuição de
lirlnrlc rlu intersccção f' O B. tr
probabilidades, com alguma garantia de não se estar muito distante do verdadeiro
valor. Questões dessa natureza não serão discutidas aqui e fazem parte doS A plohnbilidaclc da união de eventos é calculada através da regru dct
capítulos de inferência estatística. Por ora, vamos assumir que, à medida que O tltt ltnilnhilitlutlcs apresentada niì Figura 2.1. Não faremos unlu
número de repetições vai aumentando, as freqüências relativas se estabilizam em àlf ÍrçÍio lìrrrnul, pois ncreditamos que o resultado é bastante sirnples c
um número que chamaremos de probabilidade. Em ciências biológicas e humanas, itivo,
essa é a forma mais comum de atribuir probabilidades.
De modo geral, diremos que estamos fazendo um sorteio aleatório ou ao
acaso em uma população, se a escolha desse ou daquele elemento só depende da
probabilidade a ele atribuída, seja através da freqüência relativa ou de algumit
suposição teórica.
Exemplo 2.1: Para a variável ldade, ver Tabela 1.3 clo Capítulo l, o cspitço ltignra 2.1: Ilegru de adição dc probahiliclaclcs.
amostral será f) : {17,18, .. . ,25}. Supondo que um aluno é escolhiclo ao iÌcoso
Capítulo 2 : Probabilidades 2.2 P robab ilidade Condic ional e Indep endêncía 4T
40
Observe qu€o, se A e B forem disjuntos, a expressão acima se reduz à linguagem da Teoria dos Conjuntos, as seguintes situações:'
sorna das probabilicdades dos eventos A e B, pois a intersecção é vazia e a a. Pelo menos um dos eventos ocorre.
correspondente probabilidade é nula. A regra de adição de probabilidades pode b. O evento Á ocorre mas B não.
ainda ser expandidan para mais de dois eventos. Jente, por exemplo' escrever a c. Nenhum deles ocorre.
expressão para P('$UBUC) considerando D: Bl)C e aplicando a regra de cl. Exatamente um dos eventos ocorre.
adiçãro de probabilid,lades duas vezes. 3. Uma universidade tem l0 mil alunos dos quais 4 mil são considerados
Comq cons€eqüência da regra da adição, obtemos que, para qualquer csportistas. Temos, ainda, que 500 alunos são do curso de biologia diurno, 700
evcnto A c {1, cla biologia noturno, 100 são esportistas e da biologia diurno e 200 são
P(A):I-P(A'), csportistas e da biologia noturno. Um aluno é escolhido, ao acaso, e pergunta-
sc a probabilidade de:
que pode ser verifiúcada aplicando a regra da adição com Ac no lugar de B. a. Ser esportista.
Tctnos, b. Ser esportista e aluno da biologia noturno.,-:l
tr(Art A') : P(A) + P(A") - P(AÀ A") c. Não ser da biologia.
: p(A) + P(A') - P(A) d. Ser esportista ou aluno da biologia.
: p(A) + P(Á") c. Não ser esportista, nem aluno da biologia. À ,---
- 0. (,,,-/
:9,2,
4. Sejam A e B dois eventos em um dado espaço amostral, tais que P(A)
Como P(Au A) : P(Cl) : 1, segue imediatamente a igualdade desejada' P(B) : p, P(AU B) : 0,5 e P(A n B) : 0,1. Determine o valor de p.
Definíção 2.2 : Probabilidade c ondicional P€les srrposições iniciais, 1/ í) B : H e entáo, P(H n B) : P(H): 0,02.
Dados dois eventos A e B, a probabilidade condicional de Á dado que Ettln,t,
ocorreu .B é representada por P(A I B) e dada por
P(!,1,8). PíB)
P(Htrl:r#ã?: ffi:0,025
'|P(Al
\ B\ '
: P(B) \ /' > 0.
â ftgur rr, n scguir, apresenta o efeito da informação l no espaço amostral'
Caso P(B) : g, P(Al B) pode ser definido arbitrariamente; neste texto
usaremos P(Al B): P(A). tr
Exemplo2.3.' Considere a seguinte situação hipotética. Uma grande região de 100
km2 contém um aqüífero (reservatório de água) subterrâneo com ârea igual a 2 O = Região (100 km2)
km2, cuja localização é_ desconhecida (ver figura a seguir). A fim de determinar a
posição do aqüífero, perfurações são feitas ao acaso. Vamos representar por If o
evento de encontrar água. Temos P(H): 0,02, obtido pelo quociente da área do
aqüífero pela área total, onde usamos que o espaço amostral é f) : {região de 100
k*tÌ.
@ e:ptrç,, rrtttostral perdeu 20 kmz , que é a área descartada para novos furos, tr
l)rr tlcÍ'iniçiro de probabilidade condicional, deduzimos a regra do produto
Suponha agora que, após uma ano de pesquisas, uma área de cerca de 20
fr Stnilultililrulcs, uma relação bastante útil que é apresentadanaFigura2'2,
km2jâ foi amplamente perfurada sem encontrar água e pode ser descartada para
novos furos. Representamos essa informação por 1. Qual seria, agora, a,
correspondendo a área total inicial menos a parte que foi descartada para novas etêrrl.t,\', rllrL1 rict'ii utiliznclo rcpeticlitntcntc ao lottgo de toclo o texto'
tentirtivits. Temos que P(B) : 0,8. O evento H a B representa a ocorrôncin dc,
scrn ncnhuma informação etuxiliar, çncontrarmos água num Í'uro f'eito na regiiro .R.
44 Capítulo 2 : Probabilidades
P rt tl t il ti I i r k u I c Co ndic ional e Indep endê nc ia 45
Ca)Ci:Q i'+i
1,
Para e U Ci:9.
.i:t tr
A Figura 2.4 apresenta um exemplo de uma partição com 6 eventos. A= (A nFr) u (A.F) u (Ánq)
uittcln,estar interessados em saber qual a probabilidade de que a amostra
tenlrir siclo obtida do leite fornecido pela fazenda F1, isto é,, P(4lA),
lmpllen erìì se inverter a probabilidade condicional conheciOa P(ÁlF'1).
conro cssa são típicas para o uso do resultado apresentado a seguir, tr
dc llnycs: Suponha que os eventos Ct,Cz, ... ,Cn formem uma
íl e que suas probabilidades
çle sejam conhecidas. Suponha, ainda, que
EFl evr:ttlo A, se conheçam as probabilidades P(AlCt) para todo
11 3, ,, . , ft, lintão, para qualquer j,
Figura 2.4: Partição do espaço amostral (k=6).
P(A I cò P(c j)
I'(C,il A) :
Exemplo 2.5.' Suponha que um fabricante de sorvetes recebe 20Vo de todo o leite
que utiliza de uma fazenda F1, 307o de urìa outra fazenda F2 e 50Vo de -F's. Um D p(A I cr) p(cr)
i:l
órgão de fiscalizaçáo inspecionou as fazendas de surpresa e observou que20Vo do
leite produzido por .F'1 estava adulterado por adição de água, enquanto que para rãção: t)r clcl'inição de probabilidade condicional temos
F2 e Fs, essa proporção era de 57o e 2Vo, respectivamente. Na indústria de
P(ci I A) :
P(C1n A)
sorvetes os galões de leite são armazenados em um refrigerador sem identificação
das fazendas. Para um galão escolhido ao acaso, vamos analisar o leite para
P($
decidir sobre sua adulteração ou não. ãËEtettdor dcssl expressão pode ser reescrito 'pela regra do produto,
Se denotarmos por Á o evento "o leite está adulterado", temos que lgnedo rì f,'i, isto é,
P(Al.p'r) : 0,20, P(Al Fz):0,05 e P(Al rs):0,02. Além disso, .F'1, F'2 e P(A;1n A) : P(AÀCì : P(Al C,:j)P(C.j).
,F3 formam uma partição do espaço amostral pois uma dada amostra de leite vem,
necessariamente, de uma e apenas uma das três fazendas. Desta forma, o evento Á EEttlFletnr u clentonstraçiro note quê
pode ser escrito em termos de intersecções de Ácom os eventos F1, F2 e F3, l;
r,,(A) :Dnra.ìci) :Do(1l
À:
I
? ( t,' u \") -- T ((trn.r1') -Ì lC-0" v-w d"t- J'lv'ng.r.,rzn i, ( àÒ a) b'\ - P ( ('*t'r',-,ll' )
48
'"
.
^\ Capítulo 2: P
rr(È,. s') p[n'', -? (al@) 49
l
l/
Exemplo 2.6: Yoltando à situação do fabricante de sorvetes (exemplo anterior), I
rt ttÍ'irttritção: se dois eventos são mutuamente exclusivos então eles'
podemos agora calcular facilmente a probabilidade desejada, isto é,
lnrlelrcttclcntes.
P(.il)
P(FrlA):--i(A)-A) Pgulo llutebol Clube ganha com probabilidade 0,7 se chove
Éeve, l'inr Sctcrnbro a probabilidade de chuva é de 0,3.
;e com 0,8 se
O São Paulo
P(A I F'l)P(rl) ull1n l)nrticln em Setembro, qual a probabilidade de ter chovido nesse
,
P(Frlrl: :0,615.
reíelos
Portanto, a probabilidade de que a amostra de leite em questão tenha si fuedn é vicitclu de modo que a probabilidade de sair cara é 4 vezes maior
produzida pela fazenda F1é, de 0,615 em contraste com as probabilidades 0,231 I de urir coloiì. Para 2 lançamentos independentes dessa moeda,
0,154 para as fazendas F2e F3, respectivamente.
p@btthiliduclc de sair somente uma cara.
Exercícios da Seçáo 2.22
pbchiliclnde dc sair pelo menos uma cara.
L. Considere dois eventos A e B, mrtuâmente exclusivos, com P(Á) :0,3 ffebntrllidurle de dois resultados iguais.
P(B) :0,5. Calcule: urrr conjunto de 4 números dos quais nenhum deles é zero, dois são
a. P(An B). c dois sÍio negativos. Sorteamos ao acaso, com reposição, 2 números
b.P(Au B). /-t / €enjunto, l)eterrnine a probabilidade de:
c.P(Al B). (-" deler r,rer negntivo.
d. P(A.). qune ietrle set negativo.
e. P((A u B)").
dclr núrrrerc)s terem o mesmo sinal.
2. Se P(AU B) : 0,8;P(Á) : 0,5 e P(B) : r, determine o valor de rno caso He sf,o vrlliclas ats afirmações:
de: á) - lllaf'@ lÁ) :3/5então AeB
:
nãopodemserdisjtrntos'
a. Ae -B serem mutuamente exclusivos.,
b. Áe B serem independentes. U'
& ntá) -- 12,l'(Dl A):r I e P(A lB) Lf2 então An'/ao pode estar
€€f,tldn ettt /J.
3. Uma escola do ensino médio do interior de São Paulo tem 40Va de estudanteg €lÉrce dr, estuíística tcve a seguinte distribuição das notas finais: 4 do sexg
do sexo masculino. Entre estes, 207a n]unca viram o mar, ao passo q\Ìe, entre AÕ lnu c fi clo Í'crnirrino íbram reprovados, 8 do sexo masculino e 14 do
meninas, essa porcentagem é de 50Vo. Qual a probabilidade de que um aluno ãlno frtrurn ttprovndos, Para um atluno sorteado dessa classe, denote por M
selecionado ao acaso seja: Ëlutto eseollrirlo íbr do scxo masculino e por Á se o aluno foi aprovado.
a. Do sexo masculino e nunca tenha visto o mar?
'/
b. Do sexo feminino ou nunca tenha visto o mar? F1d t=t ltl";,
a.SeP(f) :0,4;P(A) =0,7e P(A nr) = 0,3;calculc P(AI D"), F(é' rr ilI"),
F(d | /1/).
50 Capítulo 2 : P robabilidades Ëfét'r't{'ií,,f
5t
d.P(M'I A). €F ttttr l)uirrg existem três empresas de TV a cabo e 20 mil residôncias. A
e,P(M I A). 'l'A lcrn 2100 assinantes, a TB tem 1850 e a empresa TC tem 2600
Ë:in1ttl,,s, scttclo que algumas residências em condomínios subscrevem aos
?eças produzidas por uma máquina são classificadas como defeituosas, lçr'u tlc: urais de uma empfesa. Assim, temos 420 residências que sito
,"c,rpe.ãveis ou perfeitas com probabilidade de 0, 1 ; 0,2 e 0,7 ; respectivamente. Irlr:s tlo TA e TB, 120 de TA e TC, 180 de TB e TC e 30 que sito
De um grande lote, foram sorteadas duas peças com reposição. Calcule: rrtrs tlns trôs empresas. Se uma residência desse bairro é sorteada ao
ruu, quttl é l probabilidade de:
a. P(duas serem defeituosas)
b. P(pelo menos uma ser Perfeita).
ËFr nssirrlrrtc somente da empresa TA?
c. P(uma ser recuperável e uma perfeita).
E se o A$lttnr 1rclo tncnos uma delas?
,,@)t"Oiqu. as suposições utilizadas para resolver os itens anteriores. !ÍEe t.'r''l'V n cabo?
vsorteio for sem rePosição?
I gttrrrit'ios guardam as bolas de voleibol e basqüete. O armário 1 tem 3
6.Paradois evento s A e B,num mesmo espaço amostral, verifique, através ile um de vrrleibol eI de basquete, enquanto o armário 2 tem 3 bolas de
diagrama, que é sempre possível escrever o evento A como sendO I r' ? clc basquete. Escolhendo-se, ao acaso, um armário e, em seguida'
çe"o A1U (Á n B") e que, portanto, vale P(Á)
: P(An B) + P(AÀ B")'
tle runs bolus, citlcule a probabilidade dela ser:
7. Numa cidade do interior de São Paulo, estima-se que cerca de 20Va doS p€ vok ibol, sitbcndo-se que o armário 1 foi escolhido' -
habitantes têm algum tipo de alergia. Sabe-se qne 50Vo dos alérgicos praticam ãà burq,,.,*, sitbcnclo-se que o armário 2 foi escolhido.0
esporte, enquanto que essa porcentagem entre os não alérgicos é de 407o'PatA fu buE,lrrcte,
um indivíduo aleatoriamente nessa cidade, obtenha a probabilidade
"r"olhido Fgclctrtcs clc uma Clínica de Ginecologia com idade acima de 40 anos,
de: tõrr rrrr lìrtrn casadas e 407o são solteiras. Sendo solteira, a probabilidnde
a. Não praticar esporte. ' ',
ëf tlrlo urn rlistúrbio hormonal no último ano é de I07o , enquanto que poftl
b. Ser alérgico dado que não pratica esportes.
ftnrn I r e sstt probnb i I idade aumenta para 30Va' Pergunta-se :
8. As preferências de homens e mulheres por cada gênero de filme alugado em QU*rl tr prtoltnbiliclade de uma paciente escolhida ao acaso ter tido um
uma locadora de vídeos, estão apresentadas na próxima tabela' dlrlúr'trirt ltortttottal ?
Romance Policial ãe A pncierrte sortcada tiver distúrbio hormonal, qual a probabilidade de ser
Sexo \ Filme Comédia
:sltëit'u'/
248 é
Ë€ excullr!'rnus cluits pacientes ao acaso e com reposição, qual
Homens 136 92 a
Mulheres r02 195 62
pfolruhilirlittlc clc pclo lrenos uma ter o distúrbio?
Sorteando-se, ao acaso, uma dessas locações de vídeo, pergunta-Se A
Yt*ê elttr,'g.tt il s!:tl amigo uma cartáì, destinada à sua namorada, parat sgt
probabilidade de: :4111 tro crtrrcio. Entrcttnto, ele pode se esquecer com probabilidade 0,1 .
a. Uma mulher ter alugado um filme policial? llãu Er. i,sr.lltec:cl', l probltrilidacle de que o correio extravie a carta é de 0'1,
b. O filme alugado ser uma comédia? êlSetttr:, st: liri cnviacla pclo correio a probabilidade de que a namorada nlio
c. Um homem ter alugado ou o filme ser um romance? * tscehrr rt tL: 0, I .
d. O filme ser policial dado que foi alugado por um homem? 1 Efu trrrrturt'urlit ttíio rcccbctt o carta, qual a probabilidade de seu amigo tel
prquecirto tlc crtlocít-la no corrcio'l
,f,Ooit dados equilibrados são lançados' Calcule a probabilidade de:
a. Obter o par (3,4), sabendo-se que ocorreu face ímpar no prirneiro dado. br Avrrltr, rrs llossillilidnclcs clcsse rlanìoro cotttinuar, se aÌ comunicaçiio
,,'i'
' Ètepett,l,,r rltts ctrtits ottviitdas.
ll. Ocorrcr face ímpar no segundo ditdo, sabenclo-se quc ocorrcu íacc par nO
pritttciro dado.
52 Capítulo 2 : Probabilidade 53
Ëtçtr t,',,,.r
14. Numa certa regiáo, a probabilidade de chuva em um dia qualquer de Flnr'rtttlt'ttt' ígua em até duas tentativas.
primavera é de 0,1. Um meteorologista da TV acerta suas previsões em 807o Eneottlt'rtr iigtta.
dos dias em que chove e em907o dos dias em que não chove.
a. Qual é a probabilidade do meteorologista acertar sua previsão? UFt ttrrurlico closconfia que um paciente tem tumor no abdômen, pois isto
b. Se houve acerto na previsão feita, qual a probabilidade de ter sido um dia de nn 70(k' clos casos similares que tratou. Se o paciente de fato tivcr o
chuva? , u rxnnìo rrltra-som o detectará com probabilidade 0,9. Entretanto, se ele
tlvr.r o lurÌror, o exame pode, erroneamente, indicar que tem com
15. A tabela a seguir apresenta informações de alunos de uma universidade lirlirrle 0,1. Se o exame detectou um tumor, qual é a probabilidade clo
quanto às variáveis: Período, Sexo e Opinião sobre a Reforma Agrá'ria, lcnte tô lo tlu ílto?
Determine a probabilidade de escolhermos:
t*helu dos 1000 ingressantes de uma universidade,
rt segttir itpresenta dados
a. Uma pessoa do sexo masculino e sem opinião sobre a reforma agrâria?
lnfolrrrrrçt'ics sobre área de estudo e classe sócio econômica.
b. Uma mulher contrária a reforma agr6,ria?
c. Dentre os estudantes do noturno, um que seja a favor da reforma agrâria? Area \ Classe Alta Média Baixa
d. Uma pessoa sem opinião, sabendo-se que ela é do sexo feminino? Exatas L20 156 68
Período Sexo Reforma Agrária Humanas 72 B5 LL2
Biológicas 169 I45 -q
A Favor
ÍL)
Masculino 8 9 8
&r du clussc cconôtrrica mais alta.
&tg,l,tt'ttu rit'cit clc exatas.
Noturno Feminino 4 8 2
&tu,lgr t,,, 1il'r:iì dc humanas, sendo de classe média.
Masculino T2 10 I ãgf du r'lrsstr bitixit, clado que estuda na ârea de biológicas.
16. Três candidatos disputam as eleições para o Governo do Estado. O candidato it probabilidade de gostar de teatro é, Il3, enquiìnto
t'r:r'lrr poprrlitçiro,
do partido de direita tem30Vo da preferência eleitoral, o de centro tem307o e o Ë tlc gostlr rlc cinerna é 112. Determine a probabilidade de gostar de tcatro
da esquerda 40Vo. Em sendo eleito, a probabilidade de dar, efetivamente, :lc citrt'rttir, rtos scguintes casos:
prioridade para Educação e Saúde é de 0,4; 0,6 e 0,9 para os candidatos de €grlnl'rlt, lerrtnr o gostilr cle cinema são eventos disjuntos.
direita, centro e esquerda, respectivamente. €lnrttu'rh' lntltrr o gostar de cinema são eventos independentes.
a. Qual é a probabilidade de não ser dada prioridade a essas áreas no próximo Fgd,,r rlllr' ÈloslnrÌì clc teatro gostáìm de cinema.
governo? A Frrihirlrilirlrtrlo clc gostitr de teittro e de cinema é Ll8.
b. Se a área teve prioridade, qual a probabilidade do candidato de direita ter t flenlre os (lueì niÍo gostam de cinema, a probabilidade de nãro gostar de tcitlro
,.
,.,,.
ganho a eleição? É ;l/.1,
lf:.Uma companhia que fura poços artesianos trabalha numa região escolhendo, I TÉr hilrrir'ns lìrrnccctn ecluipamcntos de precisão para o laboratório tle
"âleatoriamente, o ponto de furo. Não encontrando água nessa tentativa, sorteio lpflnlr.rt rlr' untit ttttivct'siditcle, Apesar cle serem aparelhos de precisão, cxiste
outro local e, caso também não tenha sucesso, faz uma terceira e últirnn EFa p€rlut'nl clrirrrco clo subcstirnirçÍo ou superestimação clas rnecliclns
tentativa. Admita probabilidade 0,7 de encontrar água em qualquer ponto dcssn *lttit,lrrq A tlbcln it scgttit' aprcscnta o collportamcnto do equiparncnto
regiãro. Calcule a probabilidade de: Fdttrl,l,, t'!!t t'iltlll I'iillricl:
a. Encontrar írguir na seguncla tcntativa.
54 Capítulo 2: Probabi E.ttt't'it'irts 55
Fábrica I Subestima Exata Superestima ãUporrhl que X represente o número de horas de atividade física por semana.
Probabilidade 0,01 0,98 0,01 €cnriirlcrc a tabela a seguir:
dele ser do sexo feminino? çrrlr rlrl'irritlls courcl discretas ou contínuas, porém essa atribuição não é
c. Qual seria a probabilidade de escolher um morador do Jardim Raposo quo e rlt';rt.trth-r tkr irrstrumento de medida e do estudo que está sendo feito.
tenha acesso a computador? Életttlrlrr, rr virliiivol tninrero dc,filltos em.famílias é discreta, enquanto o
d. Determine a probabilidade de escolher um entrevistado qr"re tcnha vinclo clo clr te'tt1'titt u utn t:erlo mulicdnrcnÍ.o ó contínua. A discussão sobre
nordeste, seja do sexo feminino e estír trabalhando. Se esse rnoraclor Íbi iflr.ttç;to rh' vrrliiivcis, lbitn lro Capítulo l, serír utilizada em todo o texto e a
escolhido, qual é a probabilidaclc delc tor cartcira assinacla? fEl rtl:.'tttrrt'itt ir itcrcscicln itqui pttt'it inclicar qtle, áÌ cada possível valor,
r!1 unut prohullilidnclc clc ocorrôlrciu. No caso discreto, a atribuição é
57
58 Capítulo 3: Varidveis Aleatórias Disc 59
folr,t,lrt1,t,,
ou ainda, tr
Dessa forma, se o jogador obtém 5 e a banca 6, temos G : 0 pois j < b (5 < ã,2: Itunção de distribuição de probabilídade
Por outro lado, se o jogador tira 3 e a bancaJ, o valor do ganho bruto do j $ Jiutr;iltt dc tlistribuição ou função acuru.ulada de probabilidade de uma
serâG:2x(3-1):4. ãlerrlririrr cliscretzr X é definida, para qualquer número real r, pela
O espaço amostral, correspondente a uma jogada, é apresentado a €xpl'rsstìo:
através dos pares (b, j): !
F(r): P(X < r) n
(1,1) (\,2) (1,3) (r,4) (1,5) (1,6
(2,1) (2,2) (2,3) (2,4) (2,5) (2,6
J,.f,' llrrt população de 1.000 crianças foi analisada num estudo para
(3,1) (3, 2) (3,3) (3,4) (3, 5) (3,6
n cl'ctiviclnclc de uma vacina contra um tipo de alergia. No estudo, as
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6
fer.t:lrirrnr r.rrna dose de vacina e, após um mês, passavam por um novo
(5, 1) (5,2) (5,3) (5,4) (5,5) (5,6
r rritrrlir livcsscm tido alguma reação alérgica, recebiam outra dose da
(6,1) (6,2) (6,3) (6,4) (6,5) (6,6
Ao lirrr rlc.5 closcs todas as crianças foram consideradas imunizadas. Os
O valor G : 0 acontecerá quando o ponto do jogador for menor ou unrrr;rletos cstÍo na tabela a seguir.
ao da banca. Esse caso corresponde ao seguinte subconjunto do espaço
l)oses 2 3 4 5
í'r'ccy. 245 28tì 256 t45 66
64 Capítulo 3: Variáveis Aleatórias Discre 65
Supondo que uma criança dessa populaçáo ê sorteada ao acaso, qual será I(.r)
probabilidade dela ter recebido 2 doses? Utilizando a idéia de atribui
l,Õoo
probabilidade através da freqüência de ocorrência, a probabilidade desejada é
9,954
288/1000:0,288. A função de probabilidade da variável aleatíria número
doses recebidas fica sendo: Õ,7fltl
0,145
€,É113
Note que, tendo em vista que avariánel só assume valores inteiros, esse valor 012s45
inalterado no intervalo 12,3).Isto é, F(2,L);F(2,45) ou F(2,99) têm todos
mesmo valor acirn*a. Por essa razão escrevemos: I,'lgura 3.2: Função de distribuição - doses de vacina.
F(r):P(X<r) :0,533 Pata2 (r(3' 3,6.' Nurn cstudo sobre a incidência de câncer foi registrado, para cada
eonr essc diagnóstico, o número de casos de câncer em parentes
Os valores completos da função de distribuição são os seguintes: (pais, ilrniros, tios, filhos, primos e sobrinhos). Os dados de 26 pacientes
irttes:
0
.ser<1;
0,245 se 1( r 12;
se 2( r13;
: 0,533
se 3(r14;
",r, 0,789
0,934 se 4( r15;
5
(freqüência esperada) é calculado coÍno €i:26x pi. Note que os valores tlc Scçõo 3.1:
esperados não precisam ser números inteiros, pois representam uma freqüência
teórica caso o modelo fosse adequado. A tabela a seguir apresenta os resultados: fltu*rlii viciada tem probabilidade de cara igual a 0,4. Para dois
nlos itttlcpcndentes dessa moeda, estude o comportamento da variável
rlet rttnlr c lìrça um gráfico de sua função de distribuição.
Incidência n; (observados) ei (esperados)
4
bgcu ltrt itrlìlrrnação que você conhece, crie os valores e as respectivas
0 216
lirlrrrlcs f)ura a variável número de filhos em famílias, no caso da
1 4 216
lsçõn eonsiclcrada ser:
2 6 7,8
€lgx*e rtrr"ídil paulistana.
3 6 7,9
hehitntrtcs clo interior do Maranhão.
4 2 216
5 4 216 ëgtttittlro lturit chcgar a uma festa pode ser dividido em três etapas. Sem
total 26 26 o tlrr.jeto ó I'cito em t hora. Se enganos acontecem na primeira etapa,
[e l0 rninutos ao tempo do trajeto. Para enganos na segunda etapa, o r,'l',1
,t v
se r<10;
se 10(r1I2;
Notamos que os dados observados seguem a mesma tendência do P(r) : se 12(r<13;
teórico, porém seus valores são dis-crepantes. É uma amostra pequena, mas se 1"3 ( r 125;
não haver boa adaptação entre os dois conjuntos de números.
{ü se r)25.
I
68 Capítulo 3: Variáveis Aleatórias Disc I t lt't t n la lr ts D iscretos 69
Em muitas situações práticas a variável de interesse assume somente {F r'nrrsllrril a /rrvore de probabilidades, consideramos que a escolha dos
valores. Por exemplo, â peça éclassificada como boa ou defeituosa; or loi I'cilir a partir de uma população muito grande. Dessa forma, cadit
entrevistado concorda ou não com a afirmação feita; a vacina imunizou ou ebuullritkr torn probabilidade 0,80 de estar imunizado, independente dos
criança. Estas situações têm alternativas dicotômicas, que genericamente vírlrros rllr população. Se classificamos como sucesso a ocorrência dc
ser representadas por respostas do tipo sucesso-fracasso. A atribuição de qual r, lururs ir repetição independente de três ensaios de Bernoulli.
{Lle rlt'srrjirnros estudar o comportamento da variável X: número dc
respostas será referida como sucesso é feita de modo arbitrário, mas deve
definida claramente para evitar ambigüidades. Esses experimentos recebem llrrrrrrizrrrkls nesse grupo. Ela assume os valores 0, 1,2 e 3 cont
nome de Ensaios de Bernoulli e dã,o origem a uma variável aleatória com le,ri t'ir['rrlirclas com o auxílio da árvore e apresentadas na tabela:
mesmo nome.
Dffinição 3.4: Modelo Bernoullí Eventos Probabilidade X
TTT 0,8' J
Dizemos que uma variável X segue o modelo Bernoulli se atribui Õ ou
ocorrência de fracasso ou sucesso, respectivamente. Com p representando ITI'' 0,Bz x 0,2 2
p
[( J J(: 0,8 x 0,2" 1
Definíção 3.5: Modelo Binomial Em muitas situações práticas, a variável Binomial aparece a partir de
outras variáveis, através da criação de duas categorias excludentes, como no
Considere a repetição de n ensaios de Bernoulli independentes e todos
excmplo a seguir.
com a mesma probabilidade de sucesso p. A variâvel aleatória que conta o
núrmero total de sucessos é denominada Binomial com parâmetros n e p e sua Ilxemplo 3.9: O escore em um teste internacional de proficiência na língua
função de probabilidade é dada por itrglesa varia de 0 a 700 pontos, com mais pontos indicando um melhor
rlcscmpenho. Informações, coletadas durante vários anos, permitem estabelecer o
$
P(X : rl : (i,)ru (i - p)''-k, k : 0,L,2,...,n,
scgr.rinte modelo para o desempenho no teste:
X l 8 9 10 11 12
Definindo uma nova variável X como o número de estudantes aptos
0,101 0,042 0,012 0,002 0+ 0+
Pt
tlrttlrc os 20, temos que X - b(20;0,10). A probabilidade de no máximo 3 serem
nptos ó calculada pela função de distribuição no ponto 3, ou seja,
O valor 0+ indica uma probabilidade muito pequena que, na aproximação de F(3) :P(x<3).
rnilésimos (3 casas após a vírgula), não teve casa decimal diferente de zero.
Diversos programas computacionais contêm rotinas que calculam as I)ç'ssr Íbrma, temos:
probabilidades da distribuição Binomial e alguns livros-texto incluem tabelas
dessa clistribuiçiro, para vários valores dos parâmetros.
!
Filhotes 0 2 3 4 5 6 7 8 9 t0
: 0,r22 + 0,270 + 0,285 + 0,190 : 0,867. lrrccl. Observada 0 1 6 7 23 26 2t t2 ,) I 0
Iì'cq. Esperada 0,1 I 4,4 tr,7 20,5 24,6 20,5 I,7 4,4 1 0,1
Esse valor reflete as altas probabilidades atribuídas aos escores menores de 600,
conforme o modelo de desempenho no teste. tr O modelo proposto parece se ajustar bem aos dados observados (veja a
F'igtrra 3.4) e tendemos a acreditar que o modelo Binomial é uma escolhn
Exemplo 3.10: Um veterinário está estudando o índice de natalidade em porcos
ttdccluada. A representação gráfica torna-se assim, um importante passo inicial
sujeitos à inseminação artificial. Para tal, coletou informações sobre a variável
purt auxiliar na escolha de um modelo probabilístico. A verificação aqui foi
número de fllhotes nascidos vivos em cada uma das 100 inseminações re'alizadas
flpcnas visual, mas é possível estabelecer procedimentos estatísticos que testam o
com o mesmo reprodutor. A tabela a seguir apresenta os resultados.
ajustc do modelo proposto de forma objetiva. Procedimentos mais rigorosos
devcrn ser utilizados para a decisão final e podem se basear em um teste
Número ) 2 J 4 5 6 7 8 9 estirtístico conhecido como Teste de Aderência. tr
Freq. Observada 1 6 7 9a 26 2L L2 t
t) 1
a Observada
É muito comum buscar estabelecer um modelo para a variável de interesse, o que o Esperada
nesse caso possibilitaria, por exemplo, p comparação entre diferentes
reprodutores. O veterinário informa que 11 ou mais filhotes nascidos vivos é uma
ocorrência muito rara e pode ser desprezada em termos de modelÒ. Nestes termos,
ele sugeriu considerar que a variável N: número de filhotes nascidos vivos,
poderia ser ajustada pelo modelo Binomial com parâmetros n : 10 e p: 0,5. O
que você acha da sugestão do veterinário?
Note que, mesmo não tendo havido nenhuma observação do valor 0 ou
10, o veterinário sugeriu o modelo de uma variável que contém esses valores, pois
apesar de não serem comuns eles podem acontecer. Com o modelo sugerido,
calculamos as probabilidades de cada um dos valores de 0 a 10 e, a partir deles, os
resultados que seriam esperados em 100 inseminações realizadas. Por exemplo,
7 I I 10
Filhotês
P(N :7) : (ï;o,t'0,53: o,rr.;
Fígura 3.4: Gráfico de freqüências- natalidade em porcos.
76 Capítulo 3: Variáveis Aleatórias Discretas .ì,.1 Outros Modelos Discretos 77
escola.
lr.P(8<X<10).
c. P(X 12 ou X > 11).
c. O dia da semana em que ocorrem mais acidentes de trabalho numa indústria.
d. O mês do ano com maior número de enchentes na cidade de São Paulo. d.P(X ) tL ou X > 13).
a.P(X)3eX<6).
2. Sendo X uma variável seguindo o modelo Uniforme Discreto, com valores no r. P(x < 13lx > 11).
conjunto {L,2,3,.. . , 10}, pergunta-se:
a. P(X > 7\. 6. Urna certa doença pode ser curada atravós de procedimento cinirgi co em 80Vo
/
dos casos. Dentre os que têm essa doença, sorteamos 15 pacientes que serão
b.P(3 <X<7).
P(X 12 ou t > submetidos à cirurgia. Fazendo alguma suposição adicional que julgar
' c. 8).i
nccessária, responda qual é_a probabilidade de:
d..P(X)5ouX>B)) ru. Todos serem curados? L--
',1çf.e.P(X)3e X<6).
P(x < e lx 2 o;.r
\,
ll. Pelo menos dois rìão serem curados?
c. Ao menos l0 ficarem livres da doença?
3. Um usuário de transporte coletivo chega pontualmente às 8 horas para pegar o
seu ônibus. Devido ao trânsito caótico, a demora pode ser qualquer tempo
7. Calcule a função de distribuição da variável X nos casos:
t. X éBernoulli com p : 0,6.
entre 1 e 20 minutos (admita que o relógio "pule" de minuto em minuto).
b. X - b(4;0,20).
Pergunta-se:
a. Qual a probabilidade de demorar mais de 10 minutos? e c. X - b(B;O,10).
b. Qual a probabilidade de demorar pelo menos 5 mas não mais de 10 minutos?
c. Qual a probabilidade da demora não chegar a 5 minutos?
q._
d. Se um amigo chegou 10 minutos atrasado e vai pegar o mesmo ônibus (que
3.3 Outros Modelos Discretos
/n ainda não passou), qual a probabilidade do amigo atrasado esperar até 3 Apresentamos, nesta seção, os modelos Geométrico, Poisson c
minutos? L lliptrgcométrico, que têm várias aplicações práticas, conforme ilustram os
e'xcrnrplos desta seção. Na seção anterior, os modelos definidos assumiram apenas
4. Discuta a validade do modelo Binomial nos seguintes casos:
rrrrr número finito de varlores distintos. Foi assim com o modelo Unifbrme
a. Dos alunos de uma grande universidade, sorteamos 5 e contamos quantos se
l)iscrcto com valores L,2,,..,À;, Bernoulli com 0 e L e Binomial com os valores
declaram usuários de drogas.
Iüf,t
1,...,n,
Como veremos a seguir, os modelos Geométrico e Poisson podem ter P(Q=
0,
um número infinito de valores dentre os inteiros positivos. 0,010
0,0 6
aqui poderia ser feita de modo mais objetivo através de Testes Estatísticos de Acaixa pode ter peças boas ou defeituosas e vamos sortear algumas
Aderência. tr pcças, sem reposição. Baseado no número de peças defeituosas encontradas
Encerramos esta seção, definindo o modelo Hipergeométrico. Este rlccidimos por aceitar ou rejeitar o lote. Seja D a variável que conta o número de
moclelo surge da contagem de objetos de certo tipo, retirados ao acaso e sem pcrças defeituosas neste sorteio. Ela segue o modelo Hipergeométrico e vamos
reposição, de um conjunto contendo dois tipos de objetos. Por exemplo, num itlcrrtilicar os diversos parâmetros. O total de peças é n:25, o número de
grupo de jovens com 5 meninas e 5 meninos, sorteamos 3 deles ao acaso, para elel'cituosas ém : 4 e o número de retiradas é r: 5.
íazer uma comissão. O sorteio será feito sem reposiçáo, para evitar a escolha de P(aceitar o lote) : P(no máximo 2 peças defeituosas) : P(D < 2).
utrìiì mesma pessoa, o que inviabilizaria a formação da comissão. Na primeira
escolha cada um dos 10 jovens tem 1/10 de probabilidade de ser sorteado. Na
lintiio,
segunda, cada um dos 9 restantes, será sorteado com probabilidade I/9 e, na
P(X:*)-,^., _
(T) (",--T
/n,\
) ,k:A,I,...,min(r,rn).
,-_ ., , ^;^t_ tr
tobcla contendo os valores da probabilidade de rejeição do lote, em função de
Irrrvcr certo número de peças defeituosas na caixa sorteada. tr
("/
l,lxcrcícios da Seção 3.3:
Note que os valores possíveis de X vão de 0 a min(r,rn), uma vez que
não podemos ter mais do que o número de objetos existentes do tipo I, nem l. Scndo X(DG(0,4), calcule:
tillnpouco mais que o total de sorteados. Utilizando resultados de análise n. P(X:3).
combirratória, pode-se verificar que a expressão de P(X : k) é um número não b.P(2<X<4).
negativo entre 0 e 1 e a soma, para todos os valores de k, éigual a l. Assim estão c. P(X > LIX < 2).
cumpridos os requisitos necessários para ser uma função de probabilidade. rl. P(X > 1).
Exentplo 3.14: Uma fátbrica produz peças que são embaladas em caixas com 25 2. IJrrrir moeda equilibrada élançada sucessivamente, de modo independente, até
(f ue ocorra a primeira cara. Seja X avariâvel aleatória que conta o número de
unidades. Para aceitar o lote enviado por essa fábrica, o controle de qualidade de
uma empresa procede da seguinte forma. Sorteia uma caixa do lote e, em seguida, lirnçamentos anteriores à ocorrência de cara. Determine:
sorteia cinco peças, sem reposição, dessa mesma caixa. Se constatar no máximo u. P(X < 2).
dr"ras defeituosas, aceita o lote fornecido pela fábrica. Se a caixa sorteada tivesse 4 b. P(X > 1).
pcças defeituosas, qual seria a probabilidade de rejeitar o lote? c.P(3<x<5).
rl. Quantas vezes deve, no mínimo, ser lançada a moeda para garantir a
ocorrência de cara com pelo menos 0,8 de probabilidade.
8{ Capítulo 3: Variáveis Aleatórias Discretas
3,4 [ixercícios
a. Os dois serem do primeiro ano? 9. Num certo restaurante, paga-se pelo almoço uma quantia fixa dependendo da
b. A empresa gastar no máximo 3 salários míninos com os estágios? escolha feita de prato e bebida. A carne de peixe tem I}Vo de preferência,
c. Sabendo que gastou pelo menos 4, gastar menos de 7 salários mínimos? enquanto frango tem 40Vo e carne bovina 50Vo. As três escolhas de bebida
estão condicionadas à opção do prato, segundo a tabela abaixo:
6. Uma variável aleatória X tem a seguinte função de distribuição:
e. Mais da metade das partidas. lS.Considere uma variável aleatória Xassumindo os valores 0,1,2,...,5 e tal
clLre P(X : j) :/c x 0,8 x 0,2i, i : 0,L,2,...,5.
12.tJm certo equipamento é expedido em lotes de 500 unidades. Antes que uma
remessa seja aprovada, um inspetor escolhe 5 desses equipamentos e os ir. Para qual valor de k a expressão acima é uma função de probabilidade?
inspeciona. Se nenhum dos equipamentos inspecionados for defeituoso, o lote lr. Calcule P(X :3 I X < 5).
é aprovado. Se um ou mais equipamentos forem defeituosos, todos as unidades lír. Uma vacina contra a gripe é eficiente em707o dos casos. Sorteamos, ao acaso,
são inspecionadas. Suponha que existam, de fato, dez equipamentos 20 dos pacientes vacinados e pergunta-se a probabilidade de obter:
defeituosos no lote. Utilizando uma suposição conveniente, qual é, a ru. Pelo menos 18 imunizados.
probabilidade de que seja necessário testar todos os equipamentos? b. No máximo 4 imunizados.
13. Suponha que um modelo teórico para a variável notas em um teste de história c. Não mais do que 3 não imunizados,
(X), ê dado por: 17. 25Vo dos universitários de São Paulo praticam esporte. Escolhendo-se, ao
P(X: i1 : lj - 111
, j:0,7,2,...,10.
ilcilso, 15 desses estudantes determine a probabilidade de:
a. Pelo menos 2 deles serem esportistas.
66
b. No mínimo 12 deles não serem esportistas:
Para 2l alunos submetidos a esse teste, apresentamos um resumo de suas c. Havendo mais de 5 esportistas no grupo, obtermos menos de 7 que praticam
notas: esporte.
Notas Freqüência Itl. As pacientes diagnosticadas com câncer de mama precocemente têm 80Vo de
0-2 6 probabilidade de serem completamente curadas. Para um grupo de 12 pacientes
2-4 10 lìessas condições, calcule a probabilidade de:
:r. Oito ficarem completamente curadas.
4-6 5
ll. Não serem curadas de 3 a 5 pacientes.
6F8 5 c. Não mais de 2 permanecerem com a doença.
8 Ft10
19. A resistência (em toneladas) de vigas de concreto produzidas por uma
1
24, Considere uma variável aleatória X - G (0,8). Construa uma nova variável
b. se o aeroporto pode atender 2 aviões por rninuto, qual a probabilidade de
haver aviões sem atendimento imediato? )/ tal que Y : X para os valores 0,1,2,...,5 e Y : 6 para X ) 6. Dessa
c. Previsões para os próximos anos indicam que o tráfego deve dobrar nesse Íìrrma, Y corresponde ao truncamento de X a valores menores ou iguais a 6.
aeroporto, enquanto que a capacidade de atendimento poderá ser no ( )btenha a função de probabilidade de Y e calcule:
máximo ampliada em 50vo. como ficaút a probabilidade de espera por r. P(Y :2).
atendimento?
b. O valor da função de distribuição (acumulada) no ponto 2,5.
21. IJma indústria de tintas recebe pedidos de seus vendedores através de fax, c. P(Y :
3lY < 5).
telefone e Internet. o número de pedidos que chegam por qualquer meio (no d.P(Y>3eX<8).
horário comercial) é uma variável aleatória discreta com distribuição Poisson
25. A duração (em centenas de horas) de'uma lâmpada especial segue o modelo
com taxa de 5 pedidos por hora.
Ceométrico com parâmetro çt :0,7. Determine a probabilidade da lâmpada:
a. Calcule a probabilidade de mais de 2 pedidos por hora.
rr. Durar menos de 500 horas.
b. Em um dia de trabalho (8 horas), qual seria a probabilidade de haver 50
b. Durar mais de 200 e menos de 400 horas.
pedidos?
c. Sabendo-se que vai durar mais de 300 horas, durar mais de 800 horas.
c. Não haver nenhum pedido, em um dia de trabalho, é um evento raro?
rl. O item anterior é uma aplicação de um resultado geral válido para o modelo
22. No estudo do desempenho de uma central de computação, o acesso à unidade Geométrico. Assim, mostre que para X - G (p) e quaisquer números
central de Processamento (cPU) é assumido ser poisson com 4 requisições inteiros positivos rn e n,vale P(X > m * nlX > m) = P(X > n).
por segundo. Essas requisições podem ser de várias naturezas tais como:
imprimir um arquivo, efetuar um certo cálculo ou enviar uma mensagem pela 2ír. l}n um estudo sobre o crescimento de jacarés, uma pequena lagoa contém 4
cxemplares de espécie A e 5 da espécie B. A evolução de peso e tamanho dos 9
Internet, entre outras.
a. Escolhendo-se ao acaso um intervalo de 1 segundo, qual é a probabilidade .iacarés da lagoa é acompanhada pelos pesquisadores através de capturas
pcriódicas. Determine a probabilidade de, em três jacarés capturados de uma
de haver mais de 2 acessos à cPU? E do número de acessos não ultrapassar
vcz, obtermos:
5?
ru. Todos da espécie A.
b. considerando agora o intervalo de 10 segundos, também escolhido ao acaso,
b. Nem todos serem da espécie B.
qual é a probabilidade de haver 50 acessos?
c. A maioria ser da espécie A.
23. Toda manhã, antes de iniciar a produção, o setor de manutenção de uma
27, Un livreirodescuidado mistura 4 exemplares defeituosos junto com outros 16
indústria faz a verificação de todo o equipamento. A experiência indica que em
pcrfeitos de um certo livro didático. Quatro amigas vão a essa livraria para
95vo dos dias tudo está bem e a produção se inicia. caso haja algum problema,
cornprar seus livros escolares.
uma revisão completa será feita e a indústria só começarâ a trabalhar após o
ir. Calcule a probabilidade de 3 levarem livros defeituosos.
almoço. Faça alguma suposição adicional que julgar necessária e respondá:
a. Qual é a probabilidade de demorar 10 dias para aprimeira revisão completa?
ll. Qual a probabilidade de, após a visita dessas meninas, restarem o mesmo
número de defeituosos na livraria? E de não restar nenhum?
b. E de demorar pelo menos l5 dias?
c. um esquema de manutenção, com revisão preventiva, está sendo montado 2ll. (Use o computador) Para os dados apresentados na Tabela l.l no Capítulo l.
de modo a evitar a revisão completa num dia aleatório. Deterrïrine um dia d, l. Construa a tabela de freqüências para a variável Exer, horas de atividade
tal que probabilidade de quebra além de d seja pelo menos igual a 0,6. i'ísica por semana.
Revisando conr intervalos de d dias, o que estaremos garantindo? b. Suponha que 5 pessoas são selecionadas ao acaso. Qual a probabilidade de
que 3 delas pratiquem, pelo menos, 6 horas de atividade física por semana?
92 Capítulo 3: Variáveis Aleatórias Discretas
29. (Use o computador) Considere a variável altura apresentada na Tabela 1.1, Medidas Resumo
Capítulo 1.
a. Crie uma variável lj assumindo o valor 1 se a altura do indivíduo e for
maior que a média de altura da população (indivídu os altos) e 0 caso
contrário (indivíduos baixos). Apresente a distribuição de freqüência para 4.1 Introdução
esta variável e uma representação grâfica adequada. Neste capítulo, vamos apresentar algumas medidas que buscam sumarizar
b. Suponha que 13 alunos vão ser sorteados com reposição e a cada
um deles âs informações disponíveis sobre o comlortamento de uma variável. podemos
será associada uma variável V, ,i:1, ..., 13. Defina X: número de alunos del'inir essas medidas nos casos de ur.t còìilnto de dados ôu de uma função de
altos. Como você expressaria X em termos das variáveisY, i,: 1, ..., 13? prrrbabilidade de variável aleatória. Apesar danatureza diferente de cada caso, as
c. Obtenhauma amostra de 100 valores da variável X, isto é, repita 100 vezes itcrtlidas terão a mesma interpretação, variando apenas na forma de serem
o sorteio de 13 alunos nas condições do item (b). Construa uma tabela de çtrlcu ladas.
freqüências. Lembremos que, no Capítulo 1, tivemos a oportunidade de discutir
d. Qual seria o modelo de probabilidades adequado para as variâveis Y;, Illg,ttrnas técnicas para estudar e apresentar descritivamente quantidades na
'i : L,...,73? O modelo Binomial se aplica para X? Em caso afirmativo, peipulação, seja por tabelas de freqüências ou por gráficos adequados. o conjunto
quais seriam os parâmetros? Justifique suas resposta. (Uma boa idéia é tle dados com que trabalhamos poderia ser toda a população ou apenas uma parte
calcular valores esperados e observados e colocá-los em um mesmo delir. Já estudamos, no capítulo anterior, que a representação de eventos de
gráfico). lnlcrcsse pode ser feita através de variáveis aleatórias discretas e definimos alguns
e. Assumindo que o modelo Binomial é adequado para X: ntotlclos cuja ocorrência na vida prática é mais comum.
i. Calcule P(X :7), P(X < 9) P(0 S X < 13). Nosso interesse é caracterizar o conjunto de dados através de medidas que
"
ir'. Qual é a probabilidade de pelo menos 4 alunos serem baixosT E de fsstllìliìm a informação, por exemplo, representando a tendência central dos dados
mais de 7 e menos do que 12 alunos serem altos? gu ir rnaneira pela qual estes dados estão dispersos. Tais medidas também podem
FL'r' tlcfinidas para variáveis aleatórias, permitindo caracterizâ-las de forma
30. (Use o computador) Considere os dados do arquivo aeusp.txt descrito no
ãetrrclhante ao que é feito para um conjunto de dados qualquer.
Exercício 26, Capítulo L
a. Para a variável Temposp, construa uma tabela de freqüência com faixas de
tamanho 10, a partir dq zero. Obtenha o histograma correspondente e 4.2 Medidas de Posição
discuta a adequação de algum modelo discreto a esses dados. Se estamos numa parada de ônibus urbano e nos pedem alguma
b. Faça um histograma da variável Resid. Verifique se o modelo Binomial com llrÍ'orrnação sobre a demora em passar um determinado ônibus, que diremos?
parâmetros n: l0 e p : 0,5 seria adequado para representar o Nirrgtrórn imagina que poderíamos dar como resposta uma tabela de freqüências
comportamento dessa variável na população. rltr(' l)acientemente coletamos no último mês, ou ano! Tampouco, seria adequado
ttllt1'sclìtar um modelo teórico pelo qual teríamos ajustado o comportamento da
virrirívcl aleatória de interesse. Quem perguntou deseja uma resposta breve e
t,tllrirla que sintetize a informação que dispomos e não uma completa descrição dos
tlltrlos colctados ou da modelagem que porventura fizemos.
e3
94 Capítulo 4: Medidas Resumo 1,) Madidas de Posição 95
Nesta seção, definiremos medidas de posição ot medidas de tendência Notcr que o número de parafusos, em cada caixa, ó um valor inteiro, porém, a
central para um conjunto de dados qualquer (população ou amostra) e, então, Ftérlirr não precisa ser necessariamente um número inteiro, Para este exemplo,
consideraremos as correspondentes definições para variáveis aleatórias. tclrros que, em média, as caixas contém 98,6 parafusos.
Colocando os dados em ordem crescente, obtemos: 95,96,97,98,99,99,
Definição 4./: Medidas de posição para um conjunto de dados 100, 100, 100 e 102. Neste caso, como o número de elementos no conjunto de
datlos ó 10, um número par, tomamos a mediana como sendo a média dos dois
Considere uma variável X com observações representadas por
Yãhrrcs que ocupam a posição central. Temos
ï1,t2,... ,tn,. A média desse conjunto é a soma dos valores dividida pelo número
total de observações. Isto
: 99+99 :
é,
ftrdrh, 99.
n
D*u
Iohs:
rL+ir2*..,*rI, i:T E imediato que o valor mais freqüente ó 100 e assim, mo,,1,. - L00. tr
n
As medidas de posição podem ser utilizadas em conjunto para auxiliar a
A mediana, representad a pot rnd,,6r, é o valor que ocupa a posição central êndliso dos dados ou, em determinadas situações, uma pode ser mais conveniente
dos dados ordenados. 6o rpr,: a outra. Por exemplo, se um ou mais valores são muito discrepantes do que
A moda é dada pelo valor mais freqüente e será denotada poÍ moobs. € gerirl das observações, a média será muito influenciad.a por este valor, tornando-
Se houver possibilidade de confusão, faremos menção à variável X ã1 nssirn, inadequada para representar aquele conjunto de dados. Se uma das
representando a mediana e a moda por md,,6r(X) e mo,,6r(X) tr €êlxirs ao invés de 95 tivesse 45 parafusos, a média passaria de 98,6 para 93,6.
NcFl('' cilso, como a mediana não é afetada por valores discrepantes, seu uso seri0
Note que as definições acima também podem ser aplicadas quando o
ffiêis irclcquado para representar os dados. Por outro lado, para conjuntos de dados
conjunto de dados jâ estâ organizado numa tabela de freqüência. Por exemplo,
€Õttr rrruitas observações, a mediana é difícil de ser calculada, uma vez que o
para a média temos
pfoccsso de ordenação é custoso, mesmo com o uso de computadores. É nindn
Egtttrrrrr o aparecimento de distribuições multimodais, isto é, conjuntos de dados
Dr,.ru f-?'ài
A:
possuem mais de uma, moda. Como regra geral, .precisamos usar essfls
ntrt * n2r2 * "' I TTÀ'íxAt i:l
À;
QE:-r
rohs:
nt*"'lnk, n - 4n*" ffieclitlirs com o cuidado de não distorcer informações e características dos dados
quË rlril iunos analisando.
embalagem. Temos,
,,!0/l'
md'o1,"(X) : 75" + 76" I+2
9Bc f I02c *.'. * 100c t' .jÊ'',
MédiadeL:lnbs: 986 c
: 98,6 c. /'
10 10 : 1.
n"ff\P.To,,,(x)
Para a mediana segue que, Potlt scr de inteúse estudar o gasto dos alunos associado com as despesas do
ï€stilrular. Para simplificar um pouco a situação, vamos supor que se atribui, para
mdr,6r(L) : 99c*99c :99c, €êdu irluno, uma despesa fixa de R$ 1300, relativa à preparação e mais R$ 50 para
Eãeltr vcstibular prestado. De posse dessas informações, vamos calcular as medldas
e, sern maiores dificuldades, moo65(L) : 100 c. Concluímos que a multiplicação €e posição da variável D: despesa com vestibular. Pela definição desta nova
;rcla constante c resultou em que as novas medidas de posição são as antigas QUnrrlirladc temos
nrultiplicadas por c. 50x
Vamosincluiragoraocustodaembalagem.Ascaixascustarão t! --
LCgt,, clo cálculo que fizemos, vem imediatamente que
98c * e, L02c*e,..., 100 c+e.
ãoh.,:50 x 1,73 * 1300 :
Entãro,
í,,hs:
(9Bc + e) +... + (100c + e) _ 9B6c * 10e :98,6c * e.
md,o1,r(D) x 1,5 * 1300 : 1375;
10 10
Il fácil ver que para a mediana md"6,(T) : 99c * e e que para a moda, mo"1,"(D) : 50 x 1+ 1300 : 1350. fI
tno,1,"(T): 100c * e. Dessa forma, o acréscimo por uma quantidade e teve o fuenplo 4.4: l-lm estudante está procurando um estágio para o próximo ano. As
eí'eito de somar essa mesma constante às medidas de po.sição. n €Btttltrurlrias A e B têm programas de estágios e oferecem uma remuneração por
Iixemplo 4.3: Foram coletadas 150 observações da variável x, representando o ãÕ lr,,r',,* semanais com as seguintes características (em salários mínimos):
ttúnlaro de vestibulares FUVEST (um por ano) que um mesmo estudante prestou,
Assim, foi observado que 75 estudantes prestaram vestibular FUVEST, uma única Companhia A B
vcz, e assim por diante. Os dados estão na tabela abaixo: média )5 2,0
mediana T,7 1.9
moda 1,5 l,g
QUttl c.rrnpanhia é mais adequada?
lrricialmente vamos discutir as informações fornecidas, supondo que o
ëlttttlirrrtc terít seu salário "escolhido" de acordo com uma política salarial
FcErrrrritlir na tabela anterior. A companhia Á tem 50vo dos seus estagiários
Calculando as medidas de posição de X, obtemos @r'elrrtttltl ú(: l,'7 salários mínimos e o valor com maior freqüência de ocorrência
,é f ,t, ('rrrÌìo a média é2,5 deve haver alguns poucos estagiáiios com salário bem
Ix75t_2x47-t3x2I+4x7 : llìtris irlío, isto ó, valor alto de salário com freqüência pequena de ocorrência. A
I $#t'l''' - Lr73;
150 €Elrtlrttttltiit R tem as três medidas bem próximas indicando umaíazoâvel simetria
\' êltttr: sllítrios altos e baixos. A opção do estudante dependerá de sua qualificação.
9,ï Capítulo 4: Medidas Resumo 99
1,2 Al*lidas de Posição
Se ele for bem qualificado, deve preferir a companhia ,4, pois terá mais chance de
irlgurnas situações, as desigualdades são satisfeitas por qualquer valor num
obter um dos altos salários. Se tiver qualificação próxima ou abaixo dos outros
o intervalo e, nesse caso, tomamos a mediana como o ponto médio do
cstudantes, deve preferir a B que parece ter uma política mais homogênea de
salários. tr A moda é o valor (ou valores) da variável que tem maior probabilidade de
vamos, agora, descrever algumas medidas associadas às variáveis Egrt'êttcia, representando-a por Mo, temos
aleatórias eue, como já mencionamos, serão correspondentes às medidas
P(X : Mo) : max (P1, Pz,' ' ', Pn)' tr
apresentadas para um conjunto de dados.
sabemos que a descrição completa do comportamento da variável 4.5: Considbre a variável aleatória X com a seguinte função discreta de
aleatória discreta é, feita através da sua função de probabilidade. Assim sendo, é
razoável pensar que, qualquer que seja a quantidade destinada a resumir esse
comportamento, sua definição deverá envolver, de alguma forma, essa função de
probabilidade.
A medida mais popular é o valor esperado, ou simplesmente média, el Enttts.
representa o ponto de equilíbrio da distribuição de seus valores. Da mesma forma,
como mencionado no caso de um conjunto qualquer de valores, o uso do valor /Í,.= t i ïipi: (- 5) x 0,3 * 10 x 0,2 * 15 x 0,4+20 x 0,1 :8,5.
esperado como síntese de toda a informação pode levar a distorções e
interpretações equivocadas. Em especial, é possível construir uma função de A mrrrll ó o valor com maior probabilidade e, portanto, segue q1ae Mo: 15. Por
probabilidade, com valores da variável muito diferentes uns dos outros, em que a ËÈltnr lnclo, a mediana poderá ser qualquer número entre 10 e 15, pois, para
rnódia não caracteriza o real comportamento da variável aleatória. A média junto P e I ttt, J.5], temos
com a moda e a mediana são medidas de posição ou de tendência central e são
clefinidas a seguir.
P(X<b)>0,5 e P(X >b) >0,5.
Suponha que os possíveis valores da variável aleatória sejam Md:12,5 (ponto médio do intervalo). tr
rcpresentados por tt, 12, . . . , tÃ., com correspondentes probabilidades ftln c'orrvenção adotada, tomamos
'l)t,'l)2,',. ,Pk. O$serve que nem a mediana, nem a média precisam ser valores assumidos
peln vrrriÍrvel aleatória. No exemplo anterior, a média de X foi 8,5 e a mediana
De.finição 4.2: Medidas de posição para varídveis aleatórias discretas
13,õi tpro são valores não assumidos pela variável aleatória'
A média, valor esperado ol esperança de uma variável X é dada pela l)c modo similar ao ocorrido com as medidas de posição num conjunto de
cxprcssão: dcrl,rs, ir rnultiplicação ou a adição de constantes a uma variável aleatíriafaz com
gue suiÌs medidas de posição fiquem multiplibadas ou acrescidas pelas mesmas
: Dr,
À
E(X) ou . €Elllslitttlcs.
' i:L
Eremplo 4.ó.. Considere uma v. a. X com função densidade discreta dada por
umer notação alternativa é representar E(x) por px ou simplesmente p, se não
Itouver possibilidade de confusão.
A mediana é o valor Md que satisfaz às seguintes condições
P(x > Md)>Ll2 e P(x < Md) > 1/2. Nnrr rl tlil'ícil verificar que f/ : 10,3; Md : 8 e Mo : 5. Se uma nova variáxelY
é rrlrlitlir it partir de X através de Y : 5 X - 10, sua função de probabilidade será
100 Capítulo 4: Medidas Resumo
4,2 Medidas de Posição 101
Esta propriedade tr 200 vôos. Pretende-se planejar o número de cada tipo a ser colocado à i
Na Tabela 4.1, apresentamos as expressões para as medidas de posição disposição dos passageiros.
para as duas situações estudadas: conjunto de dados e variável aleatória.
2, Vinte e cinco residências de um certo bairro foram sorteadas e visitadas por um
l
cntrevistador que, entre outras questões, perguntou sobre o número de
Tabela 4.1: Medidas de tendência càntral. tclcvisores. Os dados foram os seguintes:
l
2,2,2,3,7,2,1, 1, 1, 1, 0, 1, 2,2,2,2,3,r,1, 3, 1, 2,7,0 e 2. //
Orgirnize os dados numa tabela de freqüência e determine as divers as
rlc posição. ^eai#
I
.1. Ntrrn experimento, l5 coelhos foram alimentados com uma nova ração e seu
pcso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em
f
I
c. calcule, a partir da tabela de freqüência e com o ponto 'krédio como Ee rtumente os altos rendimentos de alguns residentes serão suficientes para fazer
representante de cada faixa, a média, a moda e a mediana. comente ê trróclia atingir um patamar comparável às melhores economias do
mundo, porém
as
diferenças encontradas com o item (a). e rliscrepâncìa entre os diversos valores deve ser muito grande. O que podemos
d. se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais cntrrr.esquecendo é a variabilidade dos valores da variável e isto não é captado
conveniente: o de (a) ou o de (c)? Ter acesso a computador faz diferença? pelrr rnéãia e sim pelas medidas de dispersão' Por exemplo, para o conjunto de
Vnl.,,'cs 0, 20 e 40 a média é igual a 20. O mesmo acontece com o conjunto 20,
4. Sendo x
uma variável aleatória com função de probabilidade dada a seguir,
obtenha as medidas de posição 1t, Md e Mo. 30 c 20. Os dois conjuntos têm valores bem diferentes, apesar de terem a mesma
fltérliir. De fato, éfâctl construir exemplos onde dois conjuntos de dados distintos
Naturalmente, qualquer que seja a expressão utilizada, o desvio padrão é dado por
Ee trtorlo análogo, escrevemos
dpohr: JT,04:2,AI. n
Para o caso em que o conjunto de dados está organizado numa tabela de var,,6,(Y):
#
(7b x 502 +.'. + 7 x200\ -86,52 :1917,5i
freqüência, o cálculo da variância será modificado de forma conveniente com a
ponderação dos desvios pelas respectivas freqüências. Aproveitamos o próximo I :rgr7,5.
exemplo para ilustrar essa situação, além de discutir o efeito, sobre a variância, da rttr,6,(D):
#
(75 x 13502 +...+7 x 15002) - 1386,52
multiplicação ou adição de constantes aos valores da variável de interesse.
Note que a variável D nada mais é do que Y acréscido de 1300. Não
Exemplo 4.9; No Exemplo 4.3, definimos a quantidade D, despesa no vestibular,
€bãliyì(e, suas variâncias são iguais, isto é, o acréscimo de constante não alterou a
obtida a partir de x pela expressão D:50 x x*1800, com x indicando o
ïCrilìrrcia. Esse resultado é de certa forma previsível, pois a adição ou subtração
número de vestibulares prestados. Para efeitos didáticos, antes de obter a
$g çorrstante corresponde a uma translação dos valores dessas quantidades, não
variância de D, vamos calcular a variância de X e da quantidade auxiliar
êltet'ntrclo sua variabilidade relativa. Por outro lado, Y é igual a 50 vezes a
Y:50 x x. Iniciamos por ampliar a tabela de freqüência de x, para incluir yât'irívcl X e sua variância é 502 vezes a variância de X. Esse resultado se explica,
também os valores deY e D. Temos,
pgls l multiplicação por constante altera a distância entre os valores da variável
àflgirrll e, pela fórmula da variância, o efeito será pelo quadrado da constante. E
X Y D Tri
1 50 1350 75 E*emplo 4.10: O salário de professores do ensino fundamental da rede privada
2 100 1400 47 €Flri scrrclo estudado. A tabela abaixo apresenta os valores, em salários mínimos,
€btitlos em um levantamento numa certa cidade. Desejamos calcular a média e a
J 150 r450 2L
Vât'iÍìncia desse conjunto de dados.
4 200 1500 7
14 7-9 I
var,,6.(X): -
#
-- " D",(*,
i:l
r,,0,)' ,
9F11 4
total 70
ou, na forma alternativa,
f-o1lo ir variável está apresentada em faixas de valores, não temos os valores
_c
:
Vafr,6r(X)
hD",", nohs' elï.livirnrente observados e, portanto, não podemos aplicar as fórmulas da média e
rlrr virriârrcia. Para contomar essa situação e obter resultados aproximados para as
ttrt,rlirlas clesejadas, tomamos como representante de cada faixa seu ponto médio.
Optando por utilizar essa última expressão temos o seguinte cálculo:
['orrr cssit alternativa, o cálculo é feito nos mesmos moldes das variáveis
(Tsxt2 *4T x22 +2r x 32 + r x +2)-r,TJ2 :0,767.
1
var,,1,,,(X):
r,o
4,.1 Medidas de Dispersão 109
t08 Capítulo 4: Medidas Resumo
quantitativas discretas. Assim, , Se apenasa informação dos valores esperados, medianas e modas
ctitivesse disponível, concluiríamos por uma perfeita harmonia de desempenho
.5
:
ln
:
14x2+25 x 4+ ". *4 x 10
: elttrc os vários métodos. Entretanto, como podemos observar pelas distribuições
Iohs '(0 ) Tli.:xi 4,97. de probabilidade, esse não é o caso. Por serem medidas de tendência central, as
- 70
- trÊs rnedidas acima não captaram a variabilidade existente em cada método. D
Para a variânpia: Como mencionamos para as variáveis em um conjunto de dados, podemos
i:I'
variáveis aleatórias.
Muitas vezes, denotamos a variância por o2 e, se houver possibilidade de
Exemplo 4.11: llma pequena cirurgia dentária pode ser realizada por três €otìÍusão, usamos o2r.Exttaindo araiz quadrada da variância obtemos o desvio-
métodos diferentes cujos tempos de recuperação (em dias) são modelados pelas tr
pulrtÍo que é representado por d ou ox.
variáveis Xr, Xz e Xs. Admita que suas funções de probabilidade são dadas por
Exctnplo 4.12: Retomando o exemplo anterior, calculamos as variâncias dos
10
tenrpos de recuperação para cada método. Temos,
0,2 0,2 0,2 .
Wtr(X): (0- x0,2+(4-5)2 x0,2 + "'+ (10-b)2 x0,2:10,40.
x, I 1 5 9 5)2
'
I llìlìÌ
u"lsf#'"!'üli
seus termos. O termo E(Xt) é o valor esperado da variável ãleatória X2, ao passo
que p2 indica o quadrado do valor esperado de X. O próximo exemplo recalcula :,'i;i;iiir,-:u^€2,;t
as variâncias do exemplo anterior, através da expressão acima. :. i tl'.:li!;!.?.ì
::: ::.:!;:::..:!..í:l/a;U
$Jr
llllllltlììÌffi
j un',;6;f1[rÍi:=
(nltcrhâti.v,a),[
: r-r,ip',í.Ít,i;
I r 25 81 x?l 16 2b 36
w"@
x3
rlf;\
-:i.' "4,::r
t
conjünió oe nàaos
como por exempÌo,
Exemplo 4.75: Para uma variável aleatória X com distribuição Var(Y): E(Y\ - E'(Y)
parâmetrosnep,temos
: Ë i2P(Y : i)- (ry)'
k
E(x):IkP(x:k) j:r
À;:0
:ik, n'
(r- P)"-*
:iD,r- (+)'
?'" (n-úub* .:J: L
A:I
_L k(k+r)(zk+7) _ (tç + t)2
:Ë k6
6-#@='Pk(1-P)'-k :- k2-L
(n - 1)!
n,
L)t
. nk_r (7\ - p)-' 12
''' 2 @-\r,k)t(k
sì
- 1)!' ú
À:1 Para se calcular o valor esperado e a variância, no caso dos modelos de
Substituindo nesta última expressão, k-L por j e, em seguida n-I pot r Pglss<rn, Geométrico e Hipergeométrico, são necessárias técnicas um pouco mais
obtemos rrdas. Optamos por não apresentá-las aqui, tendo em vista o objetivo desse
EXto c, para o leitor interessado, indicamos o livro de Mood, Graybill e Boes
E(x) - "e'F_(,) r, e - p)' -i : np, ílq7q. Na Tabela 4.4 apresentamos os valores esperados e as variâncias para
tãelos os modelos discutidos no capítulo anterior.
uma vez que a somatória é igual a 1, pois corresponde a somar todas Tabela 4.4: Modelos discretos- valor esperado e variâncía.
probabilidades de uma variável Binomial com parâmetros r e p'
A variância será calculada mais facilmente no próximo capítulo, qua tffiëi1,///,//rÈij"l;,.?.ï*.-tF.
temos
k:k k+7
E(Y):Lipv : ì:Di ï>,t:
_:::h6 :
L
,
t x|| I LLtìt\\\riìti
D/:
"riltii;it
k
+ L)(zk +
'W"{"/"Kí,2/'r'*?tí:;i-z7:titi
k (k L)
.:i:r
então,
il4 Capítulo 4: Medidas Re
4,4 li.rtrcícios t15
_1_ 2 J n
purtosl_o. No. Funcionários 2 0 2 0 2 2
t"
\.
1 1 L)
com os que os alunos têm em casa. Quantos computadores precisariam ser 10. Uma peça produzida por uma máquina pode receber do controle de qualidade
acrescentados à sala para atender o Centro Acadêmico? lrôs classificações: boa, defeituosa ou recuperável, com as seguintes
14. Duas moedas estão sobre a mesa, uma delas tem duas caras e a outra tem probabilidades, 0,5; 0,2 e O,3, respectivamente. Suponha que sejam vendidas a
probabilidade igual de cara e coroa. Sorteamos, ao acaso, uma dessas moedas e lì$ 100, R$ l0 ou R$50 conforme forem boas, defeituosas ou recuperáveis,
a lançamos duas vezes. Seja X a variâvel aleatória que conta o número de rcspectivamente. Se duas peças, escolhidas ao acaso, são vendidas, qual é o
caras nesses dois lançamentos. Qual é a média de X? vtlor médio da venda?
15. Num teste de digitação, o tempo em minutos (7) que os candidatos le 2(1. O tempo de duração em horas de uma lâmpada especial foi modelado por uma
para digitar um texto é modelado, de forma aproximada, pela seguinte funç vlriável aleatória X com a seguinte função de probabilidade:
de probabilidade:
xl5 6 7 8910
pi l0,L 0,1 0,2 0,4 0,1 0,1
O candidato recebe 4 pontos se terminar a digitação em 9 minutos, 5 (lacla lâmpada custa ao fabricante R$ 10, mas se sua duração for inferior a 6
terminar em 8 minutos e assim por diante. Determine amédia e a variância Iroras ele se compromete a indenizar o comprador com R$ 15. Qual deve ser o
número de pontos obtidos no teste. prcço de cada lâmpada para o fabricante obter um lucro médio por lâmpada de
k :7,2,"',5.Calcule E(X) e E(X') e, usando esses resultados, determi 11. tlrna concessionária tem disponível, para um certo automóvel, os modelos S,
E[(X + 3)2] evar(3x - 2). ('1, c GL com duas versões de combustível, álcool ou gasolina. Com motor a
rilcool os preços são 30, 35 e 40 mil reais para os modelos S, CL e GL,
17. Estatísticas obtidas junto às assistências técnicas indicam que a bomba rrspcctivamente. Esses preços são 107o superiores se o combu3tível for
água de uma certa lavadora só pode apresentar defeitos após 4 anos de g,rrsolina. A procura por carros a álcool é, de 307o e a gasolina 707o. Qualquer
Admita que nos próximos 6 meses, após esse tempo, um mal funcioname tlnc seja o combustível escolhido há igual preferência entre os modelos.
tem probabilidade 0,10 de ocorrer e, caso ocorra, terá 0,5 de probabilidade ('irlcule a função de probabilidade do preço desse automóvel e obtenha sua
ser recuperável. O reparo, que só pode ser feito uma vez, tem o preço de R$ I
Irrúrlia e variância.
enquanto uma bomba nova custa R$ 30. Determine a média e a variância
gasto com essa peça em 4,5 anos de uso. ,2, Nurn cassino, um jogador lança dois dados, cujas probabilidades são
lrroporcionais aos valores das faces. Se sair soma 7, ganha R$50, se sair soma
Itì. Os alunos do curso de estatística têm um time de futebol que não é I l, ganha R$ 100 e se sair soma 2, ganha R$ 200. Qualquer outro resultado ele
melhores. O cartola que administra o time paga um prêmio de vitória rriio garrha nada. Qual é o ganho médio do jogador?
partida de um sorvete porjogador, acrescentando mais um sorvete por saldo
gols maior que I (saldo de gols é a diferença entre gols feitos e sofri l-1. I lrrra indústria pretende comprar 3 lotes de peças que são produzidas por dois
Admita que a função de probabilidade dos diversos saldos é a seguinte: lìrlrrcccdores, A e B. Ela inicia, comprando de um dos fornecedores escolhido
n(l ilciìso e, se ficar satisfeita com o material entregue, compra o próximo lote
Saldo de gols
rhr nrcsmo fornecedor. Se não ficar satisfeita, troca o fornecedor. Admita que
lrirlir cacla lote o índice de satisfação é de 80Vo e de 707o para A e B,
rrspcctivamente. Calcule a média e a variância do número de lotes fornecidos
Qu"rl é a despesa média do cartola com cada jogador por partida? E corn os I
"c rilques" ?
por A.
122 Capítulo 4: Medidas Resumo 4,4 lixercícios t23
24. A experiência de diversas companhias de resgate de navios naufragados indica vcz. se o ganho acumulado da equipe (em milhares de reais) é, 50c , sendo c o
que a probabilidade de um resgate ser bem sucedido na primeira tentativa é de rrrimero de corridas completadas por esse motor antes de quebrar, calcule:
0,6; caindo para a metade a cada nova tentativa. Uma empresa de resgate tem 1. Qual a probabilidade da equipe completar 8 corridas? E de participar de B
como norma não realizar mais de três tentativas e cobra 50 mil reais para corridas?
iniciar os trabalhos e mais 10.000 x (k - 1) reais, com k sendo o número de [. Quanto receberá em média essa equipe durante sua "vida" em corridas?
tentativas.
a. Qual o custo médio dos serviços dessa empresa?
19. tlrn vendedor de cachorro quente trabalha na porta do Estádio do Morumbi
errr clias de jogo. Ele pode deixar preparado 5, 6 ou 7 dúzias de sanduíches que
b. Se um navio resgatado pode render ao proprietário 65 mil
(:lstam a ete R$ 5 adúzia,. Sabe-se que a procura do cachorro quente (X), no
interessante para ele contratar essa empresa? Justifique.
s!ìu ponto, é uma variável aleatória com a seguinte função de probabilidade:
25. Suponha que a demanda por certa peça, numa loja de autopeças, siga o
seguinte modelo:
: P(X: k,):+, tt:r,2,J,4. Sirbo-se que cada dúzia de sanduíche é vendida a R$ 12 e os sanduíches não
Vcrrrlidos vão para um canil que paga R$ 2 pela dízia. Qual é o número de
eltiz,ias de sanduíches que devem ser preparadas de modo a maximizar o lucro
a. Encontre o valor de a.
nrúrlio do vendedor?
b. Calcule a demanda esperada.
c. Qual é a variabilidade da demanda? floricultura vende rosas, cravos e jasmins com lucrO de, respectivamente,
t.lrrra
R$ ltl, R$ 12 e R$ 15 por dezena. Observa-se que a procura é igual para as três
26. Numa indústria farmacêutica, uma máquina produz 100 cápsulas por minuto,
flolcs. Se o estoque do dia não for vendido, a floricultura tem um prejuízo
A máquina está regulada de modo que no máximo 5Vo das cápsulas n (lrrcro negativo) de, respectivamente, R$ 5, R$7 ou R$ 10 com cada'dezena de
contenham remédio e, assim, sejam consideradas defeituosas.
fosils, cravos ou jasmins. Se a floricultura dispõe de duas dezenas de cada flor
a. Se as cápsulas são acondicionadas em vidros com 20 unidades, qual € tr'ôs clientes visitam a floricultura sucessivamente e compram uma dezena
probabilidade de um vidro apresentar no máximo 2 cápsulas com defeito?
€nrlir um. Fazendo alguma suposição adicional que seja conveniente, determine
b. Qual o número esperado de cápsulas com defeito, por vidro? s lrrcro esperado da loja.
c. Qual o número esperado de cápsulas com defeito por minuto de produção?
,t{t pita o problema anterior, se a procura por rosas e cravos forem iguais e
27. Um fotógrafo negocia com o jornal o seguinte trato: ele submete al çorrcsponderem ao dobro da procura porjasmins
fotos semanalmente e por cada foto publicada, ganha R$ 50. Se a foto não
publicada, não ganha nada. Nesta semana 4 fotos são submetidas com ãjl, l,rrlir 1tn exame com 25 questões do tipo certo-errado, um estudante sabe a
uma tendo probabilidade 0,60 de ser publicada, independentemente da demais, l'r,slroslrÌ correta de 17 questões e responde as demais "chutando".
gQVo das respostas.
a. Qual a probabilidade que o fotógrafo tenha pelo menos duas f, n. ('rrlcule a probabilidade dele acertar pelo menos
publicadas esta semana? It. l)ctcrrnine a média e a variância do número de acertos.
b. Calcule a distribuição de probabilidade de Y: montante que o fotó f. Srrpottlra que nesse mesmo exame, um outro estudante saiba a resposta
recebe esta semana; col'rolit para l5 questões e tenha probabilidade de acerto nas demais de 0,7.
(.)rrlrl clo.s estudantes você espera que tenha melhor desempenho?
c. Calcule o ganho médio do fotógrafo nesta semana.
tl, Nirs lncsmas condições do item (c), qual dos estudantes terá desempenho
28. Admita que, em cada corrida de Fórmula l, o motor tem 0,4 de probabi rrriris Irornogêneo?
de quebrar, independentemente das corridits anteriores. Suponha que a
encerrará sua participação no torneio quanclo o motor quebrar pcla pri
124 Capítulo 4: Medidas Resumo
d. Baseado nas variáveis Sexo e Itrab, você diria que os homens começam a X nao nao slm nâo slm nao nao nao slm nao
trabalhar mais cedo?
Y 2 2 1
D
J 2 2 2 1 .) 2
t25
I2() Capítulo : Variáveis Bidimensionais 5.1 Introdução
5 127
A variável x é qualitativa com dois valores: sim ou não. por outro lado, a Ilxcmplo 5.2: Um estudo envolveu 345 pacientes HfV positivos, acompanhados,
variável Y é quantitativa discreta com valores inteiros I,2 ou 3. Podemos coletar dttrante um ano, pelo setor de doenças infecciosas de um grande hospital público.
as freqüências de ocorrência dos possíveis pares, construindo uma tabela de Os dados apresentados contêm as ocorrências relacionadas às variáveis número de
freqüência conjunta de X eY. itttt:rnações (I) e número de crises com infecções oportunistas (C).
(X,Y) freqüência 1\c 0 1 2 D
rJ 4
(sim,1 4 0 B4 27 8 2 0
(sim,2) 2 1 20 59 35 T4 2
(sim,3) 2 2 6 11 43 28 12
(não, 1 5
(náo,2) 6
l)irra obter as marginais dessas variáveis, acrescentamos mais uma linha e uma
(não,3) coluna na tabela anterior, contendo os respectivos totais de ocorrência. Assim,
1
total 20 1\c 0 1 2
q
O 4 total
0 B4 27 8 2 0 115
O par (não,1) tem freqüência de ocorrência igual a 5, pois, na amostra coletada,
foi esse o número de alunos que não trabalhavam e prestaram o vestibular apenas 1 20 59 35 t4 2 130
uma vez. Os outros valores são obtidos de forma semelhante. Esta mesma tabela 2 6 11 43 2B 72 100
pode ser apresentada de modo mais conveniente através da tabela de dupla total 110 91 B6 44 L4 345
entrada, mosfada a seguir.
Cbnro já mencionamos, a última coluna da tabela acima fornece as freqüências
x\v 1 2 .) total eorrcspondentes aos valores da variável -I, enquanto que a última linha fornece as
lì'ct1i.iências para C. Logo,
slm 4 2 2 8
nao 5 6 1 12 I freqüência C freqüência
total I B
t
a) 20 0 115 0 110
Note que a última linha e a última coluna contêm os totais de ocorrências de cada 1 130 1 91
variável, separadamente. Dessa forma, fica facilitad a a tarefa de obter a tabela de 2 100 2 B6
ÍÌ'eqtiência individual para cada "variável que, pela posição em que seus valores total 345 3 44
aparecem na tabela de dupla entrada, é chamada de tabela marginal de
freqíiência
4 I4
du vuridvel x (ou Y), ou simplesmente marginal de x (ou y). Temos então para total 345
X eY as seguintes tabelas de freqüência:
D
X freqüência Y freqüência
Ii:ccrnplo 5.3.' Numa amostra de 195 empregados de uma grande indústria,
slm 8 1 I rrlrscrvou-se o Salário recebido (em salários mínimos) e o Tempo de Serviço na
nao L2 2 8 l')rrprcsa (em anos). Tendo em vista que a variável Salário é quantitativa contínua,
total t t
20 t) r) lìrrirrn escolhidas algumas faixas para representâ-la. Por outro lado, apesar da
total 20 vrrt'iírvel Tempo ser discreta, ela apresentou valores tão diferentes que se achou
rrlris conveniente organizâ-latambém em faixas. Assim,
l2tì Capítulo : Variáveis Bidimensionais
5 5.1 Introdução
Salário \Tempo <5 5F10 10 t-- 15 >15 total Note que, pela notação utilizada na Definição 5.1, o termo (X: r)
<4 36 21 4 2 63 rcpresenta o conjunto de eventos que levam a variável X a assumir o valor r. No
4t--B 16 2B 2T 12 77 próximo exemplo, ilustramos esse ponto.
8-72 5 6 74 10 35
Ilxemplo 5.4: Uma empresa atende encomendas de supermercados dividindo os
>12 1 2 72 5 20
pcclidos em duas partes de modo a serem atendidos, de forma independente, pelas
total 5B
suas duas fábricas. Devido à grande demanda, pode haver atraso no cronograma
57 51 29 195
rlc entrega, sendo que afátbrica I atrasa com probabilidade 0,1 e a II com 0,2.
Segue então que as marginais são: Scjam A1 e All os eventos correspondentes a ocorrência de atraso nas fábricas I e
Salário freqüência
ll, respectivamente. Vamos admitir que as encomendas sempre serão entregues,
Tempo freqüência
<4 tììcsmo que com atraso. O espaço amostral, associado ao atendimento da
63 <5 58 encomenda, ficará sendo:
4F8 77 5 t-- 10 57
8F12 35 10F15 : AïAïr}.
{A1A1r, AïArr, ArAïr,
51 Q
>12 20 >15 29
total 195 total 195
Pirra aliviar a notação, os eventos serão representados sem os respectivos
tr xubscritos mantendo, entretanto, a ordem das fábricas. Dessa forma, o evento
Pelos exemplos anteriores, podemos perceber que variáveis de qualquer /"Á significa que a fátbrica I entregou sem atraso e afâbrica II com atraso.
natüreza podem ter seu comportamento conjunto representado através Suponha que para um certo pedido, a indústria recebe 200 unidades
do tabãlas tnonetárias (u.m.) pela encomenda total entregue, mas paga uma multa de 20 u.m.
de freqüência. Dessa forma, variáveis qualitativas ãu quantitativas, discretas
ou pirra cada fábrica que atrasar sua parte. Considere que o supermercado, que fez a
contínuas, têm seu comportamento estudado com tabelãs de dupla
entrada, para cncomenda, criou um índice relacionado à pontualidade da entrega. Este ihdice,
dados oriundos de toda a população ou de uma amostra. veremos
a seguir como trllibui 10 pontos pata cada parte da encomenda entregue dentro do cronograma
tratar essa questão no caso de variáveis aleatórias discretas, definidas
a partir das prcvisto. Vamos denotar por X o valor recebido pelo pedido eY o índice obtido.
suas funções de probabilidade. Iniciamos estendendo a definição
de função de Para cada evento do espaço amostral, podemos obter os valores das
probabilidade para o caso de duas variáveis.
virriírveis. Assim, se ocorre o evento AA', avariâvel X tem valor 180, pois de
Definíção 5.1: Função de probabílidade conjunta ?(X) subtraimos a multa de 20, decorrente de um atraso. Por outro lado, a variável
Sejam X e Y duas variáveis aleatórias discretas originárias do mesmo )' assinala 10 pontos provenientes de uma entrega dentro do cronograma. A
fenômeno aleatório, com valores atribuídos apartir do mesmoãspaço lirbcla a seguir, apresenta os eventos, as respectivas probabilidades e os
amostral. A crrrrcspondentes valores de X eY.
íunção de probabilidade conjunta é definida, para todos os possiveis pares
de
valores de (X, Y), da seguinte forma: Eventos Probabilidade X Y
p(r,a) : P[(X: u) n (Y : Ò]: p(X : r,y : a), AA 0,1 X 012 160 0
AA' 0,1-x 0,& 180 10
isto é, p(r,A) representa a probabilidade de (X,y) ser igual a (r,A).
É comum A'A 0,9 X 012 180 10
nos referirmos, sempre que não houver ambiguidades e o contexto permitir,
à A. A. 0,9 x 0,8 200 20
ftnção de probabilidade conjunta como distribuição conjunta ou simplesmente
t:otti unta das variáveis. Ap(rs coletarmos os pares idênticos, obtemos a conjunta das variáveis:
tr
130 Capítulo 5 : Variáveis Bidimensionais 5.1 Introdução r3I
(X,Y) p(r,y) Note que pares idênticos foram agrupados e somamos as respectivas
(160, 0) 0,02 probabilidades. Uma forma equivalente de apresentar a distribuição conjunta,
(180, 10) 0,26 porém com maior apelo visual, é através da tabela de dupla entrada.
(200,20) 0,72
x\), 0 1 2
Dessa forma, a distribuição conjunta de (X, Y) contém todas as possíveis 0 r/rc 2lLj 2110
combinações dos valores (r, g), com suas correspondentes probabilidades. tr 1 L/n r/rc 0
Suponha que exista interesse em estudar as variáveis F+M e FxM. a. Determine as tabelas de freqüência marginais de C, M e A.
Acrescentando, à tabela anterior, colunas correspondendo aos valores dessa novas b. Obtenha a tabela de freqüência conjunta entre (C, M), (C, A) e (M, A).
variáveis temos c. Represente a tabela de freqüência conjunta de M e A, atravês de uma tabela
(F,M) pU,m) F+M FxM de dupla entrada.
d. Calcule amédiadas variáveis M e A.
(8,3 3/10 11 24
(8,4) L/70 L2 32 2.Paru famílias de um certo bairro de São Paulo, apresentamos abaixo a tabela de
(8,5) 7/L0 13 40 f'reqüência conjunta das variáveis: número de automóveis (A) e de Ws (T).
(9,3) 2/L0 L2, 27 Á\" 2 total
0 1
9,4) L/20 13 36 0 110 235 t20 465
9,5) 7/r0 74 45 1 51 r22 178 351
(10,4) L/70 L4 40 2 15 84 L62 267
(10,5 r/20 15 50 total 176 44r 460 L077
Para obter a função de probabilidade de tr.
valores comuns. Por exemplo,
* M, somamos as probabilidades nos a. Calcule as marginais de A e T.
b. Determine as médias dessas variáveis.
?t'
P(F + M : : P(F : 8,M : * P(F : 9,M .. 1 1 ó
3. Uma moeda equilibrada é lançada 2 vezes de forma independente. Ao final dos
13) 5)
n'
A\ _
-
'1020 lançamentos, duas variáveis aleatórias são anotadas: o número total de caras (C)
Procedendo de modo similar com os outros valores, obtemos as funções de c o número de coroas no 2o. lançamento (K).
probabilidade de.F * M e de F x M: a. Construa uma tabela com os possíveis eventos, as respectivas probabilidades
C e K.
r+twl tt L2 13 1.4 15 e os valores de
b. Apresente a tabela de dupla entrada com a função de probabilidade conjunta
prob. | 3/10 3lL0 3120 2lI0 Il20 ' das variáveis aleatórias C e K.
c. Determine o valor esperado de C.
FxMl Z+ 27 32 36 40 45 50
prob. l B/10 2lL0 ' 4. Num estudo sobre o tratamento de crises asmáticas, estabeleceu-se a seguinte
Íunção conjunta de probabilidades entre o número de crises de asma (Á) e o
tr ttíi,mero de internilções hospitalares (H).
134 Capítulo 5 : Variáv eis Bidimensionais 5,2 Associação entre Variaveis 135
x\v -1 0 2 4 P(X : r)
8
I
2
0
J
0
1
2
1
2 /64 0 /'r . 3t64 7t32 lì'oqüências ao lado de cada ponto. Note que há uma tendência das notas altas em
5 ì/n(^
P(Y : y1 ,^ 5/16 311ìÇ r/4 1
irrglês, serem acompanhadas por notas altas em português.
P
a. Complete a tabela.
b. Obtenha as marginais de X e Y.
10
I 0 2 1 0
pcla expressão:
10 0 1 0 0
P(X:rlY:y): P(X
prra todos os possíveis valores (r,g) das variáveis (X,Y). Como definição
irlternativa e equivalente podemos usar que:
P(X : n,Y : A) : P(X : n) P(Y : A), para quaisquer (*,A). O
,
8 I 10 A verificação da equivalência entre as duas expressões, acima, pode ser
Observe que o bom desempenho em inglês parece, lbita de modo análogo ao realizado no Capítulo 2. Deixamos ao leitor essa tarefa.
neste caso, não implicar num
bom desempenho em matemática. Note, ainda, que a definição de independência exige que a igualdade seja
D vcrdadeira para todas as escolhas dos pares (r,A). Assim, basta encontrarmos um
Apesar de ser um instrumento útil para identificar
tendências, os l)rÌr em que a igualdade não se verifique para concluirmos que as variáveis
rliagramas rornam-se de difícit interpreração, irleatórias não são independentes. A Figura 5.1 resume esses comentários.
conjunto de dados tem muitas observãções "rïigun.
;;;;;.;", exempro, se o
pou.os valores diferentes,
freqüências serão altas atrapahándo "oà a visualização de uma eventual
'lgumas
tcndência' Dessa forma, é importanie ampliar o estudo da
associação entre
variáveis, para buscar.uma caracterização que não
dependa só da interpretação
visual' com este objetivo, definimos piobabilidad"
e independência
para variáveis aleatórias, estendendo os conceitos "ondi"ional
apresentados no capítul o 2 para
cventos aleatórios. Aqui, o condicionamento, na
ocorrência de um valor da
variável aleatíria, é equivalente ao condicionamento na ocorrência
de um evento.
Figura 5. 1 : Indep endêncin de variáv eis aleatórias .
Pclas informações apresentadas, as variáveis salário e Ano de curso virlor da variável ,fí, indicando que esses valores não interferem com as respostas
não sãil
inclcpendentes pois, por exemplo, tlo [/. Assim, por exemplo, para ly' : 0 seria esperado ter, aproximadamente,
: : 4]:2lzs I p(Sat.: lil,3%o de respostas positivas, que é a mesma ocorrência verificada no total da
P[(Sal. 3) n (Ano B)p(Ano - 4) : rr/r2s. linha. Como se pode observar da tabela acima, as porcentagens são próximas
Unra maneira bem prá'tica de verificar independência consiste em usar a lpenas no caso l/: 1, sendo bem diferentes nos outros casos. Dessa forma, os
tabela de
clupla entrada, checando se o produto da última linha e última coluna (as rludos sugerem que as variáveis não são independentes' n
rnargirrais) reproduz o corpo da tabela. se a tabela contiver um zero no
seu corpo, Continuando o estudo da associação entre variáveis num conjunto de
brsta verificar se uma das marginais correspondentes é zero. caso nenhuma
tllctos, construímos, no próximo exemplo, uma tabela de dupla entrada contendo
marginal seja zero, concluímos imediatamente a não independência, uma
vez que rrs freqüências que seriam esperadas, caso houvesse independência entre as
o produto de dois números não nulos nunca é zero.
tr vlriáveis. Precisamos decidir se as duas tabelas, a de freqüências observadas e a
A verificação da independência, no caso de duas variáveis em um tlc esperadas, estão suficientemente próximas uma da outra.
conjunto de dados, será discutida com maior profundidade no capítulo g que Ilxemplo 5.-f 0.. Apresentamos os dados relativos a uma amostra de 80 famílias, de
trata
cle Testes de Hipóteses. Entretanto, podemos utilizar as idéias de
indepeìdência lun certo bairro, com as informações sobre o número de pessoas que trabalham
cle variáveis aleatórias para estudar a relação de duas variáveis observadas
numa nufamília (") e o número de adolescentes entre 12 e 1B anos (A).
população ou amostra. Uma das formas utilizadas é construir a tabela
cntrada com porcentagens em relação ao total de colunas ou linhas.
de dupla
r\Á 0 1 2 t
rJ 4 total
0 5 4 2 3 1 15
Ilxcntplo 5.9.' Em uma clínica médica foram coletados dados em 150 pacientes,
relbrcntes ao último ano. observou-se a ocorrência de infecções urindriàs (J)
I 2 B 6 4 I 2t
eo 2 4 8 B 5 2 27
tttítncru tle parceiros sexuais (,n/). Deseja-se verificar se essas variáveis estão
.1 ,
4 2 2 5 4 I7
russociadas. os dados são apresentados a seguir, com as respectivas
marginais. B, 80
total 15 22 1B T7
u\r/ 0 7 2 ou mais total
A rnarginal deT e as freqüências de seus valores, restritas ao grupo Á- 0, serão
Sim t2 2L 47 BO
irpresentadas em seguida. Note que as freqüências de ocorrência, restritas a cada
Não 45 1B 7 70 grr.rpo de valor de A, nada mais são do que as colunas da tabela de dupla entrada
total 57 39 54 150 rlo início do exemplo.
Cottstruindo uma nova tabela com as porcentagens em relação ao total de coluna,
otrtcmos a proporção relativa da variável (J em relação i cada subconjunto
de
valores de N.
t40 Capítulo 5 : Variáv eis Bidimensionais 5,2 Associação entre Variáveis 141
T freq. T /A:0 freq. observ. eube agora quantificar se essa tabela está ou não "muito" distante da tabela
0 15 0 5 ohscrvada. Uma medida usualmente calculada é a seguinte:
1
2
3
2L
27
L7
2
J
1 2
4
4
Q':D4, i,i "11
total 80 total 15
Eonl o,;.i e eiirepfesentando, respectivamente, as freqüências observadas e
Se houvesse independência entre T e A, o comportamento da variâvel ? csl)cradas na linha 'i e coluna j. A medida Q2 usa a diferença entre oi.j e ei.j
em cada grupo deveria ser o mesmo e, portanto, esperaríamos que as freqüênci elcvada ao quadrado para evitar o cancelamento de termos positivos por
de cada valor de 7 mantivessem a mesma proporcionalidade encontrada na flL:gativos. A divisão pot ei.i objetiva padronizar a medida, relativizando o
ilmostra como um todo. Em outras palavras, as duas tabelas acima precisariam ser tnrrranho da diferença encontrada. Como estamos tratando de observações de
parecidas quanto à freqüência relativa. Acrescentamos, na tabela restrita ao grupo vrrriÍrveis, podem ocorrer flutuações devido à natureza aleatóúa da amostragem e
A.:0, uma nova coluna com a freqüência esperada caso a independência se €rrrrcluiremos pela independência entre essas variáveis, se houver razoáxel
verifique. Essa coluna foi calculada multiplicando a freqüência relativa do valor proximidade nas tabelas. Não é difícil perceber que isto significa valores
cle ? (em toda a amostra) pela freqüência do grupo. Por exemplo, a freqüência pe(luenos da medida Q2 e,no Capítulo 8, desenvolveremos um critério estatístico,
esperada do valor T:7, no grupo dos Á:0, seria 21180 x 15:3,94. Note piìriÌ tomar a decisão de aceitar a independôncia de duas variáveis. Para este
que esta freqüência não precisa ser um número inteiro. excrnplo, vamos nos contentar em apresentar o cálculo da medida Q2 que, pelo
tlr:rr valor, consideraremos uma indicação de não independência:
T\Á:0 freq. observ. freq. esperada
0 5 2,87
Q,:
(5-2,81)2
+...+ (4-r,70)2 :12.63.
1 2 3,94 2,81 L,70
2 4 5,06
D
3 4 3,19
total 15 15 No caso de dependência linear e de variáveis quantitativas, existe uma
prrtla medida que é freqüentemente utilizada e será definida, a seguir, para um
De modo análogo ao feito para o grupo Á: 0, calculamos as freqüências corr.junto de dados brutos.
esperadas para todas as colunas da tabela de dupla entrada (valores aproximados):
I)t1[iníção 5.4: Correlação entre variáveis num conjunto de dados brutos
7 \.4 0 1 2 ò 4 total
Considere um conjunto de dados com n pares de valores para as variáveis
0 2,Bl 4,13 3,37 3,19 1,50
por (ru,g),'í:I,2,...,fr.O coeficiente de correlação
15
I 3,94 5,77 4,73 4,46 2,r0 27
.\ c Y, representados
rrrcrlc a dependência linear entre as variáveis e é calculado da seguinte forma:
2 5,06 7,42 6,08 5,74 2,70 27
t 'n
3,19 4,67 3,83 3,61 I,70 17
- r,,r,,)(ar. -
t)
D@o a,*,)
total 15 22 1B 77 B 80 i,:l
Px,Y =
142 Capítulo 5: Variáveis 5.2 Associação entre Variáveis 143
ou, em uma forma mais conveniente para cálculo, Scgue que r o6, : l-35, 63 e y oo,
: 38, 75. Utilizando a expressão de cálculo da
n,
currelação vem que:
LrtAt.-TLIohsAobs 43245-8x135,63x38,75
i:l PX,Y:
PX,Y:
E(xY): tL"yp@,a)
r '!l xl o 1 2
p | 5/10 2/70 slto
: I D,*aP@)P@) -$
r lt
'.ü* vl o t z
: (T 'p@)) (Duna) pi | 3lt0 4lr0 3lt0
: E(x) E(Y) .
ít
\ ,nf Segue então que E(X) : S/10 e E(Y) : L'
/t Podemos agora verificar que
Exemplo 5.12.' No Exemplo 5.5, o par de variáveis f*,h represenr
: ISlto: E(X) + E(Y):
respectivamente, a quantidade de poços artesianos e de riachos em sub-regiões E(X +Y) B/10 + 1, '
uma certa ârea. A próxima tabela contém os valores das variáveis X f Y e X isto é, o valor esperado da soma é igual à soma dos valores esperados.
com suas probabilidades. Entretanto, para o produto temos
(X,Y) X+Y XY p(r,a) R
(0,0) 0 0 L
/10
E(xY):7lLo+E(x)E(Y): õ * t,
(0,1) I 0 2/r0
(0,2) 2 0 2/r0 ou seja, o valor esperado do produto de duas variáveis não é igual ao produto de
seus valores esperados. Note que, conforme já havíamos mencionado, as variáveis
(1,0 1 0 L/n independentes. tr
aleatórias X eY não são
(1,1) 2 I 1170
(2,0) 2 0 L/10 Na Figura 5.2, apresentamos a expressão do valor esperado da sorra de
( t variáveis aleatórias.
(2, 1 r) 2 L/rc
(2,2) 4 4 r/70
x+rl 0 L 2 3 4
Para os valores esperados temos: É importante salientar a relação unidirecional de implicação entre a
E(X+Y):18/ro e E(XY) :7lto. independência e a fatoração da esperança do produto. O resultado váfido afirma
que a independência de X e Y implica no valor esperado do produto XY set
As distribuições marginais de X e Y jâ foram calculadas no Exemplo 5.5 e são igual ao produto do valor esperado de X pelo valor esperado de Y. Todavia, se o
reapresentadas em seguida: valor esperado do produto de duas variáveis é o produto dos valores esperados,
t4(, Capítulo 5: Variáveis Bidimensionais t47
5.2 Associação entre Variáveis
-1 2/72 0 3/12 5l12 Ilxemplo 5.14: As variáveis U eV têm a seguinte distribuição conjunta:
0 0 r/L2 L/T2 2/12
1 I/L2 2/12 2/12 5/r2 (u,v) (2,2) (3,4) (3, B) (4,6) (5,4) (5,8) (6, 10)
P(Z : z) 3/L2 3/12 6/12 1 P(u,u) 0,1 012 0,1 012 0,1 012 0,1
Por outro lado, utilizando as distribuições marginais de W e Z, podemoscalcular 5 0 0,1 0 012 0 0,3
seus valores esperados. Assim, 6 0 0 0 0 0,1 0,1
Fazemos agora uma translação de eixos para colocar a origem : o*,, : E(Xlí) - E(X) E(y).
Cov(X,Y)
respectivas médias, isto é, no ponto (4,6).Dessa forma, os pontos anteri
Õbserve que' no caso em que xe y serem independentes, temos
transformam-se em (u - 4,a - 6), com cada coordenada representando o desvi cov(x,y) : 0,
utì1il vez que o valor esperado do produto se torna igual ao produto do, uâIo.",
em relação à sua média.
A partir da covariância, definimos uma nova medid" d" d;;"dêï;;;
ffJl*'.for'
lllìcilr.
Derfinição 5.6: Correlação entre vatríáveis aleatórías
O coeficiente de correlação entre as variáveis aleatórias discretas
X ey
é r:irlculado pela seguinte expressão:
Cov(X,Y)
4'.,- :
OX OY
E
Pela definição acima, o coeficiente de correla
ção ê o quociente entre a
crviuiância e o produto dos desvios-padrão de x e )2. A divisão
pelo produto dos
rlcsvios-padrão tem a função de padronizar a medida
e torná-la possível de ser
,tilizada para comparações com outras variáveis. Não é difícil
u"rifi.u, gue px,v
é rrrrr número adimensional e limitado por 1, isto é, <
lpx,vl 1. A interpretação de
suir cxpressão segue os mesmos passos da covariância,
sendo que valores de
1t,y,y próximos de Í 1 indicam correlação forte.
t50 Capítulo 5: Variáveis
5,2 Associação entre Variaveis 151
Var(X +n:
''100 2 # +2(-#) : 116
Figura 5.6: Variância da soma de duas variáveis aleatórins.
" 100
r\c
apresentadas anteriormente. Temos,
E(X):E(Xt+Xz.-"'+X,) 0 1 2
: p+ p+...+ p
2
o
J
34
T2
45
16
38
31
- np.
Para obter a variância, usaremos a independência dos X;,r: a. Obtenha as tabelas marginais de freqüência.
b. Construa a tabela de freqüências esperadas, caso houvesse independência
Var(X) : Var(Xr t Xz + "' 1 X,,) entre as variáveis.
: Var(Xt) * var(X2) + ... + var(X") c. Determine o índice Q2.
: p(l - p) + p(I - p) + ... + p(L - p)
4. A função de probabilidade conjunta entre as variáveis aleatórias X eY
: np(I- p). apresentada na próxima tabela.
ê,
(F,C) freq.
5.3 Exercícios
(0,0) L2
1. A tabela a seguir apresenta os valores observados em uma amostra de 130 (0, 1 25
empregados do ramo do comércio. (0,2) 8
Sexo \ Fumante Sim Não (1,1) t4
Masculino 24 18 (2,1 57
Feminino 25 63 (3,1 40
(3,2) 45
a. Construa as tabelas marginais de freqüência para as variáveis Sexo e (4,r 27
Fumante. (4,2) 22
b. Se usássemos a amostra para tirar uma conclusão sobre toda população,
você diria que, proporcionalmente, mais homens fumam do que mulheres? 5. Os dados a seguir referem-se a uma amostra de 5 alunos que informaram, no
c. Calcule o índice de associação Q2 entre as variáveis. início do curso, seu peso e idade.
,,
Em uma amostra de 8 funcionários de uma empresa, observou-se duas Aluno I 2 J 4 5
variáveis: anos de empresa (A) e número de promoções recebidas (P). Com Peso 7L 65 70 57 66
os resultados apresentados a seguir você diria que, para essa empresa, essas Idade L7 L7 18 17 19
variáveis estão associadas?
a. Encontre a média e o desvio padrão do peso dos alunos c"om l7 anos.
A 5 6 6 7 I B B 8 b. Construa o diagrama de Peso por ldade.
P 2 2 1 2 0 t
J 1 0 c. Obtenha o coeficiente de correlação entre peso e idade.
3. Está sendo estudado o efeito do teor de ferro na capacidade ile car p de vigas ír. Para cinco volumes de uma mesma solução foram medidos os tempos de
de concreto. Os dados abaixo apresentam os resultados de medidas btidas em aquecimento, em um mesmo bico de gás, e as respectivas temperaturas de
uma amostra. Obtenha a correlação entre as variáveis. ebulição:
Ferro (7o peso) 5,4 6,8 6,9 7,3 7,7 8,1 8,2 8,5 8,6 8,9 Tempo (min.) 20 22 19 23 17
Carga (ton./m2) 2rL ,) 2r9 2r9 3,0 3,1 3,1 3,1 314 3,5 Temperatura ('C) 75 BO 75 82 78
4. A tabela de freqüência conjunta entre número de filhos (f') número de a. Obtenha o gráfico do Tempo pela Temperatura e calcule a correlação.
cusamentos
"
oficiais (C) é apresentada, a seguir, para os 250 funcionários de b. Você acha que existe associação entre as variáveis?
urïáì certa empresa. 7. Alguns cientistas sociais acreditam que a opinião sobre o aborto independe da
a. Determine as tabelas de freqüência marginais, correspondentes a cada uma situação familiar. O que você diria, após estudar a amostra?
das variáveis, isoladamente, e calcule as médias de F e C.
Situação \ Opinião Favoráveis Contrários
b. Construa um gráfico com a distribuição de freqüência das variáveis. Você Casados 56
chega a alguma conclusão? r
Solteiros
2:4
25
coeficiente de correlação entre F e C. Note que será
15
c. Determine o Divorciados 24 16
necessário adaptar a expressão apresentada na Definição 5.4.
Viúvos 13 27
t56 Capítulo 5 : Variáveis Bidimensionais 5.3 Exercícios r57
8. A tabela a seguir consiste de 16 valores de três variáveis observadas em alunos Pac. No. t ll
2 J 4 5 6 7 8 9 10 12 I3
do curso de ciências sociaisr sexo (S), nota de estatística (E) nota de
" C I 1 2 1 2 1 I t
a) 2 2 1 1 2
antropologio (A).
s 2 2 D
t) 1 1 2 t
L)
t
d 2 J 1 2 I
s M F M F M M F F F M M F M F F M F 0 2 4 0 1 1 1 2 0 D
L) 0 1 2
E t
r) 6 4 o
iJ 6 5 5 I 4 5 5 6 5 4 t
r) 6
A t
e) 4 3 5 5 5 4 6 5 5 4 4 5 5 6 5
Pac. No. I4 15 t6 ï7 18 t9 20 2I 22 23 24
a. construa a tabela de dupla entrada para as notas de estatística er C 2 I I 1
t
a) 1 2 1 1 1
t
r)
antropologia. ,9 ,f
D
() 2 1 2 2 1 1 2 t
!)
D
t)
a. Obtenha a tabela de dupla entrada. a. A variável ? serve para explicar a variável I/? Justifique.
b. Calcule a porcentagem de cada ocorrência conjunta em relação ao total de b. Calcule a correlação entre as variáveis.
casos.
12. Um total de 1000 passageiros de vôos domósticos foram entrevistados no
c. Repita o item (b), fazendo a porcentagem em relação ao total de colunas.
Aeroporto de Guarulhos. Duas variáveis foram observadas: número de viagens
d. Que conclusão se pode tirar da relação entre a incidência de sarampo e
mensais (V) número de automóveis na família (Á). O resultado está na
próxima tabela"que, por descuido, está incompleta.
difteria?
10. As informações da tabela a seguir foram coletadas de 24 pacientes da ârea de
cardiologia de um grande hospital público. A variável C indica o número de V\A 1 2 t
r) total
intervenções cirúrgicas sofridas pelo paciente, ,9 representa o número de 1 ì/0 BO 60 -zt)O
pontes safena colocadas pelo paciente em uma ou mais cirurgias e a variável F 2 150 :.{.,t C 450
indica o número de.familiares próximos com problemas cardíacos. õ /t0
J L20 ,l4a 300
total 300 Ì 200 'i i Ì.. ),
/51J Capítulo 5 : Variáveis Bidimensionais 5.3 Exercícios
t59
a. Complete a tabela. !
16. A função de probabilidade conjunta das variáveis x ey ê dadapela seguinte
tabela de dupla entrada.
b. Calcule as porcentagens em relação ao total de coluna.
c. As variáveis são independentes? Justifique. x\y -1 0 1
13. A tabela de freqüência apresentada em seguida está incompleta e contêm -1 I/B 1/8 r/8
0 1/8 1/B
observações das variáveis: vida útil do equipamento (t/)
0
garantia do
fabricante (G), ambas medidas em anos.
" 1 L/8 I/B L/8
a. Verifique se E(XY) : E(X)E(Y).
U\G 2 4 6 B total b. X e Y são independentes? Comente.
8
t
t) 3 o 0 6
17. Numa caixa existem 4 bolas numeradas 3, 5, 5 eT.rJmabola é sorteada ao
10 6 +4.
4 I
acaso, seu número anotado (xr) devolvida à caixa. uma segunda bola é
t2 1 í) 5 4 10\ "
escolhida, também ao acaso, e seu número denotado por X2.
total 5 '.,Ú 1t <,O / a. Determine a conjunta de X1e X2.
b. Calcule as marginais de X1 e X2. Elas são independentes?
a. Complete tabe c. Encontre o valor esperado e a variância de X1, X2 eX : e+Ãt.
b. Construa o gráfico de [/ por G e verifique se há associação entre as
variáveis. 18. Uma moeda equilibrada é lançada três vezes e são definidas as variáveis
c. Calcule a vida útil média para cada subgrupo de valor da garantia. Comente aleatórias: número de caras nos dois primeiros resultados (x), número de
os resultados. caras no último lançamento (Y) e número total de caras (S).
a. Construa a tabela conjunta de (X,Y).
L4. Para o lançamento de dois dados equilibrados, defina duas variáveis b. Verifique se X e Y são independentes. ' ,
aleatórias. Seja X o número de vezes que aparece aface 2 eY igual a 0 se a c. Calcule E(X), E(Y) e Cov(X,Y).
soma for par e 1, caso contrário. d. Expresse ,5 em função de X e Y e determine E(.9) e Var(S).
a. Determine a função de probabilidade conjunta de X eY.
b. Calcule E(X), E(Y) e E(X +Y). 19. considere a frase: "Para mais saúde pratique mais esporte,,. Escolha ao acaso
c. Verifique se X eY são independentes. uma palavra dessa frase e considere as variáveis aleatórias número de vogais
d. Calcule o coeficiente de correlação entre X eY. (V) e número de consoantes (C).
a. Determine a conjunta deV e C.
15. Considere a função conjunta: b. Obtenha as funções de probabilidade marginais.
x\v 0 1 2 c. Calcule os valores esperados dessas variáveis.
0 t/78 rls rl6 d. As variáveis são independentes? Justifique.
7/9 I/I8 e. se a escolha acima resultou em v : 2,, qual é a probabilidade da palavra
1 U9
"mais" ter sido a escolhida.
2 L/6 r/6 r/18
P(l < X 12,y > 1) e P(X:
20.A tabela a seguir representa a função de probabilidade conjunta de duas
a. Calcule 1, Y ) 1).
variáveis aleatórias independentes.
b. Determine E(X), E(Y) e Cov(X,Y).
c. X e Y são independentes? Justifique.
160 \..Ì lÌxercícios r61
Capítulo 5 : Variáveis Bidimensionais
x\v P(X : r)
cov(x'Y) -2
a. Complete a tabela. 0 2
I
1 0,3
i:3i,iïil'ïl :,Y';E(Y) " 2 0r7
21. sorteia-se ao acaso um dentre os números g, 12,À e zz e é feita a P(Y : u) 012 0,3
decomposição do número sorteado em fatores primos.
$ejam D e T, as a. Complete a tabela.
variáveis que representam, respectivamente, o número de b. Calcule o valor esperado e a variância de 2X Y.
3 aparecem na decomposição.
/ezes em que o 2 e o -
a. Obtenha a conjunta entre D e T.
{
\ 26. Sendo Xr,Xz e X3 variáveis aleatórias independentes, seguindo o modelo
b. calcule a covariância e o coeficiente de correlação entre as variáveis. Bernoulli de parâmetro p, pergunta-se:
a. Qual é a função de probabilidade de Xt t Xz * Xs? Você reconhece essa
22. As variáveis F e M representam, respectivamente, o número de anos para variável?
complêtar o ensino fundamental e o ensino médio. Numa certa cidade , a tabela b. Qual é o valor aeVar(È$h)t
a seguir é adotada pafa a função de probabilidade conjunta dessas variáveis.
Determine o valor esperado e a variância da variâvel F + M que representa o 27. Sabe-se que X e Y são independentes e assumem, respectivamente, os valores
total de anos ató completar o ensino médio. 7,2 e 3 e-0, I e2. Admita conhecidas as probabilidades P(Y:0):1/3,
P(X :3) : Ll3, P(X : L,Y :0) : 1/9 e P(X :3,Y :2) : Llq,
F\M 3 4 5 6 a. Construa atabela de dupla entrada para X eY.
8 e 160 I /60 7/60 r/60 b. Calcule E(X x Y) e Var(X + Y).
9 7/60 7 /60 5/60 3/60
28. Um paleontólogo acredita que o número de minerais presentes em certo tipo
10 3/60 4160 3/60 2/60
de rocha pode influir na chance de se encontrar fósseis perto de uma indústria
23. Sejam X -b(5;0,5) e Y -b(3;0,2) independentes. Determine o valor calcâria. Através de amostras de rocha obtidas em levantamentos de campo, elc
esperado e a variância da variável2X - BY. obteve a distribuição conjunta para as variáveis Z:número de minerctis
presentes eW: variâvel que assume 1, se for observada a presença de fóssil e 0
24. A rabela a seguir representa a função de probabilidade conjunta entre o
caso contrário.
número de empregos desde que começou a trabalhar (E) e a idade do primeiro
enlprego (1), de jovens em uma pequena cidade do Estado de são paulo. w\z 1 2 t
r)
x\v 0 7 2
contém duas vermelhas e uma azul. Um experimento consiste em escolher uma
bola ao acaso da caixa I e passar para a caixa II e, em seguida, escolher uma
-1 L/12 Ll6 r/3 bola da II e passar paraa I. Sejam X eY os números de bolas vermelhas nas
1 7/6 7/4 0 caixas Ie II, respectivamente.
a. Calcule a conjunta de X e Y. Elas são independentes?
a. Obtenha a conjunta de U e V.
b. Comente o que ocorre com a variável X +Y.
b. Calcule P(U : 4lV : L).
c. Determine a média e a variância para cada uma das variável X eY .
c. Determine Cov(U,V).
34. Considere duas variáveis aleatórias independentes U-Po(2) e V-G(0,3). A
30. considere duas ua.iáveis aleatórias discretas ,1, a/l,aoota que Áassume
somente os valores ay, a2 e oJ, enquanto B "
os valore sl6 e b2. Sabemos que:
partir dessas variáveis definimos outras duas da seguinte forma:
n. crie uma tabela de dupla entracla, contendo Etário nas linhas e Coag nas
colunas. Com base em tal tabela, reavalie se a presença de coágulos
Capítulo 6
é
diferente dependendo da faixa etária.
b. Suponha que um paciente é escolhido ao acaso.
Qual a probabilidade de que Variáveis Aleatórias Contínuas
a pessoa apresentasse coágulos no momento de admissãol E uma pessoa
de
faixa etária mais alta?
c. Você diria que Coag e Etário são independentes? por quô?
38. (Use o computador) Novamente com os dados do Exercício 23 do Capítulo
1.
(r.1 Introdução
considere agotaavariávelCuracriadanoitem(c).
\ Neste capítulo, discutiremos a çVracteriz4ção de variáveis cujos possíveis
a. Crie uma tabela de dupla entrada com Cura nas linhas e Tratjm nas colunas.
b. com base na tabela do item (a), você diria que neste caso,/rapidezda cura valores ocorrem aleatoriamente e pertencem a um intervalo dos númerd's reais:
depende do tipo de tratamento considerado? Justifique. virriáveis aleatórias contínuas. Renda, salário, tempo de uso de um equipamento,
/ comprimento de uma peça e área atingida por certa praga agríeola são exemplos
c. Qual a probabilidade de que uma pessoa selecionada áo u"uro tenha cura
rápida, dado que recebeu tratamento do tipo I ? dc quantidades que podem ser modeladas por variáveis aleatórias contínuas. De
d. Qual a probabilidade de uma pessoa ter recebido tratamento do tipo I, dado lìrrma semelhante àquela desenvolvida. para variáveis aleatórias discretas,
que teve cura normal? prccisamos estabelecer, para as contínuas, a atribuição de probabilidades às suas
cliversas realizações que, neste caso, podem assumir um número infinito de
39. (use o computador) Responda os itens a seguir, baseado nos dados de vtlores diferentes. Abordamos esta questão no prgximo exemplo.
incidência de câncer apresentados no Exercíc io 24, capítulo l.
a. utilizando a mediana da variâvel GL, classifique os pacientes em dois Iixemplo ó.1.' Estudos anteriores revelam a existência de um grande lençol de
grupos, de alta e de baixa taxa de glicose. Denote essa nova variável por ígua no subsolo de uma região. No entanto, sua profundidade ainda não foi
Clagl e construa uma tabela de dupla entrada entre Clagl e ALB. Você diria tlcterminada, sabendo-se apenas que o lençol pode estar situado em qualquer
que as duas variáveis estão relacionadas de alguma forma? ponto entre 20 e 100 metros.
b. considere os valores da variável Idade em três grupos: jovem com até,25 Vamos supor que escolhemos, ao acaso, um ponto nessa região e
anos (inclusive), meia idade para indivíduos com idades entre 25 e 55 anos tlispomos de uma sonda que, ao fazer a perfuração, detecta com precisão a
(inclusive) e senior para maiores de 55 anos. construa uma tabela de dupla lrlofundidade do reservatório de água. Denotamos por X a variâvel aleaÍória
entrada para estudar o comportamento desses grupos em relação à rcpresentand o a p rofundidade.
concentração de fosfato, tirando as conclusões pertinentes. Notemos que, apesar de X poder ser qualquer número entre 20 e 100
c. Escolhendo-se um paciente ao acaso, qual a probabilidade de que ele seja do nìctros, o instrumento, com que trabalhamos, pode não ser tão preciso como
grupo .falso-negativo, dado que tem mais de 50 anos? E ter acima liostaríamos. Por exemplo, uma profundidade de 32,571 metros poderia ser
de 50 rrrcdida por 32,6 metros. Vamos assumir, entretanto, que temos um instrumento
irnos, dado que não é do grupo falso-negativo?
itlcal que náo faz aproximações. Nessas condições, podemos supor a sonda
40. (use o computador) utilize as informações do arquivo aeusp.txt, introduzido ;rcoplada a um instrumento indicador da profundidade e um dispositivo que,
no Exercício 26 do Capítulo 1. tlrrnndo a sonda encontrar água, provoque a imediata interrupção da perfuração.
a. crie uma tabela de dupla entrada com as variáveis comun e Renda. Você Uma vez que não temos informações adicionais a respeito da
diria que existe associação entre elas? lrroÍnndidade do lençol, é razoâvel assumirmos que a sonda pode parar em
b. Repita o item (a) para as variáveis Reproce e Trab. rprnlquer ponto entre 20 e 100 metros, sem que tenhamos motivos para privilegiar
c. O que pode ser dito da associação entre número de residentes (variável cssn oll aquela profundidade. Assim, consideraremos todos os pontos como
Resid) e idade que começou a traballrar (variírvel Itrab),? igrralmcnte prováveis. Se utilizarmos a mesma idéia de atribuir a cada possível
l6(t Capítulo 6: Variáveis Aleatórias 167
6,1 Introduçõo
ponto uma probabilidade, teremos uma dificuldade extra, pois eles pertencem
intervalo [20, 100], em que existem infinitos números reais. Assim, se cada Densidade
Densidade de
Probabilidade