Probabilidade e Estatistica - 3th Edição - Erivelton Vitor

PROF. ME.
ERIVELTON VITOR
Probabilidade e
Estatística
Resumo Básico dos conceitos
estatísticos descritivos e das
probabilidades
Prof. Me. Erivelton P. Vitor

e-mail: erivelton.vitor@ifg.edu.br
Texto elaborado unicamente como apoio didático

aos alunos da disciplina Probabilidade e Estatística.
Numa linguagem simples, clara e objetiva, trago
aos alunos os principais tópicos da estatística e
análise de dados bem como um estudo sistemático
das probabilidades, abrangendo as ementas dos
cursos superiores em Bacharelado e licenciaturas
ofertados no Instituto Federal de Goiás – Campus
Uruaçu
Uruaçu – GO
Conteúdo
Introdução .......................................................................................................................................... 5
1. Noção geral sobre estatística e análise de dados. ................................................................. 7
1.1. Conceitos preliminares – população, amostra e variável .................................................. 7
1.2. Análise de dados e probabilidades..................................................................................... 9
1.3. Organização dos dados e medidas resumo...................................................................... 12
Exercícios: lista 1.1 ...................................................................................................................... 25
1.4. Representação por diagramas ......................................................................................... 30
Exercícios: lista 1.2 ...................................................................................................................... 41
1.5. Coleta de dados e amostragem ....................................................................................... 52
Exercícios: Lista 1.3 ..................................................................................................................... 58
2. Probabilidades...................................................................................................................... 63
2.1. Probabilidade – principais conceitos ............................................................................... 64
2.2. Probabilidade em espaços finitos .................................................................................... 72
2.3. Probabilidade condicional e Independência de eventos ................................................. 83
2.4. Teorema de Bayes ............................................................................................................ 87
3. Variáveis Aleatórias .............................................................................................................. 97
3.1. Probabilidades para variáveis aleatórias........................................................................ 101
Exercícios: Lista 3.1 ................................................................................................................... 120
3.2. Variáveis aleatórias bidimensionais ............................................................................... 128
4. Modelos Probabilísticos ..................................................................................................... 159
4.1. Modelos Discretos.......................................................................................................... 159
4.2. Modelos Contínuos ........................................................................................................ 184
5. Introdução à Inferência Estatística..................................................................................... 221
5.1. Conceitos Básicos ........................................................................................................... 221
5.2. Distribuições Amostrais.................................................................................................. 224
5.3. Amostragem ................................................................................................................... 229
6. Intervalo de Confiança ....................................................................................................... 237
6.1. Intervalo da Confiança para a média ............................................................................. 237
6.2. Intervalo de Confiança para a Variância ........................................................................ 242
6.3. Intervalo de Confiança para proporção ou probabilidade 𝒑 ......................................... 244
7. Teste de Hipótese............................................................................................................... 249
7.1. Conceitos principais ....................................................................................................... 249
7.2. Testes de Hipótese ......................................................................................................... 253
7.3. Probabilidade de Significância 𝒑 − 𝒗𝒂𝒍𝒐𝒓..................................................................... 271
7.4. Análise da Variância ....................................................................................................... 275
Exercícios: Lista 7.3................................................................................................................... 291
8. Análise Conjunta de Variáveis ............................................................................................ 297
8.1 Associação entre Variáveis............................................................................................. 300
8.2 Modelos de Regressão ................................................................................................... 316
Exercícios: Lista 8.1................................................................................................................... 325
Apêndice ........................................................................................................................................ 333
A. Resultados de Análise Combinatória ................................................................................. 333
B. Calculadora Científica - CASIO 𝒇𝒙-82MS............................................................................ 335
C. Tabelas Estatísticas ............................................................................................................ 337
Referências Bibliográficas .............................................................................................................. 342
Introdução
A origem da Estatística é rodeada de mistérios. Foram muitas as contribuições linguísticas
para chegarmos ao conceito conhecido hoje. O mais aceito é o de que Estatística têm sua origem
na palavra latina STATUS (Estado), mas muitos acreditam que o conceito, hoje dado a
Estatística, derivou-se duma variação do neolatim statisticum collegium ("conselho de Estado")
com a do Italiano statista ("estadista" ou "político") juntamente com o alemão Statistik,
introduzido pela primeira vez por Gottfried Achenwall (1749), que designava originalmente a
análise de dados sobre o Estado, significando a "ciência do Estado" (então chamada aritmética
política (political arithmetic) em inglês). A palavra adquiriu o significado de coleta e
classificação de dados em geral através de Sir John Sinclair no início do século XIX. A rumores
que na antiga Babilônia, China e Egito a mais ou menos 3.000 anos AC já se fazia uso das
técnicas usadas hoje nessa ciência. No Velho Testamento bíblico temos uma referência a uma
instrução dada a Moises para que fizesse um levantamento de quantos homens israelitas
estavam aptos para guerrear. Dessa forma, o propósito original da Estatística era fornecer os
dados a serem usados pelo governo e outras organizações. A coleta de dados sobre estados e
localidades continua, em grande parte, através de órgãos estatísticos nacionais e internacionais.
No século XIX, o desenvolvimento do cálculo de probabilidade e outras metodologias

matemáticas, tais como a técnica de Mínimos Quadrados, foram fundamentais para o
desenvolvimento da Estatística. Somente no século XX a Estatística desenvolve-se como uma
área específica do conhecimento a partir do desenvolvimento da Inferência Estatística; uma
metodologia baseada em probabilidade que tem ampla aplicação nas ciências experimentais. A
Estatística hoje consiste numa metodologia científica para obtenção, organização e análise de
dados, oriundos das mais variadas áreas das ciências experimentais, cujo objetivo principal é
auxiliar a tomada de decisões em situações de incerteza. Essa tomada de decisão se torna viva
quando estudamos os fenômenos que descrevem o comportamento de algum sistema aleatório.
Neste estudo vemos que os conceitos e métodos estatísticos não são apenas úteis, como também
indispensáveis na compreensão de tais fenômenos, isto por que eles fornecem meios de
obtenção de novas percepções no que diz respeito ao comportamento desses diversos
fenômenos.
Prof. Me. Erivelton Vitor

6 Probabilidade e Estatística
A disciplina estatística nos ensina a fazer julgamentos inteligentes e a tomar decisões na

presença de incertezas e variações. Sem incertezas ou variações, haveria pouca necessidade de
estatísticos ou métodos estatísticos. Se cada componente de um determinado tipo tivesse
exatamente o mesmo tempo de vida, se todos os resistores produzidos por um determinado
fabricante tivessem o mesmo valor de resistência, se as determinações de pH de espécimes de
solo de um local determinado fornecessem resultados idênticos, e assim por diante, então uma
única observação revelaria todas as informações desejadas. Na prática, os fenômenos não se
apresentam de forma homogênea fazendo necessário julgamentos inteligentes, tomadas de
decisões diante de resultados incertos e variados. Devido a isso, os pesquisadores estão
constantemente expostos a conjuntos de fatos ou dados com comportamentos e resultados
diferentes.

1. Noção geral sobre estatística e
análise de dados.
1.1. Conceitos preliminares – população, amostra e
variável
Uma investigação normalmente enfoca uma coleção bem definida de objetos que
constituem o conjunto de unidades de interesse. Essa coleção de unidades passíveis de
observação com uma ou mais características em comum que se pretende analisar é dita
população estatística. Em um estudo, a população pode ser finita (possuirá uma quantidade 𝑁
de pontos populacionais) ou infinita (não é possível contar quantos elementos tem ou possui
uma quantidade numericamente grande). Numa investigação a população pode consistir em
todas as aves nascidas de um determinado procedimento. Outra investigação pode estabelecer
que a população seja todos os alevinos que receberam um tipo específico de ração durante o
ano mais recente. Quando as informações desejadas estiverem disponíveis, de forma que se
possa avaliar individualmente cada unidade observável da população, temos o que é
denominado censo. Restrições de destrutividade, tempo, dinheiro e outros recursos escassos
normalmente tornam um censo impraticável ou inviável. Em vez disso, um subconjunto finito
da população, o que chamamos de amostra, é selecionado de uma forma prescrita e
irrevogavelmente representativa. Dessa maneira, podemos obter uma amostra de parafusos de
uma determinada produção como base de investigação da conformidade dos parafusos com as
especificações do fabricante; ou podemos selecionar uma amostra dos formandos em
engenharia do ano anterior para obter um retorno sobre a qualidade dos currículos. Para a
realização desses estudos, é necessário que o pesquisador tenha em mente algumas informação
sobre o problema a ser estudado. Essa rotina geralmente inclui:
1. Formulação do problema: Identificar claramente o problema ou questão que
precisa ser respondida por meio da análise estatística. Isso envolve definir objetivos
claros e estabelecer as hipóteses a serem testadas;
2. Planejamento: Esta fase envolve desenvolver uma descrição clara e concisa do
problema a ser investigado, definição dos objetos e questões de pesquisa, seleção
da população ou amostra para realização da pesquisa, definição das variáveis,

desenvolvimento de um plano detalhado para coletar dados, planejamento de

medidas e instrumentos, cálculo do tamanho da amostra, definição de critérios de
inclusão e exclusão de dados, planejamento de recursos e considerações éticas da
pesquisa;
3. Coleta de dados: Implementar o plano de coleta de dados que foi elaborado na fase
de planejamento. Isso pode envolver a realização de entrevistas, questionários,
observações ou a obtenção de dados de fontes secundárias;
4. Organização e preparação dos dados: Os dados coletados podem estar
desorganizados ou precisar de preparação antes da análise. Isso pode incluir
limpeza de dados, codificação de variáveis e organização em formatos adequados
para análise.
5. Análise exploratória: Antes de aplicar técnicas estatísticas mais avançadas, é
importante examinar os dados por meio de gráficos, tabelas e estatísticas descritivas
para entender melhor suas características e padrões preliminares. Identificar, pelo
menos provisoriamente, os fatores importantes que afetam este problema ou que
podem desempenhar um papel na sua solução bem como;
6. Aplicação de técnicas estatísticas: Nesta fase, as técnicas estatísticas apropriadas
são aplicadas aos dados, com base nas perguntas de pesquisa e nas hipóteses
estabelecidas. Isso pode incluir testes de hipóteses, regressão, análise de variância,
entre outras. Propor um modelo para o problema, usando conhecimento científico
ou de engenharia do fenômeno em estudo. Indique quaisquer limitações ou
suposições do modelo e realize experimentos apropriados e coletas dados para testar
ou validar a tentativa modelo ou conclusões refinando, se necessário, o modelo
usado.
7. Interpretação dos resultados: Analisar os resultados estatísticos e interpretá-los à
luz das questões de pesquisa. Isso envolve compreender o significado estatístico e
prático das conclusões;
8. Elaboração de relatórios e conclusões: Comunicar os resultados da análise de
forma clara e concisa. Relatórios estatísticos podem incluir resumos, gráficos,
tabelas, discussões sobre implicações e conclusões alcançadas a partir dos dados.
Propor exemplos de experimento apropriado para confirmar que a solução proposta
para o problema é eficaz e eficiente;

Noção geral sobre estatística e análise de dados. 9
9. Tomada de decisões: Com base nas conclusões tiradas da análise estatística, tomar
decisões informadas ou fazer recomendações relevantes para o problema ou questão
original. tirar conclusões ou fazer recomendações com base na solução do
problema.
10. Revisão e validação: A fase final envolve revisar todo o processo, desde o
planejamento até a interpretação dos resultados, para garantir a validade e a
confiabilidade da análise estatística realizada.
Os passos acima são fases do que chamamos método pois descrevem um conjunto de
ações, meios e rotinas organizados convenientemente para se chegar a um fim esperado. O
método pode ser descrito de forma experimental ou estatístico. O primeiro se caracteriza por
manter constantes todas as causas (fatores), menos uma, e variar esta causa de modo a descobrir
seus efeitos sobre o fenômeno aleatório em estudo. Seu objetivo é permitir conhecimentos sobre
comportamentos comuns a um grupo de fatores sobre o problema (fenômeno) em estudo. O
segundo admite a impossibilidade de se manter todas as causas presentes constantes, então, se
registra todas as variações possíveis e procura determinar quais influências cabe a cada uma
dessas variações nos fenômenos aleatórios que se destacam porque eles se repetem e estão
associados a uma variabilidade. Após a ocorrência de um fenômeno aleatório, é impossível
prever com certa precisão o resultado de nova ocorrência.
1.2. Análise de dados e probabilidades
Normalmente, estamos interessados apenas em certos aspectos únicos das unidades

observacionais que são elementos da população de interesse. Por exemplo o número de
acidentes, por dia, em determinado cruzamento, a taxa de derretimento das cápsulas usadas em
medicamentos, o sexo de um formando em engenharia, o tempo, em anos, que um indivíduo
demorou para se formar, etc. Observe que em cada caso citado o interesse se concentrou num
particular aspecto das unidades constituintes da população (únicas das unidades populacionais),
nesse sentido, dizemos ser variável estatística uma abstração que se refere a um particular
aspecto do objeto em estudo. Uma variável pode ser categorizada, como sexo ou tipo de defeito,
ou pode ter natureza numérica. O primeiro exemplo se trata-se de uma categoria (por exemplo,
feminino ou solda insuficiente), enquanto, no último caso, o valor é um número (por exemplo,
idade 23 anos ou diâmetro 0,502 cm). Em outras palavras, uma variável é qualquer
característica cujo valor pode mudar de um objeto para outro na população. Dessa forma

classificamos as variáveis em qualitativas, quando os resultados associados forem categóricos

e quantitativas quando os resultados forem numéricos. Inicialmente, devemos identificar as
variáveis com letras minúsculas do final do nosso alfabeto. Os exemplos incluem:
x: taxa de derretimento das cápsulas de medicamento em contato com o suco gástrico
y:número de defeitos graves em um automóvel recentemente fabricado
z: naturalidade dos candidatos a uma vaga de emprego
Exemplo 1.1 As investigações de resistência de materiais fornecem um campo fértil para a

aplicação de métodos estatísticos e estudos sobre variáveis. O artigo “Effects of Aggregates and
Microfillerson the Flexural Properties of Concrete” (Magazine of Concrete Research, 1997, p.
81-98) relatou um estudo de propriedades de resistência de concreto de alto desempenho obtidas
pela utilização de superplásticos e determinados adesivos. A resistência à compressão desse
concreto foi investigada anteriormente, mas não se sabe muito sobre a resistência à flexão (uma
medida da capacidade de resistência a falhas decorrentes de flexão). Os dados a seguir sobre
resistência à flexão (em megapascal, MPa, onde1 Pa (pascal) = 1,45x104 psi) foram exibidos no
artigo citado:
5,9 7,2 7,3 6,3 8,1 6,8 7,0 7,6 6,8 6,5 7,0
6,3 7,9 9,0 8,2 8,7 7,8 9,7 7,4 7,7 9,7 7,8
7,7 11,6 1,3 11,8 10,7
Suponha que busquemos uma estimativa do valor médio da resistência à flexão de todas
as vigas que podem ser feitas dessa forma (se considerarmos a população de todas as vigas,
estaremos tentando estimar a média da população) como no Exemplo 1.1. Pode-se mostrar que,
com alto nível de confiança, a resistência média da população está entre 7,48 Mpa e 8,80 MPa.
Isso é denominado intervalo de confiança ou estimativa por intervalo. De forma alternativa,
esses dados podem ser usados para prever a resistência à flexão de uma única viga desse tipo.
Com alto nível de confiança, a resistência de uma determinada viga excederá 7,35 MPa. O
número 7,35 é denominado limite inferior de previsão.
■
Os métodos de apresentação e ilustração de inferência estatística úteis ao trabalho
científico e a análise de dados trazem informações confiáveis no âmbito das incertezas. Estes
métodos estatísticos são projetados para contribuir para o processo de fazer julgamentos
científicos em face da incerteza e variação. Para tratar desse assunto, buscamos a proficiência
em probabilidade que nos leva à melhor compreensão de como os procedimentos inferenciais
são desenvolvidos e usados, como as conclusões estatísticas podem ser traduzidas para a

linguagem do dia-a-dia e interpretadas, e quando e onde podem ocorrer ciladas na aplicação

dos métodos. A probabilidade e a estatística lidam com questões que envolvem populações e
amostras, mas o fazem de “maneira inversa” uma em relação a outra.
Em um problema de probabilidade, as propriedades da população, que são objeto de

estudo, são assumidas como conhecidas (por exemplo: em uma população numérica, uma
distribuição especificada dos valores da população pode ser assumida) e as questões relativas a
uma amostra proveniente da população são propostas e respondidas. Em um problema de
estatística, as características de uma amostra estão disponíveis ao investigador e essas
informações permitem que ele tire conclusões sobre a população. A relação entre as duas
disciplinas pode ser resumida da seguinte forma: a probabilidade faz suas considerações da
população para a amostra (raciocínio dedutivo) e a inferência estatística faz considerações da
amostra para a população (raciocínio indutivo). Isso é ilustrado na figura seguinte
Figura 1.1
Antes de podermos entender o que uma determinada amostra pode nos dizer sobre a
população, devemos entender a incerteza associada à tomada da amostra de uma dada
população. Como exemplo do contraste entre os focos da probabilidade e da inferência
estatística, considere o uso de cintos de segurança manuais de dois pontos em carros equipados
com cintos automáticos de três pontos. Em probabilidade, podemos assumir que 50% de todos
os motoristas de carros equipados dessa forma em uma determinada área metropolitana usam
regularmente o cinto de dois pontos (uma hipótese sobre a população), de forma que
perguntamos: “Qual a probabilidade de que uma amostra de 100 motoristas inclua ao menos 70
que usam regularmente o cinto de dois pontos?” ou “Em uma amostra de tamanho 100, quantos
motoristas podemos esperar que usem o cinto de dois pontos?” Por outro lado, em inferência
estatística temos as informações da amostra disponíveis. Por exemplo: uma amostra de 100
motoristas de tais carros revelou que 65 usam o cinto de dois pontos regularmente. Podemos
perguntar então: “Isso fornece evidência suficiente para a conclusão de que mais de 50% de

todos os motoristas nessa área usam regularmente o cinto de dois pontos?” Nesse último
cenário, tentamos usar as informações da amostra para responder a uma pergunta sobre a
estrutura de toda a população a partir da qual a amostra foi selecionada. No exemplo do cinto
de dois pontos, a população está bem definida e concreta: todos os motoristas de carros
equipados de uma forma em uma determinada área metropolitana. Quando a população não
existir na realidade? Neste caso, é conveniente pensarmos na população como consistindo de
todos os resultados possíveis que possam ocorrer para determinada variável, que podem ser
feitas em condições experimentais. Tal população é denominada população conceitual ou
hipotética. Há diversas situações de problemas em que se encaixam questões na estrutura de
inferência estatística pela conceitualização de uma população.
Vemos que a teoria da probabilidade é, no fundo, apenas o senso comum reduzido ao

cálculo; nos faz apreciar com exatidão o que as mentes razoáveis sentem por um tipo de instinto,
muitas vezes sem poder explicar isso. É notável que essa ciência, que se originou da
consideração dos jogos de azar, tenha se tornado o objeto mais importante do conhecimento
humano. As questões mais importantes da vida são, na maior parte, apenas problemas de
probabilidade, assim disse o famoso matemático e astrônomo francês (Newton da França)
Pierre-Simon, Marquis de Laplace. Embora muitas pessoas sintam que o famoso marquês, que
também foi um dos grandes contribuintes para o desenvolvimento da probabilidade, possa ter
exagerado um pouco, é verdade que a teoria da probabilidade se tornou uma ferramenta de
importância fundamental para quase todos os cientistas, engenheiros e médicos. praticantes,
juristas e industriais.
1.3. Organização dos dados e medidas resumo.
Distribuição de dados
Ao coletar e armazenar os resultados em uma investigação, obtemos um conjunto de
dados, que chamamos distribuição de dados. Esse conjunto de dados é classificado como
univariado, bivariado e multivariado. Um conjunto de dados é classificado em univariado
quando é obtido de observações sobre uma única variável. Por exemplo: podemos determinar
o tipo de transmissão, automática (A) ou manual (M), de cada um dentre 10 automóveis
recentemente comprados em um determinado revendedor, resultando em um conjunto 𝑋 de
dados categorizados, a saber, 𝑋 = {𝑀; 𝐴; 𝐴; 𝐴; 𝑀; 𝐴; 𝐴; 𝑀; 𝐴; 𝐴}. O número de bactérias,

em milhões, em 10 amostras de água subterrânea é um conjunto numérico 𝑌 de dados

univariados 𝑌 = {5,6; 5,1; 6,2; 6,0; 5,8; 6,0; 5,6; 5,5; 6,2; 5,6}. Perceba que o resultado 𝐴
(automático) apareceu 7 vezes e o resultado 5,6 apareceu 3 vezes. Esses valores foram os que
mais apareceram dentre os dados registrados. A quantidade de vezes que um particular resultado
𝑥𝑖 (𝑖 − é𝑠𝑖𝑚𝑜 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜) aparece na coleção de possíveis resultados da variável é chamada
de frequência absoluta e indicada por 𝑓𝑖 . Caso comparemos a frequência absoluta com o total
𝑛 de realizações de uma variável, obtemos a frequência relativa geralmente indicada e obtida
por 𝑝𝑖 = 𝑓𝑖 ⁄𝑛. Teoricamente, as frequências relativas deveriam somar 1, mas, na prática, a
soma pode ser ligeiramente diferente por causa de arredondamentos feitos durante os cálculos.
Uma forma de sintetizar estas frequências é por meio de tabelas, vejamos, para a variável 𝑋
temos
Tabela 1.1 Tipo de transmissão entre os 10 automóveis recentemente negociados

𝑖 Tipo de transmissão Frequência absoluta (𝑓𝑖 ) Frequência relativa (𝑝𝑖 )
1 Automática 7 0,7
2 Manual 3 0,3
Total 10 1,0
para a variável 𝑌 temos,

Tabela 1.2 Número de bactérias, em milhões, em 10 amostras de água subterrânea
Número de bactérias,
𝑖 Frequência absoluta (𝑓𝑖 ) Frequência relativa (𝑝𝑖 )
em milhões
1 5,1 1 0,1
2 5,5 1 0,1
3 5,6 3 0,3
4 5,8 1 0,1
5 6,0 2 0,2
6 6,2 2 0,2
Total 10 1,0
Um conjunto de dados é classificado em bivariado quando as observações são feitas em

cada uma das duas variáveis que descrevem o fenômeno em estudo, ou seja, é investigado duas
possíveis caudas do fenômeno. Por exemplo, o conjunto de dados pode consistir em um par
(altura, peso) de cada jogador de basquete de um time, com a primeira observação sendo
(72; 168), a segunda sendo (75; 212) e assim por diante. Se um engenheiro determinar o
valor de 𝑥 = 𝑣𝑖𝑑𝑎 ú𝑡𝑖𝑙 𝑑𝑜 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒 e 𝑦 = 𝑚𝑜𝑡𝑖𝑣𝑜 𝑑𝑒 𝑓𝑎𝑙ℎ𝑎 𝑑𝑜 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒, o
conjunto de dados resultante será bivariado com uma variável numérica e outra categorizada.
Já os dados multivariados surgem quando são feitas observações sobre mais de duas variáveis.

Por exemplo: um médico pesquisador pode determinar a pressão sanguínea sistólica, a pressão
sanguínea diastólica e o nível de colesterol de cada paciente participante de um estudo. Cada
observação seria um trio de números, como (120; 80; 146). Em muitos conjuntos de dados
multivariados, algumas variáveis são numéricas e outras são categorizadas.
Medidas Resumo e separatrizes
Os resumos visuais de dados são excelentes ferramentas para obter impressões e ideias
iniciais. Uma análise mais formal de dados frequentemente exige o cálculo e a interpretação de
medidas-resumo numéricas simples. Isto é, a partir dos dados, tentamos extrair diversos
números simples, que servem para caracterizar o conjunto dedados e indicar algumas
informações consideráveis. Nossa preocupação principal será com os dados numéricos. Antes
de obtermos qualquer medida representativa de uma distribuição, devemos, primeiro, organizar
os dados em ordem crescente. Suponha, então, que nossa distribuição seja como dada no
Exemplo 1.2 abaixo.
Exemplo 1.2 Considere os salários, em frações do salário mínimo, dos 36 empregados da seção
orçamentos da Companhia MB, organizados em ordem crescente.
4,00 4,56 5,25 5,73 6,26 6,66 6,86 7,39 7,44 7,59
8,12 8,46 8,74 8,95 9,13 9,35 9,77 9,80 10,53 10,76
11,06 11,59 12,00 12,79 13,23 13,60 13,85 14,69 14,71 15,99
16,22 16,61 17,26 18,5 19,40 23,30
Selecionando um empregado, ao acaso, dentre os 36 pesquisados que salário seria
esperado ele receber? Qual o valor mínimo recebido pelos 25% mais bem pagos? Que
características, de tal conjunto de números, são de maior interesse e merecem ênfase?
■
Uma característica importante de um conjunto de números é sua localização e, em

particular, seu centro. Precisamos de medidas representativas que não sejam afetados, de forma
exagerada, por valores extremos, e que ainda nos dê uma boa ideia do comportamento e da
simetria ou assimetria da distribuição. A primeira medida comentada aqui é a média amostral
por fazer parte de nosso dia-a-dia. A média amostral, indicada por 𝑥̅ e definida como a soma de
todos os 𝑛 resultados divididos pelo número total de resultados. Em símbolos temos

𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑥̅ = (1.1)
𝑛
Entendemos que a média 𝑥̅ representa o valor mais provável da variável em estudo. Da
distribuição dada no Exemplo 1.2 temos que a média amostral é 𝑥̅ = 11,12. Ao se realizar várias
medidas, os valores obtidos tendem a estar mais próximos deste valor. A média é o que melhor
representa o “valor real” da variável. Como a média é facilmente influenciada por valores
atípicos conhecidos por outliers que são resultados muito afastados da aglomeração dos demais
resultados, quer seja por baixo quer seja por cima, uma forma de suprimir seus efeitos é
calculando a média aparada. Uma média aparada é calculada aparando-se certa porcentagem
dos maiores e menores valores. Por exemplo, para calcular a média aparada em 5%, deve-se
eliminar 5% dos menores resultados e 5% dos maiores resultados, calculando assim a média
dos 90% restantes. O arredondamento correspondente à porcentagem de truncamento 𝑝, com
0 < 𝑝 < 1, é feita sempre para o maior inteiro menor que 𝒑 × 𝒏. Com os dados do exemplo
1.2 temos que 10% de 36 é 0,1 ⋅ 36 = 3,6. Assim, serão eliminados 3 (maior inteiro menor
que 3,6) à esquerda e à direita, e, a média aparada em 10% é igual a 𝑥̅𝑡𝑟(10) = 10,838.
Definimos também a moda, indicada por 𝒎𝒐, como sendo o resultado com maior frequência
dentro da coleção de resultados possíveis da variável. Na Tabela 1.2 temos 5,6 como valor
modal. Em alguns casos, pode haver mais de uma moda, ou seja, a distribuição dos resultados
̃ = 𝒎𝒅 como
pode ser bimodal, trimodal, etc. Ainda destacamos a mediana, indicada por 𝒙
sendo um valor numérico que ocupa a posição central da distribuição de dados adequadamente
organizada (ordem crescente é o mais comum). Assim, se 𝑋 = {3, 4, 7, 8, 9, 9, 11} a mediana
será o valor 8, correspondente à quarta posição, isto é, 𝑥̃ = 𝑥4 = 8. É imediato que a mediana
deixa 50% dos resultados à sua esquerda. Os valores ordenados da variável 𝑋 são chamados
estatísticas de ordem, a saber, 𝑥1 = 3, 𝑥2 = 4, 𝑥3 = 7, 𝑥4 = 8, 𝑥5 = 9, 𝑥6 = 9, 𝑥7 = 11, assim
temos 3 ≤ 4 ≤ 7 ≤ 8 ≤ 9 ≤ 9 ≤ 11.
Para um tratamento estatístico mais rigoroso das variáveis quantitativas, costuma-se usar
uma definição considerando as frequências acumuladas da distribuição, ou seja, dado 𝑛
observações de uma variável quantitativa amostral e, sendo 𝑥 um número real qualquer, de sorte
que 𝑥𝑖 ≤ 𝑥, sendo 𝑥𝑖 o resultado na 𝑖 − é𝑠𝑖𝑚𝑎 posição, chamar-se-á de função de distribuição
empírica (FDE) a função 𝐹𝑒 (𝑥) que estabelece a proporção dos dados que estão à esquerda do
valor arbitrário 𝑥. A igualdade (1.2) traz a forma da FDE empírica.

1
𝐹𝑒 (𝑥) = ⋅∑𝑖
𝑛 (1.2)
𝑥𝑖 ≤𝑥
Essa função fornece, qualquer que seja o valor real 𝑥, a proporção dos resultados na
distribuição que são menores que ou iguais a 𝑥. Para ilustrar, considere a distribuição 𝑋 =
{3, 4, 7, 8, 9, 9, 11}. A FDE de 𝑋, considerando a expressão dada em (1.2), fica como abaixo
0 , se x  3
1 7 , se 3  x  4

2 7 , se 4  x  7

Fe ( x) = 3 7 , se 7  x  8
4 7 , se 8  x  9

6 7 , se 9  x  11
1 , se x  11

graficamente temos
𝑥̃
Figura 1.2
Considerando as 𝑛 estatísticas de ordem de uma variável 𝑋, ou seja, 𝑥1 ≤ ⋯ ≤ 𝑥𝑛 é fácil

presumir a existência de um valor numérico que separe a distribuição em duas partes de mesmo
tamanho calda à esquerda e calda à direita, ambas contendo 50% do total de dados. Tal número
é conhecido por mediana e, de forma intuitiva, ocupa a posição central da organização de

dados, ou seja, 𝑀𝑑 = 𝑥̃ = 𝑥(𝑛+1) . Caso o número (𝑛 + 1)⁄2 não seja inteiro, basta obter o valor
2
médio entre elemento imediatamente menor e o imediatamente maior que 𝑥(𝑛+1) . Por exemplo,
2
𝑥13 +𝑥14
se (𝑛 + 1)⁄2 = 13,5, então 𝑥̃ = . A equação (1.3) pode ser usada para calcular a
2
mediana em qualquer conjunto ordenado de valores referentes aos resultados de alguma

variável quantitativa.
De modo geral, pode-se definir uma medida, digamos, que deixa 43% dos resultados à
sua esquerda. Essa medida é chamada de quantil de ordem 𝑝ou 𝑝 − 𝑞𝑢𝑎𝑛𝑡𝑖𝑙, indicado por 𝑞(𝑝),
onde 𝑝 é uma proporção qualquer 0 < 𝑝 < 1 tal que 100𝑝% das observações sejam menores
do que 𝑞(𝑝). Abaixo, alguns quantis e seus nomes particulares:
𝑞(0,25): 1𝑜 𝑄𝑢𝑎𝑟𝑡𝑖𝑙 = 25𝑜 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 Não se esqueça: 𝑄1 = 𝑞(0,25) é entendido
𝑞(0,50): 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 5𝑜 𝐷𝑒𝑐𝑖𝑙 = 50𝑜 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 como um valor que deixa 25% dos
𝑞(0,75): 3𝑜 𝑄𝑢𝑎𝑟𝑡𝑖𝑙 = 75𝑜 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 resultados à sua esquerda
𝑞(0,40): 4𝑜 𝐷𝑒𝑐𝑖𝑙
𝑞(0,95): 95𝑜 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙
É usual indicarmos os quartis por 𝑄1, 𝑄2 e 𝑄3 , decis por 𝐷1 , 𝐷2 , ⋯, 𝐷9 e os percentis por

𝑃1 , 𝑃2 , ⋯, 𝑃10 , 𝑃11 , 𝑃12 , ⋯, 𝑃99 . Sugiro o leitor fazer uma representação geométrica desses
quantis. Como exemplo, deixo a representação geométrica dos quartis.
25%1 25%1 25%1 25%
𝑥1 𝑄1 𝑄2 𝑄3 𝑥𝑛
Figura 1.3
Dependendo do valor de 𝑝, há muita dificuldade ao se calcular os quantis. Para isso,

usaremos a igualdade (1.3) a qual nos ensina como obter uma estimativa para os quantis de
forma clara e direta
𝑞(𝑝) = 𝑥𝑘 + (𝑝(𝑛 + 1) − 𝑘) ⋅ (𝑥𝑘+1 − 𝑥𝑘 ) (1.3)
onde 𝑘 é o maior inteiro menor que 𝑝 ⋅ (𝑛 + 1). (existem outras formas de aproximar um 𝑝 −
𝑞𝑢𝑎𝑛𝑡𝑖𝑙, uma delas é considerar a FDE empírica como visto em (1.2)).
Exemplo 1.3 Calcule o 1º quartil e o 3º quartil dos dados do Exemplo 1.2.

Solução: Aqui é considerado 𝑝 = 0,25. Como 𝑛 = 36 temos 𝑝 ⋅ (𝑛 + 1) = 0,25 ⋅ 37 = 9,25.

Assim 𝑘 = 9 e por conseguinte 𝑄1 = 𝑥9 + 0,25 ⋅ (𝑥10 − 𝑥9 ) ou 𝑄1 = 7,478. Para o terceiro
quartil, usa-se 𝑝 = 0,75. Novamente 𝑛 = 36 assim 𝑝 ⋅ (𝑛 + 1) = 0,75 ⋅ 37 = 27,75. Assim
𝑘 = 27 e por conseguinte 𝑄3 = 𝑥27 + 0,75 ⋅ (𝑥28 − 𝑥27 ) ou 𝑄3 = 14,48
Espero que o leitor tenha percebido a forma como obtemos a equação (1.3). Vejamos:
considerando que o quantil de ordem 𝑝 é estimado por 𝑞(𝑝) ≈ 𝑥𝑝⋅(𝑛+1) sendo 0 < 𝑝 < 1 e,
levando em conta que o valor de 𝑝 ⋅ (𝑛 + 1) pode não ser inteiro, então considera-se a maior
posição menor que ou igual a 𝑝 ⋅ (𝑛 + 1), chamada de 𝑘, ponderando a proximidade do quartil,
mediante a parte decimal de 𝑝 ⋅ (𝑛 + 1), aos extremos do intervalo (𝑥𝑘 ; 𝑥𝑘+1 ). Por exemplo
tomando 𝑝(𝑛 + 1) = 17,35 entendemos que o quartil desejado é maior que o décimo sétimo
valor e menor que o décimo oitavo, estando a 0,35 da distância entre eles, ou seja, o quartil
requerido é o valor 𝑥17 mais 35⁄100 da distância entre 𝑥17 e o 𝑥18 . Assim, o quartil procurado
é obtido por 𝑥17 + 0,35 ⋅ (𝑥18 − 𝑥17 ) que é exatamente o resultado expresso por (1.3). A Figura
1.4 ilustra esta situação.
Figura 1.4
Como vimos, o propósito da mediana amostral é o de refletir a tendência central da

amostra que não é influenciado por valores extremos ou outliers, e, como vimos, a mediana é
um quartil que deixa 50% dos resultados à sua esquerda e 50% à sua direita. Assim, podemos
indicara mediana por 𝑥̃ = 𝑞(0,5) = 𝑄2 . Nos dados do Exemplo 1.2 temos 𝑥̃ = 𝑞(0,5) =
10,165. (faça a conta!). Usando os quartis, estabelecemos uma medida de posição alternativa
que seja capaz de identificar possíveis outliers. Tal medida é chamada de Intervalo Interquartil
ou Distância Interquartílica dada por
𝐼𝑄 = 𝑄3 − 𝑄1 (1.4)
sendo 𝑄1 = 𝑞(0,25) e 𝑄3 = 𝑞(0,75). No exemplo acima, obtemos o valor do intervalo

interquartil, a saber, 𝐼𝑄 = 𝑄3 − 𝑄1 = 14,48 − 7,478 ≅ 7,00. Dizemos que uma medida de

localização ou dispersão é resistente quando for pouco afetada por mudanças de uma pequena
porção dos dados. A mediana é uma medida resistente, a média não é. Agora, deixando 𝑋
denotar as realizações de uma variável e 𝑥𝑖 indicar o aspecto observado da 𝑖 − é𝑠𝑖𝑚𝑎
realização, temos cinco valores que descrevem bem o comportamento geométrico das
realizações em 𝑋, a saber, 𝑥1 , 𝑄1, 𝑄2 , 𝑄3 e 𝑥𝑛 , ilustrado abaixo
50% das
observações
𝑥1 𝑄1 𝑄2 𝑄3 𝑥𝑛
Figura 1.5
a diferença 𝑄2 − 𝑥1 é dita dispersão inferior (di) e 𝑥𝑛 − 𝑄2 a dispersão superior (ds)
Medidas de dispersão
O resumo de um conjunto de dados referentes a uma variável por uma única medida
representativa de posição central esconde toda a informação sobre a variabilidade do conjunto
de observações. Mesmo em problemas de análise de poucos dados, o sucesso de um método
estatístico em particular depende da magnitude da variabilidade entre as realizações dentro da
amostra. O leitor deve entender que o pesquisador quer saber o quanto os dados estão dispersos,
ou homogêneos em relação à média, isto é, a variabilidade do conjunto (dispersão) avalia como
os elementos estão concentrados em torno da média. Quanto menor for a dispersão mais
próximos e homogêneos à média estarão as realizações de um conjunto de dados. Por exemplo,
suponhamos que cinco grupos de alunos submeteram-se a um teste, obtendo-se as seguintes
notas:
grupo A: 3, 4, 5, 6, 7 grupo D : 3, 5, 5, 7
grupo B: 1, 3, 5, 7, 9 grupo E: 3, 5, 5, 6, 5
grupo C: 5, 5, 5, 5, 5
É simples verificar que 𝐴̅ = 𝐵̅ = 𝐶̅ = 𝐷

̅ = 𝐸̅ = 5,0. A identificação de cada uma destas
séries por sua média (5,0 em todos os casos) nada informa sobre suas diferentes variabilidades
ou dispersão das realizações. Qual dos grupos acima é mais homogêneo? Salientamos assim a

conveniência de serem criadas medidas que sumarizem a variabilidade de um conjunto de

observações e que permita, por exemplo, comparar conjuntos diferentes de valores, segundo
algum critério estabelecido. Um critério frequentemente usado para tal fim é aquele que mede
a dispersão das realizações em torno de sua média, e, duas medidas são as mais usadas: desvio
padrão e coeficiente de variação. O princípio básico é analisar os desvios das realizações de
uma variável em relação à média dessas realizações. Indicando por 𝒅𝒊 esses desvios teremos
𝑑𝑖 = 𝑥𝑖 − 𝑥̅ . Para o grupo A acima temos 𝐴̅ = 5. Assim
𝑑1 = 3 − 5 = −2 𝑑4 = 6 − 5 = 1
𝑑2 = 4 − 5 = −1 𝑑5 = 7 − 5 = 2
𝑑3 = 5 − 5 = 0
Como o interesse do pesquisador é medir o grau de variabilidade dos dados quando
comparadas com a média, o mais lógico seria, então, calcular o desvio médio, certo! Sim seria,
mas com uma análise direta vê-se que para qualquer conjunto 𝑋 de dados a soma dos desvios
é igual a 0 (zero) (veja exercício 19 - lista 1). Nestas condições, a soma dos desvios
∑5𝑖=1(𝑥𝑖 − 𝑥̅ ) não é uma boa medida de dispersão para o conjunto 𝐴, por exemplo. Existem
duas opções para corrigirmos o problema: (1) considerar o total dos desvios em valor absoluto;
(2) considerar o total dos quadrados dos desvios. Para o grupo A, dado acima, temos
5
∑ |𝑥𝑖 − 𝑥̅ | = 2 + 1 + 0 + 1 + 2 = 6
𝑖=1
e
5
∑(𝑥𝑖 − 𝑥̅ )2 = 4 + 1 + 0 + 1 + 4 = 10
𝑖=1
O uso desses totais pode causar certas dificuldades quando compararmos conjuntos de dados
com números diferentes de observações, como os conjuntos A e D acima. Neste contesto
definimos variância amostral, indicada por 𝑺𝟐 , como a soma dos quadrados dos desvios
dividida por (𝑛 − 1). Em símbolos temos
∑(𝑥𝑖 − 𝑥̅ )2
𝑆2 = (1.5)
𝑛−1
Mais adiante explicaremos o porquê da divisão por (𝑛 − 1), mas adianto que dessa forma
temos um estimador não viesado da variância populacional 𝜎 2 que é definida como a média
dos quadrados dos desvios (𝒅𝒊 ). O valor (𝑛 − 1) é, frequêntemente chamado de graus de
liberdade associados à estimativa da variância. Ao leitor atento saliento que daqui pra frente a

distinção entre variável amostral e variável populacional será importantíssimo. Na prática,

quando a variável for populacional finita, usaremos a letra 𝑁 (maiúscula) para designar o
número total de suas realizações; quando for uma variável amostral, usaremos a letra 𝑛
(minúscula) para tal finalidade. Em nossos grupos acima temos
8 10
𝑆 2 (𝐷) = = 2,67 𝑒 𝑆 2 (𝐴) = = 2,5
4−1 5−1
Dessa forma ambos os grupos A e D são igualmente homogêneos em relação à média

segundo a variância amostral. Como a variância amostral definida estabelece uma medida de
dimensão igual ao quadrado da dimensão dos dados (por exemplo, se os dados são expressos
em cm, a variância será expressa em cm2), pode causar problemas de interpretação. Novamente
é necessário definir outra medida, e, neste caso, chamaremos de Desvio Padrão Amostral,
indicado por 𝐒, é estabelecido como a raiz quadrada positiva da variância amostral, ou seja,
𝑆 = √𝑆 2 (1.6)
o 𝑆 indica qual a distância, em média, que determinado resultado está da média. Um valor de
desvio padrão grande significa que os valores amostrais avaliados estão bem distribuídos ou
muito heterogêneos, em torno da média, enquanto que um valor pequeno para o desvio padrão
indica que eles estão condensados próximos da média. Em poucas palavras, quanto menor o
desvio padrão, mais homogênea é a amostra.
Quando calculamos a média amostral, cometemos um certo erro em relação ao valor da

média populacional (obtida diretamente na população). Podemos obter uma estimativa desse
erro o qual chamaremos de erro padrão. Para estimar esse erro padrão, usaremos o desvio
padrão amostral 𝑆 e o tamanho 𝑛 da amostra, como mostra a equação (1.7)
𝑆
𝐸𝑃(𝑋̅) = (1.7)
√𝑛
O erro padrão quantifica o quão precisamente sua estimativa amostral reflete o verdadeiro
valor do parâmetro na população. Quanto menor for o erro padrão, maior será a precisão da
estimativa. A igualdade acima deixa claro que o erro padrão é inversamente proporcional ao
tamanho da amostra, isso significa que, à medida que o tamanho da amostra aumenta, o erro
padrão diminui, o que reflete uma maior precisão da estimativa. O erro padrão desempenha um
papel fundamental na construção de intervalos de confiança e na realização de testes de
hipóteses. Intervalos de confiança são usados para estimar um intervalo em que o valor

populacional provavelmente se encontra, com base na amostra. Testes de hipóteses são usados
para determinar se uma diferença ou efeito observado é estatisticamente significativo
permitindo assim comparar estimativas de diferentes amostras ou populações. Quando se
compara duas estimativas, a que tiver um erro padrão menor geralmente é considerada mais
precisa. Para calcularmos o intervalo de confiança da média basta multiplicar o erro padrão
pelo percentil associado ao nível de significância observado em uma distribuição normal
padrão. Para uma confiabilidade de 95% o intervalo de confiança é dado por
𝑆 𝑆
(𝑥̅ − 1.96 × , . 𝑥̅ + 1.96 × ) (1.8)
√𝑛 √𝑛
o intervalo (1.8) contém a média populacional segundo uma confiabilidade de 95%, ou seja, se
considerarmos 100 intervalos aleatórios iguais a (1.8), todos baseados em amostras de tamanho
𝑛, é esperado que 95 deles contenha a média populacional do conjunto de dados em análise.
Veremos melhor sua aplicabilidade mais adiante. Contudo, quando se quer comparar duas
distribuições distintas, o desvio padrão não produz o resultado esperado visto que ele é obtido
tomando por base os resultados numéricos da distribuição. Um valor alto do desvio padrão não
necessariamente significa uma alta dispersão entre os dados. Para poder comparar duas ou mais
distribuições usamos o coeficiente de variação, indicado por 𝐶𝑉, estabelecido como a razão
entre o desvio padrão amostral e a média da distribuição, ou seja,
𝑆
𝐶𝑉 = (1.9)
𝑥̅
facilmente se percebe que o coeficiente de variação é um valor que oscila no intervalo [0, 1].
Para obter o porcentual de dispersão basta multiplicar o resultado por 100. O coeficiente de
variação é muito usado como outro critério para comparação de duas ou mais distribuições. É
uma quantidade livre de escalas, que expressa uma medida relativa de dispersão útil para a
comparação em termos relativos do grau de concentração, em torno da média, de séries
distintas. Diz-se que a distribuição possui variabilidade nula ou pequena quando o coeficiente
de variação der até 10%; média dispersão quando der acima de 10% e abaixo de 20%; e grande
dispersão quando superar 20%. Para melhor compreendermos essas ideias, consideremos a
distribuição 𝑍 = {2, 5, 5, 7, 8, 9, 9, 11} . Para essa distribuição temos;
2 + 5 + 5 + 7 + 8 + 9 + 9 + 11
𝑧̅ = =7
8

2
(2 − 7)2 + (5 − 7)2 + (5 − 7)2 + (8 − 7)2 + (9 − 7)2 + (9 − 7)2 + (11 − 7)2
𝑆 = = 8,286
8−1
𝑆 = √8,286 = 2,879
2,879
𝐶𝑉 = = 0,41 𝑜𝑢 41% (alta dispersão)
7
2,879
𝐸𝑃(𝑧̅) = = 1,02
√8
Considerando os dados do Exemplo 1.2, reproduzidos abaixo
4,00 4,56 5,25 5,73 6,26 6,66 6,86 7,39 7,44 7,59
8,12 8,46 8,74 8,95 9,13 9,35 9,77 9,80 10,53 10,76
11,06 11,59 12,00 12,79 13,23 13,60 13,85 14,69 14,71 15,99
16,22 16,61 17,26 18,5 19,40 23,30
obtemos as medidas estatísticas amostrais, usando um software específico.
Estatísticas amostrais para os dados do exemplo 1.2

Variável Média EP Média DesvPad CoefVar Mínimo Q1 Mediana Q3 Máximo
salário 11,122 0,765 4,587 41,25 4,000 7,478 10,165 14,480 23,300
Uma coisa tem que ficar bem clara, a variância e o desvio padrão apresentados acima são
calculadas para uma variável amostral. Os resultados obtidos usando uma distribuição amostral
são chamados Estatísticas Amostrais. É possível fazer inferências (previsões sobre o
comportamento da variável) sobre a população caso conheçamos as Estatísticas Amostrais.
Assimetria e Curtose
Ao plotar os valores de uma distribuição, esta pode apresentar uma representação gráfica
simétrica ou com algum tipo de assimetria. Os dados são ditos simétricos ou aproximadamente
simétricos se os pontos no topo superior direito do gráfico comportam-se como os pontos do
canto inferior esquerdo. É equivalente a dizer que a dispersão inferior é igual ou
aproximadamente igual à dispersão superior, ou seja, 𝑄2 − 𝑥1 ≅ 𝑥𝑛 − 𝑄2. Caso tenhamos
𝑄2 − 𝑥1 < 𝑥𝑛 − 𝑄2 diz-se que a distribuição é assimétrica à direita; caso tenhamos 𝑄2 − 𝑥1 >
𝑥𝑛 − 𝑄2 diz-se que a distribuição é assimétrica à esquerda. Uma das muitas formas de medir o
grau de assimetria de uma distribuição 𝑋 é o coeficiente de assimetria, que indicamos por 𝐴𝑠 e
calculado como abaixo

𝑛
𝑛 𝑥𝑖 − 𝑥̅ 3
𝐴𝑠 = ∑( ) (1.10)
(𝑛 − 1)(𝑛 − 2) 𝑆
𝑖=1
onde 𝑥̅ indica a média, 𝑛 indica o total de dados e 𝑆 o desvio padrão da distribuição 𝑋. É

perfeitamente claro que 𝐴𝑠 pode ser positivo ou negativo, por este motivo os nomes negativa e
positiva postos abaixo. Uma classificação quanto ao valor de 𝐴𝑠 é
Se 𝐴𝑠 = 0 então 𝑋 é uma distribuição perfeitamente simétrica
Se 𝐴𝑠 < 0 então 𝑋 é uma distribuição assimétrica à esquerda (negativa)
Se 𝐴𝑠 > 0 então 𝑋 é uma distribuição assimétrica à direita (positiva)
Alguns estatísticos usam este resultado para mensurar o grau de assimetria de uma
distribuição 𝑋 da seguinte forma: se 0 ≤ |𝐴𝑠| ≤ 0,15, a distribuição é praticamente simétrica;
se 0,15 < |𝐴𝑠| < 0,50 a distribuição possui assimetria fraca; se 0,50 ≤ |𝐴𝑠| < 1 classificamos
como assimetria moderada, e, quando |𝐴𝑠| ≥ 1 temos uma assimétrica forte. De forma geral,
uma distribuição de valores 𝑋 pode apresentar uma das seguintes formas
Assimétrico à esquerda ou negativa Assimétrica à direita ou positiva

𝑥̅ < 𝑥̃ < 𝑚𝑜 𝑚𝑜 < 𝑥̃ < 𝑥̅
Figura 1.6 Figura 1.7
Caso tenhamos 𝑥̅ = 𝑀𝑑 = 𝑀𝑜 diremos que a distribuição é Simétrica e a curva tem a forma de um
sino perfeito. Uma vez descoberto o grau de assimetria, é interessante aferir o grau de
achatamento que a curva de densidade associada apresenta, como mostra a Figura 1.8. Para
mensurar o quanto uma curva de densidade associada à distribuição é achatada, usamos o
Coeficiente de Curtose indicado por 𝐾 e calculado como em (1.11).
𝑛
𝑛(𝑛 + 1) 𝑥𝑖 − 𝑥̅ 4 3(𝑛 − 1)2
𝐾= ∑( ) − (1.11)
(𝑛 − 1)(𝑛 − 2)(𝑛 − 3) 𝑆 (𝑛 − 2)(𝑛 − 3)
𝑖=1
A classificação quanto a curtose é dada abaixo

Se 𝐾 = 0,263 então 𝑋 é uma curva Mesocúrtica

Se 𝐾 < 0,263 então 𝑋 é uma curva Leptocúrtica

Se 𝐾 > 0,263 então 𝑋 é uma curva Platicúrtica
O valor 𝐾 = 0,263 significa que a curva é relativamente normal. Mais adiante veremos
que o achatamento do gráfico se relaciona com a medida do desvio padrão. Quanto maior for o
desvio padrão, mais achatado será o gráfico. (Consegue explicar o porquê?). A figura seguinte
ilustra essa ideia bem como indica os nomes dados a cada tipo de achatamento.
Figura 1.8
Exercícios: lista 1.1
1. A diretoria de um sindicato de trabalhadores do ABC paulista, preocupada com a

participação de seus membros nas reuniões ordinárias, fez um levantamento do número de
faltas no último trimestre. Os dados obtidos para os 48 membros da diretoria do sindicato
são apresentados a seguir:
a) Especifique a variável estudada, classificando-a. Justifique a sua resposta.

b) Represente tabularmente os dados acima. Identifique a frequência relativa de cada
resultado.
c) Qual a proporção de membros que faltou no máximo a 2 reuniões ?
d) Quantas reuniões foram deixadas de ir por no mínimo 80% dos membros?
e) Estabeleça a FDE empírica para esses dados
f) Determine a média amostral, variância amostral e o erro padrão. Comente os resultados.

g) Determine o valor de Assimetria e de Curtose para essa distribuição de dados;

2. Classifique as variáveis abaixo:
População: Estudantes Universitário da cidade de Uruaçu
Variável: Peso, em kg, desses estudantes
P.: Plantação de bananas na cidade de Itaguari
V.: Altura, em cm, dos caules
P.: Candidatos a uma vaga de emprego na empresa JOIA LTDA
V.: Naturalidade do candidato
P.: Funcionário da Empresa BOA LTDA
V.: Cargo ocupado
P.: Estudo experimental de fluídos
V.: Tempo de esgotamento de um fluido isolante entre eletrodos a 34 kV, em minutos.
3. Quando se quer estimar parâmetros populacionais sem examinar toda a população, utiliza-
se uma amostra. Liste, pelo menos quatro motivos para se utilizar uma amostragem e vez
de um censo.
4. Baseado na leitura do texto, descreva concisamente o conceito de:
I. População estatística;
II. Amostra
III. Variável Estatística
IV. Frequência absoluta e frequência relativa
5. Contou se o número de erros de impressão da primeira página de um jornal durante 50 dias,
obtendo-se os resultados abaixo:
11 8 12 14 13 11 14 14 15 6
10 14 19 6 12 7 5 8 8 10
16 10 12 12 8 11 10 6 7 12
7 10 14 5 12 7 9 12 11 9
14 8 14 8 12 10 12 22 7 15
a) Faça a representação em tabela de frequência
b) Calcule as medidas estatística básicas (𝑥̅ , 𝑥̅𝑡𝑟(5) , 𝑄1 , 𝑄2 , 𝑄3 , 𝑆, 𝐶𝑉, 𝐸𝑃)
c) Estabeleça a FDE empírica para os dados. Represente-a graficamente.
6. Um empresário, do ramos de moda íntima feminina, com filiais em todo o Brasil deseja
fazer um levantamento sócio – econômico da demanda para um novo produto. Qual
processo estatístico é mais viável a este empresário, amostragem ou censo? Justifique sua
resposta.
7. Pesquise as diferenças entre amostragem probabilística e não probabilística.
8. Uma pesquisa educacional procura determinar a eficácia de um novo método de

alfabetização de adultos. Terminado o período de ensino, o rendimento é medido pelos
resultados obtidos pelos alunos na leitura de um texto.
a. Descreva a população de interesse.
b. Deve-se usar amostragem neste caso ? Por quê ?
9. Um estudo indicou que universitários que voluntariamente continuaram seus programas de
prática desportiva (PD) apresentaram melhor capacidade respiratória em relação aos outros
que não continuaram. Contudo, ponderou-se que esta diferença poderia ser atribuída
somente às condições pessoais dos estudantes nos dois grupos. Entre outras coisas
verificou-se que mais homens do que mulheres continuaram PD e que as mulheres dos dois
grupos apresentaram menor capacidade respiratória.
a. Porque este é um estudo não experimental?
b. Esquematize um estudo experimental de forma a controlar a variável sexo e motivação
para continuar PD.
10. As empresas de energia necessitam de informações sobre o consumo de seus clientes
para obterem previsões precisas da demanda. Investigadores da Wisconsin Power and
Light determinaram que o consumo de energia (BTUs) dura um determinado período
para uma amostra de 90 lares aquecidos a gás. O valor de consumo ajustado foi
calculado conforme segue:
𝑐𝑜𝑛𝑠𝑢𝑚𝑜
consumo ajustado =
(𝑐𝑙𝑖𝑚𝑎, 𝑒𝑚 𝑔𝑟𝑎𝑢 𝑑𝑖𝑎)(á𝑟𝑒𝑎 𝑑𝑎 𝑐𝑎𝑠𝑎)
Abaixo apresentamos o resultado dessa amostra de 90 lares que ordenamos do menor

para o maior.
2,97 6,80 7,73 8,61 9,60 10,28 11,12 12,31 13,47

4,00 6,85 7,87 8,67 9,76 10,30 11,21 12,62 13,60
5,20 6,94 7,93 8,69 9,82 10,35 11,29 12,69 13,96
5,56 7,15 8,00 8,81 9,83 10,36 11,43 12,71 14,24
5,94 7,16 8,26 9,07 9,83 10,40 11,62 12,91 14,35
5,98 7,23 8,29 9,27 9,84 10,49 11,70 12,92 15,12
6,35 7,29 8,37 9,37 9,96 10,50 11,70 13,11 15,24
6,62 7,62 8,47 9,43 10,04 10,64 12,16 13,38 16,06
6,72 7,62 8,54 9,52 10,21 10,95 12,19 13,42 16,90
6,78 7,69 8,58 9,58 10,28 11,09 12,28 13,43 18,26
a) Determine a média, média aparada em 7%, a mediana e a moda.

b) Determine o valor de consumo mínimo para os 60% maiores valores.

c) Discuta a variabilidade desses dados. Segundo seus cálculos, pode existir algum fator
que esteja influenciando o consumo nessa população? Explique
d) Encontre o intervalo de confiança para esses dados ao nível de 95% de confiabilidade.
Qual interpretação é dada a esse intervalo? Comente.
11. Há determinadas situações em que não se tem acesso aos dados individuais, mas está
disponível uma distribuição de frequências da variável de interesse. A tabela abaixo está o
resumo da variável tempo de espera dos clientes de uma das agências do Banco XX na
cidade de Uruaçu-GO.
Distribuição de frequências do tempo de permanência na fila do banco
referente a uma amostra de clientes do Banco XX agência Uruaçu-GO
em julho de 2018
Permanência (horas) Frequência Absoluta (fi)
0 − 10 70
10 − 20 69
20 − 30 90
30 − 40 43
40 − 50 43
50 − 60 31
60 − 70 16
70 − 80 7
80 − 90 0
90 − 100 1
Total 370
Fonte: dados Hipotéticos
Determinar as medidas de centralidade e de dispersão nesta situação. Comente sobre os

resultados obtidos. Seja bem claro em seus argumentos.
12. No caso de uma linha de produção, podemos, a cada dez itens produzidos, retirar um para
pertencer a uma amostra da produção diária. Neste caso, qual o tamanho da amostra
coletada?
13. Identifique qual o procedimento de coleta de dados (observação, questionário com ou sem
entrevista) usadas nas situações abaixo e suas vantagens e desvantagens:
a. Amostragem sobre os hábitos de compra de gêneros alimentícios de uma certa área, por
telefone.
b. Distribuição de questionários, pelo correio, para estudar hábito de leitura de jornais dos
respondentes.
c. Estudo da relação criança hospitalizada e família, acompanhada por um observador.
d. Estudo do nível de poluição atmosférica medida por aparelhos, na Rodoviária.
14. Elabore argumentos e cálculos para mostrar que a soma dos desvios de qualquer

distribuição é nulo. Em símbolos, mostre que ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) = 0.

15. Os dados amostrais anexos exprimem a densidade para diversos tipos de madeira usados
em construção foram relatados no artigo “Bolted Connection Design Values Basedon
European Yield Model” (J. of Structural Engr., 1993, p. 2169-2186):
0,31 0,35 0,36 0,36 0,37 0,38 0,40 0,40 0,40 0,41
0,41 0,42 0,42 0,42 0,42 0,42 0,43 0,44 0,45 0,46
0,46 0,47 0,48 0,48 0,48 0,51 0,54 0,54 0,55 0,58
0,62 0,66 0,66 0,67 0,68 0,75
a. Calcule a média e a média aparada em 10%.

b. Determine o intervalo que contém a média populacional segundo uma confiabilidade de
95%. Determine esse intervalo e interprete seu resultado.
16. A seguir, dados históricos sobre os salários médios dos funcionários de 30 escolas (fração
do salário mínimo)no estado de Goiás no início dos anos 2.018.
3,79 14,09 2,77 2,91 3,10 1,24 2,52 3,22 2,45 2,14
2,67 2,52 2,71 2,75 3,57 3,85 3,36 2,05 2,89 2,83
3,13 1,25 2,10 3,71 3,14 3,54 2,37 2,68 3,51 13,37
a. Calcule a média e a média aparada em 7% bem como o desvio padrão dessa amostra.
Comente os resultados.
b. Determine o erro padrão para a média. Construa o intervalo que contenha a média
populacional considerando novamente uma confiabilidade de 95%. Comente o resultado
obtido.
17. A corrosão das barras de aço da armação é um problema sério em estruturas de concreto
localizadas em ambientes afetados por condições climáticas extremas. Por esse motivo, os
pesquisadores têm investigado a utilização de barras de reforço feitas de material
composto. Um estudo foi executado para desenvolver diretrizes sobre a aderência de barras
plásticas reforçadas com fibra de vidro ao concreto (“Design Recommendations for Bond
of GFRP Rebarsto Concrete,” J. of Structural Engr., 1996, p. 247-254). Considere as 48
observações da resistência da aderência medida:
11,5 12,1 9,9 9,3 7,8 6,2 6,6 7,0 13,4 17,1
9,3 5,6 5,7 5,4 5,2 5,1 4,9 10,7 15,2 8,5
4,2 4,0 3,9 3,8 3,6 3,4 20,6 25,5 13,8 12,6
13,1 8,9 8,2 10,7 14,2 7,6 5,2 5,5 5,1 5,0
5,2 4,8 4,1 3,8 3,7 3,6 3,6 3,6
a) Determine a média, média aparada em 5%, a mediana e a moda.

b) Determine o valor de médio da corrosão dos 35% menores valores.

c) Discuta a variabilidade desses dados. Segundo seus cálculos, pode existir algum fator
que esteja influenciando essa corrosão nessa amostra? Explique
1.4. Representação por diagramas
Ao coletar os dados, o pesquisador pode simplesmente desejar resumir e descrever suas

características importantes. Uma forma de resumir é construir tabelas de frequência ou gráficos.
A construção de gráficos exige domínio de algumas técnicas específicas como para construir
histogramas, BoxPlots, diagrama de pontos e ramo-e-folha. Estes gráficos de dispersão são os
principais. Outros métodos descritivos envolvem o cálculo de medidas numéricas, como
médias, desvios padrão e coeficientes de correlação.
Exemplo 1.4 A tragédia que ocorreu com o ônibus espacial Challenger e seus astronautas, em
1986, levou a diversos estudos para investigar os motivos da falha da missão. A atenção
rapidamente se voltou ao comportamento dos anéis de vedação do motor do foguete. Aqui estão
os dados resultantes de observações de 𝑿 =temperatura do anel de vedação (°F) de cada teste
de acionamento ou lançamento real do motor do foguete da nave (Presidential Commissionon
the Space Shuttle Challenger Accident, Vol. 1, 1986: 129-131).
84 49 61 40 83 67 45 66 70 69
80 58 68 60 67 72 73 70 57 63
70 78 52 67 53 67 75 61 70 81
76 79 75 76 58 31
■
Perceba que sem nenhuma organização, é difícil ter noção do que pode ser uma
temperatura normal ou representativa, se os valores estão altamente concentrados em torno de
um ponto ou se estão dispersos, se há lacunas nos dados, que porcentagem dos dados estão na
faixa dos 60 e assim por diante. Podemos organizar esses dados inicialmente da forma mais
simples pensável, pô-los em ordem crescente, obtendo assim as estatísticas de ordem.
31 40 45 49 52 53 57 58 58 60
61 61 63 66 67 67 67 67 68 69
70 70 70 70 72 73 75 75 76 76
78 79 80 81 83 84
Essa forma de organização chamamos de ROL. Baseado no ROL é possível construir uma
tabela de frequência simples onde listamos os dados pontualmente e declaramos a frequência
absoluta de cada um. Essa forma de resumir os dados nem sempre irá surtir os efeitos desejados,
visto que se tivermos uma grande quantidade de resultados, cada um com frequência 1, teríamos
uma tabela exageradamente grande e de desconfortável leitura, na qual não teríamos a
sintetização esperada. Isso pode ser visto no Exemplo 1.4 e sua tabela de frequência simples
reproduzida abaixo
Tabela 1.3 Temperatura do anel de vedação (°F) de cada teste de acionamento

ou lançamento real do motor do foguete da nave do Exemplo 1.4
Temperatura (°F) frequência
31 1
40 1
45 1
49 1
52 1
53 1
57 1
58 2
60 1
61 2
63 1
66 1
67 4
68 1
69 1
70 4
72 1
73 1
75 2
76 2
78 1
79 1
80 1
81 1
83 1
84 1
Total 36
como a tabela ficou esquisita e grande. Imagine se tivéssemos muitos valores?
Diagrama de pontos
Um gráfico de pontos é um interessante resumo dos dados numéricos quando esse

conjunto é razoavelmente pequeno ou possui relativamente poucos valores distintos. Cada
observação é representada por um ponto sobre o local correspondente em uma escala de medida

horizontal. Quando um valor ocorre mais de uma vez, há um ponto para cada ocorrência e esses
pontos são empilhados verticalmente. Como ocorre com o diagrama de ramo e folha, um gráfico
de pontos fornece informações sobre localização, dispersão, extremos e lacunas. A Figura 1.9
mostra um diagrama de pontos para os dados de temperatura de Anel de Vedação apresentados
no Exemplo 1.4. Um valor de temperatura representativo é o que se apresenta na metade de 60
(°F) e há grande dispersão ao redor do centro. Os dados se estendem mais na extremidade
inferior do que na extremidade superior e a menor observação, 31, pode ser claramente descrita
como um outlier.
Figura 1.9
Se o conjunto de dados discutido no Exemplo 1.4 consistisse de 50 ou 100 observações de
temperatura, cada uma registrada em décimos de graus, seria muito mais trabalhoso construir
um gráfico de pontos. Nossa próxima técnica é melhor adaptável a tais situações.
Ramo e Folhas
Gráficos como o Diagrama de Pontos, o Histograma ou até mesmo o gráfico em colunas
dão uma ideia do comportamento dos dados referente a variável considerada, porém a forma
geométrica da distribuição é tão importante quanto as medidas de posição e dispersão. Neste
contexto, o gráfico Ramo-e-Folhas é um excelente recurso para termos uma ideia da forma
geométrica da distribuição, e o melhor, sem perda (ou pouca perda) de informações sobre os
dados em si. O uso do diagrama de ramo-e-rolha é uma maneira eficaz de resumir os dados, e
consequentemente mostrar seu comportamento geométrico e densidade dos dados. A ideia
básica é dividir cada observação em duas partes: a primeira, chamada ramo colocada à esquerda
de uma linha vertical, a segunda chamada folha colocada à direita. Assim, um valor tipo 4,5
pode ser divido em 4 (ramo) e 5 (folha) e indicado por 4|5, com unidade da folha=0,1. A
unidade da folha descreve a ordem numérica que a folha ocupa no número original, podendo

ser: [⋯ centesimal (0,01), decimal (0,1), unidade (1), dezena (10) centena (100), ⋯ ].
Considerando o ramo-e-folhas com unidade da folha = 1, o resultado 5|23788 indicará
respectivamente os valores 52, 53, 57, 58 e 58. As vezes será viável dividir o ramo em duas
categorias dentro do próprio ramo, para evitar uma linha muito extensa. Na Figura 1.10 os ramos
foram divididos de forma a agrupar as folhas em duas categorias dentro do mesmo ramo. Uma
folha de ‘0’ a ‘4’ e outra folha de ‘5’ a ‘9’. A escolha dos ramos e das folhas é critério do
pesquisador e dependerá unicamente da forma numérica dos dados, porém não se deve escolher
as ordens dos ramos de forma a deixar os dados muito aglomerados em uma quantidade muito
pequena de ramos, isso atrapalha a interpretação e validação dos dados. Para exemplificar, se
tivermos o conjunto de dados 𝑋 como abaixo
15.315 23.440 6.551 13.253 25.312 35.780 42.320 34.782 27.435 17.661
16.820 38.000 40.300 15.800 18.300 21.780 32.414 32.000 18.700 19.600
20.414 23.313 26.432 30.515 27.610 8.598 12.417 22.300 25.400 21.200
22.540 22.010 30.000 21.380 24.780 29.000 30.400 12.319 36.728 36.483
27.312 35.318 18.620 38.661 40.681 19.302 23.300 21.350 28.412 21.313
Seu gráfico ramo-e-folha, considerando o ramos como a maior ordem e a folha a ordem
numérica inferior, tem a forma
𝑓𝑖 Ramo Folha
2 0 68
5 1 223
14 1 556788899
(13) 2 0111112223334
23 2 55677789
15 3 000224
9 3 556688
3 4 002
Unidade de Folha = 1.000
Figura 1.10
No diagrama de ramo-e-folha da Figura 1.10 considerou-se para ramo as dezenas de milhar

e para folha as unidades de milhar, que são as predominantes. As outras ordens, por serem
inferiores, foram descartadas. Isso se deu porque tais posições não afetam a ordem dos valores
envolvidos. Por exemplo, o resultado 21.350 está na ordem dos 21.000. A ideia é detectar
quantos resultados estão nessa ordem. O ramos 2 (dezenas de milhar) e a folha 1 (unidade de

milhar) foram considerados, e contabilizou quantos valores estão nesta ordem. Essa informação
foi descrita no rodapé do diagrama, na legenda Unidade de folha = 1.000. Assim, o ponto 2|5
indica que o resultado é 25.000. sendo descartados as centenas, dezenas e unidades. Na Figura
1.11 é mostrado o diagrama de ramo-e-folha simples. Já na Figura 1.12 vemos o diagrama de
ramo-e-folhas duplo criados a partir dos dados do Exemplo 1.4.
𝑓𝑖 Ramo Folha 𝑓𝑖 Ramo Folha

1 3 1 1 3 1
4 4 059 1 3
9 5 23788 2 4 0
(11) 6 01136777789 4 4 59
16 7 000023556689 6 5 23
4 8 0134 9 5 788
Unidade de Folha = 1 13 6 0113
(7) 6 6777789
16 7 000023
10 7 556689
4 8 0134
Unidade de Folha = 1
É importante salientar que não se deve misturar ramos duplos com ramos simples no
interior do gráfico Ramo-e-Folha. Caso haja vários ramos sem frequência no interior do gráfico,
ele devem aparecer na descrição dos ramos ponderando a folha em branco. Somente o primeiro
e o último ramo podem ser simples quando os demais forem duplos.
Histograma:
O diagrama ramo-e-folha nos possibilita pensar o conjunto de dados divididos em
intervalos de classe, visto que a tabela simples de frequência é inviável, como descrevemos
acima. O diagrama ramo-e-folha do Exemplo 1.4, apresentado na Figura 1.12, sugere que o
intervalo 30 − 31 contém a primeira categoria de folha do ramo 3 com 1 resultado (frequência
1), o intervalo 32−39 não possui nenhuma folha do ramo 3. Já o intervalo 40−44 contém a
primeira categoria de folha do ramo 4 com 1 resultado (frequência 1), o intervalo 45−49 contém
a segunda categoria de folha do ramo 4 com 2 resultados (frequência 2), o intervalo 50−53
possui a primeira categoria de folha do ramo 5 com 2 resultados (frequência 2), enquanto o
intervalo 54−59 possui a segunda categoria de folha do ramo 5 com 3 resultados (frequência
3), o intervalo 60−63 contém a primeira categoria de folha do ramo 6 com 4 resultados
(frequência 4), o intervalo 64−69 contém a segunda categoria de folha do ramo 6 com 7
resultados (frequência 7), o intervalo 70−74 contém a primeira categoria de folha do ramo 7
com 6 resultados (frequência 6), o intervalo 75−79 possui a segunda categoria de folha do ramo
7 com 6 resultados (frequência 6) e por último o intervalo 80−85 possui a primeira categoria de
folha do ramo 8 com 4 resultados (frequência 4), enquanto o intervalo 86−90 não contém
nenhuma folha do ramo 8. A tabela com esses intervalos ficaria como abaixo
Tabela 1.4Temperatura do anel de vedação (°F) de cada teste de acionamento ou lançamento

real do motor do foguete da nave do Exemplo 1.4
Frequência Frequência
Temperatura Ponto médio Densidade
Absoluta relativa
(°F) (𝑃𝑚) (𝑑𝑖 )
(𝑓𝑖 ) (𝑝𝑖 )
30 − 31 30,5 1 0,028 0,0280
32 − 39 35,5 0 0,000 0,0000
40 − 44 42,0 1 0,028 0,0070
45 − 49 46,5 2 0,056 0,0112
50 − 53 51,5 2 0,056 0,0187
54 − 59 56,5 3 0,083 0,0166
60 − 63 61,5 4 0,111 0,0370
64 − 69 66,5 7 0,194 0,0388
70 − 74 72,0 6 0,167 0,0418
75 − 79 77,0 6 0,167 0,0418
80 − 85 82,5 4 0,111 0,0222
Total -- 36 1 --
Identificado o intervalo de classe, pode-se obter seu ponto médio (𝑃𝑚), bastando para
isso somar os extremos e o resultado dividir por 2. A frequência relativa (𝑝𝑖 ) ou proporção de
cada intervalo de classe é obtida dividindo cada frequência absoluta de classe pelo número total
de observações, ou seja, podemos calcular a frequência relativa por meio da fórmula 𝑝𝑖 = 𝑓𝑖 ⁄𝑛
onde 𝑓𝑖 é a frequência absoluta do intervalo, obtida por contagem direta dos valores no ROL.
A densidade (𝑑𝑖 ) de cada intervalo de classe é obtida dividindo cada frequência relativa de
classe pela amplitude da classe, ou seja, a densidade de classe é calculada por meio da fórmula
𝑑𝑖 = 𝑝𝑖 ⁄ℎ𝑖 , onde ℎ𝑖 indica a amplitude do intervalo e pode ser obtido realizando uma subtração
simples: ℎ𝑖 = (𝑙𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒) − (𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒).
O leitor mais atento certamente percebeu que os intervalos expostos na tabela acima
possuem amplitudes diferentes. O interessante é que todos os intervalos tenham a mesma
amplitude. Resolvemos isso considerando intervalos com igual amplitude, que contenham as
categorias de folha de cada ramo ou partes delas, de sorte que o primeiro intervalo contenha a
primeira categoria do menor ramo e o último intervalo contenha a segunda categoria do maior
ramo do diagrama ramo-e-folha. A amplitude de cada intervalo geralmente indicada pela letra
ℎ pode ser obtido pela fórmula ℎ = (𝑥máx − 𝑥mín )⁄(𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒𝑠). Costumeiramente
se arredonda ℎ𝑖 para cima. Isso não é uma regra. Dessa forma, podemos construir uma tabela
dividida em classes, onde declaramos a frequência de cada intervalo, considerado como uma
classe. Para computar essa frequência necessitamos irrefutavelmente de conhecer todos os
resultados amostrais, de preferência o ROL desses resultados.
Nos dados do diagrama ramo-e-folha do Exemplo 1.4 de duas categorias (Figura 1.12), a
amplitude da cada intervalo, considerando usar 10 intervalos, é ℎ = (84 − 31)⁄10 ≅ 6. Assim,
podemos estabelecer a primeira classe como sendo o intervalo 27 ⊢ 33 porque contém a
primeira categoria do menor ramo que é 3 e tem amplitude 6. O intervalo 27 ⊢ 33 é pensado
como todos os valores maiores que ou iguais 27 e menores que 33. Uma vez obtido o primeiro
intervalo, os demais são obtidos somando 6 ao limite superior do intervalos antecedentes.
Construímos a tabela, considerando o ponto médio, a frequência, a frequência relativa e a
densidade de cada classe. Como as classes têm todas a mesma amplitude, a densidade é obtida
pela fórmula 𝑑𝑖 = 𝑝𝑖 ⁄ℎ. Abaixo a tabela agrupada em classe dos dados do Exemplo 1.4, cuja
construção foi baseada no diagrama ramo-e-folha duplo (duas categorias) à direita descrito
anteriormente e com classes de mesma amplitude.
Tabela 1.5 Temperatura do anel de vedação (°F) de cada teste de acionamento ou lançamento
real do motor do foguete da nave do Exemplo 1.4
Temperatura (°F) 𝑝𝑚 𝑓𝑖 𝑝𝑖 𝑑𝑖
27 ⊢ 33 30 1 0,028 0,0046
33 ⊢ 39 36 0 0,000 0,0000
39 ⊢ 45 42 1 0,028 0,0046
45 ⊢ 51 48 2 0,056 0,0093
51 ⊢ 57 54 2 0,056 0,0093
57 ⊢ 63 60 6 0,167 0,0278
63 ⊢ 69 66 7 0,194 0,0323
69 ⊢ 75 72 7 0,194 0,0323
75 ⊢ 81 78 7 0,194 0,0323
81 ⊢ 87 84 3 0,083 0,0138
Total -- 36 1 --
As informações fornecida por uma distribuição de frequência relativa em forma de tabela

é mais fácil de entender se apresentada graficamente. Usando o ponto médio de cada intervalo
e a densidade (ou frequência relativa) correspondente, construímos um histograma dos dados.
Para construir o histograma construa um eixo horizontal cuja escala obedeça à distribuição de

valores para 𝑥. Indique, nesse eixo, os pontos médios de cada classe. Desenhe um retângulo,
acima de cada ponto médio explicitado, cuja alturas seja a densidade correspondente (ou
frequência relativa) ao ponto médio analisado. Abaixo histograma dos dados do Exemplo 1.4
construído a partir dos dados exibidos no ramo-e-folha mostrado na Figura 1.12
Histograma de Tem_anel_vedação
0,035
0,030
0,025
Densidade
0,020
0,01 5
0,01 0
0,005
0,000
30 36 42 48 54 60 66 72 78 84
Tem_anel_vedação
Figura 1.13
Note que o histograma se assemelha muito ao gráfico de colunas por apresentar um

conjunto de colunas contínuas (grudadas), com as bases proporcionais aos intervalos das classes
e a área de cada retângulo proporcional à respectiva frequência. Pode-se usar tanto a frequência
absoluta, 𝑓𝑖 , como a relativa 𝑝𝑖 = 𝑓1 ⁄𝑛. Para que para a área do retângulo respectivo seja
proporcional a 𝑝𝑖 , a sua altura deve ser 𝑑𝑖 = 𝑝𝑖 ⁄ℎ𝑖 que, como antes, chamamos densidade de
frequência da classe. Com essa convenção, a área total do histograma será igual a 1. Quanto
mais dados tivermos em cada classe, mais alto deve ser o retângulo. É claro que marcar no eixo
das ordenadas os valores 𝑓𝑖 , 𝑝𝑖 ou 𝑝𝑖 ⁄ℎ produz histogramas com a mesma forma; somente as
áreas é que serão diferentes. Quando o volume de dados aumenta indefinidamente dentro do
conjunto e o intervalo de classes tende a zero (o que torna os retângulos cada vez mais "finos"
e "altos"), a distribuição de frequência passa para uma distribuição de densidade de
probabilidades. Os histogramas podem ter diversos formatos. Um histograma unimodal é
aquele que possui um aclive para um único pico e depois um declive. Um histograma bimodal

possui dois picos diferentes. A bi-modalidade pode ocorrer quando o conjunto de dados
consistir em observações sobre dois tipos bastante diferentes de indivíduos ou objetos. Um
histograma com mais de dois picos é denominado multimodal. Claro que o número de picos
pode depender da escolha dos intervalos de classe, particularmente com um pequeno número
de observações. Quanto maior o número de classes, maior é a probabilidade de a bi-modalidade
ou de a multi-modalidade e manifestar. Um histograma é simétrico se a metade à esquerda for
uma imagem refletida da metade direita. Um histograma unimodal tem inclinação positiva se
a cauda direita ou superior for estendida em comparação à cauda esquerda ou inferior e
inclinação negativa desviar-se para a esquerda. É possível medir o grau de assimetria de uma
curva. Veremos como mais adiante. A Figura abaixo exibe histogramas “ajustados”, obtidos
pela sobreposição de uma curva de densidade ajustada sobre os retângulos, que ilustram as
diversas possibilidades.
Figura 1.14
Abaixo o histograma com a curva de ajustamento representativa da densidade de

frequência correspondente à Figura 1.13.
Histograma da Temperatura
Normal
Estimativa da distribuição de frequência
0,035 Média 65,86
DesvPad 1 2,1 6
0,030 N 36
0,025
Densidade
0,020
0,01 5
0,01 0
0,005
0,000
36 48 60 72 84
Temperatura
Figura 1.15

Note que o histograma (também a curva) tem uma leve inclinação para a direita. Isso
sugere que os dados estão mais concentrados acima da média. Um histograma funciona melhor
quando o tamanho de amostra for de pelo menos 20. Se o tamanho de amostra for muito
pequeno, cada barra no histograma pode não conter pontos de dados suficientes para demonstrar
precisamente a distribuição dos dados. Se o tamanho amostral for menor do que 20, considere
usar um gráfico de valor individual, como por exemplo, o diagrama de pontos.
Box Plot
Outra exibição útil para refletir as propriedades de uma amostra é o diagrama BoxPlot.
Este gráfico inclui o intervalo interquartílico dos dados em uma caixa que possui a mediana
exibida no interior. O intervalo interquartil tem como extremos o 3º quartil e o 1º quartil. Além
da caixa, os “bigodes” se estendem, mostrando observações extremas na amostra. Para amostras
razoavelmente grandes, o visor mostra o centro de localização, a variabilidade e o grau de
assimetria. Além disso, o BoxPlot pode fornecer ao espectador informações sobre quais
observações podem ser outliers. Outliers são observações consideradas anormalmente distantes
da maior parte dos dados. Do ponto de vista estatístico, um outlier pode ser produto de um erro
de observação ou de arredondamento, ou até mesmo uma anomalia da própria distribuição. Daí,
usarmos o nome (ou valores) exteriores. Contudo, na prática, estas duas denominações são
frequentemente usadas com o mesmo significado: observações fora de lugar, discrepantes ou
atípicas.
Existem muitos testes estatísticos que são projetados para detectar outliers.
Tecnicamente, pode-se ver um outlier como sendo uma observação que representa um “evento
raro” (há uma pequena probabilidade de obter um valor que esteja longe da maior parte dos
dados). As informações visuais no gráfico BoxPlot não pretendem ser um teste formal para
outliers. Pelo contrário, é visto como uma ferramenta de diagnóstico. Embora a determinação
de quais observações são outliers varie com o tipo de software usado, um procedimento comum
é usar um múltiplo do intervalo interquartil. Por exemplo, se a distância da caixa exceder 1,5
vezes o intervalo interquartílico (em qualquer direção), a observação pode ser rotulada como
um outlier. As informações contidas no esquema dos cinco números podem ser traduzidas
graficamente num diagrama que chamaremos de desenho esquemático ou Box Plots como
indicado na Figura 1.16

Figura 1.16
Para construir este diagrama, consideremos um retângulo onde estão representados a

mediana e os quartis. A partir do retângulo, para cima, segue uma linha até o ponto mais remoto
que não exceda 𝐿𝑆 = 𝑄3 + 1,5 ∙ 𝐼𝑄, chamado limite superior. De modo similar, da parte
inferior do retângulo, para baixo, segue uma linha até o ponto mais remoto que não seja menor
que 𝐿𝐼 = 𝑄1 − 1,5 ∙ 𝐼𝑄, chamado limite inferior. Os valores compreendidos entre os limites 𝐿𝐼
e 𝐿𝑆 são chamados valores adjacentes. Os valores que estiverem acima do limite superior ou
abaixo do limite inferior estabelecidos serão chamados pontos exteriores e representados por
asteriscos. O BoxPlots dá uma ideia da posição, dispersão, assimetria, caudas e dados
discrepantes. A posição central é dada pela mediana e a dispersão por 𝐼𝑄. As posições relativas
de 𝑄1, 𝑄2 e 𝑄3 dão uma boa noção da assimetria da distribuição. Como exemplo, considere os
dados do Exemplo 1.2. O resumo descritivo é 𝑥1 = 4, 𝑄1 = 7,48, 𝑄2 = 10,165, 𝑄3 = 14,48 e
𝑥𝑛 = 23,30. A resenha dos dados mostra um limite inferior igual a 𝐿𝐼 = −3,026 e um limite
superior igual a 𝐿𝑆 = 24,984. Com isso o BoxPlot para os dados é mostrado na Figura 1.17. No
diagrama o símbolo  indica a média, e, como 𝑥̃ < 𝑥̅ , temos uma assimetria à direita. Isso pode
ser visto no próprio Box Plot quando notamos uma cauda mais acentuada à direita da mediana,
ou seja, no sentido dos maiores valores da distribuição.
Desejo, agora, que o leitor observe como esses recursos elucidam o comportamento dos
dados e começam a nos mostrar como os valores resultantes são distribuídos ao longo da escala
de medida

Figura 1.17
Exercícios: lista 1.2
1. Considerando os dados do exercício 7 (primeira lista) reproduzidos abaixo

8 11 8 12 14 13 11 14 14 15
6 10 14 19 6 12 7 5 8 8
10 16 10 12 12 8 11 6 7 12
7 10 14 5 12 7 9 12 11 9
14 8 14 8 12 10 12 22 7 15
a) Faça o diagrama de pontos
b) Construa o BoxPlot e baseado nele discuta a similaridade dos dados quanto a simetria.
Seja bem claro nos argumentos.
2. Os dados abaixo foram os apresentados no exercícios 15, primeira lista.
2,97 6,80 7,73 8,61 9,60 10,28 11,12 12,31 13,47

4,00 6,85 7,87 8,67 9,76 10,30 11,21 12,62 13,60
5,20 6,94 7,93 8,69 9,82 10,35 11,29 12,69 13,96
5,56 7,15 8,00 8,81 9,83 10,36 11,43 12,71 14,24
5,94 7,16 8,26 9,07 9,83 10,40 11,62 12,91 14,35
5,98 7,23 8,29 9,27 9,84 10,49 11,70 12,92 15,12
6,35 7,29 8,37 9,37 9,96 10,50 11,70 13,11 15,24
6,62 7,62 8,47 9,43 10,04 10,64 12,16 13,38 16,06
6,72 7,62 8,54 9,52 10,21 10,95 12,19 13,42 16,90

6,78 7,69 8,58 9,58 10,28 11,09 12,28 13,43 18,26
a) Construa o diagrama Ramo-e-Folha para esses dados.

b) Baseado no item (a) faça uma tabela de classe, na qual apresente as frequências
absolutas, relativas e acumuladas.
c) Baseado em sua tabela, construa o histograma. Analisando seu histograma, como você
discorreria sobre a simetria desses dados? Seja claro nos argumentos.
3. Um determinado polímero é usado para sistemas de evacuação de aeronaves. É importante
que o polímero seja resistente ao processo de envelhecimento. Vinte espécimes do
polímero foram utilizados em um experimento. Dez foram designados aleatoriamente para
serem expostos a um processo acelerado de envelhecimento em lote que envolvia
exposição a altas temperaturas por 10 dias. Medidas de resistência à tração dos corpos de
prova foram feitas, e os seguintes dados foram registrados em resistência à tração em psi
Não envelhecido: 227 222 218 217 225
218 216 229 228 221
Envelhecido: 219 214 215 211 209

218 203 204 201 205
a) Faça um gráfico de pontos dos dados.
b) Analisando o gráfico, parece que o processo de envelhecimento teve um efeito sobre a
resistência à tração deste polímero? Explicar.
c) Calcule a resistência média à tração das duas amostras.
d) Calcule a mediana para ambas amostras. Discuta a falta de semelhança entre a média e a
mediana de cada grupo.
e) Calcule a variância e o desvio padrão amostrais da resistência à tensão em ambas as
amostras. O que se pode dizer sobre a variabilidade de cada grupo? Comente
4. Os dados do exercícios 21, primeira lista, estão reproduzidos abaixo.
11,5 12,1 9,9 9,3 7,8 6,2 6,6 7,0 13,4 17,1
9,3 5,6 5,7 5,4 5,2 5,1 4,9 10,7 15,2 8,5
4,2 4,0 3,9 3,8 3,6 3,4 20,6 25,5 13,8 12,6
13,1 8,9 8,2 10,7 14,2 7,6 5,2 5,5 5,1 5,0
5,2 4,8 4,1 3,8 3,7 3,6 3,6 3,6
a) Construa o diagrama Ramo-e-Folha para esses dados.

b) Baseado no item (a) faça uma tabela de classe, na qual apresente as frequências
absolutas, relativas e acumuladas.
c) Baseado em sua tabela, construa o histograma. Analisando seu histograma, como você

discorreria sobre a simetria desses dados? Seja claro nos argumentos.

5. Muitas empresas de manufatura nos Estados Unidos e no exterior usam peças moldadas
como componentes de um processo. O encolhimento é frequentemente um grande
problema. Assim, uma matriz moldada para uma peça é construída maior que o tamanho
nominal para permitir o encolhimento da peça. Em um estudo de moldagem por injeção,
sabe-se que o encolhimento é influenciado por muitos fatores, entre os quais a velocidade
de injeção em pés por segundo e a temperatura do molde em oC. Os dois conjuntos de dados
a seguir mostram os resultados de um experimento projetado em que a velocidade de
injeção foi mantida em dois níveis (baixo e alto) e a temperatura do molde foi mantida
constante em um nível baixo. O encolhimento é medido em 𝑐𝑚 × 104
Valores de contração em baixa velocidade de injeção:
72,68 72,62 72,58 72,48 73,07 72,55 72,42 72,84 72,58 72,92
Valores de contração em alta velocidade de injeção:

71,62 71,68 71,74 71,47 71,55 71,52 71,71 71,56 71,70 71,50
a) Construa um gráfico de pontos de ambos os conjuntos de dados, no mesmo gráfico.
Indique na plotagem ambos os meios de contração, para baixa velocidade de injeção e
alta velocidade de injeção.
b) Com base nos resultados gráficos em (a), usando a localização dos dois meios e seu
senso de variabilidade, o que você conclui sobre o efeito de velocidade de injeção na
contração na baixa temperatura do molde?
6. Os dados anexos de densidade para diversos tipos de madeira usados em construção foram
relatados no artigo “Bolted Connection Design Values Basedon European Yield Model”
(J. of Structural Engr., 1993, p. 2169-2186):
0,31 0,35 0,36 0,36 0,37 0,38 0,40 0,40 0,40 0,41
0,41 0,42 0,42 0,42 0,42 0,42 0,43 0,44 0,45 0,46
0,46 0,47 0,48 0,48 0,48 0,51 0,54 0,54 0,55 0,58
0,62 0,66 0,66 0,67 0,68 0,75
Construa um diagrama de caule e folha usando caules repetidos (veja o exercício anterior)
e comente suas características interessantes.
7. Em um estudo de produtividade literária (“Lotka’s Test,” Collection Mgmt., 1982, p. 111-
118), um grande número de autores foi classificado de acordo com o número de artigos que
tinham publicado durante certo período. Os resultados foram apresentados na distribuição
de frequência a seguir:
Número de
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
artigos

Frequência 784 204 127 50 33 28 19 19 6 7 6 7 4 4 5 3 3
a) Construa um histograma correspondente a essa distribuição de frequência. Qual é a

característica mais interessante do formato da distribuição?
b) Que proporção desses autores publicou no mínimo cinco artigos? No mínimo 10
artigos? Mais de 10 artigos?
c) Suponha que os cinco que publicaram 15 artigos, os três que publicaram 16 e os três que
publicaram 17 tenham sido agrupados em uma única categoria exibida como “15.”
Você pode construir um histograma? Explique.
d) Suponha que, em vez dos valores 15, 16 e 17 relacionados separadamente, eles tenham
sido combinados em uma categoria 15-17 com frequência 11. Você pode construir um
histograma? Explique.
8. O número de partículas de contaminação de uma pastilha de silício antes de certo processo
de limpeza foi determinado para cada pastilha em uma amostra de tamanho 100, resultando
nas frequências a seguir:
Número de
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
partículas
Frequência1 2 3 12 11 15 18 10 12 4 5 3 1 2 0 2
a) Que proporção das pastilhas da amostra tinha ao menos uma partícula? Ao menos cinco
partículas?
b) Que proporção das pastilhas da amostra tinha entre cinco e 10 (inclusive) partículas?
Estritamente entre cinco e 10 partículas?
c) Desenhe um histograma usando a frequência relativa no eixo vertical. Como você
descreveria o formato do histograma?
9. O artigo “The Pedaling Technique of Elite Endurance Cyclists” (Int. J. of Sport
Biomechanics, 1991, p. 29-53) relatou os dados a seguir sobre a potência de uma única
perna de um ciclista em alta carga de trabalho:
244 191 160 187 180 176 174 205 211 183 211 180 194 200
a) Calcule e interprete a média e a mediana amostrais.
b) Suponha que a primeira observação tenha sido 204 em vez de 244. Como a média e a
mediana seriam afetadas?
c) Calcule uma média aparada, eliminando a maior e a menor observações da amostra.
Qual é a porcentagem de truncamento correspondente?
d) O artigo também relatou valores sobre a potência de uma única perna para uma carga

de trabalho baixa. A média amostral de 𝑛 = 13 observações foi 𝑥̅ = 119,8 (na verdade

119,7692) e a 14ª observação, um tipo de outlier, foi 159. Qual é o valor de 𝑥̅ para a
amostra toda?
10. Vinte homens adultos com idades entre 30 e 40 anos participaram de um estudo para avaliar
o efeito de um regime de saúde específico envolvendo dieta e exercício sobre o colesterol
no sangue. Dez foram aleatoriamente selecionados para ser um grupo controle, e dez outros
foram designados para participar do regime como grupo de tratamento por um período de
6 meses. Os dados a seguir mostram a redução do colesterol experimentado pelo período
de tempo dos 20 indivíduos:
Grupo controle: 7 3 −4 14 2 5 22 −7 9 5
Grupo de tratamento: −6 5 9 4 4 12 37 5 3 3
a) Faça um gráfico de pontos dos dados para os dois grupos no mesmo gráfico.
b) Calcule a média, mediana e média aparada em 10% para ambos os grupos.
c) Explique por que a diferença de médias sugere uma conclusão sobre o efeito do regime,
enquanto a diferença em medianas ou médias aparadas sugere uma conclusão diferente.
11. Um serviço de teste de consumidores obteve a seguinte quilometragem, por litro, em cinco
corridas de teste realizadas com três carros compactos:
Carro A: 31,7 30,4 30,6 31,4 27,9
Carro B: 31,2 28,7 31,3 28,7 31,3
Carro C: 28,6 29,1 28,5 32,1 29,7
Tanto o fabricante do carro A, quanto o do carro B, pretendem anunciar que seus carros
tiveram o melhor "desempenho médio" nesse teste. Que medidas de posição cada um
deverá usar para conseguir o seu intento? E se o fabricante do carro C contratasse você para
achar uma maneira, SEM FRAUDES, de mostrar que seu carro teve o melhor desempenho,
o que você sugeriria? Justifique sua resposta.
12. Os tempos despendidos por uma amostra de 12 alunos, em segundos, para percorrer certo
trajeto, sem barreira, foram 16, 17, 16, 20, 18, 16, 17, 19, 21, 22, 16, 23. Determine o valor,
sem agrupar os dados, das medidas de posição.
13. Você é responsável por uma classe de 50 alunos. As faltas às aulas em sua disciplina foram:
0 3 4 5 0 2 1 3 2 1
1 3 3 3 0 1 4 2 1 2

1 0 2 2 3 2 4 1 1 3
2 1 1 1 2 3 5 3 2 2
4 2 0 0 3 3 5 0 2 3
a) Construa o ROL para então construir a distribuição de frequência para melhor apresentar
e analisar estes dados.
b) Represente esses dados usando o diagrama de pontos.
c) Qual a percentagem de alunos que tiveram falta abaixo de 4?
d) Qual a percentagem de alunos que tiveram falta acima de 2?
e) Se estivéssemos interessados na falta que ocorreu com maior frequência, qual seria?
f) Determine as medidas de posição.
14. Um estudo de corrosão foi feito para determinar se o revestimento de um metal com uma
substância retardadora de corrosão reduziu a quantidade de corrosão. O revestimento é um
protetor que é anunciado para minimizar o dano por fadiga neste tipo de material. Também
é interessante a influência da umidade na quantidade de corrosão. Uma medição de
corrosão pode ser expressa em milhares de ciclos para falha. Dois níveis de revestimento
foram usados: sem revestimento e revestimento contra corrosão química, foram usava.
Além disso, os dois níveis de umidade relativa são 20% e 80% de umidade relativa. O
experimento envolve quatro combinações de tratamento que estão listadas na tabela que
segue.
Corrosão média
em milhares
Revestimento Umidade
de ciclos por
falhas
Sem revestimento 20% 975
80% 350
Revestimento 20% 1750
químico 80% 1550
Há oito unidades experimentais a serem usadas e elas são espécimes de alumínio

preparados, com duas atribuídos aleatoriamente a cada um das quatro combinações de
tratamentos. Faça uma representação gráfica adequada dos dados expostos na tabela e
comente.
15. Uma auditoria em uma grande empresa observou o valor de 50 notas fiscais emitidas
durante um mês. Esta amostra apresentou os seguintes valores em dólares:
15.315 23.440 6.551 13.253 25.312 35.780 42.320 34.782 27.435 17.661

20.414 23.313 26.432 30.515 27.610 8.598 12.417 22.300 25.400 21.200
16.820 38.000 40.300 15.800 18.300 21.780 32.414 32.000 18.700 19.600
22.540 22.010 30.000 21.380 24.780 29.000 30.400 12.319 36.728 36.483
27.312 35.318 18.620 38.661 40.681 19.302 23.300 21.350 28.412 21.313
Agrupe esses das numa tabela de frequência agrupada por classes. Construa seu
histograma.
16. Os dados a seguir representam indivíduos que foram contaminados pelo veneno de um
certo tipo de inseto e submetidos a tratamento. A variável de interesse denomina-se Recup
e é definida como o tempo, em horas, entre a administração do tratamento e a recuperação
do indivíduo. Os valores de Recup são os seguintes:
3 90 23 46 2 42 47 37 12 51
11 1 3 3 45 3 4 11 2 8
56 39 22 16 5 52 35 10 14 50
a) Determine a medidas de posição e dispersão desses valores. Qual o grau de variabilidade
desses dados?.
b) Separe o conjunto de dados em três grupos denominados: cura rápida, com valor de
Recup menor ou igual a 12, cura normal, se o valor de Recup for maior do que 12 e
menor ou igual a 45, e cura lenta, se o valor de Recup estiver acima de 45. Compare a
variabilidade desses três grupos através de seus coeficientes de variação
17. As concentrações de óxido de nitrogênio e hidrocarbono (em g/m3) foram determinadas
em uma área urbana, em locais e horários específicos. Os dados são mostrados a seguir.
Concentração de óxido e nitrogênio e hidrocarbono em (em

g/m3) em áreas urbanas.
Dia Óxido de Nitrogênio Hidrocarbono DIF= O – H
1 (O) 104 108 -4
2 116 (H) 118 -2
3 84 89 -5
4 77 71 6
5 61 66 -5
6 84 83 1
7 81 88 -7
8 72 76 -4
9 61 68 -7
10 97 96 1
11 84 81 3
a) Classifique as variáveis em estudo.
b) Realize uma análise descritiva dos dados.

c) Calcule média e desvio padrão para cada variável e para a variável DIF = O - H
(diferença entre as concentrações dos poluentes).
d) Considerando a variável DIF, pode-se dizer que as duas classes de poluentes estão
presentes nas mesmas concentrações?
18. Considere uma população constituída de 40 profissionais liberais que foram, questionados
sobre o número de revistas e/ou jornais que os mesmos são assinantes, obteve-se a seguinte
tabela:
Número de profissionais liberais que assinam
alguma revista ou jornal.
Nº de Publicações Nº de Profissionais
0 6
1 8
2 12
3 10
4 4
Total 40
Pede-se:
a) A percentagem de profissionais que tem menos de 3 assinaturas de revistas e/ou jornais

(publicações).
b) O valor da moda, da mediana e da média aritmética.
c) O valor da variância absoluta, do desvio padrão, do erro padrão e coeficiente de variação
19. O dono de uma Lan House quer saber se o tempo de uso da internet por sessão é diferente
entre seus clientes jovens e adultos. Para isso, ele contratou um Estatístico, que coletou
uma amostra aleatória de clientes nos dois grupos e mediu o tempo, em minutos, que cada
cliente gastou em sua sessão. Os dados coletados estão resumidos nas duas ogivas (dois
polígonos de frequências acumuladas) mostradas na figura a seguir:

Comente sobre a seguinte frase: “mais de 50% dos clientes adultos utilizam a internet por
mais de 30 minutos a cada sessão”
20. Os fenômenos mundiais de crescimento e de declínio florestal atraem grande interesse
público e científico. O gráfico a seguir foi baseado nos dados do artigo “Relationship
among crown condition, growth and stand nutrition in seven northern Vermont
sugarbushes” ( Canad. J. of Forest Res., 1995, 0. 386.397) que apresenta um diagrama de
caixa (boxplots) das variáveis individualmente. O secamento dos ramos é um indicador de
retardamento no crescimento da planta e, quanto mais baixo o pH do solo, maior a sua
acidez. A amostra consistiu de 19 pares das medidas tomadas na região.
Analisando-se o gráfico, é possível alegar que as distribuições de pH do solo e do

secamento das plantas apresentam respectivamente, assimetria com cauda à esquerda e
assimetria com cauda à direita, e moderada correção entre essas variáveis. Esta afirmação
está correta? Comente

21. Determine as medidas de dispersão, as principais medidas separatrizes (𝑄1 , 𝑄2 , 𝑄3 , 𝑃10 e

𝑃90 ), o coeficiente de simetria e de curtose e indique o intervalo Interquartil para a
distribuição da questão número 06.
22. Os preços em reais (R$) para uma amostra de equipamentos de som estão indicados na
tabela abaixo.
Equipamento 1 2 3 4 5 6 7
Preço (R$) 500,00 834,00 470,00 480,00 420,0 440,0 440,0
Com base na amostra determine o graus de variação desses preços. Baseado no valor
obtido, pode-se dizer que a variação é alta? Justifique.
23. Para se estudar o desempenho das corretoras de ações A e B, selecionou-se de cada uma
delas amostras aleatórias das ações negociadas. Para cada ação selecionada computou-se a
porcentagem de lucro apresentada durante o período de um ano. Os gráficos a seguir
apresentam os desenhos esquemáticos relativos à porcentagem de lucro das amostras de A
e B durante o período citado.
Relativamente à porcentagem de lucro obtida por essas corretoras pode-se afirmar que
a) exatamente 25% dos valores de A são inferiores a 55.
b) menos de 50% dos valores de B são superiores a 55.
c) o maior valor de A é 60.
d) os valores de A apresentam maior variabilidade que os de B.
e) os valores de B apresentam assimetria positiva.
24. Construa o Box plot para a seguinte amostra aleatória de um experimento:

3 3 3 3 4 4 4 4 4 4
4 4 4 4 5 5 5 5 5 5
5 5 5 5 5 5 5 6 6 6
6 6 7 7 7 7 7 8 8 8
8 8 8 9 9 9 9 10 15 17
Comente cada passo da construção.

25. A tabela abaixo mostra algumas medidas descritivas da distribuição de salários, em R$, de
três empresas do mesmo ramo.
Empresa Média Mínimo Q1 Mediana Q3 Máximo
A 800 200 300 500 600 1000
B 1200 300 450 800 1000 1530
C 1700 500 1000 1300 1400 10000
Construa um Box-plot para cada uma das empresas. O que se pode dizer sobre a
distribuição dos salários nas três empresas? Quais as diferenças em termos de posição
central e dispersão? Existe algum valor discrepante? Se sim, o que ele representa? Repita
a construção do Box-Plot desconsiderando o possível valor discrepante. Compare os
resultados.
26. Uma prova de Estatística foi aplicada em 3 turmas com diferentes quantitativos de alunos.
A tabela abaixo apresenta a média e o desvio padrão das notas em cada turma.
Desvio
Turma Média
Padrão
A 8 1,2
B 9 1,7
C 7 0,71
Considerando a tabela acima, discuta a sobre a homogeneidade do aprendizado em cada
turma e entre as turmas.
27. Elabore argumentos a cálculos para resolver cada um dos itens que segue:
a) Mostre que a variância amostral não muda se uma constante 𝑐 for adicionada ou
subtraída de cada resultado da amostra.
b) Mostre que a variância amostral se torna 𝑐 2 vezes seu valor original, se cada resultado
da amostra for multiplicado por 𝑐.
28. O conjunto de dados a seguir consiste de observações da vazão de chuveiros (L/min) de
uma amostra de 𝑛 = 129 lares na cidade de Uruaçu-GO
4,6 12,3 7,1 7,0 4,0 9,2 6,7 6,9 11,5 5,1
11,2 10,5 14,3 8,0 8,8 6,4 5,1 5,6 9,6 7,5

7,5 6,2 5,8 2,3 3,4 10,4 9,8 6,6 3,7 6,4
8,3 6,5 7,6 9,3 9,2 7,3 5,0 6,3 13,8 6,2
5,4 4,8 7,5 6,0 6,9 10,8 7,5 6,6 5,0 3,3
7,6 3,9 11,9 2,2 15,0 7,2 6,1 15,3 18,9 7,2
5,4 5,5 4,3 9,0 12,7 11,3 7,4 5,0 3,5 8,2
8,4 7,3 10,3 11,9 6,0 5,6 9,5 9,3 10,4 9,7
5,1 6,7 10,2 6,2 8,4 7,0 4,8 5,6 10,5 14,6
10,8 15,5 7,5 6,4 3,4 5,5 6,6 5,9 15,0 9,6
7,8 7,0 6,9 4,1 3,6 11,9 3,7 5,7 6,8 11,3
9,3 9,6 10,4 9,3 6,9 9,8 9,1 10,6 4,5 6,2
8,3 3,2 4,9 5,0 6,0 8,2 6,3 3,8 6,0
a) Construa um diagrama de Ramo-e-Folha para esses dados.
b) Qual taxa é considerada vazão típica ou representativa?
c) O diagrama parece ser concentrado ou disperso?
d) A distribuição dos valores parece razoavelmente simétrica? Em caso negativo, como
você descreveria o desvio da simetria?
e) Você descreveria alguma observação como distante do resto dos dados (um outlier)?
29. Num determinado teste realizado a 50 estudantes obtiveram-se as seguintes pontuações:
75 98 42 75 84 87 65 59 63 86
78 37 99 66 90 79 80 89 68 57
95 55 79 88 76 60 77 49 92 83
71 78 53 81 77 58 93 85 70 62
80 74 69 90 62 84 64 73 48 72
Determine:
a) a nota N, tal que 30% dos alunos tenham notam menor ou igual a N;
b) A nota P tal que 75% dos alunos estejam acima ou igual a P.
1.5. Coleta de dados e amostragem
Amostra Aleatória Simples –AAS
Na maioria das pesquisas estatísticas são usados dados amostrais, isso ocorre devido à
grande dificuldade ou até mesmo impossibilidade de se pesquisar todos os elementos da
população. Para coletar dados amostrais se deve usar métodos apropriados, tal como a seleção
aleatória. Se os dados não forem coletados usando-se métodos apropriados, eles não são válidos.
A importância da amostragem adequada gira em torno do grau de confiança com o qual o
pesquisador é capaz de responder às perguntas feitas sobre a população pesquisada. Vamos
supor que apenas uma única população exista no problema, assim a amostragem aleatória
simples significa que toda e qualquer amostra específica de tamanho 𝑛 tenha a mesma chance

de ser selecionada (como qualquer outra amostra do mesmo tamanho dentro da mesma
população). Em muitos casos uma tabela de números aleatórios pode ser utilizada na seleção
de amostras. Se possível for a enumeração das unidades populacionais, então podemos
simplesmente sortear o elementos da amostra, ou seguir um critério de ‘saltos’ seguindo passos
bem estabelecidos. O segundo procedimento chamamos de Amostragem Aleatória
Sistemática. Por exemplo, considere uma população com 𝑁 elementos, ordenados de alguma
forma, da qual deseja-se uma amostra com 𝑛 elementos (𝑛 < 𝑁). Para realizar uma amostragem
aleatória sistemática, defina a constante 𝑘 = 𝑁⁄𝑛. Após a definição do valor de 𝑘, sorteia-se o
ponto inicial da amostragem dentre os elementos do primeiro intervalo constituído pelos
elementos populacionais numerados de 1 até 𝑘. Escolhe se o seguinte, que estará 𝑘 posições à
frente do primeiro, e o terceiro que estará 𝑘 posições à frente do segundo, e assim por diante,
sempre somando 𝑘 à ordem do elemento anterior, até completar a escolha dos 𝑛 elementos que
vão compor a amostra. Para facilitar a compreensão, imagine uma distribuição de dados de uma
variável populacional 𝑋 contendo 𝑁 = 15 pontos. Disponha estes pontos ao longo de uma
linha. Suponha 𝑛 = 5. Logo 𝑘 = 3. Escolha para o primeiro ponto da amostra 𝑥1 = 𝑋2. Os
demais pontos amostrais serão 𝑥2 = 𝑋5, 𝑥3 = 𝑋8, 𝑥4 = 𝑋11 e 𝑥5 = 𝑋14 . Logo a amostra será
composta pelos pontos amostrais {𝑋2 , 𝑋5 , 𝑋8 , 𝑋11 , 𝑋15 }.
Figura 1.18
Uma vantagem da AAS é que ela ajuda na eliminação do problema de fazer com que a
amostra reflita uma população diferente (possivelmente mais restrita) do que aquela sobre a
qual inferências precisam ser feitas. Por exemplo, uma amostra deve ser escolhida para
responder a certas questões relacionadas à qualidade da água numa determinada região. A
amostra envolve a escolha de, digamos, 10 frascos de 100 ml cada, e uma pesquisa para avaliar
os teores de metais pesados e Ph deve ser conduzida. Agora, suponha que a amostragem
aleatória não seja usada. Em vez disso, todos ou quase todos os 10 frascos foram tomados em
córregos próximos a nascentes. Acredita-se que a qualidade da água em córregos longe das
nascentes sejam diferentes das próximas as nascentes. Em outras palavras, a amostra coletada
restringiu a população e, portanto, as inferências precisam ser restritas à “população limitada”,
e neste caso, restringir pode ser indesejável. Se, de fato, as inferências precisam ser feitas sobre

todos os mananciais da região, a amostra de tamanho 10 frascos descrita aqui é, muitas vezes,
referida como uma amostra parcial ou tendenciosa.
Notoriamente uma AAS nem sempre é apropriada. Qual abordagem alternativa é usada?
Depende da complexidade do problema. Muitas vezes, por exemplo, as unidades de
amostragem não são homogêneas e naturalmente se dividem em grupos não sobrepostos que
são homogêneos. Esses grupos são chamados de estratos, e um procedimento chamado
amostragem aleatória estratificada envolve a seleção aleatória de uma amostra dentro de
cada estrato. O objetivo é ter certeza de que cada um dos estratos não está superestimado nem
subi-representado. Para isso defina a proporção do estrato em relação à população. A Proporção
do estrato ℎ será igual ao número de elementos presentes neste estrato 𝑁ℎ dividido pelo
tamanho da população 𝑁, ou seja, 𝑁ℎ ⁄𝑁. Multiplique o tamanho total da amostra 𝑛 pela
proporção de cada estrato na população 𝑁ℎ ⁄𝑁. Assim, teremos um tamanho de amostra em
cada estrato, proporcional ao tamanho do estrato em relação à população. Por exemplo,
suponha que uma pesquisa por amostragem seja realizada com o objetivo de reunir opiniões
preliminares sobre um plebiscito referente ao porte de arma de fogo em uma determinada
cidade. A cidade é subdividida em vários grupos sociais que representam estratos naturais. Para
não desconsiderar ou superestimar qualquer grupo, amostras aleatórias separadas de cada grupo
devem ser coletadas de forma proporcional.
As observações contidas em uma amostra são tanto mais informativas sobre a população
quanto mais conhecimento explícito ou implícito tivermos dessa mesma população. Por
exemplo, a análise da quantidade de glóbulos brancos obtida de algumas gotas de sangue da
ponta do dedo de um paciente dará uma ideia geral da quantidade de glóbulos brancos no corpo
todo, pois sabe-se que a quantidade de glóbulos brancos é homogenia. A maneira de se obter a
amostra é de extrema importância e, por este motivo existem vários procedimentos para
coletagem de uma amostra. Esses procedimentos constituem especialidades dentro da
Estatística, sendo Amostragem e Planejamento de Experimentos as duas mais conhecidas. Para
melhor compreensão podemos dividir os procedimentos científicos de obtenção de dados
amostrais em três grandes grupos:
1. Levantamentos Amostrais, nos quais a amostra é obtida de uma população bem definida,
por meio de processos bem protocolados e controlados pelo pesquisador. Podemos, ainda,
subdividi-los em dois subgrupos: Levantamentos probabilísticos e não probabilísticos.

O primeiro reúne todas aquelas técnicas que usam mecanismos aleatórios de seleção dos
elementos de uma amostra, atribuindo a cada um deles uma probabilidade, conhecida a
priori, de pertencer à amostra. No segundo grupo são os demais procedimentos, tais
como: amostras intencionais, nas quais os elementos são selecionados com o auxílio de
especialistas, e amostras de voluntários, como ocorre em alguns testes sobre novo
medicamento e vacinas. Ambos os procedimentos têm suas vantagens e desvantagens. A
grande vantagem das amostras probabilísticas é medir a precisão da amostra obtida,
baseando-se no resultado contido na própria amostra. Tais medidas já são bem difíceis
para os procedimentos de segundo grupo.
2. Procedimentos Experimentais, cujo principal objetivo é o de analisar o efeito de uma
variável sobre outra. Requer, portanto, interferências do pesquisador sobre o ambiente em
estudo (população), bem como o controle de fatores externos, com o intuito de medir o
efeito desejado. Como exemplo, digamos que o pesquisador esteja interessado em saber
se a altura que um produto ocupa na gôndola interfere na quantidade vendida. Outra
aplicabilidade é na medicina, onde esse tipo de estudo é frequentemente usado.
3. Levantamentos Observacionais: aqui, os dados são coletados sem que o pesquisador
tenha controle sobre as informações obtidas, exceto eventualmente sobre possíveis erros
grosseiros. As séries de dados temporais são exemplos típicos desses levantamentos. Por
exemplo, o pesquisador está interessado em prever as vendas de uma empresa em função
de vendas passadas, neste caso, o pesquisador não pode selecionar os dados, esses são as
vendas efetivamente ocorridas.
Nestes casos, a especificação de um modelo desempenha um papel crucial na ligação

entre dados e população. Quando se tratar de uma série temporal, o modelo subjacente é o de
processo estocástico; podemos pensar que a série efetivamente observada é uma das infinitas
possíveis realizações desse processo. A população hipotética aqui seria o conjunto de todas
essas realizações, e a série observada seria a amostra.
Tamanho de uma amostra
Um problema recorrente quando trabalhamos com amostras é o de determinar que

tamanho a amostra deve ter. Amostras demasiadamente grandes ou pequenas podem acarretar
desperdício de tempo, de dinheiro ou produzir resultados pouco representativos. Para
determinar o tamanho de uma amostra em uma população, alguns requisitos são necessários.

Primeiro: devemos estabelecer a que nível de confiança (indicado por 𝛾) nossa amostra será
representativa da população. O valor crítico mais comum associado ao nível de confiança é 𝛾 =
95% com valor crítico normal bicaudal1 associado de 𝑍𝛾 = 1,96 . Segundo: estipular que
margem de erro amostral será aceitável nos resultados amostrais. É evidente que quanto maior
o nível de confiança, maior deve ser o tamanho da amostra, quanto menor o erro permitido,
maior deve ser o tamanho da amostra. Outro fator que influencia o tamanho de uma amostra é
a variabilidade dos dados populacionais quanto maior a variabilidade maior o tamanho da
amostra. Indicando a margem de erro amostral por 𝜀 > 0, e considerando uma população
normalmente distribuída com variância populacional 𝜎 2 conhecida então o tamanho 𝑛 da
amostra pode ser inicialmente estimado por
𝑍𝛾 2
𝑛 = 𝜎2 ⋅ ( ) (1.12)
𝜀
Caso queiramos outros níveis de confiança, devemos mudar o valor 𝑍𝛾 conforme o nível de
confiança 𝛾 exigido. A Tabela 1.6 abaixo exibe os pontos críticos associados a alguns níveis de
confiança que podem ser usados numa primeira análise. Outros pontos críticos associados ao
nível de confiança podem ser obtidos considerando uma distribuição normal e serão detalhados
no Capítulo 5, quando discutiremos mais detalhadamente o processo de amostragem bem como
a obtenção do tamanho de uma amostra mediante o conhecimento da população.
Tabela 1.6
Nível de confiança ( 𝛾 ) Ponto crítico bicaudal associado(𝑍𝛾 )
95,0% 1,96
97,0% 2,17
97,5% 2,245
99,0% 2,578
É claro que a fórmula (1.12) nos prende quanto ao conhecimento sobre 𝑛, já que é
necessário ter alguma informação prévia sobre 𝜎 2 ou, então, usar uma pequena amostra piloto
para estimar o valor da variância populacional. O estimador mais comum para a variância
populacional é a variância amostral 𝑆 2 . Usando este resultado em (1.12) teremos uma estimativa
1
O nome bicaudal se dá porque o erro esperado – 𝜀 – pode ser para mais ou para menos.

ótima para o número 𝑛 de objetos amostrais necessários para uma análise comparativa entre as
estatísticas e os parâmetros populacionais dentro dos critérios estabelecidos. Podemos usar
também a proporção populacional como parâmetro estatístico , visto que sua determinação afeta
o tamanho da amostra. No caso de querermos usar proporções sobre a população a relação (1.12)
resulta
𝑍𝛾 2
𝑛 = 𝑝 ⋅ (1 − 𝑝) ⋅ ( ) (1.13)
𝜀
Quando estivermos trabalhando com uma população finita sendo contabilizados 𝑁 pontos
populacionais, as fórmulas (1.12) e (1.13) sofrem uma pequena modificação, segundo a variável
em estudo. Estas fórmulas são básicas para qualquer tipo de composição de amostra; todavia,
existem fórmulas específicas segundo o critério de composição da amostra. Se o investigador
escolhe mais de uma variável, deve optar pelo maior 𝑛 obtido. Quando você não tiver condições
de prever o valor de 𝑝, admita 𝑝 = 0,50, pois, dessa forma você terá o maior tamanho da
amostra, admitindo-se constantes os demais elementos. Nesta situação a equação (1.13) toma a
forma
𝑍𝛾 2
𝑛 = 0,25 ⋅ ( ) (1.14)
𝜀
Nas pesquisas eleitorais é comum o uso da fórmula (1.14). Os índices que se tornaram
padrão nesse mercado são 2 pontos percentuais para a margem de erro e 95% para o nível de
confiança. Isso significa dizer que se a pesquisa for repetida 100 vezes, em 95 delas os
resultados estarão dentro da variação de 2 pontos percentuais para mais ou para menos. Uma
pesquisa com essas variáveis precisa ouvir 2.401 eleitores. Caso a margem de erro seja de 3
pontos percentuais é, então, necessário ouvir 1.068 pessoas.
Exemplo 1.5: Um engenheiro deseja estimar o salário média para o primeiro ano de trabalho de
um bacharel em engenharia civil. Quantos valores de salários devem ser tomados, se o
engenheiro deseja ter 97% de confiança em que a média amostral esteja a menos de 𝑹$ 𝟓𝟎𝟎, 𝟎𝟎
da verdadeira média populacional? Suponha que saibamos, por um estudo prévio, que o desvio
padrão dos salários de um bacharel em engenharia seja de 𝝈 = 𝑹$ 𝟔. 𝟐𝟓𝟎, 𝟎𝟎.

Solução: Queremos determinar o tamanho 𝑛 da amostra, para que com 𝛾 = 97% de confiança
a diferença entre a média amostral e a populacional seja menos de 500, ou seja, 𝜀 = 500. Como
foi dado que 𝜎 = 6.250, aplicamos a equação (1.12) obtendo:
2
𝑍97% 2 2
2,17 2
𝑛 =𝜎 ⋅( ) ⟶⇢ 𝑛 = (6.250) ⋅ ( ) ⟶⇢ 𝑛 = 736
𝜀 500
arredondado para cima. Devemos, portanto, obter uma amostra de 736 salários de primeiro ano,
selecionadas aleatoriamente, de bacharéis em engenharia civil para que tal amostra, com 97%
de confiança, tenha média amostral 𝑥̅ que defira no máximo em R$500,00 da verdadeira média
populacional µ.
Exemplo 1.6: O diretor de um empresa de seguros de autos deseja saber o tamanho 𝒏 para uma
amostra necessário para determinar a proporção da população atendida por uma das filiais da
empresa no estado de Goiás situada no município de Uruaçu. Não foi feito um levantamento
prévio da proporção amostral e, portanto, seu valor é desconhecido. Ele quer ter 95% de
confiança que o erro máximo de estimativa seja de ±𝟓%. Quantas pessoas necessitam ser
entrevistadas?
Solução: Devemos considerar o fato de a proporção amostral de atendimentos pela empresa
para pessoas de Uruaçu não é conhecida. Utilizamos a equação (1.13) para 𝑝 = 0,5, 𝜀 = 0,05 e
𝑍95% = 1,96, conforme texto, para determinar o tamanho da amostra. Assim,
𝑍95% 2 1,96 2
𝑛 = 𝑝 ⋅ (1 − 𝑝) ⋅ ( ) ⟶⇢ 𝑛 = (0,5) ⋅ (1 − 0,5) ⋅ ( ) ⟶⇢ 𝑛 = 385
𝜀 0,05
arredondado para cima. Devemos, portanto, obter uma amostra de 385 pessoas para determinar
a proporção da população atendida pela filial da empresa na cidade de Uruaçu-GO.
Exercícios: Lista 1.3
1. Explique as diferenças entre Levantamento Amostral; Planejamento de Experimentos e

Levantamentos Observacionais. Dê exemplos de cada um.
2. Faça uma pesquisa para levantar as principais diferenças entre Amostragem
Probabilística e Amostragem Não Probabilística. Cite ao menos um exemplos de cada.
3. Analise a seguinte situação hipotética:
Deseja-se saber sobre o trabalho das mulheres na atualidade. Será considerado: a
divisão cidade e campo, a habitação, o número de filhos, a renda média, a faixa
etária, a escolaridade.

Nesta situação, qual a melhor técnica para a realização desta pesquisa? O censo, a
amostragem probabilística ou a amostragem não probabilística. Justifique.
4. Suponha que estejamos interessados em obter uma amostra numa população finita com
exatamente 𝑁 pontos populacionais. Quantas amostras do tipo AAS podem ser extraídas
dessa população? Cite ao menos dois exemplos.
5. Uma pesquisa educacional procura determinar a eficácia de um novo método de
alfabetização de adultos. Terminado o período de ensino, o rendimento é medido pelos
resultados obtidos pelos alunos na leitura de um texto.
a. Descreva a população de interesse.
b. Deve-se usar amostragem neste caso ? Por quê ?
6. Identifique qual o procedimento de coleta de dados (observação, questionário com ou sem
entrevista) usadas nas situações abaixo e suas vantagens e desvantagens:
a. Amostragem sobre os hábitos de compra de gêneros alimentícios de uma certa área, por
telefone.
b. Distribuição de questionários, pelo correio, para estudar hábito de leitura de jornais dos
respondentes.
c. Estudo da relação criança hospitalizada e família, acompanhada por um observador.
d. Estudo do nível de poluição atmosférica medida por aparelhos, na Rodoviária.
7. Elabore argumentos e comente sobre os tipos de problemas que surgiriam nos seguintes
planos amostrais
a) Para investigar a proporção dos operários de uma fábrica favoráveis à mudança do início
das atividades das 7h para as 7h30min, decidiu-se entrevistar os 30 primeiros operários
que chegassem à fábrica na quarta-feira.
b) Mesmo procedimento, só que o objetivo é estimar a altura média dos operários.
c) Para estimar a percentagem média da receita municipal investida em lazer, enviaram-se
questionários a todas as prefeituras de certo estado, e a amostra foi formada pelas
prefeituras que enviaram as respostas.
d) Para verificar se a oferta de brindes nas vendas de sabão em pó influencia as vendas
tomaram-se quatro supermercado na zona sul e quatro na zona norte de uma cidade com
mais de 300.000 habitantes. Nas quatro lojas da zona sul, o produto era vendido com
brinde, enquanto nas outras quatro era vendido sem o brinde. No fim do mês,
compararam-se as vendas da zona sul com as da zona norte

8. Suponha que estejamos interessados em obter uma amostra numa população finita com
exatamente 𝑁 pontos populacionais. Quantas amostras do tipo AAS podem ser extraídas
dessa população? Cite ao menos dois exemplos.
9. A distribuição do número de filhos, por família, de uma zona rural está na tabela abaixo
No de filhos Percentagem
0 10
1 20
2 30
3 25
4 15
Total 100
a) Sugira um procedimento para sortear uma observação ao acaso dessa população.
b) Dê, na forma de uma tabela de dupla entrada, as possíveis amostras de duas famílias que
podem ser formadas e as respetivas probabilidades de ocorrência.
c) Se fosse escolhida uma amostra de tamanho 4, qual seria a probabilidade de se observar
a quádrupla ordenada (2,3,3,1)?
10. Uma pesquisa é planejada para determinar as despesas médicas anuais das famílias dos
empregados de uma grande empresa. A gerência da empresa deseja ter 97,5% de confiança
de que a média da amostra está no máximo com uma margem de erro de ±𝑅$ 50 da média
real das despesas médicas familiares. Um estudo-piloto indica que o desvio-padrão pode
ser calculado como sendo igual a 𝑅$400.
a) Qual o tamanho de amostra necessário?
b) Se a gerência deseja estar certa em uma margem de erro de ±𝑅$25, que tamanho de
amostra será necessário?
11. Um candidato à presidência da república questiona os resultados de uma pesquisa de
intensão de votos divulgada, na qual foram usados 2% como margem de erro e 95% como
nível de confiança. Por conta própria encomenda outra pesquisa a outro instituto renomado
de pesquisa e pedi que seja usado uma margem de erro de 0,5% e com nível de confiança
de 97,5%. Os resultados obtidos por esta segunda pesquisa não foram muito diferentes dos
da primeira. Explique por que isso ocorreu. (Para o nível de confiança de 97,5% use como ponto
crítico bicaudal associado 𝑍97,5% = 2,17 na equação 1.11)
12. O teste de QI padrão é planejado de modo que a média seja 100 e o desvio-padrão para
adultos normais seja 15. Ache o tamanho da amostra necessária para estimar o QI médio
dos instrutores de estatística. Queremos ter 95% de confiança em que nossa média amostral
esteja a menos de 1,5 pontos de QI da verdadeira média. A média para esta população é

obviamente superior a 100, e o desvio-padrão é provavelmente inferior a 15, porque se trata

de um grupo com menor variação do que um grupo selecionado aleatoriamente da
população geral; portanto, se tomamos σ = 15, estaremos sendo conservadores, por
utilizarmos um valor que dará um tamanho de amostra no mínimo tão grande quanto
necessário. Suponha σ = 15 e determine o tamanho da amostra necessário
13. Baseado nos dados do Exemplo 1.6, utilize uma margem de erro maior, como ±20% e
determine qual seria o tamanho da amostra necessário para o mesmo o nível de confiança?
14. Uma empresa fabricante de cosméticos que determinar os efeitos, na pele humana, de uma
substância nova que será usada num novo produto. Para realizar esse estudo, qual é o
melhor procedimento amostral? Comente sua resposta
15. Quantos eleitores são necessários ouvir numa pesquisa eleitoral em que são estabelecidos
1,5% para a margem de erro e 97% de nível de confiança?
16. O diretor do pronto socorro pediátrico do hospital de XX deseja estimar a proporção de
atendimentos pediátricos no pronto socorro que é devido a acidentes domésticos (queda,
queimadura, etc.). Esse diretor acredita que a proporção populacional seja de
aproximadamente 80%. Ele quer que o resultado tenha um erro máximo de 5% com um
nível de confiança de 95%. Nesses condições, quantos atendimentos devem ser avaliados
para estimar a proporção de atendimentos no pronto socorro pediátrico desse hospital?


63
2. Probabilidades
No estudo da estatística, estamos preocupados basicamente com a apresentação e
interpretação dos resultados do acaso que ocorrem em um estudo planejado ou investigação
científica. Por exemplo, podemos registrar o número de acidentes que ocorrem mensalmente
no cruzamento da avenida Goiás com a rua Jamel Cecílio, na esperança de justificar a instalação
de um semáforo; podemos classificar itens saindo de uma linha de montagem como
"defeituosos" ou "não-defeituosos"; ou podemos estar interessados no volume de gás liberado
em uma reação química quando a concentração de um ácido é variada. Portanto, o estatístico
geralmente está lidando com dados numéricos, representando contagens ou medidas, ou dados
categóricos, que podem ser classificados de acordo com algum critério. Vamos nos referir a
qualquer gravação de informação, seja ela numérica ou categórica, como uma observação.
Assim, os números {2, 0, 1, 2}, representando o número de acidentes ocorridos em cada mês,
de janeiro a abril, no ano passado, na interseção entre a Avenida Goiás e a rua Jamel Cecílio,
constitui um conjunto de observações. Da mesma forma, os dados categóricos {N, D, N, N, D},
representando os itens considerados defeituosos ou não-defeituosos quando cinco itens são
inspecionados. Tais resultados são registrados como observações.
Os estatísticos usam a palavra experimento para descrever qualquer processo que gere
um conjunto de dados. Um exemplo simples de um experimento estatístico é o lançamento de
uma moeda. Neste experimento, existem apenas dois resultados possíveis, cara ou coroa. Outro
experimento pode ser o lançamento de um míssil e a observação de sua velocidade em horários
específicos. As opiniões dos eleitores sobre um novo imposto sobre vendas também podem ser
consideradas como observações de um experimento. Estamos particularmente interessados nas
observações obtidas repetindo o experimento várias vezes. Na maioria dos casos, os resultados
dependerão do acaso e, portanto, não podem ser previstos com certeza. Se um químico executa
uma análise várias vezes sob as mesmas condições, ele ou ela obterá medidas diferentes,
indicando um elemento de chance no procedimento experimental. Mesmo quando uma moeda
é lançada repetidamente, não podemos ter certeza de que um dado lance resultará em uma coroa.
No entanto, sabemos todo o conjunto de possibilidades para cada lance, cara ou coroa.
Dada a discussão, devemos lidar com a amplitude do termo experimento. Três tipos de
estudos estatísticos são essencialmente apreciados: experimentos planejados, estudos
observacionais e estudos retrospectivos. O resultado final é um conjunto de dados que

obviamente está sujeito a incertezas. Embora apenas um deles tenha a palavra experimento em
sua descrição, o processo de gerar os dados ou o processo de observação dos dados é parte de
um experimento.
No capítulo 1 vimos que a análise de um conjunto de dados por meio de técnicas

numéricas e gráficos permite que tenhamos uma boa ideia do comportamento da distribuição
desse conjunto. Em particular, a distribuição de frequência é um instrumento importante para
avaliarmos a variabilidade das observações de um fenômeno aleatório e, as frequências relativas
são estimativas de probabilidade de ocorrência de certos eventos. Com suposições adequadas,
e sem observarmos diretamente o fenômeno aleatório de interesse, podemos criar um modelo
teórico que reproduza de maneira razoável a distribuição das frequências, quando o fenômeno
é observado diretamente. Tais modelos são chamados de modelos probabilísticos e, nestas notas
iremos discutir um pouco sobre esses modelos.
2.1. Probabilidade – principais conceitos
A teoria do cálculo das Probabilidades começou formalmente (definição axiomática) com

uma correspondência entre dois matemáticos, Blase Pascal (1623-16620 e Pierre de Fermat
(1601-1665), em 1654 a respeito de dois problemas formulados por um jogador compulsivo,
Chavalier de Méré, embora existam relatos de aplicações de problemas envolvendo a teoria de
Probabilidade em datas anteriores tais como Jerônimo Cardano (1501-1576) em sua obra Líber
de Lodo Aleae.
O cálculo das probabilidades pertença ao campo da Matemática e, consequentemente, sua

associação à Estatística se justifica pelo fato de a maioria dos fenômenos de que trata a
Estatística ser de natureza aleatória ou probabilística. No estudo da estatística, estamos
interessados, basicamente, na apresentação e interpretação dos possíveis resultados que
ocorrem em um estudo planejado ou uma investigação científica de algum fenômeno aleatório.
Como visto, a palavra experimento descreve qualquer processo que gere um conjunto de dados
capazes de descrever o comportamento do fenômeno. Fenômenos aleatórios, estudados pela
estatística, são fenômenos cujo resultado, mesmo em condições normais de experimentação
variam de uma observação para outra, dificultando dessa maneira a previsão de um resultado
futuro. Veremos o quão trabalhoso é resolver problemas de previsões futuras sobre um resultado

Probabilidades 65
a posteriori de um experimento aleatório, porém usando os recursos matemáticos adequados

essa tarefa fica mais acessível.
Caracterização de um experimento aleatório
O modelo probabilístico pode ser constituído por meio de premissas, como por exemplo,
estabelecer qual experimento melhor descreve as ocorrências do fenômeno em questão; saber
a priori todos os possíveis resultados do experimento, sem, contudo, saber o resultado que
ocorrerá a cada realização do experimento. A análise dos experimentos realizados para estudo
do fenômeno revela que
(a) Cada realização do experimento pode ser repetida indefinidamente sob as mesmas
condições;
(b) Não se conhece um particular valor do experimento a priori, porém pode-se
descrever todos os possíveis resultados – as possibilidades;
(c) Quando um experimento for repetido um grande número de vezes surgirá uma
𝑓
regularidade, isto é, haverá uma estabilidade da fração 𝑝 = 𝑛 (frequência relativa),
em que 𝑛 é o número de repetições e 𝑓 o número de sucessos de um particular

resultado estabelecido antes da realização do experimento. Graficamente temos
Figura 2.1
Como veremos mais adiante, a característica (c) é de fundamental importância para a
avaliação da probabilidade de um certo evento. Ou seja, a probabilidade de um evento é dada
pela razão entre o número de ocorrência do evento e o número total de ensaios quando este
tende ao infinito, mais precisamente

𝑛𝑜 𝑑𝑒 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑒𝑚 𝑛 𝑒𝑛𝑠𝑎𝑖𝑜𝑠
𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 = lim (2.1)
𝑛→∞ 𝑛
Portanto, para saber a probabilidade de certo resultado ocorrer dentro do experimento, o

que devemos fazer é repetir o experimento uma infinidade de vezes e contar quantas vezes o
resultado requerido ocorre. Quanto mais vezes repetirmos o experimento mais verdadeira será
a probabilidade obtida.
Quando estudamos as premissas causadoras de um fenômeno, lidamos com uma ou mais

variáveis, supostas causadoras das possíveis alterações no fenômeno. Neste aspecto os estudos
estatísticos sobre a variável em questão produzem, como resultado final, um conjunto de dados
que obviamente está sujeito a incertezas. Este conjunto de dados ou coleção de resultados
obtidos pelos experimentos estatísticos descreverá possíveis interferências da variável na
ocorrências do fenômeno. Em probabilidade é comum definirmos essa coleção de todos os
possíveis resultados da variável em estudo de espaço amostral. A Definição 2.1 esclarece melhor.
Definição 2.1 O conjunto de todos os possíveis resultados em um experimento estatístico, é

chamado espaço amostral, usualmente representado pelo símbolo 𝛀
Cada resultado dentro do espaço amostral é chamado de elemento ou ponto amostral. Se

o espaço amostral tem um número finito de pontos amostrais, podemos listar esses pontos
separadas por vírgula e colocá-los entre chaves. O espaço amostral Ω dos possíveis resultados
quando um dado é jogado e observado o número na face superior pode ser escrito da seguinte
forma: Ω = {1, 2, 3, 4, 5, 6}. Se o espaço amostral tiver um número infinito de pontos amostrais
é usual representá-lo por uma sentença matemática. O espaço amostral Ω formado por todos os
pares de pontos que se pode escolher, ao acaso, sobre um segmento de reta de tamanho 1 de
forma a obter três segmentos menores que formem um triângulo é infinito e ainda não
enumerável sendo indicado como
Ω = {(𝑥, 𝑦) ∶ 0 ≤ 𝑥 ≤ 𝑦 ≤ 1} (2.2)
Essa ideia de espaço amostral infinito gera muito desconforto nos menos preparados
teoricamente. A ideia de infinito é muito abrangente, por isso não detalharemos muito sobre tal
assunto nestas notas. Mas, qualquer que seja o espaço amostral Ω sempre é possível dele retirar
um subconjunto finito ou não. No caso de Ω ser finito, digamos com 𝑁 pontos amostrais,
qualquer subconjunto retirado de Ω será finito com uma quantidade 𝑛 ≤ 𝑁 de pontos amostrais.

Probabilidades 67
A quantidade de eventos distintos possíveis de serem estudados em Ω finito é exatamente de

2𝑁 . Esse resultado deriva diretamente da linguagem de conjuntos, em especial, das partes de
um conjunto. A definição abaixo deixa claro o que entendemos por evento.
Definição 2.2 Um evento de um espaço amostral 𝛀 é qualquer subconjunto de 𝛀.
Em particular, um evento pode ser o próprio espaço amostral Ω, ou o conjunto vazio

denotado pelo símbolo ∅ o qual não contém nenhum elemento. O evento Ω é dito evento certo
e ∅ como evento impossível. Uma vez que definimos evento como subconjunto podemos falar
em operações entre eventos que resultarão em novos eventos. Esses novos eventos serão
também subconjuntos do mesmo espaço amostral como os eventos originais. Para
entendimento, quando lançamos um dado honesto o espaço amostral fica Ω = {1, 2, 3, 4, 5, 6}.
Agora pense nos eventos um número maior que 4 ocorre na face superior ou um número par
maior que 2 ocorre na face superior. Denotando por 𝐴 e 𝐵 esses eventos teremos 𝐴 = {5, 6} e
𝐵 = {4, 6}. Nitidamente 𝐴 e 𝐵 são subconjuntos de Ω. Agora seja o evento um número maior
que 3 ocorre na face superior denotado por 𝐶 = {4, 5, 6}. Note que caso ocorra o evento 𝐴,
imediatamente teremos a ocorrência de 𝐶 bem como se ocorrer o evento 𝐵 também ocorre o
evento 𝐶, neste caso dizemos que o evento 𝐶 é a união dos eventos 𝐴 e 𝐵 e indicaremos por
𝐶 = 𝐴 ∪ 𝐵. Note que o evento união está diretamente relacionada às ocorrências individuais
dos eventos 𝐴 e 𝐵 não sendo descartada a possibilidade de ocorrência simultânea. Isto é, se
ocorrer somente o evento 𝐴, então ocorrerá a união 𝐴 ∪ 𝐵, de mesma forma se ocorrer somente
o evento 𝐵 ocorrerá a união 𝐴 ∪ 𝐵, se ocorrer os dois eventos juntos, 𝐴 e 𝐵 a união ocorrerá
também. No exemplo supracitado, defina o evento um número divisível por 3 não primo ocorre
na face superior. Denotando por 𝐷 tal evento teremos 𝐷 = {6}, note que este evento 𝐷 ocorrerá
se, e somente se, ocorrer o ponto amostral 6 mas, ocorrendo este ponto amostral teremos
simultaneamente a ocorrência dos eventos 𝐴 e 𝐵, neste caso diremos que 𝐷 é a intersecção de
𝐴 com 𝐵 e indicaremos por 𝐷 = 𝐴 ∩ 𝐵. A intersecção se caracteriza pela ocorrência categórica
dos dois eventos juntos, isto é, a ocorrência do evento intersecção 𝐴 ∩ 𝐵 está sumariamente
relacionada à ocorrência simultânea dos eventos 𝐴 e 𝐵. Assim, para a intersecção ocorrer é
necessário e obrigatório que os eventos 𝐴 e 𝐵 ocorram juntos. Caso apenas um deles ocorra não
será verdadeiro a ocorrência da intersecção e indicaremos por 𝐴 ∩ 𝐵 = ∅. Em probabilidade
saber se a intersecção ocorrerá ou não é de grande importância, principalmente no trato com

probabilidade. Eventos que não possuem intersecção são ditos disjuntos ou mutuamente
exclusivos. Dessa forma temos a
Definição 2.3 Dois eventos quaisquer 𝑨 e 𝑩 de 𝛀 são ditos disjuntos ou mutuamente

exclusivos se 𝑨 ∩ 𝑩 = ∅
Ainda considerando o exemplo do lançamento do dado, caso desejemos que um número

menor que 5 ocorra na face superior. Se indicarmos esse evento por 𝐸 temos 𝐸 = {1, 2, 3, 4}.
É imediato que ocorrendo o evento 𝐸 não ocorrerá o evento 𝐴, neste caso 𝐸 ∩ 𝐴 = ∅, porém
𝐸 ∪ 𝐴 = Ω, essas características específicas de dois eventos estabelecem o que chamamos de
evento complementar. Diremos que os eventos 𝐸 e 𝐴 são complementares entre si. Em
símbolos escrevemos 𝐸 = 𝐴′, ou seja, o complementar de um evento 𝐴 relacionado a Ω é o
subconjunto de todos os pontos amostrais de Ω que não estão em 𝐴, o qual indicaremos por 𝐴′.
O complemento do evento 𝐴 é outro evento, indicado por 𝐴′ , de sorte que são verdadeiras as
afirmações 𝐴 ∪ 𝐴′ = Ω e 𝐴 ∩ 𝐴′ = ∅. Note que falar em complemento de um evento 𝐴 é dizer
que 𝐴 não pode ocorrer. No digrama abaixo os números {1, 2, 3, 4, 5, 6, 7, 8} indicam
regiões. Assim, o conjunto 𝐴 é formado pelas regiões 1, 2, 4 e 5 e 𝐵 ′ ∩ 𝐶 é formado pelas
regiões 2 e 6. Indique as regiões para os eventos 𝐴 ∪ 𝐵, 𝐴 ∩ 𝐵 ∩ 𝐶, (𝐵 ∩ 𝐶)′, 𝐴′ ∩ 𝐶, 𝐶 ∪ 𝐵,
𝐶 ′ ∩ 𝐵 e (𝐴 ∪ 𝐵) ∩ 𝐶.
Analisando o digrama concluímos que:

𝐴 ∪ 𝐵 é formado pelas regiões 1, 2, 3, 4, 5 e 7.
𝐴 ∩ 𝐵 ∩ 𝐶 é formado pela região 1
Probabilidades 69
(𝐵 ∩ 𝐶)′ é formado pelas regiões 2, 4, 5, 6, 7 e 8

𝐴′ ∩ 𝐶 é formado pelas regiões 3 e 6
𝐶 ∪ 𝐵 é formado pelas regiões 1, 3, 4, 6 e 7
𝐶 ′ ∩ 𝐵 é formado pelas regiões 4 e 7
(𝐴 ∪ 𝐵) ∩ 𝐶 é formado pelas regiões 1, 2, e 3
Ainda sobre o evento complementar, diversos resultados podem ser avaliados a partir do
conceito de complementar, os quais podem ser facilmente verificados usando o diagrama. A
seguir alguns exemplos:
• 𝐴∩∅=∅ • (𝐴′ )′ = 𝐴
• 𝐴∪∅=𝐴 • (𝐴 ∩ 𝐵)′ = 𝐴′ ∪ 𝐵′
• Ω′ = ∅ • (𝐴 ∪ 𝐵)′ = 𝐴′ ∩ 𝐵′
• ∅′ = Ω
Função Probabilidade
Considere Ω como o espaço amostral de algum experimento aleatório realizado para

descrever o comportamento de um fenômeno. Tome 𝐴 como evento de Ω. O que queremos é
prever antecipadamente a chance do evento 𝐴 ocorrer, e, dessa forma, fazer algumas previsões
e generalizações sobre as possibilidades do comportamento do fenômeno em estudo. Quando
dizemos que as chances de se ganhar na mega sena são praticamente nulas, estamos
expressando um resultado do qual não temos certeza, mas baseado em informações anteriores
ou por meio do entendimento de certo experimento, temos um certo grau de confiança na
veracidade da afirmação. A probabilidade da ocorrência de um evento resultante de um
experimento estatístico é avaliada por meio de um conjunto de números reais chamados pesos
ou probabilidades. Se tivermos razão para acreditar que certo ponto amostral é muito provável
de ocorrer quando o experimento é conduzido a probabilidade atribuída deve ser próxima de 1.
Por outro lado, uma probabilidade próxima de 0 é atribuída para um ponto amostral que não é
provável de ocorrer.
Como existem espaços amostrais finitos e infinitos devemos nos preocupar em

estabelecer a probabilidade de ocorrência de um evento 𝐴 associado ao espaço amostral Ω de
forma a abranger todo e qualquer evento para todo espaço amostral. Neste sentido demos a

Definição 2.4 (Axiomas de Kolmogorov) Seja 𝛀 um conjunto finito não vazio e 𝓕(𝛀) o
conjunto das partes de 𝛀. Seja 𝑷: 𝓕(𝛀) → ℝ uma função escalar. A terna (𝛀, 𝓕, 𝑷) é dita
espaço de probabilidades se 𝑷 satisfazer os seguintes axiomas:
I) 𝑃(𝐴) ≥ 0, para todo 𝐴 ∈ ℱ(𝛀);
II) 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵), se 𝐴 e 𝐵 são disjuntos
III) 𝑃(Ω) = 1
Tomando 𝐴 ⊂ Ω o valor obtido pela função 𝑃, a saber, 𝑃(𝐴) é dita Probabilidade de

ocorrência do evento 𝑨. O axioma (II) acima garante que a soma de todas as probabilidades
calculadas para todos os eventos disjuntos possíveis em Ω será 1. Isto é, sendo 𝐴1 , 𝐴2 , ⋯, 𝐴𝑛
uma coleção de eventos disjuntos tais que𝐴1 ∪ 𝐴2 ∪ ⋯ ∪ 𝐴𝑛 = Ω com 𝐴𝑖 ∩ 𝐴𝑗 = ∅ para todo
𝑖 ≠ 𝑗, então
𝑃(𝐴1 ) + 𝑃(𝐴2 ) + ⋯ + 𝑃(𝐴𝑛 ) = 𝑃(Ω) = 1
E ainda, não importando o tamanho do evento nem seu tipo, sua probabilidade será
sempre um número positivo menor que ou igual a 1 em qualquer que seja o espaço amostral 𝛀,
ou seja, tomando 𝐴 ∈ ℱ(𝛀), então 0 ≤ 𝑃(𝐴) ≤ 1. Para ver isso perceba que sendo 𝐴′ o
complementar de 𝐴 em Ω, então 0 ≤ 𝑃(𝐴) ≤ 𝑃(𝐴) + 𝑃(𝐴′ ) = 𝑃(𝐴 ∪ 𝐴′ ) = 𝑃(Ω) = 1, logo
0 ≤ 𝑃(𝐴) ≤ 1. Outro fato curioso sobre probabilidade é que se 𝐴 = 𝐵 então 𝑃(𝐴) = 𝑃(𝐵).
(Prove isto, amigo leitor!)
Teoremas de Probabilidade
Apresento alguns resultados importantes sobre probabilidades que serão muito úteis em
problemas práticos. Todas as justificativas são simples não necessitando de muito
aprofundamento teórico para compreendê-las.
Teorema 2.1 Se ∅ é o conjunto vazio, então 𝑷(∅) = 𝟎.

Justificativa: Seja 𝐴 um evento qualquer. Sabe-se que 𝐴 e ∅ são disjuntos, pois 𝐴 ∩ ∅ = ∅.
Assim, pelo axioma (II)
𝐴∪∅=𝐴
⏞ 𝑃(𝐴) = 𝑃(𝐴) + 𝑃(∅) ⟹ 𝑃(∅) = 0
𝑃(𝐴 ∪ ∅) = 𝑃(𝐴) + 𝑃(∅) ⟹
Portanto, 𝑃(∅) = 0.
Teorema 2.2 Se 𝑨′ é o evento complementar de 𝑨, então 𝑷(𝑨) + 𝑷(𝑨′ ) = 𝟏.

Probabilidades 71
Justificativa: Sendo 𝐴′ complementar de 𝐴, então Ω = 𝐴 ∪ 𝐴′ . Como 𝐴 ∩ 𝐴′ = ∅ (são

mutuamente exclusivos), temos pelo axioma (II)
𝐴∪𝐴′=Ω 𝑃(Ω)=1
′) ⏞ 1 = 𝑃(𝐴) + 𝑃(𝐴′ )
⏞ 𝑃(Ω) = 𝑃(𝐴) + 𝑃(𝐴′) ⟹
𝑃(𝐴 ∪ 𝐴 = 𝑃(𝐴) + 𝑃(𝐴′) ⟹
Portanto, se 𝐴′ é complementar de A tem-se𝑃(𝐴) + 𝑃(𝐴′) = 1.
Teorema 2.3 Se 𝑨 e 𝑩 são eventos de 𝛀 com 𝑨 ⊆ 𝑩, então 𝑷(𝑩 − 𝑨) = 𝑷(𝑩) − 𝑷(𝑨).

Justificativa: Perceba que 𝐵 = 𝐴 ∪ (𝐵 − 𝐴). Como 𝐵 − 𝐴 e 𝐴 são mutuamente exclusivos,
pelo axioma (II) temos
𝑃(𝐵) = 𝑃(𝐴 ∪ (𝐵 − 𝐴)) ⟹ 𝑃(𝐵) = 𝑃(𝐴) + 𝑃(𝐵 − 𝐴) ⟹ 𝑃(𝐵 − 𝐴 ) = 𝑃(𝐵) − 𝑃(𝐴)
Portanto, sendo 𝐴 ⊆ 𝐵 então𝑃(𝐵 − 𝐴) = 𝑃(𝐵) − 𝑃(𝐴).
Corolário Se 𝐴 e 𝐵 são eventos de Ω com 𝐴 ⊆ 𝐵, então 𝑃(𝐴) ≤ 𝑃(𝐵).
Teorema 2.4 Se 𝑨 e 𝑩 são eventos quaisquer de 𝛀, então
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) (2.3)
Justificativa:(a) Ora, se 𝐴 e 𝐵 forem mutuamente exclusivos

𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵)
devido ao axioma (II). (b) Suponha 𝐴 e 𝐵 não disjuntos, ou seja, 𝐴 ∩ 𝐵 ≠ ∅. Neste caso
escrevemos 𝐴 ∪ 𝐵 = 𝐴 ∪ (𝐴′ ∩ 𝐵) (faça o digrama para visualizar melhor), assim,
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐴′ ∩ 𝐵) (*)
Por outro lado, o evento 𝐵 pode ser escrito como 𝐵 = (𝐵 ∩ 𝐴) ∪ (𝐴′ ∩ 𝐵). Considerando que
(𝐵 ∩ 𝐴) ∩ (𝐴′ ∩ 𝐵) = ∅ temos
𝑃(𝐵) = 𝑃(𝐵 ∩ 𝐴) + 𝑃(𝐴′ ∩ 𝐵)ou 𝑃(𝐴′ ∩ 𝐵) = 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) (**)
substituindo a igualdade (**) em (*) temos
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
Portanto 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵).
Teorema 2.5 Se 𝑨 e 𝑩 são eventos quaisquer de 𝛀, então
𝑃((𝐴 ∪ 𝐵)′) = 𝑃(𝐴′ ∩ 𝐵 ′ ) 𝑒 𝑃((𝐴 ∩ 𝐵)′) = 𝑃(𝐴′ ∪ 𝐵 ′ ) (2.4)
Até aqui, apesar de se ter postulado a existência do número 𝑃(𝐴) e de várias propriedades
(teoremas) que esse número possui, nada foi dito quanto a maneira de se calcular o valor de

𝑃(𝐴). Para esse cálculo, devem ser feitas certas suposições adicionais que conduzem a um
método de avaliação da probabilidade, porém, se essas suposições não forem fundamentais,
precisa-se recorrer à experimentação a fim de se encontrar o valor de 𝑃(𝐴).
2.2. Probabilidade em espaços finitos
Probabilidades em espaços amostrais finitos e

equiprováveis.
Como vimos, a probabilidade associada a um evento 𝐴 de algum espaço amostral é um

número real pertencente ao intervalo [0, 1]. Para calcular esse valor devemos considerar que
tipo é o espaço amostral: se finito ou se infinito. As técnicas de cálculo de um podem não servir
para o outro. Quando o espaço amostral Ω for finito ele conterá 𝑁 pontos amostrais distintos,
podendo ser representado da forma Ω = {𝑎1 , 𝑎2 , ⋯ , 𝑎𝑁 }. Se cada ponto amostral tiver a mesma
probabilidade de ocorrência, diremos se tratar de um espaço amostral equiprovável ou
uniforme. Nestes espaços a probabilidade de um evento 𝐴 é obtida pela soma de todas as
probabilidades atribuídas aos pontos amostrais em 𝐴. Esta soma é chamada a probabilidade de
𝐴 e é denotada por 𝑃(𝐴). De modo geral, seja Ω um espaço amostral finito, e, considere em Ω
um evento formado por um resultado (único ponto amostral simples), digamos 𝐴∗ = {𝑎𝑖 }. A
cada evento simples 𝐴∗ associa-se um número 𝑝𝑖 denominado probabilidade de 𝐴∗ satisfazendo
as seguintes condições:
a) 0 ≤ 𝑝𝑖 ≤ 1
b) 𝑝1 + 𝑝2 + 𝑝3 + ⋯ + 𝑝𝑁 = 1
Sendo 𝐴 um evento composto por mais que um elemento simples, para determinar a
probabilidade 𝑃(𝐴) somamos todas as probabilidades atribuídas para os pontos amostrais em
𝐴. Por exemplo, se 𝐴 = {𝑎1 , 𝑎2 }, então
𝑃(𝐴) = 𝑝1 + 𝑝2 (2.5)
Em particular, se Ω contém 𝑁 pontos e é equiprovável, então, a probabilidade de cada

1
ponto será 𝑝𝑖 = 𝑁. Por outro lado, se um evento 𝐴 conter 𝑟 pontos, ou seja, se 𝐴 =
{𝑎1 , 𝑎2 , ⋯ , 𝑎𝑟 } com 𝑟 ≤ 𝑁, então

Probabilidades 73
1 1 1 1 𝑟
𝑃(𝐴) = 𝑝1 + 𝑝2 + ⋯ + 𝑝𝑟 = + + ⋯+ = 𝑟 ∙ =
⏟
𝑁 𝑁 𝑁 𝑁 𝑁
𝑟 𝑝𝑎𝑟𝑐𝑒𝑙𝑎𝑠
𝑟
ou seja, 𝑃(𝐴) = 𝑁. Este método de avaliar 𝑃(𝐴) é frequentemente enunciado da seguinte forma
‘probabilidade de ocorrência do evento 𝐴 é a razão entre o número de pontos amostrais em 𝐴

e o número total de pontos amostrais em Ω. Em símbolos fica
𝑛(𝐴)
𝑃(𝐴) = (2.6)
𝑛(Ω)
sendo 𝑛(𝐴) número de pontos amostrais em 𝐴 e 𝑛(Ω) número total de pontos amostrais em Ω.
Esta forma de calcular a probabilidade é baseada em espaços amostrais finitos e equiprováveis.
Caso o espaço amostral seja finito e não equiprovável a forma de estimarmos o valor da
probabilidade de um evento 𝐴 é considerar as frequências relativas obtidas pela observação e
𝑓𝐴
execução dos experimentos estatísticos, ou seja, 𝑃(𝐴) = lim .
𝑛→∞ 𝑛
Num primeiro momento vamos discutir apenas as probabilidades em espaços amostrais

finitos e equiprováveis. Para isso, alguns recursos de Análise Combinatória devem ser
lembrados por que serão usados com muita frequência:
Teorema 2.6 (Combinação) O número máximo de grupos, contendo 𝒑 objetos cada um, que se
pode formar de um total de 𝒏 objetos é
𝑛 𝑛!
( ) = 𝐶𝑛,𝑝 = (2.7)
𝑝 𝑝! (𝑛 − 𝑝)!
Teorema 2.7 (Princípio Multiplicativo) Se uma escolha pode ser realizada de 𝒏 maneiras, e se
para cada uma delas uma segunda escolha pode ser realizada de 𝒎 maneiras, então o total de
maneiras distintas de escolher a primeira e a segunda juntas será 𝒏 × 𝒎.
Este princípio multiplicativo pode ser visto usando a árvore de possibilidades. Na árvore
que segue os experimentos são tais que o primeiro possui dois resultados possíveis de ocorrer,
e, para cada uma dessas duas maneiras há três resultados possíveis para o segundo experimento
ocorrer, e ainda, para cada par de ocorrências dos dois primeiros há quatro resultados possíveis
de ocorrer o terceiro experimento. Assim haverá ao todo 2 × 3 × 4 = 24 maneiras dos três
eventos ocorrerem de forma distinta. Veja abaixo

É claro que o princípio multiplicativo pode ser estendido a mais de dois experimentos.
Suponha que 𝑟 experimentos que devem ser realizados são tais que o primeiro pode resultar em
qualquer um dos 𝑛1 resultados possíveis; e se, para cada um desses 𝑛1 resultados possíveis,
houver 𝑛2 resultados possíveis do segundo experimento; e se, para cada um dos resultados
possíveis dos dois primeiros experimentos, houver 𝑛3 resultados possíveis do terceiro
experimento; [e se ⋯], então há um total de (𝑛1 ⋅× 𝑛2 × ⋯ × 𝑛𝑟 ) resultados possíveis dos 𝑟
experimentos.
Exemplo 2.1 Num lote de 12 peças, 4 são defeituosas. Duas peças são retiradas de forma
aleatória. Calcule a probabilidade de:
a) ambas serem defeituosas;
b) ambas não são defeituosas;
c) ao menos uma defeituosa.
Solução 1: Abaixo a árvore das possibilidades para esse problema, onde B1 indica que a
primeira peça saiu boa, B2|B1 indica que a segunda peça saiu boa quando a primeira foi boa, e
assim com os demais. Os números entre parênteses indicam as probabilidades de cada evento.
Sugiro o leitor fazer as contas e verificar se as probabilidades apresentadas são de fato os valores
apresentados na árvore de possibilidades.

Probabilidades 75
Portanto,
a) Só existe um galho que fornece a probabilidade pedida. O galho segue o seguinte caminho:
1 3 1
D1→ D2|D1 . Assim, 𝑃(𝑎𝑚𝑏𝑎𝑠 𝑠ã𝑜 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎𝑠) = 𝑃(𝐷1 ) ⋅ 𝑃(𝐷2 |𝐷1 ) = 3 ⋅ 11 = 11
b) Só existe um galho que fornece a probabilidade pedida. O galho segue o seguinte caminho:
2 7 14
B1→ B2|B1 . Assim, 𝑃(𝑎𝑚𝑏𝑎𝑠 𝑛ã𝑜 𝑠ã𝑜 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎𝑠) = 𝑃(𝐵1 ) ⋅ 𝑃(𝐵2 |𝐵1 ) = 3 ⋅ 11 = 33
c) Existem três galhos que fornecem a probabilidade pedida. Os galho são: B1→ D2|B1, D1→B2|D1 e
D1→ D2|D1, Assim, a probabilidade pedida é dada pela soma desses galhos. Veja
𝑃(𝑎𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚𝑎 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎) = 𝑃(𝐵1 ) ⋅ 𝑃(𝐷2 |𝐵1 ) + 𝑃(𝐷1 ) ⋅ 𝑃(𝐵2 |𝐷1 ) + 𝑃(𝐷1 ) ⋅ 𝑃(𝐷2 |𝐷1 )
2 4 1 8 1 3
𝑃(𝑎𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚𝑎 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎) = ⋅ + ⋅ + ⋅
3 11 3 11 3 11
8 8 3 19
𝑃(𝑎𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚𝑎 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎) = + + =
33 33 33 33
Outra forma de pensar este problema, talvez mais complexa, mas quem vai decidir é você leitor.
■
Solução 2: Nesta segunda forma de resolver usaremos os conceitos de análise combinatória.
Veja que temos 12 peças das quais vamos retirar duas. O espaço amostral Ω será formado por
todos os possíveis pares de peças que podem ser retirados. Assim,
12!
𝑛(Ω) = 𝐶12,2 = = 66
2! (12 − 2)!
a) Seja 𝐴 = {𝑎𝑚𝑏𝑎𝑠 𝑠ã𝑜 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎𝑠}. Note que queremos as duas peças defeituosas. Para
isso ocorrer é necessário que se extraia as duas peças das 4 defeituosas e nenhuma das 8 boas.
Assim,
4! Princípio multiplicativo para dois
𝑛(𝐴) = 𝐶4,2 ∙ 𝐶8,0 = ∙1=6 experimentos. Duas defeituosas e
2! (4 − 2)!
nenhuma boa
𝑛(𝐴) 6 1
logo, 𝑃(𝐴) = 𝑛(Ω) = 66 = 11

b) Seja 𝐵 = {𝑎𝑚𝑏𝑎𝑠 𝑛ã𝑜 𝑠ã𝑜 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎𝑠}. Note que queremos as duas peças não
defeituosas. Para isso ocorrer é necessário que se extraia duas peças das 8 boas (não defeituosas)
e nenhuma das 4 defeituosas. Assim,
8!
𝑛(𝐵) = 𝐶8,2 ∙ 𝐶4,0 = ∙ 1 = 28
2! (8 − 2)!
𝑛(𝐵) 28 14
logo, 𝑃(𝐴) = 𝑛(Ω) = 66 = 33
c) Seja 𝐶 = {𝑎𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚𝑎 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑎}. Uma análise simples vê-se que 𝐶 = 𝐵 ′ . logo
14 19
𝑃(𝐶) = 𝑃(𝐵 ′ ) = 1 − 𝑃(𝐵) ou 𝑃(𝐶) = 1 − 33 = 33.
■
A vantagem de se empregar os recursos da análise combinatória na resolução de
problemas de probabilidade esteja, talvez, em sua agilidade e não dependência gráfica, visto
que conseguimos resolver sem o auxílio da árvore de possibilidades, que dependendo do
problema pode ser bem complicado construí-la. Claro que para problemas simples e com
poucos experimentos sendo analisados, a árvore de possibilidades é um recurso quase que
indispensável.
Exemplo 2.2 Três cavalos A, B e C estão em uma corrida. Sabe-se, por corridas anteriores, que
A tem duas vezes mais probabilidade de ganhar que B, e B têm duas vezes mais chances de
ganhar que C.
a) Quais são as probabilidades de vitória de cada um desses cavalos?
b) Qual seria a probabilidade de B ou C ganhar?
Solução: Sejam 𝑃(𝐴), 𝑃(𝐵) e 𝑃(𝐶) as probabilidades de A, B e C vencerem. Pela leitura do
enunciado fica claro que o cavalo C é o que tem menos chances de vencer, e, 𝑃(𝐴) = 2𝑃(𝐵) =
4𝑃(𝐶). Dessa forma temos
1
𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝐶) = 1 ou 4𝑃(𝐶) + 2𝑃(𝐶) + 𝑃(𝐶) = 1 ou 𝑃(𝐶) =
7
Logo,
4 2 1
a) 𝑃(𝐴) = 7 ; 𝑃(𝐵) = 7 𝑒 𝑃(𝐶) = 7
b) Queremos que B ou C ganhe. Como apareceu o conectivo “ou” isso implica em união dos
2 1 3
eventos. Como 𝐵 ∩ 𝐶 = ∅, temos 𝑃(𝐵 ∪ 𝐶) = 𝑃(𝐵) + 𝑃(𝐶) = 7 + 7 = 7

Probabilidades 77
Exemplo 2.3 Suponha que as especificações do fabricante sobre a extensão de certo tipo de
cabo para computadores sejam de 2.000 ± 10 milímetros. Nessa indústria, sabe-se que um cabo
menor tem a mesma possibilidade de ser defeituoso ( não atender as especificações) do que um
cabo maior. Ou seja, a probabilidade de se produzir, aleatoriamente, um cabo maior que 2.010
mm é igual à probabilidade de se produzir um cabo menor que 1.990 mm. Sabe-se que a
probabilidade de que os processedimentos de produção atendam às especificações é de 0,99.
a) Qual a probabilidade de um cado selecionado aleatoriamente seja muito grande?
b) Qual a probabilidade de que um cabo selecionado aleatoriamente seja maior que 1.990?
Solução: Sejam os eventos:
𝐴 = {as especificações são atendidas},
𝐵 = {a medida do cabo é menor que 1.990} e
𝐶 = {a medida do cabo é maior que 2.010}
1
Pelo enunciado temos, 𝑃(𝐴) = 0,99 e 𝑃(𝐵) = 𝑃(𝐶). Verifique que, 𝑃(𝐵) = 2 ∙ 𝑃(𝐴′ ), assim
1 1
a) 𝑃(𝐵) = 𝑃(𝐶) = 2 ∙ (1 − 𝑃(𝐴)) = 2 ∙ (1 − 0,99) = 0,005. Dessa forma, 𝑃(𝐵) = 0,005 e
𝑃(𝐶) = 0,005
b) Seja 𝑋 o tamanho do cabo, então 𝑃(1990 ≤ 𝑋 ≤ 2010) = 𝑃(𝐴) = 0,99. Já para
𝑃(2010 < 𝑋) = 𝑃(𝐵) = 0,005. Assim, 𝑃(1990 < 𝑋) = 𝑃(𝐴) + 𝑃(𝐵) = 0,995
■
Exemplo 2.4 Suponha que num lote com 20 peças existam cinco defeituosas. Escolhemos
quatro peças do lote ao acaso, ou seja, uma amostra de quatro elementos, de modo que a ordem
dos elementos seja irrelevante. Determine a probabilidade de se escolher duas peças
defeituosas.
Solução: Temos 20 peças das quais vamos retirar quatro. O espaço amostral Ω será formado
por todas as possíveis quadras de bolas que podem ser retirados. Assim,
20!
𝑛(Ω) = 𝐶20,4 = = 4.845
4! (20 − 4)!
Seja 𝐴 = {escolher duas peças defeituosas}. Devemos escolher 2 peças boas dentre as 15
boas e 2 peças defeituosas dentre as 5 defeituosas. Com isso, 𝑛(𝐴) = 𝐶5,2 ∙ 𝐶15,2 = 1.050.
𝑛(𝐴) 1.050
Dessa forma, 𝑃(𝐴) = 𝑛(Ω) = 4.845 = 0, 2167

Exemplo 2.5 O jogo da mega sena consiste em escolher 6 dezenas dentre as 60 disponíveis (01,
02, 03, ⋯, 59, 60). O jogador pode marcar, num mesmo volante, de 6 a 15 dezenas. O custo de
cada volante simples, marcado com 6 dezenas, é R$ 4,50. Determine a probabilidade de haver
vencedor, do prêmio principal, quando se marca 10 dezenas no volante?
Solução: Note que devemos obter quantos volantes simples de 6 dezenas equivale um volante
único marcado com 10 dezenas. O total de volantes simples com 6 dezenas que podem ser
marcados é 𝐶60,6 e, um volante marcado com 10 dezenas equivale a 𝐶10,6 volantes simples de
6 dezenas. Sendo assim, definimos o evento
𝐴 = {haver vencedor do prêmio principal, quando se marca 10 dezenas no volante},
logo,
𝑛(𝐴) 𝐶10,6 210 3 1
𝑃(𝐴) = ⟹ 𝑃(𝐴) = = = ≅
𝑛(Ω) 𝐶60,6 50.063.860 715.198 238.399
Portanto, a chance de ganhar na mega sena marcando 10 dezenas num volante equivale a 1
chance em 238,399 ou 𝑃(𝐴) ≅ 0,000004194 = 4,194 × 10−6
■
Exemplo 2.6 A farmácia F possui, no que se refere ao Resfenol, em seu estoque 10 unidades
em comprimidos e 6 em solução. Os remédios são pegos na prateleira de forma aleatória para
serem negociados. No dia em que foram vendidos 4 unidades de Resfenol, ache a probabilidade
de serem comercializados:
a) Todos do mesmo tipo;
b) Dois de cada tipo;
c) No mínimo um em solução.
Solução: Vamos procurar o espaço amostral desse problema. Como são 10 em comprimidos e
6 em solução temos 16 tipos de Resfenol. Como foram vendidos 4 unidades, o espaço amostral
é formado por todas as quadras que podemos formar com as 16 unidades, ou seja,
16!
𝑛(Ω) = 𝐶16,4 = = 1.820
4! (16 − 4)!
a) Seja o evento 𝐴 = {todos do mesmo tipo}. Como são dois tipos distintos, temos o uso do
conectivo “ou”, isto é, serem vendidos 4 comprimidos ou 4 soluções. Assim o número de
elementos de 𝐴 é 𝑛(𝐴) = 𝐶10,4 ∙ 𝐶6,0 + 𝐶10,0 ∙ 𝐶6,4 = 225.
𝑛(𝐴) 225 O conectivo “ou” é
com isso, 𝑃(𝐴) = 𝑛(Ω) = 1.820 ≅ 0,124
interpretado como soma

Probabilidades 79
b) Seja o evento 𝐵 = {dois de cada tipo}. Neste caso, temos o uso do conectivo “e”, isto é,
serem vendidos 2 comprimidos e 2 soluções.
𝑛(𝐴) 675
Teremos então 𝑛(𝐵) = 𝐶10,2 ∙ 𝐶6,2 = 675. Com isso, 𝑃(𝐵) = 𝑛(Ω) = 1.820 ≅ 0,371
c) Seja o evento 𝐶 = {no mínimo uma solução}. Neste caso, temos o uso dos conectivos
“ou” e “e” simultaneamente, isto é:
serem vendidos 3 comprimidos e 1solução ou
serem vendidos 2 comprimidos e 2 soluções ou
serem vendidos 1 comprimidos e 3 soluções ou serem vendidos somente 4 soluções.
Assim, 𝑛(𝐶) = 𝐶10,3 ∙ 𝐶6,1 + 𝐶10,2 ∙ 𝐶6,2 + 𝐶10,1 ∙ 𝐶6,3 + 𝐶6,4 ∙ 𝐶10,0 = 1.610.
𝑛(𝐴) 1.610
Com isso, 𝑃(𝐶) = 𝑛(Ω) = 1.820 ≅ 0,885
Uma forma alternativa de resolver este item é usar o complementar do evento 𝐶, isto é, 𝐶 ′ =
𝑛(𝐶 ′ ) 3
{não vender solução}. Assim, 𝑛(𝐶 ′ ) = 𝐶10,4 ∙ 𝐶6,0 = 210. Com isso 𝑃(𝐶 ′ ) = = 26.
𝑛(Ω)
3
Portanto, 𝑃(𝐶) = 1 − 𝑃(𝐶 ′ ), ou seja, 𝑃(𝐶) = 1 − 26 ≅ 0,885
Exemplo 2.7 Sejam os eventos 𝑨 e 𝑩 com 𝑷(𝑨) = 𝟏/𝟐, 𝑷(𝑩) = 𝟏/𝟒 e 𝑨 e 𝑩 disjuntos. Dessa
forma, calcule:
a) 𝑃(𝐴′) b) 𝑃(𝐵′) c) 𝑃(𝐴 ∩ 𝐵) d) 𝑃(𝐴 ∪ 𝐵) e) 𝑃[(𝐴 ∩ 𝐵)′ ]
Solução:
a) 𝑃(𝐴′) = 1 − 𝑃(𝐴) assim 𝑃(𝐴′) = 1/2
b) 𝑃(𝐵′) = 1 − 𝑃(𝐵) assim 𝑃(𝐵′) = 3/4
c) 𝑃(𝐴 ∩ 𝐵) = 0 visto que 𝐴 e 𝐵 são disjuntos, ou seja, 𝐴 ∩ 𝐵 = ∅
d) 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) = 3/4
e) Como 𝐴 ∩ 𝐵 = ∅, então (𝐴 ∩ 𝐵)′ = Ω, logo 𝑃[(𝐴 ∩ 𝐵)′ ] = 𝑃(Ω) = 1
■
Exemplo 2.8 Uma pequena empresa possui 6 funcionários do sexo masculino e 5 funcionários
do sexo feminino. Cada dia é selecionado, ao acaso, um funcionário para realizar o teste do
bafômetro. Na semana que houver 4 testes de bafômetro, ache a probabilidade de que o teste
seja realizado por:
a) Pessoas do mesmo sexo;
b) Alternadamente quanto ao sexo;
c) Dois homens e duas mulheres.

Solução: Primeiro note que neste problema, o mesmo funcionário pode ser selecionado dois
dias seguidos. Na empresa são 11 funcionários (6 homens e 5 mulheres). Estabeleça 𝐻 =
𝑓𝑢𝑛𝑐𝑖𝑜𝑛á𝑟𝑖𝑜 é ℎ𝑜𝑚𝑒𝑚 e 𝑀 = 𝑓𝑢𝑛𝑐𝑖𝑜𝑛á𝑟𝑖𝑜 é 𝑚𝑢𝑙ℎ𝑒𝑟. Para facilitar a resolução,
consideremos 𝐴 ∩ 𝐵 = 𝐴𝐵. Assim teremos:
a) Seja o evento 𝐴 = 𝑜 𝑡𝑒𝑠𝑡𝑒 é 𝑟𝑒𝑎𝑙𝑖𝑧𝑎𝑑𝑜 𝑐𝑜𝑚 𝑝𝑒𝑠𝑠𝑜𝑎𝑠 𝑑𝑜 𝑚𝑒𝑠𝑚𝑜 𝑠𝑒𝑥𝑜, então,
𝑃(𝐴) = 𝑃(𝑠𝑒𝑟 𝐻𝑜𝑚𝑒𝑚 𝑛𝑜𝑠 𝑞𝑢𝑎𝑡𝑟𝑜 𝑡𝑒𝑠𝑡𝑒𝑠) + 𝑃(𝑠𝑒𝑟 𝑀𝑢𝑙ℎ𝑒𝑟 𝑛𝑜𝑠 𝑞𝑢𝑎𝑡𝑟𝑜 𝑡𝑒𝑠𝑡𝑒𝑠). Como
6 6 6 6 1.296 5 5 5 5 625
𝑃(𝐻𝐻𝐻𝐻) = 11 ∙ 11 ∙ 11 ∙ 11 = 14.641 e 𝑃(𝑀𝑀𝑀𝑀) = 11 ∙ 11 ∙ 11 ∙ 11 = 14.641 temos
1.296 625 1.921
𝑃(𝐴) = + = ≅ 0,131206
14.641 14.641 14.641
b) Seja o evento 𝐵 = 𝑜 𝑡𝑒𝑠𝑡𝑒 é 𝑟𝑒𝑎𝑙𝑖𝑧𝑎𝑑𝑜 𝑎𝑙𝑒𝑟𝑛𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒 𝑞𝑢𝑎𝑛𝑡𝑜 𝑎𝑜 𝑠𝑒𝑥𝑜, então,
𝑃(𝐵) = 𝑃(𝐻𝑀𝐻𝑀) + 𝑃(𝑀𝐻𝑀𝐻). Como
6 5 6 5 900 5 6 5 6 900
𝑃(𝐻𝑀𝐻𝑀) = 11 ∙ 11 ∙ 11 ∙ 11 = 14.641e 𝑃(𝑀𝐻𝑀𝐻) = 11 ∙ 11 ∙ 11 ∙ 11 = 14.641 temos
900 900 1.800
𝑃(𝐵) = + = ≅ 0,1229424
14.641 14.641 14.641
c) Seja o evento 𝐶 = 𝑜 𝑡𝑒𝑠𝑡𝑒 é 𝑟𝑒𝑎𝑙𝑖𝑧𝑎𝑑𝑜 𝑝𝑜𝑟 𝑑𝑜𝑖𝑠 ℎ𝑜𝑚𝑒𝑛𝑠 𝑒 𝑑𝑢𝑎𝑠 𝑚𝑢𝑙ℎ𝑒𝑟, então,
𝑃(𝐶) = 𝑃(𝐻𝐻𝑀𝑀) + 𝑃(𝑀𝑀𝐻𝐻) + 𝑃(𝐻𝑀𝐻𝑀) + 𝑃(𝑀𝐻𝑀𝐻) + 𝑃(𝐻𝑀𝑀𝐻) + 𝑃(𝑀𝐻𝐻𝑀).
Como
𝑃(𝐻𝐻𝑀𝑀) = 𝑃(𝑀𝑀𝐻𝐻) = 𝑃(𝐻𝑀𝐻𝑀) = 𝑃(𝑀𝐻𝑀𝐻) = 𝑃(𝐻𝑀𝑀𝐻) = 𝑃(𝑀𝐻𝐻𝑀) temos
6 6 5 5 5.400
𝑃(𝐶) = 6 ∙ 𝑃(𝐻𝐻𝑀𝑀) = 6 ∙ ∙ ∙ ∙ = ≅ 0,3688272
11 11 11 11 14.641
(sugiro o leitor tentar resolver este exemplo usando a árvore de possibilidades)
■
1. Determine a probabilidade de obtermos um ás, um rei¸ ou um dois quando retirarmos

aleatoriamente uma carta de um baralho de 52 cartas. R. 3/13
2. Determine a probabilidade de cada evento:
a) Um número par aparecer no lançamento de um dado. R. 1/2
b) Uma figura aparecer ao se extrair uma carta de um baralho de 52 cartas R. 3/13
c) Uma carta de ouros aparecer ao se extrair uma carta de um baralho de 52 cartas. R. 1/4
d) Uma só coroa aparecer no lançamento de três moedas. R. 3/8

Probabilidades 81
3. Os currículos de dois candidatos masculinos para um cargo de professor universitário em

química são colocados no mesmo arquivo que os currículos de duas candidatas do sexo
feminino. Duas vagas se tornam disponíveis, e a primeira, na posição de professor assistente,
é preenchida selecionando-se um dos quatro candidatos aleatoriamente. A segunda vaga, na
categoria de instrutor, é preenchida selecionando aleatoriamente um dos três candidatos
restantes. Usando a notação M2F1, por exemplo, para indicar o evento simples de que a
primeira posição é preenchida pelo segundo candidato do sexo masculino e a segunda
posição é então preenchida pelo primeiro candidato feminino. Um estudo aleatório é
realizado para avaliar as possibilidades para o preenchimento das duas vagas.
i. Descreva a população amostral e liste todos seus elementos;
ii. listar os elementos correspondentes ao evento A que o cargo de professor assistente é
preenchido por um candidato do sexo masculino;
iii. listar os elementos correspondentes ao evento B que exatamente uma das duas
posições é preenchida por um candidato do sexo masculino;
iv. listar os elementos correspondentes ao evento C que nenhuma posição é preenchida
por um candidato do sexo masculino;
v. listar os elementos correspondentes ao evento AB;
vi. listar os elementos correspondentes ao evento AC;
vii. construir um diagrama de Venn para ilustrar as intersecções e uniões dos eventos A,
B e C.
4. Um levantamento sobre a renda familiar de 500 famílias na cidade de Uruaçu produziu a
tabela abaixo.
Renda familiar de 500 famílias na cidade de Uruaçu em
2016
Níveis de Renda ( em R$) Número de famílias
Menos do que 400 60
400 — 999,99 100
1.000 — 1.999,99 160
2.000 — 5.999,99 140
6.000 ou mais 40
Qual a probabilidade de que uma família escolhida aleatoriamente tenha renda familiar
a) Entre 400 e 999,99 reais R. 0,20

b) Menos que 1.000 reais R.0,32

c) Um dos extremos: menos que 400 ou pelo menos 6.000 reais. R.0,20
5. Seja 𝑃 uma probabilidade sobre os eventos de um espaço amostral Ω. Sejam 𝐴 e 𝐵 eventos
tais que 𝑃(𝐴) = 2/3 e 𝑃(𝐵) = 4/9. Elabore argumentos e cálculos para justificar os itens
que seguem:
2
a) ≤ 𝑃(𝐴 ∪ 𝐵)
3
2 5
b) ≤ 𝑃(𝐴 ∩ 𝐵′) ≤ 9
9
1 4
c) ≤ 𝑃(𝐴 ∩ 𝐵) ≤
9 9
6. De acordo com a revista Consumer Digest (julho/2015), a provável localização de PCs

(Computadores Pessoais) em uma residência é:
Quarto do adulto 0,03
Quarto da criança 0,15
Outro Quarto 0,14
Na sala de estar 0,40
Outros cômodos 0,28
Agora, responda:
a) Qual a probabilidade de um PC estar em um quarto? R. 0,32
b) Qual a probabilidade de que o PC não esteja em um quarto? R. 0,68
c) Suponha que uma casa de família seja escolhida ao acaso entre as casas que têm um PC;
em qual cômodo você esperaria encontrá-los? R. na sala
7. Uma caixa tem 500 envelopes, dos quais 75 contêm R$ 100,00 em dinheiro, 150 contêm R$
25,00 e 275 contêm R$ 10,00. Um envelope pode ser comprado por R$ 25,00. Qual é o
espaço amostral para as diferentes quantias de dinheiro? Determine a probabilidade de que
o primeiro envelope comprado tenha menos de R$ 100,00? R. 0,85
8. Dos fregueses que adentram uma loja, sabe-se que 30% adquirem alguma mercadoria. No
instante em que forem atendidos 4 fregueses, ache a probabilidade de todos fazerem alguma
compra. R. 0,0081
9. Numa sala de atendimento existem 4 cadeiras giratórias e 6 fixas. Ache a probabilidade de
ser ocupada exatamente uma cadeira fixa no instante em que houver:
a) Três pessoas sentadas. R. 0,3000
b) Quatro pessoas sentadas. R.0,1143

Probabilidades 83
10. Se no problema 9 acima, um prêmio surpresa for dado à pessoa que usar cadeira fixa em
primeiro lugar, ache a probabilidade do contemplado for a pessoa que chegar ao salão:
a) Em segundo lugar. R. 0,2667
b) Em terceiro lugar. R. 0,1000
11. Uma empresa possui 5 linhas de montagem de seus produtos, denominadas A, B, C, D e
E, sendo que para verificar o comportamento de seus funcionários é feito vistoria diária por
um fiscal, de forma aleatória. Se em um dia houver duas vistorias em que cada linha pode
ser visitada no máximo uma vez, ache a probabilidade de que:
a) A linha A seja visitada. R. 0,4
b) A linha A ou a linha B sejam visitadas. R. 0,7
c) A linha A e a linha B sejam visitadas. R. 0,1
d) A linha A nem a linha B sejam visitadas. R. 0,3
e) A linha D não seja visitada. R. 0,6
12. Refaça o exercício 11 acima, se uma mesma linha puder ser vistoriada mais de uma vez.
R. 0,36 ; 0,64 ; 0,08; 0,36 e 0,64
13. Suponha que estejamos testando uma partida de válvula eletrônica e que a probabilidade
de um teste ser positivo seja de 3/4. Os testes prosseguem até que apareça a primeira válvula
positiva. Determine a probabilidade de o teste parar na terceira tentativa. R. 3/64
14. Refaça o Exemplo 2.8 considerando agora que um mesmo funcionário não pode realizar o
teste do bafômetro duas vezes na mesma semana.
2.3. Probabilidade condicional e Independência de

eventos
Um conceito muito importante em teoria das probabilidades é Probabilidade

Condicional. Em algumas aplicações, o pesquisador está interessado na estrutura das
probabilidade sob certas restrições. Para exemplificar, em epidemiologia, em vez de estudar as
chances de uma pessoa ter diabetes numa população em geral, pode ser mais interessante saber
essa probabilidade para grupos distintos, como mulheres asiáticas com idade entre 35 e 50 anos
ou homens hispânicos com idades entre 40 e 60. Esse tipo de probabilidade é chamada de
probabilidade condicional. É de grande importância para o cálculo das probabilidades
determinar a probabilidade de ocorrência de um evento condicionada à ocorrência de outro, isto
é, entender que influência a ocorrência do evento 𝐵 “a priori” exerce sobre a ocorrência do

evento 𝐴 “a posteriori”. Para ilustrar, suponha que o espaço amostral Ω seja a população adulta
(maiores de 18 anos) da cidade de Uruaçu a qual completou os requerimentos para o nível
universitário. Um Levantamento de acordo com o gênero e status empregatício foi realizado e
os dados estão na Tabela 2.1.
Tabela 2.1 Categorização de uma amostra de adultos em Uruaçu

Empregados Desempregados Total
Homem 460 40 500
Mulher 140 260 400
Total 600 300 900
Dados fictícios
Um desses indivíduos é selecionado aleatoriamente para uma turnê pelo Norte Goiano
para divulgar as vantagens de novos cursos universitários serem trazidos para o Campus do IFG
na cidade de Uruaçu. Estabeleça os eventos:
𝐻 = {um homem é escolhido}
𝑀 = {uma mulher é escolhida}
assim,
𝑛(𝐻) 500 5 𝑛(𝑀) 400 4
𝑃(𝐻) = = = ≅ 0,556 e 𝑃(𝑀) = = = ≅ 0,444
𝑛(Ω) 900 9 𝑛(Ω) 900 9
Agora seja o evento 𝐸 = {o escolhido está empregado}. Se soubermos a priori que o

escolhido está empregado (o evento 𝐸 ocorreu) qual a probabilidade dele ser homem? E dele
ser mulher? Note que a informação da ocorrência do evento 𝐸 interfere na probabilidade do
escolhido ser homem ou mulher, isto ocorre porque há uma diminuição do espaço amostral, isto
é, sabendo que o evento 𝐸 ocorreu descartamos as informações sobre os Desempregados. Nosso
novo espaço amostral é Ω∗ = {todos os empregados}. Agora temos
𝑛(𝐻) 460 23 𝑛(𝑀) 140 7
𝑃(𝐻 ⁄𝐸 ) = ∗
= = ≅ 0,767 e 𝑃(𝑀 ⁄𝐸 ) = ∗
= = ≅ 0,233
𝑛(Ω ) 600 30 𝑛(Ω ) 600 30
Este exemplo ilustra que eventos podem ter diferentes probabilidades quando
considerados em relação a diferentes espaços amostrais. Esse conceito de probabilidade
condicional é dado na definição 2.5
Definição 2.5 A probabilidade condicional de 𝑨 dado 𝑩, denotada por 𝒑(𝑨|𝑩) é definida por

Probabilidades 85
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴|𝐵) = (2.8)
𝑃(𝐵)
esta definição só faz sentido se 𝑃(𝐵) > 0.Considerando a igualdade (2.6) encontramos outra
estrutura para a igualdade (2.8), a saber,
𝑛(𝐴 ∩ 𝐵)
𝑃(𝐴|𝐵) = (2.9)
𝑛(𝐵)
sugiro o leitor fazer essa transformação. Um fato curioso ocorre quando trabalhamos com
probabilidades condicionais envolvendo complementares. Devemos imaginar que se o evento
𝐴 está condicionado à ocorrência do evento 𝐵, então seu complementar também esteja. Sim,
isso ocorre de fato. Se considerarmos o fato que 𝑃(𝐴) + 𝑃(𝐴′ ) = 1 temos imediatamente que
𝑃(𝐴|𝐵 ) + 𝑃(𝐴′ |𝐵) = 1 o que significa que 𝑃(𝐴′ |𝐵) = 1 − 𝑃(𝐴|𝐵). Saliento que a
condicionalidade não altera os resultados anteriores já estudados.
Exemplo 2.9 A probabilidade de que um vôo regular marcado parta na hora é 𝑷(𝑫) = 𝟎, 𝟖𝟑; a
probabilidade de que chegue na hora marcada é de 𝑷(𝑨) = 𝟎, 𝟖𝟐; e a probabilidade de que o
vôo parta e chegue na hora é de 𝑷(𝑫 ∩ 𝑨) = 𝟎, 𝟕𝟖. Determine a probabilidade de que
a) O avião chegue na hora, sabendo que ele partiu na hora marcada;
b) O avião tenha partido na hora marcada, dado que chegou na hora.
Solução: Tanto o item (a) quanto o item (b) pedem probabilidades condicionadas. Assim,
usando a definição 2.5 temos
𝑃(𝐴∩𝐷) 0,78
a) 𝑃(𝐴|𝐷) = = 0,83 ≅ 0,94
𝑃(𝐷)
𝑃(𝐴∩𝐷) 0,78
b) 𝑃(𝐷|𝐴) = = 0,82 ≅ 0,95
𝑃(𝐴)
Baseado na equação dada na Definição 2.5 se pode enunciar o chamado Teorema do

Produto como segue
Teorema 2.8 (Teorema do Produto) Sejam 𝑨 e 𝑩 eventos do mesmo espaço amostral, então
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵|𝐴) ou 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵) ⋅ 𝑃(𝐴|𝐵) (2.10)
O teorema do produto no ensina a obter a probabilidade da intersecção de dois eventos.

Note que as igualdades apresentadas fazem uso de probabilidades que certamente devem ser

conhecidas. O valor de 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵|𝐴) somente poderá ser obtido se for os valores
das probabilidade 𝑃(𝐴) e 𝑃(𝐵|𝐴) conhecidos ou se de alguma forma puderem ser calculados.
Exemplo 2.10 Suponha que temos uma caixa com 20 fusíveis, dentre os quais 5 apresentam
defeito. Se 2 fusíveis são selecionados aleatoriamente e removidos da caixa, sucessivamente,
sem reposição do primeiro, qual a probabilidade de que ambos apresentem defeito?
Solução: Temos aqui duas circunstâncias que nomearemos como eventos: 𝐴 =
{o primeiro fusível tenha defeito} e 𝐵 = {o segundo fusível tenha defeito}. Claramente de
pede 𝑃(𝐴 ∩ 𝐵) pois se quer os dois com defeito: o primeiro “e” o segundo. Usando o Teorema
2.8 temos 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵|𝐴).
5 1
Como 𝑃(𝐴) = 20 = 4 (por quê?) e, a probabilidade do segundo ser defeituoso é condicionada
4
à primeira probabilidade, temos, 𝑃(𝐵|𝐴) = 19 (por quê?). Logo𝑃(𝐴 ∩ 𝐵) = (1/4) ∙ (4/19) ou
seja 𝑃(𝐴 ∩ 𝐵) ≅ 0,053.

■
Imagine dois eventos onde a informação de ocorrência de um afeta diretamente a

probabilidade de ocorrência do outro. Essa ideia expressa o que chamamos independência entre
eventos. Quando falamos em eventos independentes é imediato o leitor menos experiente
imaginar que eventos independentes são aqueles em que um não afeta a ocorrência do outro.
Na prática não é bem assim que funciona. A definição 2.6 esclarece melhor esse conceito.
Definição 2.6 (Eventos Independentes) Dois eventos 𝑨 e 𝑩 de um mesmo espaço amostral são
ditos eventos independentes se
𝑃(𝐴|𝐵) = 𝑃(𝐴) ou 𝑃(𝐵|𝐴) = 𝑃(𝐵) (2.11)
A Definição 2.6 diz que dois eventos 𝐴 e 𝐵 serão independentes se a probabilidade de 𝐴

não for afetada pelo conhecimento a priori da ocorrência e 𝐵, e vice-versa. Uma forma
alternativa de se saber sobre a independência entre os eventos 𝐴 e 𝐵 de um mesmo espaço
amostral é verificar se a igualdade (2.12) é verdadeira.
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵) (2.12)
e mais, a igualdade (2.12) é simétrica em 𝐴 e 𝐵, isto é, quando 𝐴 for independente de 𝐵, então

𝐵 será também independente de 𝐴.

Probabilidades 87
Exemplo 2.11 Uma maratona é disputa com prêmios apenas para os três primeiros colocados.
Segundo o regulamento podem participar homens e mulheres acima de 18 anos. Estabeleça os
eventos
𝐴 = {Dentre os 3 primeiros colocados haja pelo menos dois homens} e
𝐵 = {Dentre os 3 primeiros colocados haja pelo menos um de cada sexo}
Os eventos A e B são independentes?
Solução: Indicando por 𝐻 o maratonista homem e por 𝑀 o maratonista mulher, temos
Ω = {(𝐻𝐻𝐻), (𝐻𝐻𝑀), (𝐻𝑀𝐻), (𝑀𝐻𝐻), (𝑀𝑀𝑀), (𝑀𝑀𝐻), (𝑀𝐻𝑀), (𝐻𝑀𝑀)}
assim, 𝑛(Ω) = 8. Analisando o espaço amostral temos
𝑛(𝐴) 4 1 𝑛(𝐵) 6 3
𝑃(𝐴) = = = e 𝑃(𝐵) = = =
𝑛(Ω) 8 2 𝑛(Ω) 8 4
para que os eventos 𝐴 e 𝐵 sejam independentes deve-ser ter 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ∙ 𝑃(𝐵), como
(𝐴 ∩ 𝐵) = {(𝐻𝐻𝑀), (𝐻𝑀𝐻), (𝑀𝐻𝐻)} tem-se
𝑛(𝐴 ∩ 𝐵) 3
𝑃(𝐴 ∩ 𝐵) = =
𝑛(Ω) 8
como 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ∙ 𝑃(𝐵) (verifique!) os eventos 𝐴 e 𝐵 são independentes.
■
Os próximos resultados são de grande utilidade no trato de problemas envolvendo

probabilidade condicional.
2.4. Teorema de Bayes
O cálculo de uma probabilidade a posteriori 𝑃(𝐴𝑖 |𝐵) a partir de probabilidades anteriores

dadas 𝑃(𝐴𝑖 ) e das probabilidadescondicionais 𝑃(𝐵|𝐴𝑖 ) ocupa uma posição central em teoria
elementar de probabilidade. A regra geral desses cálculos, que na verdade é uma aplicação
simples da regra de multiplicação, remete ao reverendo Thomas Bayes, que viveu no século
XVIII e está sintetizada no Teorema 2.8. Para expressá-la, precisamos de um comentário sobre
alguns resultados básicos. Vejamos
Definição 2.7 Uma partição do espaço amostral 𝜴 é uma coleção de eventos 𝑨𝟏 , 𝑨𝟐 , ⋯ , 𝑨𝒏

em 𝜴 tais que
𝐴1 ∪ 𝐴2 ∪ ⋯ ∪ 𝐴𝑛 = Ω 𝑐𝑜𝑚 𝐴𝑖 ∩ 𝐴𝑗 = ∅ 𝑝𝑎𝑟𝑎 𝑖 ≠ 𝑗

Sejam 𝐵 um evento qualquer e, 𝐴1 , 𝐴2 , ⋯ , 𝐴𝑛 uma partição de Ω. Nosso interesse é

descobrir a probabilidade de ocorrência do evento 𝐵 quando se conheçam, a priori, todas as
probabilidades 𝑃(𝐴𝑖 ) e 𝑃(𝐵|𝐴𝑖 ). Esquematicamente temos
Ω
𝐴5
𝐴1
𝐴3
𝐴𝑖
𝐴4
𝐴2 𝐵
⋯
Figura 2.2
Para compreendermos melhor, analisemos o seguinte exemplo: Uma empresa de seguros

de autos estipula o valor dos seguros segundo vários critérios, um deles é a faixa etária e o sexo.
Segundo estimativas, uma pessoa do sexo masculino com idade entre 20 e 29 anos tem
probabilidade 0,23 de se envolver num acidente num período de 12 meses, enquanto uma
pessoa do sexo feminino, com mesma idade, a chance é de 0,17. Para pessoas do sexo feminino
com idade entre 30 e 39 anos a chance é de 0,11, que é 21,5% menor que uma pessoa do sexo
masculino de mesma idade. A população de clientes desta empresa é formada por 38% de
pessoas do sexo feminino com idade entre 20 e 29 anos, 24% de homens de mesma idade, 16%
de mulheres com idade entre 30 e 39 anos e 22% de homens de mesma idade. Nesse contexto,
qual a chance de um cliente aleatoriamente desta empresa se envolver em um acidente dentro
dos próximos 12 meses? Note que a chance do cliente de envolver num acidente está
relacionado com a idade e sexo. Como, então, estimar essa probabilidade? A resposta a esta
indagação se dá pelo
Teorema 2.9 (Teorema da probabilidade total) Sejam 𝑨𝟏 , 𝑨𝟐 , ⋯ , 𝑨𝒏 uma partição do espaço

amostral 𝛀 e 𝑩 é um evento qualquer em 𝛀. Se forem conhecidas as probabilidades 𝑷(𝑨𝒊 ) e
𝑷(𝑩|𝑨𝒊 ), com 𝒊 = 𝟏, 𝟐, ⋯ , 𝒏, então
𝑛 𝑛
𝑃(𝐵) = ∑ 𝑃(𝐴𝑖 ∩ 𝐵) = ∑ 𝑃(𝐴𝑖 ) ⋅ 𝑃(𝐵|𝐴𝑖 ) (2.13)

𝑖=1 𝑖=1
Exemplo 2.12 Para o problema exposto no texto, defina os eventos:

𝑀20 =clientes do sexo masculino com idade entre 20 e 29 anos,
Probabilidades 89
𝐹20 = clientes do sexo feminino com idade entre 20 e 29 anos,

𝑀30 = clientes do sexo masculino com idade entre 30 e 39 anos,
𝐹30 = clientes com do sexo feminino com idade entre 30 e 39 anos, e
𝐵 = cliente se envolveu num acidente nos últimos 12 meses.
Segundo as informações dadas temos:
𝑃(𝑀20 ) = 0,24, 𝑃(𝐹20 ) = 0,38, 𝑃(𝐹30 ) = 0,16 e 𝑃(𝑀30 ) = 0,2. Também tiramos
𝑃(𝐵/𝑀20 ) = 0,23, 𝑃(𝐵/𝐹20 ) = 0,17, 𝑃(𝐵/𝐹30 ) = 0,11 e 𝑃(𝐵/𝑀30 ) = 0,14 (por que?).
Como um acidente pode ocorrer com qualquer um desses grupos temos pelo Teorema 2.9,
𝑃(𝐵) = 𝑃(𝐵 ∩ 𝑀20 ) + 𝑃(𝐵 ∩ 𝐹20 ) + 𝑃(𝐵 ∩ 𝑀30 ) + 𝑃(𝐵 ∩ 𝐹30 ).
𝑃(𝐵) = 𝑃(𝑀20 )𝑃(𝐵/𝑀20 ) + 𝑃(𝐹20 )𝑃(𝐵/𝐹20 ) + 𝑃(𝑀30 )𝑃(𝐵/𝑀30 ) + 𝑃(𝐹30 )𝑃(𝐵/𝐹30 )
𝑃(𝐵) = 0,24 ⋅ 0,23 + 0,38 ⋅ 0,17 + 0,22 ⋅ 0,14 + 0,16 ⋅ 0,11
𝑃(𝐵) = 0,1682
Ou seja, a probabilidade de um cliente se envolver num acidente nos próximos 12 meses é de
16, 82%.
■
Exemplo 2.13 Em certa linha de produção, três máquinas 𝑴𝟏 , 𝑴𝟐 e 𝑴𝟑 produzem 30%, 45% e
25% dos produtos, respectivamente. Sabe-se, de experiências anteriores, que 2%, 3% e 2% dos
produtos feitos por cada máquina são, respectivamente, defeituosos. Agora, suponha que um
produto, já acabado, seja selecionado aleatoriamente. Qual é a probabilidade de que tal produto
apresente algum defeito?
Solução: Pela leitura do enunciado, estabelecemos os eventos:
𝑀1 = {o produto é feito pela máquina 1} ⟶ 𝑃(𝑀1 ) = 0,30 𝑒 𝑃(𝐷 ⁄𝑀1 ) = 0,02
𝐷 = {o produto tem defeito}
Aplicando o teorema 2.7 temos
𝑃(𝐷) = 𝑃(𝐷 ∩ 𝑀1 ) + 𝑃(𝐷 ∩ 𝑀2 ) + 𝑃(𝐷 ∩ 𝑀3 )
= 𝑃(𝑀1 ) ∙ 𝑃(𝐷⁄𝑀1 ) + 𝑃(𝑀2 ) ∙ 𝑃(𝐷⁄𝑀2 ) + 𝑃(𝑀3 ) ∙ 𝑃(𝐷⁄𝑀3 )
= 0,30 ∙ 0,02 + 0,45 ∙ 0,03 + 0,25 ∙ 0,02
= 0,0245
Portanto, a probabilidade de que tal produto apresente algum defeito é 𝑃(𝐷) = 0,0245
■

O teorema da probabilidade total nos fornece um método de calcular a probabilidade de

ocorrência do evento 𝐵 mediante o conhecimento prévio de ocorrência de cada evento
individual 𝐴1 , 𝐴2 , ⋯ , 𝐴𝑛 de uma partição do espaço amostral Ω e das probabilidades
condicionais de ocorrência do evento 𝐵 dado a ocorrência dos eventos da partição, ou seja,
𝑃(𝐵|𝐴𝑖 ), com i = 1, 2, ⋯ , n, em outras palavras, o Teorema 2.9 fornece técnicas de calcular a
probabilidade de ocorrência do evento 𝐵 dadas algumas condições. Na grande maioria dos
problemas práticos o que se deseja obter é a probabilidade de ocorrência de algum evento da
partição mediante o conhecimento de que um determinado evento 𝐵 tenha ocorrido. Como
exemplo, digamos que um determinado laboratório esteja testando um novo reagente para
detectar mais rapidamente se um indivíduo está com o vírus SARS-CoV-2 (o vírus que causa a
COVID-19). Os testes iniciais indicam que em 99% dos casos, o reagente detectou o vírus muito
rapidamente quando a pessoa realmente estava contaminada, e, em 0,5% dos casos, o reagente
detectou o vírus sem que o indivíduo tivesse com o vírus da COVID-19. Os testes foram
realizados numa população em que 15% dos indivíduos possivelmente teve contato com o vírus.
Se um indivíduo for selecionado aleatoriamente, e o reagente é aplicado produzindo resultado
positivo, qual a chance desse indivíduo não estar com o vírus? Problemas dessa natureza podem
ser resolvidos mediante a aplicação da probabilidade condicional. O Teorema 2.10 fornece
métodos para resume esses métodos.
Teorema 2.10 (Teorema de Bayes) Sejam 𝑨𝟏 , 𝑨𝟐 , ⋯ , 𝑨𝒏 uma partição do espaço amostral 𝛀

e 𝑩 é um evento qualquer em 𝛀. Se forem conhecidas as probabilidades 𝑷(𝑨𝒊 ) e 𝑷(𝑩|𝑨𝒊 ), com
𝒊 = 𝟏, 𝟐, ⋯ , 𝒏, então a ocorrência do evento 𝑨𝒊 , supondo-se conhecida a ocorrência do evento
𝑩, é dada por
𝑃(𝐴𝑖 ∩ 𝐵)
𝑃(𝐴𝑖 |𝐵) = (2.14)
𝑃(𝐵)
com 𝑖 = 1, 2, ⋯ , 𝑛 e 𝑃(𝐵) = ∑𝑛𝑖=1 𝑃(𝐴𝑖 ∩ 𝐵).
O teorema de Bayes permite determinar as probabilidades dos vários eventos 𝐴1 ,

𝐴2 , ⋯ , 𝐴𝑛 que podem ser a causa da ocorrência do evento 𝐵. A transcrição dos resultados a
serem usados na segunda expressão em (2.14) baseia-se na aplicação da regra da multiplicação
no numerador e da lei da probabilidade total no denominador. A proliferação de eventos e
índices na expressão (2.14) pode intimidar usuários com pouca experiência em probabilidade.

Probabilidades 91
Dessa forma, desde que haja relativamente poucos eventos na partição, pode-se usar um gráfico
de árvore para analisar e obter o resultado desejado.
Exemplo 2.14 Para o problema do reagente, exposto no texto, defina os eventos:

𝑇 =o teste produziu resultado positivo,
𝐺 =a pessoa está com o vírus da COVID-19. Dessa forma temos, segundo o texto, as seguintes
probabilidades: 𝑃(𝑇|𝐺 ) = 0,99, 𝑃(𝑇|𝐺′) = 0,005, 𝑃(𝐺) = 0,15 e 𝑃(𝐺 ′ ) = 0,85.
Se o indivíduo selecionado teve resultado positivo quando o teste foi aplicado, então, o evento
𝑇 ocorreu. Diante dessa ocorrência a chance desse indivíduo não estar com o vírus é
𝑃(𝐺 ′ ∩ 𝑇) 𝑃(𝐺 ′ )𝑃(𝑇|𝐺′) 0,85 ⋅ 0,005
𝑃(𝐺 ′ |𝑇) = = ′
= = 0,0278
𝑃(𝑇) 𝑃(𝐺 )𝑃(𝑇|𝐺′) + 𝑃(𝐺)𝑃(𝑇|𝐺) 0,85 ⋅ 0,005 + 0,15 ⋅ 0,99
Com isso, a probabilidade desse indivíduo não estar com o vírus é de 2,78%. Isto significa que
se o teste produz um resultado positivo, a chance de o resultada estar errado é de apenas 2,78%.
Muito pequena a chance do teste falhar.
■
Exemplo 2.15 Para selecionar seus funcionários, uma empresa oferece aos candidatos um curso
de treinamento durante uma semana. No final do curso, eles são submetidos a uma prova e 25%
são classificados com bons, 50% como médios e os restantes como fracos. Para facilitar a
seleção, a empresa pretende substituir o treinamento por um teste contendo questões referentes
a conhecimentos gerais e específicos. Para isso, gostaria de conhecer qual a probabilidade de
um indivíduo aprovado no teste ser considerado fraco, caso fizesse o curso. Assim, neste ano,
antes do início do curso, os candidatos foram submetidos ao teste e receberam o conceito
aprovado ou reprovado. No final do curso, obtiveram-se as seguintes probabilidades
condicionadas:
𝑃(𝐴|𝐵) = 0,80 𝑃(𝐴|𝑀) = 0,50 𝑃(𝐴|𝐹) = 0,20
Determine a probabilidade do candidato aprovado no teste ser considerado fraco, caso fizesse
o curso.
Solução: Enunciado longo deve ser lido com cautela. Vamos estabelecer os eventos:
𝐵 = {candidato bom pelo curso} ⟶ 𝑃(𝐵) = 0,25
𝑀 = {candidato médio pelo curso} ⟶ 𝑃(𝑀) = 0,50
𝐹 = {candidato fraco pelo curso} ⟶ 𝑃(𝐹) = 0,25
𝐴 = {Aprovado no teste}
Devemos encontrar 𝑃(𝐹 ⁄𝐴). Usando o teorema 2.8 (de Bayes):
𝑃(𝐹 ∩ 𝐴)
𝑃(𝐹|𝐴) = Para achar 𝑃(𝐴) use o Teorema 2.9
𝑃(𝐴)
𝑃(𝐹) ∙ 𝑃(𝐴|𝐹)
=
𝑃(𝐹) ∙ 𝑃(𝐴|𝐹) + 𝑃(𝑀) ∙ 𝑃(𝐴|𝑀) + 𝑃(𝐵) ∙ 𝑃(𝐴|𝐵)
0,25 ∙ 0,20
=
0,25 ∙ 0,20 + 0,50 ∙ 0,50 + 0,25 ∙ 0,80
= 0,10
Portanto, apenas 10% dos aprovados no teste seriam considerados fracos durante o curso.
■
Exemplo 2.16 Incidência de doença rara. Apenas 1 em 1000 adultos é acometido por uma
doença rara para a qual foi desenvolvido um teste de diagnóstico. O teste funciona de tal forma
que, se o indivíduo tiver a doença, o resultado do teste será positivo em 99% das vezes e, se não
a tiver, será positivo em apenas 2% das vezes. Se um indivíduo selecionado aleatoriamente for
testado e o resultado for positivo, qual é a probabilidade de ele ter a doença?
Solução: Para usar o teorema de Bayes, considere por A1={indivíduo tem a doença},
A2={indivíduo não tem a doença} e B={resultado do teste positivo}. Então, P(A1)=0,001,
P(A2)= 0,999, P(B/A1)=0,99, e P(B/A2)=0,02. O diagrama de árvore deste problema está na
figura seguinte
Próximo a cada ramo correspondente a um resultado positivo, a regra de multiplicação indica

as probabilidades registradas. Portanto, 𝑃(𝐵) = 0,00099 + 0,01998 = 0,02097pelo qual
obtemos
𝑃(𝐴1 ∩ 𝐵) 0,00099
𝑃(𝐴1 ⁄𝐵 ) = = = 0,047
𝑃(𝐵) 0,02097

Probabilidades 93
o resultado parece ir de encontro à intuição. O resultado do teste parece tão preciso que
esperamos que alguém com um resultado positivo tenha alta probabilidade de ter a doença,
enquanto a probabilidade condicional calculada é de apenas 0,047. Entretanto, como a doença
é rara e o teste é moderadamente confiável, a maior parte dos resultados positivos dos testes
provém de erros e não de indivíduos doentes. A probabilidade de ter a doença foi aumentada
por um fator multiplicativo 47 (da probabilidade anterior 0,001 para a posterior 0,047); mas,
para se obter maior aumento na probabilidade posterior, é necessário um teste de diagnóstico
com menores taxas de erros. Se a doença não fosse tão rara (por exemplo, 25% de incidência
na população), as taxas de erros do presente teste forneceriam um bom diagnóstico.
■
1. Uma fábrica de parafusos, as máquinas A, B e C produzem 25%, 35% e 40% do total,

respectivamente. Da produção de cada máquina 5%, 4% e 2%, respectivamente, são
parafusos defeituosos. Escolhe um parafuso ao acaso e verifica-se que ele é defeituoso. Qual
a probabilidade de que venha da máquina A, da B e da C? R. 0,36; 0,41; 0,23
2. Apenas uma em cada dez pessoas de uma população tem tuberculose. Das pessoas que têm
tuberculose 80% reagem positivamente ao teste Y, enquanto apenas 30% dos que não têm
tuberculose reagem positivamente. Uma pessoa da população é selecionada ao acaso e o
teste Y é aplicado. Qual a probabilidade de que essa pessoa tenha tuberculose, se reagiu
positivamente ao teste? R. 8/35
3. Dado que 𝑃(𝐴) = 1/2, 𝑃(𝐵) = 1/3 e que 𝑃(𝐴 ∩ 𝐵) = 1/4, calcular:
a) 𝑃(𝐴 ∪ 𝐵) R. 7/12
b) 𝑃(𝐴⁄𝐵 ) R. 3/4
c) 𝑃(𝐵⁄𝐴) R. 1/2
d) 𝑃[(𝐴 ∪ 𝐵)⁄𝐵 ] R. 1
4. Uma companhia produz circuitos em três fábricas, I, II e III. A fábrica I produz 40% dos
circuitos, enquanto a II e a III produzem 30% cada uma. As probabilidades de que um
circuito integrado produzido por essas fábricas não funcione são 0,01, 0,04 e 0,03,
respectivamente. Escolhido um circuito da produção conjunta das três fábricas, qual a
probabilidade de o mesmo não funcionar? R. 0,025
5. Admita a seguinte configuração

Urnas 𝑢1 𝑢2 𝑢3
Cores
Pretas 3 4 2
Brancas 1 3 3
Vermelhas 5 2 3
Escolheu-se uma urna ao acaso e dela extraiu-se uma bola ao acaso, verificando-se que a
bola é branca. Qual a probabilidade da bola ter vindo da urna 2? da 3? R. 24/59 e 8/59
6. Considere a situação do problema anterior, mas suponha agora que um circuito escolhido ao
acaso seja defeituoso. Determine qual a probabilidade de ele ter sido fabricado pela fábrica
I. R. 0,16
7. A poluição dos rios no estado de São Paulo é um problema há anos. Considere os seguintes
eventos:
𝐴 = {O rio é poluído}
𝐵 = {Uma amostra de água testada detecta poluição}
𝐶 = {A pesca é permitida}
Assuma que 𝑃(𝐴) = 0,30, 𝑃(𝐵⁄𝐴) = 0,75, 𝑃(𝐵⁄𝐴′ ) = 0,20, 𝑃(𝐶 ⁄𝐴 ∩ 𝐵) = 0,20,
𝑃(𝐶 ⁄𝐴′ ∩ 𝐵) = 0,15, 𝑃(𝐶 ⁄𝐴 ∩ 𝐵 ′ ) = 0,80 e 𝑃(𝐶 ⁄𝐴′ ∩ 𝐵 ′ ) = 0,90. Determine:
a) 𝑃(𝐴 ∩ 𝐵 ∩ 𝐶) R. 0,045
b) 𝑃(𝐵 ′ ∩ 𝐶) R. 0,564
c) 𝑃(𝐶) R. 0,630
d) A probabilidade de o rio ser poluído, dado que a pesca é permitida e a amostra testada
não detectou poluição R. 0,1064
8. Uma indústria emprega três planos analíticos para criar e desenvolver seus produtos. Devido
aos custos, os três planos são usados em momentos variados. Na verdade, os planos 1, 2 e 3
são usados para 30%, 20% e 50% dos produtos, respectivamente. O índice de defeitos é
deferente para os três procedimentos: 𝑃(𝐷⁄𝑃𝐼 ) = 0,01, 𝑃(𝐷⁄𝑃𝐼𝐼 ) = 0,03 e 𝑃(𝐷⁄𝑃𝐼𝐼𝐼 ) =
0,02, onde 𝑃(𝐷⁄𝑃𝑗 ) é a probabilidade de um produto apresentar defeitos, dado o plano 𝑗. Se
selecionarmos um produto aleatoriamente e observarmos que ele apresenta defeitos, qual foi
provavelmente o plano usado, e, em consequência, responsável pelo defeito? R. Plano III
9. Um sistema elétrico consiste em quatro componentes, conforme ilustrado na figura abaixo.

Probabilidades 95
O sistema funciona se os componentes A e B funcionarem e se um dos componentes C ou

D funcionar. A confiabilidade (probabilidade de trabalho) de cada componente também é
mostrada na figura. Suponha que os quatro componentes funcionem de forma independente,
encontre a probabilidade de que:
(a) todo o sistema funciona, e,
(b) o componente C não funciona, dado que todo o sistema funciona.
10. Considere os circuitos mostradas abaixo. Suponha que nestes circuitos os componentes
funcionem de forma independente.
Figura A Figura B
a) Qual é a probabilidade de todo o sistema funcionar na Figura A.

b) Na Figura B, determine os itens que segue:
i) Qual é a probabilidade de todo o sistema funcionar?
ii) Dado que o sistema funciona, qual é a probabilidade de que o componente A não
esteja funcionando?
11. Hoje em dia é muito comum institutos de meteorologia predizerem os eventos climáticos
com até um mês de antecedência. Por experiência, um instituto especializado em
meteorologia constatou que acerta suas previsões 90% dos dias em que chove e 95% dos
dias em que não há chuva. É sabido que determinada época do ano chove 10% dos dias. Na
previsão feita por este instituto em dado dia, qual a probabilidade de haver chuva?

12. A administração de um fundo de investimentos em ações pretende divulgar, após o

encerramento do pregão, a probabilidade de queda de um índice da bolsa no dia seguinte,
baseando-se nas informações disponíveis até aquele momento. Suponha que a previsão
inicial seja de 0,10. Após encerrado o pregão, nova informação sugere uma alta do dólar
frente ao real. A experiência passada indica que, quando houve queda da bolsa no dia
seguinte, 20% das vezes foram precedidas por esse tipo de notícia, enquanto, nos dias em
que a bolsa esteve em alta, apenas 5% das vezes houve esse tipo de notícia no dia anterior.
Como essa nova informação afeta a probabilidade de queda da bolsa? Estime a probabilidade
de queda da bolsa devido a essa nova informação. R. Essa informação da alta do dólar causa um
aumento na probabilidade de que haja queda da bolsa de 10% para 31%.
13. Ainda sobre o problema anterior. Suponha, agora, que horas depois surja nova informação
relevante: O banco central irá reduzir a taxa de juros vigente partir do dia seguinte.
Novamente, informações passadas mostram que, dado que tenha havido alta do dólar e queda
da bolsa 10% das vezes foram precedidas por notícias de queda de juros, enquanto, dado que
tenha havido alta do dólar e alta da bolsa, 60% das vezes foram precedidas de queda de juros.
Como essa nova informação afetará a probabilidade calculada no exercício anterior? R. Essa
nova informação de queda da taxa de juros causa um decréscimo na probabilidade de queda da bolsa de 31%
para 7%, que é ainda menor do que a probabilidade inicial de 10%.

3. Variáveis Aleatórias
No capítulo anterior introduzimos alguns modelos probabilísticos por meio de espaço
amostrais bem simples o que facilitou bastante a compreensão do conceito da probabilidade e
a obtenção de algumas propriedades. Mas, para atender a situações práticas mais gerais,
necessitamos ampliar esses conceitos para termos modelos probabilísticos mais representativos
aos tipos de variáveis (qualitativas e quantitativas) definidas no capítulo 1. Muito do que foi
apresentado para tratamento descritivo das variáveis, em tal capítulo, terá o seu correspondente
no modelo teórico que buscaremos melhor compreender. A estatística está interessada em fazer
inferências sobre populações e suas características. Os experimentos são conduzidos com
resultados que estão sujeitos ao acaso, como por exemplo, testar a durabilidade de lâmpadas
em LED. Naturalmente uma lâmpada pode durar 3.000 horas, ou 10.000 horas, 25.000 horas
ou até mais que isso, não sendo possível associar um valor pontual aos possíveis resultados.
Então, neste caso, o espaço amostral dos possíveis resultados associados à duração de uma
lâmpada em LED pode ser escrito como:
𝑆 = {𝑡 ∶ 𝑡 > 0} (3.1)
onde 𝑡 indica o tempo de duração, em horas. Ele indica que uma determina lâmpada pode durar
qualquer valor real positivo, medido em horas. O pesquisador, neste caso, tem interesse em
saber qual o intervalo (𝑡𝑚í𝑛 , 𝑡𝑚á𝑥 ) que conterá 90% das lâmpadas produzidas, sendo este
resultado confiável em 95% dos testes. Para obter esta resposta é necessário estudo de modelos
probabilísticos que descrevam o mais fidedignamente possível o comportamento da duração
dessas lâmpadas. A obtenção de tais modelos necessita de artifícios matemáticos baseados no
comportamento pontual da variável em estudo (variável discreta) e/ou da generalização do
conceito de histograma (variável contínua). O conhecimento de modelos probabilísticos para
variáveis quantitativas é muito importante e grande parte do restante destas notas será dedicado
ao estudo de alguns desses modelos bem como fazer inferência sobre seus parâmetros. Essas
variáveis, para as quais iremos construir modelos probabilísticos, serão chamadas de variáveis
aleatórias (v.a). Para as variáveis qualitativas a descrição da probabilidade associada será
objeto de estudo no capítulo 8, quando estudaremos a Análise Conjunta de Variáveis.
Inicialmente buscaremos modelos probabilísticos para descrever variáveis aleatórias discretas
e contínuas. Neste sentido diremos que uma variável aleatória é uma função que associa um

número real a cada elemento do espaço amostral, isto se dá por que frequentemente, quando
um experimento é realizado, estamos interessados principalmente em alguma função do
resultado em oposição ao próprio resultado real. Por exemplo, ao lançar dados, muitas vezes
estamos interessados na soma dos dois dados e não estamos realmente preocupados com os
valores separados de cada dado. Ou seja, podemos estar interessados em saber que a soma é 7
e não se preocupar se o resultado real foi (1, 6), (2, 5), (3, 4), (4, 3), ( 5, 2) ou (6, 1). Além disso,
ao jogar uma moeda, podemos estar interessados no número total de caras que ocorrem e não
nos importarmos com a sequência de cara-coroa que resulta. Essas quantidades de interesse, ou,
mais formalmente, essas funções de valor real definidas no espaço amostral são, como
chamamos acima, variáveis aleatórias. Como o valor de uma variável aleatória é determinado
pelo resultado do experimento, podemos atribuir probabilidades aos possíveis valores da
variável aleatória2.A definição 3.1 melhor elucida este conceito.
Definição 3.1 Uma Variável Aleatória 𝑿 em um espaço de probabilidade (𝛀, 𝓕, 𝑷) é uma

função que associa a cada elemento 𝑨 ∈ 𝛀 um número real 𝒙 = 𝑿(𝑨).
A Figura 3.1 seguinte ilustra melhor essa ideia
𝐴 X 𝑋(𝐴)
Ω ℝ
Figura 3.1
Observações Importantes:
1. Observe que, apesar da infelicidade da terminologia “Variável Aleatória”, 𝑋 é uma
função cujo domínio é Ω e o contra domínio é ℝ, em outras palavras, o valor 𝑥 que é
imagem da variável aleatória 𝑋 representa um número associado a algum subconjunto
𝐴 ∈ ℱ(Ω) ( subconjunto das partes de Ω).
2
Uma forma alternativa de retratar esse assunto é considerar uma variável aleatória X em um espaço de
probabilidade (Ω, ℱ, P) como uma função de imagens reais definida em Ω, tal que {X ≤ x} = {A ∈ Ω ∶ X(A) ≤ x}
para todo x ∈ R.

Variáveis Aleatórias 99
2. Nas aplicações, é conveniente trabalhar com números e não com eventos, daí, o uso
da variável aleatória. Assim, se Ω for numérico é conveniente que 𝑋(𝑥) = 𝑥
Exemplo 3.1 Ao término do ano letivo os professores encerram as notas dos alunos. Neste caso,
o espaço amostral é formado por todos os alunos que foram até o final do curso. Selecionado
um aluno ao acaso existem duas opções ou este aluno foi aprovado ou ele foi reprovado. Se
deixarmos 𝑿 denotara situação de um aluno arbitrariamente escolhido, podemos estabelecer
que
1, 𝑠𝑒 𝑥 = 𝑜 𝑎𝑙𝑢𝑛𝑜 𝑓𝑜𝑖 𝑎𝑝𝑟𝑜𝑣𝑎𝑑𝑜
𝑋(𝑥) = {
0, 𝑠𝑒 𝑥 = 𝑜 𝑎𝑙𝑢𝑛𝑜 𝑓𝑜𝑖 𝑟𝑒𝑝𝑟𝑜𝑣𝑎𝑑𝑜
Dessa forma, teremos imediatamente que se Luiz foi aprovado, então 𝑋(𝐿𝑢𝑖𝑧) = 1, agora se
Luiz foi retido (reprovado), teremos 𝑋(𝐿𝑢𝑖𝑧) = 0. Portanto, 𝑋 é dita ser uma variável aleatória
(v.a.)cujos possíveis valores resposta são 0 ou 1, isto é, 𝑋 = {0, 1}. Se associarmos uma
probabilidade 𝑝 ao resultado 1 e 𝑞 = 1 − 𝑝 ao resultado 0, podemos descrever as
probabilidades associadas para esta variável aleatória 𝑋, como abaixo
𝑥 1 0
𝑃(𝑋 = 𝑥) 𝑝 1−𝑝
tal tabela é comumente chamada de distribuição de probabilidade.

■
Exemplo 3.2 Uma moeda honesta é lançada três vezes O espaço amostral para este experimento
é 𝛀 = {𝒄𝒄𝒄, 𝒄𝒄𝒌, 𝒄𝒌𝒄, 𝒌𝒄𝒄, 𝒌𝒄𝒌, 𝒌𝒌𝒄, 𝒄𝒌𝒌, 𝒌𝒌𝒌}, sendo 𝒄 = 𝒄𝒂𝒓𝒂 e 𝒌 = 𝒄𝒐𝒓𝒐𝒂. Deixe 𝑿
como uma v.a. que descreva o número de caras. Neste caso, a variável aleatória 𝑿 assume quatro
possíveis resultados, a saber,
0, 𝑠𝑒 𝑥 ∈ {𝑘𝑘𝑘}
1, 𝑠𝑒 𝑥 ∈ {𝑘𝑘𝑐, 𝑘𝑐𝑘, 𝑐𝑘𝑘}
𝑋(𝑥) = {
2, 𝑠𝑒 𝑥 ∈ {𝑘𝑐𝑐, 𝑐𝑘𝑐, 𝑐𝑐𝑘}
3, 𝑠𝑒 𝑥 ∈ {𝑐𝑐𝑐}
ou seja, 𝑋(𝑐𝑐𝑐) = 3, 𝑋(𝑐𝑐𝑘) = 2, 𝑋(𝑘𝑐𝑐) = 1 e 𝑋(𝑘𝑘𝑘) = 0. Logo, a variável aleatória
associada 𝑋 assumirá qualquer um desses quatro possíveis resultados, e, a distribuição de
probabilidade será dada por
𝑥 0 1 2 3
𝑃(𝑋 = 𝑥) 1⁄8 3⁄8 3⁄8 1⁄8
■

Exemplo 3.3 Suponha que a variável aleatória 𝑿 denote o número mínimo de ribetes
semicondutores que precisam ser analisadas para detectar uma falha de condução numa rede
transmisora. Suponha que a probabilidade de um ribite apresentar uma falha seja 0,01 e que os
ribites funcionem de forma independente. Determine a distribuição de probabilidade de 𝑿.
Solução: Suponha que 𝑝 denote um ribite em que uma falha seja perceptível e 𝑎 indica umribite
no qual ela está ausente. O espaço amostral do experimento é infinito e pode ser representado
como todas as sequências possíveis que começam com uma sequência de caracteres iguais a 𝑎
e terminam com 𝑝. Isto é,
Ω = {𝑝, 𝑎𝑝, 𝑎𝑎𝑝, 𝑎𝑎𝑎𝑝, 𝑎𝑎𝑎𝑎𝑝, 𝑎𝑎𝑎𝑎𝑎𝑝, ⋯ }
Assim, a variável 𝑋 assume qualquer valor no conjunto 𝑋 = {1, 2, 3, 4, 5, ⋯ }. O ponto amostral
{𝑝} indica que foi necessário analisar apenas um ribite, tendo probabilidade igual a 𝑃(𝑋 = 1) =
𝑃(𝑝) = 0,01. O ponto amostral {𝑎𝑎𝑝} indica que foram necessários analisar três ribites para
detectar uma falha, cuja probabilidade é, considerando a independência dos ribites, igual a
𝑃(𝑋 = 3) = 𝑃(𝑎𝑎𝑝) = 𝑃(𝑎)𝑃(𝑎)𝑃(𝑝) = 0,99 ⋅ 0,99 ⋅ 0,01 = 0,009801. Assim, uma foma
geral de obter a probabilidade de testar 𝑥 ribites até obter uma falhaserá
𝑃(𝑋 = 𝑥) = 𝑃 (𝑎𝑎𝑎𝑎𝑎𝑎𝑝)
⏟ = (0,99)𝑥−1 ⋅ 0,01
𝑥−1 𝑓𝑎𝑡𝑜𝑟𝑒𝑠 "𝑎"
para 𝑥 = 1, 2, 3, ⋯. Descrever as probabilidades associadas a X nos termos desta fórmula é um

método simples para definir a distribuição de X neste exemplo. Claramente o fato de que a soma
das probabilidades é 1 é deixado como um exercício. O experimento aleatório aqui tem um
número ilimitado de resultados, mas ainda assim pode ser convenientemente modelado com
uma variável aleatória discreta com um intervalo enumerável e infinito.
■
Exemplo 3.4 Estudos recentes mostraram que a probabilidade de um paciente vir a óbito, ao ser
internado na Unidade de Terapia Intensiva – UTI de certo hospital é de 15%. Deixe 𝑿 ser a
variável aleatória indicadora de óbito, se um paciente der entrada no UTI. Dessa forma a v.a. 𝑿
assumirá somente dois valores, {𝟎, 𝟏}, isto é,
1, 𝑠𝑒 𝑥 = 𝑜 𝑝𝑎𝑐𝑖𝑒𝑛𝑡𝑒 𝑛ã𝑜 𝑚𝑜𝑟𝑟𝑒𝑟
𝑋(𝑥) = {
0, 𝑠𝑒 𝑥 = 𝑜 𝑝𝑎𝑐𝑖𝑒𝑛𝑡𝑒 𝑚𝑜𝑟𝑟𝑒𝑟
Dessa forma, se escrevermos 𝑋(𝐶𝑎𝑟𝑙𝑜𝑠) = estamos dizendo que Carlos morreu ao ser
internado na UTI, caso contrário, se Carlos sobreviver depois de ser internado na UTI,

escrevemos 𝑋(𝐶𝑎𝑟𝑙𝑜𝑠) = 1. A distribuição de probabilidade para 𝑋 será𝑃(𝑋 = 0) = 0,15 e

𝑃(𝑋 = 1) = 0,85, usando a tabela para distribuir as probabilidades teremos,
𝑥 0 1
𝑃(𝑋 = 𝑥) 0,15 0,85
Perceba que 𝑃(𝑋 = 0) =probabilidade do paciente vir a óbito e 𝑃(𝑋 = 1) =probabilidade do

paciente sobreviver. Note que associamos a realização do evento ´não morrer´ como sucesso
(1) e o evento ´morrer´ como fracasso (0) quanto a realização associada a variável 𝑋.
Estudaremos com mais detalhes esse tipo de variável no capítulo 4.
■
3.1. Probabilidades para variáveis aleatórias
Variáveis Discretas
Uma análise detalhada na Definição 3.1 mostra que uma variável aleatória 𝑋 pode assumir
valores reais discretos: pontuais finitos ou enumeráveis e/ou valores contínuos: infinitos e não
enumeráveis. Uma variável aleatória que pode assumir no máximo um número contável de
valores possíveis é considerada discreta. No Exemplo 3.3 a v.a. 𝑋 assume valores no conjunto
A = {1, 2, 3, 4, 5, ⋯ }. A representação na reta real para 𝑋 é
𝑋(𝑝) 𝑋(𝑎𝑝) 𝑋(𝑎𝑎𝑝) 𝑋(𝑎𝑎𝑎𝑝) 𝑋(𝑎𝑎𝑎𝑎𝑝) ⋯

−∞ 1 2 3 4 5 +∞
Figura 3.2
Como descrito no exemplo a probabilidade de 𝑋 ser associado a algum valor 𝑥 ∈ ℕ é

𝑃(𝑋 = 𝑥) = 0,01 ⋅ (0,99)𝑥−1 . Esta variável aleatória é discreta por que os valores associados
a ela são infinitos porém enumeráveis. A variável descrita no Exemplo 3.2 é outro exemplo de
variável discreta por que assume valores finitos e enumeráveis. Quando uma variável aleatória
assume valores discretos, cada um com certa probabilidade 0 ≤ 𝑝𝑖 ≤ 1, ela é chamada variável
aleatória discreta, isto é, uma variável aleatória 𝑋, definida no espaço amostral Ω e com valores
num conjunto enumerável de pontos da reta. Como é possível ver nos exemplos 3.1, 3.2 e 3.3
acima, podemos descrever as probabilidade associadas à variável aleatória por meio de uma

função. Para uma variável aleatória discreta 𝑋, definimos a função de massa de probabilidade
𝑝(𝑥) de 𝑋. A Definição 3.2 esclarece melhor esse conceito.
Definição 3.2 A função 𝒑 é dita ser função de distribuição de massa de probabilidade (fmp) da
variável aleatória discreta 𝑿 se para qualquer 𝒙𝒊 = 𝑿(𝑨𝒊 ), sendo 𝑨𝒊 ∈ 𝓕(𝛀),tivermos
𝒑(𝒙𝒊 ) = 𝑷(𝑿 = 𝒙𝒊 ) satisfazendo aos critérios
ℱ(Ω) é o conjunto das partes de Ω.
1. 0 ≤ 𝑝(𝑥𝑖 ) ≤ 1
Qualquer subconjunto de Ω pertence
2. ∑ 𝑝(𝑥𝑖 ) = 1
a ℱ(Ω).
𝑖
Esta fmp dada por 𝑝(𝑥) = 𝑃(𝑋 = 𝑥) e satisfazendo as condições da Definição 3.2 pode
ser representado por uma tabela, um gráfico ou mesmo uma fórmula matemática. Além disso,
os valores assumidos por 𝑝(𝑥) indicam exatamente a probabilidade de que variável aleatória 𝑋
assuma o valor 𝑥 especificado.
Exemplo 3.5 Seja o experimento Jogar uma moeda duas vezes e anotar o resultado da face
visível. Definindo a v.a. 𝑿: o número de caras que podem ocorrer. Denotando 𝒄𝒂𝒓𝒂 por 𝒄 e
coroa por 𝒌, temos o espaço amostral 𝛀 desse experimento é 𝛀 = {𝒄𝒄, 𝒄𝒌, 𝒌𝒄, 𝒌𝒌}. dessa forma,
𝑿 pode assumir valor 𝟎 (zero), quando não aparecer cara; 𝟏 quando aparecer somente uma cara
ou 𝟐 quando aparecer duas caras. Assim 𝑿 = {𝟎, 𝟏, 𝟐}.
(i) Tabela:
𝑥 0 1 2
𝑃(𝑋 = 𝑥) 1⁄4 1⁄ 2 1⁄4
(ii) Gráfico:
𝑝(𝑥)
1
1⁄2
1⁄4
0 1 2 𝑥
Gráfico sem escala

(iii) Fórmula:
1 2
𝑝(𝑥) = ⋅ ( ), 𝑝𝑎𝑟𝑎 𝑥 = 0, 1, 2
4 𝑥
■

Exemplo 3.6 Se uma agência de veículos vende 50% de seu estoque de certo carro importado
equipado com airbags, determine a fórmula para a distribuição da massa de probabilidade do
número de carros com airbags entre os próximos quatro carros vendidos pela agência?
Solução: Primeiro, note que o espaço amostral terá 24 = 16 elementos (por quê?). Como a
probabilidade de se vender uma carro equipado com airbag é 0,5, então o espaço amostral é
equiprovável. Dessa forma, definindo 𝑋 = o número de carros com 𝑎𝑖𝑟𝑏𝑎𝑔𝑠 vendidos
teremos os possíveis valores para 𝑋, a saber, 𝑋 = {0, 1, 2, 3,4}. Assim,
𝐶4,0 1
𝑃(𝑋 = 0) = =
16 16
𝐶4,1 4 1
𝑃(𝑋 = 1) = = =
16 16 4
𝐶4,2 6 3
𝑃(𝑋 = 2) = = =
16 16 8
𝐶4,3 4 1
𝑃(𝑋 = 3) = = =
16 16 4
𝐶4,4 1
𝑃(𝑋 = 4) = =
16 16
Portanto, a função de distribuição da massa de probabilidade para este problema é:
(i) Tabela:
𝑥 0 1 2 3 4
𝑃(𝑋 = 𝑥) 1⁄16 1⁄4 3⁄8 1⁄4 1⁄16
(ii) Gráfico:
𝑝(𝑥)
1⁄2
3⁄8
1⁄4
1⁄16
0 1 2 3 4 𝑥
Gráfico sem escala

(iii) Fórmula:
1 4
𝑝(𝑥) = ⋅ ( ), 𝑝𝑎𝑟𝑎 𝑥 = 0, 1, 2, 3, 4
16 𝑥
■
Exemplo 3.7 Seja o experimento Jogar um dado duas vezes seguidas e anotar o resultado da
face superior. Definindo a v.a. 𝑿 = o número da face superior em cada lançamento. Então 𝒀 =
𝑿𝟏 + 𝑿𝟐 , 𝒁 = 𝒎á𝒙{𝑿𝟏 , 𝑿𝟐 } serão também variáveis aleatórias. O espaço amostral para esse

experimento é apresentado abaixo
(1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)
(2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)
(3, 1 ) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)
Ω=
(4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)
(5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6)
{ (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
■
Exemplo 3.8 Um carregamento de oito microcomputadores similares para um ponto-de-venda
contém três que apresentam defeitos. Se a escola faz uma compra aleatória de dois desses
microcomputadores, determine a distribuição de probabilidade para o número de defeituosos.
Solução: Deixe 𝑋 denotar o número de microcomputadores com defeito. Dessa forma 𝑋 será
uma v.a. e seus possíveis valores serão {0, 1, 2}, ou seja, 𝑋 = {0, 1, 2}. Agora, vamos calcular
as probabilidades para cada um desses valores (𝑥𝑖 )
𝐶3,0 ∙ 𝐶5,2 10
𝑃(𝑋 = 0) = =
𝐶8,2 28
𝐶3,1 ∙ 𝐶5,1 15
𝑃(𝑋 = 1) = =
𝐶8,2 28
𝐶3,2 ∙ 𝐶5,0 3
𝑃(𝑋 = 2) = =
𝐶8,2 28
Portanto, a distribuição da massa de probabilidade de 𝑋, usando tabela é
𝑥 0 1 2
10 15 3
𝑃(𝑋 = 𝑥)
28 28 28
usando uma fórmula matemática é

1 3 5
𝑝(𝑥) = ⋅( )⋅( ), 𝑝𝑎𝑟𝑎 𝑥 = 0, 1, 2
28 𝑥 2−𝑥
■
Em muitos casos, o objetivo é saber calcular a probabilidade na qual o valor observado
da variável aleatória será menor que ou igual a algum número real 𝑥. Dessa forma, é desejável
saber a probabilidade 𝑃(𝑋 ≤ 𝑥) para cada número real 𝑥. Assim definimos a função de
distribuição acumulada 𝐹(𝑥) como abaixo.

Definição 3.3 A função 𝑭 é dita função de massa acumulada de probabilidade de uma variável
aleatória 𝑿 que tem massa de probabilidade 𝒑(𝒙) = 𝑷(𝑿 = 𝒙) se
𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑝(𝑥𝑖 ) (3.2)

𝑥𝑖 ≤𝑥
Considerando os conhecimentos sobre distribuição de probabilidade para variáveis

discretas deduzimos algumas consequências diretas para a Definição 3.3, como listadas abaixo
1. 𝐹(−∞) = 0
2. 𝐹(+∞) = 1
3. 𝑃(𝑎 < 𝑥 ≤ 𝑏) = 𝐹(𝑏) − 𝐹(𝑎)
4. 𝑃(𝑎 ≤ 𝑥 ≤ 𝑏) = 𝐹(𝑏) − 𝐹(𝑎) + 𝑝(𝑎)
5. 𝐹(𝑎 < 𝑥 < 𝑏) = 𝐹(𝑏) − 𝐹(𝑎) − 𝑝(𝑏)
6. 𝐹(𝑥) é contínua à direita ⟶ 𝑙𝑖𝑚+ 𝐹(𝑥) = (𝐹𝑥0 )
𝑥→𝑥0
7. 𝐹(𝑥) é descontínua à esquerda, nos pontos em que a probabilidade é diferente de 0

(zero) ⟶ 𝑙𝑖𝑚− 𝐹(𝑥) ≠ (𝐹𝑥0 )
𝑥→𝑥0
8. A função é não decrescente, isto é, 𝐹(𝑎) ≤ 𝐹(𝑏), para 𝑎 < 𝑏
Exemplo 3.9 A fap da variável aleatória do Exemplo 3.8 é

0 , 𝑠𝑒 𝑥 < 0
10⁄28 , 𝑠𝑒 0 ≤ 𝑥 < 1
𝐹(𝑥) = {
25⁄28 , 𝑠𝑒 1 ≤ 𝑥 < 2
1 , 𝑠𝑒 2 ≤ 𝑥
Note que fizemos uma simples soma dos valores desejados. Assim,
𝑥 < 0 ⟹ 𝐹(𝑥) = 0
10
0 ≤ 𝑥 < 1 ⟹ 𝑥 = 0 ⟹ 𝐹(𝑥) = 𝑃(𝑋 = 0) =
28
25
1 ≤ 𝑥 < 2 ⟹ 𝑥 = 0 𝑜𝑢 𝑥 = 1 ⟹ 𝐹(𝑥) = 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) =
28
2 ≤ 𝑥 ⟹ 𝑥 = 0 𝑜𝑢 𝑥 = 1 𝑜𝑢 𝑥 = 2 ⟹ 𝐹(𝑥) = 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) + 𝑃(𝑋 = 2) = 1
Graficamente temos

𝐹(𝑥)
1
⁄
25 28
10⁄28
0 1 2 𝑥
Gráfico sem escala

■
Qualquer função obtida por meio de manipulações envolvendo uma variável aleatória v.a.
é também uma variável aleatória, isto é, sendo 𝑋 uma v.a., então 𝑌 = 𝑔(𝑋) também será uma
variável aleatória. Em outras palavras, quando se realiza operações elementares envolvendo
uma variável aleatória 𝑋, a expressão resultante goza das mesmas propriedades que a variável
aleatória 𝑋. Por exemplo, sendo 𝑋 uma v.a., a expressão 𝑌 = 2 + 5𝑋 também será uma v.a.
expressa por 𝑌.
Em muitos casos o pesquisador tem mais interesse sobre o valor mais provável que a
variável 𝑋 possa assumir do que os valores propriamente ditos. Um dos conceitos mais
importantes na teoria das probabilidades é o da expectativa de uma variável aleatória. Se 𝑋 é
uma variável aleatória discreta com função de distribuição de probabilidade 𝑝(𝑥), então a
expectativa, ou o valor esperado, de 𝑋, denotado por 𝜇𝑋 = 𝐸[𝑋],ou simplesmente 𝜇 quando
não houver possibilidade de confusão, é entendido como a média ponderada dos possíveis
valores que 𝑋 pode assumir, cada valor sendo ponderado pela probabilidade que 𝑋 assume, ou
seja, é o valor mais provável de ocorrer quando se analisa tal variável. A Definição 3.4 nos ensina
o obter tal medida.
Definição 3.4 A média ou valor esperado de uma variável aleatória discreta 𝑿, com massa de
probabilidade 𝒑(𝒙), denotada por 𝝁 ou 𝑬[𝑿] é
𝜇 = 𝐸[𝑋] = ∑ 𝑥 𝑝(𝑥) (3.3)

𝑥
Exemplo 3.10 Após cada nascimento, os bebês são classificados de acordo com uma escala
denominada Apgar. As classificações possíveis são 0, 1,..., 10, com a classificação do bebê

determinada por cor, tônus muscular, esforço respiratório, batimentos cardíacos e irritabilidade
reflexas (a melhor pontuação possível é 10). Seja 𝑿 o escore Apgar de uma criança selecionada
aleatoriamente em um determinado hospital no próximo ano e suponha que a fmp de X seja
𝑥 0 1 2 3 4 5 6 7 8 9 10
𝑝(𝑥) 0,002 0,001 0,002 0,005 0,02 0,04 0,18 0,37 0,25 0,12 0,01
nestas condições, o valor médio de 𝑋 será

𝜇 = 𝐸[𝑋] = 0 ⋅ 0,002 + 1 ⋅ 0,001 + 2 ⋅ 0,002 + 3 ⋅ 0,005 + ⋯ + 9 ⋅ 0,12 + 10 ⋅ 0,01 = 7,15
■
Entenda que 𝜇 não é um valor possível da variável 𝑋, e sim a média ponderada dos valores
de 𝑋. Além disso, como a variável se refere a uma futura criança, não há uma população
existente, concreta, a que se refira. Em vez disso, imaginamos a fmp como um modelo para
uma população conceitual consistindo dos valores 0, 1, 2,..., 10. O valor médio dessa população
conceitual é 𝜇 = 7,15.
Agora, suponha que nos seja dada uma variável aleatória discreta junto com sua função
de massa de probabilidade e que é necessário calcular o valor esperado de alguma função de 𝑋,
digamos, 𝑔(𝑋). Como podemos conseguir isso? Uma maneira é a seguinte: Como 𝑔(𝑋) é uma
variável aleatória discreta, ela tem uma função de distribuição de massa de probabilidade, que
pode ser determinada a partir da massa de probabilidade de 𝑋. Uma vez que tenhamos
determinado a função de massa de probabilidade de 𝑔(𝑋), podemos calcular 𝐸[𝑔(𝑋)] usando
a definição do valor esperado. Embora o procedimento anterior sempre nos permita calcular o
valor esperado de qualquer função de 𝑋 a partir de um conhecimento da função de distribuição
de probabilidade de 𝑋, existe outra maneira de pensar sobre 𝐸[𝑔(𝑋)]: Como 𝑔(𝑋) igual 𝑔(𝑥)
sempre que 𝑋 é igual a 𝑥, parece razoável que 𝐸[𝑔(𝑋)] deva ser apenas uma média ponderada
dos valores 𝑔(𝑥), com 𝑔(𝑥) sendo ponderada pela probabilidade de que 𝑋 é igual a 𝑥. Ou seja,
o seguinte resultado é bastante intuitivo.
Teorema 3.1 Suponha ser 𝑿 uma variável aleatória discreta que adquire um dos valores 𝒙𝒊 ,
𝒊 ≥ 𝟏, com probabilidades 𝒑(𝒙𝒊 ), então, para qualquer função 𝒈(𝒙𝒊 ) de valores reais temos
𝜇𝑔(𝑋) = 𝐸[𝑔(𝑋)] = ∑ 𝑔(𝑥𝑖 )𝑝(𝑥𝑖 ) (3.4)

𝑖
Este teorema facilita o cálculo do valor esperado para qualquer função 𝑔(𝑋) quando
conhecido a função de distribuição da v.a. 𝑋. Definir 𝑔(𝑋) = 𝑋 2 em (3.4) produz
𝐸[𝑋 2 ] = ∑ 𝑥 2 𝑝(𝑥𝑖 )
𝑖
A média, ou valor esperado, de uma variável aleatória 𝑋 é de especial importância nas

estatísticas porque descreve onde a distribuição de probabilidade é centralizada, isto é, onde
está o valor médio de todos os valores observados. Usando a analogia física de colocação de
pontos de massa 𝑝(𝑥) no valor 𝑥de um eixo unidimensional, se o eixo estiver apoiado em um
fulcroposicionado em 𝜇, não há tendência de inclinação do eixo. O fato é ilustrado para duas
distribuições diferentes na figura abaixo
Figura 3.3
Apesar de ambas as distribuições ilustradas na figura acima terem o mesmo centro 𝜇 , a
distribuição da Figura 3.3(b) tem maior dispersão ou variabilidade do que a da Figura 3.3(a).
Embora 𝐸[𝑋] forneça a média ponderada dos possíveis valores de 𝑋, ela não nos diz nada sobre
a variação ou disseminação desses valores. Esperamos que 𝑋 assuma valores em torno de seu
𝐸[𝑋]. Uma maneira razoável de medir a possível variação de 𝑋 seria observar a distância
máxima de 𝑋 à sua média, em média. Uma maneira possível de medir essa variação seria
considerar, então, a quantidade 𝐸[𝑋 − 𝜇], onde 𝜇 = 𝐸[𝑋]. No entanto, torna-se
matematicamente inconveniente lidar com essa quantidade, então uma quantidade mais tratável
e geralmente considerada é a expectativa do quadrado da diferença entre 𝑋 e sua média.
Neste sentido definimos a variância de 𝑋 para avaliar o valor da variabilidade da

distribuição de X, do mesmo modo que 𝑆 2 foi usado no Capítulo 1 para medir a variabilidade
de uma amostra. Como antes, definimos o desvio padrão somente para podermos trabalhar com
resultados na mesma unidade de medida dos dados. Assim destacamos a
Definição 3.5 A variância de 𝑿, denotada por 𝝈𝟐 ou 𝑽𝒂𝒓(𝑿) é dada por
𝜎2 = 𝐸[(𝑋 − 𝜇)2 ] (3.5)

e o desvio padrão de 𝑋 será denotado por

𝜎 = √𝜎 2 (3.6)
A quantidade (𝑥 − 𝜇) na Definição 3.5 é chamada de desvio de observação em relação à

média. Como os desvios são elevados ao quadrado e, em seguida analisados, 𝜎 2 será muito
menor para um conjunto de valores 𝑥 agrupados próximos a 𝜇 do que para um conjunto de
valores que variam consideravelmente de 𝜇. O leitor atento certamente percebeu que a variância
é, na verdade, a média dos quadrados dos desvios de observação em relação a média. Isto
certamente procede, pois definir 𝑔(𝑋) = (𝑋 − 𝜇)2 no Teorema 3.1 resulta na expressão
usualmente empregada no cálculo da variância. Dessa forma, escrevemos
𝜎𝑋2 = ∑(𝑥 − 𝜇)2 𝑝(𝑥) (3.7)

𝑥
A equação (3.7) quando desenvolvida fornece uma forma alternativa de calcular a

variância de uma variável aleatória 𝑿. Veja o exercício 1 de Exercícios: Lista 3.1. Esta forma
está expressa em (3.8)
𝜎𝑋2 = 𝐸[𝑋 2 ] − (𝐸[𝑋])2 (3.8)
Exemplo 3.11Reproduzimos os dados do Exemplo 3.10.

𝑥 0 1 2 3 4 5 6 7 8 9 10
𝑝(𝑥) 0,002 0,001 0,002 0,005 0,02 0,04 0,18 0,37 0,25 0,12 0,01
Considerando que o valor médio obtido foi de 𝜇 = 7,15 para a distribuiçao da massa de
probabilidade acima, o grau de variabilidade desta variável 𝑋 é, então, obtido por meio da
variância ou do desvo padrão obtidos por meio da (3.7). Assim,
𝜎 2 = (0 − 7,15)2 ⋅ 0,002 + (1 − 7,15)2 ⋅ 0,001 + ⋯ + (9 − 7,15)2 ⋅ 0,12 + (10 − 7,15)2 ⋅ 0,01
𝜎 2 = 1,5815
Dessa forma, o desvio padrão fica 𝜎 = √1,5815 = 1,2576. Como o resultado da variância bem
como do desvio padrão foi consideravelmente grande em relação aos valores de 𝑋,
consideramos que o grau de dispersão desta variável é forte.
■
Vamos agora estender nosso conceito da variância de uma variável aleatória 𝑋 para incluir
variáveis aleatórias relacionadas a 𝑋. Para a variável aleatória 𝑔(𝑋), a variância, denotada por
2
𝜎𝑔(𝑋) , é calculada por meio do seguinte teorema

Teorema 3.2 Suponha ser 𝑋 uma variável aleatória discreta. Para qualquer função
𝑔relacionada a 𝑋, a variância de 𝑔(𝑋) é
2 2
𝜎𝑔(𝑋) = 𝐸 [(𝑔(𝑋) − 𝜇𝑔(𝑋) ) ] (3.9)
o valor de 𝜇𝑔(𝑋) é obtido usando o resultado do Teorema 3.1. É claro que considerando a
Definição 3.4 uma fórmula para o cálculo da variância de uma variável aleatória 𝑔(𝑋) é
2 2
𝜎𝑔(𝑋) = ∑(𝑔(𝑥) − 𝜇𝑔(𝑋) ) 𝑝(𝑥) (3.10)
𝑥
sendo 𝑝(𝑥) a distribuição de probabilidade para a variável aleatória 𝑋.
Neste ponto, a variância ou desvio padrão só tem significado quando comparamos duas
ou mais distribuições que possuem as mesmas unidades de medida. Portanto, poderíamos
comparar as variâncias das distribuições de conteúdo, medidas em litros, de peso de pacotes de
macarrão de duas empresas, e o valor maior indicaria a empresa cujo produto era mais variável
ou menos uniforme. Não seria significativo comparar a variância de uma distribuição de alturas
com a variância de uma distribuição de pontuações de aptidão. Como visto, a média é uma
medida do centro ou do meio da distribuição de probabilidade, e a variância é uma medida da
dispersão, ou variabilidade na distribuição. Essas duas medidas não identificam exclusivamente
uma distribuição de probabilidade, ou seja, duas distribuições diferentes podem ter a mesma
média e a mesma variância, então, para podermos compar duas distribuições quanto ao grau de
variabilidade, usamos o coeficiente de variacão, indicado por 𝐶𝑉, como definido abaixo
Definição 3.6 O coeficiente de variação de 𝑿 é
𝜎
𝐶𝑉(𝑋) = (3.11)
𝜇
Exemplo 3.12 Reproduzimos os dados do Exemplo 3.10, e considerando as medidas já obtidas,

𝝁 = 𝟕, 𝟏𝟓 e 𝝈 = 𝟏, 𝟐𝟓𝟕𝟔 calcula-se o coeficiente de variação, a saber,
𝟏, 𝟐𝟓𝟕𝟔
𝑪𝑽(𝑿) = = 𝟎, 𝟏𝟕𝟓𝟗
𝟕, 𝟏𝟓
Como o coeficiente de variação foi alto, 𝟏𝟕, 𝟓𝟗%, diremos que a distribuição possui uma forte
variabilidade.

Exemplo 3.13 Um vendedor de equipamentos pesados pode visitar, num dia, um ou dois
clientes, com probabilidade de 1/3 ou 2/3, respectivamente. De cada contrato, pode resultar
numa venda de um equipamento por R$ 50.000,00 (com probabilidade de 1/10) ou nenhuma
venda (com probabilidade de 9/10). Indicando por X o valor total de vendas diárias desse
vendedor, escreva a função distribuição de probabilidade de X e calcule o valor total esperado
de vendas diárias.
Solução:Deixe 𝐴 indicar o número diário de clientes visitados e 𝑉 o número de vendas efetuadas
no dia. Facilmente se vê que 𝐴 = {1,2} e 𝑃(𝐴 = 1) = 1⁄3 e 𝑃(𝐴 = 2) = 2⁄3. Para obter a
fmp da v.a 𝑉 perceba que
(i) 𝑉 = 0 ocorre se o vendedor visitar um cliente e não vender ouvisitar dois clientes e não
vender para nenhum deles. Com isso
1 9 2 9 9 252
𝑃(𝑉 = 0) = 𝑃((𝐴 = 1) ∩ (𝑉 = 0)) + 𝑃((𝐴 = 2) ∩ (𝑉 = 0)) = ⋅ + ⋅ ⋅ =
3 10 3 10 10 300
(ii) 𝑉 = 1 ocorre se o vendedor visitar um cliente e vender ou visitar dois clientes e vender
apenas para um deles. Com isso
1 1 2 1 9 46
𝑃(𝑉 = 1) = 𝑃((𝐴 = 1) ∩ (𝑉 = 1)) + 2 ⋅ 𝑃((𝐴 = 2) ∩ (𝑉 = 1)) = ⋅ +2⋅( ⋅ ⋅ )=
3 10 3 10 10 300
(iii) 𝑉 = 2 ocorre unicamente no caso em que o vendedor visitar dois clientes e vender
para os dois. Com isso
2 1 1 2
𝑃(𝑉 = 2) = 𝑃((𝐴 = 2) ∩ (𝑉 = 2)) = ⋅ ⋅ =
3 10 10 300
considerando que 𝑋 = 50.000𝑉 temos a fmp a v.a. 𝑋 como abaixo

𝑥 0 50.000 100.000
𝑃(𝑋 = 𝑥) 252⁄300 46⁄300 2⁄300
252 46 2
e o valor esperado de 𝑋𝐸[𝑋] = 0 ⋅ 300 + 50.000 ⋅ 300 + 100.000 ⋅ 300 = 8.333,33. Portanto é
esperado vender em um dia R$ 8.333,33. (Você amigo leitor pode resolver este problema usando a árvode
de possibilidades. Surijo que tente esta outra forma)
■
Variáveis Contínuas
Na seção anterior, consideramos variáveis aleatórias discretas, isto é, variáveis aleatórias

cujo conjunto de valores possíveis é finito ou infinito enumerável. No entanto, também existem

variáveis aleatórias cujo conjunto de valores possíveis é incontável ou não enumerável. Dois
exemplos são o tempo que um trem chega a uma parada específica e a vida útil de um transistor.
Deixe 𝑋 indicar uma variável aleatória. Dizemos que 𝑋 é uma variável aleatória contínua se
existir uma função não negativa 𝑓, definida para todo o real 𝑥 ∈ (−∞, ∞), tendo a propriedade
que, para qualquer conjunto 𝐵 de números reais,
𝑃(𝑋 ∈ 𝐵) = ∫ 𝑓(𝑥) 𝑑𝑥 (3.12)

𝐵
A função 𝑓 é chamada de função de densidade de probabilidade (fdp) da variável

aleatória 𝑋.Em palavras, a equação (3.12) afirma que a probabilidade de que 𝑋 estará em 𝐵 pode
ser obtida integrando a função de densidade de probabilidade sobre o conjunto 𝐵. Como 𝑋 deve
assumir algum valor, 𝑓 deve satisfazer
∞
1 = 𝑃(𝑋 ∈ (−∞, ∞)) = ∫ 𝑓(𝑥) 𝑑𝑥
−∞
Todas as declarações de probabilidade sobre 𝑋 podem ser respondidas em termos de 𝑓.

Por exemplo, da equação (3.12), deixando 𝐵 = [𝑎, 𝑏], obtemos
𝑏
𝑃(𝑎 < 𝑋 < 𝑏) = ∫ 𝑓(𝑥) 𝑑𝑥 (3.13)
𝑎
Se tomarmos 𝑎 = 𝑏 em (3.13) teremos
𝑎
𝑃(𝑋 = 𝑎) = ∫ 𝑓(𝑥) 𝑑𝑥 = 0
𝑎
em palavras, esta equação afirma que a probabilidade de uma variável aleatória contínua
assumir qualquer valor pontual fixo é zero. E mais, para uma variável aleatória contínua,
𝑎
𝑃(𝑋 < 𝑎) = 𝑃(𝑋 ≤ 𝑎) = ∫ 𝑓(𝑥) 𝑑𝑥
−∞
Diante do exposto, explicitamos
Definição 3.7 A função 𝒇 é dita função de densidade de probabilidade (fdp) da variável

aleatória contínua 𝑿 se
1. 0 ≤ 𝑓(𝑥) para todo 𝑥 ∈ ℝ

+∞
2. ∫ 𝑓(𝑥)𝑑𝑥 = 1
−∞
𝑏
3. 𝑃(𝑎 < 𝑋 < 𝑏) = ∫ 𝑓(𝑥) 𝑑𝑥
𝑎
Observações Importantes
1. As probabilidades abaixo serão todas iguais, se 𝑋 for variável aleatória contínua:
𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = 𝑃(𝑎 ≤ 𝑋 < 𝑏) = 𝑃(𝑎 < 𝑋 ≤ 𝑏) = 𝑃(𝑎 < 𝑋 < 𝑏)
2. A função 𝑓(𝑥), densidade de probabilidade, não é probabilidade. Somente quando a
função 𝑓(𝑥) for integrada entre dois limites é que ela produzirá uma probabilidade, que
será a área sob a curva da função entre 𝑥 = 𝑎 e 𝑥 = 𝑏 com 𝑎 < 𝑏.
3. Pode-se fazer uma analogia com a Mecânica e considerar-se que numa variável aleatória
discreta, a massa de probabilidade está concentrada em pontos isolados da reta real, e, no
caso da variável aleatória contínua, a massa de probabilidade está espalhada de modo
contínuo em seguimentos de reta real.
+∞
4. Como ∫−∞ 𝑓(𝑥)𝑑𝑥 = 1 temos que a área total abaixo do gráfico de Gráfico de 𝑓(𝑥) é 1
unidade de área.
Exemplo 3.14 Suponha que o erro na temperatura de reação (em oC) , para um experimento de
laboratório controlado, seja a variável aleatória contínua 𝑿, que tem a função densidade de
probabilidade
𝑥 2 /3, 𝑠𝑒 − 1 < 𝑥 < 2
𝑓(𝑥) = {
0 , 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
a) Verifique a condição 2 da Definição 3.7

b) Determine 𝑃(0 < 𝑋 ≤ 1)
Solução: Usando os conceitos de integral para funções reais, e, considerando que

𝑥2
𝑓(𝑥) = 0 𝑓(𝑥) = 𝑓(𝑥) = 0
3
−∞ −1 +2 +∞
Temos
+∞ −1 2 +∞
a) ∫ 𝑓(𝑥)𝑑𝑥 = ∫ 𝑓(𝑥)𝑑𝑥 + ∫ 𝑓(𝑥)𝑑𝑥 + ∫ 𝑓(𝑥)𝑑𝑥
−∞ −∞ −1 2
2 2 2
𝑥2
= ∫ 0𝑑𝑥 + ∫ 𝑑𝑥 + ∫ 0𝑑𝑥
−1 −1 3 −1
𝑥=2
𝑥2 8 1
= | = + =1
3 𝑥=−1 9 9
1 𝑥2 𝑥=1
𝑥2 1
b) 𝑃(0 < 𝑋 ≤ 1) = ∫ 𝑑𝑥 = | =
0 3 3 𝑥=0 9
■
Exemplo 3.15 Deixe 𝑿 denotar a corrente medida em um fio de cobre fino em miliamperes.
Suponha que a fdp de 𝑿 seja como abaixo,
0,05 𝑠𝑒 0 ≤ 𝑥 ≤ 20
𝑓(𝑥) = {
0 𝑐𝑐
Qual é a probabilidade de uma medida de corrente ser menor que 10 miliamperes?

Solução: Sendo 𝑓(𝑥) a função de densidade de probabilidade, a probabilidade solicitada é
10 10
𝑃(𝑋 < 10) = ∫ 𝑓(𝑥) 𝑑𝑥 = ∫ 0,05 𝑑𝑥 = 0,5
−∞ 0
assim, existe uma probabilidade de 50% de chances de uma corrente medida ser menor que 10
miliamperes. E se fosse para obter 𝑃(5 < 𝑋 < 20)? Comente essa probabilidade. Faça essa
conta amigo leitor.
■
Exemplo 3.16 Faça a variável aleatória contínua 𝑿 denotar o diâmetro de um furo perfurado em
um componente de chapa metálica. O diâmetro do alvo é de 12,5 milímetros. A maioria dos
distúrbios aleatórios no processo resulta em diâmetros maiores. Dados históricos mostram que
a distribuição de 𝑿 pode ser modelada por uma função de densidade de probabilidade igual a
−20(𝑥−12,5)
𝑓(𝑥) = {20𝑒 𝑠𝑒 𝑥 ≥ 12,5
0 𝑐𝑐

Se uma peça com um diâmetro maior que 12,60 milímetros é descartada, que proporção de
peças é descartada?
Solução: Como antes, se 𝑓(𝑥) é função de densidade de probabilidade, a probabilidade
solicitada é
+∞ +∞
+∞
𝑃(𝑋 > 12,60) = ∫ 𝑓(𝑥) 𝑑𝑥 = ∫ 20𝑒 −20(𝑥−12,5) 𝑑𝑥 = 𝑒 −20(𝑥−12,5) |𝑥=12,60 = 0,135
12,6 12,6
Interpretação Prática: Essa proporção de 13,5% de peças com diâmetros superiores a 12,60mm,
indica que a proporção de peças que são descartadas é alta. Melhorias de processo são
necessárias para aumentara proporção de peças com dimensões próximas a 12,50mm
■
Como antes, um dos principais objetivos do pesquisador é obter a probabilidade na qual

o valor observado da variável aleatória será menor que ou igual a algum número real 𝑥. Dessa
forma, é desejável saber a probabilidade 𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) para cada número real 𝑥. Assim
definimos a função de densidade acumulada como na
Definição 3.8 A função 𝑭 é dita função de densidade acumulada de probabilidade (fda) da

variável aleatória contínua 𝑿 se
𝑥
𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∫ 𝑓(𝑡)𝑑𝑡 (3.14)
−∞
para −∞ < 𝑥 < +∞.
Como consequência imediata da Definição 3.8, podemos escrever

𝑑
𝑓(𝑥) = 𝐹(𝑥)
𝑑𝑥
para todo 𝑥 no qual 𝐹(𝑥) seja derivável. E mais,
𝑃(𝑎 < 𝑋 < 𝑏) = 𝐹(𝑏) − 𝐹(𝑎) (3.15)
Exemplo 3.17 Para a função densidade do Exemplo 3.14 , determine 𝑭(𝒙) e use-a para avaliar
𝑷(𝟎 < 𝑿 ≤ 𝟏). Faça o gráfico de 𝑭(𝒙)
Solução: Considerando a função dada, temos que 𝑓(𝑥) existe se−1 < 𝑥 < 2, assim,
𝑥 𝑥 𝑡=𝑥
𝑡2 𝑡3 𝑥3 + 1
𝐹(𝑥) = ∫ 𝑓(𝑡)𝑑𝑡 = ∫ 𝑑𝑡 = | =
−∞ −1 3 9 𝑡=−1 9

então
0 , para 𝑥 < −1
3
𝐹(𝑥) = {(𝑥 + 1)/9 , para − 1 ≤ 𝑥 < 2
1 , para 2 ≤ 𝑥
Para avaliar a probabilidade 𝑃(0 < 𝑋 ≤ 1) considere a igualdade dada em (3.15), assim
2 1 1
𝑃(0 < 𝑋 ≤ 1) = 𝐹(1) − 𝐹(0) = − =
9 9 9
Este resultado está de acordo com o resultado obtido usando a função densidade do
Exemplo 3.14 acima. Abaixo o gráfico de 𝐹(𝑥).
Exemplo 3.18 O Departamento de Energia de um determinado estado (DE) coloca projetos em

licitações e geralmente estima o que deve ser uma oferta razoável, digamos que seja a estimativa
𝒃. O (DE) determinou que a função de densidade do lance vencedor (baixo) é
5 2
𝑓(𝑥) = {8𝑏 , 5
𝑏 ≤ 𝑥 ≤ 2𝑏
0 , 𝑐𝑐
Encontre 𝐹(𝑥) e use-a para determinar a probabilidade de o lance vencedor ser menor do que a
estimativa preliminar 𝑏.
𝑥
Solução: Usando a Definição 3.8 temos 𝐹(𝑥) = ∫−∞ 𝑓(𝑡)𝑑𝑡. Assim
5𝑥
5𝑡 𝑡=𝑥 5𝑥 1
𝐹(𝑥) = ∫ 𝑑𝑡 = | 2 = −
2 8𝑏 8𝑏 𝑡= 𝑏 8𝑏 4
𝑏 5
5
Dessa forma obtemos

2
0 , 𝑥 < 𝑏
5
𝐹(𝑥) = 5𝑥 1 2
− , 𝑏 ≤ 𝑥 < 2𝑏
8𝑏 4 5
{ 1 , 2𝑏 ≤ 𝑥
Para determinar a probabilidade de que o lance vendedor seja menor do que o lance preliminar
estimado 𝑏, devemos ter
5 1 3
𝑃(𝑋 ≤ 𝑏) = 𝐹(𝑏) = − =
8 4 8
■
Como no caso discreto, dada uma variável aleatória contínua𝑋 juntamente com sua
função de densidade de probabilidade 𝑓(𝑥) é extremamente útil resumir as propriedades
essenciais de 𝑋 por certas medidas adequadamente definidas. Vimos, no caso discreto, que essas
medidas são 𝜇 = 𝐸[𝑋], a 𝜎 2 = 𝑉𝑎𝑟(𝑋) e 𝜎 = 𝑑𝑝(𝑋). Assim, teremos para 𝑋 quando contínua
a seguinte definição.
Definição 3.9 Suponha ser X uma variável aleatória contínua com função de densidade de
probabilidade 𝒇(𝒙), então a média ou valor esperado de 𝑿, denotado por 𝝁 ou 𝑬[𝑿] é
+∞
𝜇 = 𝐸[𝑋] = ∫ 𝑥 𝑓(𝑥) 𝑑𝑥 (3.16)
−∞
Exemplo 3.19 Considere a fdp para a variável aleatória 𝑿 do Exemplo 3.14, como abaixo
𝑥 2 /3, 𝑠𝑒 − 1 < 𝑥 < 2
𝑓(𝑥) = {
0, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
Determine o valor médio de 𝑋.
Solução: Para o cálculo da média 𝜇𝑋 usaremos a equação (3.16). Vamos lá!
+∞ 2 𝑥=2
𝑥3 𝑥4 5
𝜇𝑋 = ∫ 𝑥𝑓(𝑥) 𝑑𝑥 = ∫ 𝑑𝑥 = ( )| =
−∞ −1 3 12 𝑥=−1 4
■
Embora o método empregado na Definição 3.9 para calcular o valor esperado de uma
função de 𝑋 seja sempre aplicável, existe, como no caso discreto, uma maneira de proceder no
caso em que tenhamos uma função 𝑔(𝑋). O seguinte é um análogo direto do Teorema 3.1 da
seção anterior.

Teorema 3.3 Suponha ser 𝑿 uma variável aleatória contínua com função de densidade de
probabilidade 𝒇(𝒙), então, para qualquer função de valor real 𝒈(𝑿)
∞
𝜇𝑔(𝑋) = 𝐸[𝑔(𝑋)] = ∫ 𝑔(𝑥)𝑓(𝑥) 𝑑𝑥 (3.17)
−∞
A mesma observação feita no Teorema 3.1 pode ser estendida ao caso contínuo. Definir
𝑔(𝑋) = 𝑋 2 em (3.17) produz
∞
2]
𝐸[𝑋 = ∫ 𝑥 2 𝑓(𝑥) 𝑑𝑥
−∞
e ainda, considerando que a variância é definida como a média dos quadrados das observações
em torno da média, como descrito em (3.5), temos que definir 𝑔(𝑋) = (𝑋 − 𝜇)2 na equação
(3.17) novamente produz a fórmula para se calcular a variância de uma variável aleatória
contínua dada por
+∞
𝜎2 = ∫ (𝑥 − 𝜇)2 𝑓(𝑥) 𝑑𝑥 (3.18)
−∞
e o desvio padrão de 𝑋 por
𝜎 = √𝜎 2 (3.19)
Lembrando que a quantidade (𝑥 − 𝜇) na Definição 3.9 é chamada de desvio de

observação em relação à média. No caso em que 𝑋 é uma variável aleatória contínua, a equação
(3.8) continua válida, ou seja,
𝜎𝑋2 = 𝐸[𝑋 2 ] − (𝐸[𝑋])2 (3.20)
Exemplo 3.20 Considerando a fdp da variável aleatória 𝑿 descrita no Exemplo 3.16,

reproduzida abaixo,
−20(𝑥−12,5)
𝑓(𝑥) = {20𝑒 𝑠𝑒 𝑥 ≥ 12,5
0 𝑐𝑐
mostre que
a) 𝜇𝑋 = 𝐸[𝑋] = 12,55
b) 𝜎𝑋2 = 𝑉𝑎𝑟(𝑋) = 0,0025
c) 𝜎𝑋 = 𝑑𝑝(𝑋) = 0,05
interprete estes resultados.
Exemplo 3.21 Considerando os dados do Exemplo 3.19 temos

+∞ 𝟐
𝟓 𝟐 𝒙𝟐 𝟐
𝟓𝒙 𝟐𝟓 𝒙𝟐
𝝈𝟐 = ∫ (𝒙 − 𝝁)𝟐 𝒇(𝒙) 𝒅𝒙 = ∫ (𝒙 − ) ⋅ 𝒅𝒙 = ∫ (𝒙𝟐 − + ) ⋅ 𝒅𝒙
−∞ −𝟏 𝟒 𝟑 −𝟏 𝟐 𝟏𝟔 𝟑
2 𝑥=2
2
𝑥 4 5𝑥 3 25𝑥 2 𝑥 5 5𝑥 4 25𝑥 3 17 323
𝜎 =∫ ( − + ) 𝑑𝑥 = ( − + )| = ( ) − (− ) = 0,6375
−1 3 6 48 15 24 144 𝑥=−1 90 720
Dessa forma, o desvio padrão solicitado será 𝜎 = √0,6375 = 0,7984.

■
Como no caso discreto, a variável aleatória contínua 𝑔(𝑋), obtida a partir da variável
2
aleatória contínua 𝑋, possui variância denotada por 𝜎𝑔(𝑋) , calculada segundo o
Teorema 3.4 Suponha ser 𝑋 uma variável aleatória contínua. Para qualquer função real 𝑔(𝑋)
relacionada a 𝑋,a variância de 𝑔(𝑋) é
2 2
𝜎𝑔(𝑋) = 𝐸 [(𝑔(𝑋) − 𝜇𝑔(𝑋) ) ] (3.21)
o valor de 𝜇𝑔(𝑋) é obtido usando o resultado do Teorema 3.3. Considerando a Definição 3.9 uma
fórmula para o cálculo da variância de uma variável aleatória 𝑔(𝑋) é
∞
2 2
𝜎𝑔(𝑋) = ∫ (𝑔(𝑥) − 𝜇𝑔(𝑋) ) 𝑓(𝑥) 𝑑𝑥 (3.22)
−∞
é claro que 𝑓(𝑥) é a densidade de probabilidade de 𝑋.
Com cálculos muito simples, pode-se mostrar que a média 𝜇 = 𝐸[𝑋] de uma variável
aleatória 𝑋, sendo ela discreta ou contínua satisfaz cada uma das propriedades seguintes, onde
𝑘 ∈ ℝ.
• A média de uma constante é a própria constante: 𝐸[𝑘] = 𝑘
• Multiplicando a variável aleatória 𝑋 por uma constante, sua média fica multiplicada
por essa constante: 𝐸[𝑘 ⋅ 𝑋] = 𝑘 ⋅ 𝐸[𝑋]
• Somando (subtraindo) uma constante a uma variável aleatória 𝑋, a sua média fica
somada (subtraída) da mesma constante: 𝐸[𝑋 ± 𝑘] = 𝐸[𝑋] ± 𝑘
• A média dos desvios de observação é nulo: 𝐸[𝑋 − 𝜇] = 0


1. Considerando seus conhecimentos em variáveis aleatórias, elabore argumentos e cálculos
para mostrar que a variância de uma variável 𝑋 pode ser calculada, de modo alternativo,
como
𝜎𝑋2 = 𝐸[𝑋 2 ] − (𝐸[𝑋])2
2. Uma população de 1.000 crianças foi analisada num estudo para determinar a efetividades
de uma vacina contra um tipo e alergia. No estudo, as crianças recebiam uma dose de vacina
e, após um mês, passavam por um novo teste. Caso ainda tivessem tido alguma reação
alérgica, recebiam outra dose da vacina. Ao fim de 5 doses, todas as crianças foram
consideradas imunizadas. Os resultados completos estão na tabela abaixo:
Dose 1 2 3 4 5
No crianças 245 288 256 145 66
Encontre a função de probabilidade (fmp) e a função de probabilidade acumulada (fma) para
a variável 𝑋: numero de doses recebidas. Faça a representação gráfica da fma. Suponha
que uma criança dessa população seja sorteada ao acaso, qual será a probabilidade dele ter
recebido no máximo 3 doses?
3. Elabore argumentos e cálculos para justificar a igualdade 𝐸[𝑎𝑋 + 𝑏] = 𝑎𝐸[𝑋] + 𝑏, onde 𝑋
é uma variável aleatória discreta ou contínua e 𝑎 e 𝑏 são números reais com 𝑎 ≠ 0.
4. Um competidor em um programa de perguntas e respostas é apresentado a duas perguntas,
digamos 𝑃1 e 𝑃2 que ele deve tentar responder na ordem que escolher. Se ele decidir tentar
a pergunta i primeiro, ele poderá continuar com a pergunta j, 𝑗 ≠ 𝑖, apenas se sua resposta à
pergunta i estiver correta. Se a resposta inicial estiver incorreta, ele não poderá responder à
outra pergunta. O competidor deve receber um prêmio, em dólares, digamos 𝑉𝑖 se ele
responder à pergunta 𝑖 corretamente, 𝑖 = 1; 2. Por exemplo, ele receberá 𝑉1 + 𝑉2 dólares se
responder as duas perguntas corretamente. Suponha que a probabilidade de ele saber a
resposta para a pergunta 𝑖 é 𝑝𝑖 , 𝑖 = 1; 2. Estabeleça uma relação capaz de predizer qual
pergunta ele deve tentar responder primeiro para maximizar seus ganhos esperados?
Suponha que os eventos 𝐸𝑖 ; 𝑖 = 1; 2, que ele conhece a resposta para a pergunta 𝑖 sejam
eventos independentes.
Teste sua relação supondo que ele tem 60% de certeza de responder à pergunta 1, ao valor
de $200,corretamente e 80% de certeza de responder à pergunta 2, ao valor de $100,
corretamente. Neste caso, qual pergunta ele deve responder primeiro, a 1 ou a 2?

5. No lançamento simultâneo de dois dados, considere as seguintes variáveis aleatórias:

𝑋: número de pontos obtidos no primeiro dado
𝑌: número de pontos obtidos no segundo dado
a) Construir a função de probabilidade (fmp) através de tabela e gráfico das seguintes
variáveis:
i. 𝐴 = 𝑋 − 𝑌
ii. 𝐵 = 2𝑌
iii. 𝐶 = 𝑋𝑌
iv. 𝐷 = max{(𝑋, 𝑌)}
b) Construir a Função distribuição Acumulada de probabilidade (fma) das variáveis𝐴, 𝐶 e
𝐷 e fazer seus respectivos gráficos.
c) Aplicando as propriedades da (fmp) ou se preferir da (fma), calcular as seguintes
probabilidades:
i. 𝑃(−3 < 𝐴 ≤ 3) vii. 𝑃(𝐴 ≤ −8)
ii. 𝑃(0 ≤ 𝐴 ≤ 4,5) viii. 𝑃(𝐵 ≥ 11)
iii. 𝑃(𝐵 > 6) ix. 𝑃(20 ≤ 𝐶 ≤ 35)
iv. 𝑃(𝐶 ≤ 5,5) x. 𝑃(𝐷 = 8)
v. 𝑃(𝐶 = 3) xi. 𝑃(−1 < 𝐵 < 8)
vi. 𝑃(1 ≤ 𝐷 ≤ 4) xii. 𝑃(3,5 < 𝐶 < 34)
6. Uma variável aleatória discreta tem massa de probabilidade dada por
𝑘
𝑃(𝑋 = 𝑥) = , para 𝑥 = 1, 3, 5, 7
𝑥
a) Calcule o valor de 𝑘 b) Calcule 𝑃(𝑋 = 5) c) Obtenha 𝐸[3𝑋 − 2]
7. Suponha que estejamos testando uma partida de válvula eletrônica e que a probabilidade
de um teste ser positivo seja de 3/4. Os testes prosseguem até que apareça a primeira válvula
positiva. Defina a variável aleatória
𝑋: 𝑜 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑡𝑒𝑠𝑡𝑒𝑠 𝑛𝑒𝑐𝑒𝑠𝑠á𝑟𝑖𝑜𝑠 𝑝𝑎𝑟𝑎 𝑐𝑜𝑛𝑐𝑙𝑢𝑖𝑟 𝑜 𝑒𝑥𝑝𝑒𝑟𝑖𝑒𝑚𝑛𝑡𝑜.
Esboce o espaço amostral para esse experimento. Determine a função de distribuição de
𝑥−1
probabilidade para a variável 𝑋. R. 𝑃(𝑋 = 𝑥) = (14) 3
( ), onde 𝑥 indica a quantidade de repetições
4
do experimento.
8. Num levantamento feito num posto de atendimento à família, constatou que 19% das
famílias atendidas pelo posto não têm filhos, que 26% têm apenas um filho, 31% têm dois
filhos e o restante das famílias se divide igualmente entre terem três quatro ou cinco filhos.

Defina a variável aleatória 𝑋: o número de filhos e construa a função distribuição

acumulada de probabilidade (fma) para 𝑋.
9. Numa sala temos cinco rapazes e quatro moças. São retiradas aleatoriamente três pessoas
dessa sala. Faça 𝑋: número de rapazes.
a) Determine a funções de probabilidade de 𝑋. Construa a tabela
b) Determine a função de distribuição acumulada (fma) de 𝑋 e construa seu gráfico
c) Calcule as probabilidades:
i. 𝑃(𝑋 ≤ 0)R. 2/42
ii. 𝑃(1 < 𝑋 ≤ 3)R. 25/42
iii. 𝑃(2 < 𝑋 < 3)R. 0
iv. 𝑃(𝑋 > 2)R. 5/42
v. 𝑃(−1 < 𝑋)R.1
vi. 𝑃(𝑋 < 5)R.1
vii. Determine: 𝐹(2,5); 𝐹(3); 𝐹(0,5); 𝐹(3,5); 𝐹(2); 𝐹(1); 𝐹(6); 𝐹(−0,5)
10. Uma variável aleatória tem a seguinte função de distribuição de probabilidade
0; 𝑠𝑒 𝑥 < 10
0,2 ; 𝑠𝑒 10 ≤ 𝑥 < 12
𝐹(𝑥) = 0,5 ; 𝑠𝑒 12 ≤ 𝑥 < 13
0,9 ; 𝑠𝑒 13 ≤ 𝑥 < 25
{ 1 ; 𝑠𝑒 25 ≤ 𝑥
Determine:
a) A função distribuição de probabilidade 𝑓(𝑥)
b) 𝑃(𝑋 ≤ 12). R. 0,5
c) 𝑃(𝑋 < 12). R. 0,2
d) 𝑃(12 ≤ 𝑋 ≤ 20). R. 0,7
e) 𝑃(18 < 𝑋). R. 0,1
11. Um empresário pretendendo estabelecer uma firma de montagem de um produto
composto de uma esfera e um cilindro. As partes são adquiridas em fábricas diferentes (A e
B), e a montagem consistirá em juntar as duas partes e pintá-las. O produto acabado deve ter
o comprimento (definido pelo cilindro) e a espessura (definida pela esfera) dentro de certos
limites, e isso só poderá ser verificado após a montagem. Para estudar a viabilidade de seu
empreendimento, o empresário quer ter uma ideia da distribuição do lucro por peça montada.
Sabe-se que cada componente pode ser classificado como bom, longo ou curto, conforme
sua medida esteja dentro das especificações, maior ou menor que a especificada,

respectivamente. Além disso, foram obtidos dos fabricantes o preço de cada componente
($5,00) e as probabilidades de produção de cada componente com as características bom,
longo e curto. Conforme tabela abaixo
Distribuição da produção das fábricas A e B, de acordo com as medidas das peças produzidas
Fábrica A Fábrica B
Produto
(Cilindro) (Esfera)
Dentro das especificações ----------------Bom (B) 0,995 0,987
Maior que as especificações--------------Longo(L) 0,001 0,010
Menor que as especificações-------------Curto (C) 0,004 0,003
Se o produto final apresentar algum componente com a característica C (curto), ele será
irrecuperável, e o conjunto será vendido como sucata ao preço de $5,00. Cada componente
longo poderá ser recuperado a um custo adicional de $5,00. Se o preço de venda de cada
unidade for de $25,00, estabeleça como variável aleatória
𝑋: o lucro por conjunto montado, e, obtenha a massa de probabilidade de 𝑋.
12. Elabore argumentos e cálculos para justificar cada uma das propriedades que variância
satisfaz para todo 𝑘 ∈ ℝ.
i. A variância de uma constante é 0 (zero): 𝑉𝑎𝑟[𝑘] = 0
ii. Multiplicando a variável aleatória 𝑋 por uma constante, sua variância fica multiplicada
pelo quadrado da constante: 𝑉𝑎𝑟[𝑘 ⋅ 𝑋] = 𝑘 2 ⋅ 𝑉𝑎𝑟[𝑋]
iii. Somando (subtraindo) uma constante a uma variável aleatória 𝑋, a sua variância não se
altera: 𝑉𝑎𝑟[𝑋 ± 𝑘] = 𝑉𝑎𝑟[𝑋]
13. Dada a função
2𝑒 −2𝑥 ; 0 ≤ 𝑥
𝑓(𝑥) = {
0 ; 𝑥<0
a) Mostre que 𝑓(𝑥) é uma f.d.p.
b) Calcule 𝑃(10 < 𝑋)
𝑓(𝑥)
c) Calcule 𝐸[𝑔(𝑋)] sendo 𝑔(𝑋) = √ .
2
14. Suponha que a duração em mil horas das lâmpadas produzidas por certa indústria tenha
função de densidade de probabilidade dada por:
−3 3
𝑥2 + 8 𝑥 ∶ 0 ≤ 𝑥 ≤ 4
𝑓(𝑥) = { 32
0 ∶ 𝑐. 𝑐.
Determine:

a) a expressão geral para a 𝐹(𝑋);

b) a probabilidade de uma lâmpada ter duração compreendida entre 1.000 e 3.000 horas;
c) a porcentagem das lâmpadas desta indústria que terá duração superior a 3.000 horas;
15. Seja a função
𝑥/3 + 𝑘 , 0 ≤ 𝑥 ≤ 3
𝑓(𝑥) = {
0 , 𝐶𝐶
Pede-se:
a) encontre o valor de k, para que 𝑓(𝑥) seja uma fdp.
b) esboce o gráfico de 𝑓(𝑥).
c) obtenha 𝐹(𝑥) e esboce o seu gráfico.
d) calcule 𝑃(1 ≤ 𝑋 ≤ 2)
16. A fdp. de uma v.a. X é dada por:
0 ,𝑥 ≤ 0
𝑚𝑥 ,0 < 𝑥 ≤ 1
𝑓(𝑥) = {
3/4 ,1 < 𝑥 ≤ 2
0 ,𝑥 > 2
a) ache o valor de m;
b) esboce o gráfico da função de densidade de probabilidade –fdp – 𝑓(𝑥);
c) ache a função de probabilidade acumulada – fda – 𝐹(𝑥);
d) calcule 𝑃(1/2 < 𝑋 < 3/2);
17. Uma variável aleatória discreta X tem a seguinte função de distribuição acumulada de
probabilidade:
0 se x < -1
0,2 se -1  x<2;

0,5 se 2  x<5;
F(X ) 
0, 7 se 5  x<6;
0,9 se 6  x<15;

1 se x  15
Determine a função de massa de probabilidade para a v.a. X.
18. Analisemos o seguinte problema: O ponteiro de um relógio pode parar a qualquer
momento, devido a algum problema mecânico ou falta de energia. Seja X o ângulo que o
ponteiro dos segundos, forma com o eixo imaginário vertical que passa pelo XII.
a) Obtenha a fmp da v.a. X se o relógio for mecânico.
b) Obtenha a fdp da v.a. X caso o relógio seja elétrico.

c) Qual a probabilidade de um relógio mecânico parar e o ponteiro, dos segundos, apontar

para o número III? E se fosse elétrico?
19. Considere uma v.a. X com a seguinte função de densidade
3𝑥 2 , − 1 ≤ 𝑥 ≤ 0
𝑓(𝑥) = {
0 , 𝑐. 𝑐
Calcule:
a) 𝑃(𝑋 > 10)
b) 𝑃(−0,5 ≤ 𝑋 < 1)
c) 𝑃(−0,25 < 𝑋 < −0,89)
d) Determine 𝜎(𝑋)
20. A variável aleatória 𝑋 tem distribuição triangular de probabilidade no intervalo [0,1] se
sua fdp foi da forma
0 ,𝑥 < 0
𝑚𝑥 , 0 ≤ 𝑥 ≤ 1/2
𝑓(𝑥) = {
𝑚(1 − 𝑥) ,1/2 ≤ 𝑥 ≤ 1
0 ,1 < 𝑥
a) Qual valor deve ter a constante 𝑚?
b) Faça o gráfico de 𝑓(𝑥)
1 1 1 3
c) Determine 𝑃 (𝑋 ≤ 2); 𝑃 (2 < 𝑋) e 𝑃 (4 ≤ 𝑋 ≤ 4).
21. Num teste educacional com crianças, o tempo para a realização de uma bateria de
questões de raciocínio verbal e lógico é medido e anotado para ser comparado com um
modelo teórico. Este teste é utilizado para identificar o desenvolvimento das crianças e
auxiliar a aplicação de medidas corretivas. O modelo teórico considera
𝑇: 𝑡𝑒𝑚𝑝𝑜 𝑑𝑒 𝑡𝑒𝑠𝑡𝑒 𝑒𝑚 𝑚𝑖𝑛𝑢𝑡𝑜, como uma variável aleatória contínua com função
densidade de probabilidade dada por:
(𝑡 − 4)/40 , 8 ≤ 𝑡 < 10
𝑓(𝑡) = { 3/20 , 10 ≤ 𝑡 ≤ 15
0 , 𝑐. 𝑐
a. Verifique se essa função é realmente um fdp.
b. Represente graficamente a fdp da v.a. T.
c. Calcule a probabilidade de uma criança levar de 9 a 12 minutos para realizar essa bateria
de exames.
22. Considere o lançamento de três moedas. Se ocorre o evento CCC, dizemos que temos
uma sequência, ao passo que se ocorre o evento CRC temos três sequências. Defina a v.a

𝑋: número de caras obtidas e 𝑌: número de sequências, isso para cada resultado possível.
Assim, 𝑋(𝐶𝑅𝑅) = 1 e 𝑌(𝐶𝑅𝑅) = 2. Obtenha as distribuições de 𝑋 e 𝑌. Calcule 𝜇𝑋 , 𝜇𝑌 ,
𝜎 2 (𝑋) e 𝜎 2 (𝑌).
23. Suponha que a v.a. 𝑉 tenha a distribuição seguinte:
𝑣 0 1
𝑃(𝑉 = 𝑣) 𝑝 1−𝑝
Obtenha 𝐸[𝑉] e 𝑉𝑎𝑟(𝑉)
24. Seja 𝑋com distribuição dada por
𝑥 0 1 2
𝑃(𝑋 = 𝑥) ½ 1/4 1/4
a) Calcule 𝐸[𝑋]
b) Considere a v.a. 𝑔(𝑋) = (𝑋 − 𝑎)2, calcule 𝐸[𝑔(𝑋)] para 𝑎 = 0, 1⁄4 , 1⁄4 , 3⁄4 , 1
c) Obtenha o gráfico de 𝐸[𝑔(𝑋)] = 𝑔(𝑎). Para qual valor de 𝑎, 𝑔(𝑎) é mínima?
25. Um auditor fiscal faz visitas surpresas a estabelecimentos comerciais com contratos
ativos com o governo. Ele pode visitar, num dia, dois ou três desses estabelecimentos, com
probabilidade de 2/7 ou 5/7, respectivamente. De cada visita, pode resultar em um multa no
valor de R$ 750.000,00 (com probabilidade 3/13) ou nenhuma multa (com probabilidade
10/13). Deixe 𝑋 indicar o valor total em multas diárias aplicadas por esse auditor, escreva a
função de probabilidade de 𝑋. Com base na função massa de probabilidade de 𝑋 calcule o
valor total, em reais, esperado de multas diárias aplicadas.
26. Calcule a variância da variável aleatória 𝑌 do problema 4.
27. O tempo 𝑇, em minutos, necessário para um operário processar certa peça é uma v.a. com
a seguinte distribuição de probabilidade
𝑥 2 3 4 5 6 7
𝑃(𝑋 = 𝑥) 0,1 0,1 0,3 0,2 0,2 0,1
a) Calcule o tempo médio de processamento
b) Para cada peça processada, o operário ganha um fixo de R$ 2,00, mas, se ele processar a
peça em menos de seis minutos, ganha R$ 0,50 em cada minuto poupado. Por exemplo, se
ele processa a peça em quatro minutos, recebe a quantia adicional de R$ 1,00. Encontre a
distribuição, a média e a variância da v.a. 𝐺: quantia em R$ ganha por peça.
28. Sabe-se que a v.a. 𝑋 assume os valores 1, 2, e 3 e que sua f.m.a 𝐹(𝑥) é tal que
𝐹(1) − 𝐹(1 −) = 1/3
𝐹(2) − 𝐹(2 −) = 1/6
𝐹(3) − 𝐹(3 −) = 1/2
Obtenha a distribuição de 𝑋, a fmp e 𝐹(𝑥) e os respectivos gráficos.

29. Em certa especulação comercial, um homem pode ter lucro de R$ 300,00, com
probabilidade de 0,6 ou prejuízo de R$ 100,00, com probabilidade 0,4. Determine sua
esperança de ganhos. R. R$ +140,00
30. Um processo de fabricação produz peças com peso médio de 30g e desvio padrão de 0,7g.
Essas peças são acondicionadas em pacotes de uma dezena cada. A embalagem pesa em
média 40g, com variância 2,25g2. Qual a média e o desvio padrão do peso total do pacote?
R. 𝜇 = 340 e 𝜎 = 2,67
31. Seja 𝑋: a vida útil, em horas, de certo equipamento eletrônico. A função densidade de
probabilidade é
20.000/𝑥 3 , para 100 < 𝑥
𝑓(𝑥) = {
0 , caso contrário
Determine o valor esperado de vida útil desse tipo de equipamento? R. 200 horas
32. A função de densidade de uma variável aleatória contínua 𝑋 o número total de horas (em
unidade de 100 horas) que uma família usa o aspirador de pó em sua casa, no período de um
ano, é dada por
𝑥 ,0 < 𝑥 < 1
𝑓(𝑥) = { − 𝑥 , 1 ≤ 𝑥 < 2
2
0 , caso contrário
Determine o número médio de horas por ano que as famílias usam seus aspiradores de pó.
R. 100 horas
33. O tempo, em minutos, para que um avião obtenha liberação para decolar de certo
aeroporto é a variável aleatória 𝑌 = 4𝑋 + 3,onde 𝑋 tem função de densidade
𝑥 2 /3 , 𝑠𝑒 − 1 < 𝑥 < 2
𝑓(𝑥) = {
0 , caso contrário
Determine o grau de variabilidade para a variável 𝑌. R. 𝐶𝑉(𝑌) ≅ 39,92%
34. Num laboratório, se um equipamento está funcionando, a função de densidade do
resultado observado 𝑋 é
2(𝑥 − 1) , 𝑠𝑒 1 < 𝑥 < 2
𝑓(𝑥) = {
0 , caso contrário
Determine o grau de variabilidade dos resultados observados.
35. Determine o grau de variabilidade do número de horas em que as famílias usam o
aspirador de pó, do exercício 11.
36. Calcule o coeficiente de variação (𝜌) para cada uma das fdp´s dadas. Comente os
resultados.

𝑓(𝑥) = {
sin 𝑥 , 0 ≤ 𝑥 ≤ 𝜋/2 3𝑥 2 , −1≤𝑥 ≤0
𝑔(𝑥) = {
0 , caso contrário 0, caso contrári𝑜
37. A demanda diária de arroz num supermercado, em centenas de quilos, é uma v.a. com fdp
2𝑥/3 𝑠𝑒 0 ≤ 𝑥 ≤ 1
𝑓(𝑥) = {−𝑥/3 + 1 𝑠𝑒 1 ≤ 𝑥 ≤ 3
0 se x < 0 𝑜𝑢 3 < 𝑥
a) Qual a probabilidade de se vender mais do que 150 kg, num dia escolhido ao acaso/
b) Em 30 dias, quanto o gerente do supermercado espera vender?
c) Qual a quantidade de arroz que deve ser deixada à disposição dos clientes diariamente
para que não falte arroz em 95% dos dias?
38. Certa liga é formada pela mistura fundida de dois metais. A liga resultante contém certa
porcentagem de chumbo, 𝑋, que pode ser considerada uma v.a. com fdp
3
𝑓(𝑥) = 10−5 𝑥(100 − 𝑥) , 0 ≤ 𝑥 ≤ 100
5
Suponha que 𝐿, o lucro líquido obtido na venda dessa liga (por unidade de peso), seja dado
por 𝐿 = 2,35 + 𝑋𝑒 −0,5. Calcule 𝜎(𝐿), o desvio padrão do lucro. R. 𝜎(𝐿) ≅ 13,5624
3.2. Variáveis aleatórias bidimensionais.
Nosso estudo de variáveis aleatórias estava restrito a espaços amostrais unidimensionais,

à medida em que registramos os resultados de um experimento como valores assumidos por
uma única variável aleatória. Entretanto haverá situações em que podemos achar desejável
registrar os resultados simultâneos de duas ou mais variáveis aleatórias. Por exemplo, podemos
medir a quantidade de precipitado 𝑃 e volume 𝑉 de gás liberado de um experimento químico
controlado, dando origem a um espaço de amostragem bidimensional que consiste nos
resultados indicados por pares ordenados da forma (𝑝; 𝑣), ou podemos estar interessados na
dureza 𝐻 e resistência à tração 𝑇 de cobre trefilado a frio, resultando em pares do tipo (ℎ; 𝑡).
Variáveis aleatórias bidimensionais são essenciais para entender as relações e dependências
entre duas características ou medidas em um estudo estatístico. Elas são amplamente utilizadas
em áreas como estatística, econometria, ciências sociais, engenharia e muitas outras disciplinas
para modelar e analisar fenômenos complexos que envolvem múltiplas variáveis aleatórias. Há
casos em que o pesquisador estude espaços amostrais com mais de duas ocorrências. Por
exemplo, num estudo para determinar a probabilidade de sucesso na faculdade com base em
dados do ensino médio, é usado um espaço amostral tridimensional, pois ao registrar para cada

indivíduo a sua pontuação no teste de aptidão 𝑇, sua classificação no ensino médio 𝑀 e média
no final do ano de calouro na faculdade 𝐹, gera ternas da forma (𝑡, 𝑚, 𝑓 ).
Se 𝑋 e 𝑌 são duas variáveis aleatórias conjuntas, a probabilidade para uma ocorrência

simultânea pode ser representada por uma função de duas variáveis com valores reais,
geralmente indicada por 𝑓(𝑥, 𝑦), para qualquer par de valores (𝑥, 𝑦) dentro da faixa das
variáveis aleatórias 𝑋 e 𝑌 Costuma-se referir a esta função como a massa de probabilidade
conjunta de 𝑋 e 𝑌, quando ambas forem discretas ou densidade de probabilidade conjunta de 𝑋
e 𝑌, quando ambas forem contínuas. Os valores 𝑓(𝑥, 𝑦) fornecem a probabilidade de que os
resultados 𝑥 e 𝑦 ocorram simultaneamente, ou seja, ao mesmo tempo. Por exemplo, se um
veículo com 18 rodas tiver seus pneus em serviço e 𝑋 representar o número de quilômetros em
que esses pneus foram conduzidos e 𝑌 representar o número de pneus que precisam ser
substituídos, então 𝑓(30.000; 5) é a probabilidade de os pneus serem usados por 30.000 km e
o caminhão precisar de 5 novos pneus.
Probabilidade conjunta para variáveis aleatórias discretas
Quando as variáveis aleatórias 𝑋 e 𝑌 são ambas discretas é conveniente, então, definirmos

uma função 𝑝(𝑥, 𝑦) para ser a função de distribuição de massa conjunta de probabilidade de 𝑋
e 𝑌 de maneira que 𝑝(𝑥, 𝑦) = 𝑃((𝑋 = 𝑥) ∩ (𝑌 = 𝑦)). Para melhor praticidade usaremos
𝑝(𝑥, 𝑦) = 𝑃(𝑋 = 𝑥, 𝑌 = 𝑦).Assim, sendo 𝑋 e 𝑌 variáveis aleatórias discretas, a função de
distribuição de massa de probabilidade conjunta é uma função 𝑝(𝑥, 𝑦) que satisfaz a
Definição 3.10 A função 𝒑 é dita função massa de probabilidade conjunta para as variáveis
aleatórias discretas 𝑿 e 𝒀, indicada por 𝒑(𝒙, 𝒚) se
1. 𝑝(𝑥, 𝑦) ≥ 0
2. ∑ ∑ 𝑝(𝑥, 𝑦) = 1
𝑥 𝑦
3. 𝑝(𝑥, 𝑦) = 𝑃(𝑋 = 𝑥, 𝑌 = 𝑦)
É importante destacar que a função estabelecida na Definição 3.10 acima fornece

diretamente a probabilidade de ocorrência simultânea da variáveis 𝑿 e 𝒀, exatamente como
ocorre no caso em que estudamos uma única variável aleatória.

Exemplo 3.22 Uma grande agência de seguros presta serviços a diversos clientes que
compraram uma apólice residencial e outra de automóvel da mesma seguradora. Para cada tipo,
deve ser especificado um valor dedutível. Para uma apólice de automóvel as opções são US$
100 e US$ 250, enquanto, para uma apólice residencial, as opções são US$0, US$ 100 e US$
200. Suponha que um indivíduo com os dois referidos tipos seja selecionado aleatoriamente
nos arquivos da seguradora. Deixe X denotar o valor dedutível na apólice de automóvel e Y
valor dedutível na apólice residencial. Os pares (X, Y) possíveis são (100, 0), (100, 100), (100,
200), (250, 0), (250, 100) e (250, 200). Suponha que a fmp conjunta seja dada na tabela de
probabilidade conjunta a seguir:
Tabela 3.1Distribuição de probabilidade conjunta do Exemplo 3.22
𝑦 Totais
𝑝(𝑥, 𝑦)
0 100 200 Linhas
100 0,20 0,10 0,20 0,50
x
250 0,05 0,15 0,30 0,50
Totais
0,25 0,25 0,50 1
Colunas
a fmp conjunta acima especifica a probabilidade associada a cada um dos pares (𝑋, 𝑌), com
qualquer outro parde probabilidade zero. Para entendimento digamos que se queira saber a
probabilidade de ocorrer o par (100, 200). Então, 𝑝(100,200) = 𝑃(𝑋 = 100 , 𝑌 = 200) =
0,20. A probabilidade 𝑃(𝑌 ≥ 100) é obtida pela soma das probabilidades de todos os pares os
quais 𝑦 ≥ 100, assim 𝑃(𝑌 ≥ 100) = 𝑝(100,100) + 𝑝(250,100) + 𝑝(100,200) +
𝑝(250,200) = 0,75.
■
Exemplo 3.23 Duas calculadoras científicas são selecionadas aleatoriamente de uma caixa que
contém 3 calculadoras da marca B, 2 da marca R e 3 da marca G. Se 𝑿 denotar o número de
calculadoras da marca B selecionadas e 𝒀 o número de calculadoras da marca R selecionadas,
encontre
a) a função de probabilidade conjunta 𝒑(𝒙, 𝒚),
b) 𝑷[(𝑿, 𝒀) ∈ 𝑹], onde 𝑹 é a região 𝑹 = {(𝒙, 𝒚) ∶ 𝒙 + 𝒚 ≤ 𝟏}.
Solução: Da leitura do problema, tiramos que os possíveis pares de valores (𝑥, 𝑦) são (0, 0), (0,
1), (1, 0), (1, 1), (0, 2) e (2, 0).
a) Agora, 𝑝(0, 1), por exemplo, representa a probabilidade de que uma calculadora da marca
Ge uma da marca R são selecionadas. O número total de maneiras igualmente prováveis de

selecionar 2 calculadoras dentre as 8 é (82) = 28. O número de maneiras de selecionar 1 da
marca R das 2 disponíveis e 1 da marca G dentre as 3 disponíveis é (21) ⋅ (31) = 6. Assim,

𝑝(0, 1) = 3⁄14. Cálculos similares geram as probabilidades para os outros casos, que são
apresentados na tabela seguinte.
Tabela 3.2 Distribuição de probabilidade conjunta do Exemplo 3.2
𝑦 Totais
𝑝(𝑥, 𝑦)
0 1 2 Linhas
0 3⁄28 6⁄28 1⁄28 10⁄28
x 1 9⁄28 6⁄28 0 15⁄28
2 3⁄28 0 0 3⁄28
Totais
15⁄28 12⁄28 1⁄28 1
Colunas
As probabilidades somadas por linha e por coluna são chamadas de probabilidade marginais.
Note que a soma das probabilidade marginais é exatamente igual a 1. A distribuição de
probabilidade conjunta da tabela pode ser representado pela fórmula
(𝑥3) ⋅ (𝑦2) ⋅ (2−𝑥−𝑦

3
)
𝑝(𝑥, 𝑦) =
(82)
para 𝑥 = 0,1,2; 𝑦 = 0,1,2; 𝑒 0 ≤ 𝑥 + 𝑦 ≤ 2.
b) A probabilidade de que (𝑋, 𝑌) caia na região 𝐴 é
3 3 9 9
𝑃[(𝑋, 𝑌) ∈ 𝐴] = 𝑃(𝑋 + 𝑌 ≤ 1) = 𝑝(0, 0) + 𝑝(0, 1) + 𝑝(1, 0) = + + =
28 14 28 14
■
Assim como a função de distribuição de probabilidade de uma única variável aleatória 𝑋
é assumida como zero em todos os valores fora do intervalo caracterizador de 𝑋, então a função
de distribuição conjunta de probabilidade de 𝑋 e 𝑌 é zero em valores para os quais uma
probabilidade não é especificada, isto é, se o par (𝑥, 𝑦) não pertencer ao intervalo caracterizador
de 𝑝(𝑥, 𝑦) então sua probabilidade será 0(zero).
Probabilidade conjunta para variáveis aleatórias contínuas
A probabilidade de o valor observado de uma v.a. contínua 𝑋 estar em um conjunto

unidimensional 𝐷 (como um intervalo) é obtida integrando-se a fdp de 𝑋 em relação ao conjunto
𝐷. De forma similar, a probabilidade de o par (𝑋, 𝑌), de variáveis contínuas, estar em um

conjunto bidimensional 𝑅 (como uma região no plano cartesiano) é obtida pela integração dupla
de uma função denominada função de densidade conjunta. Quando 𝑋 e 𝑌 são variáveis
aleatórias contínuas, a função de densidade conjunta 𝑓é imaginada como a especificação de
uma superfície de altura 𝑓(𝑥, 𝑦) acima do ponto (𝑥, 𝑦) em um sistema tridimensional. Então
𝑃((𝑋, 𝑌) ∈ 𝑅) é pensado como o volume abaixo dessa superfície sobre a região 𝑅, isto é, o
volume do cilindro delimitado pela base 𝑅 e a superfície gerada por 𝑓(𝑥, 𝑦), onde 𝑅 é qualquer
região no plano 𝑥𝑦. Como indicado na Figura 3.4 abaixo
Figura 3.4
A distribuição conjunta de probabilidade no caso em que 𝑋 e 𝑌 são ambas variáveis

aleatórias contínuas pode ser especificada, fornecendo um método para calcular a probabilidade
de que 𝑋 e 𝑌 assumam um valor em qualquer região 𝑅 do espaço bidimensional. Para obtermos
a probabilidade do par (𝑥, 𝑦) assumir um valor em 𝑅, usamos integração dupla de 𝑓(𝑥, 𝑦) sobre
a região 𝑅, como melhor descrito na Definição 3.11
Definição 3.11 A função 𝒇é dita função densidade de probabilidade conjunta para as variáveis
aleatórias contínuas 𝑿 e 𝒀, indicada por 𝒇(𝒙, 𝒚) se
1. 𝑓(𝑥, 𝑦) ≥ 0
+∞ +∞
2. ∫ ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦𝑑𝑥 = 1
−∞ −∞
3. 𝑃((𝑋, 𝑌) ∈ 𝑅) = ∬ 𝑓(𝑥, 𝑦) 𝑑𝑦𝑑𝑥 , para alguma região 𝑅 ∈ ℝ2

(𝑥,𝑦)∈𝑅
Sendo 𝑿 e 𝒀 variáveis aleatórias contínuas diremos que 𝑿 e 𝒀 são conjuntamente

contínuas se existir uma função 𝒇(𝒙, 𝒚), definida para todo real 𝒙 e 𝒚, satisfazendo as
propriedades da Definição 3.11. Alguns exemplos para melhor compreensão.
Exemplo 3.24 Um banco opera tanto uma instalação de drive-through como em guichê de
atendimento. Em um dia selecionado aleatoriamente, assuma 𝑿 denote a proporção de tempo
em que a instalação de drive-through está em uso (ao menos um cliente está sendo atendido ou
esperando para ser atendido) e 𝒀 a proporção de tempo em que o guichê de atendimento está
em uso. O conjunto de valores possíveis de (𝑿, 𝒀) é, então, o retângulo 𝑹 = {(𝒙, 𝒚): 𝟎 ≤ 𝒙 ≤
𝟏 ; 𝟎 ≤ 𝒚 ≤ 𝟏}. Suponha que a fdp conjunta de (𝑿, 𝒀) seja dada por
6 2
𝑓(𝑥, 𝑦) = {5 (𝑥 + 𝑦 ) 𝑠𝑒 0 ≤ 𝑥 ≤ 1 ; 0 ≤ 𝑦 ≤ 1
0 𝑐𝑐
Elabore argumentos e cálculos para resolver os itens que segue:

a) A função 𝑓(𝑥, 𝑦) definida é de fato uma fdp?
b) Estime a probabilidade de nenhuma das instalações estar ocupada em mais de um quarto do
tempo.
Solução: Para demonstrar o que é pedido no item (a), basta observar as condições postas na
Definição 3.11. Claramente se observa que 𝑓(𝑥, 𝑦) ≥ 0 dentro do retângulo dada. Agora, para
provar que a integral dupla resulta em 1, devemos resolva-la, como abaixo
∞ ∞ 1 1
6
∫ ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦𝑑𝑥 = ∫ ∫ (𝑥 + 𝑦 2 ) 𝑑𝑦𝑑𝑥
−∞ −∞ 0 0 5
1 1 1 1
6 6
= ∫ ∫ 𝑥 𝑑𝑦𝑑𝑥 + ∫ ∫ 𝑦 2 𝑑𝑦𝑑𝑥
0 0 5 0 0 5
1 1
6 6
= ∫ 𝑥 𝑑𝑥 + ∫ 𝑑𝑥
0 5 0 15
6 6
= +
10 15
= 1
Agora, para calcular a probabilidade das instalações estarem ocupadas em mais de um quarto
de tempo, os cálculos são
1⁄4 1⁄4
1 1 6
𝑃 (0 ≤ 𝑋 ≤ ; 0 ≤ 𝑌 ≤ ) = ∫ ∫ (𝑥 + 𝑦 2 ) 𝑑𝑦𝑑𝑥
4 4 0 0 5
1⁄4 1⁄4 1⁄4 1⁄4
6 6 2
= ∫ ∫ 𝑥 𝑑𝑦𝑑𝑥 + ∫ ∫ 𝑦 𝑑𝑦𝑑𝑥
0 0 5 0 0 5
1⁄4 1⁄4
6 1
= ∫ 𝑥 𝑑𝑥 + ∫ 𝑑𝑥
20 0 160 0

6 𝑥=1⁄4 1 𝑥=1⁄4
= ⋅ 𝑥 2 |𝑥=0 + ⋅ 𝑥|𝑥=0
40 160
7
=
640
■
Exemplo 3.25 Deixe a variável aleatória 𝑿 indicar o tempo até que um servidor de computador
se conecte à sua máquina (em milissegundos) e deixe que 𝒀 indique o tempo até que o servidor
o autorize como usuário válido (em milissegundos). Cada uma dessas variáveis aleatórias mede
a espera a partir de um tempo de início comum e 𝑿 < 𝒀. Assuma que a função conjunta de
densidade de probabilidade para 𝑿 e 𝒀 seja
−6
𝑓(𝑥, 𝑦) = {6 × 10 ⋅ 𝑒 −0,001𝑥−0,002𝑦 𝑠𝑒 𝑥 < 𝑦
0 𝑐𝑐
Elabore argumentos e cálculos para resolver os itens que segue:

a) A função 𝑓(𝑥, 𝑦) definida é de fato uma fdp?
b) Estime a probabilidade de que 𝑋 < 1000 e 𝑌 < 2000 milisegundos.
Solução: Para demonstrar o que é pedido no item (a), basta observar as condições postas na
Definição 3.11. Claramente se observa que 𝑓(𝑥, 𝑦) ≥ 0 dentro da região 𝑅 que dada por 𝑥 < 𝑦.
Sugiro o leitor desenhar essa região. Agora, para provar que a integral dupla resulta em 1,
devemos resolvê-la, como abaixo
∞ ∞ ∞ ∞
∫ ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦𝑑𝑥 = ∫ ∫ 6 × 10−6 ⋅ 𝑒 −0,001𝑥−0,002𝑦 𝑑𝑦𝑑𝑥
−∞ −∞ 0 𝑥
∞ ∞
−6 −0,001𝑥
= 6 × 10 ∫ 𝑒 (∫ 𝑒 −0,002𝑦 𝑑𝑦) 𝑑𝑥
0 𝑥
∞ ∞
−6 −0,001𝑥
𝑒 −0,002𝑦
= 6 × 10 ∫ 𝑒 ( | ) 𝑑𝑦
0 −0,002 𝑦=𝑥
∞
= 0,003 ∫ 𝑒 −0,003𝑥 𝑑𝑦
𝑥
∞
𝑒 −0,003𝑥
= 0,003 ⋅ ( | )
−0,003 𝑥=0
1
= 0,003 ⋅ ( )
0,003
= 1

Considerando que 𝑓(𝑥, 𝑦) ≥ 0 para todo 𝑥 ∈ 𝑅, temos que 𝑓(𝑥, 𝑦) assim definida é de fato uma
fdp conjunta. Para calcular a probabilidade do item (b) seguem os cálculos
1000 2000
𝑃(𝑋 < 1000 , 𝑌 < 2000) = ∫ ∫ 6 × 10−6 ⋅ 𝑒 −0,001𝑥−0,002𝑦 𝑑𝑦𝑑𝑥
0 𝑥
1000 2000
= 6 × 10−6 ∫ 𝑒 −0,001𝑥 (∫ 𝑒 −0,002𝑦 𝑑𝑦) 𝑑𝑥
0 𝑥
1000
𝑒 −0,002𝑥 − 𝑒 −4
= 6 × 10−6 ∫ 𝑒 −0,001𝑥 ( ) 𝑑𝑥
0 0,002
1000
= 0,003 ∫ (𝑒 −0,003𝑥 − 𝑒 −0,001𝑥−4 ) 𝑑𝑥
0
1 − 𝑒 −3 𝑒 −4 − 𝑒 −5
= 0,003 [( )−( )]
0,003 0,001
= 0,915
■
Probabilidade acumulada conjunta
Como estamos frequentemente interessados em declarações de probabilidade referentes

a duas variáveis aleatórias é conveniente definirmos, para quaisquer duas variáveis aleatórias
discretas 𝑋 e 𝑌, uma função que forneça a probabilidade da variável 𝑋 ser menor que ou igual
a um número fixo 𝑥 e, de igual forma, a variável 𝑌 ser menor que ou igual a um número fixo 𝑦,
isto é, estabelecer uma função que forneça a probabilidade de 𝑋 ≤ 𝑥 e 𝑌 ≤ 𝑦 simultaneamente.
Para lidar com tais probabilidades, definimos, para quaisquer duas variáveis aleatórias
discretas𝑋 e 𝑌, a função 𝐹(𝑥, 𝑦) tal que
𝐹(𝑥, 𝑦) = 𝑃(𝑋 ≤ 𝑥, 𝑌 ≤ 𝑦) , −∞ < 𝑥, 𝑦 < ∞ (3.23)
Tal função é chamada distribuição acumulada de probabilidade conjunta. A

distribuição acumulada apenas da variável 𝑋 pode ser obtida da distribuição conjunta de 𝑋 e 𝑌
dada em (3.23) como segue:
𝑝𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥)
= 𝑃(𝑋 ≤ 𝑥, 𝑌 < ∞)
= 𝑃 ( lim (𝑋 ≤ 𝑥, 𝑌 ≤ 𝑦) )
𝑦→∞
= lim 𝑃(𝑋 ≤ 𝑥, 𝑌 ≤ 𝑦)
𝑦→∞

= lim 𝐹(𝑥, 𝑦)
𝑦→∞
= 𝐹(𝑥, ∞)
Note que, no conjunto precedente de igualdades, utilizamos o fato de que a probabilidade

é uma função contínua sobre conjuntos (isto é, evento). Da mesma forma, a função de
distribuição cumulativa de 𝑌 é dada por
𝑝𝑌 (𝑦) = 𝑃(𝑌 ≤ 𝑦)
= lim 𝐹(𝑥, 𝑦)
𝑥→∞
= 𝐹(∞, 𝑦)
As funções de distribuição 𝑝𝑋 e 𝑝𝑌 às vezes são chamadas de distribuições marginais

de 𝑋 e 𝑌, e são melhor detalhadas na
Definição 3.12 As funções massa de probabilidade marginais das variáveis aleatórias discretas
𝑿 e 𝒀, representadas respectivamente por 𝒑𝑿 (𝒙) e 𝒑𝒀 (𝒚) são dadas por
𝑝𝑋 (𝑥) = ∑ 𝑝(𝑥, 𝑦) 𝑒 𝑝𝑌 (𝑦) = ∑ 𝑝(𝑥, 𝑦) (3.24)

𝑦 𝑥
O termo marginal é usado aqui por que, no caso discreto, os valores de 𝑝𝑋 (𝑥) e 𝑝𝑌 (𝑦)
são exatamente os totais marginais das respectivas linhas e colunas quando os valores de 𝑝(𝑥, 𝑦)
são dispostos em um tabela retangular. Todas as declarações de probabilidade conjuntas sobre
𝑋 e 𝑌 podem, em teoria, ser respondidas em termos de sua função de distribuição conjunta. Por
exemplo, suponha que nós quiséssemos calcular a probabilidade conjunta de que 𝑋 é maior que
𝑥 e 𝑌 é maior que 𝑦. Isso pode ser feito da seguinte maneira:
𝑃(𝑋 > 𝑥, 𝑌 > 𝑦) = 1 − 𝑃((𝑋 > 𝑥, 𝑌 > 𝑦))′
= 1 − 𝑃((𝑋 > 𝑥)′ ∪ (𝑌 > 𝑦)′)
= 1 − 𝑃((𝑋 ≤ 𝑥) ∪ (𝑌 ≤ 𝑦 ))
= 1 − (𝑃(𝑋 ≤ 𝑥) + 𝑃(𝑌 ≤ 𝑦) − 𝑃(𝑋 ≤ 𝑥, 𝑌 ≤ 𝑦))
= 1 − 𝐹(𝑥, ∞) − 𝐹(∞, 𝑦) + 𝐹(𝑥, 𝑦)
A igualdade final obtida no conjunto de igualdades acima é um caso particular da

igualdade abaixo, cuja verificação é deixada como exercício.
𝑃(𝑎 < 𝑋 ≤ 𝑏 , 𝑐 < 𝑌 ≤ 𝑑) = 𝐹(𝑏, 𝑑) + 𝐹(𝑎, 𝑐) − 𝐹(𝑎, 𝑑) − 𝐹(𝑏, 𝑐)
considerando o fato que 𝑎 < 𝑏 e 𝑐 < 𝑑.
Para variáveis aleatórias contínuas, uma abordagem análoga à que foi usada no caso
discreto é usada para determinar distribuições de probabilidade marginais. Dessa forma a
função de densidade acumulada para as variáveis aleatórias 𝑋 e 𝑌,quando são ambas contínuas,
com fdp igual a 𝑓(𝑥, 𝑦) é definida por
𝐹(𝑥, 𝑦) = 𝑃(𝑋 ∈ (−∞, 𝑥] , 𝑌 ∈ (−∞, 𝑦])

𝑥 𝑦
(3.25)
= ∫ ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦𝑑𝑥
−∞ −∞
e segue, por diferenciação, que

𝜕2
𝑓(𝑥, 𝑦) = 𝐹(𝑥, 𝑦)
𝜕𝑥𝜕𝑦
onde as derivadas parciais são definidas. Outra interpretação da função de densidade conjunta,
obtida da equação (3.25), é
𝑎+𝑑𝑎 𝑏+𝑑𝑏
𝑃(𝑎 < 𝑋 < 𝑎 + 𝑑𝑎, 𝑏 < 𝑌 < 𝑏 + 𝑑𝑏) = ∫ ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦𝑑𝑥 ≈ 𝑓(𝑎, 𝑏)𝑑𝑎𝑑𝑏
𝑎 𝑏
quando 𝑑𝑎 e 𝑑𝑏 são pequenos e 𝑓(𝑥, 𝑦) é contínuo em 𝑎, 𝑏. Portanto, 𝑓(𝑎, 𝑏) é uma medida da

probabilidade de o vetor aleatório (𝑋, 𝑌) estar próximo (𝑎, 𝑏).
Sendo𝐴 e 𝐵 conjuntos de números reais, então, definindo uma região no plano ℝ2 ,

digamos 𝑅 = {(𝑥, 𝑦) ∶ 𝑥 ∈ 𝐴 𝑒 𝑦 ∈ 𝐵}, vemos, segundo a propriedade 3 da Definição 3.11 e a
equação (3.25) que
𝑃(𝑋 ∈ 𝐴, 𝑌 ∈ 𝐵) = ∫ ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦𝑑𝑥 (3.26)

𝐴 𝐵
é verdadeiro para todo 𝐴 e 𝐵.
Se 𝑋 e 𝑌 são conjuntamente contínuas, eles são, individualmente contínuos, e suas

funções de densidade de probabilidade podem ser obtidas da seguinte forma
𝑃(𝑋 ∈ 𝐴) = 𝑃(𝑋 ∈ 𝐴 , 𝑌 ∈ (−∞, ∞))

∞
=
∫ ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦𝑑𝑥
𝐴 −∞
=
∫ 𝑓𝑋 (𝑥) 𝑑𝑥
𝐴
onde

∞
𝑓𝑋 (𝑥) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦
−∞
Esta expressão é a função de densidade de probabilidade de 𝑋. Similarmente, a função de

densidade de probabilidade de 𝑌 é dada por
∞
𝑓𝑌 (𝑦) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑥
−∞
Com isso, deixamos a definição
Definição 3.13 As funções densidade de probabilidade marginais das variáveis aleatórias

contínuas 𝑿 e 𝒀, indicadas respectivamente por 𝒇𝑿 (𝒙) e 𝒇𝒀 (𝒚) são dadas por
∞ ∞
𝑓𝑋 (𝑥) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦 e 𝑓𝑌 (𝑦) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑥 (3.27)
−∞ −∞
Uma probabilidade para apenas uma variável aleatória, digamos, por exemplo,
𝑃(𝑎 < 𝑋 < 𝑏) pode ser encontrada a partir da densidade de probabilidade marginal de 𝑋 ou da
integral da densidade de probabilidade conjunta de 𝑋 e 𝑌.
𝑏 𝑏 ∞ 𝑏 ∞
𝑃(𝑎 < 𝑋 < 𝑏) = ∫ 𝑓(𝑋) (𝑥) 𝑑𝑥 = ∫ [∫ 𝑓(𝑥, 𝑦) 𝑑𝑦] 𝑑𝑥 = ∫ ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦𝑑𝑥
𝑎 𝑎 −∞ 𝑎 −∞
Fica evidente que podemos obter o valor esperado ou média para cada uma das variáveis
𝑋 e 𝑌 usando suas funções de probabilidade marginais. Como exemplo, supondo que 𝑋 e 𝑌 seja
contínuas com função de densidade conjunta de probabilidade𝑓(𝑥, 𝑦), então
∞ ∞
𝐸[𝑋] = ∫ 𝑥𝑓𝑋 (𝑥) 𝑑𝑥 𝑒 𝐸[𝑌] = ∫ 𝑦𝑓𝑌 (𝑦) 𝑑𝑦 (3.28)
−∞ −∞
Exemplo 3.26 Suponha que 3 bolas sejam selecionadas aleatoriamente de uma urna contendo 3
bolas vermelhas, 4 brancas e 5 azuis. Se deixarmos que 𝑿 e 𝒀 denotem, respectivamente, o
número de bolas vermelhas e brancas escolhidas, então a função de massa de probabilidade
conjunta de 𝑿 e 𝒀 tem a forma, 𝒑(𝒊, 𝒋) = 𝑷{𝑿 = 𝒊, 𝒀 = 𝒋}, e está detalhada na tabela abaixo.

𝑦 Soma Linhas
𝑝(𝑥, 𝑦)
0 1 2 3 𝑝𝑋 (𝑥)
0 1⁄22 2⁄11 3⁄22 1⁄55 21⁄55
x
1 3⁄22 3⁄11 9⁄110 0 27⁄55

2 3⁄44 3⁄55 0 0 27⁄220

3 1⁄220 0 0 0 1⁄220
Soma Colunas
14⁄55 28⁄55 12⁄55 1⁄55 1
𝑝𝑌 (𝑦)
Sugiro ao leitor calcular cada uma das probabilidades expostas na tabela. Para ajudar,
deixarei o cálculo de 𝑷(𝑿 = 𝟏, 𝒀 = 𝟐) como abaixo
(31) ⋅ (42) 18 9
𝑃(1,2) = = =
(12
3
) 220 110
Analisando a tabela, vê-se a fdp marginal das variáveis 𝑋 = 0 e 𝑌 = 2 respectivamente são

𝑝𝑋 (0) = 21⁄55 e 𝑝𝑌 (2) = 12⁄55.
■
Exemplo 3.27 Sobre os dados do Exemplo 3.24, a fdp marginal de 𝑿, que fornece a distribuição
de probabilidades do tempo ocupado para a instalação de drive through sem referência à janela
de atendimento, é
∞ 0
6 6 2
𝑓𝑋 (𝑥) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦 = ∫ (𝑥 + 𝑦 2 ) 𝑑𝑦 = 𝑥 +
−∞ 1 5 5 5
para 0 ≤ 𝑥 ≤ 1 e 0 caso contrário. Já para a fdp marginal de 𝑌 a expressão é
6 2 3
𝑓𝑌 (𝑦) = {5 𝑦 + 5 , 𝑠𝑒 0 ≤ 𝑦 ≤ 1
0 , 𝑐𝑐
1 3
Com isso, se desejarmos, por exemplo, descobri a probabilidade 𝑃 (4 ≤ 𝑌 ≤ 4) basta usar a sua
fdp marginal de 𝑌, como abaixo.
3
1 3 4 37
𝑃 ( ≤ 𝑌 ≤ ) = ∫ 𝑓𝑌 (𝑦) 𝑑𝑦 = ≅ 0,4625
4 4 1 80
4
Variáveis aleatórias independentes

Na seção 3.1, afirmamos que o valor 𝑥 da variável aleatória 𝑋 representa um evento que
é um subconjunto do espaço amostral. Se usarmos a definição de probabilidade condicional
como declarado no Capítulo 2 e reproduzida em (3.29)
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴|𝐵) = , 𝑐𝑜𝑚 𝑃(𝐵) > 0 (3.29)
𝑃(𝐵)
onde 𝐴 e 𝐵 são agora os eventos definidos por 𝑋 = 𝑥 e 𝑌 = 𝑦, respectivamente, teremos então,
𝑃(𝑋 = 𝑥, 𝑌 = 𝑦) 𝑝(𝑥, 𝑦)
𝑃(𝑌 = 𝑦|𝑋 = 𝑥) = = desde que 𝑝𝑋 (𝑥) > 0
𝑃(𝑋 = 𝑥) 𝑝𝑋 (𝑥)
onde 𝑋 e 𝑌 são variáveis aleatórias discretas. Não é difícil mostrar que a função 𝑝(𝑥, 𝑦)⁄𝑝𝑋 (𝑥),
que é estritamente uma função de 𝑦 com 𝑥 fixo, satisfaz todas as condições de uma distribuição
de probabilidade. Isso também é verdade quando 𝑓(𝑥, 𝑦) e 𝑓𝑋 (𝑥) são a densidade conjunta e a
distribuição marginal, respectivamente, de variáveis aleatórias contínuas. Como resultado, é
extremamente importante que façamos uso do tipo especial de distribuição da forma
𝑝(𝑥, 𝑦)⁄𝑝𝑋 (𝑥) para poder calcular efetivamente as probabilidades condicionais no caso em que
𝑋e 𝑌 são ambas discretas. Este tipo de distribuição é chamado de distribuição de probabilidade
condicional.
Definição 3.14 Suponha serem 𝑿 e 𝒀 variáveis aleatórias discretas, então a distribuição

condicional da variável aleatória 𝒀, dado que 𝑿 = 𝒙 é
𝑝(𝑥, 𝑦)
𝑝𝑌|𝑥 (𝑦) = , 𝑝𝑋 (𝑥) > 0 (3.30)
𝑝𝑋 (𝑥)
Similarmente a distribuição condicional da variável aleatória 𝑋, dado que 𝑌 = 𝑦
𝑝(𝑥, 𝑦)
𝑝𝑋|𝑦 (𝑥) = , 𝑝𝑌 (𝑦) > 0 (3.31)
𝑝𝑌 (𝑦)
No caso em que 𝑋 e 𝑌 são ambas contínuas, use nas fórmulas acima, a função densidade
𝑓(𝑥, 𝑦) e as densidades marginais 𝑓𝑌 (𝑦) e 𝑓𝑋 (𝑥). Observe que a definição de 𝑝𝑌|𝑥 (𝑦)
corresponde à de 𝑃(𝐴|𝐵), a probabilidade condicional da ocorrência de 𝐴, dado que 𝐵 tenha
ocorrido. Isto se dá por que em muitas situações, as informações sobre o valor observado de
uma das duas variáveis 𝑋e 𝑌 fornecem dados sobre o valor da outra variável. No Exemplo 3.22,

a probabilidade marginal de 𝑋 em 𝑥 = 250 era 0,5, como a probabilidade de 𝑋 = 100. Se,

entretanto, dissessem-nos que a pessoa selecionada tinha 𝑌 = 0, então, 𝑋 = 100 é quatro vezes
mais provável que 𝑋 = 250. Portanto, há uma dependência entre as duas variáveis.
No Capítulo 2, apontamos que uma forma de definir a independência de dois eventos é

dizer que 𝐴 e 𝐵 são independentes, se 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵). Eis uma definição análoga da
independência de duas variáveis aleatórias. Por analogia com eventos independentes definimos
duas variáveis aleatórias para serem independentes sempre que a função de probabilidade
conjunta foi igual ao produto das funções de probabilidade marginais de 𝑋 e 𝑌 para todo 𝑥 e 𝑦.
Observe que a independência implica que 𝑝(𝑥, 𝑦) = 𝑝𝑋 (𝑥) ⋅ 𝑝𝑌 (𝑦) se 𝑋 e 𝑌 são ambas discretas
ou 𝑓(𝑥, 𝑦) = 𝑓𝑋 (𝑥) ⋅ 𝑓𝑌 (𝑦) se são ambas contínuas. Se encontrarmos um valor de 𝑥 e 𝑦 no qual
a igualdade falha, 𝑋 e 𝑌 não são independentes. Verificar a independência estatística de
variáveis aleatórias discretas requer uma investigação mais completa, uma vez que é possível
ter o produto das distribuições marginais igual à distribuição de probabilidade conjunta para
alguns pares, mas não para todas as combinações de (𝑥, 𝑦). A definição seguinte ilustra mais
claramente essa ideia.
Definição 3.15 Duas variáveis aleatórias 𝑿 e 𝒀 são ditas estatisticamente independentes se,
para quaisquer dois conjuntos de números reais 𝑨 e 𝑩 tivermos
𝑃(𝑋 ∈ 𝐴, 𝑌 ∈ 𝐵) = 𝑃(𝑋 ∈ 𝐴 ) ⋅ 𝑃(𝑌 ∈ 𝐵)
Se a Definição 3.15 não for satisfeita para todos os pares (𝑥, 𝑦), então 𝑋 e 𝑌 são ditas
estatisticamente dependentes. Em outras palavras, as variáveis aleatórias 𝑋 e 𝑌 são
independentes se, para todo 𝐴 e 𝐵, os eventos 𝐸𝐴 = {𝑋 ∈ 𝐴} e 𝐸𝐵 = {𝑌 ∈ 𝐵} são independentes.
Assim, em termos da função de distribuição acumulada conjunta 𝐹(𝑥, 𝑦) teremos que 𝑋 e 𝑌 são
independentes se, e somente se,
(3.32)
𝐹(𝑥, 𝑦) = 𝐹𝑋 (𝑥) ⋅ 𝐹𝑌 (𝑦) , 𝑝𝑎𝑟𝑎 𝑡𝑑𝑜𝑠 𝑥, 𝑦
E mais, quando 𝑋 e 𝑌 são ambas variáveis aleatórias discretas, a condição de

independência dada na Definição 3.15 é equivalente a
𝑝(𝑥, 𝑦) = 𝑝𝑋 (𝑥) ⋅ 𝑝𝑌 (𝑦) , 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑥, 𝑦 (3.33)

a equivalência segue porque, se a equação expressa na Definição 3.15 for satisfeita, então
obtemos a equação (3.33) deixando 𝐴 e 𝐵 ser, respectivamente, os conjuntos de um ponto 𝐴 =
{𝑥} e 𝐵 = {𝑦}. Além disso, se a equação (3.33) for válida, então, para quaisquer conjuntos 𝐴,
𝐵, é possível provar a equação da Definição 3.15.
No caso em que 𝑋 e 𝑌 são conjuntamente contínuas, a condição de independência é

equivalente a
𝑓(𝑥, 𝑦) = 𝑓𝑋 (𝑥) ⋅ 𝑓𝑌 (𝑦), 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑥, 𝑦 (3.34)
Assim, falando frouxamente, 𝑋 e 𝑌 são independentes se conhecermos o valor de uma

não faz alterar a distribuição da outra. Muitas vezes, com base no conhecimento do sistema em
estudo, as variáveis aleatórias são consideradas independentes, e, então, as probabilidades
envolvendo ambas as variáveis podem ser determinadas a partir das distribuições de
probabilidade marginais.
Exemplo 3.28 Suponha que 3% das famílias de uma determinada comunidade não tenham
filhos; 14,5% tenham 1 filho; 25% tenham 2 filhos; 25,5% tenham 3; 20% tenham 4 filhos; 8%
tenham; 5 filhos e 4% tenham 6 filhos. Suponha ainda que, em cada família, cada criança tenha
a mesma probabilidade (independentemente) de ser uma criança menino ou menina. Se uma
família for escolhida aleatoriamente desta comunidade, então 𝑿, o número de meninos e 𝒀, o
número de meninas, nessa família terá a função de massa de probabilidade conjunta mostrada
na tabela seguinte.
𝑦 Soma Linhas
𝑝(𝑥, 𝑦)
0 1 2 3 𝑝𝑋 (𝑥)
0 0,03 0,07 0,06 0,04 0,20
1 0,075 0,175 0,15 0,10 0,50
x
2 0,015 0,035 0,03 0,02 0,10
3 0,03 0,07 0,06 004 0,20
Soma Colunas
0,15 0,35 0,30 0,20 1
𝑝𝑌 (𝑦)
É simples ferificar que 𝑝(𝑥𝑖 , 𝑦𝑗 ) = 𝑝𝑋 (𝑥𝑖 ) ⋅ 𝑝𝑌 (𝑦𝑗 ) para todo 𝑖, 𝑗 variando de 1 a 3. Portanto,
as variáveis 𝑋 e 𝑌 descritas no Exemplo 3.28 são estatísticamente independentes.
■

Exemplo 3.29 Reconsidere a situação do Exemplo 3.24 que envolvem 𝑿 como proporção de
tempo em que o guichê de automóveis de um banco está ocupado e 𝒀como proporção análoga
para o guichê de atendimento a pessoas. A fdp condicional de 𝒀 dado que 𝑿 = 𝟎, 𝟖 é
𝑓(0,8; 𝑦) 1,2 ⋅ (0,8 + 𝑦 2 ) 1
𝑓𝑌|0,8 (𝑦) = = = (24 + 30𝑦 2 ) , 0 < 𝑦 < 1
𝑓𝑋 (0,8) 1,2 ⋅ 0,8 + 0,4 34
A probabilidade de o guichê de pessoas estar ocupado no máximo metade do tempo, dado que
𝑋 = 0,8 é
0,5 0,5
1
𝑃(𝑌 ≤ 0,5|𝑋 = 0,8) = ∫ 𝑓𝑌|0,8 (𝑦) 𝑑𝑦 = ∫ (24 + 30𝑦 2 ) 𝑑𝑦 ≅ 0,390
−∞ 0 34
Se usar diretamente a fdp marginal de 𝑌 o resultado fornecido seria 𝑃(𝑌 ≤ 0,5) = 0,350. Além
disse, 𝐸[𝑌] = 0,6 (verifique!), enquanto a proporção esperada de tempo em que o guichê de
pessoas está ocupado, dado que 𝑋 = 0,8 (uma expectativa condicional) é
∞
1 1
𝐸[𝑌|0,8] = ∫ 𝑦 ⋅ 𝑓𝑌|0,8 (𝑦) 𝑑𝑦 = ∫ 𝑦(24 + 30𝑦 2 ) 𝑑𝑦 = 0,574
−∞ 34 0
■
Exemplo 3.30 A função de densidade conjunta de 𝑿 e 𝒀 é dada por
𝟐𝒆−𝒙−𝟐𝒚 , 𝒔𝒆 𝟎 < 𝒙 < ∞ , 𝟎 < 𝒚 < ∞

𝒇(𝒙, 𝒚) = {
𝟎 , 𝒄𝒄
Elabore argumentos e cálculos para resolver cada um dos itens que segue
a) Obtenha 𝑃(𝑋 > 1, 𝑌 < 1); 𝑃(𝑋 < 𝑌) e 𝑃(𝑋 < 𝑎)
b) Obtenha as funções de densidades marginais de 𝑓(𝑥, 𝑦).
c) Mostrar que 𝑋 e 𝑌 são estatisticamente independentes
Solução: Usando o conceito dada em (3.26) então o item (a) fica
∞ 1
𝑃(𝑋 > 1, 𝑌 < 1) = ∫ ∫ 2𝑒 −𝑥 𝑒 −2𝑦 𝑑𝑦𝑑𝑥 𝑃(𝑋 < 𝑌) = ∬ 2𝑒 −𝑥−2𝑦 𝑑𝑦𝑑𝑥
1 0
(𝑥,𝑦):𝑥<𝑦
∞ −2𝑦 𝑦=1 ∞ 𝑦
−𝑥
𝑒
= ∫ 2𝑒 ( | ) 𝑑𝑥 = ∫ ∫ 2𝑒 −2𝑦 𝑒 −𝑥 𝑑𝑥𝑑𝑦
1 −2 𝑦=0 0 0
∞ ∞
1 1
= ∫ 2𝑒 −𝑥 ( − 𝑒 −2 ) 𝑑𝑥 = ∫ 2𝑒 −2𝑦 (1 − 𝑒 −𝑦 ) 𝑑𝑥
1 2 2 0
∞
2
= (1 − 𝑒 −2 ) ∫ 𝑒 −𝑥 𝑑𝑥 = 1−
1 3
1
= 𝑒 −1 (1 − 𝑒 −2 ) =
3

𝑎 ∞
𝑃(𝑋 < 𝑎) = ∫ ∫ 2𝑒 −𝑥 𝑒 −2𝑦 𝑑𝑦𝑑𝑥
0 0
𝑎
−𝑥
= ∫ 𝑒 𝑑𝑥
0
= 1 − 𝑒 −𝑎
Para o item (b) consideraremos a Definição 3.13, dessa forma teremos
∞ ∞
𝑓𝑋 (𝑥) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦 = ∫ 2𝑒 −𝑥 𝑒 −2𝑦 𝑑𝑦 = 𝑒 −𝑥
−∞ 0
e
∞ ∞
𝑓𝑌 (𝑦) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑥 = ∫ 2𝑒 −𝑥 𝑒 −2𝑦 𝑑𝑥 = 2𝑒 −2𝑦
−∞ 0
Para responder o item (c) temos que ter em mente o que significa duas variáveis aleatórias
contínuas serem independentes. Perceba que
𝑓(𝑥, 𝑦) = 2𝑒 −𝑥−2𝑦 = 𝑒 −𝑥 ⋅ 2𝑒 −2𝑦 = 𝑓𝑋 (𝑥) ⋅ 𝑓𝑌 (𝑦)
Portanto a equação (3.34) é satisfeita, e, dessa forma concluímos que as varáveis 𝑋 e 𝑌 são
estatisticamente independentes.
■
Exemplo 3.31 A densidade conjunta para as variáveis aleatórias 𝑿 e 𝒀, onde 𝑿 denota a

mudança de temperatura unitária e 𝒀 denota a proporção de deslocamento do espectro que uma
certa partícula atômica produz, é
𝟏𝟎𝒙𝒚𝟐 , 𝟎 < 𝒙 < 𝒚 < 𝟏
𝒇(𝒙, 𝒚) = {
𝟎 , 𝒄𝒄
a) Encontre as densidades marginais 𝒇𝑿 (𝒙), 𝒇𝒀 (𝒚) e a densidade condicional 𝒇𝒀|𝒙 (𝒚).
b) Encontre a probabilidade de que o espectro mude mais de metade do total de observações,
dado que a temperatura é aumentada em 0,25 unidades.
Solução: (a) Por definição temos,
∞ ∞
𝑓𝑋 (𝑥) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦 𝑓𝑌 (𝑦) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑥
−∞ −∞
1 𝑦
= ∫ 10𝑥𝑦 2 𝑑𝑦 = ∫ 10𝑥𝑦 2 𝑑𝑥
𝑥 0
10 3 𝑦=1 10 2 2 𝑥=𝑦
= 𝑥𝑦 | = 𝑦 𝑥 |
3 𝑦=𝑥 2 𝑥=0
10
= 𝑥(1 − 𝑥 3 ), 0 < 𝑥 < 1 = 5𝑦 4 , 0 < 𝑦 < 1
3

Logo,
10
𝑓𝑋 (𝑥) = 𝑥(1 − 𝑥 3 ), 0<𝑥<1 e 𝑓𝑌 (𝑦) = 5𝑦 4 , 0<𝑦<1
3
Agora, para a 𝑓𝑌|𝑥 (𝑦) façamos como no texto.

𝑓(𝑥, 𝑦) 10𝑥𝑦 2 3𝑦 2
𝑓𝑌|𝑥 (𝑦) = = 10 = 3
,0 < 𝑥 < 𝑦 < 1
𝑓𝑋 (𝑥) 𝑥(1 − 𝑥 3 ) 1 − 𝑥
3
Portanto,
3𝑦 2
𝑓𝑌|𝑥 (𝑦) = ,0 < 𝑥 < 𝑦 < 1
1 − 𝑥3
1
Para responder o item (b) é só observar que o pedido é traduzido por 𝑃 (𝑦 > 2 |𝑋 = 0,25).Com
isso obtemos
∞ ∞
1 3𝑦 2 8
𝑃 (𝑦 > 2 |𝑋 = 0,25) = ∫ 𝑓𝑌|0,25 (𝑦) 𝑑𝑦 − ∫ 𝑑𝑦 =
1 1 1 − (0,25)3 9
2 2
1
Ou seja, 𝑃 (𝑦 > 2 |𝑋 = 0,25) = 0,8889
Valor esperado, covariância e correlação
Vimos anteriormente que qualquer função 𝑔(𝑋) de uma única v.a. 𝑋 é, por si mesma,
uma variável aleatória. Entretanto, para calcular 𝐸[𝑔(𝑋)], não foi necessário obter a
distribuição de probabilidades de 𝑔(𝑋); ao contrário, 𝐸[𝑔(𝑋)] foi calculado como uma média
ponderada dos valores de 𝑔(𝑋), em que a função distribuição foi a fmp 𝑝(𝑥) da própria v.a. 𝑋
(ou a função densidade 𝑓(𝑥), no caso contínuo). O leitor pode verificar isso nos Teorema 3.1 e
Teorema 3.3. Um resultado semelhante é obtido para a função 𝑔(𝑋, 𝑌) de duas variáveis, isto é,
um análogo bidimensional desses resultados, que fornecem fórmulas computacionais para
calcular o valor esperado de uma função 𝑔 de duas variáveis. Suponha que 𝑋 e 𝑌 sejam variáveis
aleatórias e 𝑔(𝑋, 𝑌) seja uma função de duas variáveis, então temos o seguinte resultado.
Teorema 3.5 Suponha 𝑿 e 𝒀 como variáveis aleatórias conjuntas com 𝒑(𝒙, 𝒚) ou 𝒇(𝒙, 𝒚),
conforme 𝑿 e 𝒀 sejam ambas discretas ou contínuas. Então, o valor esperado de uma função
𝒈(𝑿, 𝒀) é dado por

𝜇𝑔(𝑋,𝑌) = 𝐸[𝑔(𝑋, 𝑌)] = ∑ ∑ 𝑔(𝑥, 𝑦) 𝑝(𝑥, 𝑦) 𝑠𝑒 𝑋 𝑒 𝑌 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑎𝑠

𝑥 𝑦
∞ ∞ (3.35)
𝜇𝑔(𝑋,𝑌) = 𝐸[𝑔(𝑋, 𝑌)] = ∫ ∫ 𝑔(𝑥, 𝑦) 𝑓(𝑥, 𝑦) 𝑠𝑒 𝑋 𝑒 𝑌 𝑐𝑜𝑛𝑡í𝑛𝑢𝑎𝑠
−∞ −∞
Na prática, quando se trabalha com duas variáveis aleatórias, frequentemente nos

deparamos com a necessidade de se trabalhar com a função 𝑔(𝑋, 𝑌) = 𝑋𝑌. Se nas equações
(3.35) acima consideramos 𝑔(𝑋, 𝑌) = 𝑋𝑌 é imediato que
𝜇𝑋𝑌 = 𝐸[𝑋𝑌] = ∑ ∑ 𝑥𝑦 𝑝(𝑥, 𝑦) 𝑠𝑒 𝑋 𝑒 𝑌 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑎𝑠

𝑥 𝑦
∞ ∞ (3.36)
𝜇𝑋𝑌 = 𝐸[𝑋𝑌] = ∫ ∫ 𝑥𝑦 𝑓(𝑥, 𝑦) 𝑠𝑒 𝑋 𝑒 𝑌 𝑐𝑜𝑛𝑡í𝑛𝑢𝑎𝑠
−∞ −∞
Sendo 𝑋 e 𝑌 variáveis aleatórias independentes, então o valor esperado do produto 𝑋𝑌 é

o produto das médias. Isso pode ser representado simbolicamente por
𝐸[𝑋𝑌] = 𝐸[𝑋] ⋅ 𝐸[𝑌] (3.37)
e, mais, esta relação é verdadeira nos caso em que 𝑋 e 𝑌 são ambas discretas ou ambas
contínuas. Quando duas variáveis aleatórias X e Y não são independentes, geralmente é de
interesse avaliar quão fortemente estão relacionadas uma com a outra. Para isso estudamos o
grau linear de relacionamento. A definição seguinte nos fornece uma ferramenta para este tipo
de análise.
Definição 3.16 A covariância entre duas variáveis aleatórias conjuntas 𝑿 e 𝒀 é dada por
𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[(𝑋 − 𝐸[𝑋]) ∙ (𝑌 − 𝐸[𝑌])]
O fundamento lógico exposto na Definição 3.16 é o seguinte. Suponha que 𝑋 e 𝑌 tenham

uma relação positiva forte entre si, pela qual queremos dizer que valores grandes de 𝑋 tendem
a ocorrer com valores grandes de 𝑌, e valores pequenos de 𝑋, com valores pequenos de 𝑌.
Então, a maior parte da massa ou densidade de probabilidade estará associada a (𝑥 − 𝜇𝑋 ) e
(𝑦 − 𝜇𝑌 ), ambos positivos (𝑋 e 𝑌 acima de suas respectivas médias) ou ambos negativos, de
modo que o produto (𝑥 − 𝜇𝑋 )(𝑦 − 𝜇𝑌 ) tende a ser positivo. Dessa forma, para uma relação
positiva forte, a 𝐶𝑜𝑣(𝑋, 𝑌) deve ser positiva. Para uma relação negativa forte, os sinais de (𝑥 −
𝜇𝑋 ) e (𝑦 − 𝜇𝑌 ) tenderão a seropostos, levando a um produto negativo. Assim, para uma relação

negativa forte, a 𝐶𝑜𝑣(𝑋, 𝑌) deve ser negativa. Se 𝑋 e 𝑌 não estão fortemente relacionadas, os
produtos positivo e negativo tenderão a cancelar um ao outro, produzindo uma 𝐶𝑜𝑣(𝑋, 𝑌)
próxima de 0. A figura seguinte exibe as diferentes possibilidades.
Figura 3.5
A covariância depende tanto do conjunto de pares possíveis como das probabilidades. Na

figura acima, as probabilidades poderiam ser trocadas sem alterar o conjunto de pares possíveis,
o que pode mudar drasticamente o valor de 𝐶𝑜𝑣(𝑋, 𝑌). Note que em Figura (a) temos uma
𝐶𝑜𝑣(𝑋, 𝑌) positiva, enquanto que em Figura (b) a 𝐶𝑜𝑣(𝑋, 𝑌) é negativa. Já em Figura (c) a
𝐶𝑜𝑣(𝑋, 𝑌) é praticamente nula. É fácil ver que desenvolvendo os parênteses na Definição 3.16
obtemos uma forma alternativa de calcular a covariância, a saber,
𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[𝑋𝑌] − 𝐸[𝑋]𝐸[𝑌] (3.38)
A covariância entre duas variáveis aleatórias é uma medida da natureza da associação

entre os dois. Quando 𝑋 e 𝑌 são estatisticamente independentes, pode ser mostrado que a
covariância é zero. O contrário, no entanto, não é geralmente verdade. Duas variáveis podem
ter covariância zero e ainda não serem estatisticamente independentes. Observe que a
covariância descreve apenas o relacionamento linear entre duas variáveis aleatórias. Portanto,
se uma covariância entre 𝑋 e 𝑌 for zero, 𝑋 e 𝑌 podem ter um relacionamento não linear, o que
significa que não são necessariamente independentes. Embora a covariância entre duas
variáveis aleatórias forneça informações sobre a natureza da relação, a magnitude de 𝐶𝑜𝑣(𝑋, 𝑌)
não indica nada em relação à força da relação, uma vez que 𝐶𝑜𝑣(𝑋, 𝑌) não é livre de escala.
Sua magnitude dependerá das unidades usadas para medir 𝑋 e 𝑌. O seguinte teorema lista
algumas das propriedades da covariância.
Teorema 3.6 Sendo 𝑿 e 𝒀 variáveis aleatórias, então

(I) 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐶𝑜𝑣(𝑌, 𝑋)

(II) 𝐶𝑜𝑣(𝑋, 𝑋) = 𝑉𝑎𝑟(𝑋)
(III) 𝐶𝑜𝑣(𝑎𝑋, 𝑌) = 𝑎𝐶𝑜𝑣(𝑋, 𝑌)
𝑛 𝑚 𝑛 𝑚
(IV) 𝐶𝑜𝑣 (∑ 𝑋𝑖 , ∑ 𝑌𝑗 ) = ∑ ∑ 𝐶𝑜𝑣(𝑋𝑖 , 𝑌𝑗 )

𝑖−1 𝑗=1 𝑖=1 𝑗=1
Existe uma versão livre de escala da covariância chamada coeficiente de correlação que
é amplamente usada em estatística, e está exposto na
Definição 3.17 Suponha 𝑿 e 𝒀como variáveis aleatórias conjuntas com covariância 𝑪𝒐𝒗(𝑿, 𝒀)
e desvio padrão 𝝈𝑿 e 𝝈𝒀 respectivamente. O coeficiente de correlação de 𝑿 e de 𝒀 é dado por
𝐶𝑜𝑣(𝑋, 𝑌)
𝜌𝑋𝑌 =
𝜎𝑋 ⋅ 𝜎𝑌
Deve ficar claro para o leitor que 𝜌𝑋𝑌 está livre das unidades de 𝑋 e 𝑌. O coeficiente de
correlação satisfaz a desigualdade −1 ≤ 𝜌𝑋𝑌 ≤ 1. Assume-se um valor zero quando
𝐶𝑜𝑣(𝑋, 𝑌) = 0, isto significa que as variáveis 𝑋 e 𝑌 são não correlacionadas. Onde existe uma
dependência linear perfeita, digamos 𝑌 ≡ 𝑎 + 𝑏𝑋, teremos 𝜌𝑋𝑌 = +1 se 𝑏 > 0 e 𝜌𝑋𝑌 = −1 se
𝑏 < 0. O coeficiente de correlação é o assunto de mais discussão no Capítulo 8, onde lidamos
com regressão linear .
Exemplo 3.32 Suponha que estamos interessados em estudar a composição das famílias com
três crianças, quanto ao sexo. Deixe 𝑿 indicar o número de meninos 𝒀 o número de meninas.
Suponha ainda que as possíveis composições tenham a mesma probabilidade, Assim, obtemos
a tabela seguinte.
𝑌 Soma Linhas
𝑝(𝑥, 𝑦)
0 1 2 3 𝑝𝑋 (𝑥)
0 0 0 0 1⁄8 1⁄8
1 0 0 3⁄8 0 3⁄8
𝑋
2 0 3⁄8 0 0 3⁄8
3 1⁄8 0 0 0 1⁄8
Soma Colunas
1⁄8 3⁄8 3⁄8 1⁄8 1
𝑝𝑌 (𝑦)
Consultando a tabela obtemos os valores abaixo:

1 3 3 1 12
𝐸[𝑋] = ∑ 𝑥𝑝𝑋 (𝑥) = 0 ⋅ 8 + 1 ⋅ 8 + 2 ⋅ 8 + 3 ⋅ 8 = 8 = 1,5
𝑥
1 3 3 1 12
𝐸[𝑌] = ∑ 𝑦𝑝𝑌 (𝑦) = 0 ⋅ 8 + 1 ⋅ 8 + 2 ⋅ 8 + 3 ⋅ 8 = 8 = 1,5
𝑦
2 2
1 2
3 2
3 2
1 24
𝐸[𝑋 2 ] = ∑ 𝑥 𝑝𝑋 (𝑥) = 0 ⋅ 8 + 1 ⋅ 8 + 2 ⋅ 8 + 3 ⋅ 8 = 8 = 3
𝑥
2 2
1 2
3 2
3 2
1 24
𝐸[𝑌 2 ] = ∑ 𝑦 𝑝𝑌 (𝑦) = 0 ⋅ 8 + 1 ⋅ 8 + 2 ⋅ 8 + 3 ⋅ 8 = 8 = 3
𝑦
𝑉𝑎𝑟[𝑋] = 𝐸[𝑋 2 ] − (𝐸[𝑋])2 = 3 − (1,5)2 = 0,75
𝑉𝑎𝑟[𝑌] = 𝐸[𝑌 2 ] − (𝐸[𝑌])2 = 3 − (1,5)2 = 0,75

1 3 3 1 12
𝐸[𝑋𝑌] = ∑ ∑ 𝑥𝑦 𝑝(𝑥, 𝑦) = 3 ⋅ 0 ⋅ 8 + 2 ⋅ 1 ⋅ 8 + 1 ⋅ 2 ⋅ 8 + 0 ⋅ 3 ⋅ 8 = 8 = 1,5
𝑥 𝑦
ou seja,
𝐸[𝑋] = 𝐸[𝑌] = 1,5
𝜎(𝑋) = 𝜎(𝑌) = √0,75
𝐸[𝑋𝑌] = 1,5
Portanto, usando (3.38) obtemos 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[𝑋𝑌] − 𝐸[𝑋]𝐸[𝑌] = −0,75 e o coeficiente de

𝐶𝑜𝑣(𝑋,𝑌)
correlação consequentemente será 𝜌(𝑋, 𝑌) = 𝜎(𝑋)𝜎(𝑌) = −1. Uma análise detalhada na tabela
revela que a relação entre as variáveis 𝑋 e 𝑌 é 𝑌 = 3 − 𝑋. Portanto o resultado da correlaçãojá

era esperado.
■
Exemplo 3.33 Considere duas variáveis aleatórias contínuas 𝑿 e 𝒀 tais que a função densidade
conjunta entre elas seja como abaixo
𝒙+𝒚 , 𝟎<𝒙<𝟏 𝒆 𝟎<𝒚<𝟏
𝒇(𝒙, 𝒚) = {
𝟎 , 𝒄𝒄
Calculando as funções marginais de cada variável obtemos

∞ 1
1
𝑓𝑋 (𝑥) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦 = ∫ (𝑥 + 𝑦) 𝑑𝑦 = 𝑥 + , 0<𝑥<1
−∞ 0 2
∞ 1
1
𝑓𝑌 (𝑦) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑥 = ∫ (𝑥 + 𝑦) 𝑑𝑥 = 𝑦 + , 0 < 𝑦 < 1
{ −∞ 0 2
Agora, a partir delas obtemos
∞ 1
1 7
𝐸[𝑋] = ∫ 𝑥𝑓𝑋 (𝑥) 𝑑𝑥 = ∫ 𝑥 (𝑥 + ) 𝑑𝑥 = = 𝐸[𝑌]
−∞ 0 2 12
∞ 1
2]
1 5
𝐸[𝑋 = ∫ 𝑥 2 𝑓𝑋 (𝑥) 𝑑𝑥 = ∫ 𝑥 2 (𝑥 + ) 𝑑𝑥 = = 𝐸[𝑌 2 ]
−∞ 0 2 12
5 7 2 11
𝑉𝑎𝑟[𝑋] = 𝐸[𝑋 2 ] − (𝐸[𝑋])2 = −( ) = = 0,07634 = 𝑉𝑎𝑟 [𝑌]
12 12 144
1 1 1 1 1
𝑦 𝑦2 1
𝐸[𝑋𝑌] = ∫ ∫ 𝑥𝑦𝑓(𝑥, 𝑦) 𝑑𝑥𝑑𝑦 = ∫ ∫ 𝑥𝑦(𝑥 + 𝑦) 𝑑𝑥𝑑𝑦 = ∫ ( + ) 𝑑𝑦 =
0 0 0 0 0 3 2 3
Com isso, usando (3.38) obtemos 𝐶𝑜𝑣(𝑋, 𝑌) = − 1⁄144 e consequentemente o coeficiente de

𝐶𝑜𝑣(𝑋,𝑌)
correlação será 𝜌(𝑋, 𝑌) = 𝜎(𝑋)𝜎(𝑌) = − 1⁄11 = −0,091. Este resultado sugere que as variáveis
𝑋 e 𝑌 apresentam uma baixa correlação, ou seja, são praticamente não correlacionadas.

■
Exemplo 3.34 A fração 𝑿 de corredores do sexo masculino e a fração 𝒀 de corredoras do sexo

feminino que competem em uma maratona ssão descritas pela função de densidade conjunta
𝒇(𝒙, 𝒚) = 𝟖𝒙𝒚, se 𝟎 ≤ 𝒚 ≤ 𝒙 ≤ 𝟏 e 𝒇(𝒙, 𝒚) = 𝟎 caso contrário. Se desejarmos estimar a
intensidade da possível relação entre essas variáveis precissamos obter o coeficiente de
correlação 𝝆(𝑿, 𝒀). Calculando as funções marginais:
∞ 𝑥
𝑦=𝑥
𝑓𝑋 (𝑥) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦 = ∫ 8𝑥𝑦 𝑑𝑦 = 4𝑥𝑦 2 |𝑦=0 = 4𝑥 3 , 0≤𝑥≤1
−∞ 0
e
∞ 1
𝑓𝑌 (𝑦) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑥 = ∫ 8𝑥𝑦 𝑑𝑥 = 4𝑥 2 𝑦|𝑥=𝑦
𝑥=1
= 4𝑦 − 4𝑦 3 , 0≤𝑦≤1
−∞ 𝑦
Assim, obtemos as médias para cada uma das variáveis
∞ 1
4
𝐸[𝑋] = ∫ 𝑥𝑓𝑋 (𝑥) 𝑑𝑥 = ∫ 𝑥(4𝑥 3 ) 𝑑𝑥 =
−∞ 0 5

∞ 1
4
𝐸[𝑋 2 ] = ∫ 𝑥 2 𝑓𝑋 (𝑥) 𝑑𝑥 = ∫ 𝑥 2 (4𝑥 3 ) 𝑑𝑥 =
−∞ 0 6
∞ 1
8
𝐸[𝑌] = ∫ 𝑦𝑓𝑌 (𝑦) 𝑑𝑦 = ∫ 𝑦(4𝑦 − 4𝑦 3 ) 𝑑𝑦 =
−∞ 0 15
∞ 1
1
𝐸[𝑌 2 ] = ∫ 𝑦 2 𝑓𝑌 (𝑦) 𝑑𝑦 = ∫ 𝑦 2 (4𝑦 − 4𝑦 3 ) 𝑑𝑦 =
−∞ 0 3
4 4 2 2
𝑉𝑎𝑟[𝑋] = 𝐸[𝑋 2 ] − (𝐸[𝑋])2 = −( ) = = 0,02667
6 5 75
1 8 2 11
𝑉𝑎𝑟[𝑌] = 𝐸[𝑌 2 ] − (𝐸[𝑌])2 = −( ) = = 0,04889
3 15 225
1 1 1 1 1
8 8 4
𝐸[𝑋𝑌] = ∫ ∫ 𝑥𝑦𝑓(𝑥, 𝑦) 𝑑𝑥𝑑𝑦 = ∫ ∫ 𝑥𝑦(8𝑥𝑦) 𝑑𝑥𝑑𝑦 = ∫ ( 𝑦 2 − 𝑦 3 ) 𝑑𝑦 =
0 𝑦 0 𝑦 0 3 3 9
4 4 8 4
Dessa forma obtemos 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[𝑋𝑋] − 𝐸[𝑋]𝐸[𝑌] = 9 − 5 ⋅ 15 = 225. Dessa forma o
𝐶𝑜𝑣(𝑋,𝑌) 4⁄225
coeficiente de correlação será 𝜌(𝑋, 𝑌) = 𝜎(𝑋)𝜎(𝑌) = − = 0,4924. Esse resultado
√2⁄75 ⋅ √11⁄225
sugere que há uma correlação moderada entre as variáveis em estudo.

■
1. Se a distribuição conjunta de probabilidade de 𝑋 e 𝑌 é dado por

𝑥+𝑦
𝑝(𝑥, 𝑦) = , 𝑝𝑎𝑟𝑎 𝑥 = 0, 1, 2, 3 𝑒 𝑦 = 0, 1, 2
30
Encontre
a) 𝑃(𝑋 ≤ 2, 𝑌 = 1)
b) 𝑃(𝑋 > 2, 𝑌 ≤ 1)
c) 𝑃(𝑋 > 𝑌)
d) 𝑃(𝑋 + 𝑌 = 4)
2. Determine o valor da constante 𝑐 para que as seguintes funções representem distribuições
conjunta de probabilidade das variáveis aleatórias 𝑋 e 𝑌:
a) 𝑝(𝑥, 𝑦) = 𝑐𝑥𝑦, para 𝑥 = 1,2,3 e 𝑦 = 1,2,3
b) 𝑝(𝑥, 𝑦) = 𝑐|𝑥 − 𝑦|, para 𝑥 = −2, 0, 2 e 𝑦 = −2, 3

3. Um posto de gasolina tem ilhas de auto-serviço e de serviço completo. Em cada ilha, há uma
única bomba de auto-serviço de gasolina comum com duas mangueiras. Deixe X denotar o
número de mangueiras em uso na ilha de auto-serviço em um momento específico e Y o
número de mangueiras na ilha de serviço completo em uso naquele mesmo momento. A fdp
de 𝑋 e 𝑌é mostrada na tabela a seguir:
𝑦
𝑝(𝑥, 𝑦)
0 1 2
0 0,10 0,04 0,02
x 1 0,08 0,20 0,06
2 0,06 0,14 0,30
a) Qual é 𝑃(𝑋 = 1, 𝑌 = 1)?
b) Calcule 𝑃(𝑋 ≤ 1 , 𝑌 ≤ 1).
c) Descreva o evento {𝑥 ≠ 0 𝑒 𝑦 ≠ 0}. Calcule sua probabilidade
d) Calcule a fdp marginal de 𝑋 e de 𝑌. Usando 𝑝𝑋 (𝑥) calcule 𝑃(𝑥 ≤ 1).
e) 𝑋 e 𝑌 são v.a’s independentes? Explique cuidadosamente sua resposta
f) Determine o coeficiente de correlação 𝜌(𝑋, 𝑌).
4. Um determinado mercado tem uma fila de caixa expressa e uma fila de caixa super expressa.
Represente por 𝑋 o número de clientes na fila da caixa expressa em um determinado horário
do dia e por 𝑌 o número de clientes na fila da caixa superexpressa no mesmo horário.
Suponha que a fdp conjunta de 𝑋 e 𝑌 seja dada na tabela a seguir.
a) Qual é 𝑃(𝑋 = 1, 𝑌 = 1). Faça a interpretação deste resultado.
b) Qual é 𝑃(𝑋 = 𝑌). Faça a interpretação deste resultado
c) Represente por A o evento de haver no mínimo dois clientes a mais em uma fila do que
na outra. Expresse A em termos de 𝑋 e 𝑌, e calcule a probabilidade desse evento.
d) Qual é a probabilidade de o número total de clientes nas duas filas ser exatamente quatro?
E no mínimo quatro?
e) Determine a fdp marginal de 𝑋 e, depois calcule o número esperado de clientes na fila da
caixa expressa.
f) Determine a fdp marginal de 𝑌.
g) Pela inspeção das probabilidades dadas, as variáveis aleatórias 𝑋 e 𝑌 são independentes?
Explique seu raciocínio.
5. Cada pneu traseiro em um avião experimental deve ser preenchido a uma pressão de 40 libras
por polegada quadrada (psi). Deixe que 𝑋 indique a pressão de ar real para o pneu direito e

𝑌 denote a pressão de ar real para o pneu esquerdo. Suponha que 𝑋 e 𝑌 sejam variáveis
aleatórias com a função de densidade conjunta
2 2)
𝑓(𝑥, 𝑦) = {𝑘(𝑥 + 𝑦 𝑠𝑒 30 ≤ 𝑥 ≤ 50 𝑒 30 ≤ 𝑦 ≤ 50
0 𝑠𝑒 𝑐𝑐
3
a) Qual é o valor de 𝑘? R. 𝑘 = 3920000
b) Qual é a probabilidade de os dois pneus estarem com pressão inferior à ideal? R. 0,1888
c) Qual é a probabilidade de a diferença de pressão de ar entre os dois pneus ser no máximo
2 psi?
d) Determine a distribuição (marginal) da pressão de ar só do pneu direito.
e) 𝑋 e 𝑌são v.a.’s independentes? Seja bem claro em seus argumentos.
6. Deixe𝑋 e 𝑌 denotar os comprimentos de vida, em anos, de dois componentes em um sistema
eletrônico. Se a função de densidade conjunta dessas variáveis aleatórias for
−(𝑥+𝑦)
𝑓(𝑥, 𝑦) = { 𝑒 𝑠𝑒 𝑥 ≥ 0 𝑒 𝑦 ≥ 0
0 𝑐𝑐
encontre 𝑃(0 < 𝑋 < 1|𝑌 = 2).
7. Deixe 𝑋1 , ⋯ , 𝑋𝑛 serem variáveis aleatórias independentes e identicamente distribuídas tendo
variância 𝜎 2 . Mostre que 𝐶𝑜𝑣(𝑋𝑖 − 𝑋̅, 𝑋̅) = 0.
8. Suponha que duas variáveis aleatórias 𝑋 e 𝑌 tenham a densidade conjunta
4𝑥𝑦 𝑠𝑒 0 < 𝑥 < 1 𝑒 0 < 𝑦 < 1
𝑓(𝑥, 𝑦) = {
0 𝑐𝑐
encontre
1 1 1
a) 𝑃 (0 ≤ 𝑋 ≤ 2 , 4 ≤ 𝑌 ≤ 2);
b) 𝑃(𝑋 < 𝑌).

c) Determine as funções marginais para cada uma das variáveis.
9. Determine o valor de 𝑐 que faz a função 𝑓(𝑥, 𝑦) = 𝑐𝑒 −2𝑥−3𝑦 uma função de densidade
acumulada de probabilidade sobre o intervalo 0 < 𝑥 e 0 < 𝑦 < 𝑥. Determine o seguinte:
a) 𝑃(𝑋 < 1, 𝑌 < 2)
b) 𝑃(1 < 𝑋 < 2)
c) 𝑃(𝑌 < 3)
d) 𝑃(𝑋 < 2, 𝑌 < 2)
e) 𝐸[𝑋]
f) 𝐸[𝑌]
g) A distribuição marginal de 𝑋

h) A distribuição condicional de probabilidade de 𝑌 dado que 𝑋 = 1

i) 𝐸[𝑌|𝑋 = 1]
j) A distribuição condicional de probabilidade de 𝑋 dado que 𝑌 = 2.
10. Uma empresa de nozes comercializa latas luxuosas de nozes mistas com amêndoas,
castanhas de caju e amendoins. Suponha que o peso líquido de cada lata seja exatamente 1
libra, mas que a contribuição do peso de cada tipo de noz seja aleatória. Como os três pesos
devem somar 1, um modelo de probabilidade conjunta para quaisquer dois fornece todas as
informações necessárias sobre o peso do terceiro tipo. Para uma caixa selecionada
aleatoriamente, deixe 𝑋 e 𝑌 representar os pesos das amêndoas e das castanhas de caju,
respectivamente, e suponha que a função de densidade conjunta dessas variáveis é
24𝑥𝑦 𝑠𝑒 0 < 𝑥 < 1 𝑒 0 < 𝑦 < 1 𝑒 0 < 𝑥 + 𝑦 < 1
𝑓(𝑥, 𝑦) = {
0 𝑐𝑐
a) Faça um esboço da região de domínio de 𝑓(𝑥, 𝑦).
b) Encontre a probabilidade de dois tipos de nozes discutidas formarem juntas no máximo 50%
do peso da lata.
c) Encontre a densidade marginal para o peso das amêndoas.
d) Encontre a probabilidade de que o peso das amêndoas em uma caixa seja menor que 1/8
de libra, se é sabido que os castanhas de caju constituem 3/4 do peso. R. 0,1406
e) As variáveis 𝑋 e 𝑌 são independentes? Explique
11. As variáveis aleatórias 𝑋 e 𝑌 tem função de densidade conjunta
12𝑥𝑦(1 − 𝑥) 𝑠𝑒 0 < 𝑥 < 1 𝑒 0 < 𝑦 < 1
𝑓(𝑥, 𝑦) = {
0 𝑐𝑐
a) São independentes as variáveis 𝑋 e 𝑌?
b) Encontre 𝐸[𝑋], 𝑉𝑎𝑟(𝑋)
c) Encontre 𝐸[𝑌] , 𝑉𝑎𝑟(𝑌)
12. A densidade conjunta de 𝑋 e 𝑌 é dada por
−(𝑥+𝑦)
𝑓(𝑥, 𝑦) = {𝑥𝑒 𝑠𝑒 𝑥 > 0 𝑒 𝑦 > 0
0 𝑐𝑐
São 𝑋 e 𝑌 independentes? Se, em vez disso, 𝑓(𝑥, 𝑦) fordado por
2 𝑠𝑒 𝑥 > 0 𝑒 𝑦 > 0
𝑓(𝑥, 𝑦) = {
0 𝑐𝑐
𝑋 e 𝑌 seriam independentes? Seja bem claro em seus argumentos.
13. Suponha que 𝑛 pontos sejam independentemente escolhidos aleatoriamente na
circunferência de um círculo, e queremos a probabilidade de que todos estejam em algum
semicírculo. Ou seja, queremos a probabilidade de haver uma linha passando pelo centro do
círculo, de modo que todos os pontos estejam em um lado dessa linha, como mostra o
diagrama a seguir:
Deixe 𝑃1 , ⋯ , 𝑃𝑛 denotar os 𝑛 pontos. Se 𝐴 denotar o evento de que todos os pontos estão

contidos em algum semicírculo, e seja 𝐴𝑖 o evento em que todos os pontos estão no
semicírculo começando no ponto 𝑃𝑖 e indo no sentido horário por 180o, 𝑖 = 1, 2, ⋯ , 𝑛.
a) Expresse 𝐴 em termos do 𝐴𝑖 .
b) Os 𝐴𝑖 são mutuamente exclusivos?
c) Encontre 𝑃(𝐴).
14. Considere um círculo de raio R, e suponha que um ponto dentro do círculo seja escolhido
aleatoriamente de tal maneira que todas as regiões dentro do círculo de área igual seja
igualmente provável que contenha o ponto. (Em outras palavras, o ponto é uniformemente
distribuído dentro do círculo). Veja figura abaixo.
Se deixarmos o centro do círculo denotar a origem e definirmos 𝑋 e 𝑌 como as coordenadas

do ponto escolhido, então, como (𝑋, 𝑌) tem a mesma probabilidade de estar perto de cada
ponto no círculo, segue-se que a função de densidade conjunta de 𝑋 e 𝑌 é dada por

𝑐 𝑠𝑒 𝑥 2 + 𝑦 2 ≤ 𝑅 2
𝑓(𝑥, 𝑦) = {
0 𝑠𝑒 𝑥 2 + 𝑦 2 > 𝑅 2
para algum valor de 𝑐. Nestas circunstâncias,
a) determine c.
b) encontre as funções de densidade marginal de 𝑋 e 𝑌.
c) calcule a probabilidade de que 𝐷, a distância da origem do ponto selecionado, seja menor
ou igual a um certo valor0 ≤ 𝑎 ≤ 𝑅.
d) encontre 𝐸[𝐷].
15. Deixe 𝑋 indicar o número de vezes que uma determinada máquina de controle numérico
funcionará incorretamente: 1, 2 ou 3 vezes em qualquer dia. Deixe 𝑌 indicar o número de
vezes que um técnico é chamado em uma chamada de emergência. Sua distribuição de
probabilidade conjunta é dada como
𝑦
𝑝(𝑥, 𝑦)
1 3 5
1 0,05 0,05 0,00
x 2 0,05 0,10 0,20
3 0,10 0,35 0,10
a) Avalie a distribuição marginal de 𝑋.
b) Avalie a distribuição marginal de 𝑌.
c) Encontre 𝑃(𝑌 = 3|𝑋 = 2).
d) As variáveis 𝑋 e 𝑌 são Independentes? Argumente sobre essa interrogativa.
e) Determine o coeficiente de correlação entre 𝑋 e 𝑌. O que pode ser dito sobre a relação
entre tais variáveis? Argumente.
16. Sejam 𝑋 e 𝑌 variáveis aleatórias com fmp conjunta dada por
𝑦
𝑝(𝑥, 𝑦)
−2 −1 4 5
1 0,1 0,2 0 0,3
x
2 0,2 0,1 0,1 0
a) Achar as distribuições marginais de 𝑋 e de 𝑌
b) Calcular 𝐸[𝑋], 𝐸[𝑌] e 𝐸[𝑋𝑌]
c) Calcular a covariância entre 𝑋 e 𝑌
d) Calcular 𝜎𝑋 e 𝜎𝑌
e) Calcular 𝜌(𝑋, 𝑌)
f) As variáveis são independentes? Por quê?
17. Dada a seguinte função densidade conjunta das v.a.’s 𝑋 e 𝑌
3𝑥𝑦(𝑥 + 𝑦) 𝑠𝑒 0 ≤ 𝑥 ≤ 1 , 0 ≤ 𝑦 ≤ 1
𝑓(𝑥, 𝑦) = {
0 𝑐𝑐
g) Determine as funções marginais de 𝑋 e 𝑌
h) Calcular 𝐸[𝑋] e 𝐸[𝑌]
i) Calcular 𝜎𝑋2 e 𝜎𝑌2
j) Calcular 𝑃(0,5 ≤ 𝑋 ≤ 0,75)
k) Calcular o coeficiente de correlação entre 𝑋 e 𝑌.


4. Modelos Probabilísticos
4.1. Modelos Discretos
O comportamento de uma variável aleatória com distribuição de probabilidade discreta

pode ser descrito graficamente por um histograma, em forma tabular ou por meio de uma
fórmula. Frequentemente as observações geradas por diferentes experimentos estatísticos têm
o mesmo tipo geral de comportamento. Consequentemente, variáveis aleatórias discretas
associadas a esses experimentos podem ser descritas essencialmente pela mesma distribuição
de probabilidade e, portanto, podem ser representadas por uma única fórmula. De fato, é
necessário apenas um número reduzido de distribuições de probabilidade importantes para
descrever muitas das variáveis aleatórias discretas encontradas na prática. Por exemplo, em um
estudo envolvendo o teste da eficácia de um novo medicamento, o número de pacientes curados
entre todos os pacientes que usam o medicamento segue aproximadamente uma distribuição
binomial. Em um exemplo industrial, quando uma amostra de itens selecionados de um lote de
produção é testada, o número de itens defeituosos na amostra geralmente pode ser modelado
como uma variável aleatória hipergeométrica. Em um problema estatístico de controle de
qualidade, o experimentador sinalizará uma mudança na média do processo quando os dados
observacionais excederem certos limites, o número de amostras necessárias para produzir um
falso alarme segue uma distribuição geométrica que é um caso especial da distribuição binomial
negativa. Por outro lado, o número de células brancas de uma quantidade fixa da amostra de
sangue de um indivíduo é geralmente aleatório e pode ser descrito por uma distribuição de
Poisson. Neste capítulo, apresentamos essas distribuições comumente usadas com vários
exemplos.
Distribuição Uniforme
Algumas variáveis aleatórias adaptam-se muito bem a uma série de problemas práticos.
Portanto, um estudo pormenorizado dessas variáveis é de grande importância para a construção
de modelos probabilísticos para situações reais e consequentemente a estimação de seus
parâmetros. Como vimos antes, a coleção de resultados discretos obtidos a partir do estudo de
uma variável poder ser organizada em segundo as estatísticas de ordem, o chamado ROL. Por

exemplo, suponha que o conjunto 𝑥1 , 𝑥2 , ⋯ , 𝑥𝑁 seja as estatísticas de ordem de uma variável

aleatória populacional 𝑋, onde cada ponto amostral 𝑥𝑖 tenha a mesma probabilidade de
ocorrência, ou seja, 𝑃(𝑋 = 𝑥𝑖 ) = 1⁄𝑁 para todo 𝑁. Definimos então
∑ 𝑥𝑖
𝐸[𝑋] = (4.1)
𝑁
2 (𝑋)
1 2
(∑𝑥𝑖 )2
𝜎 = ⋅ [∑ 𝑥𝑖 − ] (4.2)
𝑁 𝑁
1
𝐹(𝑋) = ∑𝑖 (4.3)
𝑁
𝑥𝑖 ≤𝑥
Exemplo 4.1: Seja 𝑿 a variável aleatória que indica o “número de pontos marcados na face
superior de um dado, quando lançado”. Assim,
𝑥 1 2 3 4 5 6
𝑃(𝑋 = 𝑥) 1⁄6 1⁄6 1⁄6 1⁄6 1⁄6 1⁄6
1 1 (21)2
Portanto, 𝐸[𝑋] = 6 (21) = 3,5 e 𝑉𝑎𝑟(𝑋) = 6 [91 − ] ≅ 2,92.
6
Variáveis cujas medidas representativas são dadas por (4.1), (4.2) e (4.3) comumente são
associadas a um Variável Aleatória Uniforme. Assim a variável aleatória uniforme é a mais
simples de todas as distribuições de probabilidade, por que esta distribuição se caracteriza pelo
fato que a variável aleatória assume cada um de seus valores com igual probabilidade. Tal
probabilidade é chamada de distribuição uniforme discreta de probabilidade.
Distribuição Binomial
Um experimento geralmente consiste em testes repetidos, cada um com dois resultados

possíveis que podem ser rotulados de sucesso ou fracasso. A aplicação mais óbvia lida com o
teste de itens quando eles saem de uma linha de montagem, onde cada tentativa pode indicar
um item defeituoso ou não defeituoso. Podemos optar por definir o resultado como um sucesso
e consequentemente o contrário ao resultado de fracasso. O processo de execução única do
experimento é referido como um processo de Bernoulli, e, cada ensaio é chamado um
julgamento de Bernoulli. Observe, por exemplo, se alguém estava comprando cartas de um
baralho, as probabilidades de tentativas repetidas mudam se as cartas não são substituídas. Ou

Modelos Probabilísticos 161
seja, a probabilidade de selecionar um coração no primeiro sorteio é de 1/4, mas no segundo

empate é uma probabilidade condicional com um valor de 13/51 ou 12/51, dependendo se um
coração apareceu no primeiro sorteio: isso, então, não seria mais considerado um conjunto de
testes de Bernoulli. Exemplos de experimentos com apenas dois resultados possíveis são
apresentados nos Exemplo 3.1 e Exemplo 3.3 do capítulo 3.
Dessa forma uma variável aleatória 𝑋, que assume os valores 0 (fracasso) e 1 (sucesso),
com função de massa de probabilidade 𝑝(𝑥) = 𝑃(𝑋 = 𝑥) como em (4.4) é chamada Variável
Aleatória de Bernoulli.
0 𝑠𝑒 𝑥 < 0
𝑝(𝑥) = { 0 𝑠𝑒 𝑥 > 1 (4.4)
(2𝑝 − 1)𝑥 + 1 − 𝑝 𝑠𝑒 𝑥 ∈ {0,1}
é importante o leitor observar que 𝑝(1) = 𝑃(𝑋 = 1) = 𝑝 e 𝑝(0) = 𝑃(𝑋 = 0) = 1 − 𝑝.
Experimentos de resultam numa v.a. de Bernoulli são chamados de ensaios de Bernoulli.

Usaremos a notação 𝑋~𝐵𝑒𝑟(𝑝) para indicar uma v.a. com distribuição de Bernoulli com
parâmetro 𝑝. Assim, sempre que o experimento produzir um resultado favorável diremos que
houve um sucesso e indicaremos numericamente por 1 cuja probabilidade associada será 𝑝, ou
seja, 𝑝 = 𝑃(𝑋 = 1) = 𝑃(𝑠𝑢𝑐𝑒𝑠𝑠𝑜). Contrariamente se o resultado não for favorável ao que o
pesquisador deseja, diremos que houve um fracasso numericamente indicado por 0 de
probabilidade associada igual a 1 − 𝑝 = 𝑃(𝑋 = 0) = 𝑃(𝑓𝑟𝑎𝑐𝑎𝑠𝑠𝑜). Considerando os dados
do Exemplo 3.2, e, estabelecendo o evento 𝐴 =ocorrência de exatamente duas caras e uma
coroa, o sucesso ocorrerá somente se 𝑋 = {𝑐𝑐𝑘, 𝑘𝑐𝑐, 𝑘𝑐𝑘}. Definindo uma v.a. 𝑌 como sendo
a ocorrência do evento 𝐴, teremos 𝑌(𝑠𝑢𝑐𝑒𝑠𝑠𝑜) = 3⁄8 e 𝑌(𝑓𝑟𝑎𝑐𝑎𝑠𝑠𝑜) = 5⁄8. A distribuição
de probabilidade para a v.a. 𝑌 é
𝑦 1 0
𝑃(𝑌 = 𝑦) 3⁄8 5⁄8
Aqui, a ocorrência do evento 𝐴 é quando ocorrer umas das três possibilidades

{𝑐𝑐𝑘, 𝑘𝑐𝑐, 𝑘𝑐𝑘}, e, a não ocorrência do evento 𝐴, será o complementar disso designando o
fracasso.Estritamente falando, o processo de Bernoulli deve possuir as seguintes propriedades:
1. O experimento pode ser repetido 𝑛 vezes.
2. Cada tentativa resulta em um resultado que pode ser classificado como um sucesso
ou um fracasso.

3. A probabilidade de sucesso, denotada por 𝑝, permanece constante de julgamento

para julgamento.
4. Os ensaios repetidos são independentes, isto é, o resultado de um ensaio não tem
influência nenhuma no resultado de qualquer outro ensaio
O que mais interessa para o pesquisador é investigar a probabilidade de um determinado

sucesso ocorrer exatamente 𝑥 vezes em 𝑛 ensaios de Bernoulli. Para isso, imagine repetir um
ensaio de Bernoulli 𝑛 veses, ou, de maneira alternativa, obtemos uma particular amostra de
tamanho 𝑛 de uma distribuição de Bernoulli. Tal particular amostra será constituída de uma
sequência de sucessos e fracassos, ou, alternativamente, de uns e zeros. Por exemplo quando
se lança uma moeda três vezes e deseja-se saber a probabilidade de se obter duas caras, ou
quando se lança um dado cinco vezes e pergunta a probabilidade de se obter face igual a 5 no
máximo três vezes, ou ainda quando se extrai dez peças, ao acaso, com reposição, de um lote
contendo 500 peças e quer saber a probabilidade de que todas sejam defeituosas, sabendo que
10% das peças do lote são defeituosas. Uma característica interessante desses experimentos é
que estamos interessados apenas no número total de sucessos e não na ordem em que eles
possam ocorrer. Se designarmos por 𝑋 o número total de sucesso em 𝑛 ensaios de Bernoulli
com probabilidade de sucesso 𝑝, com 0 < 𝑝 < 1, os possíveis valores de 𝑋 serão 1, 2, 3, ⋯ , 𝑥
e os pares (𝑥, 𝑝(𝑥)), onde 𝑝(𝑥) = 𝑃(𝑋 = 𝑥) constituem a chamada Distribuição de Binomial.
Como exemplo, considere uma sequência de 𝑛 ensaios de Bernoulli, a probabilidade de obter
𝑥 sucessos 𝑆, e portanto (𝑛 − 𝑥) fracassos (F), fazendo 𝑥 = 1, 2, 3, ⋯ , 𝑛, com 𝑃(𝑋 = 1) = 𝑝 e
𝑃(𝑋 = 0) = 1 − 𝑝 pode ser indicado pela particular sequência
𝑆𝑆𝑆 ⋯ 𝑆𝑆 ⏟
⏟ 𝐹𝐹𝐹 ⋯ 𝐹𝐹𝐹
𝑥 𝑠𝑢𝑐𝑒𝑠𝑠𝑜𝑠 𝑛−𝑥 𝑓𝑟𝑎𝑐𝑎𝑠𝑠𝑜𝑠
Devido a independência dos eventos, a probabilidade de tal sequência é
𝑝 𝑥 (1 − 𝑝)𝑛−𝑥
Como qualquer sequência com 𝑥 sucesso e (𝑛 − 𝑥) fracassos terá a mesma probabilidade,

resta saber quantas sequências com a propriedade específica podemos formar. A análise
combinatória nos diz que são 𝐶𝑛,𝑥 = (𝑛𝑥) maneiras. Dessa forma, a probabilidade de obtermos
𝑘 sucessos em 𝑛 ensaios de Bernoulli é

𝑛
𝑃(𝑋 = 𝑥) = ( ) ⋅ 𝑝 𝑥 ⋅ (1 − 𝑝)𝑛−𝑥 (4.5)
𝑥
Baseado nesse prognóstico um diremos ser um experimento de binomial ao experimento:

a) que consiste em 𝑛 ensaios de Bernoulli;
b) cujos ensaios são independentes;
c) para o qual a probabilidade de sucesso em cada ensaio é sempre igual a 𝑝, com 0 < 𝑝 < 1,
e, a probabilidade de fracasso igual a 𝑞 = 1 − 𝑝.
Definição 4.1 Deixe 𝑿 denotar o número de sucessos num experimento binomial. Então 𝑿 tem
distribuição binomial com parâmetros 𝒏 e 𝒑,indicada por 𝒃(𝒏, 𝒑) se
𝑛
𝑏(𝑥; 𝑛, 𝑝) = 𝑃(𝑋 = 𝑥) = ( ) 𝑝 𝑥 𝑞 𝑛−𝑥 (4.6)
𝑥
com 𝑥 = 1, 2, ⋯ , 𝑛.
Supondo que a variável aleatória 𝑿 seja aproximada pela distribuição binomial é de se

esperar que a soma de todas as probabilidades some 1. De fato, considerando a expansão
binomial
𝒏
𝒏
(𝒂 + 𝒃)𝒏 = ∑ ( ) 𝒂𝒌 𝒃𝒏−𝒌
𝒌
𝒌=𝟎
é imediato que
𝑛 𝑛
𝑛 𝑛
∑ 𝑃(𝑋 = 𝑥) = ∑ ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑥 = (𝑝 + (1 − 𝑝)) = 1
𝑥
𝑥=0 𝑥=0
Exemplo 4.2 Considere um processo de fabricação em que são produzidos milhões de itens por
dia. Em média, 1% desses itens está fora das especificações. No processo de controle de
qualidade, seleciona-se uma amostra de 50 itens e classifica-se cada item como sendo dentro
ou fora das especificações. Qual a probabilidade de se encontrar no máximo um item fora das
especificações?
Solução: Seja a v.a. 𝑋: o número de itens não conformes na amostra. Pela leitura do
problema tiramos que 𝑛 = 50; 𝑥 ≤ 1 e 𝑝 = 0,01. Assim,
50 50
𝑃(𝑋 ≤ 1) = 𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) = ( ) ⋅ 0,010 ⋅ 0,9950 + ( ) ⋅ 0,011 ⋅ 0,9949
0 1

portanto, 𝑃(𝑋 ≤ 1) = 0,60509 + 0,3056 = 0,9106. Logo, há uma probabilidade de 91,06%

de se encontrar no máximo 1 item fora das especificações.
■
Exemplo 4.3 Um grande varejista de rede adquire um certo tipo de dispositivo eletrônico de um
fabricante. O fabricante indica que a taxa defeituosa do dispositivo é de 3%.
a) O inspetor escolhe aleatoriamente 20 itens de uma remessa. Qual é a probabilidade de haver
pelo menos um item defeituoso entre esses 20?
b) Suponha que o varejista receba 10 remessas em um mês e o inspetor teste aleatoriamente 20
dispositivos por remessa. Qual é a probabilidade de haver exatamente 3 remessas contendo cada
uma, pelo menos um dispositivo defeituoso entre as 20 selecionadas e testadas d, remessa?
Solução: a) Seja a v.a. 𝑋 o número de itens defeituosos dentre os 20 selecionados. Assim,
20
𝑃(𝑋 ≥ 1) = 1 − 𝑃(𝑋 = 0) = ( ) ⋅ 0,030 ⋅ 0,972 = 0,4562
0
portanto, 𝑃(𝑋 ≥ 1) = 0,4562. Logo, há uma probabilidade de 45,62% de se encontrar pelo

menos um item com defeito.
b) Note que neste caso cada remessa pode conter pelo menos um item defeituoso ou não. Assim,
o teste de cada remessa pode ser visto como um teste de Bernoulli com 𝑝 = 0,4562 (obtido do
item a). Assumindo a independência do envio ao envio e indicando por 𝑌 o número de remessas
contendo pelo menos um item com defeito, 𝑌 segue outra distribuição binomial
𝑏(𝑦; 10; 0,4562). Assim sendo,
10
𝑃(𝑌 = 3) = ( ) ⋅ 0,45623 ⋅ 0,54387 = 0,1602
3
■
Pela leitura do Exemplo 4.2 e também do Exemplo 4.3 fica evidente que a distribuição
binomial possui aplicação em muitos campos científicos. Um engenheiro industrial está muito
interessado na “proporção defeituosa” de um processo industrial. Muitas vezes, medidas de
controle de qualidade e esquemas de amostragem para processos são baseados na distribuição
binomial. Esta distribuição se aplica a qualquer situação industrial em que um resultado de um
processo é dicotômico e os resultados do processo são independentes, com a probabilidade de
sucesso ser constante de julgamento para julgamento. A distribuição binomial também é usada
extensivamente para aplicações médicas e militares. Em ambos os campos, um resultado de
sucesso ou falha é importante. Por exemplo, “cura” ou “não cura” é importante no trabalho

farmacêutico, e “acertar” ou “errar” geralmente é a interpretação do resultado de disparar um

míssil guiado. Como a distribuição de probabilidade de qualquer variável aleatória binomial
depende apenas dos valores assumidos pelos parâmetros 𝑛, 𝑝 e 𝑞, seria razoável supor que a
média e a variância de uma variável aleatória binomial também dependam dos valores
assumidos por esses parâmetros. De fato, isso é verdade, e as equações (4.7) nos mostram
fórmulas gerais que podem ser usadas para calcular a média e a variância de qualquer variável
aleatória binomial como funções de 𝑛 e 𝑝. Para justificar tais equações, vamos usufruir das
propriedades de uma variável aleatória binomial com os parâmetros 𝑛 e 𝑝. Supondo que 𝑋 tenha
distribuição binomial, então, o valor esperado de 𝑋 𝑘 é dado por
𝑛
𝑛
𝐸[𝑋 𝑘 ] = ∑ 𝑥 𝑘 ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑥
𝑥
𝑥=0
𝑛
𝑛
= ∑ 𝑥 𝑘 ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑥
𝑥
𝑥=1
Usando a identidade
𝑛 𝑛−1
𝑥( ) = 𝑛( )
𝑥 𝑥−1
obtemos
𝑛
𝑛−1 𝑥
𝐸[𝑋 𝑘 ] = ∑ 𝑥 𝑘−1 𝑛 ( ) 𝑝 (1 − 𝑝)𝑛−𝑥 faça 𝑦 = 𝑥 − 1
𝑥−1
𝑥=1
𝑛
𝑛−1 𝑦
= 𝑛𝑝 ∑(𝑦 + 1)𝑘−1 ( ) 𝑝 (1 − 𝑝)𝑛−1−𝑦
𝑦
𝑦=0
= 𝑛𝑝𝐸[(𝑌 + 1)𝑘−1 ]
logo,
𝐸[𝑋 𝑘 ] = 𝑛𝑝𝐸[(𝑌 + 1)𝑘−1 ]
onde 𝑌~𝑏(𝑛 − 1, 𝑝), ou seja, 𝑌 é uma variável aleatória binomial com parâmetros (𝑛 − 1) e
(𝑝). Definir 𝑘 = 1 na igualdade anterior produz
𝐸[𝑋] = 𝑛𝑝
Ou seja, o número esperado de sucessos que ocorrem em 𝑛 tentativas independentes

quando cada sucesso possui probabilidade 𝑝 é igual a 𝑛𝑝. Definir 𝑘 = 2 na expressão da
precedente a anterior e usar a fórmula anterior para o valor esperado de uma variável aleatória
binomial produz
𝐸[𝑋 2 ] = 𝑛𝑝𝐸[𝑌 + 1]
= 𝑛𝑝((𝑛 − 1)𝑝 + 1)
Como 𝐸[𝑋] = 𝑛𝑝 podemos calcular a variância usando (3.20), como abaixo,
𝑉𝑎𝑟(𝑋) = 𝐸[𝑋 2 ] − (𝐸[𝑋])2

= 𝑛𝑝((𝑛 − 1)𝑝 + 1) − (𝑛𝑝)2
= 𝑛𝑝(1 − 𝑝)
Resumindo, mostramos o seguinte: Se 𝑋 é uma variável aleatória binomial com os

parâmetros 𝑛 e 𝑝, ou seja, 𝑋~𝑏(𝑛; 𝑝), então a média e a variância de 𝑋 são dados por
𝐸[𝑋] = 𝑛𝑝 𝑒 𝑉𝑎𝑟(𝑋) = 𝑛𝑝(1 − 𝑝) (4.7)
Distribuição Geométrica
Suponha que ensaios independentes de Bernoulli, cada um tendo uma probabilidade 𝑝,

0 < 𝑝 < 1, de ser um sucesso, sejam realizados até que um sucesso ocorra. Se deixarmos 𝑋
indicar o número de tentativas necessárias até que apareça o primeiro sucesso, então
𝑃(𝑋 = 𝑥) = (1 − 𝑝)𝑥−1 ⋅ 𝑝 𝑥 = 1, 2, ⋯ (4.8)
A equação (4.8) se faz verdadeira porque, para que 𝑋 seja igual a 𝑥, é necessário e
suficiente que as primeiras (𝑥 − 1) tentativas sejam falhas e que a enésima tentativa seja um
sucesso. Uma vez que os resultados dos ensaios sucessivos são considerados independentes, a
probabilidade que ocorra um sucesso nas primeiras𝑥 tentativas será 1. Vejamos
∞ ∞
𝑝
∑ 𝑃(𝑋 = 𝑥) = 𝑝 ∑(1 − 𝑝)𝑥−1 = =1
1 − (1 − 𝑝)
𝑥=1 𝑥=1
Qualquer variável aleatória 𝑋 cuja função de distribuição de probabilidade é dada pela

equação (4.8) é considerada uma variável aleatória geométrica com o parâmetro 𝑝. Dessa forma
temos

Definição 4.2 Em uma série de ensaios de Bernoulli, deixe a variável aleatória 𝑿 denotar o
número de tentativas até o primeiro sucesso. Então 𝑿 é uma variável aleatória geométrica com
parâmetro 𝒑, 𝟎 < 𝒑 < 𝟏 se sua fdp é
𝑔(𝑥; 𝑝) = 𝑃(𝑋 = 𝑥) = 𝑝 ⋅ (1 − 𝑝)𝑥−1 (4.9)
Exemplo 4.4 A probabilidade de uma bolacha conter uma grande partícula de contaminação é
de 0,01. Se for assumido que a escolha das bolachas é aleatória e independente, qual é a
probabilidade de que exatamente 125 bolachas precisam ser analisadas antes que uma grande
partícula seja detectada?
Solução: Deixe 𝑿 denotar o número de amostras analisadas até que uma grande partícula seja
detectada. Então 𝑿 é uma variável aleatória geométrica com 𝒑 = 𝟎, 𝟎𝟏. A probabilidade
solicitada é 𝑷(𝑿 = 𝟏𝟐𝟓) = (𝟎, 𝟗𝟗)𝟏𝟐𝟒 ⋅ 𝟎, 𝟎𝟏 = 𝟎, 𝟎𝟎𝟐𝟗
■
Exemplo 4.5 Uma urna contém 𝑵 bolas brancas e 𝑴 pretas. As bolas são selecionadas
aleatoriamente, uma de cada vez, até que uma preta seja obtida. Se assumirmos que cada bola
selecionada é devolvida antes que a próxima seja retirada, qual é a probabilidade de que
a) exatamente 𝑥 sorteios são necessários?
b) pelo menos 𝑥 sorteios são necessários?
Solução: Se deixarmos que 𝑋 indique o número de sorteios necessários para selecionar uma
bola preta, então 𝑋 satisfaz a Definição 4.2 com 𝑝 = 𝑀⁄(𝑀 + 𝑁). Consequentemente,
𝑀 𝑀 𝑥−1 𝑀𝑁 𝑥−1
a) 𝑃(𝑋 = 𝑥) = 𝑁+𝑀 ⋅ (1 − 𝑁+𝑀) = (𝑁+𝑀)2
b) Neste item a probabilidade requerida é a de que 𝑋 assuma valores maiores do que ou iguais
a um estipulado valor 𝑥. Dessa forma teremos
∞ 𝑛−1
𝑀 𝑀
𝑃(𝑋 ≥ 𝑥) = ∑ ⋅ (1 − )
𝑁+𝑀 𝑁+𝑀
𝑛=𝑥
∞ 𝑛−1
𝑀 𝑀
= ⋅ ∑ (1 − )
𝑁+𝑀 𝑁+𝑀
𝑛=𝑥
𝑁 𝑥−1
𝑀 (𝑁+𝑀)
= ( )⋅ 𝑁
𝑁+𝑀 1 − 𝑁+𝑀
𝑥−1
𝑁
= ( )
𝑁+𝑀

Naturalmente, a parte (b) poderia ter sido obtida diretamente, já que a probabilidade de
que pelo menos 𝑥 tentativas sejam necessárias para obter um sucesso é igual à probabilidade de
que as primeiras tentativas (𝑥 − 1) sejam todas falhas. Isto é, para uma variável aleatória
geométrica fica 𝑃(𝑋 ≥ 𝑥) = (1 − 𝑝)𝑥−1 . Com um cálculo não muito complicado mostra-se
que o valor esperado e a variância de uma variável aleatória segundo uma distribuição
geométrica são dados pelas igualdades abaixo
1 1−𝑝
𝐸[𝑋] = 𝑒 𝑉𝑎𝑟(𝑋) = (4.10)
𝑝 𝑝2
Distribuição Hipergeométrica
Um caso particular ocorre quando se estuda uma amostra de tamanho 𝑛 retirada de uma
população com total de 𝑁 itens com 𝑛 ≤ 𝑁 claramente. Como exemplo, um dia de produção de
850 peças fabricadas contém 50 peças que não atendem aos requisitos do cliente. Duas peças
são selecionadas aleatoriamente, sem substituição, da produção do dia. Sejam 𝐴 e 𝐵 os eventos
que a primeira e a segunda peças não estão conformes os requisitos do cliente, respectivamente.
Considerando uma probabilidade condicional estuda no capítulo 2, encontramos 𝑃(𝐴) =
50⁄850 e 𝑃(𝐵|𝐴) = 49⁄849. Consequentemente, o conhecimento de que a primeira peça não
está em conformidade sugere que é menos provável que a segunda peça selecionada também
não esteja dentro dos padrões. Deixe 𝑋 denotar o número de peças fora dos requisitos do clientes
na amostra. Então
800 799
𝑃(𝑋 = 0) = 𝑃(𝐴′ ∩ 𝐵′) = ⋅ = 0,886
850 849
800 50 50 49
𝑃(𝑋 = 1) = 𝑃((𝐴′ ∩ 𝐵) ∪ (𝐴 ∩ 𝐵 ′ )) = ⋅ + ⋅ = 0,111
850 849 850 849
50 49
𝑃(𝑋 = 2) = 𝑃(𝐴 ∩ 𝐵) = ⋅ = 0,003
850 849
Esta experiência é fundamentalmente diferente dos exemplos baseados na distribuição

binomial. Neste experimento, os ensaios não são independentes. Observe que, no caso incomum
em que cada unidade selecionada é substituída antes da próxima seleção, as tentativas são
independentes e há uma probabilidade constante de uma peça não atender aos requisitos do
cliente em cada tentativa. Então, o número de partes não conformes na amostra é uma variável

aleatória binomial. Mas, como neste exemplo, as amostras geralmente são selecionadas sem
substituição. Embora as probabilidades possam ser determinadas pelo raciocínio usado no
exemplo acima, uma fórmula geral para calcular probabilidades quando amostras são
selecionadas sem substituição é bastante útil. As regras de contagem apresentadas no Capítulo
2 podem ser usadas para justificar a fórmula dada na Definição 4.3 abaixo.
Definição 4.3 Um conjunto de 𝑁 objetos contém 𝑘 objetos classificados como sucessos e

(𝑁 − 𝑘) objetos classificados como fracasso (falha). Uma amostra de tamanho 𝑛 objetos é
selecionada aleatoriamente (sem substituição) dos 𝑁 objetos iniciais, onde e 𝑘 ≤ 𝑁 e 𝑛 ≤ 𝑁.
Se a variável aleatória 𝑋 indicar o número de sucessos na amostra, então 𝑋 é uma variável
aleatória hipergeométrica com distribuição de probabilidade dada por
(𝑘𝑥) ⋅ (𝑁−𝑘
𝑛−𝑘
)
ℎ(𝑥; 𝑁, 𝑛, 𝑘) = 𝑃(𝑋 = 𝑥) = (4.11)
(𝑁𝑛)
onde 𝑚𝑎𝑥(0; 𝑛 − (𝑁 − 𝑘)) ≤ 𝑥 ≤ 𝑚𝑖𝑛(𝑛; 𝑘)
Em geral, se o tamanho da amostra 𝑛 for menor que o número de sucessos da população

𝑘, o maior valor possível de 𝑋 será 𝑛. Entretanto, se 𝑘 < 𝑛 (por exemplo, uma amostra de
tamanho 25 e apenas 15 sucessos na população), então 𝑋 pode ser no máximo 𝑘. De forma
similar, sempre que o número de falhas da população (𝑁 − 𝑘) exceder o tamanho da amostra,
o menor valor possível de 𝑋 será 0 (porque todos os indivíduos da amostra podem ser falhas).
Entretanto, se 𝑁 − 𝑘 < 𝑛, o menor valor possível de 𝑋 será 𝑛 − (𝑁 − 𝑘). Resumindo, os
valores possíveis de 𝑋 satisfazem à restrição 𝑚𝑎𝑥(0; 𝑛 − (𝑁 − 𝑘)) ≤ 𝑥 ≤ 𝑚𝑖𝑛(𝑛; 𝑘).
Os tipos de aplicações para o hipergeométrico são muito semelhantes aos da distribuição

binomial. Estamos interessados em probabilidades de computação para o número de
observações que se enquadram em uma categoria específica. Mas no caso da distribuição
binomial, a independência entre as tentativas é necessária. Como resultado, se essa distribuição
for aplicada a, por exemplo, amostragem de vários itens (baralho de cartas, lote de itens de
produção), a amostragem deve ser feita com a reposição (substituição) de cada item após sua
observação. Por outro lado, a distribuição hipergeométrica não requer independência e é
baseada em amostragem feita sem reposição. Aplicações para a distribuição hipergeométrica
são encontradas em muitas áreas, com uso pesado em amostragem de aceitação, testes
eletrônicos e garantia de qualidade. Obviamente, em muitos desses campos, o teste é feito às
custas do item que está sendo testado. Ou seja, o item é destruído e, portanto, não pode ser
substituído na amostra. Assim, a amostragem sem reposição é necessária.
Exemplo 4.6. Se 5 cartas são sorteadas aleatoriamente de um baralho comum contendo 52

cartas, estime a probabilidade de serem retiradas 3 cartas vermelhos.
Solução: Existem no baralho 26 cartas vermelhas (sucesso) então 𝒌 = 𝟐𝟔. Temos um total de
52 cartas, logo 𝑵 = 𝟓𝟐. Dessas serão retiradas 5 cartas, 𝒏 = 𝟓. Como foi pedido a
probabilidade de serem observadas 3 cartas vermelhas, temos 𝒙 = 𝟑. Usando a fórmula (4.11)
teremos
(𝑘𝑥) ⋅ (𝑁−𝑘
𝑛−𝑘
) (26
3
) ⋅ (52−26
5−3
)
𝑃(𝑋 = 𝑥) = ⟶⇢⇢ 𝑃(𝑋 = 3) = = 0,3251
(𝑁𝑛) (52
5
)
■
Outra forma de pensar o problema é usando diretamente as regras de combinação. Como
existem no baralho 26 cartas vermelhas e 26 pretas, existem (26
3
) maneiras de selecionar 3 cartas
vermelhos, e para cada uma dessas formas podemos escolher 2 cartas pretas em (26
2
) formas.
Portanto o número total de maneiras de selecionar 3 cartas vermelhas e 2 pretas em 5 retiradas
é o produto (26
3
) ⋅ (26
2
). O número total de maneiras de selecionar qualquer 5 das 52 cartas
disponíveis é (52
5
). Assim, a probabilidade de selecionar 5 cartas sem substituição das quais 3
são vermelhas e 2 são pretas, é dada por
(26
3
) ⋅ (26
2
)
𝑃(𝑋 = 3) = = 0,3251
(52
5
)
Exemplo 4.7 Durante determinado período, um escritório de tecnologia da informação de uma

universidade recebeu 20 ordens de serviço de problemas com impressoras, das quais 8 de
impressoras a laser e 12 a jato de tinta. Uma amostra de 5 dessas ordens de serviço será
selecionada para inclusão em uma pesquisa de satisfação do cliente. Suponha que as 5 sejam
selecionadas de forma completamente aleatória para que qualquer subconjunto de tamanho 5
tenha a mesma possibilidade de ser selecionado (imagine colocar os números 1, 2,..., 20 em 20
tarjas de papel, misturá-las e escolher cinco delas). Qual será a probabilidade de exatamente 𝟐
das ordens de serviço selecionadas serem de impressoras a jato de tinta?
Solução: Neste exemplo temos 𝑁 = 20, o tamanho da amostra é 𝑛 = 5 e o número de Sucessos
𝑘 = 12 e Fracassos 𝑁 − 𝑘 = 8. Considere o valor 𝑥 = 2 temos

(𝑘𝑥) ⋅ (𝑁−𝑘
𝑛−𝑘
) (12
2
) ⋅ (83)
𝑃(𝑋 = 𝑥) = ⟶⇢⇢ 𝑃(𝑋 = 2) = = 0,238
(𝑁𝑛) (20
5
)
■
É possível construir tabelas abrangentes da distribuição hipergeométrica usando um
software adequado, mas, como a distribuição possui três parâmetros, as tabelas requerem muito
mais espaço do que as da distribuição binomial. Os programas estatísticos geram probabilidades
hipergeométricas facilmente. Como no caso binomial, há expressões simples para 𝐸[𝑋] e
𝑉𝑎𝑟(𝑋) para uma v.a. 𝑋 com distribuição de probabilidade hipergeométrica, ou seja, se
𝑋~ℎ(𝑥; 𝑛; 𝑘; 𝑁 ) então
𝑘 𝑘 𝑁−𝑘 𝑘
𝐸[𝑋] = 𝑛 ⋅ e 𝑉𝑎𝑟(𝑋) = 𝑛 ⋅ ⋅( ) ⋅ (1 − ) (4.12)
𝑁 𝑁 𝑁−1 𝑁
Distribuição Binomial Negativa
Uma generalização de uma distribuição geométrica em que a variável aleatória é o

número de tentativas de Bernoulli necessárias para obter 𝑟 sucessos resulta na distribuição
binomial negativa. Assim, é chamada de Distribuição Binomial Negativa a variável aleatória
𝑋 baseada em experimentos que satisfaçam às condições a seguir:
1. O experimento consiste de uma sequência de tentativas independentes totalizando
𝑛 realizações.
2. Cada tentativa resulta em sucesso (S) ou em fracasso (F).
3. A probabilidade de sucesso é constante de uma tentativa para outra, então
𝑃(𝑆 𝑛𝑎 𝑡𝑒𝑛𝑡𝑎𝑡𝑖𝑣𝑎 𝑖) = 𝑝 para 𝑖 = 1, 2, 3, ⋯
4. O experimento continua (as tentativas são executadas) até ser observado um
acumulado de 𝑟 sucessos, sendo 𝑟um inteiro positivo.
Deixe 𝑋 denotar o número de tentativas necessárias até que ocorram 𝑟 sucessos. 𝑋 é

denominada variável aleatória binomial negativa porque, em contraste com a v.a. binomial, o
número de sucessos é fixo e o de tentativas é aleatório. Valores possíveis de 𝑋 são 0, 1, 2, ⋯.
Representaremos por 𝑛𝑏(𝑥; 𝑟, 𝑝) a distribuição de probabilidade para uma variável aleatória
binomial negativa 𝑋 com parâmetros (𝑟, 𝑝). O evento 𝑋 = 𝑥 é equivalente a (𝑟 − 1) sucessos
nas primeiras (𝑥 − 1) tentativas e um sucesso na enésima tentativa. Por exemplo: se 𝑟 = 5 e
𝑥 = 15, deve haver quatro sucessos nas primeiras 14 tentativas e a tentativa 15 deve ser um

sucesso. Como as tentativas são independentes, estabeleça o evento 𝐴 = 𝑟 − 1 sucessos nas

primeiras (𝑥 − 1) tentativas. Com isso teremos que a probabilidade do evento 𝐴 é a
probabilidade binomial (𝑥−1
𝑟−1
) ⋅ 𝑝𝑟−1 ⋅ (1 − 𝑝)𝑥−𝑟 . Como 𝑃(𝑆) = 𝑝 é imediato a
Definição 4.4 Suponha que ensaios independentes, cada um com probabilidade 𝒑, 𝟎 < 𝒑 < 𝟏,
de ser um sucesso sejam realizados até que um total de 𝒓 sucessos seja acumulado. Se
deixarmos 𝑿 igual ao número de tentativas necessárias, então a fdp de 𝑿 é
𝑛−1 𝑟
𝑛𝑏(𝑥; 𝑟, 𝑝) = 𝑃(𝑋 = 𝑥) = ( ) 𝑝 (1 − 𝑝)𝑛−𝑟 (4.13)
𝑟−1
A equação (4.13) é verdadeira porque, para que o enésimo sucesso ocorra no enésimo teste,
deve haver (𝑟 − 1) sucessos nos primeiros (𝑛 − 1) testes e o enésimo teste deve ser bem
sucedido.
Exemplo 4.8 Um pediatra deseja convocar cinco casais, cada um esperando seu primeiro filho,
para participarem de um novo regime de parto natural. Seja 𝒑 a probabilidade de um casal
selecionado aleatoriamente concorda em participar. Se 𝒑 = 𝟎, 𝟐, qual é a probabilidade de 15
casais serem solicitados antes de serem encontrados cinco que concordem em participar?
Solução: É pedido a probabilidade de ocorrerem 15convites até o quinto casal aceitar em
participar. Isto é, devemos ter 4 aceitações nos 14 primeiros convites e uma aceitação no décimo
quinto convite. Pela leitura temos𝑟 = 5, 𝑝 = 0,2 e 𝑥 = 15. Usando (4.12) temos
15 − 1
𝑃(𝑋 = 15) = ( ) ⋅ 0,25 ⋅ (1 − 0,2)15−5 ⟶⇢⇢ 𝑃(𝑋 = 15) = 0,034
5−1
■
Exemplo 4.9 Suponha que a probabilidade de um bit transmitido através de um canal de

transmissão digital ser recebido com erro seja 0,1. Suponha que as transmissões sejam eventos
independentes, e deixe a variável aleatória 𝑿 denotar o número de bits transmitidos . qual a
probabilidade de serem transmitidos 10 sinais até obter quatro erros.
Solução: Pelo enunciado 𝑿 tem uma distribuição binomial negativa com 𝒓 = 𝟒 e 𝒙 = 𝟏𝟎. Logo,
A probabilidade de que exatamente três erros ocorram nos primeiros nove testes e o quarto erro
ocorra na décima transmissão é
10 − 1
𝑃(𝑋 = 10) = ( ) ⋅ 0,14 ⋅ (1 − 0,1)10−4 ⟶⇢⇢ 𝑃(𝑋 = 10) = 0,0045
4−1

Distribuição de Poisson
A distribuição de probabilidade de Poisson foi introduzida por Siméon Denis Poisson em

um livro que ele escreveu sobre a aplicação da teoria da probabilidade a processos judiciais,
julgamentos criminais e similares. Este livro, publicado em 1837, intitula-se, Recherchessur
laprobabilitèdesjugements em matièrecriminelle et em matièrecivile, em tradução livre
Investigações sobre a probabilidade de vereditos em matéria penal e civil. A distribuição de
Poisson é largamente empregada quando se deseja contar o número de eventos, de certo tipo,
que ocorrem num intervalo de tempo ou medida ou superfície ou volume ou quando se conhece
unicamente o valor esperado de uma variável aleatória 𝑋 qualquer. Experiências produzindo
valores numéricos de uma variável aleatória 𝑋 cujo o número de resultados ocorrem durante
um intervalo de tempo determinado ou em uma região especificada, são chamados de
experimentos de Poisson. Por exemplo, um experimento de Poisson pode gerar observações
para a variável aleatória 𝑋 representando o número de chamadas telefônicas recebidas por hora
por um escritório, o número de dias que a escola é fechada devido à chuva durante o verão ou
o número de jogos adiados devido à falta de energia elétrica durante um campeonato. A região
especificada pode ser um segmento de linha, uma área, um volume ou talvez um pedaço de
material. Nesses casos, 𝑋 pode representar o número de camundongos por hectare, o número
de bactérias em uma determinada cultura ou o número de erros de digitação por página. Um
experimento de Poisson é derivado do processo de Poisson e possui as seguintes propriedades.
1. A probabilidade de que um único resultado ocorra durante um intervalo de tempo

muito curto ou em uma região pequena é proporcional à duração do intervalo de
tempo ou ao tamanho da região e não depende do número de desfechos ocorridos
fora desse intervalo de tempo ou região.
2. A probabilidade de mais de um resultado ocorrer em um intervalo de tempo tão curto
ou cair em uma região tão pequena é insignificante.
3. O número de resultados que ocorrem em um intervalo de tempo ou região
especificada do espaço é independente do número que ocorre em qualquer outro
intervalo de tempo ou região disjunta. Nesse sentido, dizemos que o processo de
Poisson não tem memória.

O número 𝑋 de desfechos que ocorrem durante um experimento de Poisson é chamado

de variável aleatória de Poisson, e sua distribuição de probabilidade é chamada de
distribuição de Poisson. O número médio de resultados de uma variável aleatória de Poisson
é calculado a partir do comprimento 𝑡 do intervalo da seguinte forma: 𝜇 = 𝛼𝑡, onde 𝛼 > 0 é
dito fator de proporcionalidade. Deixe 𝜆 = 𝛼𝑡, assim quando uma variável aleatória 𝑋 tiver
distribuição de Poissona probabilidade 𝑃(𝑋 = 𝑥) é indicada por 𝑃(𝑋 = 𝑥; 𝜆). A definição a
seguir é usada para calcular as probabilidades de Poisson com parâmetro 𝜆 > 0.
Definição 4.5 Uma variável aleatória discreta 𝑿 tem distribuição de Poisson com parâmetro
𝝀 > 𝟎 se
𝑒 −𝜆 ⋅ 𝜆𝑥
𝑃(𝑋 = 𝑥; 𝜆) = (4.14)
𝑥!
com 𝑥 = 1, 2, 3, ⋯.
Note que na Definição 4.5 existe implicitamente uma variável𝑡 e quando 𝑡 → ∞ a

probabilidade tende a aumentar. Muitos casos, conhece-se o número de sucessos, porém se
torna difícil e, às vezes, sem sentido, determinar o número de fracasso ou o número total de
realizações (provas). Não podemos contar quantas emendas não ocorreram num rolo de fita, ou
quantos carros deixaram de passar num certo cruzamento por hora. Baseado nas propriedades
do processo de Poisson, acima descritas, percebemos que para calcular a probabilidade de certo
evento produzir 𝑥 sucessos dentro de um intervalo de comprimento 𝑡, algumas hipótese
precisam ser admitidas.Tome um intervalo de números reais de comprimento 𝑡 particionado em
subintervalos de comprimento menor Δ𝑡 e assuma que Δ𝑡 → 0. Então
(a) a probabilidade de mais de um evento em um subintervalo tende a zero,

(b) a probabilidade de um evento em um subintervalo tende a 𝛼Δ𝑡
(c) o evento em cada subintervalo é independente de outros subintervalos.
Estas suposições implicam que os subintervalos podem ser considerados testes de

Bernoulli independentes aproximados com probabilidade de sucesso 𝑝 = 𝛼Δ𝑡 e o número de
tentativas igual a 𝑛 = 𝑡⁄Δ𝑡. Aqui, 𝑛𝑝 = 𝛼𝑡 e como Δ𝑡 tende a zero, 𝑛 tende a infinito. Assim,
temos as seguintes hipóteses
𝐻1 : 𝑃(𝑋 = 1; ∆𝑡) = 𝛼Δ𝑡

𝐻2 : 𝑃(𝑋 > 1; ∆𝑡) = 0

𝐻3 : 𝑃(𝑋 = 0; ∆𝑡) = 1 − 𝛼Δ𝑡
𝐻4 : As ocorrências de sucessos em intervalos são independentes
A primeira hipótese 𝐻1 diz que a probabilidade de um sucesso num intervalo ∆𝑡 é

𝑡
proporcional à amplitude do intervalo, ali indicado por Δ𝑡. Admitindo que ∆𝑡 = 𝑛 teremos
𝛼𝑡
𝑃(𝑋 = 1, ∆𝑡) = . Como estamos considerando 𝜆 = 𝛼𝑡, é razoável pensar a distribuição de
𝑛
𝜆
Poisson como uma boa aproximação de uma distribuição binomial com parâmetros 𝑛 e 𝑝 = 𝑛.
Diz-se que a aproximação
𝑒 −𝑛𝑝 ⋅ (𝑛𝑝)𝑥
𝑏(𝑥; 𝑛, 𝑝) ≅ (4.15)
𝑥!
é boa se 𝑛 for grande (𝑛 → ∞) e 𝑝 pequeno (𝑝 → 0) de sorte que 𝑛𝑝 → 𝜆. Para encontrarmos a

expressão que fornece a probabilidade de ocorrer 𝑥 sucessos no intervalo de comprimento 𝑡,
𝜆
basta, então, calcular o limite de uma distribuição binomial com parâmetros 𝑛 e 𝑝 = 𝑛 como
mostra a igualdade (4.16).
𝑃(𝑋 = 𝑥; 𝜆) = lim 𝑏(𝑥; 𝑛, 𝑝) (4.16)

𝑛→∞
Um cálculo talvez não tão simples é capaz de mostrar que
𝐸[𝑋] = 𝑉𝑎𝑟(𝑋) = 𝜆 (4.17)
Geralmente, o valor 𝜆 que aparece na Definição 4.5 é uma taxa por unidade de medida.
Como 𝜆 é positivo, 𝑃(𝑋 = 𝑥; 𝜆) também será qualquer que seja o valor de 𝑥. O fato de
∑∞ 𝜆
𝑥=0 𝑃(𝑋 = 𝑥; 𝜆) = 1 é uma conseqüência da expansão de 𝑒 da série infinita de Maclaurin,
que aparece na maioria dos livro-texto de cálculo, dada a seguir
∞
𝜆
𝜆𝑥
𝑒 =∑ (4.18)
𝑥!
𝑥=0
Se os dois termos extremos da equação (4.18) forem multiplicados por 𝑒 −𝜆 e realizando

as simplificações adequadas obtemos

∞
𝑒 −𝜆 ⋅ 𝜆𝑥
∑ =1
𝑥!
𝑥=0
o que mostra que 𝑃(𝑋 = 𝑥; 𝜆) satisfaz a segunda condição necessária para definir uma fdp.
É importante lembrar que alterando o comprimento do intervalo analisado é necessário

ponderar o “novo” valor de 𝜆 referente ao intervalo requerido. A leitura do Exemplo 4.10 traz
mais esclarecimentos.
Exemplo 4.10 É sabido que no Cal Center de uma grande empresa, um telefonista atende, em
média, 2 chamadas por hora. Dessa forma, qual a probabilidade dessa telefonista receber no
máximo três chamadas em 2 horas? E a probabilidade de não receber chamadas em 90 minutos?
Solução: Note que o enunciado forneceu o valor de atendimentos médio de 2chamadas por
hora, logo𝜆 = 2. Em duas horas o “novo” valor de lambda será,𝜆 = (2 𝑐ℎ𝑎𝑚𝑎𝑑𝑎𝑠⁄ℎ𝑜𝑟𝑎) ⋅
(2 ℎ𝑜𝑟𝑎𝑠) = 4 𝑐ℎ𝑎𝑚𝑎𝑑𝑎𝑠. Já para 90 minutos teremos uma hora e meia então o “novo” valor
de lambda será 𝜆 = (2 𝑐ℎ𝑎𝑚𝑎𝑑𝑎𝑠⁄ℎ𝑜𝑟𝑎) ⋅ (1,5 ℎ𝑜𝑟𝑎) = 3 𝑐ℎ𝑎𝑚𝑎𝑑𝑎𝑠. Assim, a primeira
pergunta: No máximo três chamadas em 2 horas temos 𝜆 = 4 e
𝑃(𝑋 ≤ 3; 4) = 𝑃(𝑋 = 0; 4) + 𝑃(𝑋 = 1; 4) + 𝑃(𝑋 = 2; 4) + 𝑃(𝑋 = 3; 4)
𝑒 −(4) ⋅ (4)0 𝑒 −(4) ⋅ (4)1 𝑒 −(4 ⋅ (4)2 𝑒 −(4) ⋅ (4)3
= + + +
0! 1! 2! 3!
= 0,4331
A segunda pergunta: nenhuma chamada em 90 minutos. Aqui, 𝜆 = 3, e
𝑒 −(3) ⋅ (3)0
𝑃(𝑋 = 0; 3) = ≅ 0,0498
0!
Portanto, existe uma probabilidade de 43,31% de a atendente receber no máximo três
chamados em 2 horas e 4,98% de ela não receber chamadas em 90 minutos.
■
Exemplo 4.11 A contaminação é um problema na fabricação de discos de armazenamento

óptico (CDs). O número de partículas de contaminação que ocorrem em um disco óptico tem
uma distribuição de Poisson, e o número médio de partículas por centímetro quadrado da
superfície do material é 0,1. A área de um disco em estudo é de 100 centímetros quadrados.
Encontre a probabilidade de que 12 partículas ocorram na área de um disco em estudo.

Solução: Deixe 𝑋 denotar o número de partículas na área de um disco em estudo. Como o número
médio de partículas é de 0,1 𝑝𝑎𝑟𝑡𝑖𝑐𝑢𝑙𝑎𝑠⁄𝑐𝑚2 temos 𝜆 = 0,1 𝑝𝑎𝑟𝑡𝑖𝑐𝑢𝑙𝑎𝑠⁄𝑐𝑚2 . Estamos
interessados em avaliar uma área de 100 𝑐𝑚2 . Com isso devemos obter o “novo” valor de
lambda correspondente a esta área de 100 𝑐𝑚2 . Assim, 𝜆 = (100 𝑐𝑚2 ) ⋅
(0,1 𝑝𝑎𝑟𝑡𝑖𝑐𝑢𝑙𝑎𝑠⁄𝑐𝑚2 ) = 10 𝑝𝑎𝑟𝑡𝑖𝑐𝑢𝑙𝑎𝑠. Dessa forma, aplicando (4.14) para 𝜆 = 10
chegamos a
𝑒 −(10) ⋅ (10)12
𝑃(𝑋 = 12; 10) = ≅ 0,095
12!
■
Exemplo 4.12 Se uma editora de livros não-técnicos se esforça para garantir que seus livros não
possuem erros tipográficos, deforma que a probabilidade de uma página conter um erro desse
tipo é de 0,005 e os erros são independentes de página para página, qual é a probabilidade de
um de seus romances de 400 páginas conter exatamente uma página com erros? No máximo
três páginas com erros?
Solução: Deixe 𝑋 representar o número de páginas que contém ao menos um erro. Com uma
análise detalhada do problema, vê-se que 𝑋 é uma v.a. binomial com 𝑛 = 400 e 𝑝 = 0,005, de
forma que 𝑛𝑝 = 2. O que queremos é 𝑃(𝑋 = 1) e 𝑃(𝑋 ≤ 3). Como 𝑋~𝑏(𝑥; 𝑛, 𝑝) é 𝑛𝑝 = 2
então 𝑃(𝑋 = 𝑥) pode ser aproximada pela distribuição de Poisson com 𝜆 = 2. Assim,
−2
(2)1
𝑃(𝑋 = 1; 2) ≅ 𝑒 ⋅ = 0,271
1!
e
3
𝑒 −2 ⋅ (2)𝑥 𝑒 −2 ⋅ (2)0 𝑒 −2 ⋅ (2)1 𝑒 −2 ⋅ (2)2 𝑒 −2 ⋅ (2)3
𝑃(𝑋 ≤ 3; 2) ≅ ∑ = + + + = 0,857
𝑥! 0! 1! 2! 3!
𝑥=0

1. Para os exercícios (a) a (e) abaixo, considere e enunciado:
Das variáveis abaixo descritas, assinale quais são binomiais, e para essas dê os respectivos
campos de definição e função de probabilidade. Quando julgar que a variável não e binomial,
aponte a razão:
a) De uma urna com dez bolas brancas e 20 pretas, vamos extrair, com reposição, cinco
bolas. 𝑋 é o número de bolas brancas nas cinco extrações.

b) Refaça o problema anterior, mas dessa vez as 𝑛 extrações são sem reposição.
c) Temos cinco urnas com bolas pretas e brancas e vamos extrair uma bola de cada urna.
Suponha que 𝑋 seja o número de bolas brancas obtidas no final.
d) Vamos realizar uma pesquisa em dez cidades brasileiras, escolhendo ao acaso um
habitante de cada uma delas e classificando-o em pró ou contra um certo projeto federal.
Suponha que 𝑋 seja o número de indivíduos contra o projeto no final da pesquisa.
e) Em uma indústria existem 100 máquinas que fabricam determinada peça. Cada peça é
classificada com boa ou defeituosa. Escolhendo ao acaso um instante de tempo e
verificamos uma peça de cada uma das máquinas. Suponha que 𝑋 seja o número de peças
defeituosas.
2. Uma máquina de solda automática está sendo considerada para uso em um processo de
produção. Será considerado para compra se for bem sucedido em 99% das suas soldas. Caso
contrário, não será considerado eficiente. Um teste deve ser realizado com um protótipo para
realizar 100 soldas. A máquina será aceita para fabricação se não falhar mais que 3 soldas.
a) Qual é a probabilidade de que uma eficiente máquina seja rejeitada?
b) Qual é a probabilidade de que uma máquina ineficiente com 95% de sucesso de
soldagem seja aceita?
3. Suponha que a probabilidade de que qualquer pessoa acredite em um conto sobre as
transgressões de uma atriz famosa seja 0,8. Qual é a probabilidade de que
a) a sexta pessoa a ouvir este conto é a quarta a acreditar nisso?
b) a terceira pessoa a ouvir este conto é a primeira a acreditar nisso?
4. Se 𝑋 ~ 𝑏(𝑛, 𝑝), sabendo-se que 𝐸[𝑋] = 12 e 𝜎 2 = 3, determine:
a) 𝑛
b) 𝑝
c) 𝑃(𝑋 < 12)
d) 𝑃(14 ≤ 𝑋)
e) 𝐸[𝑍] e 𝑉𝑎𝑟(𝑍), onde 𝑍 = (𝑋 − 12)/√13
14 12
f) 𝑃 (16 ≤ 𝑌) e 𝑃 (16 ≤ 𝑌), onde 𝑌 = 𝑋/𝑛
5. Numa central telefônica, o número de chamadas chega segundo uma distribuição de Poisson,
com a média de oito chamadas por minuto. Determinar qual a probabilidade de que num
minuto se tenha:
a) Dez ou mais chamadas

b) Menos que nove chamadas

c) Entre sete (inclusive) e nove (inclusive)
6. Quando as placas de circuito integrado usadas na fabricação de CD-players são testadas, a
porcentagem de placas com defeitos no longo prazo é igual a 5%. Seja 𝑋 o número de placas
com defeito em uma amostra aleatória de tamanho 𝑛 = 25, de forma que 𝑋~𝑏(25; 0,05).
Assim determine:
a) Determine 𝑃(𝑋 ≤ 2).
a. Determine 𝑃(𝑋 ≥ 5).
b. Determine 𝑃(1 ≤ 𝑋 ≤ 4).
c. Qual é a probabilidade de que nenhuma das 25 placas apresente defeito?
d. Calcule o valor esperado e o desvio padrão de X.
7. Em um "horário ocupado", uma central telefônica está muito próxima da capacidade, de
modo que os chamadores têm dificuldade em fazer suas chamadas. Pode ser interessante
estimar o número de tentativas necessárias para fazer uma conexão. Suponha que a
probabilidade de uma conexão durante um tempo ocupado seja de 𝑝 = 0,05. Estime
probabilidade de que 5 tentativas sejam necessárias para uma chamada bem-sucedida.
8. Um cientista inocula camundongos, um de cada vez, com um germe de doença até encontrar
2 que contraíram a doença. Se a probabilidade de contrair a doença é 1/6, qual é a
probabilidade de que 8 camundongos sejam necessários?
9. Num certo tipo de fabricação de fia magnética, ocorrem cortes a uma taxa de um por 2.000
pés. Qual a probabilidade de que um rolo com 2.000 pés de fita magnética tenha:
a) Nenhum corte
b) No máximo dois cortes
c) Pelo menos dois cortes
10. A cor das sementes de ervilhas é determinada por um único lócus genético. Se dois alelos
desse lócus são 𝐴𝐴 ou 𝐴𝑎 (o genótipo), então a ervilha será amarela (o fenótipo) e, se o alelo
for 𝑎𝑎, será verde. Suponha que organizemos 20 sementes 𝐴𝑎 aos pares e cruzemos as duas
ervilhas de cada par para obtenção de 10 novos genótipos.Cada novo genótipo será um
sucesso se for 𝑎𝑎 e uma falha, caso contrário. Determine a probabilidade de obtermos não
mais que um novo genótipo do tipo 𝑎𝑎. Suponha que cada membro do par seja igualmente
provável de contribuir com 𝑎 ou 𝐴
11. No jogo de “Dois Dedos”, 2 jogadores mostram 1 ou 2 dedos e, simultaneamente,
adivinham o número de dedos que seu oponente mostrará. Se apenas um dos jogadores

adivinhar corretamente, ele ganha uma quantia (em reais) igual à soma dos dedos mostrados
por ele e seu oponente. Se ambos os jogadores acertarem corretamente ou se nenhum dos
dois adivinhar corretamente, nenhum dinheiro será ganho. Considere um jogador específico,
e denote por 𝑋 a quantia de dinheiro que ele ganha em um único jogo de “Dois Dedos”.
a) Se cada jogador agir independentemente do outro, e se cada jogador fizer a sua escolha
do número de dedos que ele irá mostrar e o número que ele terá de adivinhar que seu
oponente mostrará de tal forma que cada uma das 4 possibilidades é igualmente
provável, quais são os valores possíveis de 𝑋 e quais são suas probabilidades
associadas?
b) Suponha que cada jogador aja de maneira independente do outro. Se cada jogador
decidir segurar o mesmo número de dedos que ele suponha que seu oponente irá segurar,
e se cada jogador tem a mesma probabilidade de segurar 1 ou 2 dedos, quais são os
valores possíveis de 𝑋 e suas probabilidades associadas?
12. Suponha que a probabilidade de que um item produzido por uma máquina seja defeituoso
é de 0,2. Se dez itens produzidos por essa máquina são selecionados ao acaso, qual a
probabilidade de que não mais do que um defeituoso seja encontrado? Use a binomial e a
distribuição de Poisson e compare os resultados.
13. Encontre o valor esperado e a variância do número de vezes que um jogador deve lançar
um dado até que o resultado 1 tenha ocorrido 4 vezes.
14. Calcule as seguintes probabilidades binomiais diretamente pela fórmula 𝑏(𝑥; 𝑛, 𝑝) para:
a) 𝑏(3; 8; 0,6)
b) 𝑏(5; 7; 0,9)
c) 𝑃(3 ≤ 𝑋 ≤ 5) quando 𝑛 = 10 e 𝑝 = 0,2
d) 𝑃(1 ≤ 𝑋) quando 𝑛 = 12 e 𝑝 = 0,1
15. Examinaram-se 2.000 ninhadas de cinco porcos cada uma, segundo o número de machos,
Os dados estão representados na tabela abaixo
No de Machos No de Ninhadas
0 20
1 360
2 700
3 680
4 200
5 40
Total 2.000
a) Calcule a proporção média de machos
b) Calcule, para cada valor de 𝑋, o número de ninhadas que você deve esperar se
𝑋 ~ 𝑏(5, 𝑝), onde 𝑝 é a proporção média de machos calculada no item (a)
16. Se 𝑋 tem distribuição binomial com parâmetros 𝑛 = 5 e 𝑝 = 1/2, faça os gráficos da
distribuição de 𝑋 e da fma 𝐹(𝑥).
17. Durante um processo de fabricação, 15 unidades são selecionadas aleatoriamente a cada
dia da linha de produção para verificar o percentual de defeito. A partir da informação
histórica, sabe-se que a probabilidade de uma unidade defeituosa é de 0,05. A qualquer
momento, 2 ou mais defeituosos são encontrados na amostra de 15, o processo é
interrompido. Este procedimento é usado para fornecer um sinal caso a probabilidade de um
defeito tenha aumentado.
a) Qual é a probabilidade de que, em qualquer dia, o processo de produção seja
interrompido? (Assuma 5% de defeito.)
b) Suponha que a probabilidade de um defeito tenha aumentado para 0,07. Qual é a
probabilidade de que, em qualquer dia, o processo de produção não seja interrompido?
18. Considere, agora, 𝑛 = 5 e 𝑝 = 1/4. Obtenha o gráfico da distribuição de 𝑋. Qual a
diferença entre esse gráfico e o correspondente do problema 16? O que ocasionou a
diferença?
19. Suponha que os navios cheguem a um porto a razão de 2 navios por hora. Observando o
processo de distribuição durante o período de meia hora, determine a probabilidade de:
a) Não chegar nenhum navio. R. 36,8%
b) Chegarem 3 navios. R. 6,1%
20. Em uma série de campeonatos da NBA (Associação Nacional de Basquete), a equipe que
vence quatro partidas em sete é a vencedora. Suponha que as equipes A e B se enfrentem
nos jogos do campeonato e que a equipe A tenha probabilidade de 0,55 de ganhar um jogo
sobre a equipe B.
a) Qual é a probabilidade de o time A vencer a série em 6 jogos? R. 0,1853
b) Qual é a probabilidade de a equipe A vencer a série? R. 0,6083
c) Se as equipes A e B estavam frente a frente em uma série de playoffs regionais, que é
decidida vencendo três de cinco jogos, qual é a probabilidade de que o time A ganhe a
série? R. 0,5931
21. Suponha que os defeitos em fios para tear tenham média de 0,2 defeitos por metro.
Inspecionando-se pedaços de fio de 6 metros, determine a probabilidade de menos de 2
defeitos sejam encontrados. R. 66,22%

22. Suponha que a v.a. 𝑋 seja aproximada pela distribuição binomial com parâmetros 𝑛 e 𝑝,
ou seja, 𝑃(𝑋 = 𝑥) = 𝑏(𝑥; 𝑛, 𝑝)e
𝑛
𝑏(𝑥; 𝑛, 𝑝) = ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑥
𝑥
𝜆
sendo 𝑝 é a probabilidade de sucesso. Considerando 𝑝 = 𝑛, com 𝜆 > 0, elabore argumentos
e cálculos para mostrar que,

𝜆𝑥
lim 𝑏(𝑥; 𝑛, 𝑝) = 𝑒 −𝜆 ⋅
𝑛→∞ 𝑥!
e conclua, baseando-se nos seus cálculos, que a distribuição de Poisson é uma boa
aproximação da distribuição binomial quando 𝑛 for grande e 𝑝 pequeno.
23. Ocasionalmente, um dispositivo eletrônico não funciona e precisa ser substituído. Sabe-se
que o dispositivo é considerado satisfatório se, em média, não gerar mais do que 0,20 erro
por hora. Um período de 5 horas específico é escolhido para testar o dispositivo. Se não
ocorrer mais do que 1 erro durante o período de tempo, o dispositivo será considerado
satisfatório.
a) Qual é a probabilidade de que um dispositivo satisfatório seja considerado
insatisfatório com base no teste? Assuma um processo de Poisson.
b) Qual é a probabilidade de um dispositivo ser aceito como satisfatório quando, em ato,
o número médio de erros é de 0,25? Novamente, assuma um processo de Poisson.
24. A probabilidade de um paciente se recuperar de uma doença sanguínea rara é de 0,4. Se 15
pessoas são conhecidas por terem contraído esta doença, qual é a probabilidade de que
a) pelo menos 10 sobrevivam, R. 0,0338
b) de 3 a 8 sobrevivem, R 0,8779
c) exatamente 5 sobrevivem? R 0,1859
25. A probabilidade de cada núcleo do urânio 238 (U 238 ) se desintegrar emitindo um partícula
𝛼, em um segundo, é muito pequena, cerca de 4,9 × 10−18 . Experiências mostram que em
1 mg (U 238 ) existem aproximadamente 2,533 × 1018 núcleos. Definindo a variável
aleatória N como o número de núcleos que se desintegram e, admitindo–se que a
desintegração de um núcleo não afeta a probabilidade de desintegração de qualquer núcleo
(independência), determine a probabilidade de exatamente 2 núcleos se desintegrarem em
0,30 mg (U 238 ), em 1 (um) segundo. R. 0,169

26. De acordo com o Progresso da Engenharia Química (novembro de 1990),

aproximadamente 30% de todas as falhas de tubulações em fábricas de produtos químicos
são causadas por erro do operador.
a) Qual é a probabilidade de que, das 20 próximas falhas de tubulação, pelo menos 10
sejam devidas a erros do operador?
b) Qual é a probabilidade de que não mais que 4 de 20 dessas falhas sejam devidas a erros
do operador?
c) Suponha, para uma planta em particular, que, da amostra aleatória de 20 falhas,
exatamente 5 sejam devidas a erro do operador. Você acha que o valor de 30%
indicado acima se aplica a essa planta? Comente.
27. As probabilidades que um delegado de uma determinada convenção chegue por via aérea,
ônibus, automóvel ou trem são respectivamente 0,4, 0,2, 0,3 e 0,1. Qual é a probabilidade
de que entre 9 delegados selecionados aleatoriamente nesta convenção, 3 chegaram de
avião, 3 chegaram de ônibus, 1 chegou de automóvel e 2 chegaram de trem?
28. Uma pesquisa nacional de 17.000 universitários da Universidade UFGO, USP, UFMG
revelou que quase 70% desaprovam o consumo diário de maconha. Se 18 desses
universitários forem escolhidos aleatoriamente e perguntarem sua opinião, qual é a
probabilidade de que mais de 9, mas menos de 14, desaprovem diariamente o uso de
maconha?
29. Os biólogos que realizam estudos em um ambiente particular costumam marcar e liberar
sujeitos para estimar o tamanho de uma população ou a prevalência de certas características
da população. Dez animais de uma determinada população considerados extintos (ou quase
extintos) são capturados, etiquetados e liberados em uma determinada região. Após um
período de tempo, uma amostra aleatória de 15 deste tipo de animal é selecionada na região.
Qual é a probabilidade de que 5 dos selecionados sejam marcados se houver 25 animais
desse tipo na região?
30. Deixe 𝑋indicar o número de certo tipo de animais capturados em uma armadilha durante
certo período de tempo. Estudos preliminares mostraram que 𝑋tem uma distribuição de
Poisson de forma que, em média, cada armadilha contém 4,5 animais. [O artigo “Dispersal
Dynamics ofthe Bivalve Gemma Gemmain a Patchy Environment (Ecological
Monographs, 1995, p. 1-20) sugere esse modelo. O bivalve Gemma Gemma é um pequeno
molusco]. Estime a probabilidade de uma armadilha conter
a) exatamente cinco animais R. 0,1708

b) no máximo cinco animais R. 0,7029

31. De acordo com um estudo publicado por um grupo de sociólogos da Universidade de
Massachusetts, cerca de dois terços dos 20 milhões de pessoas neste país que tomam
Valium são mulheres. Supondo que este valor seja uma estimativa válida, encontre a
probabilidade de que, em um determinado dia, a quinta prescrição escrita por um médico
para Valium seja
a) a primeira prescrição de Valium para uma mulher;
b) o terceiro prescrevendo Valium para uma mulher.
4.2. Modelos Contínuos
Nesta seção, trataremos os principais modelos de distribuições de probabilidades para

variáveis aleatórias contínuas. Seguindo o objetivo destas notas, nos restringiremos a discutir
os seguintes modelos de distribuições contínuas: Uniforme, Normal, Gama, Exponencial, t de
Student, Qui-Quadrado e F de Snedecor. Por motivos didáticos esses modelos serão avaliados
de forma indutiva e sem o aprofundamento teórico necessário.
Distribuição Uniforme
O modelo uniforme é o mais simples modelo para uma variável aleatória contínua. Segue
a definição: Uma variável aleatória é dita ser uniforme sobre o intervalo (0; 1) se sua função de
densidade de probabilidade é dada por
1, 𝑠𝑒 0 < 𝑥 < 1
𝑓(𝑥) = { (4.19)
0, 𝑐𝑐
Perceba que a equação (4.19) é, de fato, uma função de densidade, pois 𝑓(𝑥) ≥ 0 e
+∞
∫−∞ 𝑓(𝑥) 𝑑𝑥 = 1. Porque 𝑓(𝑥) > 0 somente quando 𝑥 ∈ (0 ; 1), segue que deve assumir um
valor somente no intervalo (0; 1). Além disso, 𝑓(𝑥) é constante para 𝑥 ∈ (0 ; 1), 𝑋 tem a
mesma probabilidade de estar perto de qualquer valor em (0; 1) do que estar perto de qualquer
outro valor. Para verificar esta declaração, note que, para qualquer 0 < 𝑎 < 𝑏 < 1 é fato que
𝑏
𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∫ 𝑓(𝑥) 𝑑𝑥 = 𝑏 − 𝑎
𝑎
Em outras palavras, a probabilidade de que 𝑋 esteja em qualquer subintervalo específico

de (0; 1) é igual ao comprimento desse subintervalo. De forma geral temos a

Definição 4.6 Uma variável aleatória 𝑿 é dita variável aleatória uniforme no intervalo (𝒂; 𝒃)
se a função de densidade de probabilidade de 𝑿 é dada por
1
𝑓(𝑥) = {𝑏 − 𝑎 , 𝑠𝑒 𝑎 ≤ 𝑥 ≤ 𝑏 (4.20)
0, 𝑐𝑐
𝑥
Como 𝐹(𝑥) = ∫−∞ 𝑓(𝑡) 𝑑𝑡, segue da (4.20) que a função de densidade acumulada de uma
variável aleatória uniforme no intervalo (𝑎; 𝑏) é dada por
0, 𝑠𝑒 𝑥 ≤ 𝑎
𝑥−𝑎
𝐹(𝑥) = { , 𝑠𝑒 𝑎 < 𝑥 < 𝑏 (4.21)
𝑏−𝑎
1, 𝑠𝑒 𝑥 > +𝑏
Graficamente a distribuição uniforme é uma reta horizontal ligando os pontos

(𝑎, 1⁄(𝑏 − 𝑎)) e (𝑏, 1⁄(𝑏 − 𝑎)). A Figura 4.1(a) exemplifica melhor essa ideia enquanto a
Figura 4.1(b) exibe o gráfico de 𝐹(𝑥).
Figura 4.1
A função de densidade forma um retângulo com base (𝑏 − 𝑎) e altura constante

1⁄(𝑏 − 𝑎). Como resultado, a distribuição uniforme é frequentemente chamada de distribuição
retangular. As probabilidades são simples de calcular para a distribuição uniforme devido à
natureza simples da função de densidade. Entretanto, observe que a aplicação dessa distribuição
é baseada na suposição de que a probabilidade de cair em um intervalo de comprimento fixo
dentro de (𝑎; 𝑏) é constante.Supondo que 𝑋 seja uma variável aleatória uniforme no intervalo
(𝑎, 𝑏) e considerando a Definição 3.9 temos

∞ ∞
𝐸[𝑋] = ∫ 𝑥𝑓(𝑥) 𝑑𝑥 𝐸[𝑋 2]
= ∫ 𝑥 2 𝑓(𝑥) 𝑑𝑥
−∞ −∞
𝑏 𝑏
𝑥 e 𝑥2
= ∫ 𝑑𝑥 = ∫ 𝑑𝑥
𝑎 𝑏−𝑎 𝑎 𝑏−𝑎
𝑏+𝑎 𝑏 2 + 𝑎𝑏 + 𝑎2
= =
2 3
agora, usando (3.20) obtemos

𝑉𝑎𝑟(𝑋) = 𝐸[𝑋 2 ] − (𝐸[𝑋])2
𝑏 2 + 𝑎𝑏 + 𝑎2 𝑏+𝑎 2
= ( )−( )
3 2
𝑏−𝑎 2
= ( )
12
ou seja, sendo 𝑋 uma variável aleatória uniforme, sua média e variância são dadas por
𝑎+𝑏 (𝑏 − 𝑎)2
𝐸[𝑋] = e 𝑉𝑎𝑟(𝑋) = (4.22)
2 12
Exemplo 4.13 Considere a escolha, de forma aleatória, de um ponto no segmento de reta [𝟎, 𝟐].
Qual a probabilidade de que o ponto escolhido esteja entre 𝟏 e 𝟑/𝟐?
Solução: Fazendo 𝑋 representar a variável escolher um ponto de [0, 2] tem-se que a função
1 1
densidade de 𝑋 é dada por 𝑓(𝑥) = 𝑏−𝑎 ⟶ 𝑓(𝑥) = 2 para todo 0 ≤ 𝑥 ≤ 2. Assim,
3/2
3 1 1
𝑃 (0 ≤ 𝑋 ≤ ) = ∫ 𝑑𝑥 =
2 0 2 4
Distribuição Normal
Vamos introduzir, agora, um modelo fundamental em probabilidade e inferência

estatística. É a mais importante distribuição de probabilidade, sendo aplicada em inúmeros
fenômenos e utilizada para desenvolvimento teórico da estatística. Sempre que uma experiência
aleatória é replicada, a variável aleatória que é igual ao resultado médio (ou total) sobre as
réplicas tende a ter uma distribuição normal à medida que o número de réplicas se torna grande.
A distribuição normal foi introduzida pelo matemático francês Abraham DeMoivre em 1733,
que a usou para aproximar probabilidades associadas a variáveis aleatórias binomiais quando o
parâmetro binomial 𝑛 é grande. Este resultado foi posteriormente estendido por Laplace e
outros e é agora englobado em um teorema da probabilidade conhecido como o teorema do
limite central, que é discutido no Capítulo 5.

O teorema do limite central, um dos dois resultados mais importantes na teoria da

probabilidade, dá uma base teórica para a observação empírica frequentemente notada de que,
na prática, muitos fenômenos aleatórios obedecem, pelo menos aproximadamente, a uma
distribuição de probabilidade normal. Alguns exemplos de fenômenos aleatórios que obedecem
a esse comportamento são a altura de um homem, a velocidade em qualquer direção de uma
molécula no gás e o erro cometido na medição de uma quantidade física. É importante observar
que em todos estes exemplos existe uma média e uma variância associados. É claro que
variáveis aleatórias com diferentes médias e variâncias podem ser modeladas por funções de
densidade de probabilidade normal com escolhas apropriadas do centro e da largura da curva.
O valor 𝜇 = 𝐸[𝑋] determina o centro da função de densidade de probabilidade e o valor 𝜎 2 =
𝑉𝑎𝑟(𝑋) determina a largura. Para cada par de parâmetros 𝜇 e 𝜎 2 é associado uma função cuja
curva característica de densidade de probabilidade é totalmente simétrica com formato de sino.
A Figura 4.2 ilustra três curvas de funções de densidade de probabilidade normal com valores
selecionados para os parâmetros 𝜇 e 𝜎 2 , a saber 𝜇 = 5 e 𝜎 2 = 1; 𝜇 = 5 e 𝜎 2 = 4 e 𝜇 = 15 e
𝜎 2 = 1. A definição a seguir fornece a fórmula para funções de densidade de probabilidade
normal com parâmetros 𝜇 e 𝜎 conhecidos.
Definição 4.7 A variável aleatória 𝑋 com função de densidade de probabilidade dada por
1 1 𝑥−𝜇 2
𝑒 −2 ( )
𝑓(𝑥) = 𝜎 −∞<𝑥 <∞ (4.23)
𝜎√2𝜋
é dita variável aleatória normal com parâmetros𝜇 e 𝜎, com −∞ < 𝜇 < ∞, 𝑒 𝜎 > 0. A
notação 𝑋~𝑁(𝜇 , 𝜎 2 ) é usada para denotar essa distribuição.

Figura 4.2
Um importante fato sobre a variável aleatória normal é que sendo 𝑋 distribuída

normalmente com parâmetros 𝜇 e 𝜎 2 , então 𝑌 = 𝑎𝑋 + 𝑏 é também normalmente distribuída
com parâmetros 𝐸[𝑌] = 𝑎𝜇𝑋 + 𝑏 e 𝑉𝑎𝑟(𝑌) = 𝑎2 𝜎𝑋2 . Veja o exercício 12 da lista 4.1.
Graficamente, a distribuição normal tem a forma de um sino. A figura abaixo ilustra uma
particular curva normal, determinada pelos valores particulares de 𝜇 e 𝜎 2 .
Figura 4.3

Além disso, 𝑓(𝑥) ⟶ 0 quando 𝑥 ⟶ ±∞, 𝑥 = 𝜇 − 𝜎 e 𝑥 = 𝜇 + 𝜎 são de inflexão de

1
𝑓(𝑥), o ponto de abscissa 𝑥 = 𝜇 é um gerador de máximo de 𝑓(𝑥) e o valor é o valor
𝜎√2𝜋
máximo de 𝑓(𝑥). A densidade 𝑓(𝑥) é simétrica em relação à reta 𝑥 = 𝜇, isto é, 𝑓(𝜇 + 𝑥) =

𝑓(𝜇 = 𝑥) para todo 𝑥 real.
Para simplificar usaremos a expressão dada na Definição 4.7 para designar uma v.a. 𝑋
que é normalmente distribuída com parâmetros 𝜇 e 𝜎 2 , isto é, 𝑋~𝑁(𝜇, 𝜎 2 ). Uma implicação
importante do resultado precedente é que se 𝑋 é normalmente distribuído com os parâmetros 𝜇
e 𝜎 2 , então a variável aleatória
𝑋−𝜇
𝑍= (4.24)
𝜎
é normalmente distribuído com os parâmetros 𝜇𝑍 = 0 e 𝜎𝑍2 = 1. Tal variável aleatória é

considerada padrão, costumeiramente chamada de variável aleatória normal padrão.
Definição 4.8 A distribuição de uma variável aleatória a qual 𝝁 = 𝟎 e 𝝈𝟐 = 𝟏 é chamada

distribuição normal padrão com fdp dada por
1 𝑧2
𝜑(𝑧) = 𝑒− 2 (4.25)
√2𝜋
com−∞ < 𝑧 < ∞.
Gráfico da Normal Padrão está na Figura 4.4 abaixo
Figura 4.4

𝑋−𝜇
Se tivermos 𝑋~𝑁(𝜇 ; 𝜎 2 ), então a v.a. 𝑍 = com fdp dada (4.25) terá média 0 (zero)
𝜎
e variância 1. O que não se mostra tão facilmente é que 𝑍 dada também tem distribuição normal.
A transformação é fundamental para calcularmos probabilidades relativas a uma distribuição
normal qualquer. Em referências futuras diremos, simplesmente, que 𝑍~𝑁(0 ; 1).
A função de densidade acumulada 𝐹(𝑡) até o ponto de abscissa 𝑥 = 𝑡 de uma variável

aleatória normal 𝑋, com média 𝜇 e variância 𝜎 2 é obtida integrando de −∞ até 𝑡, ou seja,
𝑡
𝐹(𝑡) = ∫ 𝑓(𝑥) 𝑑𝑥 (4.26)
−∞
A integral em (4.26) corresponde à área, sob 𝑓(𝑥), desde −∞ até 𝑡. Veja na Figura 4.5
Figura 4.5
Suponha agora que 𝑋~𝑁(𝜇, 𝜎 2 ) e que queiramos calcular a probabilidade expressa por
𝑃(𝑎 < 𝑋 < 𝑏), como mostra a figura seguinte
Figura 4.6

A integral (4.26) não pode ser resolvida analiticamente, e, portanto a probabilidade indica
só poderá ser obtida, aproximadamente, por meio de integração numérica. No entanto, para
cada valor de 𝜇 e cada valor de 𝜎, teríamos de obter 𝑃(𝑎 < 𝑋 < 𝑏) para diversos valores de 𝑎
e 𝑏, segundo a função dada em (4.23). Essa tarefa é facilitada através do uso de Definição 4.8,
de sorte que somente é necessário construir uma tabela para a distribuição normal padrão. Isso
se dá por que todos os valores de 𝑋 entre 𝑥1 e 𝑥2 têm valores 𝑍 correspondentes entre 𝑧1 e 𝑧2
de sorte que a área sob a curva 𝑋 entre as ordenadas 𝑥 = 𝑥1 e 𝑥 = 𝑥2 seja igual a área sob a
curva 𝑍 entre as coordenadas transformadas 𝑧 = 𝑧1 e 𝑧 = 𝑧2 .
Figura 4.7
Agora, reduzimos o número necessário de tabelas de áreas de curva normal para uma, a
da distribuição normal padrão. A Tabela I (anexo) indica a área sob a curva normal padrão
𝑥−𝜇
correspondente a 𝑃(𝑍 < 𝑧𝑐 ) onde 𝑧𝑐 = é o valor calculado de 𝑍 correspondente aos
𝜎
parâmetros 𝜇 e 𝜎 de 𝑋. Se tomarmos, por exemplo, 𝑧𝑐 = 1,76, uma análise direta na tabela I

vemos que 𝑃(𝑍 ≤ 1,76) ≅ 0,96080. Para obter esse valor, considere que 𝑧𝑐 = 1,76 é separado
em duas “partes” sendo a primeira em parte inteira e primeiro decimal de 𝑧𝑐 e a segunda em
segundo decimal de 𝑧𝑐 . Assim, procure na coluna parte inteira e primeiro decimal de 𝑧𝑐 o valor
correspondente a parte inteira e o primeiro decimal de 𝑧𝑐 , neste caso o valor 1,7. Siga na linha
à direita até obter a coluna que indica o segundo decimal, neste caso, 6, como indica a figura.
O valor obtido no ‘cruzamento’ é a probabilidade desejada.

Figura 4.8 Exemplo de como usa a Tabela I
Perceba que as probabilidades são obtidas pela integração da função 𝜑(𝑧). Essa tábua dá
a probabilidade sob uma curva normal padrão, que nada mais são do que as correspondentes
áreas sob a curva.
Figura 4.9 probabilidade fornecida pela Tabela I, a saber, 𝑷(𝒁 ≤ 𝒛𝒄 )
Alguns exemplos para mostrar como devemos olhar a tabela I (anexo) quando quisermos
obter alguma probabilidade. Claro que neste aspecto, as característica simétricas da distribuição
normal são fundamentais para uma análise correta da tabela. Olhando a tabela I, determine o
valor de:
c) 𝑃(−1,73 ≤ 𝑍 ≤ 0)
𝑃(−1,73 ≤ 𝑍 ≤ 0) = 𝑃(𝑍 ≤ 0) − 𝑃(𝑍 ≤ −1,73)
= 0,5 − (1 − 𝑃(𝑍 ≤ 1,73))
≅ 0,45818
(devido à simetria da curva)

Área de correspondente a
𝑃(−1,73 ≤ 𝑍 ≤ 0)
d) 𝑃(1,73 ≤ 𝑍)
𝑃(1,73 ≤ 𝑍) = 1 − 𝑃(𝑍 ≤ 1,73)
≅ 0,04182
𝑃(1,73 ≤ 𝑍)
e) 𝑃(𝑍 < −1,73)

𝑃(𝑍 < −1,73) = 1 − 𝑃(𝑍 ≤ 1,73)
= 1 − 0,95818
≅ 0,04182
𝑃(𝑍 < −1,73)
f) 𝑃(0,47 ≤ 𝑍 ≤ 1,73)
𝑃(0,47 ≤ 𝑍 ≤ 1,73) = 𝑃(𝑍 ≤ 1,73) − 𝑃(𝑍 ≤ 0,47)
= 0,95818 − 0,68082
≅ 0,27736
𝑃(0,47 ≤ 𝑍 ≤ 1,73)
Agora, suponha que 𝑋 seja uma v.a tal que 𝑋 ~ 𝑁(𝜇, 𝜎 2 ), sendo 𝜇 = 3 e 𝜎 2 = 16, e,
𝑋−𝜇
queiramos calcular 𝑃(2 ≤ 𝑋 ≤ 5). Utilizando𝑍 = temos
𝜎
2−𝜇 𝑋−𝜇 5−𝜇

𝑃(2 ≤ 𝑋 ≤ 5) = 𝑃( ≤ ≤ )
𝜎 𝜌 𝜌
2−3 5−3
= 𝑃( ≤𝑍≤ )
4 4
= 𝑃(−0,25 ≤ 𝑍 ≤ 0,5)
portanto, a probabilidade de 𝑋 estar entre 2 e 5 é igual a probabilidade de 𝑍 estar entre −0,25

e 0,5. Utilizando a tabela I, obtemos

𝑃(−0,25 ≤ 𝑍 ≤ 0,5) = 𝑃(𝑍 ≤ 0,5) − 𝑃(𝑍 ≤ −0,25)

= 𝑃(𝑍 ≤ 0,5) − (1 − 𝑃(𝑍 ≤ 0,25))
= 0,69146 − (1 − 0,59871)
≅ 0,29017
portanto 𝑃(2 ≤ 𝑋 ≤ 5) ≅ 0,29017.
Exemplo 4.14 Os depósitos efetuados no Banco Certo durante o mês de janeiro são distribuídos
normalmente, com média de R$ 10.000,00 e desvio padrão de R$ 1.500,00. Um depósito é
selecionado ao acaso dentre todos os referentes ao mês em questão. Encontre a probabilidade
de que o depósito seja:
a) R$ 10.000,00 ou menos
b) Pelo menos R$ 10.000,00
c) Um valor entre R$ 12.000,00 e R$ 15.000,00
d) Maior que R$ 20.000,00
Solução: Pelo enunciado temos 𝜇 = 10.000 e 𝜎 = 1.500. Seja 𝑋: valor do depósito, então,
a)
10.000 − 10.000
𝑃(𝑋 ≤ 10.000) = 𝑃 (𝑍 ≤ )
1.500
= 𝑃(𝑍 ≤ 0)
= 0,5
Área correspondente a
𝑃(𝑍 ≤ 0)
b)
10.000 − 10.000
𝑃(10.000 ≤ 𝑋) = 𝑃( ≤ 𝑍)
1.500
= 𝑃(0 ≤ 𝑍)
= 1 − (𝑃(𝑍 ≤ 0))
= 0,5
𝑃(0 ≤ 𝑍)
c)

Área correspondente a 𝑃(1,33 ≤ 𝑍 ≤ 3,33)
12.000 − 10.000 𝑋 − 𝜇 15.000 − 10.00

𝑃(12.000 ≤ 𝑋 ≤ 15.000) = 𝑃( ≤ ≤ )
1.500 𝜎 1.500
= 𝑃(1,33 ≤ 𝑍 ≤ 3,33)
= 𝑃(𝑍 ≤ 3,33) − 𝑃(𝑍 ≤ 1,33)
= 0,99957 − 0,90824
≅ 0,09133
d)
20.000 − 10.000
𝑃(20.000 ≤ 𝑋) = 𝑃 ( ≤ 𝑍)
1.500
= 𝑃(6,67 ≤ 𝑍)
= 1 − 𝑃(𝑍 ≤ 6,67)
= 1 − (1)
≅ 0
𝑃(𝑍 ≤ 0)
Às vezes, somos obrigados a encontrar o valor de 𝑧 correspondente a uma probabilidade

especificada que cai entre os valores listados na tabela I. Por conveniência, sempre
escolheremos o valor 𝑧 correspondente à probabilidade tabular que mais se aproxima da
probabilidade especificada. Os exemplos anteriores foram resolvidos indo primeiro de um valor
de 𝑥 para um valor de 𝑧 e, em seguida, computando a área desejada, segundo a tabela I. Porém
em muitos casos invertemos o processo e começamos com uma área ou probabilidade
conhecida, encontramos o valor 𝑧 e, em seguida, determinamos 𝑥. Para isso usamos a expressão
𝑋−𝜇
𝑍= no sentido de descobrir o valor de 𝑥 oculto. Assim estabelece-se a seguinte relação
𝜎
𝑋 = 𝜎𝑋 ⋅ 𝑍 + 𝜇𝑋 (4.27)
Exemplo 4.15 Dada uma distribuição normal com 𝝁 = 𝟒𝟎 e 𝝈 = 𝟔, encontre o valor de 𝒙 tal
que
a) 45% da área esteja a sua esquerda
b) 14% da área esteja a sua direita

Solução: Uma área de 45% à esquerda do valor 𝑥 desejado está sombreada na Figura 4.10
seguinte. Queremos um valor 𝑧 que deixa uma área de 0,45 para a esquerda. Da tabela I
encontramos 𝑧𝑐 = −0,13 tal que 𝑃(𝑍 < −0,13) = 0,45. Consequentemente usando (4.27)
obtemos, 𝑥𝑐 = 6 ⋅ (−0,13) + 40 = 39,22.
Agora, para uma área de 14% à direita da 𝑥 está ilustrado na Figura 4.11. Desta vez, precisamos
de um valor de 𝑧 que deixa 0.14 da área para a direita e, portanto, uma área de 0,86 à esquerda.
Mais uma vez, da tabela I, encontramos 𝑧𝑐 = 1,08 tal que 𝑃(𝑍 < 1,08) = 0,86. Então usando
novamente (4.27) obtemos 𝑥 = 6 ⋅ 1,08 + 40 = 46,48.
É comum relatarmos os resultados associados a uma distribuição normal sob a forma de

porcentagem os quais são denominados regra empírica porque evidências empíricas mostram
que histogramas de dados reais frequentemente podem ser aproximados por curvas normais.
Assim se a distribuição de população de uma variável for (aproximadamente) normal, então
i. Cerca de 68% dos valores estão a 1 dp da média.
ii. Cerca de 95% dos valores estão a 2 dp’s da média.
iii. Cerca de 99,7% dos valores estão a 3 dp’s da média.

Figura 4.12
Aproximação da distribuição binomial pela normal
Não deve ser uma surpresa saber que a distribuição normal pode ser usada para aproximar
probabilidades binomiais para casos em que 𝑛 é grande. Como exemplo suponha que em um
canal de comunicação digital, o número de bits recebidos com erro possa ser modelado por uma
variável aleatória binomial e assuma que a probabilidade de que um bit seja recebido com erro
seja de 1 × 10−5. Se 16 milhões de bits são transmitidos, qual é a probabilidade de ocorrerem
150 erros ou menos? Fazendo 𝑋 ser a variável aleatória que denote o número de erros recebidos,
então 𝑋 é uma variável aleatória binomial e a probabilidade pedida é calculada como abaixo
150
16.000.000
𝑃(𝑋 ≤ 150) = ∑ ( ) ⋅ (10−5 )𝑥 ⋅ (1 − 10−5 )16.000.000−𝑥
𝑥
𝑥=0
Claramente esta probabilidade é difícil de calcular. Felizmente, a distribuição normal

pode ser usada para fornecer uma excelente aproximação neste exemplo. Este exemplo ilustra
que, para muitos sistemas físicos, o modelo binomial é apropriado com um valor extremamente
grande para 𝑛. Nesses casos, é difícil calcular probabilidades usando a distribuição binomial.
Felizmente, a aproximação normal é mais eficaz nesses casos. Para ilustrar a aproximação
normal da distribuição binomial, primeiro desenhamos o histograma para 𝑏(𝑥; 10; 0,5) e então
sobrepomos a curva normal particular com a mesma média e variância que a variável binomial
𝑋. Assim, desenhamos uma curva normal com 𝜇 = 𝑛𝑝 = 10 ⋅ 0,5 = 5 e 𝜎 2 = 𝑛𝑝(1 − 𝑝) =
10 ⋅ 0,5 ⋅ 0,5 = 2,5. Abaixo é fornecida uma ilustração para esses valores

Histograma de X
Normal
0,20
0,1 5
f(x)
0,1 0
0,05
0,00
1 2 3 4 5 6 7 8 9
x
Figura 4.13
A área de cada barra é igual à probabilidade binomial de x. Observe que a área de barras
pode ser aproximada por áreas sob a função de densidade normal. A partir da figura acima
pode-se ver que uma probabilidade tal como 𝑃(3 ≤ 𝑋 ≤ 7) é melhor aproximada pela área sob
a curva normal de 2,5 a 7,5. Essa observação fornece um método para aproximar probabilidades
binomiais. Como uma distribuição normal contínua é usada para aproximar uma distribuição
binomial discreta, a modificação é referida como uma correção de continuidade.
Teorema 4.1 Se 𝑿 é uma variável aleatória binomial com parâmetros 𝒏 e 𝒑, então a forma
limite da distribuição de
𝑋 − 𝑛𝑝
𝑍= (4.28)
√𝑛𝑝(1 − 𝑝)
quando 𝑛 → ∞, é a distribuição normal padrão 𝑁(0; 1).
De forma mais geral, contanto que o histograma de probabilidade não apresente muita
inclinação, as probabilidades binomiais podem ser bem aproximadas pelas áreas da curva

normal. Habitualmente se diz que 𝑋 tem uma distribuição aproximadamente normal. Na prática,
a aproximação é adequada desde que 𝑛𝑝 < 10 ou 𝑛(1 − 𝑝) < 10. Para aproximar uma
probabilidade binomial com uma distribuição normal, uma correção de continuidade é aplicada
da seguinte maneira
𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) ≅ 𝑃(𝑎 − 0,5 ≤ 𝑋 ≤ 𝑏 + 0,5)

(4.29)
𝑎 − 0,5 − 𝑛𝑝 𝑏 + 0,5 − 𝑛𝑝
= 𝑃( ≤𝑍≤ )
√𝑛𝑝(1 − 𝑝) √𝑛𝑝(1 − 𝑝)
como dissemos, a aproximação será boa se 𝑛𝑝 < 10ou𝑛(1 − 𝑝) < 10.
Exemplo 4.16 Agora temos condições de resolver o problema exposto no início desta seção.
suponha que em um canal de comunicação digital, o número de bits recebidos com erro
possa ser modelado por uma variável aleatória binomial e assuma que a probabilidade de
que um bit seja recebido com erro seja de 𝟏 × 𝟏𝟎−𝟓. Se 16 milhões de bits são transmitidos
qual é a probabilidade de ocorrerem 150 erros ou menos?
Solução: Aqui temos 𝑛 = 16.000.000 e 𝑝 = 10−5 = 0,00001. Assim, a normal que se ajusta
à esta binomial terá média 𝜇 = 𝑛𝑝 = 160 e variância 𝜎 2 = 𝑛𝑝(1 − 𝑝) = 159,9984.
Considerando (4.29) e a tabela I obtemos 𝑃(𝑋 ≤ 150) = 𝑃(𝑍 ≤ −0,75) = 0,22663. Portanto
existe uma chance de aproximadamente 22,67% de se ter 150 bits com erros ou menos. Se o
leitor é corajoso o suficiente para desenvolver a expressão binomial resultante chegaria ao
seguinte valor
150
16.000.000
𝑃(𝑋 ≤ 150) = ∑ ( ) ⋅ (10−5 )𝑥 ⋅ (1 − 10−5 )16.000.000−𝑥 ≅ 0,228031
𝑥
𝑥=0
Distribuição Exponencial
Outra distribuição importante e que tem aplicações em confiabilidade de sistemas,

(assunto que não discutiremos nestas notas), é a distribuição exponencial. A discussão da
distribuição de Poisson nos permite definir uma variável aleatória como o número de falhas ao
longo de um intervalo de comprimento 𝑡. Contudo, a distância entre falhas é outra variável
aleatória que é frequentemente analisada. Deixe a variável aleatória 𝑋 denotar o comprimento
de qualquer ponto inicial no intervalo até que uma falha seja detectada. Como você poderia
esperar, a distribuição de 𝑋 pode ser obtida a partir do conhecimento da distribuição do número
de falhas. A chave para o relacionamento é o seguinte conceito. A distância até a primeira falha
excede 3 unidades se e somente se não houver falhas dentro de um comprimento de 3 unidades–
simples, mas suficiente para uma análise da distribuição de 𝑋. A distribuição de probabilidade
do intervalo 𝑡 entre dois sucessos consecutivos de uma distribuição de Poisson é a distribuição
exponencial definida abaixo.
Definição 4.9 A variável aleatória 𝑿 tem distribuição exponencial com parâmetro 𝝀 > 𝟎 se sua
função densidade de probabilidade fdp é dada por
𝜆𝑒 −𝑥𝜆 , 𝑠𝑒 𝑥 > 0
𝑓(𝑥) = { (4.30)
0 , 𝑐𝑐
Escreveremos brevemente, 𝑋 ~ 𝐸𝑥𝑝(𝝀). Graficamente, 𝑓(𝑥) tem a forma de um gráfico

de exponencial. Usando as técnicas adequadas de integração, pode-se mostrar, sem muito
esforço, o valor esperado e a variância de uma distribuição exponencial são
1 1
𝐸[𝑋] = 𝑒 𝑉𝑎𝑟(𝑋) = (4.31)
𝜆 𝜆2
Usando a igualdade apresentada na Definição 4.9, obtemos a fda de 𝑋, que indicará a

probabilidade de 𝑋 variar entre 0 e 𝑥, ou seja, 𝑃(0 < 𝑋 < 𝑥), com 𝑥 ≥ 0.
−𝑡𝜆
𝐹(𝑥) = {1 − 𝑒 , 𝑠𝑒 𝑥 ≥ 0 (4.32)
0 , 𝑐𝑐
Aconselho o leitor a plotar o gráfico de 𝐹(𝑥) acima. Não é difícil ver que
𝑃(𝑋 > 𝑥) = 𝑒 −𝑡𝜆 , 𝑥 > 0 (4.33)
É importante enfatizar que esta distribuição se caracteriza, dentre outros aspectos, por ter
uma função de taxa de falha constante que a propósito é a única distribuição com esta
propriedade. Em termos matemáticos sua simplicidade se destaca em relação às demais, talvez
seja este o motivo dela ser usada extensivamente como um modelo para o tempo de vida de
certos produtos e materiais, uma vez que descreve adequadamente o tempo de vida de óleos
isolantes e dielétricos, dentre outros.

Exemplo 4.17 O tempo de vida (em horas) de um transmissor pode variar considerando uma
v.a. com distribuição exponencial. Após alguns testes, constatou que a vida média do
transmissor é 𝟓𝟎𝟎 horas. Qual a probabilidade de que ele dure mais do que a média?
Solução: Primeiro, se o tempo médio é de 500 horas, então 1⁄𝜆 = 500. Dessa forma,
+∞
𝑃(𝑋 > 500) = ∫ 𝑓(𝑥) 𝑑𝑥
500
+∞
1 −𝑥
= ∫ 𝑒 500 𝑑𝑥
500 500
𝑎
1 𝑥
= ∙ lim [∫ 𝑒 −500 𝑑𝑥]
500 𝑎→+∞ 500
1 𝑥 𝑥=𝑎
= ∙ lim [(−500𝑒 −500 )| ]
500 𝑎→+∞ 𝑥=500
1 𝑎 500
= ∙ lim [(−500𝑒 −500 ) − (−500𝑒 −500 )]
500 𝑎→+∞
= 𝑒 −1
= 0,36788
Outra forma de resolvermos esses problemas seria considerar (4.33) quando 1⁄𝜆 = 500 e 𝑥 =
500. Assim,
𝑃(𝑋 > 500) = 𝑒 −𝑥𝜆 ⟶ 𝑃(𝑋 > 500) = 𝑒 −1 = 0,36788
Exemplo 4.18 Os defeitos de um tecido seguem a distribuição de Poisson com média de um

defeito a cada 400 metros. Qual a probabilidade de que o intervalo entre dois defeitos seja:
a) No mínimo de 1.000 metros
b) Entre 800 e 1.000 metros
c) Calcule a média e a variância da distribuição
Solução: Seja 𝑋 a distribuição que indica os defeitos no tecido entre dois defeitos. Após lermos
atentamente o problema, vemos que a distribuição 𝑋 segue uma distribuição exponencial com
obtemos 1⁄𝜆 = 400, logo, 𝜆 = 1⁄400. Assim,
a)
+∞
𝑃(𝑋 > 1.000) = ∫ 𝑓(𝑥) 𝑑𝑥
1.000
+∞
1 −𝑥
= ∫ 𝑒 400 𝑑𝑥
1.000 400

𝑎
1 𝑥
= ∙ lim [∫ 𝑒 −400 𝑑𝑥]
400 𝑎→+∞ 1.000
1 𝑥 𝑥=𝑎
= ∙ lim [(−400𝑒 −400 )| ]
400 𝑎→+∞ 𝑥=1.000
1 𝑎 1.000
= ∙ lim [(−400𝑒 −400 ) − (−400𝑒 − 400 )]
400 𝑎→+∞
1.000
= 𝑒 − 400
= 0,08208
b)
1.000
𝑃(800 < 𝑋 < 1.000) = ∫ 𝑓(𝑥) 𝑑𝑥
800
1.000
1 −𝑥
= ∫ 𝑒 400 𝑑𝑥
800 400
1.000
1 𝑥
= ∙∫ 𝑒 −400 𝑑𝑥
400 800
1 𝑥 𝑥=1.000
= ∙ (−400𝑒 −400 )|
400 𝑥=800
1 1.000 800
= ∙ [(−400𝑒 − 400 ) − (−400𝑒 −400 )]
400
1.000 800
= −𝑒 − 400 + 𝑒 −400
= 0,05325
c) Seguindo a equação (4.31) temos 𝐸[𝑇] = 400 𝑚 e 𝑉𝑎𝑟(𝑇) = 160.000 𝑚2
Distribuição Gama
Embora a distribuição normal possa ser usada para resolver muitos problemas de
engenharia e ciências de forma geral, ainda existe um grande número de situações que exigem
diferentes tipos de funções de densidade. Duas dessas funções de densidade, as distribuições
gama e exponencial, são discutidas sem muito aprofundamento agora. Poderá o leitor perceber
quer a distribuição exponencial é um caso especial da distribuição gama, e, ambos possuem um
grande número de aplicações. As distribuições exponencial e gama desempenham um papel
importante tanto na teoria das filas quanto nos problemas de confiabilidade. O tempo entre as
chegadas nas instalações de serviço e o tempo até a falha dos componentes e sistemas elétricos
geralmente são bem modelados pela distribuição exponencial. A relação entre o gama e o

exponencial permite que o gama seja usado em tipos semelhantes de problemas. Para mais
detalhes e ilustrações sugiro uma leitura detalhada em [10].
A distribuição gama deriva seu nome da função gama bem conhecida, estudada em muitas
áreas da matemática. Antes de prosseguirmos para a distribuição gama, vamos revisar esta
função e algumas de suas importantes propriedades.
Definição 4.10 A função Gama é definida por
∞
Γ(𝜔) = ∫ 𝑥 𝜔−1 𝑒 −𝑥 𝑑𝑥 , 𝑝𝑎𝑟𝑎 𝜔 > 0 (4.34)
0
Como a função gama é baseada numa integral que envolve exponencial, é fácil mostrar
que
Γ(𝑛) = (𝑛 − 1)(𝑛 − 2). . . (1)Γ(1)
para um inteiro positivo 𝑛. Para ver a prova disso, integra-se (4.34) por partes fazendo 𝑢 = 𝑥 𝜔−1
e 𝑑𝑣 = 𝑒 −𝑥 𝑑𝑥. Dessa forma obtemos
∞ ∞
Γ(𝜔) = −𝑒 −𝑥 𝑥 𝜔−1 |∞
𝑥=0 + ∫ (𝜔 − 1)𝑥 𝜔−2 −𝑥
𝑒 𝑑𝑥 = (𝜔 − 1) ∫ 𝑥 𝜔−2 𝑒 −𝑥 𝑑𝑥
0 0
para 𝜔 > 1, que produz a fórmula de recorrência

Γ(𝜔) = (𝜔 − 1)Γ(𝜔 − 1)
O resultado segue após a aplicação repetida da fórmula de recursão. Usando esse
resultado, podemos mostrar facilmente as duas propriedades a seguir.
∞
i. Γ(1) = ∫0 𝑒 −𝑥 𝑑𝑥 = 1
ii. Γ(𝑛) = (𝑛 − 1)! para um inteiro positivo 𝑛.
Além disso, temos a seguinte propriedade de Γ(𝜔), que é deixada para o leitor verificar
(ver exercício 4 na lista 4.1)
1
∞ ∞ 𝑒 −𝑥
iii. Γ(1⁄2) = ∫0 𝑥 −2 𝑒 −𝑥 𝑑𝑥 = ∫0 = √π
√𝑥
Como é de fácil percepção, trabalhar com a função gama pode ser um tanto trabalhoso.
Devido a isto, nos restringiremos ao trabalho com tabelas. Nestas notas não é apresentado uma
tabela específica para a distribuição gama
Definição 4.11 A variável aleatória contínua 𝑋 tem distribuição gama, com parâmetros 𝛼 > 0
e 𝜆 > 0 se sua função de densidade é dada por

𝜆𝑒 −𝜆𝑥 (𝜆𝑥)𝛼−1
𝑓(𝑥) = { , 𝑠𝑒 𝑥 ≥ 0 (4.35)
Γ(𝛼)
0 , 𝑐𝑐
A figura seguinte ilustra os gráficos da fdp gama 𝑓(𝑥) para diversos pares (𝛼, 𝜆). Quando
𝛼 ≤ 1, 𝑓(𝑥) é estritamente decrescente à medida que 𝑥 aumenta a partir de 0. Quando 𝛼 > 1,
𝑓(𝑥) aumenta, a partir de 0, em 𝑥 = 0 até um máximo e depois decresce. O parâmetro 𝜆 em
(4.35) é denominado parâmetro de escala porque os valores diferentes de 1 esticam ou
comprimem a fdp na direção de 𝑥. No entanto, deve-se verificar as definições usadas nos
pacotes de software. Por exemplo, o Minitab define o parâmetro de escala como 1⁄𝜆. Esboços
da distribuição gama para vários valores de 𝛼 e 𝜆 são mostrados na figura abaixo. Muitas formas
diferentes podem ser geradas a partir de alterações nesses parâmetros.
Figura 4.14
Para esta distribuição, o valor esperado e a variância são obtidos a partir de integração
razoavelmente direta. Os resultados obtidos são
𝛼 𝛼
𝐸[𝑋] = 𝑒 𝑉𝑎𝑟(𝑋) = (4.36)
𝜆 𝜆2
É claro que o leitor atento imagina como é o formato da função de distribuição acumulada
da função gama. Tal função se obtém integrando (4.35) na variável 𝑡, a partir de 0 até um valor
estrito 𝑥 > 0 obtendo 𝐹(𝑥).

Exemplo 4.19 Suponha que o tempo de sobrevivência 𝑿, em semanas, de um camundongo

macho selecionado aleatoriamente exposto a 240 rads de radiação beta tenha distribuição gama
com 𝜶 = 𝟖 e 𝟏⁄𝝀 = 𝟏𝟓. (Dados em Survival Distributios Reliability Applications in the
Biomedical Service, de A. J. Gross e V. Clark, sugerem 𝜶 ≈ 𝟖, 𝟓 e 𝟏⁄𝝀 ≈ 𝟏𝟑, 𝟑).Determine a
probabilidade de um camundongo sobreviver entre 60 e 120 semanas. E a probabilidade de um
camundongo sobreviver mais de 100 semanas?
Solução: Pela leitura do problema, vemos que 𝑋 é aproximada pela distribuição gama com
parâmetros𝛼 = 8 e 𝜆 = 1⁄15. Para obter a probabilidade indicada por 𝑃(60 ≤ 𝑋 ≤ 120)
usaremos (4.35). Assim,
𝑥 8−1
1 𝑥
60 𝑒 −15 (15)
𝑃(60 ≤ 𝑋 ≤ 120) = ∫ 15
É claro que esta integral foi resolvida
120 Γ(8)
usando um software específico
= 0,4959055748
Já para sobreviver mais de 100 semanas, a probabilidade pedida fica 𝑃(𝑋 > 100), e,
𝑥 8−1
1 𝑥
∞ 𝑒 −15 (15)
𝑃(𝑋 > 100) = ∫ 15
Novamente a integral foi resolvida usando
100 Γ(8)
um software específico
= 0,6482471415
Perceba amigo leitor que resolver estas integrais manualmente é uma tarefa quase
impossível. Por isso existem tabelas específicas que fornecem o valor da função gama para cada
par (𝛼, 𝜆) dados. Usando (4.36) vemos que o tempo esperado de sobrevida é 𝜇𝑋 = 8 ⋅ 15 =
120 semanas, enquanto 𝜎𝑋2 = 8 ⋅ 152 = 1.800 e 𝜎𝑋 = √1.800 = 42,43 semanas.
Distribuição Qui-Quadrado
Trata-se de um modelo de distribuição contínuo muito importante para a teoria da

inferência estatística. Para discutirmos esse modelo de distribuição Qui-Quadrado faz-se
necessário definirmos a Função Gama como discutida anteriormente. Considerando a
Definição 4.10 obtemos um caso especial muito importante da distribuição gama que é de
grande importância na inferência estatística.
Definição 4.12 Diz-se que uma variável aleatória 𝑋 possui uma distribuição qui-quadrado com
parâmetro 𝑣 > 0 se sua fdp é dada por

1
𝑥 (𝑣−2)⁄2 𝑒 −𝑥⁄2 , 𝑠𝑒 𝑥 ≥ 0
𝑓(𝑥) = {2𝑣⁄2 Γ(𝑣⁄2) (4.37)
0 , 𝑐𝑐
O parâmetro 𝑣é denominado graus de liberdade (gl) de X. O símbolo 2𝑣 frequentemente é

usado no lugar de “qui-quadrado”.
Perceba que a distribuição qui-quadrado tem densidade gama com α = v⁄2 e λ = 1⁄2.
Recomendo o leitor voltar na expressão (4.35) substituir os parâmetros comentados para obter
a expressão (4.37). A distribuição qui-quadrado é importante por ser a base de diversos
procedimentos de inferência estatística. O motivo disso é que as distribuições qui-quadrado
estão intimamente relacionadas a distribuições normal. Usando as técnicas adequadas de
integração, pode-se mostrar que
𝐸[𝑋] = 𝑣 𝑒 𝑉𝑎𝑟(𝑋) = 2𝑣 (4.38)
Na Definição 4.12 apareceu a ideia de graus de liberdade. Para entendermos melhor essa
ideia pensemos no seguinte exemplo: consideremos que 5 pessoas possuem peso médio de
75kg. Assim, a soma dos 5 pesos deve ser 375kg (restrição). Portanto, neste caso, temos um
grau de liberdade de 5 − 1 = 4, pois os quatro pesos iniciais podem ser escolhidos
aleatoriamente, contudo o 5 peso deve ser igual a 375 − (𝑠𝑜𝑚𝑎 𝑑𝑜𝑠 4 𝑝𝑟𝑖𝑚𝑒𝑖𝑟𝑜𝑠). A
distribuição Qui-Quadrado tem um papel vital na inferência estatística. Como a obtenção de
suas probabilidades envolve a resolução de integrais extremamente complexas, existem tabelas
para obter tais probabilidades. A tabela II fornece os valores 𝑥𝑐 tais que 𝑃(𝑋 > 𝑥𝑐 ) = 𝛼, isto é,
a tabela fornece a abscissa da distribuição para diversas áreas (probabilidades) da cauda à
direita. Assim,
Figura 4.15
A Figura 4.16 seguinte ilustra como usar a Tabela II.
Figura 4.16
É conveniente usar essa distribuição 2𝑣 (qui-quadrado) ao invés do modelo da
distribuição normal apresentada na Definição 4.7 sempre que 𝑣 < 30. Isto é, quando o grau de
liberdade da variável aleatória 𝑋 for superior que 30, é melhor usar a distribuição normal.
Exemplo 4.20 Admita que uma variável aleatória 𝑿 seja aproximada pela distribuição qui-
quadrado com 𝒗 = 𝟐𝟓 graus de liberdade. Usando a tabela II, obtenha os valores 𝒙𝐬𝐮𝐩 e 𝒙𝐢𝐧𝐟
tais que 𝑷(𝒙𝐢𝐧𝐟 < 𝒕 < 𝒙𝐬𝐮𝐩 ) = 𝟎, 𝟗𝟓.
Solução: Perceba que aqui temos 𝛼 = 5%. Como a análise é bilateral, então 2,5% à direita de
𝑥sup e 2,5% à esquerda de 𝑥inf . Assim,
• o valor da abscissa 𝑥sup é obtido na tabela II encontrando-se na 1ª coluna com 25 e 1ª
linha com 2,5%. Assim, 𝑥sup = 40,646
• o valor da abscissa 𝑥inf é obtido na tabela II encontrando-se na 1ª coluna com 25 e 1ª
linha com 97,5%(100% − 2,5%). Assim, 𝑥inf = 13,120
Figura 4.17

Distribuição 𝒕 de Student
Trata-se de um modelo de distribuição contínua que se assemelha à distribuição normal

padrão 𝑁(0, 1). É utilizada para inferência estatística sobre médias populacionais, ou seja, para
fazer uma comparação entre duas médias amostrais, entre outras, particularmente, quando se
tem amostras com tamanhos inferiores a 30 elementos. Alguns autores a utilizam no trato com
amostras com até 100 elementos. Para amostras com mais de 30 elementos é recomendável usar
a distribuição normal padrão 𝑍 ~ 𝑁(0, 1). A distribuição 𝑡 de Student possui, como parâmetro,
denominado grau de liberdade, a letra 𝑣. Vejamos a definição abaixo.
Definição 4.13 Uma variável aleatória contínua 𝑿 tem distribuição 𝒕 de Student com 𝒗 graus
de liberdade se sua fdp é dada por
Γ((𝑣 + 1)⁄2)
𝑓(𝑥) = (1 + 𝑥 2 ⁄𝑣)−(𝑣+1)⁄2 (4.39)
Γ(𝑣⁄2)√𝑣𝜋
com −∞ < 𝑥 < ∞
A distribuição𝒕 Student (comumente chamada de distribuição t) tem a mesma forma

gráfica que a distribuição Normal (forma de sino), porém ela reflete a maior variabilidade
apresentado curvas mais alargadas, que é de se esperar em amostras pequenas. Quanto maior
for o grau de liberdade𝑣, mais a distribuição 𝑡se aproximada distribuição Normal.
Figura 4.18

A média e a variância da distribuição 𝑡 são calculados usando (4.4).
𝑣
𝐸[𝑋] = 0 𝑒 𝑉𝑎𝑟(𝑋) = , 𝑠𝑒 𝑣 > 2 (4.40)
𝑣−2
O gráfico da distribuição 𝑡 é simétrico em relação à sua média. É importante salientar que

para valores de 𝑣 < 30 a distribuição 𝑡 apresenta maior dispersão do que a 𝑁(0, 1), já que o
desvio padrão, nestes casos, é maior que 1, que é o desvio padrão da distribuição normal padrão.
Por exemplo, para 𝑣 = 4, se tem
4
𝜎(𝑡4 ) = √ ≅ 1,41
4−2
se 𝑣 = 100 obtemos 𝜎(𝑡100 ) = √100⁄98 ≅ 1,01, o que garante que para valores maiores que
100 < 𝑣, é melhor utilizar a distribuição normal padrão. A tabela III (anexo deste material) traz
as abscissas da distribuição𝑡 para diversas áreas (probabilidades) nas caudas. Trata-se de uma
tabela bilateral. Assim para uma amostra com 𝑛 elementos e com 𝑣 = 𝑛 − 1 graus de liberdade,
a probabilidade de um valor 𝑥 = 𝑡 estar no intervalo (– 𝑡𝑐 , 𝑡𝑐 ) será 1 − 𝛼, ou seja,
𝑃(– 𝑡𝑐 < 𝑡 < 𝑡𝑐 ) = 1 − 𝛼. Aqui o valor de 𝛼 é chamado de nível de significância e dado em
decimais.
Figura 4.19

Note que a probabilidade de 𝑥 = 𝑡 estar acima de 𝑡𝑐 ou abaixo de −𝑡𝑐 é a mesma e igual

a 𝛼⁄2. O valor de 𝑡𝑐 = 𝑡𝛼⁄2 é obtido na tabela III. Para usar a tabela II, siga o modelo abaixo:
Figura 4.20
Exemplo 4.21 Admita que uma variável aleatória 𝑿 seja aproximada pela distribuição 𝒕 de
Student com 𝒗 = 𝟗 graus de liberdade. Usando a tabela III, obtenha os valores 𝒕𝒄 tais que
𝑷(−𝒕𝒄 < 𝒕 < 𝒕𝒄 ) = 𝟎, 𝟗𝟓
Solução: Analisando a tabela III para 𝑣 = 9 e 𝛼 = 5%, ou seja, 𝛼 = 0,05 encontramos 𝑡𝑐 =
2,262. Logo, 𝑃(−2,262 < 𝑡 < 2,262) = 0,95.
Uma representação gráfica é
Figura 4.21
Região com 95% de chances de −2,262 < 𝑡 < 2,262 com 𝑣 = 9 graus de liberdade
Distribuição F de Snedecor
Trata-se de um modelo de distribuição contínua, muito usado em situações de duas

amostras, para fazermos inferências sobre as variâncias populacionais. Isso envolve o resultado
dado no Teorema 5.7 o qual discutiremos melhor no Capítulo 5. Portanto, a distribuição F tem
grande aplicação na comparação de duas variâncias. A Distribuição F de Snedecor é definida
como abaixo.
Definição 4.12 Uma variável aleatória contínua 𝑋 tem distribuição 𝐹 de Snedecor com 𝑣1
graus de liberdade no numerador e 𝑣2 graus de liberdade no denominador se sua fdp é dada
por
Γ((𝑣1 + 𝑣2 )⁄2) 𝑥 (𝑣1−2)⁄2

𝑓(𝑥) = (𝑣1 ⁄𝑣2 )𝑣1⁄2 , 𝑝𝑎𝑟𝑎 𝑥 > 0 (4.41)
Γ(𝑣1 ⁄2)Γ(𝑣2 ⁄2) (1 + 𝑥 𝑣1 ⁄𝑣2 )(𝑣1+𝑣2)⁄2
Na Figura 4.22 temos dois gráfico da distribuição F para certos valores de 𝑣1 e 𝑣2 .
Figura 4.22
Quando a variável aleatória 𝑋 tiver distribuição F de Snedecor com 𝑣1 e 𝑣2 graus de
liberdade. Usaremos a notação 𝑋 ∼ 𝐹(𝑣1 , 𝑣2 ). Pode-se mostrar que
𝑣2 2𝑣22 (𝑣1 + 𝑣2 − 2)
𝐸[𝑋] = 𝑒 𝑉𝑎𝑟(𝑋) = (4.42)
𝑣2 − 2 𝑣1 (𝑣2 − 2)2 (𝑣2 − 4)
Na tabela IV (anexo deste material) você encontrará as abscissas 𝑓𝑐 da distribuição 𝐹 tais

que
𝑃(𝐹(𝑣1 , 𝑣2 ) > 𝑓𝑐 ) = 𝛼 ou 𝑃(𝐹(𝑣1 , 𝑣2 ) ≤ 𝑓𝑐 ) = 1 − 𝛼
quando 𝛼 = 0,05 ou 𝛼 = 0,025.
A Figura 4.23 seguinte ilustra melhor essa relação.

Figura 4.23
Escrevendo 𝐹𝛼 (𝑣1 , 𝑣2 ) pode-se provar que a relação (4.43) é válida para todo 𝛼 ≠ 0.
1
𝐹1−𝛼 (𝑣1 , 𝑣2 ) = (4.43)
𝐹𝛼 (𝑣2 , 𝑣1 )
1 1
ou seja, sendo 𝐹5% (10,6) = 4,06, então 𝐹95% (10,6) = 𝐹 = 3,22 = 0,311
5% (6,10)
Obtido usando a
Tabela IV
Figura 4.24
Exemplo 4.22 Admita que uma variável aleatória 𝑿 seja aproximada pela distribuição 𝑭 de
Snedecor com 𝒗𝟏 = 𝟗 graus de liberdade no numerador e 𝒗𝟐 = 𝟓 graus de liberdade no
denominador. Obtenha os valores de 𝒇𝐬𝐮𝐩 e 𝒇𝐢𝐧𝐟 tais que 𝑷(𝒇𝐢𝐧𝐟 < 𝑭(𝒗𝟏 , 𝒗𝟐 ) < 𝒇𝐬𝐮𝐩 ) = 𝟎, 𝟗𝟎.
Para isso, consulte a tabela IV quando 𝜶 = 𝟓%.

Solução: Uma análise direta vê-se que 𝑓sup = 𝐹5% (9,5) e que 𝑓inf = 𝐹95% (9,5). Usando a
tabela IV quando 𝛼 = 0,05, obtemos 𝑓sup = 𝐹5% (9,5) = 4,77. Considerando a igualdade (4.43)
1 1 1
a saber 𝐹1−𝛼 (𝑣1 , 𝑣2 ) = 𝐹 teremos 𝐹95% (9,5) = 𝐹 = 3,48 = 0,29. Portanto, quando
𝛼 2 ,𝑣1 )
(𝑣 5% (5,9)
0,29 < 𝐹(9,5) < 4,77 teremos 𝑃(0,29 < 𝐹(9,5) < 4,77) = 0,90. Graficamente,
Figura 4.25
1. Resolva cada um dos itens abaixo:

a) 𝑃(2,3060 < 𝑡8 )R. 0,025
b) 𝑃(𝑡14 < −2,9768)R. 0,005
c) 𝑃(−1,1816 < 𝑡22 < 3,1188)R. 0,8725
d) Determine o 5o percentil de 𝐹5% (8,7)R. 0,2857
e) Determine o 95o percentil de 𝐹5% (7,8)R. 3,50
f) 𝑃(0,00418 ≤ 𝐹5% (1,8) ≤ 5,32)R. 0,90
g) 𝑃(𝐹5% (6,4) < 0,22075)R. 0,05
2
h) Determine 𝜒𝑠𝑢𝑝 tal que 𝑃(𝜒 2 > 𝜒𝑠𝑢𝑝
2
) = 0,01 quando 𝑣 = 21. R. 𝛼 = 0,99,assim 𝜒𝑠𝑢𝑝
2
=
0,297
2
i) Determine 𝜒𝑠𝑢𝑝 tal que 𝑃(37,652 < 𝜒 2 < 𝜒𝑠𝑢𝑝
2
) = 0,045 quando 𝑣 = 25R. 𝛼 =
2
0,005,assim 𝜒𝑠𝑢𝑝 = 46,928
2 2
j) Determine 𝜒𝑖𝑛𝑓 tal que 𝑃(𝜒 2 > 𝜒𝑖𝑛𝑓 2
) = 0,025 quando 𝑣 = 19. R. 𝛼 = 0,025,assim 𝜒𝑖𝑛𝑓 =
32,852
2 2 2
2. Determine os valores do 𝜒𝑠𝑢𝑝 e 𝜒𝑖𝑛𝑓 2
nas figuras abaixo.R. 𝜒𝑠𝑢𝑝 = 13,4 e 𝜒𝑖𝑛𝑓 = 3,49

3. Considerando uma distribuição qui-quadrado, com 23 graus de liberdade, determine a média,

a variância, desvio-padrão e o 3o quartil. R. média=23, variância=46, desvio-padrão=6,78 e 3º
quartil=27,1
4. Use a função gama com 𝑦 = √2𝑥 para mostrar que Γ(1⁄2) = √𝜋.
5. Considerando que o gráfico abaixo a baixo indique uma distribuição 𝑡 de Student com 20
graus de liberdade.
Determine o valor de 𝑡𝑖𝑛𝑓 e 𝑡𝑠𝑢𝑝 indicados na figura. R. 𝑡𝑖𝑛𝑓 = −1,064 e 𝑡𝑠𝑢𝑝 = 2,086
6. Seja 𝑍 uma variável aleatória norma e calcule as probabilidade a seguir, fazendo as
ilustrações quando apropriado.
a) 𝑃(0 ≤ 𝑍 ≤ 2,17)
b) 𝑃(0 ≤ 𝑍 ≤ 1)
c) 𝑃(−2,5 < 𝑍 < 2,5)
d) 𝑃(−2,5 ≤ 𝑍 < 0)
e) 𝑃(𝑍 ≤ 1,37)
f) 𝑃(−1,75 ≤ 𝑍)

g) 𝑃(−1,5 ≤ 𝑍 ≤ 2)
h) 𝑃(1,37 < 𝑍 < 2,57)
i) 𝑃(0,25 ≤ |𝑍|)
j) 𝑃(|𝑍| ≤ 1,98)
7. O gráfico abaixo é de uma distribuição 𝐹 de Snedecor com 𝑣1 = 8 e 𝑣2 = 10.
Determine a média, variância, desvio padrão bem como as abscissas 𝑓𝑖𝑛𝑓 e 𝑓𝑠𝑢𝑝 R. 𝑓𝑖𝑛𝑓 =
0,2985, 𝑓𝑠𝑢𝑝 = 3,07, média=1,25, variância=1,042 e dp=1,021
8. A temperatura 𝑇 de destilação do petróleo é crucial na determinação da qualidade final do

produto. Suponha que 𝑇 seja considerada uma v.a. com distribuição uniforme o intervalo
(150, 300). Suponha que o custo para produzir um galão de petróleo seja 𝐶1 reais. Se o óleo
for destilado a uma temperatura inferior a 200o, o produto obtido é vendido a 𝐶2 reais; a
temperatura for superior a 200o, o produto é vendido a 𝐶3 reais.
a) Fazer o gráfico da fdp de 𝑇
b) Qual o lucro médio esperado por galão?
9. Se 𝑋 ~𝑁(10, 4), calcular
a) 𝑃(8 < 𝑋 < 10)
b) 𝑃(9 ≤ 𝑋 ≤ 12)
c) 𝑃(10 < 𝑋)
d) 𝑃(𝑋 < 8 𝑜𝑢 11 < 𝑋)
10. Para 𝑋 ~ 𝑁(100, 100), calcule
a) 𝑃(𝑋 < 115)
b) 𝑃(80 ≤ 𝑋)
c) 𝑃(|𝑋 − 100| ≤ 10)
d) O valor de 𝑎 tal que 𝑃(100 − 𝑎 ≤ 𝑋 ≤ 100 + 𝑎) = 0,95

11. Comente o seguinte problema: Considere uma corda aleatória de um círculo. Qual é a
probabilidade de que o comprimento da corda seja maior que o lado do triângulo equilátero
inscrito nesse círculo?
12. As alturas de 10.000 alunos de um colégio têm distribuição aproximadamente normal,
com média 170 cm e desvio padrão 5 cm.
a) Qual o número esperado de alunos com altura superior a 165 cm?
b) Qual o intervalo simétrico em torno da média que conterá 75% das alturas dos alunos?
13. As vendas de determinado produto têm distribuição aproximadamente normal, com
média 500 unidades e desvio padrão 50 unidades. Se a empresa decide fabricar 600 unidades
no mês em estudo, qual a probabilidade de que não possa atender a todos os pedidos desse
mês, por estar com a produção esgotada?
14. Seja 𝑋 uma variável aleatória normalmente distribuída com média 𝜇𝑋 e variância 𝜎𝑋2
conhecidos. Elabore argumentos e cálculos para mostrar que, nestas circunstâncias, a
variável 𝑌 = 𝑎𝑋 + 𝑏 também é normalmente distribuída com média 𝜇𝑌 = 𝑎𝜇𝑋 + 𝑏 e
variância 𝜎𝑌 = 𝑎2 𝜎𝑋2
15. O diâmetro 𝑋 de rolamentos esféricos produzidos por uma fábrica tem distribuição
𝑁(6,14 × 10−1 ; 6,25 × 10−6 ). O lucro 𝑇 de cada rolamento depende de seu diâmetro.
Assim,
𝑇 = 0,10, se o rolamento for bom (0,610 < 𝑋 < 0,618)
𝑇 = 0,05, se o rolamento for recuperável (0,608 < 𝑋 < 0,610) ou (0,618 < 𝑋 < 0,620
𝑇 = −0,10, se o rolamento for defeituoso (𝑋 < 0,608 𝑜𝑢 0,620 < 𝑋)
Calcule
a) As probabilidades de que os rolamentos sejam bons, recuperáveis e defeituosos. 𝑇0,10 : 𝑝 =
0,8904; 𝑇0,05 : 𝑝 = 0,0932 𝑒 𝑇−0,10 : 𝑝 = 0,0164
b) 𝐸[𝑇]. R.0,09206
16. Suponha que um mecanismo eletrônico tenha um tempo de vida 𝑋 (em 1.000 horas) que
possa ser considerado uma v.a. contínua com f.d.p𝑓(𝑥) = 𝑒 −𝑥 , se 0 < 𝑥. Suponha que o
custo de fabricação de um item seja R$ 2,00 e o preço de venda seja R$ 5,00. O fabricante
garante total devolução se 𝑋 ≤ 0,9. Qual o lucro esperado por item?
17. De um lote de produtos manufaturados, extraímos 100 itens ao acaso; se 10% dos itens
do lote são defeituosos, calcule a probabilidade de 12 itens serem defeituosos. Use também
a aproximação normal.

18. A confiabilidade de um mecanismo eletrônico é a probabilidade de que ele funcione sob

certas condições para as quais foi planejado. Uma amostra de 1.000 desses itens é escolhida
ao acaso e os itens são testados, obtendo-se 30 defeituosos. Calcule a probabilidade de se
obter pelo menos 30 itens defeituosos, supondo que a confiabilidade de cada item é 0,95.
19. Uma lâmpada tem a duração de acordo com a densidade de probabilidade a seguir
1 − 𝑡
𝑒 1000 , para 0 ≤ 𝑡
𝑓(𝑡) = {100
0 , para 𝑡 < 0
Determine;
a) A probabilidade de que uma lâmpada qualquer queime antes de 1.000 horas. R. 0,6321
b) A probabilidade de que uma lâmpada qualquer queime depois de sua duração média. R.
0,3679
c) Qual é o desvio padrão da distribuição. R. 𝜎 = 1.000
20. Certo produto tem peso médio de 10g e desvio padrão 0,5g. É embalado em caixas de
120 unidades que pesam em média 150g e desvio padrão 8g. Qual a probabilidade de que
uma caixa cheia pese mais de 1.370g?
21. Consulte a tabela III e obtenha os valores de 𝑡 tais que:
a) 𝑃(𝑡 < 2,365) quando 𝑣 = 7R. 0,975
b) 𝑝(1,318 < 𝑡) quando 𝑣 = 24R. 0,10
22. Uma fábrica de pneus acabou de desenvolver um novo pneu radial cintado em aço, que
será vendido com desconto através de uma cadeia nacional de lojas. Como o pneu é um
produto novo, os gerentes acreditam que a garantia de quilometragem oferecida com o pneu
será um fator importante na aceitação do produto. Antes de concluírem a política de garantia
de quilometragem, os gerentes desejam informações de probabilidade sobre o número de
quilômetros em que os pneus se gastarão.
A partir de testes reais com os pneus em auto-estradas, o grupo de engenharia estimou a
quilometragem média e a variância do pneu respectivamente em µ = 36.500 𝑘𝑚 e 𝜎 =
5.000 𝑘𝑚. Além disso, os dados coletados indicam que a distribuição normal é uma hipótese
razoável para essa distribuição. Assim,
a) Qual a porcentagem dos pneus que apresentam uma expectativa de durar mais que 40.000
quilômetros? R. 0,24196
b) A empresa de pneus pretende dar um desconto para os consumidores que precisarem
trocar de pneus antes que a garantia vença. Porém a empresa não quer que mais de 10%

dos consumidores estourem essa garantia. Qual deve ser a quilometragem mínima de
garantia para que isso ocorra? R. 30.100km
23. Se as interrupções no suprimento de energia elétrica ocorrem segundo uma distribuição
de Poisson com média de uma interrupção por mês (quatro semanas), qual a probabilidade
de que entre duas interrupções consecutivas haja um intervalo de:
a) Menos de uma semana R.0,2212
b) Entre dez e doze semanas. R. 0,0323
c) Mais de três semanas. R. 0,4724
24. O dispositivo de abertura automática de um pára-quedas de carga militar foi projetado
para abrir quando estiver a 200 m do solo. Suponha que a altitude de abertura tenha uma
distribuição normal com média 200 m e desvio padrão 30 m. Haverá dano no equipamento
se o pára-quedas abrir a uma altitude inferior a 100 m. Qual é a probabilidade de haver dano
ao equipamento em pelo menos um de cinco pára-quedas lançados independentemente?
25. Suponha que o diâmetro de certo tipo de árvores na altura do tronco tenha distribuição
normal com 𝜇 = 8,8 e 𝜎 = 2,8, conforme sugerido pelo artigo “Simulating a Harvester-
Forwarder Softwood Thinning” (Forest Products J., May 1997, p. 36-41).
a) Qual é a probabilidade de uma árvore selecionada aleatoriamente ter um diâmetro de no
mínimo 10 polegadas? Exceder 10 polegadas?
b) Qual é a probabilidade de o diâmetro de uma árvore selecionada aleatoriamente exceder
20 polegadas?
c) Qual é a probabilidade de o diâmetro de uma árvore selecionada aleatoriamente estar
entre 5 e 10 polegadas?
d) Que valor c faz com que o intervalo (-8,8c; 8,8c) inclua 98% de todos os valores de
diâmetro? R. 𝑐 = 1,7414
e) Se quatro árvores forem selecionadas de forma independente, qual é a probabilidade de
ao menos uma ter diâmetro maior que 10 polegadas?
26. Considere os bebês nascidos no intervalo “normal” de 37-43 semanas de gestação. Muitos
dados apoiam a suposição de que, para os bebês nascidos nos Estados Unidos, o peso de
nascimento possui distribuição normal com média 3432 g e desvio padrão 482 g. [O artigo
“Are Babies Normal” (The American Statistician, 1999, p. 298-302) analisou dados de um
ano específico. Para uma escolha significativa de intervalos de classe, um histograma não
tinha aparência normal, mas, após mais investigações, determinou-se que isso acontecia
devido a alguns hospitais medirem o peso em gramas e outros em onças (com aproximação

para a próxima onça) e depois converterem para gramas. Uma escolha de intervalos de classe
modificada resultou um histograma bem-descrito por uma distribuição normal.
a) Qual é a probabilidade de o peso de nascimento de um bebê selecionado aleatoriamente
exceder 4000 gramas? Estar entre 3000 e 4000 gramas?
b) Qual é a probabilidade de o peso de um bebê selecionado aleatoriamente ser inferior a
2000 gramas ou superior a 5000 gramas?
c) Qual é a probabilidade de o peso de nascimento de um bebê selecionado aleatoriamente
exceder 7 libras?
d) Como você caracterizaria o 0,1% mais extremo de todos os pesos de nascimento?
e) Se X for uma variável aleatória com distribuição normal e a for uma constante numérica
(𝑎 ≠ 0), então 𝑌 = 𝑎𝑋também terá uma distribuição normal. Use isso para determinar
a distribuição do peso de nascimento expresso em libras (formato, média e desvio
padrão) e então calcule novamente a probabilidade da parte (c). Como isso se compara
à resposta anterior?
27. Em resposta às preocupações sobre o conteúdo nutricional dos fastfoods, o McDonald’s
anunciou que usará um novo óleo na fritura de suas batatas. O produto diminuirá
substancialmente os níveis de ácido de gordura trans e aumentará a quantidade de gordura
poli-insaturada mais benéfica. A empresa alega que 97 dentre 100 pessoas não conseguem
detectar diferença no gosto entre o óleo antigo e o novo. Assumindo que esse valor esteja
correto (como proporção de longo prazo), qual é a probabilidade aproximada de, em uma
amostra de 1000 indivíduos que compraram fritas no McDonald’s,
a) ao menos 40 sentirem a diferença de gosto entre os dois óleos?
b) no máximo 5% sentirem a diferença de gosto entre os dois óleos?


5. Introdução à Inferência Estatística
5.1. Conceitos Básicos
Até aqui não nos preocupamos essencialmente com a população nem com a amostra, e
sim, trabalhamos apenas com os recursos matemáticos que dispomos para avaliar o
comportamento de certas variáveis conhecido um conjunto de dados de tal variável. Agora
apresentaremos os argumentos estatísticos necessários para fazer afirmações sobre as
características de uma população, com base em informações dadas por amostras. Neste sentido
apresentamos a
Definição 5.1 Uma amostra aleatória simples - 𝑨𝑨𝑺 - de 𝒏 elementos de uma população é
representada pelas variáveis aleatórias 𝑿𝟏 , 𝑿𝟐 , ⋯ , 𝑿𝒏 no qual cada 𝑿𝒊 , com 𝒊 = 𝟏, 𝟐, ⋯ 𝒏
representa um elemento da amostra.
Na Definição 5.1 se 𝑋𝑖 e 𝑋𝑗 são independentes e possuem mesma função densidade de

probabilidade, para todo 𝑖 ≠ 𝑗, dizemos que os elementos da amostra são independentes e
igualmente distribuídos (iid). Assim, uma 𝐴𝐴𝑆 será uma𝑛 − 𝑢𝑝𝑙𝑎 ordenada (𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 ) de
elementos independentes e igualmente distribuídos retirados de uma mesma população. Se a
população for finita com um número 𝑁 de elementos, então uma 𝐴𝐴𝑆 de 𝑛 elementos é um
subconjunto de 𝑛 elementos distintos da população, extraídos de modo que qualquer das (𝑁𝑛)
amostras possíveis tem igual probabilidade, 1⁄(𝑁𝑛) de ser selecionada.Obtida uma amostra,
muitas vezes desejamos usá-la para produzir alguma característica específica. Por exemplo, se
quisermos calcular a média da amostra (𝑋1, 𝑋2 , ⋯ , 𝑋𝑛 ) usamos a expressão
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝑋̅ = (5.1)
𝑛
é fácil ver que 𝑋̅ também é uma variável aleatória.
Podemos estar interessados em qualquer outra característica da amostra, que sempre será
uma função do vetor aleatório (𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 ), ou então, ter o interesse em explorar relações
entre as variáveis envolvendo experimentos mais complexos. Claramente, neste caso, não existe

um conjunto de todos os elementos para os quais possamos encontrar os parâmetros

populacionais ou as estatísticas amostrais. Recorrer a modelos para descrever o todo
(população) facilita a identificação e solução do problema. Para melhor compreensão da
linguagem usada nestas notas, iremos diferenciar as características da amostra e da população.
Definição 5.2 Uma estatística é uma característica da amostra, ou seja, uma estatística 𝑻 é
uma função de 𝑿𝟏 , 𝑿𝟐 , ⋯ , 𝑿𝒏 .
Assim, se estivermos colhendo amostras de uma população, identificada pela variável

aleatória 𝑋, podemos considerar as estatísticas de ordem, ou seja, os elementos da amostra
ordenados 𝑋1 ≤ ⋯ ≤ 𝑋𝑛 . As estatísticas mais comuns são:
1
Média da Amostra: 𝑋̅ = ∑ 𝑋𝑖
𝑛
1
Variância da Amostra: 𝑆 2 = ∑(𝑋𝑖 − 𝑋̅)2
𝑛−1
Menor valor da Amostra: 𝑋1 = min{𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 }
Maior valor da Amostra: 𝑋𝑛 = max{𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 }
Amplitude Amostral: 𝑅 = 𝑋𝑛 − 𝑋1
A 𝑖 − é𝑠𝑖𝑚𝑎 observação: = 𝑋𝑖
Distância Quartílica: 𝐷𝑞 = 𝑞(0,75) − 𝑞(0,25)
Definição 5.3 Um parâmetro é uma medida usada para descrever uma característica da
população.
Quando estivermos colhendo amostras de uma população, identificada pela variável

aleatória 𝑋 são parâmetros a média 𝜇 = 𝐸[𝑋] e a variância 𝜎 2 = 𝑉𝑎𝑟(𝑋). A tabela 5.1
resumimos os símbolos usados:
Tabela 5.1 Símbolos mais comuns que usaremos

Denominação População Amostra
1
Média 𝜇 = 𝐸[𝑋] 𝑋̅ = ∑ 𝑋𝑖
𝑛
Mediana 𝑀𝑑 𝑚𝑑
1
Variância 𝜎 2 = 𝐸[(𝑋 − 𝜇)2 ] 𝑆2 = ∑(𝑋𝑖 − 𝑋̅)2
𝑛−1
No de elementos 𝑁 𝑛
Proporção 𝑝 𝑝̂ = 𝑓

Introdução à Inferência Estatística 223
Quantil 𝑄(𝑝) 𝑞(𝑝)

Quartis 𝑄1 , 𝑄2 , 𝑄3 𝑞1 , 𝑞2 , 𝑞3
Intervalo interquartil 𝐼𝑞 = 𝑄3 − 𝑄1 𝐼𝑞 = 𝑞3 − 𝑞1
Função densidade 𝑓(𝑥) Histograma
Só pra fixar bem lembremos que parâmetros são funções de valores populacionais,
enquanto estatística são funções de valores amostrais.
Em muitos casos, o interesse do pesquisador é fazer uma estimativa sobre algum

parâmetro de certa variável aleatória 𝑋. Como exemplo seja 𝑛 = 500 estudantes de ensino
médio da cidade de Uruaçu escolhidos de forma aleatória e, a cada estudante da amostra é feita
uma pergunta sobre a abertura de um novo curso no IFG - Campus Uruaçu. A resposta à
pergunta poderá ser SIM (favorável) ou NÂO (contrário). Suponha que 300 estudantes são
favoráveis a abertura desse novo curso, assim a uma estimativa natural seria 300⁄500 ou 60%.
A estimativa de 60% obtida é baseada na suposição de que a amostra é representativa da
população. Uma outra amostra poderia nos levar a outra estimativa. Se tivéssemos tomado uma
amostra de tamanho 𝑛 = 1.000 será que a proporção de estudantes favoráveis seria a mesma?
Conhecer as propriedades desses estimadores é um dos propósitos da Inferência Estatística.
Definição 5.4 Um estimador 𝑻 do parâmetro 𝜽 é qualquer função das observações da amostra

ou seja, 𝑻 = 𝒈(𝑿𝟏 , 𝑿𝟐 , ⋯ , 𝑿𝒏 )
Note que, segundo essa definição, um estimador é o que chamamos antes Estatística,
porém associando-o a um parâmetro populacional. Aqui, objetivamos determinar uma função
𝑇 = 𝑔(𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 ) que seja “próxima” do parâmetro 𝜃 segundo algum critério.
Definição 5.5 Um estimador 𝑇 do parâmetro 𝜃 é dito não-viesado se
𝐸[𝑇] = 𝜃 (5.2)
para todo 𝜃.
Note que (5.2) é calculado sobre a distribuição amostral de 𝑇.
Definição 5.6 Estimativa é o valor assumido pelo estimador em uma particular amostra.
Uma população finita com 𝑁 elementos possui variância populacional dada por

𝑁
1
𝜎 2 = ∑(𝑋𝑖 − 𝜇)2 (5.3)
𝑁
𝑖=1
1
onde 𝜇 = 𝑁 ∑𝑁
𝑖=1 𝑋𝑖 é a média populacional. Considerando a Definição 5.5 é possível mostrar
que um estimador não viesado para (5.3) baseado numa 𝐴𝐴𝑆 de tamanho (𝑛) é
𝑛
1
2
𝑆 = ∑(𝑋𝑖 − 𝑋̅)2 (5.4)
𝑛−1
𝑖=1
Definição 5.7 Se 𝑇 for um estimador do parâmetro 𝜃, chamaremos de erro padrão de 𝑇 a

quantidade
𝐸𝑅(𝑇) = √𝑉𝑎𝑟(𝑇) (5.5)
É claro que a variância de 𝑇 dependerá da distribuição de 𝑋, o mesmo ocorre com o erro

padrão. No caso de uma 𝐴𝐴𝑆, o erro padrão do estimador 𝑋̅ é calculado baseado na variância
populacional 𝜎 2 , e, segundo o Teorema 5.1 obtemos
𝜎
𝐸𝑅(𝑋̅) = (5.6)
√𝑛
Caso a variância populacional 𝜎 2 seja desconhecida, usa-se sua estimativa 𝑆 2 (variância

amostral), e o erro padrão é obtido em
𝑆
𝐸𝑅(𝑋̅) = (5.7)
√𝑛
5.2. Distribuições Amostrais
O objetivo da inferência é fazer uma afirmação sobre os parâmetros da população através

da amostra. Digamos que nossa afirmação deva ser feita sobre o parâmetro 𝜃 da população (por
exemplo a média, a variância, ou qualquer outra medida). Decidimos usar uma amostra
aleatória simples (AAS) de (𝑛) elementos sorteados dessa população. Nossa decisão será
baseada na estatística 𝑇, que será uma função da amostra (𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 ), ou seja, 𝑇 =
𝑔(𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 ). Colhida essa amostra, teremos observado um particular valor de 𝑇, digamos
𝑡0 , e baseados nesse valor é que faremos a afirmação sobre 𝜃, o parâmetro populacional. Nossa
resposta seria melhor compreendida se soubéssemos o que acontece com a estatística 𝑇, quando

retiramos todas as amostras de uma população conhecida segundo o plano amostral. Isto é, qual
a distribuição de 𝑇 quando (𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 ) assume todos os valores possíveis. Essa distribuição
é chamada é chamada distribuição amostral da estatística 𝑇 e desempenha papel fundamental
na teoria da inferência estatística. Em síntese temos:
(a) uma população 𝑋, com determinado parâmetro de interesse 𝜃;
(b) todas as amostras retiradas da população, de acordo com certo procedimento;
(c) para cada amostra, calculamos o valor de 𝑡 da estatística 𝑇; e
(d) os valores de 𝑡 formam uma nova população, cuja distribuição recebe o nome de
Distribuição Amostral da Estatística𝑻.
Figura 5.1(a) esquema de inferência sobre 𝜽(b) distribuição amostral da distribuição 𝑻
É claro que na prática é inviável gerarmos todas as amostras possíveis. Devemos

contentar-nos em simular um grande número de amostras e ter uma ideia do que acontece com
a estatística 𝑇. Nosso estudo se concentrará na distribuição amostral da estatística 𝑋̅, a média
da amostra. Consideremos uma população identificada pela variável 𝑋, cujos parâmetros média
populacional 𝜇 = 𝐸[𝑋] e variância 𝜎 2 = 𝑉𝑎𝑟(𝑋) são supostamente conhecidos. Vamos retirar

todas as possíveis AAS de tamanho (𝑛) dessa população, e para cada uma calcular a média 𝑋̅.
Em seguida consideraremos a distribuição amostral das médias e estudaremos suas
propriedades. Nosso primeiro resultado está no
Teorema 5.1 Seja 𝑋 uma variável aleatória com média 𝜇 e variância 𝜎2 , e seja (𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 )
̅ terá
uma AAS de 𝑋, então a distribuição 𝑋
𝜎2
𝐸[𝑋̅] = 𝜇 e 𝑉𝑎𝑟(𝑋̅) = (5.8)
𝑛
Note que à medida que (𝑛) cresce a variância tende a 0(zero), e, consequentemente, o
polígono de frequência (histograma alisado) aproxima-se de uma distribuição normal. Esse
exemplo sugere que quando se aumenta o tamanho da amostra, independentemente da forma
da distribuição da população, a distribuição amostral de 𝑋̅ aproxima-se cada vez mais de uma
distribuição normal. Esse resultado, fundamental na teoria da Inferência Estatística, é conhecido
como Teorema Central do Limite, abaixo enunciado.
Teorema 5.2 (Teorema Central do Limite - TCL) Para amostras simples (𝑿𝟏 , 𝑿𝟐 , ⋯ , 𝑿𝒏 ),
retiradas de uma mesma população com média 𝝁 e variância 𝝈𝟐 finita, a distribuição amostral
̅ aproxima-se, para (𝒏) grande, de uma distribuição normal, com média 𝑬[𝑿
da média 𝑿 ̅] = 𝝁
̅ ) = 𝝈𝟐 ⁄𝒏.
e variância 𝑽𝒂𝒓(𝑿
Outra forma de apresentar o Teorema Central do Limite é por meio do
Teorema 5.3 Sejam 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 uma sequência de variáveis aleatórias independentes e

identicamente distribuídas cada uma tendo média 𝜇 e variância 𝜎2 . Então a distribuição
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 − 𝑛𝜇
𝑍= (5.9)
𝜎 √𝑛
tende para uma distribuição normal padrão quando 𝑛 → ∞. Isso é, para −∞ < 𝑎 < ∞,
𝑎
1 2 ⁄2
𝑃(𝑍 ≤ 𝑎) → ∫ 𝑒 −𝑥 𝑑𝑥 𝑞𝑢𝑎𝑛𝑑𝑜 𝑛 → ∞
√2𝜋 −∞
O Teorema 5.3 é uma tradução nossa da referência [4]. Ele diz que sendo 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛
uma sequência de variáveis aleatórias independentes e igualmente distribuídas retiradas de uma

mesma população que tem média 𝜇 e variância 𝜎 2 conhecidas, e, escrevendo 𝑋̅ como em (5.1),
ou seja, 𝑋̅ = (𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 )⁄𝑛 então
𝑋̅ − 𝜇
𝑍= ~𝑁(0, 1) (5.10)
𝜎 ⁄ √𝑛
Deixe𝑒ser a variável aleatória que mede a diferença entre a estatística 𝑋̅ e o parâmetro 𝜇,

isto é, 𝑒 = 𝑋̅ − 𝜇. A esta v.a. 𝑒 chamamos o erro amostral da média. Então, temos o
Corolário 1 A distribuição de “e” aproxima-se de uma distribuição normal com média 0(zero)
e variância 𝜎2 ⁄𝑛, isto é,
√𝑛 ⋅ 𝑒 (5.11)
~𝑁(0, 1)
𝜎
O TCL afirma que 𝑋̅ aproxima-se de uma distribuição normal padrão quando (𝑛) tende
ao infinito, e a rapidez dessa convergência depende da distribuição da população da qual a
amostra é retirada. Isto é, se a população original tem uma distribuição próxima à da normal, a
convergência é rápida, caso contrário, a convergência é tão mais lenta quanto for o afastamento
da distribuição da população original à normal. Abaixo alguns resultados extremamente úteis
na inferência estatística.
Teorema 5.4 Se 𝑆 2 é a variância de uma amostra aleatória de tamanho (𝑛), retirada de uma
população normal, com variância 𝜎 2 conhecida, então a variável aleatória
(𝑛 − 1)𝑆 2
2
𝜒 = (5.12)
𝜎2
tem distribuição Qui-Quadrado com 𝑣 = 𝑛 − 1 graus de liberdade.
A distribuição qui-quadrado possui várias aplicações em Estatística, uma delas é a de

fornecer meios para a realização de inferências sobre o parâmetro 𝜎 2 . Considerando a expressão
para 𝑆 2 como descrita na Tabela 5.1 é fácil perceber que
𝑛
2
(𝑋𝑖 − 𝑋̅)2
𝜒 =∑ (5.13)
𝜎2
𝑖=1

𝑋𝑖 −𝜇
Considerando que 𝜇 seja estimado pela estatística 𝑋̅, se deixarmos 𝑍𝑖 = na equação
𝜎
(5.13) teremos, então, o modelo de distribuição 𝑞𝑢𝑖 − 𝑞𝑢𝑎𝑑𝑟𝑎𝑑𝑜 pensado como a soma dos
quadrados de uma coleção de variáveis aleatórias independentes𝑍𝑖 , normalmente distribuídas,
com média zero e variância 1, ou seja,
𝜒𝑛2 = ∑ 𝑍𝑖2 = 𝑍12 + 𝑍22 + 𝑍32 + ⋯ + 𝑍𝑛2 (5.14)

𝑖=1
Teorema 5.5 Considere 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 variáveis aleatórias independentes, todas normais com

média 𝜇 e desvio padrão 𝜎. A variável aleatória
𝑋̅ − 𝜇
𝑇= (5.15)
𝑆⁄√𝑛
tem distribuição t Student com 𝑣 = 𝑛 − 1 graus de liberdade.
É claro que no Teorema 5.5 estamos considerando
𝑛 𝑛
1 1
𝑋̅ = ∑ 𝑋𝑖 𝑒 𝑆2 = ∑(𝑋𝑖 − 𝑋̅)2
𝑛 𝑛−1
𝑖=1 𝑖=1
Suponha agora que amostras aleatórias de tamanho (𝑛) e (𝑚) sejam selecionadas de duas
populações normais, com variâncias 𝜎𝑛2 e 𝜎𝑚
2
respectivamente. Pelo Teorema 5.4 as variáveis
(𝑛 − 1)𝑆𝑛2 2
(𝑚 − 1)𝑆𝑚
𝜒𝑛2 = 𝑒 2
𝜒𝑚 = (5.16)
𝜎𝑛2 2
𝜎𝑚
são variáveis aleatórias com distribuição qui-quadrado com 𝑣1 = 𝑛 − 1 e 𝑣2 = 𝑚 − 1 graus de

liberdade. Além disso, já que as amostras são selecionadas aleatoriamente, estamos lidando
com variáveis aleatórias independentes, e, portando, o resultado abaixo pode ser demonstrado.
Teorema 5.6 Se 𝑆𝑛2 e 𝑆𝑚

2
são variâncias de amostras aleatórias independentes de tamanho 𝑛 e
𝑚, retiradas de populações normais com variâncias 𝜎𝑛2 e 𝜎𝑚
2
, respectivamente, então
𝑆𝑛2 ⁄𝜎𝑛2
𝐹= 2 ⁄𝜎 2
(5.17)
𝑆𝑚 𝑚
tem distribuição F de Snedecor com 𝑣1 = 𝑛 − 1 e 𝑣2 = 𝑚 − 1 graus de liberdade.

Isso significa que uma distribuição 𝐹 com 𝑣1 graus de liberdade no numerador e 𝑣2 graus
de liberdade no denominador é expressa por como o quociente de duas variáveis com
distribuiçãoqui-quadrado. Dessa forma, temos o teorema abaixo:
Teorema 5.7 Se 𝑼 e 𝑽 duas variâncias aleatórias independentes, cada uma com distribuição
qui-quadrado, com 𝒗𝟏 e 𝒗𝟐 graus de liberdade, respectivamente. Então, a variável aleatória
𝑈⁄𝑣1
𝑊= (5.18)
𝑉 ⁄𝑣2
tem distribuição F de Snedecor com 𝑣1 e 𝑣2 graus de liberdade.
Usaremos a notação 𝑊 ∼ 𝐹(𝑣1 , 𝑣2 ). Estes resultados serão de grande importância na

inferência estatística, principalmente no trato da análise da variância – ANOVA o qual
estudaremos no capítulo 7.
5.3. Amostragem
Geralmente, as pesquisas são realizadas através de estudos dos elementos que compõem
uma amostra extraída da população que se pretende analisar. Nem sempre uma amostra retrata
com exatidão o comportamento dos indivíduos da população, e, torna-se claro que a
representatividade da amostra dependerá de seu tamanho (quanto maior melhor).Na teoria da
amostragem, são consideradas duas dimensões:
(1). Dimensionamento da amostra
(2). Composição da amostra
Esses tópicos foram discutidos no Capítulo 1, Seção 1.5, dessa forma, apenas
comentaremos de forma mais detalhada o dimensionamento da amostra, ou seja, da
determinação do tamanho da Amostra. Anteriormente fizemos uma análise sem muitas
explicações sobre as fórmulas usadas, vimos que em certas ocasiões faz-se necessário
determinar o tamanho da amostra a ser escolhida de uma população, de modo a obter um erro
de estimação previamente estipulado, com determinado grau de confiança. Agora daremos um
tratamento mais elegante às ideias outrora discutidas. Para isso suponha que estejamos
estimando a média 𝜇 populacional e para tanto usaremos a média amostral, 𝑋̅, baseada numa
amostra de tamanho (𝑛). Temos que determinar o valor de (𝑛) de modo que a probabilidade da

média amostral diferir da média populacional seja no máximo 𝜀 > 0 dado um nível de confiança
𝛾, 0 < 𝛾 < 1. Em símbolos
𝑃(|𝑋̅ − 𝜇| ≤ 𝜀) = 𝛾 (5.19)
aqui 𝜀 é o chamado erro amostral e é a máxima diferença que podemos suportar. Considerando
a hipótese de que a média amostral 𝑋̅ seja normalmente distribuída, então, conforme Teorema
5.1 temos 𝑋̅ ~ 𝑁(𝜇; 𝜎 2 ⁄𝑛) e, consequentemente o erro amostral também será normalmente
distribuído, isto é, (𝑋̅ − 𝜇) ~ 𝑁(0; 𝜎 2 ⁄𝑛). Portanto
𝜀 𝜀
𝑃(−𝜀 ≤ 𝑋̅ − 𝜇 ≤ 𝜀) = 𝑃 (− ≤𝑍≤ )≅𝛾
𝜎 ⁄ √𝑛 𝜎⁄√𝑛
com 𝑍 = (𝑋̅ − 𝜇)⁄(𝜎⁄√𝑛). Dessa forma, dado o nível de confiança𝛾, podemos obter 𝑍𝛾 ,
chamada de ponto crítico bicaudal associada a 𝛾, usando a distribuição normal padrão –
𝜀
𝑁(0, 1) – de sorte que 𝑃(−𝑍𝛾 < 𝑍 < 𝑍𝛾 ) = 𝛾 com 𝜎⁄ = 𝑍𝛾 . Tal equação nos fornece uma
√𝑛
expressão para o cálculo do tamanho da amostra a ser escolhida, tendo por base a distribuição
normal padrão, a saber,
𝑍𝛾 2
2
𝑛 =𝜎 ⋅( ) (5.20)
𝜀
Note que em (5.20) conhecemos 𝑍𝛾 e 𝜀, mas 𝜎 2 é desconhecido na população. Para

podermos ter uma ideia sobre (𝑛) devemos ter alguma informação prévia sobre 𝜎 2 ou, então,
usar uma pequena amostra piloto para estimar 𝜎 2 . Podemos usar também a proporção
populacional como parâmetro estatístico, visto que sua determinação afeta o tamanho da
amostra. No caso de proporções, usando a aproximação normal para 𝑝 = 𝑓, é fácil ver que (5.20)
resulta
𝑍𝛾 2
𝑛 = 𝑝 ⋅ (1 − 𝑝) ⋅ ( ) (5.21)
𝜀
Quando o pesquisador não tiver condições de prever o valor de 𝑝, é comum considerar

𝑝 = 0,50, pois, dessa forma se tem o maior tamanho de amostra possível, admitindo-se
constantes os demais elementos. Dessa forma a equação (5.21) é reescrita como em (5.22). A
equação (5.22) é muito usada em pesquisas eleitorais.

𝑍𝛾 2
𝑛 = 0,25 ⋅ ( ) (5.22)
𝜀
As vezes trabalhamos com populações finitas onde são contabilizados 𝑁 pontos

populacionais. Neste caso as fórmulas(5.20) e (5.21) sofrem uma pequena modificação, segundo
a variável em estudo. Se a variável escolhida for intervalar (contínua) temos
2
𝑁 ⋅ 𝜎 2 ⋅ (𝑍𝛾 )
𝑛= 2 (5.23)
𝜀 2 ⋅ (𝑁 − 1) + 𝜎 2 ⋅ (𝑍𝛾 )
se a variável escolhida for nominal ou ordinal
2
𝑁 ⋅ 𝑝 ⋅ (1 − 𝑝) ⋅ (𝑍𝛾 )
𝑛= 2 (5.24)
𝜀 2 ⋅ (𝑁 − 1) + 𝑝 ⋅ (1 − 𝑝) ⋅ (𝑍𝛾 )
estas fórmulas são básicas para qualquer tipo de composição de amostra; todavia, existem
fórmulas específicas segundo o critério de composição da amostra. Se o investigador escolhe
mais de uma variável, deve optar pelo maior (𝑛) obtido.
Exemplo 5.1 Suponha que a variável escolhida num estudo seja a proporção de eleitores ao
candidato ELE e que o investigador tenha elementos para suspeitar que essa porcentagem seja
de 30%. Admita um nível de confiança de 99% e um erro amostral de 2%. Nestas condições,
qual o tamanho da amostra a ser estudada?
Solução: Pela leitura do problema tiramos𝜀 = 0,02, 𝑝 = 0,30, 1 − 𝑝 = 0,70, 𝛾 = 0,99 e𝑍𝛾 =
2,57 (para obter o valor de o valor de 𝑍99% usaremos a tabela I considerando 𝛼 = 0,01 então
𝛼⁄2 = 0,005). Como não foi informado o tamanho da população, usaremos(5.21). Assim,
𝑍𝛾 2 2,57 2
𝑛 = 𝑝(1 − 𝑝) ( ) ⟶⇢ 𝑛 = 0,30 ∙ 0,70 ∙ ( ) ⟶⇢ 𝑛 ≅ 3.468
𝜀 0,02
■
Exemplo 5.2 Suponha que numa pesquisa de mercado estima-se que no mínimo 60% das
pessoas entrevistadas preferirão a marca A de um produto. Essa informação é baseada em
̂ seja
pesquisas anteriores. Determine o tamanho de uma amostra para que o erro amostral de 𝒑
menor do que 3% com probabilidade de 95%.

Solução: Pela leitura do problema tiramos 𝜀 = 0,03, 𝑝 = 0,60, 1 − 𝑝 = 0,40, 𝛾 = 0,95 e 𝑍𝛾 =

1,96 (para obter o valor de o valor de 𝑍95% usaremos a tabela I considerando 𝛼 = 0,05então
𝛼 ⁄2 = 0,025). Como não foi informado o tamanho da população, usaremos(5.21). Assim,
𝑍𝛾 2 1,96 2
𝑛 = 𝑝(1 − 𝑝) ∙ ( ) ⟶⇢ 𝑛 = 0,60 ∙ 0,40 ∙ ( ) ⟶⇢ 𝑛 ≅ 1.025
𝜀 0,03
■
Exemplo 5.3 Suponha que a variância das alturas dos troncos de bananeiras seja de 2 metros
quadrados. Que proporção das amostras de tamanho 50 pés de bananeiras terão erro amostral
absoluto maior do que 20 centímetros?
Solução: Do enunciado temos:𝜎 = √2;𝑛 = 50 e 𝜀 = 0,2. O que é pedido 𝑃(|𝑒| > 0,2). Como
𝑃(|𝑒| > 0,2) = 𝑃(𝑒50 < −0,2) + 𝑃(𝑒50 > 0,2) = 2 ∙ 𝑃(0,2 < 𝑒50 )temos pelo Corolário 1 do
TLC e usando (5.11) que
0,2√50
𝑃(|𝑒| > 0,2) = 2 ∙ 𝑃(0,2 < 𝑒50 ) = 2 ∙ 𝑃 ( < 𝑍) = 2 ∙ 𝑃(1 < 𝑧) = 2 ∙ 0,15866
√2
Portanto, a proporção da amostras de tamanho 50 que terão erro amostral absoluto maior do
que 20 centímetros é 31,73%.
■
Exemplo 5.4 Um levantamento feito pela secretaria municipal de saúde de Uruaçu –GO
contatou que o total de crianças de 0 a 6 anos regularmente inscritas nas creches municipais é
de 3148. Este levantamento foi usado num estudo para comparar doses de um tratamento da
anemia ferropriva. Na metodologia deste estudo tem-se que a prevalência esperada de anêmicos
em geral é de 20%, e que a prevalência esperada para anemia ferropriva é de 5,7%. Utilizando-
se uma margem de erro de 5% e um nível de confiança de 95%, qual o tamanho de amostra
para estimar a prevalência de anemia ferropriva?
Solução: Devemos considerar o fato de a população ter um total de 𝑁 = 3148 elementos. Pela
leitura do enunciado temos para 𝑝 = 0,057, 𝜀 = 0,05 e 𝑍𝛾 = 1,96. Usaremos a equação (5.24)
para determinar o tamanho da amostra. Assim,
2
𝑁 ⋅ 𝑝 ⋅ (1 − 𝑝) ⋅ (𝑍𝛾 )
𝑛= 2
𝜀 2 ⋅ (𝑁 − 1) + 𝑝 ⋅ (1 − 𝑝) ⋅ (𝑍𝛾 )
3148 ⋅ 0,057 ⋅ (1 − 0,057) ⋅ (1,96)2
𝑛=
0,052 ⋅ (3148 − 1) + 0,057 ⋅ (1 − 0,57) ⋅ (1,96)2
𝑛 = 81

arredondado para cima. Devemos, portanto, avaliar uma amostra de 81 crianças para determinar
a proporção da população com anemia ferropriva na cidade de Uruaçu-GO com margem de erro
de 5% e nível de confiança de 95%.
■
1. Suponha que uma indústria farmacêutica deseja saber a quantos voluntários se deva aplicar
uma vacina, de modo que a proporção de indivíduos imunizados na amostra defira de menos
de 2% da proporção verdadeira de imunizados da população, com probabilidade de 90%.
Qual o tamanho da amostra a escolher? R. 𝑛 ≅ 1.692
2. No problema anterior, suponha que a indústria tenha a informação de que a proporção de
imunizados pela vacina seja 0,80 ≤ 𝑝. Qual o novo tamanho de amostra a escolher? Houve
redução? R. 𝑛 ≅ 1.080
3. Definimos a variável 𝑒 = 𝑋̅ − 𝜇 como sendo o erro amostral médio. Suponha que a variância
dos salários de uma certa região seja de 400 reais2.
a) Determine a média e a variância de 𝑒. R. 𝜇𝑒 = 0 e 𝜎𝑒2 = 400⁄𝑛
b) Que proporção das amostras de tamanho 25 terão erro amostral absoluto maior do que 2
reais? R. 0,617
c) E qual a proporção das amostras de tamanho 100? R. 0,317
d) Neste último caso, qual o valor de 𝑑, tal que 𝑃(𝑑 < |𝑒|) = 1%R. 𝑑 = 5,15
e) Qual deve ser o tamanho da amostra para que 95% dos erros amostrais absolutos sejam
inferiores a um real? R. 1.537
4. Cada seção usada para a construção de um oleoduto tem comprimento médio de 5 m e desvio
padrão de 20 cm. O comprimento total do oleoduto será de 8 km.
a) Se a firma construtora do oleoduto encomendar 1.600 seções, qual a probabilidade de ele
ter de comprar mais do que uma seção adicional (isto é, de as 1.600 seções somarem menos
de 7.995)? R. 26,60%
b) Qual a probabilidade do uso exato de 1.599 seções (isto é, a soma das 1.600 seções estar
entre 8.000 m e 8.005 m)? R. 16,03%
5. A distribuição dos salários (em salários mínimos) de operários do sexo masculino de uma
grande empresa é 𝑁(5,4 ; 1,69), e a de operários do sexo feminino é 𝑁(5,4 ; 2,25).

Sorteiam-se duas amostras, uma com 16 homens e outra com 16 mulheres. Se 𝐷 for a
diferença entre o salário médio dos homens e das mulheres:
a) Calcule 𝑃(|𝐷| > 0,5)R. 31,37%
b) Qual o valor de 𝑑 tal que 𝑃(|𝐷| > 𝑑) = 0,05? R. 𝑑 = 0,973
c) Que tamanho comum deveriam ter ambas as amostras para que 𝑃(|𝐷| > 0,4) = 0,05? R.
𝑛 = 95
6. Suponha que a proporção de elementos que são considerados bons em uma população
infinita seja 𝑝. Estime o tamanho de uma amostra, de forma que o erro amostral seja de 5%
com nível de significância de 95,45%. R 𝑛 = 400
7. Na questão anterior, qual seria o tamanho da amostra supondo uma população com 200.000
elementos? Que conclusão pode-se ter ao comparar os resultados? R.𝑛 = 399
8. Deseja-se estimar a concentração média de zinco recuperado de uma amostra de medições
desse material em 36 locações diferentes, em gramas por mililitro. Supondo que o desvio
padrão da população seja 0,3 determine o tamanho da amostra necessário, se quisermos estar
95% confiantes de que nossa estimativa da média difira da média populacional por menos
de 5%? R. 𝑛 = 139
9. A tabela CD-Veículos traz os preços de 30 carros nacionais e importados, extraídos da
população de todos os carros vendidos no mercado. Supondo que o desvio padrão dessa
amostra seja um bom representante do verdadeiro desvio padrão da população, qual será o
tamanho de uma amostra a ser colhida, de modo que, com probabilidade 90%, a média
amostral difira da verdadeira média de menos de 2%?
Tabela CD-Veículos
Preço Comprimento Motor
Veículo N/I
(em dólares) (em metros) (em VC)
Asia Tower 9.440 3,36 40 I
Audi A3 38.850 4,15 125 I
Chevrolet Astra 10.532 4,11 110 N
Chevrolet Blazer 16.346 4,60 106 N
Chevrolet Corsa 6.176 3,73 60 N
Chevrolet Tigra 12.890 3,92 100 I
Chevrolet Vectra 13.140 4,47 110 N
Chrysler Neon 31.640 4,36 115 I
Dodge Dakota 11.630 4,98 121 N
Fiat Fiorino 6.700 4,16 76 N
Fiat Marea 12.923 4,39 127 N
Fiat Uno Mile 5.257 3,64 57 N

Fiat Palio 6.260 3,73 61 N

Fiat Siena 7.780 4,10 61 I
Ford Escort 10.767 4,20 115 I
Ford Fiesta 6.316 3,83 52 N
Ford Ka 5.680 3,62 54 N
Ford Mondeo 33.718 4,56 130 I
Honda Civic 14.460 4,45 106 N
Hyundai Accent 21.500 4,12 91 I
Peugeot 106 13.840 3,68 50 I
Renault Clio 13.700 3,70 74 I
Toyota Corola 15.520 4,39 116 N
Toyota Perua 24.632 4,40 96 N
VW Gol 6.340 3,81 54 N
VW Golf 22.200 4,15 100 I
VW Parati 9.300 4,08 69 N
VW Polo 12.018 4,14 99 I
VW Santana 11.386 4,57 101 N
VW Saveiro 7.742 4,38 88 N
Fonte: Folha de São Paulo, 14/3/1999
10. Um distribuidor de sementes determina, por meio de testes, que 5% das sementes não
germinam. Ele vende pacotes com 200 sementes com garantia de 90% de germinação. Qual
a probabilidade de que um pacote não satisfaça à garantia? R. 0,059%
11. A prefeitura de cidade quer estimar a proporão 𝑝 dos moradores favoráveis à mudança do
horário comercial, com o intuito de economizar combustível. Essa proporção deverá ser
estimada com um erro máximo de 5%, a um nível de 90% de confiança.
a) Que tamanho deverá ter a amostra se a proporção 𝑝 esperada deve estar entre 20% e 50%.
R. 𝑛 ≅ 271
b) Numa amostra de 400 moradores, 160 foram favoráveis à mudança; qual seria o intervalo
de confiança para 𝑝, nesse caso, com 𝛾 = 0,95? R. 𝐼𝐶 = [0,352 ; 0,448]
12. No exemplo 5.4, qual seria o tamanho máximo para a referida amostra? Comente.
13. Um escritório de contabilidade fez um levantamento sobre a renda anual de 100 clientes.
Os dados coletados estão abaixo (em rendas 1.000 × 𝑅$). Calcule o tamanho da amostra
para se estimar a média populacional, sendo 𝜀 = 𝑅$ 2.000,00, 𝜎 = 𝑅$ 7.000,00 e 1 − 𝛼 =
0,955.R. 𝑛 ≅ 33
29 6 34 12 15 31 34 20 8 30 8 15 24 22 35 31 25 26 20 10 30 4
16 21 14 21 16 18 20 12 31 20 12 18 12 25 26 13 10 5 13 19 30 17
25 29 25 28 32 15 10 21 18 7 16 14 11 22 21 36 32 17 15 13 8 12

23 25 13 21 5 12 32 21 10 30 30 10 14 17 34 22 30 48 19 12 8 7
15 20 26 25 22 30 33 14 17 13 10 9

6. Intervalo de Confiança
Intervalo de confiança é uma técnica para se fazer inferência estatística. A partir de um
intervalo de confiança, construído com os elementos amostrais, pode-se inferir (deduzir
ocorrências futuras e conclusões sobre o todo) sobre uma População Estatística. A construção
de intervalos de confiança fundamenta-se nas distribuições amostrais, e, sua lógica é a seguinte:
Seja θ um parâmetro populacional.
Seja θ̂ um estimador de θ
Conhecida a distribuição de probabilidade de θ̂, é possível construir um intervalo
𝜃̂1 ≤ 𝜃 ≤ 𝜃̂2 (6.1)
que contém θ, e, se exigirmos que a probabilidade de que esse intervalo contenha o parâmetroθ
seja 𝛾 = (1 − 𝛼) (coeficiente de confiança), geralmente 𝛾 = 90%, 95%, 99% , ⋯, obtemos
uma excelente estimativa intervalar com probabilidades de 90%, 95%, 99%, ⋯ de que esse
intervalo contenha o parâmetro 𝜃.Esta técnica diferencia-se da estimação “por ponto”, onde se
calcula um único valor (estimativa) para o parâmetro populacional. No caso do intervalo de
confiança busca-se um segmento, ou intervalo que contêm o parâmetro desconhecido. Por
exemplo, retira-se uma amostra de 500 brasileiros e calcula-se a média de suas alturas
encontrando-se 1,66 m. Logo, uma estimação pontual da verdadeira média 𝜇 é dada por 𝑥̅ =
1,66 𝑚. Já através do intervalo de confiança poder-se-ia encontrar um intervalo, por exemplo,
[1,58; 1,68] que, em 95% das vezes, incluiria𝜇 (a verdadeira média dos brasileiros)
6.1. Intervalo da Confiança para a média
Variância (𝝈𝟐 ) conhecida.

Como se sabe, o estimador de 𝜇 é 𝑋̅. Também é conhecida a distribuição de probabilidade
de 𝑋̅. Aqui é importante diferenciar a população infinita da população finita. Dessa forma,
diremos que a distribuição de 𝑋̅ será
𝜎2
𝑋̅~𝑁 (𝜇 , ) (população não finita) (6.2)
𝑛
e
𝜎2 𝑁 − 𝑛
𝑋̅~𝑁 (𝜇 , ( )) (população finita) (6.3)
𝑛 𝑁−1
assim, para o caso de populações infinitas, uma mudança de variável se faz necessário, de forma
que
𝑋̅ − 𝜇
𝑍= (6.4)
𝜎𝑋̅
𝜎
seja normalmente distribuída com média 0 e variância 1, onde 𝜎𝑋̅ = . Fixado um nível de
√𝑛
confiança igual a (1 − 𝛼) temos que o intervalo (6.1) se equivale ao intervalo de forma que
−𝑍𝛼⁄2 ≤ 𝑍 ≤ 𝑍𝛼⁄2 (6.5)
de forma que𝑃(−𝑍𝛼⁄2 ≤ 𝑍 ≤ 𝑍𝛼⁄2 ) = 1 − 𝛼. Graficamente temos
Figura 6.1
substituindo o valor de 𝑍, dado em (6.4) nas desigualdades (6.5) obtemos o intervalo de

confiança desejado
𝑋̅ − 𝑍𝛼⁄2 ⋅ 𝜎𝑋̅ ≤ 𝜇 ≤ 𝑋̅ + 𝑍𝛼⁄2 ⋅ 𝜎𝑋̅ (6.6)
de forma que 𝑃(𝑋̅ − 𝑍𝛼⁄2 ∙ 𝜎𝑋̅ ≤ 𝜇 ≤ 𝑋̅ + 𝑍𝛼⁄2 ∙ 𝜎𝑋̅ ) = 1 − 𝛼. Como poderá ser verificado a
aplicação da fórmula (6.6) é extremamente simples. Fixa-se o valor de confiança (1 − 𝛼), ou
(1 − 𝛼)100 = %, observe na Tabela I (tabela de distribuição normal padrão) o valor das

Intervalo de Confiança 239
abscissas que deixam 𝛼/2 em cada uma das caldas. Para fazer essa pesquisa na Tabela I,
proceda assim:
(ii) Obtenha o valor de 1 − 𝛼/2
(iii) Procure no corpo da tabela o valor obtido em (i)
(iv) O valor de 𝑍𝛼⁄2 será montado pela junção do valor à extrema direita na mesma linha
do valor encontrado em (i) e o valor no topo da coluna do referido valor em (i).
Exemplo 6.1 A duração de vida de uma peça de equipamento é tal que 𝝈 = 𝟓 horas. Foram
amostradas 100 dessas peças obtendo-se a média de 500 horas. Deseja-se construir um intervalo
de confiança para a verdadeira duração média com um nível de confiança de 95%.
Solução: Do enunciado tiramos 𝑋̅ = 500, 𝜎 = 5, 𝑛 = 100 e 1 − 𝛼 = 0,95 ou seja, 𝛼 = 0,05
𝛼
e consequentemente 𝛼/2 = 0,025. Com isso 1 − 2 = 0,9750. Seguindo os passos (ii) e (iii)
acima obtemos 𝑍𝛼⁄2 = 1,96. Assim chegamos ao intervalo desejado

5 5
𝑋̅ − 𝑍𝛼⁄2 ∙ 𝜎𝑋̅ ≤ 𝜇 ≤ 𝑋̅ + 𝑍𝛼⁄2 ∙ 𝜎𝑋̅ ⟶ ⇢ 500 − 1,96 ∙ ≤ 𝜇 ≤ 500 + 1,96 ∙
√100 √100
ou 499,02 ≤ 𝜇 ≤ 500,98. Esse intervalo contém a duração média da peça com 95% de
confiabilidade, isso significa que se forem construídos intervalos dessa maneira para um grande
número de amostras, em 95% dos casos tais intervalos incluiriam a média populacional 𝜇.
Simbolicamente fica 𝑃(499,02 ≤ 𝜇 ≤ 500,98) = 0,95. Graficamente temos
Figura 6.2
■
No caso de populações finitas com (𝑁) realizações, o intervalo passa a ter a seguinte
estruturação

𝑁−𝑛 𝑁−𝑛
𝑋̅ − 𝑍𝛼⁄2 ⋅ 𝜎𝑋̅ ⋅ √ ≤ 𝜇 ≤ 𝑋̅ + 𝑍𝛼⁄2 ⋅ 𝜎𝑋̅ ⋅ √ (6.7)
𝑁−1 𝑁−1
com isso, 𝑃 (𝑋̅ − 𝑍𝛼⁄2 ∙ 𝜎𝑋̅ ∙ √ 𝑁−1 ≤ 𝜇 ≤ 𝑋̅ + 𝑍𝛼⁄2 ∙ 𝜎𝑋̅ ∙ √𝑁−1) = 1 − 𝛼. É claro que ao se
obter o IC ( intervalo de confiança) que contenha o parâmetro ao nível de confiança desejado,

comete-se erros. Uma estimativa desse erro é feita analisando a diferença
𝑋̅ − 𝜇 = 𝑍𝛼⁄2 ∙ 𝜎𝑋̅ (6.8)
Uma análise mais detalhada seria necessária, mas nos restringiremos a não fazê-la nestas
notas.
Variância (𝝈𝟐 ) desconhecida.
Se a variância populacional 𝜎 2 não é conhecida, podemos substituir em (6.6) o valor de 𝜎

por 𝑆, onde 𝑆 2 é a variância amostral. Para (𝑛) grande, (100 < 𝑛), o intervalo (6.6), com essa
modificação, pode ainda ser usado. Para (𝑛) não muito grande, a distribuição normal não pode
ser usada e terá que ser substituída pela distribuição t de Student. No caso de (𝑛) não muito
grande, seguiremos um processo semelhante ao que foi descrito na seção anterior. Como não
conhecemos 𝜎, porém, é preciso substituí-lo por 𝑆 (desvio padrão amostral) que, contrariamente
a 𝜎, é uma variável aleatória. Daí, considerando (6.4), se tem o quociente entre duas variáveis
aleatórias, 𝑋̅ e 𝑆,
𝑋̅ − 𝜇
(6.9)
𝑆𝑋̅
𝑆
sendo 𝑆𝑋̅ = .É sabido pelo Teorema 5.5que
√𝑛
𝑋̅ − 𝜇
𝑡= (6.10)
𝑆𝑋̅
é uma variável aleatória com distribuição t de Student com 𝑣 = 𝑛 − 1 graus de liberdade. Neste
caso, fixando um nível de confiança 1 − 𝛼 temos

Figura 6.3
Com isso o intervalo de confiança é
𝑋̅ − 𝑡𝛼⁄2 ⋅ 𝑆𝑋̅ ≤ 𝜇 ≤ 𝑋̅ + 𝑡𝛼⁄2 ⋅ 𝑆𝑋̅ (6.11)
com isso, 𝑃(𝑋̅ − 𝑡𝛼⁄2 ∙ 𝑆𝑋̅ ≤ 𝜇 ≤ 𝑋̅ + 𝑡𝛼⁄2 ∙ 𝑆𝑋̅ ) = 1 − 𝛼onde a variável t possui (𝑛 − 1)
graus de liberdade. Para essa distribuição, consulte a tabela II.
Exemplo 6.2 A amostra {𝟗, 𝟖, 𝟏𝟐, 𝟕, 𝟗, 𝟔, 𝟏𝟏, 𝟔, 𝟏𝟎, 𝟗} foi extraída de uma população normal.
Construir um intervalo de confiança para a média ao nível de 95%.
Solução: No enunciado não foi fornecido a média nem o desvio padrão amostral. Deve-se obtê-
𝛼
los. Assim, 𝑋̅ = 8,7 e 𝑆 = 2. Como 1 − 𝛼 = 0,95 temos 𝛼 = 0,05 e = 0,025. Veja que
2
temos 𝑛 = 10 com isso 𝑣 = 𝑛 − 1 = 9 graus de liberdade. Procurando na tabela III os valores

de 𝑡𝛼⁄2 quando 𝑣 = 9 e 𝛼 = 0,05 obtemos, por(6.11),
2 2
𝑋̅ − 𝑡𝛼⁄2 ∙ 𝑆𝑋̅ ≤ 𝜇 ≤ 𝑋̅ + 𝑡𝛼⁄2 ∙ 𝑆𝑋̅ ou 8,72 − 2,2622 ∙ ≤ 𝜇 ≤ 8,7 + 2,2622 ∙ ou
√10 √10
7,27 ≤ 𝜇 ≤ 10,13 com 𝑃(7,27 ≤ 𝜇 ≤ 10,13) = 0,95.

Graficamente

Figura 6.4
■
Recomendo o leitor a obter o IC do Exemplo 6.2, usando (6.6) (distribuição normal) e

comparar os resultados. Para populações finitas, o intervalo de confiança tem a seguinte
estrutura
𝑋̅ − 𝑡𝛼⁄2 ∙ 𝑆𝑋̅ ∙ √ ≤ 𝜇 ≤ 𝑋̅ + 𝑡𝛼⁄2 ∙ 𝑆𝑋̅ ∙ √ (6.12)
𝑁−1 𝑁−1
com isso, 𝑃 (𝑋̅ − 𝑡𝛼⁄2 ∙ 𝑆𝑋̅ ∙ √𝑁−1 ≤ 𝜇 ≤ 𝑋̅ + 𝑡𝛼⁄2 ∙ 𝑆𝑋̅ ∙ √ 𝑁−1) = 1 − 𝛼.
6.2. Intervalo de Confiança para a Variância
É sabido que 𝑆 2 é um ótimo estimador para a variância populacional 𝜎 2 . Dessa forma, o

Teorema 5.4 nos diz que
(𝑛 − 1)𝑆 2
(6.13)
𝜎2
tem distribuição Qui-Quadrado com (𝑛 − 1) graus de liberdade, ou seja,
2
(𝑛 − 1)𝑆 2
𝜒𝑛−1 = (6.14)
𝜎2
Dessa forma o intervalo de confiança para a variância𝜎 2 é da forma
(𝑛 − 1)𝑆 2 2
(𝑛 − 1)𝑆 2
2
≤ 𝜎 ≤ 2 (6.15)
𝜒sup 𝜒inf

(𝑛−1)∙𝑆 2 (𝑛−1)∙𝑆 2
com isso, 𝑃 ( ≤ 𝜎2 ≤ ) = 1 − 𝛼. Graficamente temos
2sup 2inf
Figura 6.5
Exemplo 6.3 Admita que o pesquisador esteja interessado em avaliar o ganho de peso de seus
peixes. Para isso, ele coleta uma amostra com 𝒏 = 𝟏𝟎 peixes e obtém 𝑺𝟐 = 𝟒 (𝒌𝒈)𝟐. Construir
um Intervalo de confiança para a verdadeira variância com nível de 90%.
Solução: Do enunciado tiramos 𝑛 = 10, 𝑆 2 = 4, 𝛼 = 0,10 e 𝑣 = 9 (10-1). Consultando a
Tabela II (do Qui-quadrado) para esses valores obtemos 2sup = 16,9 e 2inf = 3,33. Dessa
forma, temos
(𝑛 − 1)𝑆 2 2
(𝑛 − 1)𝑆 2
𝑃( ≤ 𝜎 ≤ ) = 1−𝛼
sup
2 2 inf
9∙4 9∙4
𝑃( ≤ 𝜎2 ≤ ) = 0,90
16,9 3,33
𝑃(2,13 ≤ 𝜎 2 ≤ 10,81) = 0,90
Com isso, concluímos que o intervalo (2,13 ; 10,81) contém a verdadeira variância em um
nível de 90% de confiança
■
Como o desvio padrão é o quadrado da variância, é imediato que
(𝑛 − 1) (𝑛 − 1)
𝑆⋅√ 2
≤𝜎 ≤𝑆⋅√ 2 (6.16)
𝜒sup 𝜒inf

representa o intervalo de confiança para o desvio padrão com 1 − 𝛼 nível de confiança, ou seja,
(𝑛−1) (𝑛−1)
𝑃 (𝑆 ∙ √ 2 ≤𝜎 ≤𝑆∙√ )=1−𝛼
sup 2inf
6.3. Intervalo de Confiança para proporção ou

probabilidade (𝒑)
Como é sabido, um estimador para certa proporção 𝑝 de uma realização 𝑥 em uma

população é a frequência relativa amostral𝑓. Pode-se mostrar que 𝑓, o estimador da proporção
populacional 𝑝, tem distribuição estimada por
𝑝⋅𝑞
𝑓~𝑁 (𝑝 , ) (população não finita) (6.17)
𝑛
𝑝⋅𝑞 𝑁−𝑛
𝑓~𝑁 (𝑝 , ( )) (população finita) (6.18)
𝑛 𝑁−1
Assim, para o caso de populações infinitas, a variável padronizada de 𝑓 é dada por
𝑓−𝑝
𝑍=
𝑝⋅𝑞 (6.19)
√ 𝑛
Como antes, fixado um nível de confiança 1 − 𝛼 tem-se
Figura 6.6

Assim, o IC procurado tem a forma
−𝑍𝛼⁄2 ≤ 𝑍 ≤ 𝑍𝛼⁄2
Substituindo o valor de 𝑍, dado em (6.19) nas igualdades acima, e, desenvolvendo os

cálculos obtemos o intervalo de confiança desejado
𝑝⋅𝑞 𝑝⋅𝑞
𝑓 − 𝑍𝛼⁄2 ⋅ √ ≤ 𝑝 ≤ 𝑓 + 𝑍𝛼⁄2 ⋅ √ (6.20)
𝑛 𝑛
Quando se tem amostras com grande número de realizações (𝑛 > 30) pode-se substituir
os valores de 𝑝 e de 𝑞 por 𝑓 e 1 − 𝑓, assim, o IC para a proporção𝑝segundo o estimador 𝑓será
𝑓 ⋅ (1 − 𝑓) 𝑓 ⋅ (1 − 𝑓)
𝑓 − 𝑍𝛼⁄2 ⋅ √ ≤ 𝑝 ≤ 𝑓 + 𝑍𝛼⁄2 ⋅ √ (6.21)
𝑛 𝑛
𝑓(1−𝑓) 𝑓(1−𝑓)
com isso, 𝑃 (𝑓 − 𝑍𝛼⁄2 ∙ √ ≤ 𝑝 ≤ 𝑓 − 𝑍𝛼⁄2 ∙ √ ) = 1 − 𝛼. Quando o problema
𝑛 𝑛
tratar de populações finitas com uma quantidade 𝑁 de elementos, o IC terá a forma
𝑓(1 − 𝑓) 𝑁 − 𝑛 𝑓(1 − 𝑓) 𝑁 − 𝑛
𝑓 − 𝑍𝛼⁄2 ∙ √ ⋅( ) ≤ 𝑝 ≤ 𝑓 − 𝑍𝛼⁄2 ∙ √ ⋅( )
𝑛 𝑁−1 𝑛 𝑁−1
𝑓(1−𝑓) 𝑁−𝑛 𝑓(1−𝑓) 𝑁−𝑛

de modo que 𝑃 (𝑓 − 𝑍𝛼⁄2 ∙ √ ⋅ ( 𝑁−1) ≤ 𝑝 ≤ 𝑓 − 𝑍𝛼⁄2 ∙ √ ⋅ ( 𝑁−1)) = 1 − 𝛼.
𝑛 𝑛
Exemplo 6.4 Examinadas 500 peças de uma grande produção encontrou-se 256 defeituosas. No
nível de 90% construir um IC para a verdadeira proporção de peças defeituosas.
Solução: Do enunciado: 𝑛 = 500, 𝑥 = 260, 1 − 𝛼 = 0,90 e 𝛼⁄2 = 0,05. Dessa forma teremos
𝑥 260
𝑓 = 𝑛 = 500 = 0,52 e 𝑍0,05 = 1,64 Usando (6.21) obtemos
0,52 ∙ (1 − 0,52) 0,52 ∙ (1 − 0,52)

0,52 − 1,64 ∙ √ ≤ 𝑝 ≤ 0,52 + 1,64 ∙ √ , ou
500 500
0,488 ≤ 𝑝 ≤ 0,552. Logo, 𝑃(0,488 ≤ 𝑝 ≤ 0,552) = 0,90.

1. Numa pesquisa de mercado, 400 pessoas foram entrevistadas sobre determinado produto,
e 60% delas preferiram a marca A. Construir um intervalo de confiança para a proporção
𝑝 ao nível de 95% R. (0,551 ≤ 𝑝 ≤ 9,649)
2. Calcule o intervalo de confiança para a média de uma 𝑁(𝜇, 𝜎 2 ) em cada um dos casos
Média Tamanho da Desvio padrão da Coeficiente de
amostral amostra População confiança
170 cm 100 15 cm 95%
165 cm 184 30 cm 85%
180 cm 225 30 cm 70%
R. 𝛾 = 0,85: (161,81 ≤ 𝜇 ≤ 168,19); 𝛾 = 0,70: (177,92 ≤ 𝜇 ≤ 182,08)
3. Qual deve ser o tamanho de uma amostra cujo desvio padrão é 10 para que a diferença da
média amostral para a média da população, em valor absoluto, seja menor que 1, com
coeficiente de confiança igual a:
a) 95% R. 𝑛 = 385 b)99% R.666
4. De 50.000 válvulas fabricadas por uma companhia retira-se uma amostra de 400 válvulas,
e obtém-se a vida média de 800 horas e desvio padrão de 100 horas.
a) Qual o intervalo de confiança de 99% para a vida média da população. R.
b) Com que confiança dir-se-ia que a vida média é 800 ± 0,98?
c) Que tamanho deve ter a amostra para que seja de 95% a confiança na estimativa 800 ±
7,84?
5. Uma amostra aleatória de 625 donas de casa revela que 70% delas preferem a marca A de
detergente. Construir um intervalo de confiança para
𝑝: proporção de donas de casa que preferem A com coeficiente de confiança 𝛾 = 0,9. R.
(0,67 ≤ 𝑝 ≤ 0,73)
6. Antes de uma eleição, um determinado partido está interessado em estimar a proporção 𝑝
de eleitores ao seu candidato. Uma amostra piloto de tamanho 100 revelou que 60% dos
eleitores eram favoráveis ao candidato em questão.
a) Determine o tamanho da amostra necessário para que o erro cometido da estimativa
seja, no máximo, 0,01 com probabilidade de 80% R. 𝑛 = 3.933

b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55% dos
eleitores eram favoráveis ao candidato em questão, construa um intervalo de confiança
para a proporção 𝑝. Utilize 𝛾 = 0,95 R. (0,535 ; 0,566)
7. De experiências passadas, sabe-se que o desvio padrão da altura de crianças de 5ª série do
1º graus é 5 cm.
a) Colhendo uma amostra de 36 dessas crianças, observou-se a média de 150 cm. Qual o
intervalo de confiança de 95% para a média populacional? R. (148,37; 151,63)
b) Que tamanho deve ter uma amostra para que o intervalo 150 ± 0,98 tenha 95% de
confiabilidade? R. 𝑛 = 100
8. Estime o salário médio dos empregados de uma indústria têxtil, considerando uma
confiabilidade de 95%, sabendo que uma amostra de 100 indivíduos apresentou os
seguintes resultados
Salário Frequência
150 |-- 250 8
250 |-- 350 22
350 |-- 450 38
450 |-- 550 28
550 |-- 650 2
650 |--750 2
9. Colhida uma amostra de 30 peças, forneceu os seguintes pesos
250 265 267 269 271 275 277 281 283 284 287 289 291 293 2993
298 301 303 306 307 307 309 311 315 319 322 324 328 335 339
Por meio da construção do IC, responder se esta amostra satisfaz a especificação pela qual
o peso médio deve ser 300 g em 95% dos casos.
10. A concentração média de zinco recuperado de uma amostra de medições desse material em
36 locações diferentes é 2,6 gamas por mililitro. Assumindo que o desvio padrão da
população seja de 0,3, determine:
a) O intervalo de confiança de 99% para a média de concentração de zinco. R.
(2,47 ≤ 𝜇 ≤ 2,73)
b) Qual deve ser o tamanho da amostra necessário, se quisermos estar 95% confiantes de
que nossa estimativa de 𝜇 está distante por menos de 0,05?. R. 𝑛 = 139
11. Elabore argumentos e cálculos para mostrar que sendo 𝑋 ~ 𝑁(𝜇, 𝜎 2 ) e 𝑋̅ um estimador de
𝜇, podemos estar 100(1 − 𝛼)% confiantes de que o erro não excederá um valor específico
𝑒 quando o tamanho da amostra for

𝑍𝛼⁄2 ∙ 𝜎 2
𝑛=( )
𝑒

7. Teste de Hipótese
Um dos problemas a serem resolvidos pela Inferência Estatística é o de testar uma
hipótese. Isto é, feita determinada afirmação sobre uma população, usualmente sobre
parâmetros dessa, desejamos saber se os resultados experimentais proveniente de uma amostra
contrariam ou não tal afirmação. O objetivo desse teste de hipótese, é então, fornecer uma
metodologia que nos permita verificar se os dados amostrais trazem evidências que apoiam ou
não a hipótese (estatística) formulada.
7.1. Conceitos principais
O conceito de Hipótese Estatística é, para muitos, um tópico de difícil assimilação. Isso

ocorre, talvez, por se tratar de problemas interpretativos, os quais o pesquisador, fazendo uso
de ferramentas estatísticas tem que decidir em aceitar uma premissa inicial, chamada de
hipótese nula, ou considerar uma segunda hipótese, chamada hipótese alternativa. Neste
contexto, diremos que Hipótese Estatística trata-se de uma análise feita sobre uma suposição
inicial quanto ao valor de um parâmetro populacional, ou quanto à natureza da distribuição de
probabilidade de uma variável populacional. Nestas notas, serão apresentados os testes
referentes aos parâmetros da população. São exemplos de hipóteses estatísticas:
(i) A altura média da população brasileira é 1,65 m, isto é, 𝐻𝑖𝑝: 𝜇 = 1,65 𝑚

(ii) A variância populacional dos salários vela (R$ 5.000,00)2, isto é, 𝐻𝑖𝑝: 𝜎 2 =
25.000.000
(iii) A proporção de goianos com a doença D é de 40%, ou seja, 𝐻𝑖𝑝: 𝑝 = 0,40
(iv) A distribuição de pesos dos alunos do IFG – campus Uruaçu é aproximado por
distribuição normal.
(v) A chegada de navios ao porto de Santos é descrita por uma distribuição de Poisson.
Nos exemplos citados é possível que tais premissas não sejam verdadeiras. Diante dessa
possibilidade é que se realiza o Teste de Hipótese, que a grosso modo é uma regra de decisão
para aceitar ou rejeitar a hipótese estatística com base nos elementos amostrais. É comum, em
testes de hipóteses, termos situações distintas, ou seja, termos tipos de hipóteses diferentes.
Comumente designa-se por 𝐻0 , o que chamamos hipótese nula, a qual indica a premissa a ser
testada, podendo ela ser aceita ou rejeitada, e, por 𝐻1 a hipótese alternativa. No caso de rejeição

da hipótese nula, é imediato a aceitação da hipótese alternativa. Não é regra, mas geralmente a
hipótese nula expressa uma igualdade, enquanto a hipótese alternativa é dada por uma
desigualdade. O exemplo (i) acima fica
(i) 𝐻0 : 𝜇 = 1,65 𝑚 𝑒 𝐻1 : 𝜇 ≠ 1,65 𝑚 (dá origem a um teste bilateral)

(ii) 𝐻0 : 𝜇 = 1,65 𝑚 𝑒 𝐻1 : 𝜇 > 1,65 𝑚 (dá origem a um teste unilateral à direita)
(iii) 𝐻0 : 𝜇 = 1,65 𝑚 𝑒 𝐻1 : 𝜇 < 1,65 𝑚 (dá origem a um teste unilateral à esquerda)
Quando testamos uma hipótese estatística, e tomamos a decisão de aceitar ou rejeitar a

hipótese nula certamente estamos sujeitos a cometer um erro de interpretação. Dois tipos de
erros , em casos assim, são comuns de ocorrer. É possível que rejeitemos 𝐻0 quando ela for
verdadeira ou então não rejeitamos 𝐻0 quando ela é falsa. Dessa forma, podemos cometer dois
tipos de erros, e vamos enumerá-los para facilitar a linguagem:
I. Erro Tipo I: Rejeitar a hipótese nula 𝐻0 , quando 𝐻0 é verdadeira. Chamamos de 𝛼 a
probabilidade de se cometer esse tipo e erro.
II. Erro tipo II: Não rejeitar a hipótese nula 𝐻0 , quando 𝐻0 é falsa. Chamamos de 𝛽 a
probabilidade de se cometer esse tipo e erro.
A Tabela 7.1traz de forma sintetizada as possibilidades para os possíveis erros.
Tabela 7.1
Realidade
𝑯𝟎 Verdadeira 𝑯𝟎 Falsa
Aceitar 𝐻0 Decisão correta 𝑃(𝑒𝑟𝑟𝑜 𝑡𝑖𝑝𝑜 𝐼𝐼) = 𝛽
Decisão
Rejeitar 𝐻0 𝑃(𝑒𝑟𝑟𝑜 𝑇𝑖𝑜 𝐼) = 𝛼 Decisão correta
O objetivo do teste de hipótese é dizer, usando uma estatística θ̂, se a hipótese 𝐻0 é ou

não aceitável. Operacionalmente, essa decisão é tomada através da consideração de uma região
crítica ou região de rejeição (RC). Caso o valor observado da estatística pertença a essa região,
rejeitamos 𝐻0 ; caso contrário, não rejeitamos 𝐻0 . Esta região é construída de modo que
𝑃(θ̂ ∈ 𝑅𝐶 | 𝐻0 é verdadeira)seja igual a 𝛼, fixado a priori. Um fato importante a ressaltar é
que a região crítica é sempre construída sob a hipótese de 𝐻0 ser verdadeira.A probabilidade 𝛼
de se cometer um erro tipo I (ou de primeira espécie) é um valor arbitrário e recebe o nome de
nível de significância do teste. O resultado da amostra é tanto mais significante para rejeitar 𝐻0
quanto menor for esse nível 𝛼. Ou seja, quanto menor for 𝛼, menor é a probabilidade de se

Teste de Hipótese 251
obter uma amostra da população para a qual 𝐻0 seja verdadeira. Usualmente, o valor de 𝛼 é
fixado em 5%, 1% ou 0,1%.
Exemplo 7.1 Para exemplificar considere que uma indústria use, como um dos componentes
das máquinas que produz, um parafuso importado, que deve satisfazer a algumas exigências.
Uma delas é a resistência à tração. Esses parafusos são fabricados por alguns países, e as
especificações técnicas variam de país para país. O catálogo do país A afirma que a resistência
média à tração de seus parafusos é de 145 kg com desvio padrão de 12 kg. Já para o país B, a
média é de 155 kg com desvio padrão 20 kg. Um lote desses parafusos, de origem desconhecida,
será leiloado a um preço muito convidativo. Para que a indústria saiba se faz ou não uma oferta,
ela necessita saber qual país produziu os parafusos. O edital do leiloeiro afirma que, pouco
̅ de uma amostra de 25 parafusos do lote. Qual regra
antes, será divulgada a resistência média 𝒙
de decisão deve ser usada pela indústria para dizer se os parafusos são do país A ou B?
Solução: Uma possível resposta que ocorre naturalmente é a que considera como país de origem
dos parafusos aquele para o qual a média da amostra mais se aproximar da média da população.
Assim, um possível regra de decisão seria: Se a média da amostra for menor que ou igual ao
ponto médio entre 145 e 155, diremos que os parafusos são provenientes do país 𝑨, caso
contrário, diremos que os parafusos são proveniente do país B. Imagine se no dia do leilão a
̅ = 𝟏𝟒𝟖, pela nossa regra de decisão, diríamos que os
média da amostra informada fosse 𝒙
parafusos são provenientes do pais 𝑨. Podemos estar enganados nessa conclusão? Ou seja, é
̅ = 𝟏𝟒𝟖? Sim, é possível.
possível que uma amostra de 25 parafusos do país 𝑩 apresente média 𝒙
Caso isso ocorra, cometemos o erro tipo II.
■
Passos para a construção de um teste de hipóteses
Abaixo uma sequência que pode ser usada sistematicamente para qualquer teste de
hipóteses.
Passo 1. Fixe qual a hipótese 𝐻0 a ser testada e qual a hipótese alternativa 𝐻1 .

Passo 2. Use a teoria estatística e as informações disponíveis para decidir qual estatística
(estimador) será usado para testar a hipótese 𝐻0 . Obter as propriedades dessa estatística
(distribuição, média, desvio padrão).

Passo 3. Fixe a probabilidade 𝛼 de cometer o erro tipo I e use este valor para construir a
região crítica (regra de decisão). Lembre-se que essa região é construída para a estatística
definida no passo 2, usando os valores do parâmetro hipotetizados por 𝐻0 .Dessa forma,
Tabela 7.2
(a): (teste bicaudal): 𝑅𝐶 = {θ̂ ∈ ℝ|θ̂ < θ̂𝐶1 ouθ̂𝑐2 < θ̂}
θ̂𝑐1 ≤ θ̂ ≤ θ̂𝑐2 não se pode rejeitar 𝐻0
θ̂ < θ̂𝑐1 𝑜𝑢 θ̂𝑐2 < 𝑍 rejeita-se 𝐻0
(b): (teste unicaudal à diretia): 𝑅𝐶 = {θ̂ ∈ ℝ |θ̂𝑐 < θ̂}
θ̂ ≤ θ̂𝑐 não se pode rejeitar 𝐻0
θ̂𝑐 < θ̂ rejeita-se 𝐻0
(c) (teste unicaudal à esquerda): 𝑅𝐶 = {θ̂ ∈ ℝ|θ̂ < θ̂𝑐 }
θ̂𝑐 ≤ θ̂ não se pode rejeitar 𝐻0
θ̂ < θ̂𝑐 rejeita-se 𝐻0
graficamente temos
Figura 7.1: Regiões de rejeição de hipótese 𝑯𝟎
Passo 4. Use as observações da amostra para calcular o valor da estatística do teste

Passo 5. Se o valor da estatística calculado com os dados da amostra não pertencer à

região crítica, não rejeite 𝐻0 ; caso contrário, rejeite 𝐻0 .
7.2. Testes de Hipótese
Teste 1: Sobre a média de uma população
Variância populacional conhecida
Neste caso, usaremos a distribuição normal padrão 𝑍 ~ 𝑁(0, 1) (tabela I) juntamente com
a equação transcrita abaixo.
𝑋̅ − 𝜇
𝑍= (7.1)
𝜎⁄√𝑛
Destacarei este tópico com um exemplo, onde aplicaremos os cinco passos listados
anteriormente, para testar a hipótese de que a média de uma população (𝜇) seja igual a um
número fixado (𝜇0 ), supondo conhecida a variância dessa população. Esta situação não é muito
realista: conhecer a variância da população. Mais adiante trataremos o caso mais geral, da média
e variância desconhecidas.
Exemplo 7.2 Uma máquina automática para encher pacotes de café enche-os segundo uma
distribuição normal, com média 𝝁 e variância sempre igual a 𝟒𝟎𝟎 𝒈𝟐 . A máquina foi regulada
para 𝝁 = 𝟓𝟎𝟎 𝒈. Desejamos, periodicamente, colher uma amostra de 16 pacotes e verificar se
a produção esta sob controle, isto é, se 𝝁 = 𝟓𝟎𝟎 𝒈 ou não. Se uma dessas amostras apresentasse
̅ = 𝟒𝟗𝟐 𝒈, você pararia ou não a produção para regular a máquina?
uma média 𝑿
Solução: Vejamos os passos acima listados.
Passo 1. Indiquemos por 𝑋 o peso de cada pacote; então, 𝑋 ~ 𝑁(𝜇, 400). E as hipóteses que
nos interessam são:
𝐻0 : 𝜇 = 500 𝑔
𝐻1 : 𝜇 ≠ 500 𝑔
visto que a máquina pode se desregular para mais ou para menos.
Passo 2. Pela afirmação do problema, 𝜎 2 = 400 será sempre a mesma; logo, para todo 𝜇, a
400
média 𝑋̅ de 16 pacotes terá distribuição 𝑁 (𝜇, 16 ), de modo que o desvio padrão (ou erro
𝜎
padrão) de 𝑋̅ é = 5. Em particular, se 𝐻0 for verdadeira, 𝑋̅ ~ 𝑁(500, 25).
√𝑛

Passo 3..Vamos fixar 𝛼 = 1% ou seja, 𝛼 = 0,01; pela hipótese alternativa, vemos que𝐻0 deve
ser rejeitada quando 𝑋̅ for muito pequena ou muito grande (dizemos que temos um teste
bilateral). Portanto, nossa região será 𝑅𝐶 = {𝑍 ∈ ℝ|𝑍 < −𝑍𝛼⁄2 𝑜𝑢 𝑍𝛼⁄2 < 𝑍}. Pela Tabela I
temos 𝑍𝛼⁄2 = 𝑍0,005 = 2,575. Assim𝑅𝐶 = {𝑍 ∈ ℝ|𝑍 < −2,575 ou 2,575 < 𝑍}. Usando (7.1)
𝑋̅ −𝜇 492−500
temos𝑍 = 𝜎⁄ ⟶⇢ 𝑍 = = −1,6
√𝑛 5
Passo 4. A informação pertinente da amostra é sua média, que nesse caso particular equivale
a𝑍 = −1,6, e, 𝑍 ∉ 𝑅𝐶.
Passo 5. Como 𝑍 não pertence à região crítica, nossa conclusão será não rejeitar 𝐻0 . Ou seja, o
desvio da média da amostra para a média proposta por 𝐻0 pode ser considerada como devido
apenas ao sorteio aleatório dos pacotes.
Figura 7.2 :Região de rejeição de 𝑯𝟎
■
Outra forma de resolver:
Podemos resolver este problema obtendo os limites toleráveis para a v.a. 𝑋̅, ou seja, descobrir
os valores de 𝑥̅𝑐1 e 𝑥̅𝑐2 tais que 𝑅𝐶 = {𝑋̅ ∈ ℝ|𝑋̅ < 𝑥̅𝑐1 𝑜𝑢 𝑥̅𝑐2 < 𝑋̅}. Veja Figura 7.2. Usando a
equação (7.1) e o valor obtido para 𝑍𝛼⁄2 = 2,58 teremos
1 𝑥̅ 𝑐1 −𝜇 𝑥̅ 𝑐1 −500 1
𝑍0,5% = ⟶⇢ −2,58 = ⟶⇢ 𝑥̅𝑐1 = 487,1 (𝑍0,5% é negativo. Está à esquerda)
𝜎⁄√𝑛 5
2 𝑥̅ 𝑐2 −𝜇 𝑥̅ 𝑐2 −500 2
𝑍0,5% = ⟶⇢ 2,58 = ⟶⇢ 𝑥̅𝑐2 = 512,9 (𝑍0,5% é positivo. Está à direita)
𝜎⁄√𝑛 5
Logo, 𝑅𝐶 = {𝑋̅ ∈ ℝ|𝑋̅ < 487,1 ou 512,9 < 𝑋̅}. Como a média amostral dada é 𝑋̅ = 492,
segue a conclusão acima.

Exemplo 7.3 Uma amostra aleatória de cem registros de mortes no estado de Goiás durante o
ano passado mostrou uma expectativa de vida de 71,8 anos. Assumindo um desvio padrão de
8,9 anos, isso parece indicar que a média da expectativa de vida hoje é maior que 70 anos? Use
uma significância de 5%.
Passo 1. Indiquemos por 𝑋 a expectativa de vida; então, 𝑋 ~ 𝑁(𝜇; 79,21). E as hipótese que
nos interessam são:
𝐻0 : 𝜇 = 70 𝑎𝑛𝑜𝑠
𝐻1 : 𝜇 > 70 𝑎𝑛𝑜𝑠
Passo 2. Pela afirmação do problema, 𝑛 = 100, 𝑥̅ = 71,8 e 𝜎 = 8,9 será sempre a mesma;
79,21
logo, para todo 𝜇, a média 𝑋̅ de 100 pacotes terá distribuição 𝑁 (70; 100 ), de modo que o
𝜎
desvio padrão (ou erro padrão) de 𝑋̅ é = 0,89.
√𝑛
Passo 3..Vamos fixar 𝛼 = 5% ou seja, 𝛼 = 0,05; pela hipótese alternativa, vemos que 𝐻0 deve
ser rejeitada quando 𝑋̅ for muito grande (teste unilateral à direita). Portanto, nossa região será
𝑅𝐶 = {𝑍5% < 𝑍}. Como 𝑍5% = 1,645 então 𝑅𝐶 = {𝑍 ∈ ℝ|1,645 ≤ 𝑍}. Usando(7.1)
𝑋̅ −𝜇 71,8−70
temos𝑍 = 𝜎⁄ ⟶⇢ 𝑍 = ⟶⇢ 𝑍 = 2,02. segue que 𝑍 ∈ 𝑅𝐶.
√𝑛 0,89
Passo 4. A informação pertinente da amostra é sua média, que nesse caso particular equivale
a𝑍 = 2,02.
Passo 5. Como 𝑍 pertence à região crítica, nossa conclusão, com nível de risco de 5%, será
rejeitar 𝐻0 , e, concluir que a média da expectativa de vida é maior que 70 anos.
■
Variância populacional desconhecida
Iremos supor que a variável aleatória 𝑋, com distribuição normal, com média 𝜇 e
variância 𝜎 2 desconhecidas. Neste caso, utilizaremos a distribuição t de Student. Para isso,
tomemos a estatística 𝑇 assim definida
𝑋̅ − 𝜇
𝑇= (7.2)
𝑆⁄√𝑛
Como vimos, 𝑇 assim definida é uma variável aleatória com distribuição “t” de Student
com 𝑣 = 𝑛 − 1 graus de liberdade. Fixando o valor de 𝛼, podemos usar a Tabela III e encontrar
o valor 𝑡𝑐 tal que 𝑃(|𝑇| < 𝑡𝑐 ) = 1 − 𝛼. Colhida a amostra de (𝑛) indivíduos, calculamos os
valores das estatísticas 𝑋̅ e 𝑆 2 respectivamente, e depois o valor de
𝑋̅ − 𝜇
𝑡0 = (7.3)
𝑆⁄√𝑛
Agora analisemos o valor da estatística 𝑡0 com a Região Crítica (RC) obtida, e rejeitamos
ou não rejeitamos a hipótese 𝐻0 mediante 𝑡0 não estar ou estar em RC respectivamente.
Exemplo 7.4 Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina.
Uma amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 3 mg. No nível de
5%, os dados refutam ou não a afirmação do fabricante?
Passo 1. As hipótese que nos interessam são:
𝐻0 : 𝜇 = 30 𝑚𝑔
𝐻1 : 𝜇 > 30 𝑚𝑔
Passo 2. Sendo a quantidade de nicotina por cigarro, com distribuição normal 𝑁(𝜇, 𝜎 2 ), a
estatística
𝑋̅ − 30
𝑡=
𝑆⁄√25
terá distribuição 𝑡 com 24 graus de liberdade.
Passo 3..Fixado 𝛼 = 5% ou seja, 𝛼 = 0,05; pela hipótese alternativa, vemos que 𝐻0 deve ser
rejeitada quando 𝑋̅ for muito grande (teste unilateral à direita). Para descobrir o valor de 𝑡𝑐 tal
que 𝑃(𝑡𝑐 < 𝑡) = 0,05 usamos a tabela III. Assim, obtemos 𝑡𝑐 = 1,711, logo, 𝑅𝐶 =
{𝑡 ∈ ℝ|1,711 < 𝑡}
Passo 4. A informação pertinente da amostra é a estatística dada por(7.3)
31,5 − 30
𝑡0 = ⟶⇢ 𝑡0 = 2,5
3⁄√25
Passo 5. Como 𝑡0 pertence à região crítica, nossa conclusão será rejeitar 𝐻0 , e, concluir que há
evidências de que os cigarros contenham mas de 30 mg de nicotina.
■
Teste 2:Sobre a variância de uma população
Queremos testar hipóteses sobre a variância 𝜎 2 de uma população de indivíduos

portadores de certa característica. Está hipótese afirma que essa variância é igual a certo valor
𝜎02 , então
𝐻0 : 𝜎 2 = 𝜎02

O problema fornece informações sobre a alternativa, que pode ter uma das três formas
abaixo:
(i) 𝐻1 : 𝜎 2 ≠ 𝜎02 (teste bilateral)
(ii) 𝐻1 : 𝜎 2 > 𝜎02 (teste unilateral à direita)
(iii) 𝐻1 : 𝜎 2 < 𝜎02 (teste unilateral à esquerda)
Para isso, consideremos que 𝑆 2 seja um estimador amostrar de 𝜎 2 baseado numa amostra de
tamanho (𝑛), e, fixando o nível de confiança 1 − 𝛼. Como vimos no Teorema 5.4, a variável
aleatória expressa por
(𝑛 − 1)𝑆 2
(7.4)
𝜎2
tem distribuição qui-quadrado com 𝑣 = 𝑛 − 1 graus de liberdade. Dessa forma, podemos

escrever
2
(𝑛 − 1)𝑆 2
𝜒cal = (7.5)
𝜎02
onde (𝑛) é o tamanho da amostra, 𝑆 2 é a variância amostral e 𝜎02 é o valor de 𝜎 2 dado pela
hipótese nula.Se 𝐻0 for verdadeira, 2cal é um valor da distribuição qui-quadrado com 𝑣 = 𝑛 −
1 graus de liberdade. As regiões críticas, então serão
• Para um teste bilateral𝜎 2 ≠ 𝜎02 do nível de significância 𝛼, a região crítica RC é
2
2
𝑅𝐶 = {𝜒𝑐𝑎𝑙 < 𝜒1−𝛼 ⁄2 } 𝑜𝑢 2
𝑅𝐶 = {𝜒𝑐𝑎𝑙 > 𝜒𝛼2⁄2 } (7.6)
• Para a alternativa unilateral à esquerda 𝜎 2 < 𝜎02 , a região crítica é
2 2 }
𝑅𝐶 = {𝜒𝑐𝑎𝑙 < 𝜒1−𝛼 (7.7)
• Para a alternativa unilateral à direita 𝜎 2 > 𝜎02 teremos
2 2 }
𝑅𝐶 = {𝜒𝑐𝑎𝑙 > 𝜒1−𝛼 (7.8)
Usando a tabela II encontramos a região crítica – RC – como mostrado na Figura 7.1. Se

2cal estiver na região crítica rejeita-se 𝐻0 , caso contrário não se pode rejeitar 𝐻0 .
Exemplo 7.5 Um criador de gado quer testar a hipótese de que a variância relativa ao ganho de
peso de seu rebanho é de 25 (𝒌𝒈)𝟐. Seu veterinário afirma que ela é menor. Para testar essa

hipótese ele pesou 25 cabeças de gado de seu rebanho e obteve uma variância amostral de 18,3
(𝒌𝒈)𝟐. No nível de 10%, os dados refutam ou não a afirmação do fazendeiro?
Solução: Do enunciado temos 𝐻0 : 𝜎 2 = 25 e 𝐻1 : 𝜎 2 < 25. Considerando 𝛼 = 0,10, e
usando(7.5) obtemos 2cal = 17,56. Consultando a Tabela II para 𝑣 = 24 e 𝛼 = 10% (teste
unilateral à esquerda) encontramos 2inf = 15,7. Assim nossa 𝑅𝐶 = {2 < 15,7}. Como 2cal =
17,56 ∉ 𝑅𝐶 não podemos rejeitar a afirmação do fazendeiro. Graficamente temos:
Figura 7.3
■
Teste 3: Hipótese para a proporção(𝒑)
Aqui temos uma população e uma hipótese sobre a proporção 𝑝 de indivíduos portadores
de certa característica. Está hipótese afirma que essa proporção é igual a certo valor 𝑝0 , então
𝐻0 : 𝑝 = 𝑝0
O problema fornece informações sobre a alternativa, que pode ter uma das três formas
abaixo:
(i) 𝐻1 : 𝑝 ≠ 𝑝0 (teste bilateral)
(ii) 𝐻1 : 𝑝 > 𝑝0 (teste unilateral à direita)
(iii) 𝐻1 : 𝑝 < 𝑝0 (teste unilateral à esquerda)
É sabido que a estatística 𝑓, a proporção relativa amostral, tem uma distribuição

aproximadamente normal, como dada em (6.17), a saber,
𝑝⋅𝑞
𝑓~𝑁 (𝑝 ; ) (7.9)
𝑛

Fixado um valor 𝛼 (probabilidade de ocorrência do erro tipo I), devemos construir a

região crítica para que a suposição, definido por 𝐻0 sobre a proporção𝑝, seja verdadeira. Dessa
forma considerando (6.19), definimos a variável 𝑍 como mostra a equação (7.10), onde 𝑞 = 1 −
𝑝
𝑓−𝑝
𝑍𝑐𝑎𝑙 =
𝑝⋅𝑞 (7.10)
√ 𝑛
com isso podemos obtemos os valores limites da RC, como mostrados na Figura 7.1.
Exemplo 7.6 Uma estação de televisão afirma que 60% dos televisores estavam ligados no seu
programa especial de segunda-feira. Uma rede competidora deseja contestar essa afirmação e
decide usar uma amostra de 200 famílias para um teste, no qual constata que 104 estavam
assistindo a tal programa. Qual deve ser o procedimento adotado para avaliar a veracidade da
afirmação da estação de TV, com uma confiabilidade de 5%?
Passo 1. Vamos colocar à prova a afirmação da estação de TV, ou seja, 𝑝 = 0,60, assim
𝐻0 : 𝑝 = 0,60
Note que se 𝐻0 não for verdadeira, espera-se uma proporção menor, nunca maior. A estação de
TV divulgaria sempre o máximo possível. Assim, a hipótese alternativa é
𝐻1 : 𝑝 < 0,60
𝑥 104
Passo 2. Pela afirmação do problema, 𝑥 = 104, 𝑛 = 200, 𝑓 = 𝑛 = 200 = 0,52. Logo, para todo
0,24
𝜇, a média 𝑋̅ das pessoas assistindo ao programa terá distribuição 𝑓 ~ 𝑁 (0,60; 200 ),
Passo 3..Fixado 𝛼 = 5% ou seja, 𝛼 = 0,05; pela hipótese alternativa, vemos que 𝐻0 deve ser
rejeitada quando 𝑋̅ for muito pequeno (teste unilateral à esquerda). Como 𝑍5% = 1,645 teremos
que a 𝑅𝐶 = {𝑍 < −1,645}. Para descobrir o valor de 𝑍 usamos a equação(7.10)e a Tabela I.
Assim,
𝑓−𝑝 0,52 − 0,60
𝑍= ⟶⇢ 𝑍 = ⟶⇢ 𝑍 = −2,309
𝑝∙𝑞 0,24
√ 𝑛
√
200
Passo 4. A informação pertinente da amostra é sua média, que nesse caso particular é 𝑍 =
−2,309

Passo 5. Como 𝑍 pertence à região crítica, nossa conclusão será rejeitar 𝐻0 , e, concluir que a
hipótese que 60% das famílias estavam assistindo ao programa é falsa; a proporção de famílias
assistindo a tal programa é menor que 60%.
■
Teste 4:Hipótese sobre duas médias
Nesta seção estudaremos o caso onde temos duas amostras independentes 𝑋𝑖 e 𝑌𝑗 com
1 ≤ 𝑖 ≤ 𝑛 e 1 ≤ 𝑗 ≤ 𝑚 de duas populações 𝑃1 e 𝑃2 respectivamente. Nosso interesse aqui é
comparar as médias dessas populações, verificando se elas podem ser consideradas iguais ou
não.
Variâncias populacionais conhecidas, independentes e normais
Sejam 𝑃1 e 𝑃2 duas populações com médias 𝜇1 e 𝜇2 e variâncias𝜎12 e 𝜎22 conhecidas.

Queremos testar a hipótese nula.
𝐻0 : 𝜇1 = 𝜇2 ou 𝐻0 : 𝜇1 − 𝜇2 = 𝑑
com 𝑑 ≥ 0 é uma diferença admitida entre as médias. Supondo as variâncias iguais, temos
como hipótese alternativa adequada
𝐻1 : 𝜇1 ≠ 𝜇2 ou 𝐻1 : 𝜇1 − 𝜇2 ≠ 𝑑
Se 𝑑 = 0 e quisermos apenas verificar se existe diferença entre as médias das duas

populações, não importando a direção, então hipótese alternativa adequada será
𝐻0 : 𝜇1 = 𝜇2 e 𝐻1 : 𝜇1 ≠ 𝜇2
Duas amostras aleatórias independentes𝑋1 e 𝑋2 de tamanhos (𝑛) e (𝑚) são selecionadas

de 𝑃1 e 𝑃2 respectivamente. Assuma (𝑛) e (𝑚) suficientemente grandes para que possamos
usar o Teorema 5.2 (teorema do limite central) e garantir que a variável aleatória
(𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 )

𝑍=
2 2 (7.11)
√𝜎1 + 𝜎2
𝑛 𝑚
tenha uma distribuição normal padrão. É claro que se as populações são normais, é imediato
que a variável (7.11) terá distribuição normal padrão. Agora, considerando a hipótese

nula𝐻0 : 𝜇1 − 𝜇2 = 𝑑 teremos uma análise bilateral ou unilateral à esquerda ou à direta. Dessa

forma calculando os valores de 𝑋̅1 e 𝑋̅2 e de 𝜎12 e 𝜎22 conhecidas a estatística do teste se calcula
usando (7.12)
(𝑋̅1 − 𝑋̅2 ) − 𝑑
𝑍=
2 2 (7.12)
√𝜎1 + 𝜎2
𝑛 𝑚
que tem distribuição normal padrão sob a hipótese nula 𝐻0 e pode ser usada para testar 𝐻0
contra 𝐻1 , num, dos casos acima. Sendo 𝛼 a probabilidade de se cometer o erro tipo I, temos as
conclusões da Tabela 7.2, ou seja, não rejeitaremos a hipótese nula 𝐻0 se −𝑧𝛼⁄2 ≤ 𝑍𝑐𝑎𝑙 ≤ 𝑍𝛼⁄2 ,
e rejeita-se 𝐻0 se 𝑍𝑐𝑎𝑙 < −𝑧𝛼⁄2 ou 𝑍𝑐𝑎𝑙 > 𝑧𝛼⁄2 .
Exemplo 7.7 Um fabricante de pneus faz dois tipos. Para o tipo A, ele garante um desvio padrão
de 2.500 milhas, e para o tipo B garante o desvio padrão de 3.000 milhas. Um taxista testou 50
pneus de tipo A e 40 do tipo B, obtendo 24.000 milhas e 26.000 milhas de duração média dos
respectivos tipos. Adotando-se um risco de 4%, testar a hipótese de que a vida média dos dois
tipos de pneus é a mesma.
Solução: Vamos colocar à prova a afirmação de igualdade da vida dos pneus𝐻0 : 𝜇1 = 𝜇2 .
Assim, a hipótese alternativa é𝐻1 : 𝜇1 ≠ 𝜇2 . Ou seja, um teste bilateral. Pela afirmação do
problema, 𝜎12 = (2.500)2 e 𝜎22 = (3.000)2 , 𝑋̅1 = 24.000 e 𝑋̅2 = 30.000. Fixado 𝛼 = 4% ou
seja, 𝛼 = 0,04, obtemos com o uso da tabela I o valor de 𝑍𝛼⁄2 = 2,055. Segue, então que 𝑅𝐶 =
{𝑍 ∈ ℝ|𝑍 < −2,055 ou 2,055 < 𝑍}. Agora, usemos a fórmula (7.12) para obter valor de 𝑍𝑐𝑎𝑙
𝑋̅ − 𝑌̅ 24.000 − 26.000
𝑍𝑐𝑎𝑙 = ⟶⇢ 𝑍𝑐𝑎𝑙 = ⟶⇢ 𝑍𝑐𝑎𝑙 = −3,38
𝜎12 𝜎22 (2.500)2 (3.000)2
√ + √ +
𝑛 𝑚 50 40
Como 𝑍 pertence à região crítica,𝑍𝑐𝑎𝑙 ∈ 𝑅𝐶, nossa conclusão será rejeitar 𝐻0 , e, com um risco
de 4%, concluir as médias dos pneus são diferentes.
■
Variâncias populacionais desconhecidas, independentes e normais
Suponha que, ao testar a hipótese de igualdade de variâncias, esta não seja rejeitada, isto
é, 𝜎12 = 𝜎22 = 𝜎 2 , porém essa variância comum é desconhecida. Como 𝑆12 e 𝑆22 são dois
estimadores não viesados de 𝜎 2 , podemos combiná-los para obter um estimador comum

(𝑛 − 1)𝑆12 + (𝑚 − 1)𝑆22
𝑆𝑝2 = (7.13)
𝑛+𝑚−2
que também é um estimador não viesado de 𝜎 2 . Dessa forma, definimos a variável aleatória𝑡
como abaixo
𝑋̅ − 𝑌̅ − 𝑑
𝑡𝑐𝑎𝑙 =
1 1 (7.14)
𝑆𝑝 ⋅ √𝑛 + 𝑚
Com 𝑆𝑝 dada em (7.13). Neste caso, a variável aleatória 𝑡𝑐𝑎𝑙 , dada em (7.14) terá distribuição t
de Student com (𝑣 = 𝑛 + 𝑚 − 2) graus de liberdade.Sendo 𝛼 a probabilidade de se cometer o
erro tipo I, obteremos o valor 𝑡𝛼⁄2 temos as conclusões da Tabela 7.2. ou seja, a distribuição 𝑡 é
usada e a hipótese bilateral nula, no caso, não é rejeitada quando ocorrer −𝑡𝛼⁄2,𝑛+𝑚−2 ≤ 𝑡𝑐𝑎𝑙 ≤
𝑡𝛼⁄2,𝑛+𝑚−2 , e rejeita-se a hipótese nula quando 𝑡𝑐𝑎𝑙 < −𝑡(𝛼⁄2,𝑛+𝑚−2) ou 𝑡𝑐𝑎𝑙 > 𝑡(𝛼⁄2,𝑛+𝑚−2) .
Exemplo 7.8 Dois tipos de tinta foram testados, sob as mesmas condições meteorológicas, para
verificar sua qualidade de impermeabilização. O tipo A registrou uma média de 80 𝒖. 𝒎. com
desvio de 5 𝒖. 𝒎. em 5 aplicações. O tipo B, uma média de 83 𝒖. 𝒎. com desvio de 4 𝒖. 𝒎. em
6 aplicações. Adotando uma significância de 5%, testar a hipótese das médias serem iguais.
Solução: Vejamos, nossa tese é 𝐻0 : 𝜇𝐴 = 𝜇𝐵 com hipótese alternativa sendo𝐻1 : 𝜇𝐴 ≠ 𝜇𝐵
ou seja, um teste bilateral. Pela afirmação do problema, 𝑋̅ = 80, 𝑌̅ = 83, 𝑛 = 5 e 𝑚 = 6.
Fixado 𝛼 = 5% concluímos que a variável 𝑡 dada em(7.14) tem 𝑣 = 5 + 6 − 2 = 9 graus de
liberdade. Assim, usando a Tabela III obtemos 𝑡(5%,9) = 2,262. Com isso a região crítica será
𝑅𝐶 = {𝑡 ∈ ℝ|𝑡 < −2,262 ou 𝑡 > 2,262}.
Agora, usemos a fórmula (7.13) e (7.14) para obter valor de 𝑡
(𝑛1 − 1)𝑆12 + (𝑚 − 1)𝑆22 (5 − 1) ∙ 52 + (6 − 1) ∙ 42

𝑆𝑝 = √ ⟶⇢ 𝑆𝑝 = √ ⟶⇢ 𝑆𝑝 = 4,47 e
𝑛+𝑚−2 5+6−2
𝑋̅ − 𝑌̅ − 𝑑 80 − 83 − 0
𝑡𝑐𝑎𝑙 = ⟶⇢ 𝑡𝑐𝑎𝑙 = ⟶⇢ 𝑡𝑐𝑎𝑙 = −1,11
𝑆𝑝 ∙ √1⁄𝑛 + 1⁄𝑚 1
4,47 ∙ √5 + 6
1
como 𝑇 não pertence à região crítica, 𝑡 ∉ 𝑅𝐶, nossa conclusão será não rejeitar 𝐻0 , e, com esse
nível de significância.
■
Teste 5: Hipótese de duas Variâncias

Quando temos duas amostras independentes 𝑋𝑖 e 𝑌𝑗 com 1 ≤ 𝑖 ≤ 𝑛 e 1 ≤ 𝑗 ≤ 𝑚 retiradas

de duas populações 𝑃1 e 𝑃2 respectivamente, é de grande importância para a inferência
estatística comparar as variâncias dessas populações, verificando se elas podem ser
consideradas iguais ou não. Supomos que 𝑃1 ∼ 𝑁(𝜇1 , 𝜎12 ) e 𝑃2 ~ 𝑁(𝜇2 , 𝜎22 ) o pesquisador
procura testar a hipótese nula sobre as variâncias, como abaixo.
𝐻0 : 𝜎12 = 𝜎22
contra uma hipótese alternativa concordando com a Figura 7.1, ou seja,

(i) 𝐻1 : 𝜎12 ≠ 𝜎22 (teste bilateral)
(ii) 𝐻1 : 𝜎12 < 𝜎22 (teste unilateral à direita)
(iii) 𝐻1 : 𝜎12 > 𝜎22 (teste unilateral à esquerda)
Para amostras aleatórias independentes de tamanhos (𝑛) e (𝑚), respectivamente, das

duas populações 𝑃1 e 𝑃2 como acima, o confrontamento da hipótese nula 𝐻0 será baseado em
𝑆12 e 𝑆22 ótimos estimadores para 𝜎12 e 𝜎22 respectivamente. O Teorema 5.6 afirma que a razão
𝑆12 ⁄𝜎12
𝐹= 2 2 (7.15)
𝑆2 ⁄𝜎2
é aproximada por uma distribuição F Snedecor com (𝑛 − 1) graus de liberdade no numerador

e (𝑚 − 1) graus de liberdade no denominador. Se duas populações têm distribuição
aproximadamente normal e a hipótese nula 𝐻0 é verdadeira de acordo com o Teorema 5.7, a
razão
𝑆12
𝐹𝑐𝑎𝑙 = 2 (7.16)
𝑆2
é um valor da distribuição F Snedecor com (𝑣1 = 𝑛 − 1) e (𝑣2 = 𝑚 − 1) graus de liberdade.

Assim, as regiões críticas segundo o teste a ser aplicado.
• Para um teste bilateral𝜎12 ≠ 𝜎22 do nível de significância 𝛼, a região crítica RC é
𝑅𝐶 = {𝐹𝑐𝑎𝑙 < 𝐹1−𝛼⁄2 (𝑣1 , 𝑣2 )} 𝑜𝑢 𝑅𝐶 = {𝐹𝑐𝑎𝑙 > 𝐹𝛼⁄2 (𝑣1 , 𝑣2 )} (7.17)
• para a alternativa unilateral à esquerda 𝜎12 < 𝜎22 , a região crítica será
𝑅𝐶 = {𝐹𝑐𝑎𝑙 < 𝐹1−𝛼 (𝑣1 , 𝑣2 )} (7.18)
• Para a alternativa unilateral à direita 𝜎12 > 𝜎22 teremos

𝑅𝐶 = {𝐹𝑐𝑎𝑙 > 𝐹1−𝛼 (𝑣1 , 𝑣2 )} (7.19)
Baseado na Tabela IV (anexo deste material) podemos obter a RC para 𝐹cal e proceder a
análise como antes.
Exemplo 7.9 Dois programas de treinamento de funcionários foram efetuados. Os 21

funcionários treinados no programa antigo apresentaram uma variância 146 em suas taxas de
erro. No novo programa, 13 funcionários apresentaram uma variância de 200. Considerando
um nível de significância de 10%, pode-se concluir que a variância é diferente para os dois
programas?
Solução: Vejamos, nossa tese é 𝐻0 : 𝜎12 = 𝜎22 com hipótese alternativa sendo 𝐻1 : 𝜎12 ≠ 𝜎22 . Do
enunciado tiramos 𝛼 = 0,10, 𝑣1 = 𝑛1 − 1 = 20, 𝑣2 = 𝑛2 − 1 = 12, 𝑆12 = 146 e 𝑆22 = 200.
Considerando (4.43)e os valores da Tabela IV obtemos a região crítica dada por 𝑅𝐶 =
{𝐹cal < 0,43 𝑜𝑢 𝐹cal > 2,54}. Usando (7.16) calculamos 𝐹cal = 0,73. Como 𝐹cal não pertence
à RC obtida, não se pode rejeitar 𝐻0 , portanto não se pode concluir que as variâncias sejam
diferentes com esse nível de significância.
Teste 6: Hipótese de duas proporções
Aqui, supomos que duas populações sejam normalmente distribuídas segundo uma
𝑝1 ∙𝑞1 𝑝2 ∙𝑞2
proporção 𝑝, ou seja, que tenhamos 𝑃1 ∼ 𝑁 (𝑝1 , ) e 𝑃2 ~ 𝑁 (𝑝2 , ). Nosso interesse é
𝑛 𝑚
testar a hipótese nula.
𝐻0 : 𝑝1 = 𝑝2
contra uma das hipóteses alternativas,
𝐻1 : 𝑝1 ≠ 𝑝2 ou 𝐻1 : 𝑝1 < 𝑝2 ou 𝐻1 : 𝑝1 > 𝑝2
ou seja, queremos testar 𝑝1 = 𝑝2 contra uma das alternativas 𝑝1 ≠ 𝑝2, 𝑝1 < 𝑝2 ou 𝑝1 > 𝑝2 . Isso
equivale a testar a hipótese 𝑝1 − 𝑝2 = 0 contra umas das alternativas 𝑝1 − 𝑝2 ≠ 0, 𝑝1 − 𝑝2 <
0 ou 𝑝1 − 𝑝2 > 0 Esta decisão será baseada na estatística obtida pela variável aleatória 𝑓1 −
𝑓2 . (aqui 𝑓 é o estimador para a proporção 𝑝). Ao construir o intervalo de confiança para 𝑝1 e
𝑝2 nota-se que, para (𝑛) e (𝑚) grandes suficientemente, o estimador pontual (𝑓1 − 𝑓2 ) tem
distribuição aproximadamente normal com média
𝜇𝑓1−𝑓2 = 𝑝1 − 𝑝2 (7.20)
e variância

𝑝1 ⋅ 𝑞1 𝑝2 ⋅ 𝑞2
𝜎𝑓21 −𝑓2 = + (7.21)
𝑛 𝑚
Dessa forma, nossas regiões críticas podem ser estabelecidas usando a variável normal
padrão considerando a mudança de variável expressa em (4.24). Dessa forma temos a variável
𝑍 como abaixo
(𝑓1 − 𝑓2 ) − (𝑝1 − 𝑝2 )
𝑍=
𝑝1 ⋅𝑞1 𝑝2 ⋅𝑞2 (7.22)
√ +
𝑛 𝑚
Considerando 𝐻0 verdadeira, podemos considerar 𝑝1 = 𝑝2 = 𝑝 e também 𝑞1 = 𝑞2 = 𝑞. Com

issoa variável aleatória 𝑍, dada em(7.22), passa a ser
𝑓1 − 𝑓2
𝑍=
1 1 (7.23)
√𝑝 ⋅ 𝑞 ⋅ ( + )
𝑛 𝑚
Contudo, precisamos estimar os parâmetros 𝑝 unindo os dados de ambas as amostras. Para isso,
vamos fazer uma estimação combinada para a proporção 𝑝 como em
𝑥𝑛 + 𝑥𝑚
𝑝̂ = (7.24)
𝑛+𝑚
onde 𝑥𝑛 indica a quantidade de elementos da amostra de 𝑃1 , e 𝑥𝑚 a quantidade de elementos da

𝑥𝑛 𝑥𝑚
amostra de 𝑃2 . Tomando 𝑓1 = e 𝑓2 = como estimadores para 𝑝1 e 𝑝2 respectivamente e
𝑛 𝑚
considerando (7.24) podemos substituir 𝑝 por 𝑝̂ e em (7.23) obtendo
𝑓1 − 𝑓2
𝑍𝑐𝑎𝑙 =
1 1 (7.25)
√𝑝̂ ⋅ (1 − 𝑝̂ ) ⋅ ( + )
𝑛 𝑚
Quando não for solicitado o nível de significância do teste, usa-se 𝛼 = 5%. Claro que
novamente consideraremos as regiões descritas na Tabela 7.2.
Exemplo 7.10 Uma pesquisa realizada com 200 pessoas adultas na cidade de Uruaçu tem por
objetivo verificar a proporção de homens e mulheres que leem jornais e se lembram de
determinada notícia. Os resultados da pesquisa apontam que 70 homens que leem jornal se
lembram de determinada notícia e 50 mulheres que leem jornal se lembram de determinada

notícia. Diante desses resultados, pode-se afirmar que essas proporções são iguais, se
considerarmos um nível de significância de 10%?
Solução: Vejamos, nossa tese é.
𝐻0 : 𝑝𝐻 = 𝑝𝑀
com hipótese alternativa sendo
𝐻1 : 𝑝𝐻 ≠ 𝑝𝑀
ou seja, um teste bilateral. Pela afirmação do problema temos 𝑛 = 𝑚 = 200, 𝑥𝑛 = 70, 𝑥𝑚 =
70 50
50, 𝑓1 = 200 = 0,35 e 𝑓2 = 200 = 0,25. Fixado 𝛼 = 10% da Tabela I temos 𝑍𝛼⁄2 = 𝑍5% =
1,645. Com isso a região crítica será 𝑅𝐶 = {𝑍 ∈ ℝ|𝑍 < −1,645 ou 1,645 < 𝑍}. Usando
(7.24) obtemos 𝑝̂ = 0,3. Agora é só usar a fórmula(7.25) para obter valor de 𝑍𝑐𝑎𝑙
𝑓1 − 𝑓2 0,35 − 0,25
𝑍𝑐𝑎𝑙 = ⟶⇢ 𝑍 = ⟶⇢ 𝑍 = 2,1821
1 1 1 1
√𝑝̂ (1 − 𝑝̂ ) ( + ) √0,3 ∙ 0,7 ∙ ( + 200)
𝑛 𝑚 200
Como 𝑍 pertence à região crítica, 𝑍 ∈ 𝑅𝐶, nossa conclusão será rejeitar 𝐻0 , e, com risco de
10% concluir que as proporções são diferentes.
1. Para decidirmos se os habitantes de uma ilha são descendentes da civilização A ou B,

iremos proceder do seguinte modo:
(I) Selecionamos uma amostra de 100 moradores da ilha, e determinamos a altura média
deles
(II) Se essa altura média for superior a 176, diremos que são descendentes de B; caso
contrário, são descendentes de A.
Os parâmetros das alturas das duas civilizações são:
A: 𝜇 = 175 e 𝜎 = 10
B: 𝜇 = 177 e 𝜎 = 10
Definimos: Erro tipo I – dizer que os habitantes da ilha são descendentes de B quando, na
verdade, são de A
Erro tipo II – dizer que os habitantes da ilha são descendentes de A quando, na
verdade, são de B
a) Qual a probabilidade do erro tipo I? E do erro tipo II?
b) Qual deve ser a regra de decisão se quisermos fixar a probabilidade do erro tipo I em
5%? Qual a probabilidade do erro tipo II, nesse caso?

c) Se 𝜎𝐴 = 5, como ficariam as respostas de (b)?

d) Quais as probabilidades do erro tipo II, nas condições da questão (b), se a média 𝜇𝐵 =
180?
2. Fazendo o teste
𝐻0 : 𝜇 = 1.150 (𝜎 = 150) contra 𝐻1 : 𝜋 = 1.200 (𝜎 = 200),
e 𝑛 = 100 estabeleceu-se a seguinte região crítica:
𝑅𝐶 = [1.179, +∞)
a) Qual a probabilidade 𝛼 de rejeitar 𝐻0 quando verdadeira?R. 9,18%
b) Qual a probabilidade 𝛽 de aceitar 𝐻0 quando𝐻1 for verdadeira? R. 6,68%
c) Qual deve ser a RC para que 𝛼 = 𝛽? R. 𝑅𝐶 = {𝑥̅ ∈ ℝ⁄1.171,43 ≤ 𝑥̅ }
3. A variável 𝑋, custo de manutenção de um tear, pode ser considerada como tendo
distribuição normal de média 𝜇 e desvio padrão 20 unidades. Os valores possíveis de 𝜇
podem ser 200 ou 210. Para verificar qual dos dois valores é o mais provável, usar-se-á
uma amostra de 25 teares. Defina;
a) Uma hipótese a ser testada. R. 𝐻0 : = 𝜇 = 200, 𝐻1 : = 𝜇 = 210
b) Um regra de decisão e encontre as probabilidade dos erros tipo I e II. R. 𝑅𝐶 =
{𝑥̅ ∈ ℝ⁄205 ≤ 𝑥̅ }, 𝛼 = 𝛽 = 0,106
4. A associação dos proprietários de indústrias metalúrgicas está muito preocupada com o
tempo perdido com acidentes de trabalho, cuja média, nos últimos tempos, tem sido da
ordem de 70 horas/homem por ano e desvio padrão de 20 horas/homem. Tentou-se um
programa de prevenção de acidentes, após o qual foi tomada uma amostra de nove
indústrias e medido o número de horas/homens perdidas por acidente, que foi de 50 horas.
Você diria, no nível de 5%, que há evidências de melhoria? R. 𝐻0 : 𝜇 = 60, 𝐻1 : 𝜇 < 60; 𝑅𝐶 =
{𝑥̅ ∈ ℝ⁄𝑥̅ < 49,03}; não rejeitaria 𝐻0 : não há evidências de melhorias.
5. Uma companhia de cigarros anuncia que o índice de nicotina dos cigarros que fabrica
apresenta-se abaixo de 23 mg por cigarro. Um laboratório realiza 6 análises desse índice,
obtendo: 27, 24, 21, 25, 26, 22. Sabe-se que o índice de nicotina se distribui normalmente,
com variância igual a 4,86 mg2. Pode-se aceitar, no nível de 10%, a afirmação do
fabricante? ? R. 𝐻0 : 𝜇 ≥ 23, 𝐻1 : 𝜇 < 23; 𝑅𝐶 = (−∞, −1,28];𝑍𝑜𝑏𝑠 = 1,3; não rejeitamos 𝐻0
6. Os registros dos últimos anos de um colégio atestam, para os calouros admitidos, uma nota
média 115 (teste vocacional). Para testar a hipótese de que a média de uma nova turma seja
a mesma, tirou-se, ao acaso, uma amostra de 20 notas, obtendo-se média 118 e desvio
padrão 20. Admitindo uma significância de 5%, teste esse hipótese. R. 𝐻0 : 𝜇 = 115 e 𝐻1 : 𝜇 ≠
115. 𝑅𝐶 = [−2,0930, 2,0930]. Não se pode rejeitar a hipótese com esse nível de significância .

7. As estaturas de 20 recém-nascidos foram tomadas no Hospital da cidade de Uruaçu-GO,

cujos resultados são:
41 50 52 49 49 54 50 47 52 49 50 52 50 47 49 51 46 50 49 50
a) Suponha inicialmente que a população das estaturas é normalmente distribuída com
variância 2 cm2; teste a hipótese de que a média desta normal é 50 cm, considerando
uma significância de 5%. R. Como 𝑍𝑜𝑏𝑠 = −2,06, rejeita-se 𝐻0 , concluindo-se, com risco de 5%,
que a média não é 50 cm
b) Faça o mesmo teste para a média, mas agora, desconhecendo a variância. R. Como 𝑇𝑜𝑏𝑠 =
−1,068, não se pode rejeitar a hipótese de que a média é 50 cm, com risco de 5%.
8. 15 animais foram alimentados com uma certa dieta durante 3 semanas e verificou-se os
seguintes aumentos de pesos
25 30 32 24 40 34 37 33 34 28 30 32 38 29 31
Teste a hipótese de que a média do ganho de peso é 30, sendo 𝛼 = 0,10. R. Como 𝑇𝑜𝑏𝑠 =
1,56, não se pode rejeitar a hipótese de que a média é 30, com risco de 10.
15. Uma pessoa gaba-se de adivinhar qual será o resultado do lance de uma moeda, mas é
preciso que os parentes não o perturbem com pensamentos duvidosos. Para testar tal
capacidade, lançou-se uma moeda perfeita 6 vezes, e o adivinhador acertou 5. Qual seria
sua conclusão? R. 𝛼̂ = 0,11; logo, não rejeitamos 𝐻0 : 𝑝 = 0,5
16. Os produtores de um programa de televisão pretendem modificá-lo se for assistido
regularmente por menos de um quarto dos possuidores de televisão. Uma pesquisa
encomendada a uma empresa especializada mostrou que, de 400 famílias entrevistadas, 80
assistem ao programa regularmente. Com base nos dados, qual deve ser a decisão dos
produtores? R. Como 𝛼 = 0,010, rejeitamos 𝐻0 : = 𝑝 = 1/4 e o programa deve ser modificado.
17. Uma amostra de 500 eleitores selecionados ao acaso dá 52% ao Partido Democrático.
Poderia esta amostra ter sido retirada de uma população que tivesse 50% de eleitores
democratas? Admita uma significância de 5%. R. 𝑍𝑜𝑏𝑠 = 0,89. Não se pode rejeitar a hipótese de
que a proporção de eleitores democratas é 50% ao nível de 5% de significância
18. Considere que numa pesquisa entre pessoas que fumam, foram obtidos os dados da tabela
abaixo
Cigarros sem Cigarros com
Não fumam Total
filtro filtro
Homens 12 64 14 90
Mulheres 8 26 16 50
Total 20 90 30 140

Baseados nos dados da tabela,

a) Testar a hipótese de que a proporção de fumantes é 80% sendo 𝛼 = 0,04. R. 𝑍𝑜𝑏𝑠 = 0,33. Ao
nível de 4% de significância, não se pode rejeitar a hipótese de que a proporção de fumantes seja de80%
b) Testar a hipótese de que a proporção dos que fumam cigarros com filtro é 70%, use 𝛼 =
0,02. R. Como 𝑍𝑜𝑏𝑠 = 2,75 rejeita-se𝐻0 , concluindo-se, com risco de 2% , que a proporção dos que fumam
cigarros com filtro é diferente de70%
c) Testar a hipótese de que a proporção de fumantes femininas é 40% considerando uma
significância de 1%. R. Como 𝑍𝑜𝑏𝑠 = 4,05 rejeita-se𝐻0 , concluindo-se, com risco de 1%, que a
proporção dos que fumantes femininas é diferente de40%
19. A experiência tem demonstrado que 40% dos estudantes são reprovados na disciplina de
Probabilidade e Estatística. Se numa turma de 90 estudantes, 40 fossem reprovados,
poderíamos concluir que esses estudantes são inferiores em Probabilidade e Estatística,
num nível de 5%? R. Como 𝑍𝑜𝑏𝑠 = 0,85não se pode rejeitar a hipótese de que a proporção de reprovados
seja de 40%, ao nível de significância de 5%.
20. Um fabricante garante que 90% dos equipamentos que fornece a uma fábrica estão de
acordo com as especificações exigidas. O exame de uma amostra de 200 peças desse
equipamento revelou 25 defeituosas. Teste a afirmativa do fabricante, nos níveis de 5% e
1%.
21. O consumidor de um certo produto acusou o fabricante, dizendo que mais de 20% das
unidades fabricadas apresentam defeito. Para confirmar sua acusação, ele usou uma
amostra de tamanho 50, onde 27% das peças eram defeituosas. Mostre como a fabricante
poderia refutar a acusação. Utilize um nível de significância de 10%.
22. Um empreiteiro afirma que bombas de aquecimentos estão instaladas em 70% das casas
em construção numa determinada cidade de Goiás. Você concordaria com essa afirmação
se uma pesquisa aleatória em novas casas nessa cidade mostra que oito de cada 15 casas
têm bombas de aquecimento instaladas? Use o nível de significância 0,10. R. Não há razões
fortes o suficientes para rejeitar a hipótese 𝐻0
23. Acredita-se que uma droga comumente prescrita para aliviar a tensão tem apenas 60% de
eficácia. Resultados experimentais com uma nova droga administrada em cem adultos que
sofrem de tensão nervosa mostram que 70 deles sentiram alívio. Isso é evidência suficiente
para concluirmos que a mova droga é superior à droga comumente prescrita? Use 𝛼 = 5%.
R. Como 𝑍𝑜𝑏𝑠 = 2,04, rejeite 𝐻0 , e conclua, com risco de 5%, que a há indícios de que a nova droga seja
superior à comumente prescrita.
24. Num estudo comparativo do tempo médio de adaptação, uma amostra aleatória, de 50
homens e 50 mulheres de um grande complexo industrial, produziu os seguintes resultados;

Estatísticas Homens Mulheres

Médias 3,2 anos 3,7 anos
Desvios Padrões 0,8 anos 0,9 anos
Que conclusões você poderia tirar para a população de homens e mulheres dessa indústria,
quando ao tempo de adaptação? (indique as suposições feitas para resolver o problema). R.
Faça 𝐻0 : 𝜇ℎ = 𝜇𝑚 . A 𝑅𝐶 = (−∞; −1,984) ∪ (1,984 ; +∞), e o valor observado 𝑡0 = −2,936.
Temos𝑡0 pertencente à região crítica, logo, rejeita-se 𝐻0 .
25. Diversas políticas em relação às filiais de uma rede de supermercados estão associadas ao
gasto médio dos clientes em cada compra. Deseja-se comparar esse parâmetro para duas
novas filiais, por meio de duas amostras de 50 clientes cada. As médias obtidas foram 62
e 71, respectivamente. Sabe-se que o desvio padrão, em ambos os caso, dever ser da ordem
de 20 unidades. É possível afirmar que o gasto médio nas duas filiais seja o mesmo? Caso
contrário, dê um intervalo de cobrança para a diferença. R. Faça 𝐻0 : 𝜇1 = 𝜇2 . 𝑅𝐶 =
(−∞; −1,984) ∪ (1,984 ; +∞), e o valor observado 𝑡0 = −2,250. Temos 𝑡0 pertencente à região crítica,
logo, rejeita-se 𝐻0 . Como não foi dado o valor de 𝛼, considerando 𝛼 = 5%. Temos 𝐼𝐶 =
{𝑥 ∈ ℝ⁄−16,938 ≤ 𝑥 ≤ −1,062}
26. Uma fábrica de embalagens para produtos químicos está estudando dois processos para
combater a corrosão de suas latas especiais. Para verificar o efeito dos tratamentos, foram
usadas amostras cujos resultados estão no quadro abaixo (em porcentagem de corrosão
eliminada). Qual seria a conclusão sobre os dois tratamentos, considerando uma análise
sobre a eliminação média de corrosão? R. Faça 𝐻0 : 𝜇1 = 𝜇2 . A 𝑅𝐶 = (−∞; −2,060) ∪
(2,060; +∞) e o valor observado 𝑡0 = −0,830. Temos 𝑡0 não pertencente à região crítica, logo, não
rejeitamos 𝐻0 .
27. De 400 moradores sorteados de uma grande cidade industrial, 300 são favoráveis a um
projeto governamental, e de uma amostra de 160 moradores de uma cidade cuja principal
atividade é o turismo, 120 são contra. Você diria que a diferença de opiniões das duas
cidades é estatisticamente significante? Use 𝛼 = 5%R. Faça 𝐻0 : 𝑝1 = 𝑝2 . A 𝑅𝐶 =
(−∞; −1,96) ∪ (1,96; +∞) e o valor observado 𝑍0 = 12,344. Temos 𝑍0 pertence à região crítica,
rejeitamos 𝐻0 .
28. Uma empresa de pesquisa de opinião seleciona, aleatoriamente, 300 eleitores de Uruaçu e
400 de Porangatu, e pergunta a cada um se votará ou não no candidato ELE nas próximas
eleições. 75 eleitores de Uruaçu e 120 de Porangatu responderam afirmativamente. Há
diferença significativa entre as proporções de eleitores a favor de ELE nessas cidades? Use
𝛼 = 5%. R. Faça 𝐻0 : 𝑝1 = 𝑝2 . A 𝑅𝐶 = (−∞; −1,96) ∪ (1,96; +∞) e o valor observado 𝑍0 = −1,67.
Temos 𝑍0 não pertence à região crítica, não rejeitamos 𝐻0 .

29. Uma pesquisa mercadológica sobre fidedignidade a um produto foi realizada em dois anos
consecutivos, com duas amostras independentes de 400 donas de casa em cada uma delas.
A preferência pela marca em questão foi de 33% e 29%, respectivamente. Os resultados
trazem alguma evidência de mudança na preferência? Use 𝛼 = 5%. R. Faça 𝐻0 : 𝑝1 = 𝑝2 . A
𝑅𝐶 = (−∞; −1,96) ∪ (1,96; +∞) e o valor observado 𝑍0 = 1,223. Temos 𝑍0 não pertence à região crítica,
logo, não rejeitamos 𝐻0 .
30. Na região sul da cidade, 60 entre 400 pessoas preferem a bebida BLUE entre as demais
similares. Na região norte, a proporção é de 40 entre 225 entrevistados. Baseando no
resultado dessa amostra, você diria que a proporção de todos os moradores nas duas regiões
é a mesma? Use 𝛼 = 5%. R. Não há evidências de que as proporções nas duas regiões são diferentes.
Bussab cap. 12 ex. 30
31. Numa pesquisa sobre possuidores de TVs, encontram-se 120 das 200 casas pesquisadas
numa comunidade indígena no noroeste do estado do Pará, e 240 das 500 residências de
outra comunidade indígena ao sudoeste do mesmo estado. Discuta se há diferença entre a
proporção de possuidores de TV nas duas comunidades. Considere um nível de
significância de 10%. R. O valor 𝑍𝑜𝑏𝑠 = −2,86, logo rejeita-se 𝐻0 , concluindo-se com um risco de 10%
que as proporções são diferentes.
32. As amostras (𝑋1 , 𝑋2 , ⋯ , 𝑋10 ) e (𝑌1 , 𝑌2 , ⋯ , 𝑌10 ) de duas populações normais com média 𝜇1
e 𝜇2 e mesma variância 𝜎 2 forneceram as estatísticas
𝑋̅ = 80, 𝑆12 = 16 e𝑌̅ = 83 , 𝑆22 = 18
Teste, no nível de significância de 5%, a hipótese 𝐻0 : 𝜇1 = 𝜇2 contra a alternativa 𝐻1 : 𝜇1 <
𝜇2 . R. Para 𝛼 = 0,05 temos 𝑅𝐶 = (−∞; −1,7040). O valor observado 𝑡0 = −1,627. Como 𝑡0 não pertence
à região crítica, não há evidências para rejeitar 𝐻0
7.3. Probabilidade de Significância (𝒑 − 𝒗𝒂𝒍𝒐𝒓)
O método de construção de um teste de hipóteses, descrito até aqui, parte da fixação do

nível de significância 𝛼. Pode-se argumentar que esse procedimento pode levar à rejeição da
hipótese nula para um valor de 𝛼 e à não rejeição para um valor menor. Outra maneira de
proceder consiste em apresentar a probabilidade de significância ou nível descritivo ou 𝒑 −
𝒗𝒂𝒍𝒐𝒓 do teste. Os passos são muito parecidos aos já apresentados. A principal diferença está
em não construir a região crítica. O que se faz é indicar a probabilidade de ocorrer valores da
estatística mais extremos do que o observado, sob a hipótese de 𝐻0 ser verdadeira.Dessa forma,
sendo 𝜃 o parâmetro que desejamos estimar, e, 𝜃̂ o estimador de 𝜃. Se ocorrer na amostra 𝜃̂ =

𝜃̂0 , e, sendo 𝐻0 : 𝜃 = 𝜃1 , então, definimos o 𝑝 − 𝑣𝑎𝑙𝑜𝑟, indicado apenas por 𝑝 da seguinte

forma:
𝑝 = 𝑃(|𝜃̂| < 𝜃̂0 𝑞𝑢𝑎𝑛𝑑𝑜 𝜃 = 𝜃1 ) (7.26)
Neste sentido, quando considerarmos probabilidades de significância bilaterais,

tomaremos o 𝑝 − 𝑣𝑎𝑙𝑜𝑟 bilateral como sendo igual a duas vezes o 𝑝 − 𝑣𝑎𝑙𝑜𝑟 unilateral. Esta
prática é razoável quando a distribuição da estatística do teste, sob 𝐻0 for simétrica. Devemos
interpretar o 𝑝 − 𝑣𝑎𝑙𝑜𝑟 como: observados os dados, quão verossímil é a hipótese nula? É fato
que rejeitamos 𝐻0 se 𝑝 − 𝑣𝑎𝑙𝑜𝑟 < 𝛼, sendo 𝛼 o nível de significância do teste, ou seja, quanto
menor for o 𝑝 − 𝑣𝑎𝑙𝑜𝑟, mais "distante" estamos da hipótese nula 𝐻0 .Para exemplificar, vamos
discutir alguns exemplos:
Exemplo 7.11 Voltemos no Exemplo 7.6, onde 𝑯𝟎 : 𝒑𝟎 = 𝟎, 𝟔𝟎 admitindo esse hipótese

𝟎,𝟐𝟒 𝟏𝟎𝟒
verdadeira temos 𝒇 ~ 𝑵 (𝟎, 𝟔𝟎; 𝟐𝟎𝟎 ). Da amostra colhida obtivemos 𝒇𝟎 = 𝟐𝟎𝟎 = 𝟎, 𝟓𝟐.
Portanto, podemos calcular a probabilidade de ocorrerem valores de 𝒇 mais desfavoráveis para

𝑯𝟎 do que esse. É evidente que quanto menor for 𝒇, maior será a evidência contra 𝑯𝟎 : 𝒑𝟎 =
𝟎, 𝟔𝟎. Assim, calculando o 𝒑 − 𝒗𝒂𝒍𝒐𝒓 temos
𝑝 = 𝑃(𝑓 < 0,52 𝑞𝑢𝑎𝑛𝑑𝑜 𝑝0 = 0,60}
0,52 − 0,60
= 𝑃 𝑍< (aqui usamos (𝟕. 𝟏𝟎))
0,24
√
( 200 )
= 𝑃(𝑍 < −2,30)(analisando a Tabela I)
= 0,0107
Esse resultado mostra que, se a audiência do programa fosse de 60% realmente, a
probabilidade de encontramos uma amostra de 200 famílias com 52% ou menos de audiência é
de 1%. Isso sugere que, ou estamos diante de uma amostra rara de ocorrer, 1 em 100, ou então
a hipótese formulada não é aceitável. Nesse caso, somos levados considerar que a hipótese nula
𝐻0 deve ser rejeitada.
■
Exemplo 7.12 Uma companhia de serviços de ônibus intermunicipais planejou uma nova rota
para servir vários locais situados entre duas cidades importantes. Um estudo preliminar afirma
que a duração das viagens pode ser considerada uma v.a. normal, com média igual a 300

minutos e desvio padrão 30 minutos. As dez primeiras viagens realizadas nessa nova rota
apresentaram média igual a 314 minutos. Esse resultado comprova ou não o tempo médio
determinado nos estudos preliminares?
Solução: Indicando por 𝑋 a duração média de cada viagem e por 𝜇 = 𝐸[𝑋], queremos testar as
hipótese
𝐻0 : 𝜇 = 300
𝐻1 : 𝜇 ≠ 300
𝜎 2
As amostras de dez viagens terão média 𝑋̅ ~ 𝑁 (𝜇, 𝑛 ). Note que 𝑛 = 10, e, sob a hipótese de
900
que 𝐻0 é verdadeira, e pelo fato de 𝜎 2 ser conhecido (𝜎 = 30) teremos 𝑋̅ ~ 𝑁 (300, 10 ).
Com o valor observado 𝑥̅0 = 314, podemos encontrar a probabilidade de ocorrerem amostras
com valores de 𝑋̅ mais extremos do que esse: Denotando o 𝑝 − 𝑣𝑎𝑙𝑜𝑟 à esquerda por 𝑝𝑒
teremos,
314 − 300
𝑝𝑒 = 𝑃(314 < 𝑋̅ 𝑞𝑢𝑎𝑛𝑑𝑜 𝜇 = 300) = 𝑃 ( < 𝑍) = 𝑃(1,48 < 𝑍) = 0,07
9,49
Como a distribuição é normal e simétrica, teremos 𝑝 = 2 ∙ 𝑝𝑒 ou 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0,14. Como esse
valor não é muito pequeno, parece não haver muitas evidências para rejeitar 𝐻0 . Assim os
estudos preliminares parecem estar corretos. (sugiro o leitor resolver este problema usando o
teste de hipótese visto acima, e comparar os resultados.)
■
Ao procedimento acima, de dobrar a probabilidade, é preferível anunciar o valor do 𝑝 −
𝑣𝑎𝑙𝑜𝑟 unilateral e a direção segundo a qual a observação afasta-se de 𝐻0 . No exemplo acima,
o resultado indica que a chance de ocorrerem amostras com médias iguais ou superiores a 314
é de 7%, que é um valor ainda pequeno. De forma mais geral, quanto menor for o valor de 𝑝 −
𝑣𝑎𝑙𝑜𝑟, maior serão as evidências de que a hipótese 𝐻0 deve ser rejeitada. A Tabela 7.3 abaixo
ilustra a escala usada por Fisher, contra 𝐻0 (ou a favor de 𝐻1 )
Tabela 7.3 Escala de significância de Fisher

𝑝 − 𝑣𝑎𝑙𝑜𝑟 0,10 0,05 0,025 0,01 0,005 0,001
Natureza da muito
marginal moderada substancial forte fortíssima
evidência contra 𝐻0 forte

1. Suponha que queiramos testar 𝐻0 : 𝜇 = 50 contra 𝐻1 : 𝜇 > 50, onde 𝜇 é a média de uma
normal 𝑁(𝜇, 900). Extraída uma amostra de 𝑛 = 36 elementos da população, obtemos 𝑥̅ =
52. Calcule a probabilidade de significância (𝑝 − 𝑣𝑎𝑙𝑜𝑟) do teste. R. 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0,345
2. Os novos operários de uma empresa são treinados a operarem uma máquina, cujo tempo 𝑋
(em horas) de aprendizado é anotado. Observou-se que 𝑋 segue de perto a distribuição
𝑁(25, 100). Uma nova técnica de ensino, que deve melhorar o tempo de aprendizado, foi
testada em 16 novos empregados, os quais apresentaram 20,5 horas como tempo médio de
aprendizado. Usando o 𝑝 − 𝑣𝑎𝑙𝑜𝑟, você diria que a nova técnica é melhor que a anterior?
R. 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 𝑃(𝑋̅ < 20,5) = 𝑃(𝑍 = −1,8) = 0,036. Rejeitamos 𝐻0 para qualquer nível de significância
maior que 𝑝 − 𝑣𝑎𝑙𝑜𝑟.
3. Sendo 𝑋 o número esperado de sucessos em 𝑛 = 10 provas de Bernoulli, queremos testar
𝐻0 : 𝑝 = 0,6.
a) Se o teste for unilateral e rejeitamos 𝐻0 para valores pequenos de 𝑋, determine 𝑝 −
𝑣𝑎𝑙𝑜𝑟 se o valor observado de 𝑋 for 3. R. 𝑋 ~ 𝑏(10; 𝑝) e 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 𝑃((𝑋 ≤
3|𝑋~ 𝑏(10; 0,6)) = 0,055
b) Determine 𝑝 − 𝑣𝑎𝑙𝑜𝑟 se o teste for bilateral, na situação de (a), isto é, 𝑋 = 3. R. 𝑝 −

𝑣𝑎𝑙𝑜𝑟 = 2 ∙ 𝑃((𝑋 ≤ 3|𝑋~ 𝑏(10; 0,6)) = 0,110
4. Considere a situação do problema anterior e suponha que o valor observado seja 𝑋 = 6. O

que acontece no caso (b) do problema anterior? O resultado𝑋 = 6 suporta ou não 𝐻0 ? R.
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 ∙ 𝑃((𝑋 ≤ 6|𝑋~ 𝑏(10; 0,6)) = 1,266
5. Qual a diferença entre 𝛼 = nível de singnificância e 𝛼̂ = 𝑝 − 𝑣𝑎𝑙𝑜𝑟? Qual é a

semelhança? R. O nível de significância (𝛼) é um valor atribuído pelo pesquisador, normalmente 5%. Já
o 𝛼̂ = 𝑝 − 𝑣𝑎𝑙𝑜𝑟 é o valor observado no experimento, sendo ele uma métrica, ou seja, uma forma
padronizada de medir a diferença entre o valor observado e 𝐻0 . A semelhança que ambos têm é que tratam
da mesma área da curva de distribuição de probabilidade, qual seja, o ponto crítico, a áreas mais externas.
6. Um pesquisador obtêm um valor de 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0,003 e diz: “Meu resultado foi muito
importante, pois 𝑝 − 𝑣𝑎𝑙𝑜𝑟 < 0,01. Explique por que essa afirmação está errada. R. Está
errado, pois, o resultado somente será importante, ou seja, estatisticamente significante se o 𝑝 − 𝑣𝑎𝑙𝑜𝑟
ultrapassar 𝛼, dito de outra forma, quando 𝑝 − 𝑣𝑎𝑙𝑜𝑟 < 𝛼.
7. Um pesquisador desenvolveu uma teoria que os extrovertidos superam os introvertidos em
um teste específico. Ao comparar um grupo de introvertidos com um grupo de pessoas
extrovertidas, o pesquisador obtém 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0,15. Que conclusão pode ser tirada a
partir deste resultado?. R Como 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0,15, e, este valor é menor que o máximo𝛼 = 0,05

usualmente usado, pode-se dizer que a teoria do pesquisador não foi confirmada. Assim, o teste não consegue
discriminar qual é o melhor grupo. Como 𝐻0 não é rejeitada, é possível que o pesquisador não usou 𝑛
suficientemente grande (poder de adequado) e por isso não conseguiu discriminar os grupos.
8. Um pesquisador obtém 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0,002 para um experimento. Outro pesquisador, na
tentativa de repelir o trabalho, obtém-se 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0,2. Dê uma explicação para esta
discrepância, levando em consideração apenas os conceitos fundamentais de teste de
hipóteses. Quais são as informações necessárias para melhor identificar a origem do
problema? R. Verificar quais foram as hipótese nula (𝐻0 ) e a alternativa (𝐻1 ); verificar qual foi o nível de
significância fixado para o teste; verificar qual foi i tipo de teste utilizado; verificar qual foi a região crítica
determinada no teste; verificar qual foi o 𝑛 utilizado em ambos os testes.
7.4. Análise da Variância
Nas seções anteriores foi apresentado testes para verificar a igualdade entre duas médias,
duas variância dentre outras técnicas para testar uma hipótese prévia. Nesta seção discutiremos
um método estatístico, desenvolvido por Fischer, que através de testes de igualdades das
médias, verifica se determinado(s) fator(es) produz(em) mudanças sistemáticas no
comportamento da variável em estudo (de interesse). Os fatores propostos podem ser variáveis
quantitativas ou qualitativas, enquanto a variável dependente deve ser quantitativa intervalar e
é observada dentro das classes dos fatores, aqui chamados tratamentos. Para entendimento,
suponha que o pesquisador queira analisar se o consumo de combustível dos veículos
automotores sofre alguma influência de fatores como marca, idade e potência. Por meio da
Análise da Variância (ANOVA) é possível verificar se os fatores marcas, idade e potência ou
uma combinação destes produzem efeitos apreciáveis sobre o consumo, ou se concluir que tais
fatores não têm influência sobre o consumo. Nestas notas é apresentado os fundamentos desse
método. Para estudos mais aprofundados sugiro ao leitos consultar livros que tratam
exclusivamente desse assunto.
Hipótese do Modelo
Consideraremos algumas suposições básicas necessárias para a aplicação do modelo

ANOVA. Tais suposições estão abaixo:
a. As amostras devem ser aleatórias e independentes.
b. As amostras devem ser extraídas de populações normais.
c. As populações devem ter variâncias iguais.

Caso estas hipótese não sejam satisfeitas, não se garante a confiabilidade das análises
feitas por este método.
Tabela ANOVA com um fator
Neste caso é considerado um único fator (visto como variável independente) que é
dividido em tratamentos ou níveis do fator. Basicamente divide a variabilidade em
variabilidade Entre Grupos e variabilidade Dentro de Grupos, e compara as duas. Dessa forma,
quanto maior for a primeira comparada à segunda, maior é a evidência de que existe
variabilidade entre grupos, ou seja, médias diferentes. A variável de estudo é definida através
de 𝑛 amostras de cada tratamento. A configuração para esse caso é apresentada na Tabela 7.4:
Tabela 7.4
Tratamentos ( níveis do fator ou grupos) (𝑖)
Grupo 1 Grupo 2 Grupo 3 ⋯ Grupo 𝑘

1 𝑥11 𝑥21 𝑥31 𝑥𝑘1
Observações 2 𝑥12 𝑥22 𝑥32 𝑥𝑘2
(Elementos das 3 𝑥13 𝑥23 𝑥33 ⋯ 𝑥𝑘3
Amostras) (𝑗) ⋮ ⋮ ⋮ ⋮
𝑛𝑖 𝑥1𝑛1 𝑥2𝑛2 𝑥2𝑛3 𝑥𝑘𝑛𝑘
Somas 𝑋1∙ 𝑋2∙ 𝑋3∙ ⋯ 𝑋𝑘∙ 𝑋∙∙
Médias 𝑥̅1∙ 𝑥̅ 2∙ 𝑥̅ 3∙ ⋯ 𝑥̅𝑘∙ 𝑥̅

Denotando 𝑥𝑖𝑗 com 𝑖 = 1, 2, 3, ⋯ , 𝑘 e 𝑗 = 1, 2, 3, ⋯ , 𝑛𝑖 então fica fácil ver que a média
dos valores em cada tratamento (grupo) é
𝑛𝑖
1
𝑥̅𝑖 = ∑ 𝑥𝑖𝑗 , 𝑐𝑜𝑚 𝑖 = 1, 2, 3, ⋯ , 𝑘 (7.27)
𝑛𝑖
𝑗=1
além disso, a média geral será dada por
𝑘 𝑛𝑖
1 𝑋⋅⋅
𝑥̅ = ∑ ∑ 𝑥𝑖𝑗 𝑜𝑢 𝑥̅ = (7.28)
𝑁 𝑁
𝑖=1 𝑗=1
em que 𝑁 = total de observações. Perceba que aqui existem 𝑘 níveis de tratamento (níveis do
fator ou grupos) e cada um possui uma variância amostral. Denotando por 𝜇1 , 𝜇2 , 𝜇3 , ⋯ , 𝜇𝑘 as

médias de cada um desses grupos, o pesquisador pode desejar testar a hipótese de que todos os
tratamentos tenham médias iguais, isto é, testar a hipótese nula 𝐻0 dada abaixo
𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = ⋯ = 𝜇𝑘
e que todas as 𝑘 populações dos tratamentos tenham a mesma variância 𝜎 2 . A hipótese

alternativa é de que pelo menos um par de médias seja diferente, ou seja,
𝐻1 : 𝜇𝑟 ≠ 𝜇𝑠 para 𝑟 ≠ 𝑠
A aceitação de 𝐻0 revelará que o fato considerado não acarreta mudanças significativas

na variável de estudo. Por outro lado, a rejeição de 𝐻0 indicará, com um risco 𝛼 , que o fator
considerado exerce influência sobre a variável estudada.Para tomar essa decisão, baseando-se
no método estatístico ANOVA cuja base da análise da variância está nas comparações que
podem ser feitas com os estimadores da variância comum 𝜎 2 de todos os tratamento (grupos),
necessitamos estabelecer alguns resultados importantes. Utilizando os elementos da Tabela 7.4,
estabelecemos três importantes medidas de variabilidade:
𝑘 𝑛𝑖 𝑘 𝑛𝑖
2 2 (𝑋∙∙ )2
𝑆𝑄𝑇 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅ ) = ∑ ∑(𝑥𝑖𝑗 ) − (Soma de Quadrados Total)
𝑁
𝑖=1 𝑗=1 𝑖=1 𝑗=1
𝑘 𝑘
(𝑋𝑖∙ )2 (𝑋∙∙ )2
𝑆𝑄𝐸 = ∑ 𝑛𝑖 (𝑥̅𝑖∙ − 𝑥̅ )2 = ∑ − (Soma de Quadrados Entre Grupos)
𝑛𝑖 𝑁
𝑖=1 𝑖=1
𝑘 𝑛𝑖
2
𝑆𝑄𝑅 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅𝑖∙ ) = 𝑆𝑄𝑇 − 𝑆𝑄𝐸 (Soma de Quadrados Residual)
𝑖=1 𝑗=1
Admitindo a hipótese nula 𝐻0 verdadeira, podemos fazer estimações justas da variância

comum 𝜎 2 . Considerando os resultados obtidos na Tabela 7.4 estimações são as seguintes:
𝑆𝑄𝑇
(1) 𝑆𝑡2 =
𝑁−1
𝑆𝑄𝐸
(2) 𝑆𝑒2 =
𝐾−1
2
𝑆𝑄𝑅
(3) 𝑆𝑟 =
𝑁−𝑘
Para o estimador 𝑆𝑡2 leva-se em consideração que os 𝑘 tratamentos representa uma única
amostra de tamanho 𝑁 e média geral 𝑥̅ . Se 𝐻0 for verdadeira 𝑆𝑡2 será um estimador justo de 𝜎 2 ,
isto é, 𝐸[𝑆𝑡2 ] = 𝜎 2 , por outro lado, se 𝐻0 não for verdadeira, 𝑆𝑡2 irá superestimar 𝜎 2 .Para o

estimador 𝑆𝑒2 leva-se em consideração as médias dos 𝑘 tratamentos e a média geral 𝑥̅ . Então, se
𝐻0 for verdadeira teremos para cada média
2 (𝑥̅
𝜎2
𝐸[𝑥̅𝑖 ] = 𝜇 e𝜎 𝑖) = (7.29)
𝑛𝑖
isto significa que
𝜎2
𝑥̅𝑗 ~𝑁 (𝜇; ) (7.30)
𝑛𝑖
então
𝑘
2
1
𝑆 = ∑(𝑥̅𝑖⋅ − 𝑥̅ )2 (7.31)
𝑘−1
𝑖=1
𝜎2
será um estimador justo (não viesado) para e 𝑆𝑒2 para 𝜎 2 , com 𝐸[𝑆𝑒2 ] = 𝜎 2 . por outro lado,
𝑛𝑖
se 𝐻0 não for verdadeira, 𝑆𝑒2 irá superestimar 𝜎 2 .Para o estimador 𝑆𝑟2 leva-se em consideração
cada um dos 𝑘 tratamentos. Com isso tem-se
𝑛𝑖
1 2
𝑆𝑖2 = ∑(𝑥𝑖𝑗 − 𝑥̅𝑖⋅ ) (7.32)
𝑛𝑖 − 1
𝑗=1
com 𝑖 = 1, 2, 3, ⋯ , 𝑘. O estimador da variância comum será dado pela média aritmética de 𝑆𝑖2
ponderadas pelos respectivos graus de liberdade 𝑣𝑖 = 𝑛𝑖 − 1, como em (7.33)
𝑣1 𝑆12 + 𝑣2 𝑆22 + ⋯ + 𝑣𝑘 𝑆𝑘2

𝑆𝑟2 = (7.33)
𝑣1 + 𝑣2 + ⋯ + 𝑣𝑘
Neste caso, tem-se 𝐸[𝑆𝑟2 ] = 𝜎 2 sendo 𝐻0 ser verdadeira ou não, isto é, 𝑆𝑟2 é um estimador
justo da variância comum independente de 𝐻0 ser ou não ser verdadeira. Fisher mostrou que os
resultados 𝑆𝑄𝑇, 𝑆𝑄𝐸 e 𝑆𝑄𝑅 acima são aproximados por uma distribuição 2 com 𝑁 − 1; 𝑘 −
1 e 𝑁 − 𝑘 graus de liberdade respectivamente, isto é,
2 2 2
𝜒𝑁−1 = 𝜒𝑘−1 + 𝜒𝑁−𝑘 (7.34)
Como 𝑁 − 1 = (𝑘 − 1) + (𝑁 − 𝑘) vemos que 2𝑘−1 e 2𝑁−𝑘 são variáveis aleatórias

independentes. Dessa maneira, o Teorema 5.7 nos diz que a razão

2
𝜒𝑘−1 𝑆𝑄𝐸
𝑘−1 𝑘−1 𝑆𝑒2
𝐹𝑐𝑎𝑙 = 2 = 𝑆𝑄𝑅 = 2 (7.35)
𝜒𝑁−𝑘 𝑆𝑟
𝑁−𝑘 𝑁−𝑘
terá distribuição 𝐹 Snedecor com 𝑘 − 1 graus de liberdade no numerador e 𝑁 − 𝑘 graus de

liberdade no denominador. Usaremos o quociente 𝐹 para testar a Hipótese nula 𝐻0 .Quanto mais
próximo de 1 for 𝐹cal mais 𝐻0 deverá ser aceita; ao contrário, quanto maior for o valor de 𝐹cal o
teste indicará a rejeição de 𝐻0 , e nesse caso conclui-se com risco 𝛼 que o fator considerado
exerce influência sobre a variável em estudo. Isso se dá por que aceitando a hipótese de
igualdade das variância, pode-se concluir que as médias são iguais, e consequentemente o
estimador 𝑆𝑒2 terá a mesma dimensão que o estimador 𝑆𝑟2 , ou seja, o quociente entre eles estará
próximo da unidade, contudo, se a hipótese a igualdade das médias não é verdadeira se terá 𝑆𝑒2
bem maior que 𝑆𝑟2 e com isso o quociente entre eles será bem maior que a unidade.Um resumo
desse técnica estatística de análise da variância é dado na tabela abaixo, conhecida como Tabela
ANOVA para um fator único com 𝑘 grupos.
ANOVA – fator único

Fonte da variação 𝑆𝑄 𝑔𝑙 𝑀𝑄 𝐹cal 𝐹𝛼 𝑐𝑟í𝑡𝑖𝑐𝑜
𝑆𝑄𝐸 Se2
Entre grupos 𝑆𝑄𝐸 𝑘−1 𝑆𝑒2 = 𝐹cal = 𝐹𝛼 (𝑘 − 1, 𝑁 − 𝑘)
𝑘−1 Sr2
𝑆𝑄𝑅
Dentro dos grupos 𝑆𝑄𝑅 𝑁−𝑘 𝑆𝑟2 =
𝑁−𝑘
Total 𝑆𝑄𝑇 𝑁− 1
Nesta tabela temos:

• 𝑆𝑄 = soma dos quadrados;
• 𝑔𝑙 = graus de liberdade;
• 𝑀𝑄 = Quadrados médios;
• 𝐹cal = valor da distribuição 𝐹 de Snedecor odtida para os dados tabelados e
• 𝐹𝛼 (𝑘 − 1, 𝑁 − 𝑘) = valor tabelado de distribuição 𝐹 com nível de significância α
O teste da análise da variância será unilateral à direita, com risco 𝛼 concentrado à

direita.Para testar a Hipótese 𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = ⋯ = 𝜇𝑘 contra 𝐻1 : 𝜇𝑝 ≠ 𝜇𝑞 para 𝑝 ≠ 𝑞,
compara-se o valor 𝐹cal com o valor 𝐹 tabelado com (𝑘 − 1) graus de liberdade no numerador
e (𝑁 − 𝑘) graus de liberdade no denominador, fixando certo nível 𝛼 de significância. Com isso,

i. Se 𝐹cal ≤ 𝐹tab , então aceita-se 𝐻0 e conclui-se com risco 𝛼 que o fator considerado
não causa efeito sobre a variável em estudo.
ii. Se 𝐹cal > 𝐹tab , então rejeita-se 𝐻0 admitindo-se a diferença ente as médias, e,
consequentemente a influência que o fator considerado exerce sobre a variável em
estudo.
Exemplo 7.13 O resultado das vendas efetuadas por 3 vendedores de uma indústria durante uma
semana é dado a seguir. Deseja-se saber, ao nível de significância de 5%, se há diferença entre
os desempenhos dos vendedores.
Vendedores
A B C
29 27 30
27 27 30
31 30 31
29 28 27
32 29
30
Solução: Vamos ampliar esta tabela de forma a obtermos os elementos necessários aos cálculos
de forma facilitada. Vejamos abaixo,
Vendedores
A B C Soma A2 B2 C2 Soma
29 27 30 841 729 900
27 27 30 729 729 900
31 30 31 961 900 961
29 28 27 841 784 729
32 29 1.024 841
30 900
Somas 178 112 147 437 5.296 3.142 4.331 12.769
Nesta tabela temos 𝑘 = 3; 𝑁 = 15. Agora calculemos os valores abaixo, considerando a tabela
acima
𝑘 𝑛𝑖
2 (𝑋∙∙ )2 (437)2
𝑆𝑄𝑇 = ∑ ∑(𝑥𝑖𝑗 ) − = 12.769 − = 37,73
𝑁 15
𝑖=1 𝑗=1
𝑘
(𝑋𝑖∙ )2 (𝑋∙∙ )2 (178)2 (112)2 (147)2 (437)2
𝑆𝑄𝐸 = ∑ − = + + − = 7,20
𝑛𝑖 𝑁 6 4 5 15
𝑖=1
𝑆𝑄𝑅 = 𝑆𝑄𝑇 – 𝑆𝑄𝐸 = 37,73 − 7,20 = 30,53

Logo, a tabela ANOVA fica

ANOVA – fator único
Fonte da variação 𝑆𝑄 𝑔𝑙 𝑀𝑄 𝐹cal 𝐹5%
Entre grupos 7,20 2 𝑆𝑒2 = 3,6 𝐹cal = 1,41 𝐹tab = 3,89
Residual
30,53 12 𝑆𝑟2 = 2,54
(Dentro dos grupos)
Total 37,73 14
Como 𝐹cal = 1,41 ≤ 𝐹tab = 3,89, então aceita-se 𝐻0 e conclui-se com risco 5%de que
não há diferença entre o desempenho dos vendedores.
■
Tabela ANOVA com dois fatores:
Sem repetição
Muitas vezes, ao estudarmos um processo, produto ou serviço, temos diversos fatores que
podem influenciar na característica de interesse. O termo fator é usado em um sentido geral
para denotar qualquer característica do experimento, como temperatura, tempo ou pressão, que
pode variar de uma tentativa para outra. Definimos os níveis de um fator para serem os valores
reais usados no experimento. Como antes, usaremos a técnica da ANOVA para avaliar o
impacto que estes fatores provocam na característica de interesse, ou seja, o interesse do
pesquisador é verificar que influências os fatores podem exercer na variável de estudos. Para
isto, considere um experimento com dois fatores, denominados 𝐴 e 𝐵, no qual o fator 𝐴 tem 𝑙
níveis e o fator 𝐵 tem 𝑘 níveis. Para cada um desses casos, é importante determinar não apenas
se cada um dos dois fatores influencia a resposta, mas também se há uma interação significativa
entre os dois fatores. A interação entre os fatores está associada à mudança de comportamento
de um fator nos diferentes níveis do outro fator, com relação à característica de interesse. Neste
caso, a variável dependente (a estudada) é observada em cada casela, combinação dos
tratamentos do fator B e dos blocos do fator A. Dessa forma teremos uma tabela com 𝑘 colunas
e 𝑙 linhas, ou seja, 𝑘 ∙ 𝑙 = 𝑁 observações.
Tabela 7.5

Fator B ( colunas (𝑖) )
1 2 3 ⋯ 𝑘 Soma Médias
1 𝑥11 𝑥21 𝑥31 ⋯ 𝑥𝑘1 𝐿∙1 𝑥̅∙1
(linhas) (𝑗) 2 𝑥12 𝑥22 𝑥32 ⋯ 𝑥𝑘2 𝐿∙2 𝑥̅∙2
Fator A
3 𝑥13 𝑥23 𝑥33 ⋯ 𝑥𝑘3 𝐿∙3 𝑥̅∙3

⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑙 𝑥1𝑙 𝑥2𝑙 𝑥2𝑙 ⋯ 𝑥𝑘𝑙 𝐿∙𝑙 𝑥̅ ∙𝑙
Somas 𝐶1∙ 𝐶2∙ 𝐶3∙ ⋯ 𝐶𝑘∙ 𝑋∙∙
Médias 𝑥̅1∙ 𝑥̅2∙ 𝑥̅3∙ ⋯ 𝑥̅𝑘∙ 𝑥̅
Aqui usaremos as notações 𝑥̅𝑖 ∙ para designar a média de uma coluna 𝑖 qualquer bem como
𝑥̅∙𝑗 e 𝑥̅ para as médias de uma linha qualquer 𝑗 e a média global. Assim, considerando que 𝑖 =
1, 2, 3, ⋯ , 𝑘 e 𝑗 = 1, 2, 3, ⋯ , 𝑙e que 𝑁 = total de elementos, então fica fácil ver que
𝑙 𝑘 𝑘 𝑙
1 1 1
𝑥̅𝑖⋅ = ∑ 𝑥𝑖𝑗 𝑥̅⋅𝑗 = ∑ 𝑥𝑖𝑗 𝑥̅ = ∑ ∑ 𝑥𝑖𝑗 (7.36)
𝑙 𝑘 𝑁
𝑗=1 𝑖=1 𝑖=1 𝑗=1
Como no caso da classificação única, admite-se que todas as amostras pertençam à

populações normais com a mesma variância. O que diferenciará nossa análise aqui é a
comparação das médias entre colunas (fator B). Neste caso a hipótese nula será indicada por
𝐻0𝑐 , isto é
𝐻0𝑐 : 𝜇𝑖 = 𝜇 contra 𝐻1𝑐 : 𝜇𝑖 ≠ 𝜇
para qualquer 𝑖 = 1, 2, 3, ⋯ , 𝑘.Analogamente, para as comparações entre as linhas (fator A)

teremos
𝐻0𝑙 : 𝜇𝑗 = 𝜇 contra 𝐻1𝑙 : 𝜇𝑗 ≠ 𝜇
para qualquer 𝑗 = 1, 2, 3, ⋯ , 𝑙.
Nossa decisão é, agora, baseada no método estatístico ANOVA com dois fatores sem
repetição. Usaremos, como antes, estimadores da variância comum 𝜎 2 só que aqui será feito
para as colunas, para as linhas e um misto entre elas. Considerando os seguintes resultados
baseados nos elementos da Tabela 7.5

𝑘 𝑙 𝑘 𝑙
2 2 (𝑋∙∙ )2
𝑆𝑄𝑇 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅ ) = ∑ ∑(𝑥𝑖𝑗 ) −
𝑁
𝑖=1 𝑗=1 𝑖=1 𝑗=1
𝑘 𝑘
(𝐶𝑖∙ )2 (𝑋∙∙ )2
𝑆𝑄𝐸𝑐 = 𝑙 ∑(𝑥̅𝑖∙ − 𝑥̅ )2 = ∑ −
𝑙 𝑁
𝑖=1 𝑖=1
𝑘 𝑘 2
2 (𝐿∙𝑗 ) (𝑋∙∙ )2
𝑆𝑄𝐸𝑙 = 𝑘 ∑(𝑥̅∙𝑗 − 𝑥̅ ) = ∑ −
𝑘 𝑁
𝑖=1 𝑗=1
𝑘 𝑙
2
𝑆𝑄𝑅 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅𝑖∙ − 𝑥̅∙𝑗 + 𝑥̅ ) = 𝑆𝑄𝑇 – 𝑆𝑄𝐸𝑐 − 𝑆𝑄𝐸𝑙
𝑖=1 𝑗=1
Novamente, supondo 𝐻0 verdadeira, podemos estimar a variância comum 𝜎 2

considerando os totais dos resultados obtidos na Tabela 7.5, bem como com os totais da colunas,
das linhas e dos resíduos.
𝑆𝑄𝑇
(1) 𝑆𝑡2 =
𝑁−1
𝑆𝑄𝐸𝑐
(2) 𝑆𝑐2 =
𝑘−1
2
𝑆𝑄𝐸𝑙
(3) 𝑆𝑙 =
𝑙−1
2
𝑆𝑄𝑅
(4) 𝑆𝑟 =
(𝑘 − 1)(𝑙 − 1)
O leitor deve se atentar ao fato de que:

• O resultado 𝑆𝑄𝑇 representa a variação total e, o quociente 𝑆𝑄𝑇⁄𝜎 2 tem distribuição
2 com 𝑁 − 1 graus de liberdade.
• O resultado 𝑆𝑄𝐸𝑐 representa a variação entre colunas e, o quociente 𝑆𝑄𝐸𝑐 ⁄𝜎 2 tem
distribuição 2 com 𝑘 − 1 graus de liberdade.
• O resultado 𝑆𝑄𝐸𝑙 representa a variação entre linhas e, o quociente 𝑆𝑄𝐸𝑙 ⁄𝜎 2 tem
distribuição 2 com 𝑙 − 1 graus de liberdade.
• O resultado 𝑆𝑄𝑅 representa a variação residual e, o quociente 𝑆𝑄𝐸𝑐 ⁄𝜎 2 tem
distribuição 2 com (𝑘 − 1)(𝑙 − 1) graus de liberdade.
Por outro lado, uma vez que 𝑆𝑄𝑇 = 𝑆𝑄𝐸𝑐 + 𝑆𝑄𝐸𝑙 + 𝑆𝑄𝑅temos
2 2 2 2
𝜎 2 𝜒𝑁−1 = 𝜎 2 𝜒𝑘−1 + 𝜎 2 𝜒𝑙−1 + 𝜎 2 𝜒(𝑘−1)(𝑙−1) (7.37)
ou simplesmente
2 2 2 2
𝜒𝑁−1 = 𝜒𝑘−1 + 𝜒𝑙−1 + 𝜒(𝑘−1)(𝑙−1) (7.38)

Como 𝑁 = 𝑘𝑙, fica fácil mostrar quea igualdade abaixo é verdadeira
𝑁 − 1 = (𝑘 − 1) + (𝑙 − 1) + (𝑘 − 1)(𝑙 − 1) (7.39)
logo 2𝑘−1 ; 2𝑙−1 e 2(𝑘−1)(𝑙−1) são variáveis aleatórias independentes. Usando novamente o
Teorema 5.7 podemos testar a hipótese nula das médias segundo as colunas/linhas mediante as
razões.
𝑐
𝑆𝑐2
𝑝𝑎𝑟𝑎 𝑐𝑜𝑙𝑢𝑛𝑎𝑠: 𝐹𝑐𝑎𝑙 =
𝑆𝑟2
(7.40)
𝑙
𝑆𝑙2
𝑝𝑎𝑟𝑎 𝑙𝑖𝑛ℎ𝑎𝑠: 𝐹𝑐𝑎𝑙 = 2
𝑆𝑟
É importante dizer ao leitor que o fato de 𝐻0𝑐 não ser verdadeira não exclui a análise de
𝐻0𝑙 , e vice-versa. Todo este procedimento fica resumido na tabela Tabela ANOVA para dois
fatores sem repetição.
ANOVA – dois fatores sem repetição

Fonte da variação 𝑆𝑄 𝑔𝑙 𝑀𝑄 𝐹cal 𝐹𝛼 𝑐𝑟í𝑡𝑖𝑐𝑜
𝑆𝑄𝐸𝑐 𝑙 𝑆𝑙2
Fator A (Linhas) 𝑆𝑄𝐸𝑙 𝑙−1 𝑆𝑙2 = 𝐹cal = 𝐹𝛼 (𝑙 − 1, (𝑘 − 1)(𝑙 − 1))
𝑙−1 𝑆𝑟2
𝑆𝑄𝐸𝑐 𝑐 𝑆𝑐2
Fator B (colunas) 𝑆𝑄𝐸𝑐 𝑘−1 𝑆𝑐2 = 𝐹cal = 𝐹𝛼 (𝑘 − 1, (𝑘 − 1)(𝑙 − 1))
𝑘−1 𝑆𝑟2
𝑆𝑄𝑅
Residual (Erro) 𝑆𝑄𝑅 (𝑘 − 1)(𝑙 − 1) 𝑆𝑟2 =
(𝑘 − 1)(𝑙 − 1)
Total 𝑆𝑄𝑇 𝑁− 1
Como antes, testaremos a hipótese nula fixando certo nível 𝛼 de significância. Com isso,
𝑙
i. Se 𝐹cal ≤ 𝐹𝛼 (𝑙 − 1; (𝑘 − 1)(𝑙 − 1)), então aceita-se 𝐻0𝑙 : 𝜇𝑗 = 𝜇para qualquer 𝑗 =
1, 2, 3, ⋯ 𝑙, e conclui-se, com risco 𝛼, que o fator A não causa efeito na variável em
𝑙
estudo. Por outro lado, se 𝐹cal > 𝐹𝛼 (𝑙 − 1; (𝑘 − 1)(𝑙 − 1))rejeita-se 𝐻0𝑙 concluindo-se
pela diferença entre as médias das linhas e consequentemente influência do fator sobre
a variável em estudo.
𝑐
ii. Se 𝐹cal ≤ 𝐹𝛼 (𝑘 − 1; (𝑘 − 1)(𝑙 − 1)), então aceita-se 𝐻0𝑐 : 𝜇𝑖 = 𝜇para qualquer 𝑖 =
1, 2, 3, ⋯ 𝑘, e conclui-se, com risco 𝛼, que o fator B não causa efeito na variável em
𝑐
estudo. Por outro lado, se 𝐹cal > 𝐹𝛼 (𝑘 − 1; (𝑘 − 1)(𝑙 − 1))rejeita-se 𝐻0𝑐 concluindo-se

pela diferença entre as médias das colunas e consequentemente influência do fator

sobre a variável em estudo.
A presença de interação, bem como seu impacto científico, pode ser interpretada de
maneira agradável através do uso de gráficos de interação. Os gráficos claramente fornecem
uma visão pictórica da tendência nos dados de mostrar o efeito de mudar um fator à medida que
se move de um nível para outro de um segundo fator. A Figura 7.4 ilustra a elevação do fator B
pela interação do fator A em apenas uma circunstância. A interação é revelada em linhas não
paralelas.
Figura 7.4
Gráficos de interação como este dão ao cientista uma interpretação rápida e significativa
da interação que está presente. Deve ficar claro que o paralelismo nos gráficos sinaliza uma
ausência de interação. A interação entre os fatores corresponde a diferença de comportamento
de um fator nos diferentes níveis do outro fator com respeito a característica de interesse. A
interação entre os fatores está associada à mudança de comportamento de um fator nos
diferentes níveis do outro fator, com relação à característica de interesse.
Exemplo 7.14 Em uma experiência agrícola, foram usados cinco diferentes fertilizantes em duas
variedades de trigo. A produção está indicada a seguir. Verificar ao nível de 5% se (a) há
diferença na produção devido ao fertilizante; (b) há diferença na safra devido à variedade do
trigo.
Fertilizante
A B C D E

Variedade 1 54 38 46 50 44
Trigo
Variedade 2 57 42 45 53 50
Solução: Considerando o fator B como o tipo de fertilizante e o fator A como a variedade de

trigo, temos a tabela ampliada abaixo:
Fator B
𝐴 𝐵 𝐶 𝐷 𝐸 Soma (𝐴)2 (𝐵)2 (𝐶)2 (𝐷)2 (𝐸)2 Soma
v1 54 38 46 50 44 232 2.916 1.444 2.116 2.500 1.936
Fator
A v2 57 42 45 53 50 247 3.249 1.764 2.025 2.809 2.500
Somas 111 80 91 103 94 479 6.165 3.208 4.141 5.309 4.436 23.259
Dessa forma obtemos os valores abaixo

5 2
(𝑋∙∙ )22 (479)2
𝑆𝑄𝑇 = ∑ ∑(𝑥𝑖𝑗 ) − = 23.259 − = 314,9
𝑁 10
𝑖=1 𝑗=1
5
(𝐶𝑖∙ )2 (𝑋∙∙ )2 (111)2 (80)2 (91)2 (103)2 (94)2 (479)2
𝑆𝑄𝐸𝑐 = ∑ − = + + + + − = 279,4
2 𝑁 2 2 2 2 2 10
𝑖=1
5 2
(𝐿∙𝑗 ) (𝑋∙∙ )2 (232)2 (247)2 (479)2
𝑆𝑄𝐸𝑙 = ∑ − = + − = 22,5
5 𝑁 5 5 10
𝑗=1
𝑆𝑄𝑅 = 𝑆𝑄𝑇 – 𝑆𝑄𝐸𝑐 − 𝑆𝑄𝐸𝑙 = 314,9 − 279,4 − 22,5 = 13
Agora, a tabela ANOVA do dois fatores sem repetição fica da forma

ANOVA – dois fatores sem repetição
Fonte da variação 𝑆𝑄 𝑔𝑙 𝑀𝑄 𝐹cal 𝐹5%
𝑙
Fator A (Variedade) 22,5 1 𝑆𝑙2 = 22,5 𝐹cal = 6,92 𝐹5% (1; 4) = 7,71
𝑐
Fator B (Fertilizante) 279,4 4 𝑆𝑐2 = 69,85 𝐹cal = 21,49 𝐹5% (4; 4) = 6,39
Residual (Erro) 13 4 𝑆𝑟2 = 3,25
Total 314,9 9
𝑙
Conclusão: Para o fator A (variedade de trigo) obtivemos 𝐹cal = 6,92 < 𝐹5% (1; 4) =
7,71, portanto aceita-se 𝐻0𝑙 , ou seja, a variedade de trigo não altera a produção. Já para fator
𝑐
B(fertilizantes) obtivemos 𝐹cal = 21,49 > 𝐹5% (4; 4) = 6,39, portanto rejeita-se 𝐻0𝑐 , ou seja, a
o tipo de fertilizantes usado apresenta influência na produção de trigo.
■
Com repetição

A diferença desta seção para a anterior está no formato da tabela de distribuição dos
valores observados. Neste caso teremos dois fatores: fator B colunas 𝒊 com 𝑏 elementos, ou
seja, 𝑖 = 1, 2, 3, ⋯ , 𝑏; o fator A linhas 𝒋 distribuído em 𝑎 blocos, ou seja, 𝑗 = 1, 2, 3, ⋯ , 𝑎, e
cada bloco terá, cada um,(𝑛) linhas. Dessa forma, um elemento da tabela, indicado por 𝑥𝑖𝑗𝑘 ,
estará no bloco 𝑖 na, na coluna 𝑗 e na linha 𝑘. Neste caso, o essencial é que os blocos reúnem
unidades com características equivalentes (similares) e que haja certa variabilidade entre eles.
Não teria sentido organizar esses blocos se não houvesse variabilidade entre eles. Quem vai
decidir se a variabilidade entre as unidades justifica ou não a formação de blocos é o
pesquisador, não o estatístico.
Em um experimento com dois fatores, temos diversos interesses. Em primeiro lugar,

precisamos avaliar se existe interação entre os fatores. Como vimos anteriormente, o gráfico de
interação nos apresenta evidências da interação ou não. Aqui, vamos avaliar o efeito da
interação através de um teste de hipóteses. Caso o efeito da interação não seja significativo,
avaliamos os efeitos principais (individuais), também através de testes de hipóteses
apropriados. Para entendimento, suponha que um médico pretenda comparar os efeitos de duas
vitaminas, A e B, e considerar se o sedentarismo do paciente, no início do tratamento, é
importante na resposta do paciente às vitaminas. Para isso, deverá organizar blocos. Cada bloco
será formado por um par de pacientes com sedentarismos similares, mas, para formar os blocos,
o médico não precisa colocar seus pacientes em fila, nem juntá-los aos pares, basta reunir os
dados numéricos. Dois pacientes do mesmo bloco não precisam nem mesmo se conhecer. O
objetivo é isolar e remover do termo resíduo a variação atribuível aos blocos, aumentando assim
a precisão do experimento sem aumentar o número de unidades experimentais. Veja a Tabela
7.6 abaixo para melhor compreensão
Tabela 7.6
Fator B (colunas (𝑖) )
1 2 3 ⋯ b Soma Média
1 𝑥111 𝑥121 𝑥131 𝑥1𝑏1 𝐿1∙1 𝑥̅1∙1
⋯
(blocos (𝑗) )
2 𝑥112 𝑥122 𝑥132 𝑥1𝑏2 𝐿1∙2 𝑥̅1∙2

Fator A
Bloco 1 ⋯
⋮ ⋮ ⋮ ⋮ ⋮
⋯
𝑛 𝑥11𝑛 𝑥12𝑛 𝑥13𝑛 𝑥1𝑏𝑛 𝐿1∙𝑛 𝑥̅1∙𝑛

1 𝑥211 𝑥221 𝑥231 𝑥2𝑏1 𝐿2∙1 𝑥̅2∙1

⋯
2 𝑥212 𝑥222 𝑥232 𝑥2𝑏2 𝐿2∙2 𝑥̅2∙2
Bloco 2 ⋯
⋮ ⋮ ⋮ ⋮ ⋮
⋯
𝑛 𝑥21𝑛 𝑥22𝑛 𝑥23𝑛 𝑥2𝑏𝑛 𝐿2∙𝑛 𝑥̅2∙𝑛
1 𝑥𝑎11 𝑥𝑎21 𝑥𝑎31 𝑥𝑎𝑏1 𝐿𝑎∙1 𝑥̅𝑎∙1

⋯
2 𝑥𝑎12 𝑥𝑎22 𝑥𝑎32 𝑥𝑎𝑏2 𝐿𝑎∙2 𝑥̅𝑎∙2
Bloco a ⋯
⋮ ⋮ ⋮ ⋮ ⋮
⋯
𝑛 𝑥𝑎1𝑛 𝑥𝑎2𝑛 𝑥𝑎3𝑛 𝑥𝑎𝑏𝑛 𝐿𝑎∙𝑛 𝑥̅𝑎∙𝑛
Somas 𝐶∙1∙ 𝐶∙2∙ 𝐶∙3∙ ⋯ 𝐶∙𝑏∙ 𝑋∙∙∙
Média 𝑥̅∙1∙ 𝑥̅∙2∙ 𝑥̅∙3∙ 𝑥̅∙𝑏∙ 𝑥̅
É fácil ver que esta tabela possui um total de 𝑁 = 𝑎𝑏𝑛 observações. É importante
salientar que neste caso haverá mais de um valor correspondente a um tratamento e um bloco.
Aqui usaremos as notações 𝑥̅∙𝑖∙ para designar a média de uma coluna 𝑖 bem como 𝑥̅𝑗∙𝑘 a média
de uma linha 𝑘 dentro do bloco 𝑎, 𝑥̅𝑗𝑖∙ (não aparece na Tabela 7.6) indica a média da coluna 𝑖
dentro do bloco 𝑗, e, 𝑥̅ indica a média global. Para não escrevermos toda a teoria aqui, vamos
dizer que os valores abaixo atendem a todos os requisitos necessários para se usar a distribuição
𝐹 de Snedecor segundo o Teorema 5.7.
𝑏 𝑎 𝑛 𝑏 𝑎 𝑛
2 (𝑋∙∙∙ )2 2
𝑆𝑄𝑇 = ∑ ∑ ∑(𝑥𝑖𝑗𝑘 − 𝑥̅ ) = ∑ ∑ ∑(𝑥𝑖𝑗𝑘 ) −
𝑁
𝑖=1 𝑗=1 𝑘=1 𝑖=1 𝑗=1 𝑘=1
𝑎 𝑎 2
2 (∑𝑛𝑘=1 𝐿𝑗∙𝑘 ) (𝑋∙∙∙ )2
𝑆𝑄𝐸𝑙 = 𝑏𝑛 ∑(𝑥̅𝑗∙𝑘 − 𝑥̅ ) = ∑ −
𝑏𝑛 𝑁
𝑗=1 𝑗=1
𝑏 𝑏
(𝐶∙𝑖∙ )2 (𝑋∙∙∙ )2
𝑆𝑄𝐸𝑐 = 𝑎𝑛 ∑(𝑥̅∙𝑖∙ − 𝑥̅ )2 = ∑ −
𝑎𝑛 𝑁
𝑖=1 𝑖=1
𝑏
(∑𝑛𝑘=1 𝑥𝑖∙𝑘 )2 (𝑋∙∙∙ )2 (∑𝑛𝑘=1 𝑥𝑖∙𝑘 )2 indica a soma de cada
𝑆𝑄𝑆𝑢𝑏 = ∑ −
𝑛 𝑁 coluna, dentro do bloco 𝑖, ao quadrado.
𝑖=1
𝑏 𝑎 𝑛
2
𝑆𝑄𝐼𝑡 = ∑ ∑ ∑(𝑥̅𝑖𝑗∙ − 𝑥̅∙𝑖∙ − 𝑥̅𝑗∙𝑘 + 𝑥̅ ) = 𝑆𝑄𝑆𝑢𝑏 – 𝑆𝑄𝐸𝑐 − 𝑆𝑄𝐸𝑙
𝑖=1 𝑗=1 𝑘=1

𝑏 𝑎 𝑛
2
𝑆𝑄𝑅 = ∑ ∑ ∑(𝑥𝑖𝑗𝑘 − 𝑥̅ 𝑖𝑗∙ ) = 𝑆𝑄𝑇 − 𝑆𝑄𝐸𝑐 − 𝑆𝑄𝐸𝑙 − 𝑆𝑄𝐼𝑡
𝑖=1 𝑗=1 𝑘=1
e baseando-se nestes valores podemos testar as hipótese nulas descritas abaixo:
(1) 𝐻0𝑙 : todas as médias de blocos (linhas)são iguais;

(2) 𝐻0𝑐 : todas as médias de tratamentos (colunas) são iguais;
(3) 𝐻0𝐼𝑡 : Não há interações entre tratamentos e blocos.
A tabela ANOVA – dois fatores com repetição fica assim
ANOVA – dois fatores com repetição

Fonte da variação SQ gl MQ 𝐹cal 𝐹𝛼 𝑐𝑟í𝑡𝑖𝑐𝑜
𝑆𝑄𝐸𝑙 𝑙
𝑆𝑙2
Fator A (blocos) 𝑆𝑄𝐸𝑙 𝑎−1 𝑆𝑙2 = 𝐹cal = 𝐹𝛼 (𝑎 − 1; 𝑎𝑏(𝑛 − 1))
𝑎−1 𝑆𝑟2
𝑆𝑄𝐸𝑐 𝑐
𝑆𝑐2
Fator B (colunas) 𝑆𝑄𝐸𝑐 𝑏−1 𝑆𝑐2 = 𝐹cal = 𝐹𝛼 (𝑏 − 1; 𝑎𝑏(𝑛 − 1))
𝑏−1 𝑆𝑟2
𝑆𝑄𝐼𝑡 𝑆𝐼𝑡2
Interação (AB) 𝑆𝑄𝐼𝑡 (𝑎 − 1)(𝑏 − 1) 𝑆𝐼𝑡2 = 𝐼𝑡
𝐹cal = 𝐹𝛼 ((𝑎 − 1)(𝑏 − 1); 𝑎𝑏(𝑛 − 1))
(𝑎 − 1)(𝑏 − 1) 𝑆𝑟2
𝑆𝑄𝑅
Dentro dos grupos 𝑆𝑄𝑅 𝑎𝑏(𝑛 − 1) 𝑆𝑟2 =
𝑎𝑏(𝑛 − 1)
Total 𝑆𝑄𝑇 𝑎𝑏𝑛 − 1
Após a construção desta tabela, fazer a comparativa entre os 𝐹cal com os 𝐹tab e decidir
sobre a aceitação ou não da hipótese nula em cada caso.
Exemplo 7.15 Em um experimento conduzido para determinar qual de três sistemas de mísseis
é preferível, foi medida a taxa de queima de propelentes para 24 lançamentos estáticos. Quatro
tipos diferentes de propelentes foram usados. O experimento rendeu observações duplicadas
das taxas de queima em cada combinação de tratamentos. Os dados, depois de codificados, são
fornecidos na tabela abaixo.
Tipos de propelentes
𝑝1 𝑝2 𝑝3 𝑝4
𝑚1 34,0 30,1 29,8 29,0
32,7 32,8 26,7 28,9
Sistema de 𝑚2 32,0 30,2 28,7 27,6
mísseis 33,2 29,8 28,1 27,8
𝑚3 28,4 27,3 29,7 28,8
29,3 28,9 27,3 29,1

Teste as seguintes hipóteses:

a) 𝐻0′ : não há diferença na média das taxas de queima dos propelentes quando diferentes
sistemas de mísseis são usados,
b) 𝐻0′′ : não há diferença na média das taxas de queima de propelentes dos quatro tipos de
propelentes,
c) 𝐻0′′′ : não há interação entre os diferentes sistemas de mísseis e tipos de propelentes.
Solução: Considerando “tipos de propelentes” como fator B e “sistemas de mísseis” como fator
A, podemos ampliar a tabela de dados como abaixo
Fator B
𝑝1 𝑝2 𝑝3 𝑝4 soma (𝑝1)2 (𝑝2)2 (𝑝3)2 (𝑝4)2 soma
𝑚1 34,0 30,1 29,8 29,0 122,9 1.156 906,01 888,04 841 3.791,05
32,7 32,8 26,7 28,9 121,1 1.069,29 1.075,84 712,89 835,21 3.693,23
soma 66,7 62,9 56,5 57,9 244,0

𝑚2 32,0 30,2 28,7 27,6 118,5 1.024 912,04 823,69 761,76 3.521,49
Fator A 33,2 29,8 28,1 27,8 118,9 1.102,24 888,04 789,61 772,84 3.552,73
soma 65,2 60,0 56,8 55,4 237,4

𝑚3 28,4 27,3 29,7 28,8 114,2 806,56 745,29 882,09 829,44 3.263,38
29,3 28,9 27,3 29,1 114,6 858,49 835,21 745,29 846,81 3.285,80
soma 57,7 56,2 57,0 57,9 228,8

Soma
189,6 179,1 170,3 171,2 710,2 21.107,68
Total
com esses resultados obtemos
4 3 2
2 (𝑋∙∙∙ )2 (710,2)2
𝑆𝑄𝑇 = ∑ ∑ ∑(𝑥𝑖𝑗𝑘 ) − = 21.107,68 − = 91,68
𝑁 24
𝑖=1 𝑗=1 𝑘=1
3 2
(∑2𝑘=1 𝐿𝑗∙𝑘 ) (𝑋∙∙∙ )2 (244,0)2 (237,4)2 (228,8)2 (710,2)2
𝑆𝑄𝐸𝑙 = ∑ − = + + − = 14,52
4∙2 𝑁 8 8 8 24
𝑗=1
4
(𝐶∙𝑖∙ )2 (𝑋∙∙∙ )2 (189,6)2 (179,1)2 (170,3)2 (171,2)2 (710,2)2
𝑆𝑄𝐸𝑐 = ∑ − = + + + − = 40,08
3∙2 𝑁 6 6 6 6 24
𝑖=1
4
(∑2𝑘=1 𝑥𝑖∙𝑘 )2 (𝑋∙∙∙ )2 (66,7)2 (62,9)2 (57,9)2 (710,2)2
𝑆𝑄𝑆𝑢𝑏 ∑ − = + + ⋯+ − = 76,77
2 𝑁 2 2 2 24
𝑖=1
𝑆𝑄𝐼𝑡 = 𝑆𝑄𝑆𝑢𝑏 – 𝑆𝑄𝐸𝑙 − 𝑆𝑄𝐸𝑐 = 76,77 − 14,52 − 40,08 = 22,16
𝑆𝑄𝑅 = 𝑆𝑄𝑇 − 𝑆𝑄𝐸𝑐 − 𝑆𝑄𝐸𝑙 − 𝑆𝑄𝐼𝑡 = 14,91
Dessa forma, a tabela ANOVA – dois fatores com repetição fica da forma
ANOVA – dois fatores com repetição

Fonte da variação SQ gl MQ 𝐹cal 𝐹5% 𝑐𝑟í𝑡𝑖𝑐𝑜
𝑙
Fator 2 (blocos) 14,52 2 𝑆𝑙2 = 7,26 𝐹cal = 5,84 𝐹5% (2; 12) = 3,89
𝑐
Fator 1 (colunas) 40,08 3 𝑆𝑐2 = 13,36 𝐹cal = 10,75 𝐹5% (3; 12) = 3,49

𝐼𝑡
Interação (𝑓1 𝑓2) 22,16 6 𝑆𝐼𝑡2 = 3,69 𝐹cal = 2,97 𝐹5% (6; 12) = 3,00
Dentro dos grupos 14,91 12 𝑆𝑟2 = 1,24
Total 91,68 23
baseando-se nos resultados apresentados na tabela ANOVA – dois fatores com repetição
conclui-se que;
𝑙
a) 𝐻0′ deve ser rejeitada, pois 𝐹cal = 5,84 > 𝐹5% (2; 12) = 3,89. Ou seja, diferentes
sistemas de mísseis resultam em diferentes médias de taxa de queima de propelentes.
𝑐
b) 𝐻0′′ deve ser rejeitada, pois 𝐹cal = 10,75 > 𝐹5% (3; 12) = 3,49. Ou seja, a média das
taxas de queima do propelente não é a mesma para os quatro tipos de propelentes.
𝐼𝑡
c) 𝐻0′′′ deve ser aceita, pois 𝐹cal = 2,97 < 𝐹5% (6; 12) = 3,00. Ou seja, a interação é
quase insignificante no nível de 5%. Porém a interação deve ser levada, visto que a
diferença foi bem pequena.
■
1. Parte de um estudo conduzido pelo Hospital da Araújo Jorge (Goiânia) e a Universidade

Federal de Goiás foi planejada para medir os níveis de atividade da fosfatase alcalina do
soro em crianças com epilepsia que receberam terapia anticonvulsiva sob cuidados de um
médico particular. Quarenta e cinco indivíduos foram encontrados para o estudo e
categorizados em quatro conjuntos de drogas:
G-1: Controle (sem receber anticonvulsivos e com histórico de epilepsia)
G-2: Fenobarbital
G-3: Carbamapezina
G-4: Outros anticonvulsivos
Das amostras de sangue coletadas de cada indivíduo, foi determinado o nível de atividade
da fosfatase alcalina do soro e registrado como mostra a tabela A. Teste a hipótese, ao nível
de significância de 0,05, de que a média do nível de atividade da fosfatase alcalina do soro
é a mesma para os quatro conjuntos. R. 𝐹cal = 3,57 e concluir que as médias do nível de atividades da
fosfatase alcalina do soro para os quatro conjuntos não são as mesmas.
Tabela A
G-1 G-2 G-3 G-4
49,20 97,50 97,07 62,10 110,60
44,54 105,00 73,40 94,95 57,10
45,80 58,05 68,50 142,50 117,60

95,84 86,60 91.85 53,50 77,71

30,10 58,35 106,60 53,00 150,00
36,50 72,80 0,57 175,00 82,90
82,30 116,70 0,79 79,50 111,50
87,85 45,15 0,77 29,50
105,00 70,35 0,81 78,40
95,22 77,40 127,50
2. Considera os dados da tabela B abaixo.

Comprimidos
A-1 A-2 A-3 A-4 A-5
5,2 9,1 3,2 2,4 7,1
4,7 7,1 5,8 3,4 6,6
8,1 8,2 2,2 4,1 9,3
6,2 6,0 3,1 1,0 4,2
3,0 9,1 7,2 4,0 7,6
Eles representam o número de horas de alívio para cinco marcas diferentes de comprimidos
para dor de cabeça, administrados em 25 indivíduos com febre de 38 oC ou mais. Faça a
Tabela da ANOVA e teste a hipótese, no nível de significância de 5%, de que a média do
número de horas de alívio fornecidas pelos comprimidos é a mesma para todas as cinco
marcas. Discuta bem o resultado. R. 𝐹cal = 6,59 e concluir que as médias do número de horas de alívio
para as cinco marcas são diferentes.
3. No artigo ‘Shelf – Space Strategy in Retailing’, publicado em Proceeding: Southern
Marketing Association, é investigado o efeito da altura das prateleiras de supermercados para
a venda de comida enlatada para cachorros. Um experimento foi conduzido em um pequeno
supermercado por um período de oito dias nas vendas de uma única marca de comida para
cachorros, referida aqui como comida para cachorro Arf, envolvendo três níveis de altura de
prateleiras: altura dos olhos, da cintura e do joelho. Durante o dia, a altura da prateleira das
latas de comida foi trocada aleatoriamente em três ocasiões diferentes. As seções
remanescentes da gôndola que mantinham a marca dada foram preenchidas com uma mistura
de marcas de comida para cachorro, conhecidas e desconhecidas dos clientes de certa área
geográfica em particular. As vendas, em reais, da comida para cães Arf, por dia e para as
três alturas de prateleiras são representadas a seguir
Altura da prateleira
Nível do Joelho Nível da cintura Nível dos olhos
77 88 85
82 94 85
86 93 87
78 90 81
81 91 80
86 94 79
77 90 87
81 87 93
Há alguma diferença significativa na média das vendas diárias dessa marca de comida para
cachorro com base na altura das prateleiras? Faça sua análise considerando um nível de
significância de 2,5%. R. 𝐹cal = 14,52 e concluir que há sim uma diferença significativa na média das
vendas diárias com base na altura das prateleiras.
4. Planta-se quatro tipos diferentes de sementes de café em cinco tipos diferentes de solo,
distribuídos em blocos. Cada bloco é dividido em quatro lotes, pelos quais se distribuem,
então, aleatoriamente, os quatro tipos de sementes. Ao nível de significância de 0,05, teste
se a produção, indicada na tabela abaixo, varia significativamente
𝑙
a) Devido ao solo (isto é os cinco blocos) R. 𝐹cal = 0,65. Não há diferença devido ao solo
𝑐
b) Devido à variedade de sementes de café usadas. R. 𝐹cal = 5,83. Há diferença devido à variedade
de café.
Tipos de Tipos de café
solo T1 T2 T3 T4
A 15 12 10 14
B 19 15 12 11
C 18 14 15 12
D 16 11 12 16
E 17 16 11 14
5. Os dados s seguir representam, em segundos, o tempo gasto pó cinco operários para realizar
certa tarefa, usando três máquinas diferentes. Considerando um nível de significância de 5%,
verifique se há diferenças entre máquinas e entre os operários.
Máquinas
Operário
A B C
1 40 59 42
2 39 55 51
3 47 55 45
4 45 50 40
5 52 52 41
6. São feitas cinco misturas da mesma liga metálica e para cada mistura serão efetuadas seis
determinações de densidade. Os resultados são:
Densidade
Mistura A 3,6 3,5 3,7 3,1 3,1 3,2
Mistura B 3,3 3,5 3,4 3,2 3,4 3,4
Mistura C 3,5 3,3 3,4 3,4 3,3 3,2
Mistura D 3,5 3,4 3,0 3,3 3,3 3,8
Mistura E 3,7 3,4 3,6 3,5 3,6 3,4

Há evidências de que certas misturas tenham densidade média maior do que outra?
Considere um nível de significância de 5%.
7. Um experimento foi conduzido para estudar o efeito da temperatura e do tipo do forno na
vida útil de certo componente. Quatro tipos de fornos e três níveis de temperatura foram
usados no experimento. Vinte e quatro peças foram atribuídas aleatoriamente duas para cada
combinação de tratamentos, e os resultados foram registrados a seguir
Temperatura Fornos
(Graus) O-1 O-2 O-3 O-4
500 227 214 225 260
221 259 236 229
550 187 181 232 246
208 179 198 273
600 174 198 178 206
202 194 213 219
Considerando um nível de significância de 5%, teste as hipótese de que

a) temperaturas diferentes não têm efeito na vida útil do componente
b) Fornos diferentes não têm efeito na vida útil do componente
c) O tipo de forno e a temperatura não interagem.
8. A corrosão por fadiga nos metais foi definida como uma ação simultânea entre o estresse
cíclico e o ataque químico em uma estrutura de metal. Uma técnica amplamente usada para
minimizar a corrosão por fadiga no alumínio envolve a aplicação de um revestimento
protetor. Em um estudo conduzido pelo Departamento de Engenharia Mecânica do Instituto
Politécnico e Universidade Estadual da Virgínia, os diferentes níveis de umidade
Baixo: 20% a 25% de umidade relativa
Médio: 55% a 0% de umidade relativa
Alto: 86% a 91% de umidade relativa
E os três tipos de revestimento
Não revestido: sem revestimento
Anodizado: revestimento de óxido de ácido sulfúrico anódico
Conversão: revestimento de conversão de cromato químico
foram usados. Os dados da corrosão por fadiga, expresso em milhares de ciclos até a falha,
foram registrados a seguir
Umidade relativa
Revestimento
Baixa Média Alta
36 46 31 52 134 121
Sem
46 93 24 73 102 109
revestimento
106 135 26 13 101 101

11 103 32 47 7 46
Anodizado 123 9 30 13 38 40
53 21 6 39 13 32
13 148 25 87 58 52
Conversão 84 52 10 75 40 75
159 75 84 57 84 52
Faça uma análise da variância, com 𝛼 = 0,05, para testar os efeitos principais e os efeitos
de interação.
9. Um experimento foi conduzido para aumentar a adesão de produtos de borracha. Dezesseis
produtos foram feitos com um novo aditivo e 16 produtos sem ele. A adesão observada foi
registrada a seguir.
Temperatura (oC)
50 60 70 80
2,3 3,4 3,8 3,9
2,9 3,7 3,9 3,2
Sem aditivos
31, 3,6 4,1 3,0
3,2 3,2 3,8 2,7
4,3 3,8 3,9 3,5
3,9 3,8 4,0 3,6
Com aditivos
3,9 3,9 3,7 3,8
4,2 3,5 3,6 3,9
Faça uma análise de variância para testar se os efeitos principais e os efeitos de interação são
significantes.
10. Um engenheiro elétrico está investigando um processo de corrosão de plasma usado na
fabricação de semicondutores. O interesse é estudar o efeito de dois fatores, a taxa de fluxo
do gás 𝐶2 𝐹6 (A) e a força aplicada no catodo (B). A resposta é o índice de corrosão. Cada
fator é executado em três níveis e duas execuções experimentais, na taxa de corrosão, são
feitas para cada uma das nove combinações. A estrutura é a de um delineamento
completamente aleatorizado. Os dados são fornecidos na tabela abaixo. A taxa de corrosão
está em 𝐴𝑜 \min.
Taxa de Fluxo Força fornecida
de 𝐶2 𝐹6 . 1 2 3
288 488 670

1
360 465 720
385 482 692

2
411 521 724

488 595 761

3
462 612 801
Mostre uma tabela de análise de variância e cheque a conclusão de que não há uma forte
interação ente os dois fatores. R. 𝐹cal = 1,02. Logo, não se pode concluir que haja uma interação
significante.

8. Análise Conjunta de Variáveis
Até agora vimos como organizar e resumir informações pertinentes a uma única variável
(ou conjunto de dados), mas frequentemente estamos interessados em analisar o
comportamento conjunto de duas ou mais variáveis aleatórias. Os dados aparecem na forma de
uma matriz, usualmente com as colunas indicando as variáveis e as linhas os indivíduos (ou
elementos). A Tabela 8.1 mostra a notação de uma matriz com (𝑚) mariáveis e (𝑛) indivíduos,
totalizando (𝑛 ⋅ 𝑚) dados. O principal objetivo das análises nessa situação é explorar relações
(similaridades) entre as colunas, ou algumas vezes entre as linhas. Como no caso de apenas
uma variável que estudamos, a distribuição conjunto das frequências será um instrumento
poderoso para a compreensão do comportamento dos dados
Tabela 8.1
Variável
Indivíduo
𝑋1 𝑋2 ⋯ 𝑋𝑗 ⋯ 𝑋𝑚
𝐴1 𝑥11 𝑥12 ⋯ 𝑥1𝑗 ⋯ 𝑥1𝑚
𝐴2 𝑥21 𝑥22 ⋯ 𝑥2𝑗 ⋯ 𝑥2𝑚
⋮ ⋮ ⋮ ⋮ ⋮
𝐴𝑖 𝑥𝑖1 𝑥𝑖2 ⋯ 𝑥𝑖𝑗 ⋯ 𝑥𝑖𝑚
⋮ ⋮ ⋮ ⋮ ⋮
𝐴𝑛 𝑥𝑛1 𝑥𝑛2 ⋯ 𝑥𝑛𝑗 ⋯ 𝑥𝑛𝑚
Em algumas situações, podemos ter dois (ou mais) conjuntos e dados provenientes da
observação da mesma variável. Por exemplo, podemos ter um conjunto de dados
{𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 }, que indicam as temperaturas da cidade A, durante 𝑛 meses, e outro conjunto de
dados {𝑦1 , 𝑦2 , ⋯ , 𝑦𝑛 } que são as temperaturas da cidade B, nos mesmos meses. Para efeito de
análise, podemos considerar que o primeiro conjunto são observações da variável𝑋:
Temperatura da cidade A, enquanto o segundo conjunto são observações da variável 𝑌:
Temperatura da cidade B. Quando consideramos duas variáveis (ou dois conjuntos de dados),
podemos ter três situações:
(a) as duas variáveis são qualitativas;
(b) as duas variáveis são quantitativas; e
(c) uma variável é qualitativa e outra quantitativa.

As técnicas de análise de dados nas três situações são diferentes. Quando as variáveis são
qualitativas, os dados são resumidos em tabelas de dupla entrada (ou de contingência), onde
aparecerão as frequências absolutas ou contagem de indivíduos que pertencem
simultaneamente a categorias de uma e outra variável. Quando as duas variáveis são
quantitativas, as observações são provenientes de mensurações, e técnicas como gráficos de
dispersão são apropriadas. Quando temos uma variável qualitativa e outra quantitativa, em geral
analisamos o que acontece com a variável quantitativa quando os dados são categorizados de
acordo com os diversos atributos da variável qualitativa. Contudo, em todas as situações, o
objetivo é encontrar as possíveis relações ou associações entre as duas variáveis. Essas relações
podem ser detectadas por meio de métodos gráficos ou medidas numéricas. De uma forma geral,
a quantificação do grau de associação entre duas variáveis é feita pelos chamados coeficientes
de contingência, de correlação ou de associação. O primeiro é para variáveis qualitativas. Essas
são medidas que descrevem, por meio de um único número, a associação (ou dependência)
entre duas variáveis. Esses coeficientes usualmente variam entre 0 e 1, ou entre −1 e +1 (caso
do segundo coeficiente), e a proximidade de zero indica falta de associação.
Exemplo 8.1 Suponha que queiramos analisar o comportamento conjunto das variáveis 𝒀: grau
de instrução e 𝑽: região de procedência, cujas observações estão contidas na Tabela 8.2 abaixo
Tabela 8.2 Distribuição conjunta das frequências das variáveis: grau de instrução (Y) e região
de procedência (V)
Y Ensino
Ensino Médio Superior Total
V Fundamental
Capital 4 5 2 11
Interior 3 7 2 12
Outra 5 6 2 13
Total 12 18 6 36
Cada elemento do corpo da tabela dá a frequência observada das realizações simultâneas

de 𝑌 e 𝑉. Assim, observamos quatro indivíduos da capital com ensino fundamental, sete do
interior com ensino médio etc.
■
A linha dos totais fornece a distribuição da variável Y, ao passo que a coluna dos totais
fornece a distribuição V. As distribuições assim obtidas são chamadas tecnicamente de
distribuições marginais, enquanto a Tabela 8.1 constitui a distribuição conjunta de Y e V. Em

Análise Conjunta de Variáveis 299
vez de trabalharmos com as frequências absolutas, podemos construir tabelas com as

frequências relativas (proporções), como foi feito no caso unidimensional. Mas aqui existem
três possibilidades de expressarmos a proporção da cada casela (célula):
(a) em relação ao total geral;
(b) em relação ao total de cada linha; e
(c) ou em relação ao total de cada coluna.
De acordo com o objetivo do problema em estudo, uma delas será mais conveniente. A
Tabela 8.3 abaixo apresenta a distribuição conjunta das frequências relativas, expressa como
proporção do total geral, com aproximação de uma casa decimal.
Tabela 8.3 Distribuição conjunta das frequências das variáveis: grau de instrução (Y) e região
de procedência (V) em relação ao total
Ensino
Fundamental
Capital 11,1% 13,9% 5,6% 30,6%
Interior 8,3% 19,4% 5,6% 33,3%
Outra 13,9% 16,7% 5,6% 36,1%
Total 33,3% 50,0% 16,5% 100,0%
Podemos, então, afirmar que 11,1% dos empregados vêm da capital e têm ensino
fundamental. Os totais nas margens fornecem as distribuições unidimensionais de cada uma das
variáveis. Por exemplo, 33,3% dos indivíduos têm ensino fundamental, 30,6% dos indivíduos
vêm da capital, e assim por diante. A Tabela 8.4 apresenta a distribuição das proporções em
relação ao total das colunas. Podemos dizer que, entre os empregados com instrução até o
ensino fundamental, 33,3% vêm da capital, ao passo que 27,8% vêm da capital. Esse tipo de
tabela é muito útil quando se deseja comparar a distribuição de procedência dos indivíduos
conforme o grau de instrução. O leitor mais atento certamente já relacionou a ideia de
analisarmos os totais da linhas ou colunas com as distribuições marginais estudadas na Seção
3.3 do Capítulo 3. Certamente as duas ideias são equivalentes e tratam do mesmo conceito.
Tabela 8.4 Distribuição conjunta das frequências das variáveis grau de instrução (Y) e região
de procedência (V) em relação as colunas
Ensino
Fundamental
Capital 33,3% 27,8% 33,3% 30,6%

Interior 25,0% 38,9% 33,3% 33,3%

Outra 41,7% 33,3% 33,3% 36,1%
Total 100,0% 100,0% 100,0% 100,0%
Podemos ainda comparar as duas variáveis utilizando uma representação gráfica. Uma
possível representação gráfica da Tabela 8.4 é dada na Figura 8.1
Figura 8.1
8.1 Associação entre Variáveis
Associação entre Variáveis Qualitativas
Um dos principais objetivos de se construir uma distribuição conjunta de duas variáveis

qualitativas é descrever a associação entre elas, isto é, queremos conhecer o grau de
dependência entre elas, de modo que possamos prever o resultado de uma delas quando
conhecermos a realização da outra. Por exemplo, se quisermos estimar qual a renda média de
uma família moradora da cidade de Uruaçu-GO, a informação sobre a classe social a que ela
pertence nos permite estimar com maior precisão essa renda, pois sabemos que existe uma
dependência entre as duas variáveis: renda familiar e classe social. Ou ainda, digamos que
queremos verificar se existe ou não associação entre o sexo e a carreira escolhida por 200 alunos
de Economia e Administração. A Tabela 8.5 apresenta os dados coletados.

Tabela 8.5 Distribuição conjunta dos alunos segundo o sexo (X) e o curso escolhido (Y)
Masculino Feminino Total
Economia 85 35 120
Administração 55 25 80
Total 140 60 200
Inicialmente, verificamos que fica muito difícil tirar alguma conclusão, devido à
diferença entre os totais marginais. Devemos, pois, construir as proporções segundo as linhas
ou as colunas para podermos fazer comparações. Usaremos os mesmos conceitos vistos na
Seção 3.3 do Capítulo 3 onde discutimos a dependência entre variáveis aleatórias. Aqui tratarei
o assunto de forma mais dedutiva. A Tabela 8.6 possui a distribuição das porcentagens
considerando o total geral como 100%.
Tabela 8.6 Distribuição conjunta dos alunos segundo o sexo (X) e o curso escolhido (Y)
Economia 42,5% 17,5% 60%
Administração 27,5% 12,5% 40%
Total 70% 30% 100%
A partir dessa tabela podemos observar que independentemente do sexo, 60% das pessoas
preferem Economia contra 40% que preferem Administração (observe na coluna de total). Não
havendo dependência entre as variáveis, esperaríamos que as proporções em cada casela
(célula) seja exatamente o produto das proporções marginais correspondentes, isto é, na casela
Economia - Masculino, por exemplo, seria esperado (0,70) ⋅ (0,60) = 0,42 ou 42%. Note que
este resultado esperado é muito próximo do valor de fato observado. Realizando todas as
verificações observamos que as proporções de todas as caselas são muito próximas do produto
das respectivas proporções marginais. Esses resultados parecem indicar não haver dependência
entre as duas variáveis, para o conjunto de alunos considerado. Concluímos então, neste caso,
que as variáveis sexo e escolha do curso parecem ser não associadas.
Para entendermos melhor essas ideias, vamos analisar um exemplo semelhante, mas
envolvendo alunos de Física e Ciências Sociais, cuja distribuição está na Tabela 8.7. Digamos
que há fortes suspeitas que a escolha do curso superior sofre influência do sexo do candidato.
Tabela 8.7 Distribuição conjunta das frequências e proporções (em porcentagem), segundo o
sexo (X) e o curso escolhido (Y)


Física 100 20 120
Ciências Sociais 40 40 80
Total 140 60 200
Pela leitura inicial da tabela não é possível decidir sobre tal questão. Uma forma de
sabermos sobre essa possível influência é comparar as proporções, em cada uma das caselas,
com o produto das proporções marginais correspondentes. Assim é possível observamos se há
uma disparidade ou não entre os resultados observados e os valores esperados. De fato, foram
observados que 50% dos alunos são do sexo masculino e cursam Física. Calculando o produto
140 120 42
das porcentagens marginais correspondentes obtemos (200) ⋅ (200) = 100 = 42% que
corresponde à proporção esperada caso não houvesse associação entre as variáveis. Perceba que
o valor observado é maior que o valor esperado, confirmando a hipótese de que possivelmente
há alguma dependência entre as variáveis sexo e curso escolhido. Isto pode ser percebido mais
claramente usando o coeficiente de contingência, que veremos mais adiante. A priori note que
é maior a concentração de homens no curso de Física do que de mulheres no mesmo curso,
portanto, neste caso, as variáveis sexo e curso escolhido parecem ser associadas. Estes mesmos
resultados são obtidos calculando as proporções, mantendo constantes os totais nas linhas, e/ou
colunas. É possível quantificar a associação entre variáveis qualitativas com o chamando
coeficiente de contingência, devido a K. Pearson que por motivos didáticos não será discutido
aqui. Nestas notas, usaremos o teste do Qui-quadrado para testar a hipótese de associação entre
as variáveis analisadas.
De modo geral, supondo que duas variáveis qualitativas 𝑋 e 𝑌, estejam presentes num
experimento estatístico, classificadas em duas categorias segundo uma tabela com (𝑛)
categorias 𝐴1 , 𝐴2 , ⋯ , 𝐴𝑛 para 𝑋 e (𝑚) categorias 𝐵1 , 𝐵2 , ⋯ , 𝐵𝑚 para 𝑌. A Tabela 8.8 descreve
como melhor distribuir as categorias das variáveis 𝑋 e 𝑌 envolvidas. É importante o leitor ficar
atento por que o copo da tabela mostra os valores conjuntos das variáveis envolvidas e não as
probabilidades, como foi discutido no Capítulo 3.
Tabela 8.8Notação para tabelas de contingência

𝐵1 𝐵2 ⋯ 𝐵𝑗 ⋯ 𝐵𝑐 Total
𝐴1 𝑜11 𝑜12 ⋯ 𝑜1𝑗 ⋯ 𝑜1𝑐 𝑛1.
𝐴2 𝑜21 𝑜22 ⋯ 𝑜2𝑗 ⋯ 𝑜2𝑐 𝑛2.
⋮ ⋮ ⋮ ⋮ ⋮ 𝑛3.

𝐴𝑖 𝑜𝑖1 𝑜𝑖2 ⋯ 𝑜𝑖𝑗 ⋯ 𝑜𝑖𝑐 ⋮

⋮ ⋮ ⋮ ⋮ ⋮ 𝑛𝑖.
𝐴ℓ 𝑜ℓ1 𝑜ℓ2 ⋯ 𝑜ℓ𝑗 ⋯ 𝑜ℓ𝑐 ⋮
𝑛ℓ.
Total 𝑛.1 𝑛.2 ⋯ 𝑛.𝑗 ⋯ 𝑛.𝑐 𝑛
Na tabela pomos 𝑜𝑖𝑗 para indicar o elemento pertencente à 𝑖 − é𝑠𝑖𝑚𝑎 linha e 𝑗 − é𝑠𝑖𝑚𝑎
coluna. Também explicitamos
ℓ
𝑛𝑖⋅ = ∑ 𝑛𝑖𝑗 Total marginal da 𝑖 − é𝑠𝑖𝑚𝑎 linha (categoria de 𝑋)

𝑗=1
ℓ
𝑛⋅𝑗 = ∑ 𝑛𝑖𝑗 Total marginal da 𝑖 − é𝑠𝑖𝑚𝑎 coluna (categoria de 𝑌)

𝑖=1
Ponha 𝑒𝑖𝑗 para indicar as frequências esperadas. Na condição de independência entre as

variáveis 𝑋 e 𝑌, ou seja, sob a hipótese de que as variáveis 𝑋 e 𝑌 não sejam associadas, teremos
𝑜𝑖𝑗 𝑛𝑖⋅ 𝑒𝑖𝑗 𝑛𝑖⋅

= ⇔ =
𝑛⋅𝑗 𝑛 𝑛⋅𝑗 𝑛
para 𝑖 = 1, 2, ⋯ e 𝑗 = 1, 2, ⋯.
Com isso, na hipótese de independência, o valor observado é aproximadamente igual ao

valor esperado, em cada casela, ou seja, 𝑜𝑖𝑗 ≅ 𝑒𝑖𝑗 .Assim, o valor esperado, em cada casela,
pode ser obtido por
𝑛⋅𝑗 ⋅ 𝑛𝑖⋅
𝑒𝑖𝑗 = (8.1)
𝑛
Definimos como resíduo ou desvio como a diferença entre o valor observado e o valor
esperado em cada casela, isto é, (𝑜𝑖𝑗 − 𝑒𝑖𝑗 ). Dessa forma, o desvio pode ser positivo ou
negativo, conforme o valor observado seja maior ou menor que o valor esperado
respectivamente, o que dificulta nossa interpretação sobre qual casela possui maior ou menor
desvio. É possível mostrar que a soma de todos os resíduos produzidos é nula, mesmo na
hipótese de haver alguma dependência entre as variáveis 𝑋 e 𝑌. Por causa disto, uma forma de
compara os desvios é, então, considerar, para cada casela, o valor

2
(𝑜𝑖𝑗 − 𝑒𝑖𝑗 )
(8.2)
𝑒𝑖𝑗
Usando (8.2) é possível dizer, de forma simples, qual casela possui maior desvio. Uma
medida do afastamento global pode, então, ser calculada considerando a soma de todas as
medidas (8.2). O valor dessa soma estabelece ou quantifica o grau de associação entre as
variáveis 𝑋 e 𝑌. É possível mostrar que a soma de todos os resultados de (8.2) tem distribuição
Qui-Quadrado -𝜒 2 com 𝑣 = (ℓ − 1) ⋅ (𝒸 − 1) graus de liberdade, sendo ℓ o número de linhas
e 𝒸 o de colunas da tabela de contingência. De forma resumida temos a estatística calculada
𝑙 𝑐 2
2
(𝑜𝑖𝑗 − 𝑒𝑖𝑗 )
𝜒cal = ∑∑ (8.3)
𝑒𝑖𝑗
𝑖=1 𝑗=1
onde 𝑖 indica a 𝑖 − é𝑠𝑖𝑚𝑎 linha e 𝑗 indica a 𝑗 − é𝑠𝑖𝑚𝑎 coluna na tabela.
Sendo verdadeira a hipótese de não associação, o valor obtido em (8.3) deve estar próximo
de 0 (zero). Se as variáveis tiverem alguma associação, o valor de 2cal tende a ser grande,
conforme for a força dessa associação. Uma forma de avaliar essa associação é usar o teste Qui-
Quadrado sob as hipóteses 𝐻0 e 𝐻1 como enunciadas
𝐻0 : Não existe associação entre as variáveis de classificação;
𝐻1 : Existe associação entre as variáveis de classificação;
Para decidirmos se (8.3) é um valor grande ou ocorreu por mero acaso, devemos recorrer
à distribuição de probabilidade de 𝜒 2 sob 𝐻0 (hipótese nula) mediante certo grau de
confiabilidade (1 − 𝛼). Aqui, o valor 𝛼 é chamado de nível de significância. Os valores pouco
prováveis de ocorrência de 𝜒 2 formam uma Região de Rejeição (RR) da hipótese de associação.
2
Perceba que devemos obter duas estatísticas, a saber, 𝜒cal , obtido diretamente dos dados das
2
amostras, e, 𝜒(𝑣,𝛼) observado na tabela II que depende do número de graus de liberdade e do
2 2 2 2
nível de significância adotado. Assim se tivermos 𝜒cal ≥ 𝜒(𝑣,𝛼) , rejeita-se 𝐻𝑜 ;se 𝜒cal < 𝜒(𝑣,𝛼) ,
aceita-se 𝐻𝑜 . Dessa forma a Região de Rejeição do teste Qui-Quadrado segundo 𝐻0 é
2
𝑅𝑅 = {𝜒𝑣2 ∶ 𝜒𝑣2 > 𝜒(𝑣,𝛼) } (8.4)
2
Sendo 𝜒(𝑣,𝛼) obtido por meio da tabela II. A figura Figura 8.2 ilustra essa situação.

Figura 8.2
O teste do Qui-Quadrado é, essencialmente, um mecanismo pelo qual os desvios de uma
proporção hipotética são reduzidos a um único valor, que permite determinar uma probabilidade
a respeito da casualidade ou não dos desvios entre as proporções observadas e esperadas.
Quando se usa o teste Qui-Quadrado determina-se intuitivamente uma probabilidade (𝑝) de
2
ocorrência de um determinado acontecimentoà direita do valor calculado 𝜒cal , mediante a
aceitação da hipótese nula, a qual chamamos de 𝑝 − 𝑣𝑎𝑙𝑜𝑟,obtido como em (8.5).
2
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 𝑃(𝜒𝑣2 > 𝜒cal | 𝐻0 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎) (8.5)
O 𝑝 − 𝑣𝑎𝑙𝑜𝑟, que também é conhecido por nível descritivo do teste, é a probabilidade de

que a estatística do teste 𝜒 2 (como variável aleatória) tenha valor extremo em relação ao valor
2
observado 𝜒cal (estatística calculada) quando a hipótese 𝐻0 é verdadeira. Para 𝛼 fixado, se
obtermos 𝑝 − 𝑣𝑎𝑙𝑜𝑟 ≤ 𝛼, rejeita-se a hipótese 𝐻0 (de não associação), ou seja, não podemos
descartar a possibilidade que haja alguma associação entre as variáveis. Uma classificação
segundo o 𝑝 − 𝑣𝑎𝑙𝑜𝑟 é visto na Tabela 7.3.

Figura 8.3
2
Uma vez que 𝜒cal se baseia nas diferenças entre valores observados e esperados, uma
concordância (associação entre as variáveis) entre valores observados e esperados levará a um
2
pequeno valor de 𝜒cal e a um grande valor 𝑝 − 𝑣𝑎𝑙𝑜𝑟, enquanto que uma discrepância (não
associação entre as variáveis) entre valores observados e esperados levará a um grande valor de
2
𝜒cal e a um pequeno valor 𝑝 − 𝑣𝑎𝑙𝑜𝑟. O valor crítico e a região crítica se localizam no extremo
direito da distribuição (unilateral à direita).
Exemplo 8.2 Suponha que queremos investigar se a criação de determinado tipo de cooperativa
está associado com algum fator regional. Coletados os dados relevantes, obtemos a Tabela 8.9.
Baseados nesses dados, discuta a existência de tal associação.
Tabela 8.9 Cooperativas autorizadas a funcionar por tipo e estado, junho de 1974
Tipo de Cooperativa
Estado
Consumidor Produtor Escola Outras
São Paulo 214 237 78 119
Paraná 51 102 126 22
Rio G. do Sul 111 304 139 48
Solução: Primeira coisa a ser feita, refazer a Tabela 8.9 destacando os percentuais de cada casela.
O resultado está na Tabela 8.10
Tabela 8.10 Cooperativas autorizadas a funcionar por tipo e estado, junho de 1974
Tipo de Cooperativa
Estado
Consumidor Produtor Escola Outras Total
São Paulo 214 (13,8%) 237 (15,3%) 78 (5%) 119 (7,7%) 648 (41,8%)

Paraná 51 (3,3%) 102 (6,6%) 126 (8,1%) 22 (1,4%) 301 (19,4%)

Rio G. do Sul 111 (7,1%) 304 (19,6%) 139 (9%) 48 (3,1%) 602 (38,8%)
Total 376 (24,2%) 643 (41,5%) 343 (22,1%) 189 (12,2%) 1.551 (100%)
Uma análise simples da Tabela 8.10 revela existência de certa relação entre as variáveis,
pois a porcentagem em cada casela não necessariamente é o produto das porcentagens
marginais correspondentes. Caso não haja relação entre as variáveis, os valores observados e
os esperados se coincidem. Pelos dados apresentados, esperaríamos que no estado de São Paulo
tivéssemos 10,13% de cooperativas de consumidores, 17,32% de cooperativas de produtores,
9,23% de escolas e 5,09% de outros tipos. Para exemplificar, na casela São Paulo-Consumidor
376 648
o produto das porcentagens marginais é (1551) ⋅ (1551) = 0,1013 que corresponde exatamente
ao valor esperado para tal casela. A Tabela 8.11 descreve os valores observados e dentro dos
parênteses os valores esperados calculados segundo (8.1).
Tabela 8.11 Valores observados e esperados na Tabela 8.9 assumindo a independência entre as
variáveis
Tipo de Cooperativa
Estado
Consumidor Produtor Escola Outras Total
São Paulo 214 (157) 237 (269) 78 (143) 119 (79) 648 (41,8%)
Paraná 51 (73) 102 (125) 126 (67) 22 (37) 301 (19,4%)
Rio G. do Sul 111 (146) 304 (249) 139 (133) 48 (73) 602 (38,8%)
Total 376 (24,2%) 643 (41,5%) 343 (22,1%) 189 (12,2%) 1.551 (100%)
Para entendimento o valor esperado da casela São Paulo-Consumidor foi obtido

multiplicando os totais marginais correspondentes e dividindo resultado pelo total geral. Como
376⋅648
exemplo, a casela São Paulo –Consumidor produz o valor esperado = 157. Sugiro o
1551
leitor testar com as demais caselas. Agora vamos calcular os desvios entre o valor observado e
o valor esperado, em cada casela, obtendo assim a Tabela 8.12
Tabela 8.12 Desvios entre valores observados e esperados da Tabela 8.11

Tipo de Cooperativa
Estado
São Paulo 57 −32 −65 40
Paraná −22 −23 59 −15
Rio G. do Sul −35 55 6 −25

Para calcular a contribuição que cada casela produz para o Qui-quadrado, usa-se (8.2) em
(78−143)2
cada casela. Por exemplo em São Paulo-Escola obtemos = 29,54 e para a casela
143
(126−67)2
Paraná-Escola obtemos = 51,95, o que é uma indicação de que o desvio devido a essa
67
última casela é “maior” do que aquela da primeira. A Tabela 8.13 abaixo descreve todos os
valores de (8.2) em cada casela.
Tabela 8.13 Contribuição de cada casela ao Qui-quadrado - Valores obtidos usando (8.2)
Tipo de Cooperativa
Estado
São Paulo 20,69 3,81 29,54 20,25
Paraná 6,63 4,23 51,95 6,08
Rio G. do Sul 8,38 12,15 0,27 8,56
Usando (8.3) na Tabela 8.13 temos
2cal = 20,69 + 6,63 + 8,38 + 3,81 + 4,23 + 12,15 + 29,54 + 51,95 + 0,27 + 20,25 + 6,08 + 8,56
= 172,54
2
Considerando 𝛼 = 5% e 𝑣 = 6, obtemos 𝜒(6,5%) = 12,5916 usando a tabela II. Assim a
Região de Rejeição é 𝑅𝑅 = {𝜒62 ∶ 𝜒62 > 12,5916}. Como2cal = 172,54, é imediato que
pertence à Região de Rejeição, assim rejeita-se a hipótese de não associação. Logo, conclui-se
que há evidências de uma associação entre as variáveis, isto é, ao nível de 95% de confiança
pode-se dizer que a criação de determinado tipo de cooperativa está fortemente relacionada a
fatores regionais.(o valor de 𝑝 − 𝑣𝑎𝑙𝑜𝑟 é numericamente nulo neste exemplo).
Associação entre Variáveis Quantitativas
Quando as variáveis envolvidas são ambas do tipo quantitativas, pose-se usar o mesmo
tipo de análise apresentado nas seções anteriores e exemplificado com variáveis qualitativas.
De modo análogo, a distribuição conjunta pode ser resumida em tabelas de dupla entrada e, por
meio das distribuições marginais, é possível estudar a associação das variáveis. E, claro, além
desse tipo de análise, as variáveis quantitativas são passíveis de procedimentos analíticos e
gráficos mais refinados. Em alguns casos, para evitar um grande número de entradas,
agrupamos os dados marginais em intervalos de classes. Um recurso gráfico bastante útil para

se verificar a associação entre duas variáveis quantitativas, ou entre dois conjuntos de dados
quantitativos é o gráfico de dispersão, que veremos por meio de exemplos.
Exemplo 8.3 Analise a Tabela 8.14 seguinte.
Tabela 8.14 Número de anos de serviços (X) por o número de clientes (Y).
Agente Anos de serviços (X) Número de clientes (Y)
A 2 48
B 3 50
C 4 56
D 5 52
E 4 43
F 6 60
G 7 62
H 8 58
I 8 64
J 10 72
Na Figura 8.4 apresentamos o gráfico de dispersão para as variáveis 𝑋 e 𝑌 dadas na

Tabela 8.14 acima. Neste tipo de gráfico temos os possíveis pares de valores (𝑥, 𝑦), na ordem
que aparecem. Para o exemplo, vemos que parece haver uma associação crescente entre as
variáveis, porque o conjunto, à medida que aumenta o tempo de serviço, aumenta o número de
clientes.
Figura 8.4
Exemplo 8.4 Outro exemplo é considerar um estudo sobre o gasto de um conjunto de famílias
com saúde. A Tabela 8.15 traz os resultados de uma amostra de dados, onde definimos as
variáveis X: renda bruta (expressa em número de salários mínimos) e Y: a porcentagem da
renda bruta anual gasta com assistência médica.
Tabela 8.15 Renda bruta mensal (X) e porcentagem da renda gasta em saúde (Y) para um
conjunto de famílias
Gastos com saúde
Família Renda bruta (X)
(% da renda bruta) (Y)
A 12 7,2
B 16 7,4
C 18 7,0
D 20 6,5
E 28 6,6
F 30 6,7
G 40 6,0
H 48 5,6
I 50 6,0
J 54 5,5
Na Figura 8.5 apresentamos o gráfico de dispersão para as variáveis X: Renda bruta

mensal e Y: Porcentagem da renda gasta em saúde, para um grupo de famílias, expostos na
Tabela 8.15.
Figura 8.5
Uma observada mais atenta ao gráfico de dispersão nota-se que existe uma associação
“inversa” (decrescente), isto é, aumentando a renda bruta, diminui a porcentagem sobre o gasto
em assistência médica.
■
Exemplo 8.5 Considere um estudo para avaliar associação entre o conhecimento da língua
inglesa e o tempo, em minutos, necessários para operar uma determinada máquina. Os
resultados estão dispostos na Tabela 8.16
Tabela 8.16 Resultado de um teste (X) e tempo de operação de máquina (Y) para oito
indivíduos
Família Resultado mo Teste Tempo (minutos)
A 45 343
B 52 368
C 61 355
D 70 334
E 74 337
F 76 381
G 80 345
H 90 375
Na Figura 8.6 apresentamos o gráfico de dispersão para as variáveis X: resultado no teste

e Y:tempo, em minutos, necessários para operar a máquina satisfatoriamente.
Figura 8.6
Analisando os dados da Tabela 8.16 e o gráfico de dispersão da Figura 8.6, concluímos

que parece não haver associação entre as variáveis, pois conhecer o resultado do teste não ajuda
a prever o tempo gasto para aprender a operar a máquina.
■
Pelo exposto até aqui, percebe-se a dificuldade de quantificar essa associação, visto que
existem muitos modelos matemáticos que servem como estimadores para os gráficos de
dispersão. Por este motivo, aqui iremos apresentar o tipo mais simples, que é a linear. Isto é,
iremos definir uma medida que avalia o quanto a nuvem de pontos no gráfico de dispersão
aproxima-se de uma reta. Esta medida será definida de modo a variar num intervalo finito,
especificamente, de −1 a +1.
Definição 8.1 Dados (𝒏) pares de valores (𝒙𝟏 , 𝒚𝟏 ), (𝒙𝟐 , 𝒚𝟐 ), ⋯ , (𝒙𝒏 , 𝒚𝒏 ), chamaremos de
coeficiente de correlação linear entre as duas variáveis 𝑿 e 𝒀 a
𝑛
1 𝑥𝑖 − 𝑥̅ 𝑦𝑖 − 𝑦̅
𝑐𝑜𝑟𝑟(𝑋, 𝑌) = ∑ [( )⋅( )] (8.6)
𝑛 𝑑𝑝(𝑋) 𝑑𝑝(𝑌)
𝑖=1
ou seja, a média dos produtos dos valores padronizados das variáveis. O leitor atento certamente
notou a semelhança entre esta definição e a Definição 3.17.
Da mesma forma, teremos que −1 ≤ 𝑐𝑜𝑟𝑟(𝑋, 𝑌) ≤ 1 assim, é esperado que quanto mais
próximo de +1 exista uma forte associação crescente (positiva) entre as variáveis, e, quanto
mais próximo de −1 exista uma forte associação decrescente (negativa) entre as variáveis, e,
quanto mais próximo de 0 (zero) menos associação exista. A equação (8.6) pode ser
operacionalizada de modo mais conveniente pela seguinte fórmula
𝑛 ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑟=
(8.7)
√(𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2 ) ⋅ (𝑛 ∑ 𝑦𝑖2 − (∑ 𝑦𝑖 )2 )
Numa análise meio grosseira, dizemos que 𝑝𝑟 = 𝑟 2 100% dos valores da variável
dependente são explicados (justificados) pelos valores da variável dependente.
Não é muito complexo mostrar que o numerador da expressão, que mede o total de
concentração dos pontos pelos quatro quadrantes, equivale à covariância definida em Definição
3.16. Assim, Dados (𝑛) pares de valores (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), ⋯ , (𝑥𝑛 , 𝑦𝑛 ), a covariância entre X e Y
pode ser expressa por

1
𝑐𝑜𝑣(𝑋, 𝑌) = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) (8.8)
𝑛
sendo ainda pensada como a média dos produtos dos valores centrados das variáveis. A
covariância é uma medida da natureza da associação entre as duas variáveis. Sendo assim, o
sinal da covariância indica se a associação é crescente (positiva) ou decrescente (negativa). Se
duas variáveis X e Y não estão associadas então a covariância será 0 (zero), o inverso,
entretanto, não é geralmente verdadeiro. Duas variáveis podem ter covariância nula a ainda
serem associadas.
Exemplo 8.6 Vamos calcular o coeficiente de correlação entre as variáveis dadas na tabela 8.12.
Para isso, vamos incrementar a tabela citada gerando a tabela abaixo
Anos Clientes
Agente 𝑥𝑖2 𝑦𝑖2 𝑥𝑖 𝑦𝑖
(X) (Y)
A 2 48 4 2.304 96
B 3 50 9 2.500 150
C 4 56 16 3.136 224
D 5 52 25 2.704 260
E 4 43 16 1.849 172
F 6 60 36 3.600 360
G 7 62 49 3.844 434
H 8 58 64 3.364 464
I 8 64 64 4.096 512
J 10 72 100 5.184 720
∑ 57 565 383 32.581 3.392
usando a equação (8.7) obtemos

10 ∙ 3.392 − 57 ∙ 565
𝑟= = 0,87679
√(10 ∙ 383 − (57)2 ) ∙ (10 ∙ 32.581 − (565)2 )
Veja que 𝑝𝑟 = 76,88%, isso mostra que, em média, 76,88% das vezes o número de
cliente é explicado pelo tempo de serviço. Corroborando as conclusões feitas pelo diagrama de
dispersão, o coeficiente de correlação linear de Pearson teve resultado positivo, e próximo de
1, indicando forte correlação linear positiva entre as variáveis.
■
Exemplo 8.7 Obtenha o coeficiente de correlação linear para as variáveis contidas na Tabela
8.14. Resposta 𝒓 = −𝟎, 𝟗𝟒𝟎𝟒𝟔𝟐𝟓𝟐𝟖 e 𝒑𝒓 = 𝟖𝟖, 𝟒𝟓%

Associação entre Variáveis Qualitativas e Quantitativas
É comum nestes casos analisarmos o que acontece com a variável quantitativa dentro de
cada categoria da variável qualitativa. Essa análise pode ser conduzida por meio de medidas-
resumo, histogramas, Box Plots ou Ramo-e-Folhas. Para generalizar, considere uma variável
quantitativa 𝑋 e uma variável qualitativa 𝑌 subdividida em 𝑘 categorias. As medidas resumo
dessas variáveis são descritas na Tabela 8.17.
Tabela 8.17 Medidas-resumo para a variável quantitativa X e a variável qualitativa Y

Variável
Freq. Média 𝑑𝑝(𝑋) 𝑣𝑎𝑟(𝑋) 𝑥1 𝑄1 𝑄2 𝑄3 𝑥𝑛
𝑌
𝐴1 𝑛1 𝜇1 (𝑋) 𝜎1 (𝑋) 𝜎12 (𝑋) 𝑥1 (𝐴1 ) 𝑄1 (𝐴1 ) 𝑄2 (𝐴1 ) 𝑄3 (𝐴1 ) 𝑥𝑛 (𝐴1 )
𝐴2 𝑛2 𝜇2 (𝑋) 𝜎2 (𝑋) 𝜎22 (𝑋) 𝑥1 (𝐴2 ) 𝑄1 (𝐴2 ) 𝑄2 (𝐴2 ) 𝑄3 (𝐴2 ) 𝑥𝑛 (𝐴2 )
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝐴𝑘 𝑛𝑘 𝜇𝑛𝑘 (𝑋) 𝜎𝑛𝑘 (𝑋) 𝜎𝑛2𝑘 (𝑋) 𝑥1 (𝐴𝑛𝑘 ) 𝑄1 (𝐴𝑛𝑘 ) 𝑄2 (𝐴𝑛𝑘 ) 𝑄3 (𝐴𝑛𝑘 ) 𝑥𝑛 (𝐴𝑛𝑘 )
Total 𝑛 𝜇(𝑋) 𝜎(𝑋) 𝜎 2 (𝑋) 𝑥1 (𝑋) 𝑄1 (𝑋) 𝑄2 (𝑋) 𝑄3 (𝑋) 𝑥𝑛 (𝑋)
Como nos casos anteriores, é conveniente poder contar com uma medida que quantifique o grau
de dependência entre as variáveis. Com esse intuito, convém observar que as variâncias podem
ser usadas como insumos para construir essa medida. Se a variância dentro de cada categoria
for pequena e menor que a global, significa que a variável qualitativa melhor a capacidade de
previsão da quantitativa e, portanto existe relação entre as duas variáveis. Considerando usar a
média das variâncias, porém ponderada pelo número de observações em cada categoria,
estabelecemos
∑𝑛𝑖=1 (𝜎𝑖2 (𝑋))

̅̅̅
𝜎 2 (𝑋) = (8.9)
∑𝑛𝑖=1 𝑛𝑖
Usando a variância global e o valor obtido em (8.9) definimos o Grau de Associação entre as
duas variáveis como o ganho relativo na variância, obtido pela introdução da variável
qualitativa, explicitamente, temos
̅̅̅
𝜎 2 (𝑋)
𝐺𝑎 = 1 − (8.10)
𝜎 2 (𝑋)
Notoriamente, a medida 100𝐺𝑎% nos fornece o total referente à variável 𝑋 que é

explicado pela variável 𝑌.

Exemplo 8.8 Queremos analisar a variável salário, segundo o grau de instrução, dos 36
empregados da Companhia MB. A Tabela 8.18 contém as medidas resumo da variável 𝑺
(salário) para cada categoria 𝒀 (nível de instrução)
Tabela 8.18 Medidas-resumo para a variável salário, segundo o grau de instrução, dos 36
empregados da Companhia MB
Grau de
𝑛 𝑠̅ 𝜎(𝑆) 𝜎 2 (𝑆) 𝑥1 𝑄1 𝑄2 𝑄3 𝑥𝑛
Instrução
Fundamental 12 7,84 2,79 7,77 4,00 6,01 7,13 9,16 13,65
Médio 18 11,54 3,62 13,10 5,73 8,84 10,91 14,48 19,40
Superior 6 16,48 4,11 16,89 10,53 13,65 16,74 18,38 23,30
Total 36 11,12 4,52 20,46 4,00 7,55 10,17 14,06 23,30
A Figura 8.7apresenta uma representação gráfica da variável salário, por meio do Box
Plots, para cada categoria.
Figura 8.7
A leitura desses resultados sugere uma dependência dos salários em relação ao grau de
instrução: o salário aumenta conforme aumenta o nível de educação do indivíduo. O salário
médio de um funcionário é 11,12 (salários mínimos), já para um funcionário com curso superior
o salário médio passa a ser 16,48 (salários mínimos), enquanto funcionários com ensino
fundamental completo recebem, em média, 7,84 (salários mínimos).Usando(8.9)calculamos
(7,77) + 18 ∙ (13,10) + 6 ∙ (16,89)

̅̅̅2 (𝑋) = 12 ∙
𝜎 = 11,96
12 + 18 + 6

de modo que ̅̅̅

𝜎 2 (𝑋) = 11,96. Tabela 8.18 tiramos que 𝜎 2 (𝑋) = 20,46. Usando (8.10) obtemos
o valor de 𝐺𝑎,
11,96
𝐺𝑎 = 1 − = 0,415
20,46
daí, dizemos que 41,5% da variação do salário é explicada pela variável grau de instrução.
8.2 Modelos de Regressão
Quando falamos em regressão linear, referimo-nos ao objetivo de obter um modelo

matemático capaz de descrever com máxima precisão possível o comportamento associativo
entre as variáveis quantitativas. Com esses modelos podemos prever (mediante um erro
tolerável) qual possível valor da variável dependente está associado ao valor conhecido da
variável independente. Basicamente, a regressão linear restringe-se a análise de apenas DUAS
variáveis, digamos 𝑋 e 𝑌, e supõe-se que a curva teórica de regressão seja expressa por uma
sentença matemática. Para entendimento, suponha colhida uma amostra de (𝑛) pares de valores
(ou objetos) da forma (𝑥𝑖 , 𝑦𝑖 ) com 𝑖 = 1, ⋯ , 𝑛, que devem satisfazer algum modelo de
regressão. Se designarmos o valor aproximado de (𝑦𝑖 ) por (𝑦̂) então existirá um modelo
matemático 𝑦̂ = 𝜇(𝑥𝑖 ) capaz de fornecer uma aproximação (se não o valor exato) de (𝑦𝑖 ) para
qualquer valor conhecido da variável (𝑥𝑖 ), e vice-versa. Como o coeficiente de correlação linear
de Pearson (𝑟) fornece o grau de relação linear entre as variáveis 𝑌 e 𝑋, e, o valor 𝑟 2 100%
descreve o percentual dos pontos de 𝑌 que são explicados pelos pontos de 𝑋, é razoável usarmos
seu valor para decidirmos se o modelo linear dado em (8.14) é o mais adequado. Quando o
modelo linear não for adequado podemos testar outros modelos como os dados em (8.11) e em
(8.12).Nestas notas nos restringiremos a discutir os seguintes modelos.
Linear [𝐿𝑖𝑛] 𝑦̂ = 𝐴 + 𝐵𝑥
Exponencial [𝐸𝑥𝑝] 𝑦̂ = 𝐴𝑒 𝐵𝑥
Quadrático [𝑄𝑢𝑎𝑑] 𝑦̂ = 𝐴 + 𝐵𝑥 + 𝐶𝑥 2
Uma maneira, não tão eficiente, de deduzir qual o melhor modelo a ser usado é
analisando o diagrama de dispersão. A análise deste possibilita uma visão geométrica do
comportamento associativo entre as variáveis, nos dando, assim, uma ideia de qual modelo usar.
O leitor deve pensar: num mesmo problema posso usar qualquer um desses modelos? A resposta

é sim, porém, existe um que melhor se ajusta à nuvem de pontos do diagrama de dispersão. O
termo linear é usado para indicar que o modelo é linear nos parâmetros da regressão (𝐴, 𝐵, 𝐶, ⋯),
e, não porque 𝑦̂ (resposta) é função linear dos 𝑥, (regressores). Por exemplo, a expressão
quadrática da forma
𝑦̂ = 𝐴 + 𝐵𝑥 + 𝐶𝑥 2 (8.11)
é um modelo linear em 𝐴, 𝐵 e 𝐶, mesmo tendo como gráfico uma parábola. Já o modelo
𝑦̂ = 𝐴𝑒 𝐵𝑥 (8.12)
não é linear em 𝐴 e 𝐵. Contudo, podemos transformar o modelo (8.12) em um modelo linear

por meio de uma transformação das variáveis. Assim, tomando-se o logaritmo natural (de base
𝑒) em ambos os membros de (8.12) obtemos
ln 𝑦̂ = ln 𝐴 + 𝐵𝑥 →⇢ 𝑦̂ ′ = 𝐴′ + 𝐵𝑥 (8.13)
que é linear em 𝐴′ e 𝐵.Na prática é comum lidarmos com amostras e não com populações, por
isso, para manter uma notação coerente deveríamos escrever 𝑎, 𝑏, 𝑐, ⋯ para estimar os
verdadeiros valores de 𝐴, 𝐵, 𝐶, ⋯ (não o faremos nestas notas).
Várias calculadoras científicas e programas computacionais permitem obter os

parâmetros de um ajuste linear, e, também para uma grande variedade de ajustes não lineares.
Para perceber bem como funcionam essas calculadoras e programas, aconselhamos que, pelo
menos uma ou duas vezes e para ajustes lineares, você leitor, faça os cálculos e compare os
resultados obtidos com os da calculadora ou programa de computador.
Regressão Linear do tipo 𝒚

̂ = 𝑨 + 𝑩𝒙
Como visto anteriormente o grau de associação entre duas variáveis quantitativas é dado
pelo coeficiente de correlação linear de Pearson (𝒓) dado em (8.7). O 𝑟 de Pearson reflete a
extensão em que cada sujeito mensurado dependente é explicado pela variável independente.
Só para lembrar, a correlação pode ser classificada, quanto ao sentido, em positiva ou negativa.
Uma correlação positiva e próxima de +1 ou uma correlação negativa e próxima de −1 indicam
que existe uma reta como em(8.14).
𝑦̂ = 𝐴 + 𝐵𝑥 (8.14)

que se ajusta à nuvem de pontos no diagrama de dispersão. Na prática sabe-se que não existe
ajuste perfeito, logo, os valores (𝑦̂) obtidos por (8.14) são aproximações dos valores reais (𝑦).
Para uma amostra de (𝑛) pares de valores (ou objetos) da forma (𝑥𝑖 , 𝑦𝑖 ) com 𝑖 = 1, ⋯ , 𝑛, que
devem satisfazer ao modelo (8.14), a diferença existente é chamada de erro de ajuste ou
resíduos e será indicado por
𝑒̂𝑖 = 𝑦𝑖 − 𝑦̂ 𝑜𝑢 𝑒̂𝑖 = 𝑦𝑖 − (𝐴 + 𝐵𝑥𝑖 ) (8.15)
Graficamente temos,
Figura 8.8
Procurando minimizar os efeitos desse ajuste, vamos minimizar a soma dos quadrados dos
desvios. Assim, chamando de 𝑆𝑄(𝐴, 𝐵) a soma dos quadrados desses desvios, temos
2
𝑆𝑄(𝐴, 𝐵) = ∑ 𝑒̂𝑖2 = ∑(𝑦𝑖 − (𝐴 + 𝐵𝑥𝑖 )) (8.16)
Para cada valor de 𝐴 e 𝐵 teremos um resultado para essa soma de quadrados, e a solução
de mínimos quadrados (MQ) é aquela que torna essa soma mínima. Temos um problema de
minimizar a função 𝑆𝑄(𝐴, 𝐵). Usando algumas técnicas de cálculo, chegamos à solução do
sistema (8.16) nas variáveis 𝐴 e 𝐵, a saber,
𝑛 ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖 ∑ 𝑦𝑖 − 𝐵 ∑ 𝑥𝑖
𝐵= e 𝐴= (8.17)
𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2 𝑛

Dessa forma, a reta de regressão dada em (8.14) se ajusta aos pontos do diagrama de
dispersão com erro mínimo. Uma utilidade dessa reta de regressão é que com ela é possível
fazermos previsões sobre futuros valores. Isso é possível porque assumimos a dependência
entre as variáveis. É aconselhável usar o máximo de dígitos decimais possíveis nos cálculos
usando (8.17).
Exemplo 8.9 Vamos obter a reta de regressão dos dados apresentados na Tabela 8.15.
Solução: Acrescentando as colunas (𝑥2𝑖 ), (𝑦2𝑖 ) e (𝑥𝑖 𝑦𝑖 ) obtemos a tabela abaixo
Renda bruta Gastos com saúde

(x 1.000) (% da renda 𝑥𝑖2 𝑦𝑖2 𝑥𝑖 ∙ 𝑦𝑖
(X) bruta)(Y)
12 7,2 144 51,84 86,4
16 7,4 256 54,76 118,4
18 7,0 324 49,00 126,0
20 6,5 400 42,25 130,0
28 6,6 784 43,56 184,8
30 6,7 900 44,89 201,0
40 6,0 1.600 36,00 240,0
48 5,6 2.304 31,36 268,8
50 6,0 2.500 36,00 300,0
54 5,5 2.916 30,25 297,0
∑ = 316 ∑ = 64,5 ∑ = 12.128 ∑ = 419,91 ∑ = 1.952,4
Usando (8.7) obtemos 𝑟 = −0,940462. Dessa forma 𝑟 2 100% nos diz que 88,45% dos gastos
com saúde são explicados (devidos) à renda. Como 𝑟 < 0 temos uma correlação linear
decrescente forte. Logo, a reta de regressão será decrescente.
Usando as equações obtidas em (8.17) obtemos, 𝐵 = −0,04 e 𝐴 = 7,7155. Dessa forma, a reta
dada em (8.14) fica 𝑦̂ = 7, 7155 − 0,04𝑥. Se quisermos estimar quanto será o gasto com saúde
numa família com renda igual a 78, basta fazer 𝑥 = 78 na equação obtida. Assim, 𝑦̂|𝑥=78 =
7,7155 − 0,04 ∙ 78 = 4,5955, ou seja, a família que ganha R$ 78.000,00 gasta 4,60%
aproximadamente saúde. Graficamente temos,

7,5
(% da renda bruta)
Gastos com saúde
6,5
5,5
5
11 21 31 41 51
Renda Bruta
■
Regressão Linear do tipo 𝒚

̂ = 𝑨 + 𝑩𝒙 + 𝑪𝒙𝟐
Existem situações práticas (muitos problemas de Matemática Aplicada) em que a

curva de melhor ajuste não é uma reta nem uma exponencial, e sim, um polinômio de grau 𝑛 ≥
2. Nestas notas trataremos apenas de ajustes cuja curva seja expressa por uma equação de 2º
grau ou função quadrática. O modelo de ajuste da regressão quadrática foi introduzido em
(8.11). Assim, o modelo 𝑦̂ = 𝐴 + 𝐵𝑥 + 𝐶𝑥 2 , onde 𝐴, 𝐵 e 𝐶 são uma solução do sistema de
equações lineares mostrado em (8.18), é um modelo linear nas variáveis 𝐴, 𝐵 e 𝐶 (ou modelo
quadrático). Usando a técnica usada em (8.16), chegamos ao sistema(8.18).
𝐶 ∑ 𝑥𝑖4 + 𝐵 ∑ 𝑥𝑖3 + 𝐴 ∑ 𝑥𝑖2 = ∑ 𝑥𝑖2 𝑦𝑖
𝐶 ∑ 𝑥𝑖3 + 𝐵 ∑ 𝑥𝑖2 + 𝐴 ∑ 𝑥𝑖 = ∑ 𝑥𝑖 𝑦𝑖 (8.18)

2
{𝐶 ∑ 𝑥𝑖 + 𝐵 ∑ 𝑥𝑖 + 𝐴𝑛 = ∑ 𝑦𝑖
É claro que resolver este sistema exige cálculos aritméticos conhecidos da álgebra
linear. A aplicação de uma dessas regras fornece a solução do sistema, ou seja, uma terna da
forma (𝐶, 𝐵, 𝐴) . Note que aparecem somatórios diferentes daqueles usuais, e, neste caso,
devemos ampliar a tabela original.
Exemplo 8.10 O gerente da loja BONS PREÇOS quer estimar o preço da mercadoria em relação
ao número de vendas. Para isso, ele fez um levantamento dos 5 últimos meses no qual obteve a
seguinte tabela:

Preço de venda (em R$) 135 197 218 180 141

Quantidade vendida (em unid.) 17 34 64 81 99
Determine a curva que melhor se ajuste a esse problema, e, baseado nela, estime a o preço de
venda se a meta a estipulada é vender 75 unidades.
Solução: Inicialmente, vamos ter uma ideia do diagrama de dispersão. Usando uma escala
adequada e designando por 𝑋: quantidade Vendida e 𝑌: o preço de venda
250
Preço de Venda (em R$)
200
150
100
50
0
0 20 40 60 80 100 120
Quantidade Vendida (em unid.)
Analisando esse diagrama de dispersão, vemos que o modelo quadrático melhor se ajusta a
esses dados. Vamos ampliar a tabela dada como abaixo
Quantidade Preço nas

vendida vendas 𝑥𝑖2 𝑥𝑖3 𝑥𝑖4 𝑥𝑖2 𝑦𝐼 𝑥𝑖 𝑦𝑖
(X) (Y)
17 135 289 4.913 83.521 39.015 2.295
34 197 1.156 39.304 1.336.336 227.732 6.698
64 218 4.096 262.144 16.777.216 892.928 13.952
81 180 6.561 531.441 43.046.721 1.180.980 14.580
99 141 9.801 970.299 96.059.601 1.381.941 13.959
∑ = 295 ∑ = 871 ∑ = 21.903 ∑ = 1.808.101 ∑ = 157.303.395 ∑ = 3.722.596 ∑ = 51.484
Usando a regra de Cramer obtemos a solução do sistema formato, como em (8.18), a saber 𝐴 =
60,572, 𝐵 = 5,429 e 𝐶 = −0,047. Assim o modelo quadrático fica da forma 𝑦̂ = 60,572 +
5,429𝑥 − 0,047𝑥 2 .Graficamente temos

250
Preço de Venda (em R$) 200
150
100
50
0
0 20 40 60 80 100 120
Quantidade Vendida (em unid.)
Para estimar o preço de venda quando a meta é 75 unidades, faça 𝑥 = 75 no modelo

acima. Assim, 𝑦̂|𝑥=75 = 60,572 + 5,429 ∙ 75 − 0,047 ∙ (75)2 = 203,37. Portanto, o preço
sugerido para alcançar a meta é de R$ 203,37.
■
Regressão não Linear do tipo 𝒚

̂ = 𝑨 ∙ 𝒆𝑩𝒙
Neste caso, podemos usar todo o conhecimento adquirido até aqui para modelos lineares
do tipo (8.14), porém, é necessário fazer uma transformação de variáveis, como em (8.13). Dessa
forma, usaremos essa mudança de variável apenas para facilitar o cálculo dos valores 𝐴 e 𝐵 que
são usados em (8.12). Vejamos,
𝐿𝑖𝑛𝑒𝑎𝑟𝑖𝑧𝑎𝑛𝑑𝑜
𝑦̂ = 𝐴𝑒 𝐵𝑥 → ln 𝑦̂ = ln 𝐴 + 𝐵𝑥𝑖 (8.19)
Com essa mudança de variável, o coeficiente de correlação linear de Pearson (𝑟) fica da
seguinte forma,
𝑛 ∑ 𝑥𝑖 ln 𝑦𝑖 − ∑ 𝑥𝑖 ∑ ln 𝑦𝑖
𝑟𝑒 =
(8.20)
√(𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2 ) ⋅ (𝑛 ∑(ln 𝑦𝑖 )2 − (∑ ln 𝑦𝑖 )2 )
e as equações dadas em (8.17) ficam como abaixo,
𝑛 ∑ 𝑥𝑖 ln 𝑦𝑖 − ∑ 𝑥𝑖 ∑ ln 𝑦𝑖 ∑ ln 𝑦𝑖 −𝐵 ∑ 𝑥𝑖
𝐵= e 𝐴=𝑒 𝑛 (8.21)
𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2

Como os cálculos envolverão logaritmos, é aconselhável usar o máximo de dígitos

decimais possíveis nos cálculos. O exemplo abaixo ilustrará melhor essas ideias.
Exemplo 8.11 Pedro postou um vídeo no YouTube. O vídeo fez tanto sucesso que Pedro deseja
obter um modelo de regressão, com ajuste exponencial, para o número de visualizações de seu
vídeo. Para tal, ele tabelou o número de visualizações por dia, conforme quaro abaixo.
Dias Número de
Online visualizações
1 12
2 25
3 76
4 275
5 1.008
6 4.319
7 16.355
8 65.389
9 265.772
10 1.048.997
Faça uma regressão, com ajuste exponencial, para o número de visualizações desse vídeo. Faça
uma estimativa para o número de visualizações no décimo quinto dia.
Solução: Vamos incrementar essa tabela com as colunas ln 𝑦, 𝑥 2 , (ln 𝑦)2, 𝑥 ln 𝑦. A nova tabela
fica como abaixo
Dias Número de
Online visualizações ln 𝑦 𝑥2 (ln 𝑦)2 𝑥 ln 𝑦
(X) (Y)
1 12 2,4849 1 6,1748 2,4849
2 25 3,2189 4 10,3612 6,4378
3 76 4,3301 9 18,7553 12,9922
4 275 5,6168 16 31,5481 22,4671
5 1.008 6,9157 25 47,8272 34,5786
6 4.319 8,3708 36 70,0700 50,2247
7 16.355 9,7023 49 94,1344 67,9160
8 65.389 11,0881 64 122,9462 88,7049
9 265.772 12,4903 81 156,0099 112,4135
10 1.048.997 13,8633 100 192,1923 138,6335

∑ = 55 --- ∑ = 78,08 ∑ = 385 ∑ = 750,02 ∑ = 536,853
Usando(8.20) calculamos o coeficiente de correlação exponencial linearizado
10 ∙ 536,853 − 55 ∙ 78,08
𝑟𝑒 = = 0,998138
√(10 ∙ 385 − (55)2 ) ∙ (10 ∙ 750,02 − (78,08)2 )
perceba que a correlação exponencial é muito forte. Assim, usaremos o modelo descrito em
(8.12). Para determinar os valores de 𝐴 e de 𝐵 para esse modelo usa-se (8.21). Assim,
10 ∙ 536,853 − 55 ∙ 78,08 78,08−𝐵∙55
B= = 1,30197 e 𝐴=𝑒 10 = 1,91012
10 ∙ 385 − (55)2
dessa forma o modelo exponencial pedido tem a forma descrita abaixo𝑦̂ = 1,91012𝑒 1,30197𝑥 .
Graficamente temos,
10000
Número de visualizações
8000
𝑦̂ = 1,91012𝑒 1,30197𝑥
6000
4000
2000
0
0 2 4 6 8 10 12
Dias online
Uma estimativa para o décimo quinto dia é fazer 𝑥 = 15 no modelo acima. Logo,
𝑦̂|𝑥=15 = 1,91012𝑒 1,30197∙15 ≅ 578.943.858
Portanto, são esperadas 578.943.858 visualizações ao vídeo no décimo quinto dia de

postagem. (esses valores, quando obtidos diretamente na calculadora ou Excel, serão um
pouquinho diferentes).
■

1. Uma companhia de seguros analisou a frequência com que 2.000 segurados (1.000 homens
e 1.000 mulheres) usam o hospital. Os resultados foram:
homens mulheres
Usam o hospital 100 150
Não usam o hospital 900 850
a) Calcule a proporção de homens entre os indivíduos que usam o hospital.
b) Calcule a proporção de homens entre os indivíduos que não usam o hospital.
c) O uso do hospital independe do sexo do segurado?
2. Querendo analisar a variável obesidade (usando o IMC) segundo a região de moradia em
uma pequena cidade, o prefeito encomendou um estudo estatístico. A tabela abaixo contém
as medidas resumo da variável 𝑋: Valor do IMC para cada localidade
Tabela –Medidas-resumo para a variável 𝑋 segundo a região de moradia de uma amostra
de 36 moradores dessa cidade
Local de
𝑛 𝑋̅ 𝜎(𝑋) 𝜎 2 (𝑋) 𝑥1 𝑄1 𝑄2 𝑄3 𝑥𝑛
Moradia
Subúrbio 12 32,22 8,24 67,82 22,90 26,78 30,10 36,80 48,10
Centro 18 24,21 5,34 28,53 18,90 20,95 22,65 25,35 39,80
Zona Rural 6 20,03 1,98 3,92 16,90 19,03 20,70 20,95 22,40
Total 36 26,22 7,56 57,19 16,90 20,95 23,25 29,05 48,10
a) Construa os Box-plots, para cada região de moradia, usando um mesmo plano
cartesiano. Discuta os resultados obtidos
b) Considerando os dados da tabela, estime o grau de associação entre as variáveis.
Explique o resultado.
3. A companhia A de dedetização afirma que o processo por ela utilizado garante um efeito
mais prolongado do que aquele obtido por seus concorrentes mais diretos. Uma amostra de
vários ambientes dedetizados foi colhida e anotou-se a duração do efeito de dedetização.
Os resultados estão na tabela abaixo. Você acha que existe alguma evidência a favor ou
contra a afirmação feita pela companhia A?R. Não há diferença entre as três empresas
Duração do efeito de dedetização
Menos de 4 De 4 a 8 Mais de 8
Companhia
meses meses meses
A 64 120 16
B 104 175 21

C 27 48 5
4. Procurando quantificar os efeitos da escassez de sono sobre a capacidade de resolução de

problemas simples, um agente tomou ao acaso 6 sujeitos e os submeteu a experimentação.
Deixou-os sem dormir por diferentes números de horas e, após solicitou-os resolvessem
"contas de adicionar" de um teste, obtendo os seguintes dados:
No de erros Horas sem dormir
8 8
6 8
6 12
10 12
12 19
14 21
a. Faça uma análise do coeficiente de correlação linear de Pearson. Como 𝑟 = 0,88305 temos
𝑝𝑟 = 77,98%. Isso mostra que em 77,98% dos casos a falta de sono interfere na agilidade de raciocínio.
b. Construa o gráfico de dispersão. Obtenha a reta de regressão. Essa reta é um bom

modelo de ajuste? Justifique
5. Usando o problema 3, verifique se há relações entre as variáveis rotatividade e salário. R.
Existe relação, pois as probabilidades marginais não se repetem no interior da tabela.
6. Qual o valor de 2 e de 𝐶 para os dados do problema 1? E para o problema 3?

7. Usando os dados do problema 3, calcule o coeficiente de correlação. Baseado nesse número
você diria que existe dependência entre as duas variáveis?
8. Numa pesquisa sobre rotatividade de mão de obra, para uma amostra de 40 pessoas foram
observadas duas variáveis: número de empregados nos últimos dois anos (X) e salário mais
recente, em número de salários mínimos (Y). Os resultados foram:
Indivíduo X Y Indivíduo X Y

1 1 6 21 2 4
2 3 2 22 3 2
3 2 4 23 4 1
4 3 1 24 1 5
5 2 4 25 2 4
6 2 1 26 3 2
7 3 3 27 4 1
8 1 5 28 1 5
9 2 2 29 4 4
10 3 2 30 3 3
11 2 5 31 2 2
12 3 2 32 1 1
13 1 6 33 4 1
14 2 6 34 2 6
15 3 2 35 4 2
16 4 2 36 3 1
17 1 5 37 1 4
18 2 5 38 3 2
19 2 1 39 2 3
20 2 1 40 2 5
a) Usando a mediana, classifique os indivíduos em dois níveis, alto e baixo, ara cada uma
das variáveis, e construa a distribuição de frequência conjunta das duas classificações
b) Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco? R. 2,5%
c) Qual a porcentagem das pessoas que ganham pouco? R. 50%
d) Entre as pessoas com baixa rotatividade, qual a porcentagem das que ganhas pouco? R.
12,5%
e) A informação adicional dada em (d) mudou a porcentagem observada em (c) o que isso
significa? R. Bastante modificada; a maioria das pessoas que ganham pouco têm alta rotatividade.
9. Abaixo estão os dados referentes à porcentagem da população economicamente ativa
empregada no setor primário e o respectivo índice de analfabetismo para algumas regiões
metropolitanas brasileiras.
Regiões Metropolitanas Setor Primário Índice de analfabetismo

São Paulo 2,0 17,5

Rio de Janeiro 2,5 18,5
Belém 2,9 19,5
Belo Horizonte 3,3 22,2
Salvador 4,1 26,5
Porto Alegre 4,3 16,5
Recife 7,0 36,6
Fortaleza 13,0 38,4
a) Faça o diagrama de dispersão
b) Você acha que existe uma dependência linear entre as duas variáveis? R. o gráfico indica
dependência linear
c) Calcule o coeficiente de correlação. R. 𝑟 ≅ 0,86
d) Existe alguma região com comportamento diferente das demais? Se existe, elimine o
valor correspondente e recalcule o coeficiente de correlação. R. Porto Alegre e Fortaleza
apresentam comportamento diferente das demais.
10. Usando os dados do problema 8, faça o que é pedido:
a) Qual a distribuição das proporções do grau de educação segundo cada uma das regiões
de procedência?
b) Baseado no resultado anterior, você diria que existe dependência entre a região de
procedência e o nível de educação do funcionário?
c) Calcular o valor de 2 e o coeficiente de contingência 𝐶. Esse valores estão de acordo
com as conclusões obtidas anteriormente? R. 2=0,67 e C=0,81
11. Usando os dados da tabela 1.1, capítulo 1:
a) Construa a uma tabela com as medidas resumo para a variável salário segundo a região
de procedência.
b) Faça um estudo quantitativo da variável salário por meio do Box-Plot.
c) Estime o grau de associação entre as variáveis. Explique o resultado. R. 𝑅2 = 0,013 ou
seja, apenas 1,3% da variabilidade dos salários é explicada pela região de procedência
12. Uma pesquisa sobre a participação em atividades esportivas de adultos moradores nas
proximidades de centros esportivos construídos pelo estado de Goiás mostrou os resultados
da tabela abaixo. Baseado nesses resultados você diria que a participação em atividades
esportivas depende da cidade? R. Há indicação de relação
Cidade
Participam
Goiânia Anápolis Mineiros Jataí
Sim 50 65 105 120
Não 150 185 195 180

13. Uma pesquisa para verificar a tendência dos alunos a prosseguir os estudos, segundo a
classe social do respondente, mostrou o seguinte quadro?
Pretende Classe social
Total
continuar? Alta Média Baixa
200 220 380 800
Sim
200 280 720 1.200
Não
a) Você diria que a distribuição de respostas afirmativas é igual à de respostas negativas?

R. tomando porcentagens por colunas, há evidências de que a distribuição de respostas SIM e NÃO não
coincidam
b) Existe dependência entre os dois fatores? Dê uma medida quantificadora da
dependência. R. há dependência
c) Se dos 400 alunos da classe alta, 160 escolhessem continuar e 240 não, você mudaria sua
conclusão? Justifique.
14. Os dados abaixo referem-se a um experimento no qual procura-se estudar a relação entre o
diâmetro, em centésimos de polegada, de ervilhas-pais (𝑥) e ervilhas-filhas (𝑦). Analise a
reta de regressão para os dados e interprete o resultado.
Diâmetro em 0,01 de polegadas de sementes de ervilhas
Pais (𝑥) 15,0 16,0 17,0 18,0 19,0 20,0 21,0
Filhos (𝑦) 15,4 15,7 16,0 16,3 16,6 17,0 17,3
15. Os dados amostrais a seguir representa a procura por um produto (em milhares de unidades)
e seu preço (em centavos) cobrado em seus áreas de mercado diferentes.
Preço 18 10 14 11 16 13
Procura 9 125 57 90 22 79
Ajuste uma reta de mínimos quadrados com a qual possamos predizer a procura do produto
em termos de seu preço. R. 𝑦̂ = 257,1103 − 14,154𝑥.
16. A tabela seguinte refere-se ao lucro líquido de uma companhia durante os 6 primeiros anos
de operação:
Lucro Operacional
Ano
Líquido (em $1.000)
1 112
2 149
3 238

4 354
5 580
6 867
Elabore argumentos e cálculos para mostrar que o modelo de regressão exponencial 𝑦̂ =

𝐴 ∙ 𝑒 𝐵𝑥 é um ótimo estimador para esse problema. Usando a equação obtida, estime o Lucro
Líquido da empresa em seu 9 ano de operações.R.𝑦̂ = 69,72225 ∙ 𝑒 0,43624𝑥 . E𝑦̂|𝑥=9 =
3.535,74566 ou um lucro de $ 3.535.745,66.
17. O gráfico de dispersão abaixo corresponde aos resultados de uma análise sobre a renda
familiar e seu gasto com alimentação (em unidades monetárias). Foi realizada com uma
amostra de 25 famílias.
Denotando de Y = Gasto com Alimentação e X = Renda familiar, obteve-se os seguintes

valores:
25 25 25
X = 83,120 Y = 26,660  X i2 = 271934  Yi 2 = 24899,250  Yi X i = 80774,500 .
i =1 i =1 i =1
Calcule o coeficiente de correlação linear e faça uma análise detalhada do resultado

confrontando com os dados do gráfico. Determine a reta de regressão linear.
18. Os dados a seguir referem-se ao tempo de secagem de um verniz de acordo com uma certa
quantidade de certo aditivo químico:
Quantidade de aditivo químico
1 2 3 4 5 6 7 8
em gramas
Tempo de secagem em horas 7,2 6,7 4,7 3,7 4,7 4,2 5,2 5,7
a) Faça o gráfico de dispresão para esses dados.

b) Determine o coeficiente de correlação linear. Uma reta é um bom modelo para se

ajustar a esses pontos? Que regresão seria mais ajustável aos dados? R. 𝑟 = −0,4464. Pelo
gráfico de dispersão, a curva que melhor se ajusta aos dados é uma parábola.
c) Obtenha a equação da regressão que você julgou ser a mais adequada.R. 𝑦̂ = 9,24464 −
2,01488𝑥 + 0,1994𝑥 2
d) Qual o tempo esperado para 10 gramas de aditivo.R. 𝑦̂|𝑥=10 = 9,03 horas
19. Os gastos com propaganda e o respectivo volume de vendas gerado são dados abaixo:
Gastos com propaganda

20 40 10 100 70
(x 1.000 R$)
Volume de vendas
1.110 1.150 1.000 1.350 1.205
(x 1.000 R$
Segundos essses dados é viável continuar investindo em proganda? Justifique com cálculos
sua resposta.R. O coeficiente angular da retade regressão é 𝑚 = 3,363. Isso siginifica que para cada R$
1,00 investido em propaganda, obtém-se R$ 3,363 como retorno nas vendas . Como 𝑟 = 0,96704 tem-se
𝑝𝑟 = 93,51%, concuímos não ser viável investir demasiadamente em propaganda.


ApêndiceApêndice 333
Apêndice
A. Resultados de Análise Combinatória
O cálculo da probabilidade envolve dois conceitos unicamente simples: (1) o número

de casos favoráveis, ou seja, o número de vezes que o evento desejado pode ocorrer no
espaço amostral (2) o número total de casos possíveis quando da realização do experimento.
Na prática, obter esses números não é tarefa fácil por que, em muitos problemas, a obtenção
desses números requer o uso de recursos da Análise Combinatória (Teoria da Contagem).
Quando desejarmos contar o número de casos favoráveis e/ou o total de casos possíveis,
usaremos os seguintes recursos (apresentados aqui sem demonstração).
Definição A-1: O fatorial de um número 𝑛 natural é 𝑛 ∙ (𝑛 − 1) ∙ (𝑛 − 2) ∙ ⋯ ∙ 2 ∙ 1

Exemplo: Sendo 𝑥 = 5, então5! = 5 ∙ 4 ∙ 3 ∙ 2 ∙ 1 = 120
Teorema A-1 (Princípio Multiplicativo): Se uma operação pode ser realizada de 𝑛1

maneiras, e se para cada uma delas uma segunda operação pode ser realizada de 𝑛2
maneiras, e se, para cada uma das duas maneiras, uma terceira operação pode ser realizada
de 𝑛3 , e assim sucessivamente, então a sequência de 𝑘 operações pode ser realizada de 𝑛1 ⋅
𝑛2 ⋅ ⋯ ∙ 𝑛𝑘 maneiras
Exemplo: Eduardo vai montar um computador sozinho. Ele tem a opções de pedir chips de
duas marcas diferentes, o disco rígido de quatro, a memória de três e o grupo de acessórios
de cinco lojas locais. De quantas maneiras diferentes Eduardo pode pedir os equipamentos?
Solução: Aqui temos 𝑛1 = 2, 𝑛2 = 4, 𝑛3 = 3 e 𝑛4 = 5. Logo, 𝑛1 ⋅ 𝑛2 ⋅ 𝑛3 ∙ 𝑛4 ∙ 𝑛5 = 2 ∙ 4 ∙
3 ∙ 5 = 120 maneiras distintas de se pedir os equipamentos.
Teorema A-2:O número de permutações de 𝑛 objetos é 𝑛!
Exemplo: Anagrama é a ação de reorganizar as posições das letras de uma palavra, formando
outra palavra ou apenas uma sequência de letras sem sentido próprio. Quantos anagramas
têm a palavra CAJU?
Solução: CAJU tem 4 letras, logo, o número de anagramas é 4! = 4 ∙ 3 ∙ 2 ∙ 1 = 24

Teorema A-3:O número de permutações de 𝑛 objetos em círculo é (𝑛 − 1)!
Teorema A-4:O número de permutações distintas de 𝑛 objetos dos quais 𝑛1 é de um

tipo, 𝑛2 um segundo tipo, ⋯, 𝑛𝑘 um tipo 𝑘 − é𝑠𝑖𝑚𝑜 é
𝑛 ,𝑛2 ,⋯,𝑛𝑘 𝑛!
𝑃𝑛 1 =
𝑛1 ! ∙ 𝑛2 ! ∙ ⋯ ∙ 𝑛𝑘 !
Exemplo: De quantas maneiras sete estudantes de graduação podem ser designados para um
dormitório triplo e dois duplos e um hotel durante uma conferência?
Solução: Temos 𝑛 = 7 objetos divididos em três tipos, sendo 𝑛1 = 3, 𝑛2 = 2 e 𝑛3 = 2. A
ordem dentro dos dormitórios não tem importância, assim,
7!
𝑃73,2,2 = = 210
3! ∙ 2! ∙ 2!
Teorema A-5:O número de arranjos (permutações) de 𝑛 objetos agrupados em

grupos contendo 𝑝 objetos é
𝑛!
𝐴𝑛,𝑝 =
(𝑛 − 𝑝)!
Exemplo: Em um ano, três premiações (pesquisa, ensino e serviços) serão entregues a 25

alunos de graduação do curso de Letras. Se cada estudante pode receber no máximo um
prêmio, quantas seleções são possíveis?
Solução: Como os prêmios são distinguíveis, temos um problema de arranjo. Logo 𝐴25,3 =
25!
= 13.800
(25−3)!
Teorema A-6 (Combinação):O número máximo de grupos contendo 𝑝 objetos cada

um que se pode formar de um total de 𝑛 objetos é
𝑛 𝑛!
( ) = 𝐶𝑛,𝑝 =
𝑝 𝑝! (𝑛 − 𝑝)!
Exemplo: Um menino pede à sua mãe cinco cartuchos de Game BoyTM de sua coleção de
dez jogos de fliperama e cinco de jogos de esportes. Quantas maneiras possíveis existem
para que a mãe pegue três jogos de fliperama e dois de esportes, respectivamente?
Solução: O número de maneiras de selecionar três cartuchos entre os dez:
10 10!
( ) = 𝐶10,3 = = 120
3 3! (10 − 3)!

O número de maneiras de selecionar dois cartuchos entre os cinco:

5!
𝐶5,2 = = 10
2! (5 − 2)!
temos 120 maneiras de escolher os três cartuchos de fliperama e 10 maneiras de escolher os
cartuchos de esporte. Usando o Teorema A-1 temos 𝑛1 = 120 e 𝑛2 = 10, portanto, 𝑛1 ∙
𝑛2 = 120 ∙ 10 = 1.200 maneiras distintas de escolher os cinco cartuchos.
B. Calculadora Científica - CASIO 𝒇𝒙-82MS
Podemos usar uma calculadora científica para calcular o coeficiente de correlação e

algumas medidas associadas às variáveis. Para exemplificar considere o modelo CASIO 𝑓𝑥-
82MS. Nela, siga o passo –a – passo a seguir:
1. Limpe a memória estatística da calculadora sempre que for realizar um novo

cálculo estatístico. Para isso pressione a sequência de teclas:
[SHIFT][CLR](MODE) [Scl](1) [=][AC]
Feito isso, todos os dados estatísticos inseridos na calculadora serão apagados, não
podendo, assim, serem usados em cálculos futuros.
2. Acesse o [MODE] de regressão e escolha o tipo de regressão que será usado,
apenas a regressão quadrática não apresenta a opção de mostrar o valor do coeficiente de
correlação. Para isso pressione a sequência de teclas:
[𝑀𝑂𝐷𝐸][𝑅𝐸𝐺](3) [𝑒𝑠𝑐𝑜𝑙ℎ𝑎 𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑠ã𝑜]
As regressões disponíveis na calculadora são:
Linear [𝐿𝑖𝑛] 𝑦 = 𝐴 + 𝐵𝑥
Logarítmica [𝐿𝑜𝑔] 𝑦 = 𝐴 + 𝐵 ln 𝑥
Exponencial [𝐸𝑥𝑝] 𝑦 = 𝐴 𝑒 𝐵𝑥
Potência [𝑃𝑤𝑟] 𝑦 = 𝐴 𝑥 𝐵
𝐵
Inversa [𝐼𝑛𝑣] 𝑦 = 𝐴 +
𝑥
Quadrática [𝑄𝑢𝑎𝑑] 𝑦 = 𝐴 + 𝐵𝑥 + 𝐶𝑥 2
Figura B.1
3. Para inserir um par de números da forma (𝑋, 𝑌), o procedimento é simples:
, , , ,
[𝑥1 ][ ][𝑦1 ][𝑀 +][𝑥2 ][ ][𝑦2 ][𝑀 +][𝑥3 ][ ][𝑦3 ][𝑀 +] ⋯ [𝑥𝑛 ][ ][𝑦𝑛 ][𝑀 +]

Cuidado! A calculadora faz a leitura dos pares na ordem em que são inseridos, sempre
o primeiro valor inserido é lido como variável (X) e o segundo valor como a variável (Y).
Caso o par (𝑥1 , 𝑦1 ) tenha frequência 𝑓1
4. Terminada a inserção dos dados, e escolhida a regressão, é possível obter os
seguintes valores relacionados às variáveis:
∑𝑥 ∶ [𝑆𝐻𝐼𝐹𝑇][𝑆 − 𝑆𝑈𝑀](1) [∑𝑥](2) [=]
∑𝑦 ∶ [𝑆𝐻𝐼𝐹𝑇][𝑆 − 𝑆𝑈𝑀](1) [][∑𝑦](2) [=]
∑ 𝑥𝑦 ∶ [𝑆𝐻𝐼𝐹𝑇][𝑆 − 𝑆𝑈𝑀](1) [][∑𝑥𝑦](3) [=]
∑ 𝑥2 ∶ [𝑆𝐻𝐼𝐹𝑇][𝑆 − 𝑆𝑈𝑀](1) [∑𝑥 2 ](1) [=]
∑ 𝑦2 ∶ [𝑆𝐻𝐼𝐹𝑇][𝑆 − 𝑆𝑈𝑀](1) [][∑𝑦 2 ](1) [=]
𝑥̅ ∶ [𝑆𝐻𝐼𝐹𝑇][𝑆 − 𝑉𝐴𝑅](2) [𝑥̅ ](1) [=]
𝑦̅ ∶ [𝑆𝐻𝐼𝐹𝑇][𝑆 − 𝑉𝐴𝑅](2) [][𝑦̅](1) [=]
e assim por diante, dependendo da regressão escolhida
Figura B.2
e também as seguintes medidas
Desvio padrão populacional : [𝑆𝐻𝐼𝐹𝑇][𝑆 − 𝑉𝐴𝑅](2) [𝑥𝜎𝑛](2) 𝒐𝒖 [][𝑦𝜎𝑛](2) [=]
Desvio padrão amostral : [𝑆𝐻𝐼𝐹𝑇][𝑆 − 𝑉𝐴𝑅](2) [𝑥𝜎𝑛 − 1](3) 𝒐𝒖 [][𝑦𝜎𝑛 − 1](3) [=]
A imagem inversa de 𝑦0 : [𝑦0 ][𝑆𝐻𝐼𝐹𝑇][𝑆 − 𝑉𝐴𝑅](2) [][][][𝑥̂](1) [=]
A imagem de 𝑥0 : [𝑥0 ][𝑆𝐻𝐼𝐹𝑇][𝑆 − 𝑉𝐴𝑅](2) [][][][𝑦̂](2) [=]
Coeficiente de correlação linear : [𝑆𝐻𝐼𝐹𝑇][𝑆 − 𝑉𝐴𝑅](2) [][][𝑟](3) [=]
Os coeficientes A, B e C das regressões : [𝑆𝐻𝐼𝐹𝑇][𝑆 − 𝑉𝐴𝑅](2) [][][𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒][=]
Figura B.3
Desenvolvimento detalhado da equação 4.16 da página 131.
lim 𝑏(𝑥; 𝑛, 𝑝) 𝑛 𝜆 𝑥 𝜆 𝑛−𝑥

n→∞
= lim ( ) ( ) (1 − )
n→∞ 𝑥 𝑛 𝑛

𝑛! 𝜆 𝑥 𝜆 𝑛 𝜆 −𝑥
= lim ( ) (1 − ) (1 − )
n→∞ 𝑥! (𝑛 − 𝑥)! 𝑛 𝑛 𝑛
𝑛(𝑛 − 1)(𝑛 − 2) ⋯ (𝑛 − (𝑥 − 1))(𝑛 − 𝑥)! 𝜆 𝑥 𝜆 𝑛 𝜆 −𝑥

= lim ( ) (1 − ) (1 − )
n→∞ 𝑥! (𝑛 − 𝑥)! 𝑛 𝑛 𝑛
𝑛(𝑛 − 1)(𝑛 − 2) ⋯ (𝑛 − (𝑥 − 1)) (𝜆)𝑥 𝜆 𝑛 𝜆 −𝑥

= lim (1 − ) (1 − )
n→∞ 𝑥! 𝑛𝑥 𝑛 𝑛
𝑥 𝑓𝑎𝑡𝑜𝑟𝑒𝑠
= ⏞
𝑛(𝑛 − 1)(𝑛 − 2) ⋯ (𝑛 − (𝑥 − 1)) (𝜆)𝑥 𝜆 𝑛 𝜆 −𝑥
lim (1 − ) (1 − )
n→∞ 𝑛𝑥 𝑥! 𝑛 𝑛
1 2 (𝑥−1)
Aqui, pus 𝑛 em 𝑛 𝑥 (1 − 𝑛) (1 − 𝑛) ⋯ (1 − ) 𝜆 −𝑥 𝜆 𝑛 (𝜆)𝑥
𝑛
evidencia em cada fator = lim 𝑥 [ (1 − ) ] (1 − )
n→∞ 𝑛 1 𝑛 𝑛 𝑥!
do numerador
1 2 (𝑥−1)
(1 − 𝑛) (1 − 𝑛) ⋯ (1 − 𝑛
) 𝜆 −𝑥 𝜆 𝑛 (𝜆)𝑥
Aplicando o limite lim [ (1 − ) ] (1 − )
= n→∞ 1 𝑛 ⏟ 𝑛 𝑥!
temos ⏟ 𝑒 −𝜆
1
(𝜆)𝑥
= 𝑒 −𝜆
𝑥!
Dessa forma, fica demonstrado que
−𝜆𝑡
(𝜆𝑡)𝑥
lim 𝑏(𝑥; 𝑛, 𝑝) = 𝑒
n→∞ 𝑥!
C. Tabelas Estatísticas

Substituir esta folha pela Tabela I

Substituir esta folha pela Tabela II

Substituir esta folha pela Tabela III

Substituir esta folha pela Tabela IV

Substituir esta folha pela Tabela V
Referências Bibliográficas
[1]. BUSSAB, Wilton de O. & MORETTIN, Pedro A., Estatística Básica, 5ª ed. – São
Paulo: Saraiva, 2004.

Referências BibliográficasReferências Bibliográficas 343
[2]. DEVORE, Jay L., Probability and statistics for engineering and the sciences;
[tradução Joaquim Pinheiro Nunes da Silva]. –– São Paulo: Cengage Learning, 2006
[3]. FERREIRA, Daniel Furtado, Estatística Básica, 2ª ed. rev. – Lavras: editora
UFLA, 2009.
[4]. FONSECA, Jairo Simon da & MARTINS, Gilberto de Andrade, Curso de
Estatística, 6ª ed. – São Paulo: Atlas, 1996.
[5]. LEVIN, Jack, Elementary Statistics in Social Research, [tradução: Sérgio
Francisco Costa]. – 2ª ed. – São Paulo, Harbra Ltda,
[6]. MONTGOMERY, Douglas C, & RUNGER, George C. Applied Statistics and
Probability for Engineers-5a ed. ISBN–13: 978-0-470-05304-1
[7]. PESTANA, D. & VELOSA, S. Introdução à Probabilidade e à Estatística,
Volume I, 4ª edição, Fundação Calouste Gulbenkian, 2010
[8]. ROSS, Sheldon M, A first course in probability, 6a ed. University of California,
Berkeley: Prentice Hall, 2002.
[9]. SILVA, Ermes Medeiros da ⋯ |et al.|, Estatística 2: para os cursos de economia
e ciências contábeis, 3ª ed. – São Paulo: Atlas, 2011
[10]. WALPOLE, Ronald E. ⋯|et al.|, Probability & Statistics for Engineers &
Scientists– 9ª ed. Pearson Prentice Hall, 2012
[11]. S
[12]. S

Probabilidade e Estatistica - 3th Edição - Erivelton Vitor

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Probabilidade e Estatistica - 3th Edição - Erivelton Vitor

Enviado por

Direitos autorais:

Formatos disponíveis

PROF. ME.

Prof. Me. Erivelton P. Vitor

Texto elaborado unicamente como apoio didático

No século XIX, o desenvolvimento do cálculo de probabilidade e outras metodologias

Prof. Me. Erivelton Vitor

A disciplina estatística nos ensina a fazer julgamentos inteligentes e a tomar decisões na

Prof. Me. Erivelton Vitor

Prof. Me. Erivelton Vitor

desenvolvimento de um plano detalhado para coletar dados, planejamento de

Prof. Me. Erivelton Vitor

1.2. Análise de dados e probabilidades

Normalmente, estamos interessados apenas em certos aspectos únicos das unidades

Prof. Me. Erivelton Vitor

classificamos as variáveis em qualitativas, quando os resultados associados forem categóricos

Exemplo 1.1 As investigações de resistência de materiais fornecem um campo fértil para a

Prof. Me. Erivelton Vitor

linguagem do dia-a-dia e interpretadas, e quando e onde podem ocorrer ciladas na aplicação

Em um problema de probabilidade, as propriedades da população, que são objeto de

Prof. Me. Erivelton Vitor

Vemos que a teoria da probabilidade é, no fundo, apenas o senso comum reduzido ao

1.3. Organização dos dados e medidas resumo.

Prof. Me. Erivelton Vitor

em milhões, em 10 amostras de água subterrânea é um conjunto numérico 𝑌 de dados

Tabela 1.1 Tipo de transmissão entre os 10 automóveis recentemente negociados

para a variável 𝑌 temos,

Um conjunto de dados é classificado em bivariado quando as observações são feitas em

Prof. Me. Erivelton Vitor

Medidas Resumo e separatrizes

Uma característica importante de um conjunto de números é sua localização e, em

Prof. Me. Erivelton Vitor

Prof. Me. Erivelton Vitor

Considerando as 𝑛 estatísticas de ordem de uma variável 𝑋, ou seja, 𝑥1 ≤ ⋯ ≤ 𝑥𝑛 é fácil

Prof. Me. Erivelton Vitor

mediana em qualquer conjunto ordenado de valores referentes aos resultados de alguma

𝑞(0,25): 1𝑜 𝑄𝑢𝑎𝑟𝑡𝑖𝑙 = 25𝑜 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 Não se esqueça: 𝑄1 = 𝑞(0,25) é entendido

𝑞(0,75): 3𝑜 𝑄𝑢𝑎𝑟𝑡𝑖𝑙 = 75𝑜 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 resultados à sua esquerda

É usual indicarmos os quartis por 𝑄1, 𝑄2 e 𝑄3 , decis por 𝐷1 , 𝐷2 , ⋯, 𝐷9 e os percentis por

Dependendo do valor de 𝑝, há muita dificuldade ao se calcular os quantis. Para isso,

Exemplo 1.3 Calcule o 1º quartil e o 3º quartil dos dados do Exemplo 1.2.

Prof. Me. Erivelton Vitor

Solução: Aqui é considerado 𝑝 = 0,25. Como 𝑛 = 36 temos 𝑝 ⋅ (𝑛 + 1) = 0,25 ⋅ 37 = 9,25.

Como vimos, o propósito da mediana amostral é o de refletir a tendência central da

sendo 𝑄1 = 𝑞(0,25) e 𝑄3 = 𝑞(0,75). No exemplo acima, obtemos o valor do intervalo

Prof. Me. Erivelton Vitor

a diferença 𝑄2 − 𝑥1 é dita dispersão inferior (di) e 𝑥𝑛 − 𝑄2 a dispersão superior (ds)

É simples verificar que 𝐴̅ = 𝐵̅ = 𝐶̅ = 𝐷

Prof. Me. Erivelton Vitor

conveniência de serem criadas medidas que sumarizem a variabilidade de um conjunto de

Prof. Me. Erivelton Vitor

distinção entre variável amostral e variável populacional será importantíssimo. Na prática,

Dessa forma ambos os grupos A e D são igualmente homogêneos em relação à média

Quando calculamos a média amostral, cometemos um certo erro em relação ao valor da

Prof. Me. Erivelton Vitor

Prof. Me. Erivelton Vitor

Considerando os dados do Exemplo 1.2, reproduzidos abaixo

Estatísticas amostrais para os dados do exemplo 1.2

Prof. Me. Erivelton Vitor

onde 𝑥̅ indica a média, 𝑛 indica o total de dados e 𝑆 o desvio padrão da distribuição 𝑋. É

Assimétrico à esquerda ou negativa Assimétrica à direita ou positiva

A classificação quanto a curtose é dada abaixo

Prof. Me. Erivelton Vitor

Se 𝐾 < 0,263 então 𝑋 é uma curva Leptocúrtica

Exercícios: lista 1.1

1. A diretoria de um sindicato de trabalhadores do ABC paulista, preocupada com a