Livro PDF

Probabilidade e Estatística
UNIVERSIDADE FEDERAL DA PARAÍBA
Reitora
MARGARETH DE FÁTIMA FORMIGA MELO DINIZ
Vice-Reitor
EDUARDO RAMALHO RABENHORST
EDITORA DA UFPB
Diretora
IZABEL FRANÇA DE LIMA
Vice-Diretor
JOSÉ LUIZ DA SILVA
Supervisão de Editoração
ALMIR CORREIA DE VASCONCELLOS JÚNIOR
Supervisão de Produção
JOSÉ AUGUSTO DOS SANTOS FILHO
CONSELHO EDITORIAL
Prof Dr. Lucídio Cabral ..................................(UFPB)
Prof Dr. Danielle Rousy..................................(UFPB)
Prof. Ms. Eduardo de Santana Medeiros..........(UFPB)
Andrea Vanessa Rocha
Editora da UFPB
João Pessoa
2014
Capa - Projeto gráfico: Renato Arrais e Eduardo Santana
Editoração eletrônica: Eduardo de Santana Medeiros Alexandre
Catalogação na publicação
Universidade Federal da Paraíba
Biblioteca Setorial do CCEN
R672p Rocha , Andrea Vanessa.

Probabilidade e Estatística / Andrea Vanessa Rocha; editor: Eduardo de
Santana Medeiros Alexandre. – João Pessoa: Editora da UFPB, 2014. - João
Pessoa: Curso de Licenciatura em Computação na Modalidade à Distância /
UFPB, Junho de 2014.
154. : il. –
ISBN: XXX-XX-XXX-XXXX-X (PENDENTE)
Curso de Licenciatura em Computação na Modalidade à Distância.

Universidade Federal da Paraíba.
1. Estatística. 2. Teoria dos Conjuntos. 3. Probabilidade. 4. Variáveis

Aleatórias. 5. Esperança de Variável. 5. Distribuições discretas. 6.
Distribuições Contínuas. 7. Inferência estatística. I. Título.
BS-CCEN CDU 519.2
Todos os direitos e responsabilidades dos autores.

Este livro e sua versão mais recente pode ser baixado em:
https://github.com/edusantana/estatistica-livro/releases/latest
EDITORA DA UFPB
Caixa Postal 5081 – Cidade Universitária
João Pessoa – Paraíba – Brasil
CEP: 58.051 – 970
http://www.editora.ufpb.br
Impresso no Brasil
Printed in Brazil
i
Sumário
1 Estatística Descritiva 1
1.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Definições importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Tabelas Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1 Série Cronológica ou Temporal . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 Série Geográfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.3 Série Específica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Distribuição de Frequência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1 Construção de uma distribuição de frequência . . . . . . . . . . . . . . . . . 4
1.4 Gráficos Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.2 Polígono de Frequência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.3 Gráfico de Linhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.4 Gráfico de Colunas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.5 Gráfico em Barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.6 Gráfico de Setores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6.2 Desvio Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.6.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6.4 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.6.5 Coeficiente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.7 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
ii
2 Teoria dos Conjuntos e Contagem 23

2.1 Teoria dos Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.1 Comparação entre conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.2 União de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.3 Interseção de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.4 Diferença entre conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.5 Complementar de um conjunto . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.6 Propriedades entre as relações entre conjuntos . . . . . . . . . . . . . . . . . 27
2.2 Contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.1 Regra da multiplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.2 Regra da adição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.3 Permutação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.4 Arranjos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.5 Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.6 Binômio de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3 Definições Básicas 33
3.1 Fundamentos de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Noções de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 Espaços Amostrais Finitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4 Resultados Equiprováveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.1 Teorema da Multiplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5.2 Teorema da Probabilidade Total . . . . . . . . . . . . . . . . . . . . . . . . 40
3.5.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.6 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.7 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4 Variáveis Aleatórias e Suas Distribuições 46

4.1 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2 Variáveis Aleatórias Contínuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.3 Função de Distribuição Acumulada . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Variáveis Aleatórias Mistas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.5 Funções de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.6 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
iii
5 Esperança de uma Variável Aleatória 60

5.1 Variáveis aleatórias independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2 Esperança matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.3 Esperança de uma Função de Variável Aleatória . . . . . . . . . . . . . . . . . . . . 62
5.4 Propriedades da Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.5 Variância de uma variável aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.6 Propriedades da variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.7 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6 Principais Distribuições Discretas 71

6.1 A Distribuição Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.2 A Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.3 A Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.3.1 Perda de Memória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.4 A Distribuição Pascal (ou Binomial Negativa) . . . . . . . . . . . . . . . . . . . . . 78
6.4.1 Generalização do Binômio de Newton . . . . . . . . . . . . . . . . . . . . . 78
6.4.2 Distribuição Pascal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.5 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.6 Distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.6.1 Aproximação da distribuição binomial pela Poisson . . . . . . . . . . . . . . 86
6.6.2 Distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.7 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
7 Principais Distribuições Contínuas 92

7.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.2 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.2.1 Padronização e Tabulação da Distribuição Normal . . . . . . . . . . . . . . 94
7.2.2 Aproximação da Distribuição Binomial pela Normal . . . . . . . . . . . . . 96
7.3 A Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.3.1 Perda de Memória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.4 A Distribuição Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.4.1 A Função Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.4.2 Distribuição Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.5 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
iv
8 Introdução à Inferência Estatística 104

8.1 Definições Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
8.2 Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8.2.1 Tipos de Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8.2.2 Distribuição Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.2.2.1 Distribuição Amostral da Média . . . . . . . . . . . . . . . . . . . 107
8.2.2.2 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . 108
8.2.2.3 Distribuição Amostral da Proporção . . . . . . . . . . . . . . . . 109
8.2.2.4 Distribuição Amostral da Diferença entre Médias . . . . . . . . . 110
8.2.2.5 Distribuição Amostral da Diferença entre Proporções . . . . . . . 110
8.3 Inferência Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
8.3.1 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.3.2 Propriedades dos Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.3.3 Alguns Estimadores Pontuais Importantes . . . . . . . . . . . . . . . . . . . 112
8.3.3.1 Estimador para a Média . . . . . . . . . . . . . . . . . . . . . . . 112
8.3.3.2 Estimador para a Variância . . . . . . . . . . . . . . . . . . . . . 113
8.3.3.3 Estimador para a Proporção . . . . . . . . . . . . . . . . . . . . . 113
8.3.4 Estimação Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
8.3.5 Intervalo de Confiança para a Média . . . . . . . . . . . . . . . . . . . . . . 114
8.3.6 Intervalo de Confiança para a Proporção . . . . . . . . . . . . . . . . . . . . 115
8.3.7 Intervalo de Confiança para a Diferença de Médias . . . . . . . . . . . . . . 115
8.4 Regressão e Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
8.4.1 Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
8.4.1.1 Diagrama de Dispersão . . . . . . . . . . . . . . . . . . . . . . . 117
8.4.1.2 Coeficiente de Correlação de Pearson . . . . . . . . . . . . . . . . 119
8.4.2 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
8.4.2.1 O Poder Explicativo do Modelo . . . . . . . . . . . . . . . . . . . 123
8.5 Atividades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
9 Respostas das Atividades 128

9.1 Capítulo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
9.2 Capítulo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
9.3 Capítulo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
9.4 Capítulo 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
9.5 Capítulo 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
9.6 Capítulo 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
9.7 Capítulo 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
9.8 Capítulo 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
v
A Apêndice - Tabela da Distribuição Normal 135
10 Índice Remissivo 137
vi
Prefácio
Este livro foi desenvolvido para a introdução do tema Probabilidade e Estatística, não tendo a ambição
de englobar toda esta vasta área do conhecimento humano. Probabilidade e Estatística são as áreas
do conhecimento humano que lidam com a incerteza. Ambas lidam com experimentos em que existe
alguma variável (ou variáveis) que não temos controle, e portanto, mesmo mantendo as mesmas
condições, um experimento pode fornecer vários resultados diferentes.
Probabilidade e Estatística podem ser vistas como ciências inversas. Quando se estuda probabilidade,
conhecemos o modelo em estudo completamente, e estamos interessados em saber como os resul-
tados do experimento se comportam (por exemplo, saber qual a probabilidade de sair um resultado
específico). Já na estatística, temos um conjunto de dados, mas não sabemos qual o modelo proba-
bilístico que gerou estes dados, e portanto, tenta-se descobrir, a partir destes dados, qual o modelo
probabilístico que gerou estes dados.
Fenômenos aleatórios estão cada vez mais presentes em nossas vidas, e cada vez mais estamos inte-
ressados em tentar entender estes fenômenos. Gráficos estatísticos estão cada vez mais presentes em
notícias, e é importante saber interpretar esses gráficos corretamente. Quando vemos os resultados de
uma pesquisa eleitoral, é bom sabermos interpretar o seu significado, etc.. Vale a pena citar também
que ferramentas estatísticas são utilizadas pelos bancos, para definir o rendimento em fundos de in-
vestimento ou poupança, também são utilizadas pelas seguradoras para definir qual o valor do seguro
que você tem que pagar (na prática eles calculam o seu risco), etc..
Para um aluno, probabilidade e estatística podem ser úteis da seguinte forma: i) são úteis para realizar
pesquisa científica; ii) são úteis caso o aluno queira trabalhar em banco, seguradora, montadoras,
instituições financeiras em geral, controle de qualidade da produção de algum item, etc..; iii) são úteis
no dia-a-dia.
Finalizamos essa primeira parte do prefácio mostrando um exemplo de como a probabilidade pode
mostrar como a nossa intuição nos engana. Suponha que temos uma sala com 50 pessoas. Qual
a probabilidade de que pelo menos duas delas façam aniversário no mesmo dia do ano? Quando
falamos dia do ano, estamos falando dia e mês, não apenas dia. Temos 365 dias (vamos desconsiderar
o ano bissexto) e 50 pessoas. A intuição nos diz que essa probabilidade não deve ser muito grande.
Entretanto, esta probabilidade é de 97%!
Público alvo
O público alvo desse livro são os alunos de Licenciatura em Computação, na modalidade à distância
1 . Ele foi concebido para ser utilizado numa disciplina de Probabilidade e Estatística.
1 Embora ele tenha sido feito para atender aos alunos da Universidade Federal da Paraíba, o seu uso não se restringe
a esta universidade, podendo ser adotado por outras universidades do sistema UAB.
vii
Como você deve estudar cada capítulo
• Leia a visão geral do capítulo

• Estude os conteúdos das seções
• Realize as atividades no final do capítulo
• Verifique se você atingiu os objetivos do capítulo
NA SALA DE AULA DO CURSO
• Tire dúvidas e discuta sobre as atividades do livro com outros integrantes do curso
• Leia materiais complementares eventualmente disponibilizados
• Realize as atividades propostas pelo professor da disciplina
Caixas de diálogo
Nesta seção apresentamos as caixas de diálogo que poderão ser utilizadas durante o texto. Confira os
significados delas.
Nota
Esta caixa é utilizada para realizar alguma reflexão.
Dica
Esta caixa é utilizada quando desejamos remeter a materiais complementares.
Importante
Esta caixa é utilizada para chamar atenção sobre algo importante.
Cuidado
Esta caixa é utilizada para alertar sobre algo que exige cautela.
Atenção
Esta caixa é utilizada para alertar sobre algo potencialmente perigoso.
Os significados das caixas são apenas uma referência, podendo ser adaptados conforme as intenções
dos autores.
viii
Contribuindo com o livro
Você pode contribuir com a atualização e correção deste livro. A tabela a seguir resume os métodos
de contribuições disponíveis:
Tabela 1: Métodos para contribuição do livro
Método de
contribui- Habilidades necessárias Descrição
ção
• Inscrição no site do Consiste em acessar o repositório do livro e

github submeter um erro, uma sugestão ou uma crítica —
Issue track através da criação de um Issue. Quando
• Preenchimento de um providências forem tomadas você será notificado
formulário disso.
• Realizar fork de Consiste em acessar os arquivos fontes do livro,

Submissão projetos realizar a correção desejada e submetê-la para
de correção • Atualizar texto do livro avaliação. Este processo é o mesmo utilizado na
produção de softwares livres.
• Realizar PullRequest
Importante
Quando for enviar sua contribuição lembre-se de informar qual a versão e página do livro que
está se referindo.
Contribuição através do Issue track

Para contribuir com um erro, sugestão ou crítica através de um envio de uma mensagem acesse:
https://github.com/edusantana/estatistica-livro/issues/new
ix
Figura 1: Exemplo de contribuição através do Issue track
Atividades
No final de cada capítulo há uma seção Atividades com exercícios para serem resolvidos.
O significado dos ícones relativos aos exercícios são:
Resposta disponível
a reposta do exercício se encontra disponível no Capítulo 9 [128].
Nota
Você pode contribuir enviando respostas ou soluções dos exercícios.
Baixando a edição mais nova deste livro
Nós estamos constantemente atualizando o nosso material didático. Todas as versões deste livro
encontram-se disponíveis para download.
Dica
Acesse https://github.com/edusantana/estatistica-livro/releases para baixar a versão mais
nova deste livro.
x
Capítulo 1
Estatística Descritiva
O BJETIVOS DO CAPÍTULO
Ao final deste capítulo você deverá ser capaz de:
• Conhecer os conceitos básicos da estatística e, principalmente, a diferença entre popu-

lação e amostra
• Construir uma tabela estatística
• Conhecer os tipos de variáveis estatísticas
• Construir um histograma
• Identificar e entender o significado dos gráficos estatísticos
• Conhecer e saber calcular as principais medidas de posição
• Conhecer e saber calcular as principais medidas de dispersão
1.1 Conceitos Básicos
A Estatística é a ciência voltada para a construção de técnicas e métodos que permitem tomar decisões
nos mais deferentes setores do conhecimento. O que hoje se conhece por Estatística, é justamente
esse conjunto de ferramentas de pesquisa que envolve, entre outros, o planejamento do experimento
a ser realizado, a coleta qualificada dos dados, os processos de inferência estatística, bem como a
análise e o processamento das informações coletadas.
1.1.1 Definições importantes
Na estatística temos algumas definições importantes:
• População: Qualquer conjunto de informação que tenha entre si uma característica comum que
delimite os elementos pertencentes a ela.
• Amostra: É um subconjunto de elementos pertencentes a uma população.
• Variável: Dados referêntes a uma característica de interesse, coletados a partir de uma amostra.
• Censo: Exame de todos os elementos da população.
1 / 140
Amostra
População
Figura 1.1: População e Amostra
Variável
Figura 1.2: Exemplo de variável
Temos dois tipos de variáveis:


Nominal :
 sexo, cor dos olhos.
Qualitativa

Ordinal : classe social, grau de instrução.

Discreta :
 número de filhos.
Quantitativa

Continua : altura, peso, salário.
2 / 140
1.2 Tabelas Estatísticas
Na estatística é fundamental aprendermos a representar os dados que serão analisados por meio de
tabelas.
Uma tabela deve apresentar a seguinte estrutura:
• Cabeçalho;
• Corpo;
• Rodapé.
O cabeçalho deve conter o suficiente para que sejam respondidas as questões:
• O que está representado?

• Onde ocorreu?
• Quando ocorreu?
Além disso, a tabela é um quadro que resume um conjunto de dados dispostos segundo linhas e
colunas de maneira sistemática.
1.2.1 Série Cronológica ou Temporal
Um exemplo muito comum e muito útil de tabela é dado pelas séries temporais. Uma série temporal
consiste em uma sequência numérica cujos valores variam com o tempo.
Abaixo vemos como inserir os dados de uma série temporal em uma tabela:
Vendas da Companhia Alfa: 2007-2009
Anos Vendas em R$ 1.000,00
2007 11.425
2008 18.258
2009 15.798
Fonte: Departamento de Marketing.
1.2.2 Série Geográfica
Muitas vezes o dado de interesse pode depender a posição geográfica de onde foram coletados. As-
sim, uma série geográfica consiste em uma sequência numérica obtidas em diferentes regiões em um
determinado instante do tempo.
Empresas Fiscalizadas em 2008
Regiões Número de Empresas
Norte 11.425
Nordeste 18.258
Sudeste 28.157
Sul 15.798
Centro-Oeste 9.236
Fonte: Mensário Estatístico.
3 / 140
1.2.3 Série Específica
Uma série importante é formada por dados agrupados por alguma espécie ou característica comum.
Assim, uma série específica é uma série numérica agrupada por tipo. Temos o exemplo abaixo:
Matrículas na Pós-graduação da UFPB - 2008
Áreas de Ensino Matrículas

Ciências Biológicas 125
Ciências Exatas e Tecnologia 158
Ciências Humanas 128
Fonte: Serviço de Educação e Cultura.
1.3 Distribuição de Frequência
Uma distribuição de frequência é uma tabela que contém um resumo dos dados obtido em uma amos-
tra.
A distribuição é organizada em formato de tabela, e cada entrada da tabela contém a frequência dos
dados em um determinado intervalo, ou em um grupo.
Abaixo vemos um exemplo simplificado de tabela de distribuição de frequência:
Altura dos Alunos da UFPB - 2008
Alturas em metros Número dos Alunos
1,50 |− 1,60 5
1,60 |− 1,70 15
1,70 |− 1,80 17
1,80 |− 1,90 3
Fonte: Serviço de Saúde.
Na próxima subseção aprenderemos a construir uma distribuição de frequência completa.
1.3.1 Construção de uma distribuição de frequência
Para ilustrar como se constrói uma distribuição de frequência, nós vamos considerar um exemplo
específico.
Assim, suponha que uma pesquisa foi feita, e o seguinte conjunto de dados foi obtido:
• Dados Brutos:
24-23-22-28-35-21-23-33-34-24-21-25-36-26-22-30-32-25-26-33-34-21-31-25-31-26-25-35-33-31.
A primeira coisa que fazemos é ordenar os dados do menor para o maior, formando o rol de dados:
• Rol de dados:
21-21-21-22-22-23-23-24-25-25-25-25-26-26-26-28-30-31-31-31-32-33-33-33-34-34-34-35-35-36.
Em seguida, calculamos a amplitude total, ou seja, o maior valor obtido na amostra subtraído do
menor valor obtido na amostra:
4 / 140
• Amplitude Total R:
R = 36 − 21 = 15.
Vamos agora definir as variáveis de interesse, ou seja, para cada valor distinto obtido na amostra,
atribuiremos uma variável diferente:
• Variável Xi :
X1 = 21, X2 = 22, X3 = 23, X4 = 24, etc.

O próximo passo é calcular a frequência absoluta das variáveis, ou seja, vamos calcular quantas vezes
cada valor aparece na sequência. Por exemplo, o valor 21 aparece 3 vezes, o valor 22 aparece 2 vezes,
etc.. Assim, obtemos:
• Frequência Absoluta Fi
F1 = 3, F2 = 2, F3 = 2, F4 = 1, etc. Vamos calcular, agora, o tamanho amostral, ou seja, o

número de observações obtidas na amostra.
Desta forma, temos:
• Tamanho Amostral n:
n = 30.
Queremos, agora, dividir a amostra em uma quantidade de grupos que formarão os intervalos. Cada
grupo é chamado de classe, assim, queremos definir o número de classes a ser considerado na tabela
de distribuição de frequência:
• Número de Classes K:
√
– K = 5 para n ≤ 25 e K ≈ n, para n > 25.
– Fórmula de Sturges K ≈ 1 + 3, 22 log n.
√
Logo, pela primeira regra temos K = 30 ≈ 5, 48 ≈ 6, e pela segunda regra K ≈ 1 + 3, 22 log 30 ≈
5, 75 ≈ 6. Desta forma, em ambos os casos temos K = 6, que será o valor considerado.
O próximo passo é saber o comprimento de cada intervalo a ser considerado, ou seja, calcular a
amplitude de cada classe. Queremos que todas as classes tenham a mesma amplitude e portanto,
temos:
• Amplitude das Classes h:
R
h= .
K
15
Daí, para o nosso caso, h = 6 = 2, 5 ≈ 3.
Vamos agora definir os limites das classes. Ou seja, definir os intervalos propriamente ditos. Para
tanto, começamos com o menor valor obtido da amostra, ou equivalentemente, o primeiro valor do
rol de dados, e vamos somando a amplitude para definir cada limite de intervalo:
5 / 140
• Limites das Classes:
21|− 24
24|− 27
27|− 30
30|− 33
33|− 36
36|− 39
Em seguida, calculamos os pontos médios das classes, que nada mais é que a média aritmética entre
os limites das classes:
• Pontos Médios das Classes pmi :
21 + 24 24 + 27
pm1 = = 22, 5, pm2 = = 25, 5, , etc.
2 2
Agora, calculamos as frequências dos dados em cada intervalo e, chamada de frequência absoluta, e
também a frequência acumulada, chamada de frequência absoluta acumulada, que considera a soma
das frequências dos intervalos anteriores até o intervalo considerado:
• Frequência Absoluta Acumulada Fac :
Classes pmi Fi Fac

21|− 24 22,5 7 7
24|− 27 25,5 8 15
27|− 30 28,5 2 17
30|− 33 31,5 4 21
33|− 36 34,5 8 29
36|− 39 37,5 1 30
Total - 30 -
Em seguida, inclui-se as frequências relativas dos dados, ou seja, para cada intervalo calcula-se fi =
Fi /n. A frequência relativa, nos informa a proporção dos dados que pertencem a um determinado
intervalo.
• Frequência Relativa fi :
Classes pmi Fi Fac fi

21|− 24 22,5 7 7 0,23
24|− 27 25,5 8 15 0,27
27|− 30 28,5 2 17 0,07
30|− 33 31,5 4 21 0,13
33|− 36 34,5 8 29 0,27
36|− 39 37,5 1 30 0,03
Total - 30 - 1,00
Para finalizar, calculamos a frequência acumulada relativa, ou seja, calculamos para cada intervalo
fac = Fac /n:
6 / 140
• Frequência Relativa Acumulada fac :

Classes pmi Fi Fac fi fac
21|− 24 22,5 7 7 0,23 0,23
24|− 27 25,5 8 15 0,27 0,50
27|− 30 28,5 2 17 0,07 0,57
30|− 33 31,5 4 21 0,13 0,70
33|− 36 34,5 8 29 0,27 0,97
36|− 39 37,5 1 30 0,03 1,00
Total - 30 - 1,00 -
1.4 Gráficos Estatísticos
1.4.1 Histograma
O histograma é uma representação gráfica da distribuição de frequência. O histograma é formado

por uma justaposição de retângulos de bases com mesmo comprimento. O comprimento da base
é justamente a amplitude do intervalo e a altura do retângulo é dada pela frequência absoluta do
intervalo.
Assim, uma vez feita a distribuição de frequência, a construção do histograma é uma tarefa muito
simples.
Abaixo vemos um exemplo de histograma:
4
3
Fi
2
1
0
0 5 10 15 20 25 30 35
Classes
Figura 1.3: Histograma
1.4.2 Polígono de Frequência
O polígono de frequência é uma representação gráfica obtida após ligar os pontos médios de cada
classe entre si. Se já tivermos um histograma, basta ligar os pontos médios das bases superiores dos
retângulos.
7 / 140
Abaixo vemos um exemplo de polígono de frequência obtido a partir de um histograma:
8
6
Fi
4
2
0
5 10 15 20
Classes
Figura 1.4: Polígono de Frequência Obtido a Partir de um Histograma
Abaixo vemos um exemplo contendo apenas o polígono de frequência:

8
6
Fi
4
2
0
6 8 10 12 14 16 18
Classes
Figura 1.5: Polígono de Frequência Obtido a Partir de um Histograma
1.4.3 Gráfico de Linhas
Suponha que temos duas variáveis, por exemplo, podemos ter os dados de uma série temporal, donde
uma variável seria o valor obtido, e a outra variável seria a data em que o valor foi obtido. Outra
8 / 140
possibilidade seria colocar dados de uma série geográfica, onde uma variável seria formada pelos
dados e a outra seria a localização geográfica.
O gráfico de linhas então é formado construindo pontos no plano (a partir das duas variáveis) e, em
seguida, estes pontos são ligados por segmentos de retas.
Abaixo vemos um exemplo de gráfico de linhas de uma série temporal
100
60
Rendimento
0 20
−40
2006 2008 2010 2012 2014

Período
Figura 1.6: Gráfico de linhas
1.4.4 Gráfico de Colunas
Um gráfico de colunas é formado por uma coleção de colunas, com bases de mesmo comprimento, e
igualmente espaçados. O eixo horizontal do gráfico consiste das diferentes categorias consideradas, e
o eixo vertical é proporcional ao valor do dado.
Abaixo vemos um exemplo de gráfico de colunas:
9 / 140
Pessoas por categoria
14
8 10
6
4
2
0
3 4 5
Categorias
Figura 1.7: Gráfico de colunas
1.4.5 Gráfico em Barras
O gráfico em barras pode ser entendido como uma variação do gráfico de colunas. De fato, o gráfico
em barras é formado por uma coleção de barras, de mesma altura e igualmente espaçadas. Entre-
tanto, neste caso o eixo vertical representa as diferentes categorias consideradas e o eixo horizontal é
proporcional ao valor dado.
Abaixo vemos um exemplo de gráfico em barras:
Pessoas por classe

Alta
Média
Baixa
0 2 4 6 8 10 12 14
Figura 1.8: Gráfico em barras
10 / 140
1.4.6 Gráfico de Setores
O gráfico de setores, que também é popularmente conhecido como gráfico pizza, é um gráfico em
que um círculo é dividido em setores (que podem ser pensados como as fatias da pizza), onde cada
setor representa uma categoria considerada pelo conjunto de dados, e os ângulos dos setores são
proporcionais aos valores dos dados em cada categoria. Assim, quanto maior o valor obtido, maior
será o ângulo do setor (e assim, maior será a fatia da pizza).
Abaixo vemos um exemplo de gráfico de setores:
Sudeste
Centro−Oeste
Sul
Nordeste
Norte
Figura 1.9: Gráfico de setores
1.5 Medidas de Posição
As medidas de posição são valores que representam a tendência de concentração dos dados observa-
dos.
As mais importantes são as medidas de tendência central. As três medidas de tendência central mais
utilizadas são: média aritmética, moda e mediana.
1.5.1 Média Aritmética
É um valor que representa uma característica do conjunto de dados. Essa característica é tal que a
soma dos dados é preservada. A média é obtida a partir de todos os elementos da distribuição e do
tamanho da amostra n.
Notação: representamos a média de um conjunto de dados por X (lê-se x barra).
Cálculo da Média Aritmética +
• Dados não agrupados (brutos) - média aritmética simples.
11 / 140
No caso de uma lista de dados não-agrupados, calculamos a média aritmética pela fórmula:
n
Xi
X=∑ .
i=1 n
Exemplo 1.1 Exemplo de cálculo de média aritmética com dados brutos

Considere os dados 2, 3, 7 e 8. Então, n = 4 e
2 + 3 + 7 + 8 20
X= = = 5.
4 4
• Dados agrupados - média aritmética ponderada.
No caso em que temos os dados agrupados, ou seja, sabemos a frequência de cada observação, o
cálculo da média aritmética pode ser simplificado. Assim, a média aritmética pode ser cálculada pela
fórmula:
n
Xi · Fi
X=∑ .
i=1 n
Exemplo 1.2 Exemplo de cálculo de média aritmética ponderada

Considere a seguinte tabela:
Tempo de Serviço (Xi ) Fi Xi · Fi

4 3 12
6 5 30
8 10 80
Total 18 122
122
Assim, X = 18 = 6, 78.
• Dados agrupados em intervalos - média aritmética ponderada
No caso em que temos os dados agrupados em intervalos, utilizamos a média aritmética ponderada,
onde os pesos são dados pelo ponto médio do intervalo. Assim, a média aritmética é calculada pela
fórmula:
n
Xi · pmi
X=∑ ,
i=1 n
Exemplo 1.3 Exemplo de cálculo de médias com dados agrupados em intervalos

Anos (Xi ) Fi pmi Xi · pmi
0`4 4 2 8
4`8 10 6 60
8 ` 12 7 10 70
Total 21 - 138
138
Assim, X = 21 = 6, 57.
12 / 140
1.5.2 Moda
Definimos a moda de um conjunto de dados como o valor mais frequente deste conjunto.
Notação: representamos a moda de um conjunto de dados por Mo.
Exemplo 1.4 Exemplo de modas
• 1, 2, 4, 5 e 8 - não existe valor mais frequente - não existe moda (Amodal).
• 2, 2, 3, 7 e 8 - Mo = 2 (Unimodal).
• 1, 1, 10, 5, 5, 8, 7, 2 - Mo = 1 e 5 (Bimodal).
• Dados agrupados - Neste caso, a moda é definida como “classe modal”, isto é, a classe com a
maior frequencia.
Exemplo 1.5 Exemplo de cálculo de classe modal

Tempo de Serviço (Xi ) Fi
4 3
6 5
8 10
Total 18
Assim, Mo = 8 (F3 ).
• Dados agrupados em intervalos: Neste caso, utiliza-se a fórmula de Czuber:

h(FMo − Fant )
Mo = lMo + ,
2FMo − (Fant + FPos )
onde:
• h é a amplitude intervalar,
• FMo é a frequência da classe modal,
• lMo é o limite inferior da classe modal,
• Fant é a frequência da classe anterior à classe modal,
• FPos é a frequência da classe posterior à classe modal.
13 / 140
Exemplo 1.6 Exemplo de cálculo de moda pela fórmula de Czuber

Anos (Xi ) Fi
0`4 4
4`8 10
8 ` 12 7
Total 21
Assim, h = 4, FMo = 10, lMo = 4, Fant = 4 e Fpos = 7. Daí

4 · (10 − 4)
Mo = 4 + = 6, 67.
2 · 10 − (4 + 7)
1.5.3 Mediana
Definimos a mediana de um conjunto de dados como o valor que divide um conjunto de dados (orde-
nados) em duas partes com a mesma quantidade de dados.
Notação: representamos a mediana de um conjunto de dados por Md.
O elemento mediano (EMd ) aponta o local (nos dados) onde a mediana está localizada. A mediana
será o valor assumido na posição EMd .
• Dados não agrupados (brutos)
– No caso de dados brutos, se o tamanho amostral (n) é ímpar, temos que EMd = (n + 1)/2.
– Note que no caso tamanho amostral é par, teremos dois valores possíveis para o elemento medi-
ano: n/2 e n/2 + 1. Neste caso a mediana será a média dos valores assumidos nestas posições.
Exemplo 1.7 Exemplo de cálculo de mediana para dados brutos
• 1, 2, 4, 5 e 8. Como n é ímpar, temos EMd = 3, e Md = 4.
• 2, 2, 3, 7, 8 e 10. Aqui n é par, assim EMd,1 = 6/2 = 3 e EMd,2 = 6/2 + 1 = 4. Daí Md = (3 + 7)/2 =
5.
• Dados agrupados
Neste caso, olhar a frequência acumulada ajuda a encontrar a médiana.
• Caso 1: n ímpar.
14 / 140
Exemplo 1.8 Exemplo de cálculo de mediana com dados agrupados para n ímpar
Considere a seguinte tabela:\vfill
Faltas (Xi ) Fi Fac
2 1 1
3 7 8
4 3 11
Total 11 -
Como n = 11, temos que EMd = (11 + 1)/2 = 6. Daí Md = 3. Note que a frequência acumulada
indica que nas posições de 2 até 8 temos o valor 3.
• Caso 2: n par.
Exemplo 1.9 Exemplo de cálculo de mediana com dados agrupados para n par
Tempo de Serviço (Xi ) Fi Fac

4 3 3
6 5 8
8 10 18
Total 18
Neste caso n = 18, daí temos EMd,1 = 18/2 = 9 e EMd,2 = 18/2 + 1 = 10. Portanto Md = (8 + 8)/2 =
8. Note, novamente, que a frequência acumulada indica que nas posições de 9 até 18 temos o valor 8.
• Dados agrupados em intervalos
Neste caso, utilizamos EMd = n/2 independentemente de n ser par ou ímpar.

A classe mediana é a primeira classe tal que Fac ≥ EMd .
Portanto, definimos a mediana pela fórmula

EMd − Fac,ant
Md = lMd + h · ,
FMd
onde,
• lMd é o limite inferior da classe mediana,
• h é a amplitude do intervalo,
• Fac,ant é a frequência acumulada da classe anterior à classe mediana,
• FMd é a frequência da classe mediana.
15 / 140
Exemplo 1.10 Exemplo do cálculo da mediana para dados agrupados em intervalos

Anos (Xi ) Fi Fac
0`4 4 4
4`8 10 14
8 ` 12 7 21
Total 21
Assim, EMd = 21/2 = 10, 5, e desta forma temos que a segunda classe é a classe mediana. Daí
lMd = 4, h = 4, Fac,ant = 4 e FMd = 10. Portanto,

10, 5 − 4
Md = 4 + 4 · = 6, 6.
10
1.6 Medidas de Dispersão
• As medidas de dispersão medem o grau de variabilidade dos elementos de uma distribuição;
• O valor zero indica ausência de dispersão;
• A dispersão aumenta à medida que aumenta o valor da medida de dispersão.
Exemplo 1.11 Exemplo de motivação para as medidas de dispersão

Notas de alunos em cinco avaliações, UFPB, 2009.
Alunos Notas Média

Antônio 5 5 5 5 5 5
João 6 4 5 4 6 5
José 10 5 5 5 0 5
Pedro 10 10 5 0 0 5
Observa-se que: * As notas de Antônio não variaram;
• As notas de João variaram menos do que as notas de José;
• As notas de Pedro variaram mais do que as notas de todos os outros alunos.
Principais Medidas de Dispersão:
• Amplitude,
• Desvio Médio,
• Variância,
• Desvio Padrão,
• Coeficiente de Variação.
16 / 140
1.6.1 Amplitude
A amplitude nos fornece uma idéia do campo de variação dos elementos. Mais precisamente, ela
fornece a maior variação possível dos dados.
A amplitude é dada pela fórmula
A = Xmax − Xmin .
Exemplo 1.12 Exemplo de cálculo de amplitude

No exemplo anterior:
AAntônio = 0; AJoão = 2; AJosé = 10; APedro = 10.
Nota
A amplitude não mede bem a dispersão dos dados porque, usam-se apenas os valores
extremos, ao invés de utilizar todos os elementos da distribuição.
1.6.2 Desvio Médio
Desejando-se medir a dispersão dos dados em relação a média, parece interessante a análise dos
desvios em torno da média. Isto é, análise dos desvios:
di = (Xi − X).
Mas a soma de todos os desvios é igual a zero. Isto é:

n n
∑ di = ∑ (Xi − X) = 0.
i=1 i=1
Logo, será preciso encontrar uma maneira de se trabalhar com os desvios sem que a soma dê zero.
Dessa forma, define-se o desvio médio.
• Dados não agrupados (brutos):
Neste caso, calculamos o desvio médio como:

n n
|di | |Xi − X|
DM = ∑ =∑ .
i=1 n i=1 n
Nota
Veja que os desvios foram considerados em módulo, evitando-se assim que a soma fosse
nula.
• Dados agrupados:
17 / 140
n n
|di | · Fi |Xi − X| · Fi
DM = ∑ =∑ .
i=1 n i=1 n
Nota
Xi representa um valor individual, no caso de uma distribuição de frequência simples, ou o
ponto médio da classe ( pmi ), no caso de uma distribuição de frequência em classes.
Importante
• O desvio médio é mais vantajoso que a amplitude, visto que leva em consideração todos
os valores da distribuição.
• No entanto, não é tão frequentemente empregado, pois não apresenta propriedades ma-
temáticas interessantes.
1.6.3 Variância
A variância é a medida de dispersão mais utilizada. É o quociente entre a soma dos quadrados dos
desvios e o número de elementos. Assim, temos a seguinte definição de variância populacional:
• Dados não agrupados - (brutos):
Neste caso, a variância é dada pela fórmula:

N N
di2 (Xi − X)2
σ2 = ∑ =∑ .
i=1 N i=1 N
Aqui, podemos utilizar a frequência para simplificar a fórmula:

N N
2 di2 · Fi (Xi − X)2 · Fi
σ =∑ =∑ .
i=1 N i=1 N
Nota
σ 2 indica a variância populacional e lê-se sigma ao quadrado ou sigma dois. Neste caso,
X e N da formúla representam a média populacional e o tamanho populacional, respectiva-
mente.
Temos ainda a seguinte definição de variância amostral:
• Dados não agrupados - (brutos):
Neste caso, a fórmula é dada por

n n
di2 (Xi − X)2
S2 = ∑ =∑
i=1 n − 1 i=1 n − 1
18 / 140
Podemos, novamente, utilizar as frequências para simplificar a fórmula:

n n
di2 · Fi (Xi − X)2 · Fi
S2 = ∑ =∑ .
i=1 n − 1 i=1 n−1
Nota
Xi representa um valor individual, no caso de uma distribuição de frequência simples, ou o
ponto médio da classe ( pmi ), no caso de uma distribuição de frequência em classes.
Importante
Fórmulas práticas para os cálculos das variâncias são dadas a seguir:
1h N 2
2 (∑N
i=1 Xi · Fi )
2i
σ = ∑ Xi · Fi −
N i=1 N
ou
2 1 h n 2 (∑ni=1 Xi · Fi )2 i
S = ∑ Xi · Fi −
n − 1 i=1 n
que foram obtidas por transformações nas respecitivas fórmulas originais.
1.6.4 Desvio Padrão
Temos também outra medida de dispersão, que é a raiz quadrada da variância, chamada de desvio
padrão. Assim, √
σ = σ 2 é o desvio desvio padrão populacional
e √
S= S2 é o desvio desvio padrão amostral.
Nota
Para o cálculo do desvio padrão deve-se primeiramente determinar o valor da variância e,
em seguida, extrair a raiz quadrada desse resultado.
Exemplo 1.13 Exemplo de cálculo das medidas de dispersão

Calcular a amplitude, o desvio médio, a variância e o desvio padrão da seguinte distribuição amostral:
Xi Fi
5 2
7 3
8 5
9 4
11 2
Total 16
19 / 140
• Cálculo da amplitude:
A = Xmax − Xmin = 11 − 5 = 6.
• Cálculo do desvio médio:
Primeiramente é preciso do valor da média. Assim,
Xi Fi Xi · Fi
5 2 10
7 3 21
8 5 40
9 4 36
11 2 22
Total 16 129
n
Xi · Fi 129
X=∑ = = 8, 06.
i=1 n 16
Para o cálculo do DM são abertas novas colunas:
Xi Fi Xi · Fi |Xi − X| = |di | |di | · Fi
5 2 10 |5 − 8, 06| = 3, 06 6,12
7 3 21 |7 − 8, 06| = 1, 06 3,18
8 5 40 |8 − 8, 06| = 0, 06 0,30
9 4 36 |9 − 8, 06| = 0, 94 3,76
11 2 22 |11 − 8, 06| = 2, 94 5,88
Total 16 129 - 19,24
Portanto,
n
|di | 19, 24
DM = ∑ = = 1, 20.
i=1 n 16
• Cálculo do variância amostral:
Observe que o cálculo será facilitado, pois sabe-se que: n = 16; ∑ Xi · Fi = 129. Resta encontrar
∑ Xi2 · Fi . Para tanto, uma nova coluna é considerada na tabela.
Xi Fi Xi · Fi Xi2 · Fi
5 2 10 50
7 3 21 147
8 5 40 320
9 4 36 324
11 2 22 242
Total 16 129 1083
Portanto,
1 h n 2 (∑ni=1 Xi · Fi )2 i
S2 = ∑ Xi · Fi −
n − 1 i=1 n
1 h (129) 2 i 1h 16641 i
= 1083 − = 1083 −
16 h− 1 16i 15 16
1 17328 − 16641 687
= = = 2, 86.
15 16 15 · 16
Logo, a variância amostral S2 = 2, 86.
20 / 140
• Cálculo do desvio padrão amostral:

√ √
Como S = S2 , logo S = 2, 86 = 1, 69.
Dessa forma, podemos observar que a distribuição possui média 8, 06. Isto é, seus valores estão em
torno de 8, 06 e seu grau de concentração é de 1, 2, medido pelo desvio médio e de 1, 69, medido pelo
desvio padrão.
1.6.5 Coeficiente de Variação
Trata-se de uma medida relativa de dispersão útil para a comparação em termos relativos do grau de
concentração em torno da média de séries distintas. É dado por
S
CV = × 100.
X
onde, S é o desvio padrão amostral e X é a média amostral.
O coeficiente de variação é expresso em porcentagens.
Exemplo 1.14 Exemplo de cálculo do coeficiente de variação

Numa empresa, o salário médio dos homens é de R$ 4.000,00, com desvio padrão de R$ 1.500,00, e
o das mulheres é em média de R$ 3.000,00, com um desvio padrão de R$ 1.200,00. Então:
• Para os homens:
1.500
CV = × 100 = 37, 5%.
4.000
• Para as mulheres:
1.200
CV = × 100 = 40%.
3.000
Logo, podemos concluir que os salários da mulheres apresenta maior dispersão relativa do que o dos
homens.
Diz-se que a distribuição possui pequena variabilidade, ou dispersão, quando o coeficiente der até
10%; média dispersão quando estiver acima de 10% até 20%; e grande dispersão quando superar
20%. Alguns analistas consideram:
• Baixa dispersão: CV ≤ 15%;
• Média dispersão: 15% < CV < 30%;
1.7 Atividades
1. Em um estado, foram pedidos para 35 empresas os números de empregados demitidos no ano de

2013. Os resultados informados pelas empresas estão dados abaixo:
35-30-30-45-41-48-64-41-47-56-43-36-45-40-33-49-37-34-56
40-41-37-45-48-34-52-25-53-41-38-41-37-45-35-41.
a) Construa uma tabela de distribuição de frequência para estes dados.
21 / 140
b) Construa um histograma para estes dados.

2. Construa uma tabela de distribuição de frequência e histograma para o seguinte conjunto de dados:
26-9-7-5-9-6-3-4-19-25-5-20-21-9-30-8-18-3-22-14-25-1-18-14-24.
3. Calule a média aritmética dos dados da questão 1.
4. Calcule a média aritmética dos dados da questão 2.
5. Calcule a moda dos dados da questão 1.
6. Calcule a moda dos dados da questão 2.
7. Calcule a mediana dos dados da questão 1.
8. Calcule a mediana dos dados da questão 2.
9. Calcule o desvio médio dos dados da questão 1.
10. Calcule o desvio médio dos dados da questão 2.
11. Calcule a variância amostral e populacional dos dados da questão 1.
12. Calcule a variância amostral e populacional dos dados da questão 2.
13. Calcule o coeficiente de variação dos dados da questão 1.
14. Calcule o coeficiente de variação dos dados da questão 2.
Feedback sobre o capítulo

Você pode contribuir para melhoria dos nossos livros. Encontrou algum erro? Gostaria de
submeter uma sugestão ou crítica?
Para compreender melhor como feedbacks funcionam consulte o guia do curso.
22 / 140
Capítulo 2
Teoria dos Conjuntos e Contagem
• Entender o que é um conjunto, um elemento de um conjunto
• Entender as relações entre conjuntos
• Conhecer os principais métodos de contagem
• Saber a diferença entre combinação e arranjo e como aplicar essas definições em pro-
blemas práticos
• Conhecer o binômio de Newton
O objetivo deste capítulo é apresentar os pré-requisitos necessários para estudar probabilidade.
2.1 Teoria dos Conjuntos
Conjunto é uma coleção de objetos. A natureza desses objetos é arbitrária, ou seja, podemos ter
conjunto de qualquer coisa. Por exemplo, podemos ter conjuntos de pessoas; conjuntos de números;
conjuntos de letras; podemos ter até conjuntos de conjuntos!
Nós representaremos conjuntos por letras maiúsculas A, B,C, . . ..
Chamamos os objetos que formam o conjunto de elementos. Assim, para descrever um conjunto,
basta listar seus elementos. Existem três maneiras de descrever os elementos de um conjunto A:
• Listando os elementos. Por exemplo, A = {1, 2, 3, 4, . . .};

• Descrevendo os elementos. Por exemplo, A é o conjunto de todos os números inteiros;
• Colocando condições. A = {x; x é número real e 0 ≤ x ≤ 1}.
Nota
É importante observar a notação. Sempre escreveremos os elementos que formam um con-
junto entre chaves. O ponto-e-vírgula, quando estiver entre chaves deve ser lido como “tal
que”. Por exemplo, no conjunto A = {x; x é número real e 0 ≤ x ≤ 1}, lemos, A é o conjunto
dos números reais tais que 0 ≤ x ≤ 1.
23 / 140
Quando o objeto x é elemento do conjunto A, dizemos que x pertence a A, e escrevemos x ∈ A.

Analogamente, se x não é elemento do conjunto A, dizemos que x não pertence a A, e escrevemos
x∈
/ A.
Existe um conjunto que não possui nenhum elemento. Esse conjunto especial é chamado de conjunto
vazio e é denotado por 0.
/
Importante
É muito importante notar que o conjunto vazio 0/ não possui nenhum elemento, portanto não
há chaves na sua notação. O conjunto {0}/ NÃO é o conjunto vazio, e sim um conjunto com
um elemento, e esse elemento é o conjunto vazio.
2.1.1 Comparação entre conjuntos
Sejam A e B dois conjuntos. Dizemos que A é subconjunto de B, e escrevemos, A ⊂ B se todo elemento

de A é elemento de B. Ou seja, se sempre que x ∈ A, temos que x ∈ B. Se existe x ∈ A tal que x ∈
/ B,
dizemos que A não é subconjunto de B, e escrevemos A 6⊂ B.
Exemplo 2.1 Exemplo de comparação entre conjuntos

Sejam A = {1, 2, 3, 4, 5}, B = {2, 4} e C = {3, 5, 7}.
Então, temos que B ⊂ A, mas C 6⊂ A, A 6⊂ C, A 6⊂ B, C 6⊂ B e B 6⊂ C.
Exercício
Mostre que para todo conjunto A, o conjunto vazio é subconjunto de A, ou seja, que 0/ ⊂ A.
Solução
Suponha que 0/ 6⊂ A, então por definição, isso significa que existe x ∈ 0/ tal que x 6∈ A. Como 0/
não possui nenhum elemento, é impossível encontrar o tal elemento x.
Portanto, a afirmação 0/ 6⊂ A é falsa. Isso mostra que 0/ ⊂ A.
Definição: Igualdade de conjuntos

Dizemos que os conjuntos A e B são iguais, e escrevemos A = B, se todo elemento de A é
elemento de B e todo elemento de B é elemento de A.
Equivalentemente, temos que A = B se, e somente se, A ⊂ B e B ⊂ A.
2.1.2 União de conjuntos
Suponha que temos dois conjuntos A e B. Podemos definir um terceiro conjunto, chamado de conjunto
união de A e B, formado pelos elementos de A e pelos elementos de B. Matematicamente, escrevemos
A ∪ B = {x; x ∈ A ou x ∈ B}.
24 / 140
Exemplo 2.2 Exemplo de união de conjuntos

Sejam A = {1, 2, 3, 4, 5}, B = {2, 4} e C = {3, 5, 7}.
Então, A ∪ B = {1, 2, 3, 4, 5},
Nota
Se A ⊂ B, então todo elemento de A já é elemento de B, e portanto A ∪ B = B.
De maneira geral, dados conjuntos A1 , A2 , A3 , . . ., definimos o conjunto formado pela união dos con-
juntos A1 , A2 , . . ., como o conjunto que contém todos os elementos de A1 , de A2 , etc.. Matematica-
mente, temos:
∞
[
Ai = {x; existe i tal que x ∈ Ai }.
i=1
Exercício
Forneça a definição da união de n conjuntos A1 , A2 , . . . , An .
Solução
Definimos a união de n conjuntos A1 , . . . , An , como o conjunto formado pelos elementos de
A1 , . . . , An , ou seja, é o conjunto
n
[
Ai = {x; x ∈ A1 ou x ∈ A2 , . . . , ou x ∈ An }.
i=1
2.1.3 Interseção de conjuntos
Suponha que temos dois conjuntos A e B. Considere agora o conjunto formado pelos objetos que são
elementos de A e também são elementos de B. Este conjunto é chamado de conjunto interseção de A
e B. Escrevemos este conjunto, matematicamente, como
A ∩ B = {x; x ∈ A e x ∈ B}.
Exemplo 2.3 Exemplo de interseção de conjuntos

Sejam A = {1, 2, 3, 4, 5}, B = {2, 4} e C = {3, 5, 7}.
Então, A ∩ B = {2, 4}, A ∩C = {3, 5} e B ∩C = 0. /
Nota
Se A ⊂ B, então todo elemento de A é elemento de B, assim os elementos que estão em A
e B, são os elementos de A. Ou seja, A ∩ B = A.
25 / 140
De maneira geral, dados conjuntos A1 , A2 , A3 , . . ., definimos a interseção entre os conjuntos

A1 , A2 , A3 , . . . como o conjunto formado pelos elementos que estão simultaneamente em todos os
conjuntos. Escrevemos esse conjunto matematicamente como
∞
\
Ai = {x; x ∈ A1 , x ∈ A2 , . . .}.
i=1
Exercício
Forneça a definição da interseção de n conjuntos A1 , A2 , . . . , An .
Solução
Definimos a interseção de n conjuntos A1 , . . . , An , como o conjunto formado pelos elementos
que estão simultaneamente A1 , . . . , An , ou seja, é o conjunto
n
\
Ai = {x; x ∈ A1 e x ∈ A2 , . . . , e x ∈ An }.
i=1
2.1.4 Diferença entre conjuntos
Suponha que temos dois conjuntos A e B. Considere agora o conjunto formado por objetos que são
elementos de B, mas não são elementos de A. Esse conjunto é chamado de B menos A, e é denotado
por B \ A. Matematicamente, temos
B \ A = {x; x ∈ B e x ∈
/ A}.
Exemplo 2.4 Exemplo de diferença de conjuntos

Sejam A = {1, 2, 3, 4, 5}, B = {2, 4} e C = {3, 5, 7}.
Então, A \ B = {1, 3, 5}, A \C = {1, 2, 4}, B \C = {2, 4}, B \ A = 0,
/ C \ A = {7} e C \ B = {3, 5, 7}.
2.1.5 Complementar de um conjunto
Um caso particular e importante de diferenças de conjunto é o complementar. Esta definição é parti-

cularmente útil no curso de probabilidade.
Suponha que temos um conjunto de referência, digamos M. Dado qualquer conjunto A ⊂ M, defini-
mos o complementar de A (em M), como o conjunto Ac = M \ A.
Atenção
Quando está claro no contexto quem é o conjunto de referência, o conjunto Ac é referido
apenas como complementar de A.
O complementar de A é descrito como o conjunto dos elementos que não pertencem a A. Fica claro
que é o conjunto dos elementos que não pertencem a A, mas pertencem ao conjunto de referência M.
26 / 140
2.1.6 Propriedades entre as relações entre conjuntos
Valem as seguintes identidades entre união, interseção e complementação entre conjuntos:\\
• A ∪ (B ∩C) = (A ∪ B) ∩ (A ∪C);
• A ∩ (B ∪C) = (A ∩ B) ∪ (A ∩C);
• A ∩ 0/ = 0;
/
• A ∪ 0/ = A;
• (A ∩ B)c = Ac ∪ Bc ;
• (A ∪ B)c = Ac ∩ Bc ;
• (Ac )c = A.
2.2 Contagem
Vamos agora introduzir técnicas de contagem.
2.2.1 Regra da multiplicação
A primeira técnica é conhecida como regra da multiplicação. Para ilustrar a técnica, considere o
seguinte exemplo:
Exemplo 2.5 Exemplo para ilustrar a regra da multiplicação

Fernando possui 10 pares de meias e 3 pares de sapatos. Sabendo que Fernando pode utilizar
qualquer par de meia com qualquer sapato, de quantas formas diferentes, ele pode combinar pares de
meias com sapatos?
Vamos começar colocando rótulos nos sapatos: sapato 1, sapato 2 e sapato 3. O sapato 1 pode ser
usado com 10 pares de meias; o sapato 2 também pode ser usado com 10 pares de meias; e o sapato
3 também pode ser usado com 10 pares de meias. Portanto, como Fernando pode utilizar o sapato 1,
o sapato 2 e o sapato 3, ele poderá fazer 10+10+10 = 30 combinações diferentes entre pares de meias
e sapatos.
Resumindo, cada sapato pode ser associado a 10 pares de meias, e como temos 3 sapatos, o total de
combinações é 30 = 3 · 10. Por isso o nome regra da multiplicação. Pois multiplicamos o número de
sapatos pelo número de pares de meias.
A regra geral é dada por:
Regra da multiplicação
Suponha que temos 2 tipos de objetos: tipo 1 e tipo 2. Suponha que cada objeto do tipo 1 pode
ser combinado com todos os objetos do tipo 2. Assim, se temos n objetos de tipo 1 e m objetos
de tipo 2, teremos n · m combinações possíveis entre objetos de tipo 1 e objetos de tipo 2.
27 / 140
2.2.2 Regra da adição
Vamos agora ilustrar outra técnica de contagem, que é conhecida como a regra da adição. Para
motivar, considere o seguinte exemplo:
Exemplo 2.6 Exemplo para ilustrar a regra da adição

Paulo tem 15 blusas de manga comprida e 10 blusas de manga curta e apenas uma calça. Sabendo
que Paulo não usa duas blusas ao mesmo tempo, de quantas formas ele pode se vestir?
Como Paulo só possui uma calça, o que determina a quantidade de formas de se vestir é a quantidade
de blusas. Como Paulo possui 25 = 10+15 blusas, segue que Paulo pode se vestir de 25 formas
diferentes.
Assim, como Paulo não pode usar uma blusa de manga comprida e outra de manga curta ao mesmo
tempo, segue que temos que escolher uma única blusa entre o total de blusas que é dada pela soma
entre a quantidades de blusas de manga comprida e blusas de manga curta.
A regra geral é dada por:
Regra da adição
Suponha que temos objetos de dois tipos, digamos tipo 1 e tipo 2. Suponha que temos n objetos
do tipo 1 e m objetos do tipo 2. Temos então n + m formas de escolher um objeto (de qualquer
tipo) entre os objetos disponíveis.
Outra forma de escrever essa regra é a seguinte: suponha que temos n formas de executar
uma tarefa usando o procedimento 1, e m formas de executar essa mesma tarefa usando o
procedimento 2. Sabendo que não podemos usar os dois procedimentos conjuntamente, esta
tarefa pode ser realizada de n + m formas diferentes.
2.2.3 Permutação
Suponha que temos k objetos organizados em uma determinada ordem. Se mudarmos a ordem em
que estes objetos estão colocados, dizemos que fizemos uma permutação entre esses objetos. Uma
pergunta importante é saber qual o número de permutações possíveis entre estes k objetos. Para
ilustrarmos a ideia considere o seguinte exemplo:
Exemplo 2.7 Exemplo de permutações

Quantas filas diferentes podemos formar com Pedro, Paulo, Carlos e João?
Também poderíamos escrever a pergunta como: Qual o número de permutações possíveis entre
quatro pessoas?
Vamos enumerar as posições: primeira, segunda, terceira e quarta. Para a primeira posição temos
4 escolhas possíveis. Agora, supondo que já escolhemos a primeira posição, qualquer que seja a
primeira pessoa escolhida, temos possibilidades para a segunda posição. Analogamente, temos 2
possibilidades para a terceira posição e apenas uma para a quarta.
Pela regra da multiplicação, temos 4 · 3 · 2 · 1 = 24 possibilidades.
28 / 140
Notação
O número n! é chamado de fatorial de n e é dado por
n! = n · (n − 1) · (n − 2) · · · 3 · 2 · 1.
Por exemplo, 6! = 6 · 5 · 4 · 3 · 2 · 1. No exemplo anterior, o número de possibilidades é 4! = 24.

Finalmente, temos a regra da permutação:
Permutações
Suponha que temos n objetos, então o número de permutações desses n objetos é n!.
2.2.4 Arranjos
Suponha que temos n objetos, de quantas formas podemos escolher k objetos entre esses n objetos,
sabendo que a ordem em que esses objetos são escolhidos importa?
O número de formas é chamado de número de arranjos. Considere o seguinte exemplo:
Exemplo 2.8 Exemplo de arranjos

Suponha que uma corrida de rua tem 1000 atletas inscritos. Quantos pódios podemos formar com
esses 1000 atletas?
Um pódio consiste de três pessoas, ordenadas pelo campeão, vice-campeão e terceiro lugar. Assim,
temos 1000 formas de escolher o campeão, 999 formas de escolher o vice-campeão e 998 formas de
escolher o terceiro lugar. Portanto, temos 1000 · 999 · 998 pódios possíveis.
1000!
Note que 1000 · 999 · 998 = 997! .
Assim, a regra dos arranjos é:
Arranjo
Suponha que temos n objetos disponíveis. Então, o número de formas de escolher k objetos,
onde a ordem em que os objetos foram escolhidos importa, é dada por
n!
An,k = .
(n − k)!
No exemplo anterior, podemos pensar nas pessoas como 1000 objetos, e queríamos escolher 3 objetos,
onde a ordem importa (a ordem determina o campeão, vice-campeão e terceiro lugar), e portanto o
número de formas é A1000,3 = 1000!
997! .
2.2.5 Combinações
Suponha que estamos no mesmo cenário dos arranjos, ou seja, temos n objetos e queremos escolher
k objetos. Entretanto, suponha que a ordem não importa mais. Assim, só estamos interessados no
número de formas de escolher os k objetos, mas a ordem em particular pela qual os objetos foram
escolhidos não importa. O número de tais formas é dado pelo número de combinações possíveis.
Considere o seguinte exemplo:
29 / 140
Exemplo 2.9 Exemplo de combinações

Suponha que uma empresa possui 1000 funcionários, e que o presidente da empresa gostaria de saber
o número de equipes de 3 pessoas que podem ser formadas com esses 1000 funcionários. Qual o
número que o presidente procura?
Note que este exemplo é muito parecido com o dos arranjos, inclusive temos 1000 “objetos” e
queremos escolher 3. Entretanto o fato da ordem não importar muda tudo.
Como em uma equipe a ordem das pessoas não importa, devemos levar essa informação em
consideração.
Vamos então fingir que a ordem importa, então a quantidade de formas seria A1000,3 = 1000!
997! . Observe
agora que para cada equipe de formada por 3 pessoas, temos 3! pódios possíveis a se formar. Desta
forma, se C é o número de equipes de 3 pessoas que podemos formar com 1000 funcionários, então
3! · C é o número de pódios que podemos formar com 1000 pessoas, pois cada equipe fornece 3!
pódios (aqui utilizamos a regra da multiplicação).
1000! A1000,3 1000!

Como sabemos que o número de pódios possíveis é A1000,3 = 997! , segue que C = 3! = 3!997! .
Assim, temos a regra geral das combinações:
Combinação
Suponha que temos n objetos e queremos escolher k objetos, onde a ordem em que os objetos
n!
foram escolhidos não importa. Então temos Cn,k = k!(n−k)! formas de escolher esses k objetos.
Cn,k é chamado o número de combinações de n, k-a-k.
Nota
Este número de combinações possui uma notação especial, a saber, nk = k!(n−k)!
n!

, e são
chamados de coeficientes binomiais.
Cuidado
Observe que em geral o número de arranjos é bem maior que o número de combinações.
De fato, temos que
An,k = k!Cn,k .
Portanto, é importante não confundir arranjos com combinações porque os resultados podem
ser muito diferentes.
2.2.6 Binômio de Newton
Sejam a, b números reais, e seja n um número natural. Então, temos que
(a + b)n = (a + b)(a + b) · · · (a + b) .
| {z }
n termos
30 / 140
É fácil saber, pela distributividade, que o resultado da multiplicação será uma soma da forma:
(a + b)n = (a + b) · · · (a + b) = C0 an +C1 an−1 b + · · ·Cn bn .
Assim, queremos determinar quais são os valores de Ci , para i = 0, . . . , n. Observe que Ci é o nú-
mero de termos da forma an−i bi que aparecem após a expansão do termo (a + b)n . Este número é
dado pelo número de formas em que podemos escolher (n − i) parcelas da multiplicação iguais a a
(automaticamente as i parcelas restantes serão de termos iguais a b). Como a ordem das parcelas não
importa, o número de formas é justamente o número de combinações de n, (n − i)-a-(n − i), e é dado
n! n
por Ci = Cn,(n−i) = (n−i)!i! = Cn,i = i .
Portanto, temos a fórmula do binômio de Newton:
n
n n n n n−i i n n n n−i i
(a + b) = a +···+ a b +···+ b =∑ a b.
0 i n i=0 i
2.3 Atividades
1. Verdadeiro ou Falso?
a. {a, a, b, c} = {a, b, c};
b. {a, {a}} = {a};
c. {a} ∈ {a, {a}};
d. {a} ⊂ {a, {a}};
e. {{a}} ⊂ {a, {a}};
f. {a, b} ⊂ {a, {a, b}};
g. {a, b} ∈ {a, {a, b}};
h. b ∈ {a, {a, b}};
i. 0/ ∈ {0};
/
j. 0/ = {0};
/
k. 0/ ⊂ {0};
/
l. {0}
/ ⊂ {{0}};
/
m. {0}
/ ∈ {{0}};
/
n. {0}
/ = {{0}}.
/
2. Sejam A = {1, 2, 3, 4, {5}, {6, 7}}, B = {4, {5}, 6, 7} e C = {5, 6, 7}. Determine os seguintes con-
juntos:
a. A \ 0;
/
b. A \ A;
31 / 140
c. A \C;
d. C \ A;
e. A \ B;
f. B \ A;
g. B \C.
3. Seja M = {1, 2, 3, 4, {1}, {2}, {3}, {4}}. Sejam A = {1, {2}, 3, {4}} e B = {{1}, 2, {3}, 4}.
a. Mostre que A e B são subconjuntos de M, e conclua que podemos falar sobre o complementar
de A e sobre o complementar de B (ambos com relação a M);
b. Determine os conjuntos: Ac , Bc , A ∪ Bc , Ac ∪ B, Ac ∪ Bc , A ∪ B, A ∪ Ac e B ∪ Bc .
c. Determine os conjuntos: A ∩ B, Ac ∩ B, Ac ∩ Bc , A ∩ Bc , A ∩ Ac e B ∩ Bc .
4. Quantas palavras contendo 3 letras diferentes podem ser formadas com um alfabeto de 26 letras?
5. Para fazer uma viagem João Pessoa-Salvador-João Pessoa, posso ir de carro, ônibus ou avião. De
quantos modos posso escolher os transportes se não desejo usar na volta o mesmo meio de transporte
da ída?
6. Quantos são os gabaritos possíveis de um teste de 10 questões de múltipla escolha, com cinco
alternativas por questão?
7. De quantos modos 3 pessoas podem sentar-se em 5 cadeiras em fila?
8. O departamento de computação científica de uma universidade possui 20 professores. De
quantos modos podem ser escolhidos um chefe de departamento, um coordenador da gradução e um
coordenador de pós-graduação?
9. Quantos são os anagramas da palavra CAPÍTULO?
10. Quantos são os anagramas da palavra CAPÍTULO que têm a letra C no primeiro lugar E a letra
A no segundo lugar E a letra P no terceiro lugar?
11. João tem 10 frutas diferentes e deseja fazer vários tipos de saladas de frutas, onde cada salada
contém exatamente 4 frutas. Quantos tipos de saladas de frutas ele pode fazer?
12. Em uma prova, o estudante deve escolher exatamente 7 questões entre 10 disponíveis. Quantas
escolhas ele tem?
13. De quantos modos podemos escolher 6 pessoas, incluindo pelo menos duas mulheres, em um
grupo de 7 homens e 4 mulheres?

32 / 140
Capítulo 3
Definições Básicas
• As principais definições da probabilidade

• Reconhecer um modelo com resultados equiprováveis e modelos com resultados que
não são equiprováveis
• Entender e saber aplicar o conceito de probabilidade condicional
• Saber enunciar e aplicar o teorema da probabilidade total e o teorema de Bayes
• Saber a definição e intuição de eventos independentes
Modelos Matemáticos
• Modelo Determinístico: Um modelo no qual as condições impostas ao modelo determinam

o resultado do experimento.
• Modelo Probabilístico: Modelos nos quais, mesmo mantendo as mesmas condições, o re-
sultado do experimento pode variar. Isso se deve a um fator aleatório o qual não podemos
controlar.
Experimento aleatório
Consiste em um experimento em que, mesmo mantendo as mesmas condições, o resultado do
experimento pode variar.
Exemplo 3.1 Exemplos de experimentos aleatórios
1. Lançar um dado e observar o resultado.
2. Jogar três moedas e contar o número de vezes que o resultado foi cara.
3. Medir o número de nascimentos na cidade de João Pessoa na última hora.
33 / 140
3.1 Fundamentos de Probabilidade
Definição: Espaço amostral

Espaço amostral é o conjunto de todos os resultados possíveis de um experimento. Denotamos
o conjunto de todos os resultados por Ω.
Exemplo 3.2 Espaços amostrais associados aos exemplos anteriores
1. Ω = {1, 2, 3, 4, 5, 6};
2. Ω = {0, 1, 2, 3};
3. Ω = {0, 1, 2, 3, . . .}, Ω = {0, 1, 2, ..., 7000000000}, . . ..
Nota
Observe que no último exemplo tivemos mais de uma opção de espaço amostral. Isto não
contradiz a definição de espaço amostral. De fato, podemos ter mais de uma opção de es-
paços amostrais, o importante é que cada uma dessas opções contenha todos os resultados
possíveis.
Definição: Evento
Seja Ω o espaço amostral de um experimento. Todo conjunto A ⊂ Ω tal que podemos calcular
a probabilidade de A é chamado de evento.
Destacamos dois eventos importantes:
1. Ω é chamado de evento certo;
2. 0/ é chamado de evento impossível.
Nota
O conjunto de todos os eventos possui uma estrutura chamada de σ -álgebra. Apesar da
definição de σ -álgebra ser muito simples, não há necessidade de estudarmos σ -álgebras,
pois todos os conjuntos que utilizaremos ao longo do livro serão eventos. Além disso, as
aplicações onde é realmente necessário o uso de σ -álgebras fogem do escopo deste livro.
Como cada evento é um conjunto, vale a pena descrever os eventos obtidos após realizarmos as
operações clássicas de conjuntos entre eventos.
34 / 140
Exemplo 3.3 Eventos
• A ∪ B: é o evento “A ou B”;
• A ∩ B: é o evento “A e B”;
• Ac : é o evento “não ocorrência de A”;
• A ⊂ B: significa que se o evento A ocorre, então o evento B ocorre.
• A ∩ B = 0:
/ significa que A e B são eventos mutuamente excludentes, ou seja, a ocorrência de A
implica que B não ocorre, e a ocorrência de B implica que A não ocorre.
Definição: Partição
Dado um espaço amostral Ω, uma partição P = {Aα , α ∈ I} de Ω é uma coleção de eventos,
Aα , indexados por α, tais que:
• Para todo α 6= β , Aα ∩ Aβ = 0;
/
S
• α∈I Aα = Ω.
Portanto, temos que os eventos de uma partição são dois-a-dois mutuamente excludentes e sua união
é todo o espaço amostral.
Exemplo 3.4 Exemplo de partição

Se Ω = {1, 2, 3, 4}, então {A1 , A2 }, onde A1 = {1, 2, 3} e A2 = {4}, é uma partição de Ω.
3.2 Noções de Probabilidade
Definição: Medida de Probabilidade

Seja E um experimento. Seja Ω um espaço amostral, e seja E um evento de Ω. Dizemos que
P é uma medida probabilidade em Ω se para todo evento A, temos que P(A) é um número
não-negativo, chamado de probabilidade de A, tal que
• 0 ≤ P(A) ≤ 1;
• P(Ω) = 1;
• (Aditividade finita) Se A e B forem eventos mutuamente excludentes, temos que P(A ∪ B) =
P(A) + P(B);
• (Aditividade contável) Se Ai , i = 1, 2, 3, . . . forem eventos dois-a-dois mutuamente excluden-
tes, então,
[ ∞ ∞
P Ai = ∑ P(Ai ).
i=1 i=1
Provaremos agora algumas consequências desta definição.
Teorema
/ = 0.
Seja 0/ o conjunto vazio, então P(0)
35 / 140
Demonstração
Para qualquer evento A, podemos escrever A = A ∪ 0.
/ Como A e 0/ são mutuamente excludentes,
decorre da aditividade finita que P(A) = P(A ∪ 0)
/ = P(A) + P(0).
/ Desta forma, P(0)/ = 0.
Teorema
Seja Ac o evento complementar de A. Então P(Ac ) = 1 − P(A).
Demonstração
Podemos escrever Ω = A ∪ Ac . Além disso, A e Ac são mutuamente excludentes. Portanto, pela
aditividade finita, temos que 1 = P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ). Desta forma, segue que
P(Ac ) = 1 − P(A).
Teorema
Sejam A e B dois eventos quaisquer. Então P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Demonstração
Temos que A ∪ B = A ∪ (B ∩ Ac ) (faça um desenho) e B = (A ∩ B) ∪ (B ∩ Ac ). Desta forma,
temos que como A e B ∩ Ac são mutuamente excludentes, vale P(A ∪ B) = P(A) + P(B ∩ Ac ).
Por outro lado, temos que A ∩ B e B ∩ Ac também são mutuamente excludentes. Portanto, segue
que P(B) = P(A ∩ B) + P(B ∩ Ac ) ⇒ P(B ∩ Ac ) = P(B) − P(A ∩ B).
Juntando as duas equações, obtemos que
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Mais geralmente temos o
Teorema (Princípio da inclusão e exclusão)

Sejam A1 , A2 , . . . , An n eventos quaisquer. Então,
n
P(A1 ∪ A2 ∪ · · · ∪ An ) = ∑ P(Ai) − ∑ P(Ai ∩ A j )
i=1 i< j
+ ∑ P(Ai ∩ A j ∩ Ak ) + · · · + (−1)n−1 P(A1 ∩ · · · ∩ An ).
i< j<k
Teorema
Sejam A e B dois eventos. Suponha que A ⊂ B, então P(A) ≤ P(B).
Demonstração
Temos que B = A ∪ (B ∩ Ac ), com A e B ∩ Ac sendo mutuamente excludentes.
Desta forma,P(B) = P(A) + P(B ∩ Ac ). Por outro lado, P(B ∩ Ac ) ≥ 0.
Portanto, temos que P(B) ≥ P(A).
Exercício
Mostre que a coleção de intervalos {(n, n + 1] : n ∈ R} é uma partição do conjunto dos números
reais R.
Solução
Denote por [x] a parte inteira do número real x. Temos que para todo x real, vale
x ∈ ([x] − 1, [x]] ∪ ([x], [x] + 1].
36 / 140
[ [
Portanto, vale x ∈ (n, n + 1], ou seja, R ⊂ (n, n + 1].
n∈Z n∈Z
[
Por outro lado, ∀n ∈ Z, (n, n + 1] ⊂ R. Daí (n, n + 1] ⊂ R. Portanto, concluímos que
n∈Z
[
R= (n, n + 1].
n∈Z
3.3 Espaços Amostrais Finitos
Seja Ω um espaço amostral associado a um experimento aleatório E com um número finito de resul-
tados possíveis. Então Ω pode ser escrito da seguinte forma: Ω = {ω1 , . . . , ωn }, para algum número
natural n.
A cada evento simples {ωi }, i = 1, . . . , n, associamos um número pi , i = 1, . . . , n de tal forma que duas
condições sejam satisfeitas:
1. pi ≥ 0 para todo i = 1, . . . , n;
2. p1 + · · · + pn = 1.
Assim, definimos a probabilidade da ocorrência do resultado ωi , i = 1, . . . , n como sendo P({ωi }) =

pi .
Suponha que tenhamos um evento A consistindo de k resultados possíveis, ou seja, A = {ω j1 , . . . , ω jk },
onde j1 , . . . , jk assumem valores entre 1 e n. Pela propriedade da aditividade contável, a probabilidade
do evento A é dada por
P(A) = P({ω j1 }) + · · · + P({ω jk }) = p j1 + · · · + p jk .
Exercício
Suponha que somente três resultados sejam possíveis em um experimento, a saber, a1 , a2 e a3 .
Além disso, suponha que a1 seja duas vezes mais provável de ocorrer do que a2 , o qual, por
sua vez, é duas vezes mais provável de ocorrer do que a3 . Determine as probabilidades de
ocorrência de a1 , a2 e a3 .
Solução
Sejam p1 , p2 e p3 as probabilidades de ocorrências de a1 , a2 e a3 , respectivamente. Então,
temos do enunciado que p1 = 2p2 e que p2 = 2p3 . Como sabemos que p1 + p2 + p + 3 = 1,
temos que 4p3 + 2p3 + p3 = 1, ou seja, p3 = 1/7.
Isto fornece p1 = 4/7, p2 = 2/7 e p3 = 1/7.
3.4 Resultados Equiprováveis
Suponha que temos um experimento com n resultados possíveis e que todos esses resultados sejam
equiprováveis, isto é, todos os resultados possuem a mesma probabilidade de ocorrência. Neste caso,
dizemos que o experimento possui resultados equiprováveis. Digamos que os resultados possíveis do
experimento são a1 , . . . , an .
37 / 140
Sejam p1 , p2 , . . . , pn as probabilidades de ocorrências dos eventos a1 , a2 , . . . , an , respectivamente. En-

tão, como todos os resultados possuem a mesma probabilidade de ocorrência, temos que p1 = p2 =
· · · = pn = p.
Além disso, sabemos que p1 + · · · + pn = 1, ou seja, np = 1, o que por sua vez implica que p = 1/n.
Utilizando a propriedade de aditividade contável da probabilidade podemos concluir o seguinte resul-
tado: Seja A um evento que contém k resultados possíveis, então P(A) = k/n.
Este método de avaliar a probabilidade do evento A normalmente é enunciado da seguinte maneira:
número de resultados favoráveis a A
P(A) = .
número de resultados possíveis
Exercício
Um dado é lançado e todos os resultados são igualmente prováveis. O evento A ocorrerá se, e
somente se, um número maior do que 4 aparecer, isto é, A = {5, 6}. Calcule P(A).
Solução
Como temos 6 resultados possíveis e 2 resultados favoráveis, temos que P(A) = 2/6 = 1/3.
3.5 Probabilidade Condicional
Suponha que temos a seguinte situação: Um lote é formado por 100 monitores de computador. Foi
verificado que neste lote, temos 80 monitores em perfeito estado e 20 monitores defeituosos. Suponha
que dois monitores são retirados do lote ao acaso. Considere então os eventos:
A = O primeiro monitor é defeituoso e B = O segundo monitor é defeituoso.
Suponha que a retirada dos monitores seja com reposição. Isto é, o primeiro monitor é retirado,
verifica-se se é defeituoso ou não, e é colocado de volta ao lote. Neste cenário, temos 20 casos
favoráveis ao evento A, entre 100 casos possíveis, e 20 casos favoráveis ao evento B, também entre
100 casos possíveis. Desta forma, no cenário com reposição, temos que P(A) = P(B) = 1/5.
Entretanto temos um segundo cenário possível: que a retirada dos monitores seja feita sem reposição,
isto é, o primeiro monitor é retirado, verifica-se se este é defeituoso, e em seguida um segundo monitor
é retirado (sem que o primeiro seja devolvido ao lote), donde após a retirada, verifica-se se o segundo
monitor é defeituoso ou não.
Neste cenário, ainda temos 20 casos favoráveis ao evento A e 100 casos possíveis. No entanto, para
o evento B o problema não se torna fácil, pois não sabemos se no momento da retirada do segundo
monitor teremos 19 casos favoráveis ou 20 casos favoráveis. Isto dependerá se o evento A ocorreu ou
não. A única coisa certa é que temos 99 casos possíveis para o evento B.
A fim de resolver este problema vamos introduzir um novo conceito, o de probabilidade condicional.
Assim que tivermos desenvolvido a teoria o suficiente para resolver o problema acima, terminaremos
a solução dele.
Definição: Probabilidade condicional

Sejam agora, A e B dois eventos associados a um experimento E. Suponha que P(A) > 0, então
denotamos por P(B|A) a probabilidade do evento B ocorrer condicionada à ocorrência do evento
A. Esta probabilidade condicional é definida como
P(A ∩ B)
P(B|A) = .
P(A)
38 / 140
Cuidado
Vale a pena relembrar que na probabilidade condicional P(B|A) estamos supondo que
P(A) > 0.
Importante
Sempre que calculamos a probabilidade condicional P(B|A), o que estamos fazendo na prá-
tica é reduzir o espaço amostral original Ω para um espaço amostral de eventos favoráveis à
ocorrência do evento A. Esse espaço amostral é chamado de espaço amostral reduzido.
Exercício
Dois dados equilibrados (onde todos os resultados são equiprováveis) são lançados. Os resul-
tados são registrados como o par ordenado (x1 , x2 ), onde x1 representa o resultado obtido no
lançamento do primeiro dado, e x2 representa o resultado do lançamento do segundo dado. Con-
sideremos os eventos: A = {(x1 , x2 ); x1 + x2 = 10} e B = {(x1 , x2 ); x1 > x2 }. Calcule P(A|B) e
P(B|A).
Solução
Escrevendo os eventos A, B e A ∩ B explicitamente, temos que
A = {(5, 5), (4, 6), (6, 4)},
B = {(2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (3, 2),
(4, 2), (5, 2), (6, 2), (4, 3), (5, 3), (6, 3), (5, 4), (6, 4), (6, 5)}
e
A ∩ B = {(6, 4)}.
O número de casos totais é 36, pois temos 6 casos possíveis para o primeiro lançamento e 6
casos possíveis para o segundo lançamento.
Assim, como os resultados são todos equiprováveis, temos que
3 1 15 5 1
P(A) = 36 = 12 , P(B) = 36 = 12 e P(A ∩ B) = 36 .
Assim, segue que
P(A∩B) 1/36 1 P(A∩B) 1/36
P(A|B) = P(B) = 5/12 = 15 e P(B|A) = P(A) = 1/12 = 31 .
3.5.1 Teorema da Multiplicação
A mais importante consequência da definição da probabilidade condicional é obtida ao escrevermos:

P(A ∩ B) = P(A|B)P(B) ou equivalentemente, P(A ∩ B) = P(B|A)P(A).
Estas igualdades são chamadas de Teorema da multiplicação ou Teorema do produto.
Existe uma generalização para mais de dois eventos e ela é a seguinte: Dados eventos A1 , A2 , . . . , An ,
temos que
P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) · · · P(An |A1 ∩ · · · ∩ An−1 ).
39 / 140
Exercício
Uma caixa contém 4 lâmpadas boas e 2 queimadas. Retira-se ao acaso 3 lâmpadas sem reposi-
ção. Calcule a probabilidade dessas 3 lâmpadas serem boas.
Solução
Sejam os eventos Ai = {A i-ésima lâmpada é boa}, para i = 1, 2, 3. Queremos calcular a proba-
bilidade do evento A1 ∩ A2 ∩ A3 . Sabemos, pelo teorema da multiplicação, que
P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ).
Vamos então calcular cada uma dessas probabilidades separadamente.

Inicialmente, temos 4 resultados favoráveis ao evento A1 , entre 6 resultados possíveis, logo
P(A1 ) = 46 = 23 .
Agora, vamos considerar o espaço amostral reduzido para calcular P(A2 |A1 ). Dado que A1
ocorreu, e como estamos sem reposição, para a retirada da segunda lâmpada teremos 3 lâmpa-
das boas, e um total de 5 lâmpadas. Logo, P(A2 |A1 ) = 35 .
Analogamente, para calcular P(A3 |A1 ∩ A2 ), observe que se $A_1$ e $A_2$ ocorreram, então
para a retirada da terceira lâmpada, teremos 2 lâmpadas boas e um total de 4 lâmpadas. Desta
forma,
2
P(A3 |A1 ∩ A2 ) = 4 = 12 .
Finalmente, juntando estas probabilidades obtemos que
231
P(A1 ∩ A2 ∩ A3 ) = 352 = 15 .
3.5.2 Teorema da Probabilidade Total
Seja Ω o espaço amostral de um experimento E, e seja B1 , B2 , . . . , Bk uma partição de Ω. Assim, dado

um evento A qualquer, temos que
A = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ · · · ∪ (A ∩ Bk ).
Observe que como os eventos A ∩ B1 , A ∩ B2 , . . . , A ∩ Bk são dois-a-dois mutuamente excludentes,

podemos aplicar a aditividade contável da probabilidade, que é válida para eventos mutuamente ex-
cludentes, e escrever
P(A) = P(A ∩ B1 ) + · · · + P(A ∩ Bk ).
Essa forma acima é chamada a primeira forma do Teorema da probabilidade total. Vamos agora
para a segunda forma. Escrevendo cada termo P(A ∩ Bi ) = P(A|Bi )P(Bi ) e, daí, obtemos a segunda
forma do teorema da probabilidade total:
P(A) = P(A|B1 )P(B1 ) + · · · + P(A|Bk )P(Bk ).
Agora já temos teoria suficiente para resolver o problema dos monitores apresentado no início da
seção:
Exercício
Consideremos o exemplo do lote com 20 monitores defeituosos e 80 monitores em perfeito
estado, no qual extraímos duas peças sem reposição, e queremos calcular a probabilidade do
evento B = {O segundo monitor é defeituoso}.
40 / 140
Solução
Relembre a definição do evento A: A ={O primeiro monitor é defeituoso}.
Pelo teorema da probabilidade total, segue que
P(B) = P(B|A)P(A) + P(B|Ac )P(Ac ).
Já sabemos que P(A) = 15 . Isto fornece também, pela propriedade do complementar P(Ac ) =
1 − P(A) = 45 .
Vamos calcular agora P(B|A) e P(B|Ac ) separadamente.
Dado que o evento A ocorreu, e sabendo que estamos sem reposição, para o segundo monitor,
teremos 99 monitores disponíveis e entre eles, apenas 19 são defeituosos. Assim, P(B|A) = 19
99 .
Analogamente, temos que se Ac ocorreu, então o primeiro monitor escolhido estava em per-
feito estado. Assim, neste cenário, para a escolha do segundo monitor, teremos 20 monitores
defeituosos disponíveis entre o total de 99 monitores. Assim P(B|Ac ) = 20
99 .
Juntando todas as informações, temos que
19 1 20 4 80 + 19 1
P(B) = + = = .
99 5 99 5 99 · 5 5
Então, curiosamente, apesar das contas serem completamente diferentes, e de estarmos sem
reposição, neste caso, as probabilidades também são iguais. Note que isso é uma coincidência
e não ocorre em geral.
Cuidado
Note que embora no exemplo acima as probabilidades com reposição e sem reposição coin-
cidiram, isto não ocorre sempre!
3.5.3 Teorema de Bayes
Assim como no teorema da probabilidade total, seja Ω um espaço amostral associado a um experi-
mento E, e seja B1 , B2 , . . . , Bk uma partição de Ω.
Temos então, pela definição da probabilidade condicional que
P(A ∩ Bi )
P(Bi |A) = , i = 1, 2, . . . , k.
P(A)
Usando o teorema da multiplicação, temos que P(A ∩ Bi ) = P(A|Bi )P(Bi ). Além disso, pelo teorema
da probabilidade total, temos que P(A) = ∑kj=1 P(A|B j )P(B j ).
Portanto, juntando essas fórmulas com a definição da probabilidade condicional, obtemos:
P(A|Bi )P(Bi )
P(Bi |A) = , i = 1, . . . , k.
∑ j=1 P(A|B j )P(B j )
Esta fórmula é conhecida como Teorema de Bayes.
Exercício
Numa turma de ciências da computação da UFPB, 1% dos homens e 4% das mulheres possuem
menos de 1,60m de altura. Além disso, 60% dos estudantes são homens. Se um estudante é
selecionado ao acaso e é verificado que tem menos de 1,60m de altura. Qual é a probabilidade
desse estudante ser homem?
41 / 140
Solução
Defina os eventos
A = {Estudantes com menos de 1,60m}, M = {Estudantes do sexo feminino} e H = {Estudan-
tes do sexo masculino}.
Pelo enunciado, sabemos que P(A|H) = 0, 01, P(A|M) = 0, 04, P(H) = 0, 6 e P(M) = 1 −
P(H) = 0, 4.
Além disso, pelo teorema de Bayes, segue que
P(A|H)P(H) 0, 01 · 0, 6 3
P(H|A) = = = .
P(A|H)P(H) + P(A|M)P(M) 0, 01 · 0, 6 + 0, 04 · 0, 4 11
3.6 Eventos Independentes
Considere dois eventos A e B quaisquer de um mesmo espaço amostral Ω. Dois eventos A e B são
independentes quando a probabilidade de ocorrer um dos eventos não é modificada pela ocorrência
do outro. Ou seja, dizemos que A e B são independentes quando P(A|B) = P(A) ou P(B|A) = P(B).
Assim, se A e B são eventos independentes, então
P(A ∩ B) = P(A)P(B).
Nota
Observe que se vale a recíproca dessa última afirmação, ou seja, se vale a identidade acima,
então os eventos são independentes.
Exercício
Suponha que um dado equilibrado seja jogado duas vezes. Sejam os eventos: A = {o primeiro
dado mostra um número par} e B = {o segundo dado mostra o número 5 ou 6}. Calcule
P(A), P(B), P(A ∩ B), P(A|B) e P(B|A).
Solução
Escrevendo explicitamente, temos que
Ω = {(1, 1), (1, 2), (1, 3), . . . , (6, 6)}, onde Ω possui 36 elementos,
A = {(2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (4, 1), (4, 2), (4, 3),
(4, 4), (4, 5), (4, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)},
onde A possui 18 elementos,
B = {(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5), (1, 6), (2, 6), (3, 6), (4, 6), (5, 6), (6, 6)},
onde B possui 12 elementos, e A ∩ B = {(2, 5), (2, 6), (4, 5), (4, 6), (6, 5), (6, 6)}, onde A ∩ B
possui 6 elementos.
Portanto, temos que
18
P(A) = 36 = 12 , P(B) = 12
36 = 1
3 e P(A ∩ B) = 6
36 = 16 .
Observemos que P(A ∩ B) = = 12 13 = P(A)P(B). Logo, pelo que vimos acima, os eventos são
1
6
independentes e desta forma, P(A|B) = P(A) = 12 , e P(B|A) = P(B) = 13 .
Podemos também verificar diretamente:
P(A∩B) 1/6 1 P(A∩B) 1/6
P(A|B) = P(B) = 1/3 = 2 e P(B|A) = P(A) = 1/2 = 13 .
42 / 140
Podemos generalizar este resultado para n eventos. Isto fornece a seguinte definição:
Definição: n eventos independentes

Sejam A1 , A2 , . . . , An eventos em um mesmo espaço amostral Ω. Dizemos que A1 , . . . , An são
eventos independentes se, e somente se, para k = 2, 3, . . . , n, e todas as escolhas possíveis de
índices i1 , . . . , ik , onde cada i j é um número entre 1 e n, e eles são diferentes, vale a igualdade
P(Ai1 ∩ Ai2 ∩ · · · ∩ Aik ) = P(Ai1 ) · · · P(Aik ).
Nota
Neste caso, temos 2n − n − 1 relações a serem verificadas.
Exercício
Suponha que um par de moedas honestas sejam lançadas. Considere os eventos: A = {cara
na primeira moeda}, B = {cara na segunda moeda} e C = {cara em exatamente uma moeda}.
Mostre que os eventos A, B e C são dois-a-dois independentes, mas não são independentes.
Solução
Observe que Ω = {(cara,cara),(cara,coroa),(coroa,cara),(coroa,coroa)}. Note que Ω possui 4
elementos.
Temos que A = {(cara,cara),(cara,coroa)}, B = {(cara,cara), (coroa,cara)}, C =
{(cara,coroa),(coroa,cara)}. Além disso, segue que A ∩ B = {(cara,cara)}, A ∩ C =
{(cara,coroa)}, B ∩C = {(coroa,cara)}.
Portanto, temos que P(A) = 42 = 21 , P(B) = 24 = 12 , P(C) = 24 = 12 . Por outro lado, temos que
latexmath:[P(A ∩ B) = 41 = 12 · 12 = P(A)P(B), P(A ∩C) = 14 = 12 · 21 = P(A)P(C) e P(B ∩C) =
1 1 1
4 = 2 · 2 = P(B)P(C).
Isso mostra que os eventos A, B e C são dois-a-dois independentes. Entretanto, temos que
A ∩ B ∩C = 0,
/ e desta forma,
1
P(A ∩ B ∩C) = 0 6= 8 = P(A)P(B)P(C).
Logo, os eventos A, B e C não são independentes.
3.7 Atividades
1. Sejam A, B e C três eventos em um espaço de probabilidade. Expresse os seguintes eventos em

termos de A, B e C:
a) Apenas A ocorre;
b) A e B ocorrem, mas C não ocorre;
c) Os três eventos ocorrem;
d) Pelo menos um dos três ocorrem;
e) Nenhum dos três ocorrem;
f) Exatamente um dos três ocorre;
43 / 140
2. Extraem-se 4 cartas de um baralho com 52 cartas. Qual é a probabilidade de que 2 sejam

vermelhas e 2 sejam pretas?
3. Qual a probabilidade de que os aniversários de 12 pessoas sejam em meses diferentes?
4. Quatro números são sorteados ao acaso, sem reposição, do conjunto {0, 1, 2, . . . , 9}. Calcule a
probabilidade de que:
a) Os quatro números sorteados podem ser ordenados de forma consecutiva, por exemplo,
{1, 2, 3, 4}.
b) Todos sejam maiores do que 5.
c) O número 0 seja escolhido.
d) Pelo menos um seja maior do que 7.
e) Todos sejam ímpares.
5. Sejam A e B dois eventos em um espaço de probabilidade tais que P(A) = 1/2, P(B) = 1/4 e
P(A ∩ B) = 1/5. Calcule as probabilidades dos seguintes eventos:
a) A não ocorre;
b) B não ocorre;
c) Pelo menos um entre A e B ocorrem;
d) A não ocorre e B sim;
e) B não ocorre e A sim;
f) Ocorre exatamente um de A e B;
g) Não ocorre nenhum de A e B;
h) Pelo menos um de A e B não ocorre.
6. Escolhe-se ao acaso um número entre 1 e 50. Sabendo que o número é primo, qual é a probabi-
lidade de que seja ímpar?
7. Em um programa de auditório o participante lança um dado honesto 6 vezes. Ele ganha um prêmio
de participação se obtiver o mesmo número pelo menos duas vezes, e ganha um prêmio milionário se
a face 6 aparecer pelo menos quatro vezes. Qual a probabilidade de que o participante:
a) Ganhe o prêmio de participação?
b) Ganhe o prêmio milionário?
c) Tenha ganho o prêmio milionário dado que ganhou o prêmio de participação?
8. Em um curso preparatório para o vestibular, 1/3 dos estudantes são do sexo masculino e 2/3 são
do sexo feminino. A proporção dos rapazes que estudam matemática é 20% e apenas 10% das moças
estudam matemática. Obtenha as probabilidades de que:
a) Um estudante escolhido ao acaso estude matemática.
b) Um estudante de matemática escolhido ao acaso seja do sexo feminino.
9. Lança-se um dado duas vezes. Considere os eventos:
A = {Foi obtido 2 ou 5 no primeiro lançamento}
e
B = {A soma das faces obtidas nos dois primeiros lançamentos é pelo menos 7}.
44 / 140
A e B são independentes?
10. Dois estudantes, Pedro e Paulo, estão matriculados na turma de Probabilidade e Estatística. Pedro
comparece a 80% das aulas e Paulo comparece a 60%. Suas presenças nas aulas são independentes.
Calcule a probabilidade de que, em determinado dia:
a) pelo menos um dos estudantes compareça a aula.
b) apenas um deles esteja presente.

45 / 140
Capítulo 4
Variáveis Aleatórias e Suas Distribuições
• Saber a definição de variável aleatória

• Saber identificar variáveis aleatórias discretas
• Entender o que é e como calcular a função de probabilidade de uma variável aleatória
discreta
• Saber identificar variáveis aleatórias contínuas
• Entender o que é e como calcular a função de densidade de uma variável aleatória
contínua
• Saber a definição e como calcular a função de distribuição acumulada
• Saber a relação entre a função de distribuição acumulada e função de probabilidade (no
caso de variáveis aleatórias discretas)
• Saber a relação entre a função de distribuição acumulada e função de densidade (no
caso de variáveis aleatórias contínuas)
• Saber a definição e exemplos de variáveis aleatórias mistas
• Entender o que são e como trabalhar com funções de variáveis aleatórias
Imaginemos que existe a definição de que a temperatura de João Pessoa é considerada quente se é
maior do que 27 graus Celsius, é considerada confortável se está entre 20 e 27 graus Celsius, e é
considerada fria se é menor do que 20 graus Celsius. Suponha que nosso espaço amostral para o
experimento medir a temperatura de João Pessoa pela manhã. Suponha que nosso espaço amostral,
que contém todos os resultados possíveis para a temperatura, é Ω = R. Se queremos determinar se a
temperatura é fria, confortável ou quente, a melhor ferramenta para isso é definir uma função X : Ω →
{fria,confortável,quente}. Ou seja, uma função que associa a cada valor de temperatura, a quantidade
fria, confortável ou quente. Por exemplo, X(10) = frio; X(34) = quente, e X(22) = confortável.
Neste exemplo, foram medidas temperaturas, 10, 34 e 22, respectivamente.
Essa função X que utilizamos é o que chamamos de uma variável aleatória. Ou seja, é um rótulo que
damos para os valores possíveis no espaço amostral.
Na prática, o mais comum é utilizar variáveis aleatórias, onde associamos cada valor do espaço amos-
tral a um número real, ao invés de um conjunto arbitŕario. Isso se deve ao fato, de que existem muitas
46 / 140
distribuições de probabilidade conhecidas tomando como valores números reais. Portanto, ao consi-
derar uma variável aleatória que toma valores reais, estamos pegando um problema de probabilidade
genérico, e transformando num problema de probabilidade de números reais, e assim podemos utilizar
toda a teoria de distribuições discretas e contínuas para resolver o problema.
Desta forma, mais precisamente, temos a
Definição: Variável Aleatória

Seja Ω um espaço amostral e seja X : Ω → R uma função X que associa a cada elemento ω ∈ Ω
um número real X(ω) ∈ R.
Exemplo 4.1 Exemplo de variável aleatória

Suponha que sorteamos 3 pessoas em João Pessoa e observamos se é homem ou mulher. Suponha que
queremos saber o número de mulheres sorteadas. Para isso, defina a variável aleatória X : Ω → R, onde
X pode assumir os valores, 0,1,2 e 3. Se denotamos homem por H e mulher por M, temos que Ω =
{MMM, MMH, MHM, HMM, MHH, HMH, HHM, HHH}, e portanto X(MMM) = 3, X(MMH) =
X(MHM) = X(HMM) = 2, X(MHH) = X(HMH) = X(HHM) = 1, X(HHH) = 0.
Definição: Imagem Inversa

Seja Ω um espaço amostral e seja X : Ω → R uma variável aleatória. Dado qualquer subconjunto
B ⊂ R, definimos a imagem inversa de B pela variável aleatória X como o conjunto X −1 (B) =
{ω ∈ Ω; X(ω) ∈ B}. Ou seja, X −1 (B) consiste dos elementos de Ω que são levados no conjunto
B pela variável aleatória X.
A partir da imagem inversa de X −1 (B) podemos construir uma nova medida de probabilidade induzida
pela variável aleatória X.
Definição: Probabilidade induzida pela variável aleatória X

Definimos a probabilidade P(X ∈ B) como sendo P(X −1 (B)), ou seja, como a probabilidade do
evento X −1 (B). Da mesma forma, definimos P(X = a) como sendo P(X −1 ({a})), ou seja, a
probabilidade da variável aleatória assumir o valor a.
Exercício
Escreva o que significa P(X ≤ b) para algum número real b.
Solução
Seguindo a mesma ideia da definição, temos que P(X ≤ b) deve ser definido como a probabili-
dade de X ser menor ou igual a b, assim, é a probabilidade de X pertencer ao intervalo da reta
(−∞, b]. Portanto, P(X ≤ b) = P(X −1 ((−∞, b])).
Exercício
Suponha que na cidade de João Pessoa, temos a mesma quantidade de homens e de mulhe-
res, e que cada sorteio de pessoas é feito com reposição e independentemente do(s) sorteio(s)
anterior(es). Seja X a variável aleatória que indica o número de mulheres sorteadas. Calcule:
P(X = 0), P(X = 1), P(X = 2) e P(X ≤ 2).
Solução
Temos que P(X = 0) = P(HHH) = 18 ; P(X = 1) = P({HHM, HMH, MHH}) = P(HHM) +
P(HMH) + P(MHH) = 83 ; P(X = 2) = P(HMM, MHM, MMH) = P(HMM) + P(MHM) +
P(MMH) = 38 . Finalmente,
1 3 3 7
P(X ≤ 2) = P(X = 0) + P(X = 1) + P(X = 2) = + + = .
8 8 8 8
47 / 140
Poderíamos também ter resolvido utilizando a técnica de tomar complementares. Como X só

pode assumir valores 0, 1, 2 e 3, temos que,
1 7
P(X ≤ 2) = 1 − P(X > 2) = 1 − P(X = 3) = 1 − P(MMM) = 1 − = .
8 8
4.1 Variáveis Aleatórias Discretas
Como falamos anteriormente, nosso objetivo em considerar variáveis aleatórias tomando como va-
lores números reais, se deve ao fato de haver uma teoria bem completa em torno dessas variáveis
aleatórias. Dentre as variáveis aleatórias reais, existem dois grandes grupos: as variáveis aleatórias
discretas e as variáveis aleatórias contínuas. Nosso objetivo nesta seção consiste em definir, e apre-
sentar vários exemplos de variáveis aleatórias discretas.
Definição: Variável aleatória discreta

Seja Ω um espaço amostral e seja X : Ω → R uma variável aleatória. Se existe uma sequência
números a1 , a2 , a3 , . . ., tais que X só pode assumir um dos valores dessa sequência. Então
dizemos que X é uma variável aleatória discreta.
Nota
Note que apesar da sequência a1 , a2 , a3 , . . . ser uma sequência infinita, o conjunto de valores
possíveis para a variável aleatória X pode ser finito ou infinito enumerável. Por infinito enu-
merável, nós queremos dizer um conjunto infinito que pode ser indexado pelo conjunto dos
números naturais, ou seja, pelo qual podemos escrever uma sequência numérica cobrindo
todos os números.
No caso de variáveis aleatórias discretas, sabemos que vale a seguinte identidade:

P(X ∈ {a1 , a2 , a3 , . . .}) = 1,
pois X necessariamente só assume valores nesse conjunto {a1 , a2 , a3 , . . .}. Portanto, utilizando a
aditividade contável da medida de probabilidade, obtemos
∞
1 = P(X ∈ {a1 , a2 , a3 , . . .}) = ∑ P(X = ai ),
i=1
e portanto temos que ∑∞

i=1 P(X = ai ) = 1, e além disso, sabemos que para cada i, vale P(X = ai ) ≥ 0.
Estes fatos motivam a seguinte definição:
Definição: Função de probabilidade

Seja Ω um espaço amostral e seja X : Ω → R uma variável aleatória discreta, e seja a1 , a2 , a3 , . . . ,
o conjunto de valores possíveis de X. Definimos a função de probabilidade da variável aleatória
X como uma função p(ai ), que associa a cada ai a probabilidade da variável aleatória X assumir
o valor ai , isto é, definimos p(ai ) = P(X = ai ).
Nota
Pelo que já vimos, uma função de probabilidade satisfaz as seguintes propriedades: . para
todo i, p(xi ) ≥ 0; . ∑∞
i=1 p(xi ) = 1.
48 / 140
Exercício
Suponha que uma urna contém 6 bolas azuis e 4 bolas vermelhas. Quatro bolas são tiradas
aleatoriamente da urna, com reposição, e é observada a cor da bola, antes da bola ser devolvida
à urna. Seja X a variável aleatória que indica o número de bolas vermelhas que foram retiradas
da urna. Obtenha a função de probabilidade de X.
Solução
Denote por V a bola vermelha e por A, a bola azul. Pelas informações do problema, temos que
4 6
a probabilidade de se retirar uma bola vermelha é 10 e a de se retirar uma bola azul é 10 .
4 6
Assim, P(V ) = 10 = 0, 4 e P(A) = 10 = 0, 6.
O espaço amostral do problema é dado por
Ω = {VVVV,VVVA,VVAV,VAVV, AVVV,VVAA,VAVA,
VAAV, AVAV, AAVV, AVVA,VAAA, AVAA, AAVA, AAAV, AAAA}.
É fácil ver que o conjunto de valores possíveis para a variável aleatória X é {0, 1, 2, 3, 4}.
Assim:
p(0) = P(X = 0) = P(AAAA) = (0, 6)4 ;
p(1) = P(X = 1) = P(AAAV, AAVA, AVAA,VAAA)
= P(AAAV ) + P(AAVA) + P(AVAA) + P(VAAA)
= (0, 6)3 0, 4 + (0, 6)3 0, 4 + (0, 6)3 0, 4 + (0, 6)3 0, 4 = 4(0, 6)3 0, 4;
p(2) = P(X = 2) = P(VVAA,VAVA,VAAV, AVAV, AAVV, AVVA)
= P(VVAA) + P(VAVA) + P(VAAV ) + P(AVAV ) + P(AAVV ) + P(AVVA)
= (0, 6)2 (0, 4)2 + (0, 6)2 (0, 4)2 + (0, 6)2 (0, 4)2
+ (0, 6)2 (0, 4)2 + (0, 6)2 (0, 4)2 + (0, 6)2 (0, 4)2
= 6(0, 6)2 (0, 4)2 ;
p(3) = P(X = 3) = P(VVVA,VVAV,VAVV, AVVV )
= P(VVVA) + P(VVAV ) + P(VAVV ) + P(AVVV )
= (0, 4)3 0, 6 + (0, 4)3 0, 6 + (0, 4)3 0, 6 + (0, 4)3 0, 6
= 4(0, 4)3 0, 6;
finalmente, p(4) = P(X = 4) = P(VVVV ) = (0, 4)4 .
4.2 Variáveis Aleatórias Contínuas
As variáveis contínuas são aquelas na qual a variável aleatória pode assumir uma quantidade não-
enumerável de valores. Isto faz com que a probabilidade de assumir um valor específico seja 0. Ou
seja, se X é uma variável aleatória contínua, para todo número real a, temos que P(X = a) = 0. A
intuição para este fato inusitado, é que temos tantos valores possíveis para X, que faz com que a
probabilidade de assumir um valor em particular seja 0. Neste caso, a probabilidade de X assumir um
valor é trocada pela probabilidade de X pertencer a um intervalo da reta. Além disso, no cálculo da
probabilidade, a soma é “trocada” por uma integral, conforme veremos na próxima definição.
Definição: Variável Aleatória Contínua

Dizemos que X é uma variável aleatória contínua se existe uma função real f : R → R, a qual
chamamos de função de densidade de X, que satisfaz as seguintes condições:
49 / 140
• Para todo x real, f (x) ≥ 0;

Z ∞
• f (x)dx = 1;
−∞
• Se f (x) satisfaz as duas primeiras condições, então temos que para quaisquer a e b, −∞ <
Z b
a < b < ∞, vale P(a ≤ X ≤ b) = f (x)dx.
a
Nota
Note portanto, que pela definição, para checar se uma função f (x) é uma função de densi-
dade é suficiente verificar duas coisas:
1. se para todo x real, temos f (x) ≥ 0;

Z ∞
2. se f (x)dx = 1.
−∞
Importante
Como mencionamos anteriormente, a definição de variável aleatória contínua implica que
para todo a real, P(X = a) = 0. De fato, como X possui uma função de densidade f , temos
que Z a
P(X = a) = f (x)dx = 0.
a
Uma consequência deste fato é que P(a ≤ X ≤ b) = P(a < x < b) = P(a < x ≤ b) = P(a ≤ X < b).
Exercício
Suponha que X seja uma variável aleatória contínua com a função de densidade
(
2x, 0 < x < 1;
f (x) = .
0, caso contrário.
a. Mostre que f (x) é uma função de densidade;

b. Calcule P(X ≤ 1/2);
c. Calcule P(X ≤ 1/2|1/3 ≤ X ≤ 2/3) (probabilidade condicional).
Solução
a.
R∞
Temos da definição de f (x) que para todo x real, f (x) ≥ 0. Basta verificar agora que
−∞ f (x)dx = 1. Note que f (x) = 0 fora do intervalo [0, 1], e portanto
Z ∞ Z 1 1
f (x)dx = 2xdx = x2 0 = 1.
−∞ 0
Assim, f (x) é função de densidade

b. Z 1/2 1/2 1
P(X ≤ 1/2) = 2xdx = x2 = .

0 0 4
50 / 140
c.
P(1/3≤X≤1/2)
P(X ≤ 1/2|1/3 ≤ X ≤ 2/3) = P(1/3≤X≤1/2)
R 1/2
1/3
2xdx
= R 2/3
1/3
2xdx
1/2
x2

1/3 5/36
= 2/3 = 3/9
2

x
1/3
5
= 12 .
4.3 Função de Distribuição Acumulada
Na teoria matemática da probabilidade é possível mostrar que, dada uma variável aleatória X, a pro-
babilidade de qualquer evento pode ser obtida a partir das probabilidades P(X ≤ a), onde a é número
real. Ou seja, conhecendo P(X ≤ a) para todo a real, significa dizer que conhecemos P(X ∈ A) para
qualquer evento A. Este resultado é um importante resultado de Teoria da Medida, e mostra o quão
rica é a função F(a) = P(X ≤ a). Por conta disso, ela recebe um nome:
Definição: Função de Distribuição Acumulada

Seja Ω um espaço amostral, e seja X : Ω → R uma variável aleatória discreta ou contínua.
Defina a função FX : R → R dada por FX (a) = P(X ≤ a), onde a é número real. FX é denomi-
nada a função de distribuição acumulada da variável aleatória X, ou simplesmente função de
distribuição.
• Se X for uma variável aleatória discreta, então
FX (a) = ∑ p(a j ),
j;a j ≤a
onde a soma é feita sobre os indíces j, tais que a j ≤ a.
• Se X for uma variável aleatória contínua, então

Z a
FX (a) = f (x)dx.
−∞
Exercício
Seja X uma variável aleatória discreta tomando valores 0,1 e 2. Suponha que sua função de
probabilidade é dada por p(0) = 1/2, p(1) = 1/3 e p(2) = 1/6. Obtenha FX .
Solução
Se a < 0, então FX (a) = P(X < a) ≤ P(X < 0) = 0. Como FX (a) = P(X ≤ a) ≥ 0, segue que
para todo a < 0, FX (a) = 0.
Suponha agora, 0 ≤ a < 1, então FX (a) = P(X ≤ a) = P(X = 0) = p(0) = 1/2.
Seja agora, 1 ≤ a < 2. Então, FX (a) = P(X ≤ a) = P(X = 0) + P(X = 1) = p(0) + p(1) =
1/2 + 1/3 = 5/6.
Finalmente, se a ≥ 2, então FX (a) = P(X ≤ a) = P(X ≤ 2) = 1.
51 / 140
Assim, 

0, a<0

1/2, 0 ≤ a < 1,
FX (a) = .


5/6, 1 ≤ a < 2,
a ≥ 2.

1,
Exercício
Seja X uma variável aleatória contínua com função de densidade
(
2x, 0 < x < 1;
f (x) = .
0, caso contrário.
Já sabemos que f é função de densidade por um exercício anterior. Obtenha sua função de
distribuição FX .
Solução
Temos que se a < 0, então P(X ≤ a) ≤ P(X < 0) = 0. Assim, para a < 0, temos FX (a) = 0.
Para 0 ≤ a ≤ 1, temos Z a a
P(X ≤ a) = 2xdx = x2 0 = a2 .
0
Assim, para 0 ≤ a ≤ 1, vale FX (a) = a2 .
Finalmente, se a > 1, então P(X ≤ a) = P(X ≤ 1) = 1.
Portanto, para a > 1, segue FX (a) = 1.
Desta forma, 
0, 0 ≤ a < 0,

FX (a) = a2 , 0 ≤ a ≤ 1, .

1, a ≥ 1.

Nota
Observe que se a ≤ b, então sempre que X(ω) ≤ a, teremos X(ω) ≤ a ≤ b, o que implica,
X(ω) ≤ b. Assim, vale a inclusão de conjuntos {ω ∈ Ω; X(ω) ≤ a} ⊂ {ω ∈ Ω; X(ω) ≤ b}.
Logo, P(X ≤ a) ≤ P(X ≤ b).
Portanto, temos que se a ≤ b, então FX (a) ≤ FX (b), ou seja, FX é uma função não-
decrescente.
Nota
É possível mostrar que para qualquer variável aleatória X , vale lima→−∞ FX (a) = 0 e
lima→∞ FX (a) = 1.
Importante
Note ainda que se X é uma variável aleatória discreta com conjunto de valores possíveis
dado por {a1 , a2 , a3 , . . .}, ordenados de tal forma que a1 < a2 < a3 < a4 < . . ., então temos
que
p(ai ) = P(X = ai ) = P(X ≤ ai ) − P(X ≤ ai−1 ) = FX (ai ) − FX (ai−1 ).
Ou seja, podemos obter a função de probabilidade de X a partir da função de distribuição de
X desta forma.
52 / 140
Nota
Note que esta última observação nos diz que se temos uma função de distribuição de uma
variável aleatória discreta, então o conjunto de valores que a variável aleatória X pode as-
sumir é exatamente o conjunto dos pontos de descontinuidade da função de distribuição FX .
Assim, se a1 é o menor ponto de descontinuidade de X , então P(X = a1 ) = FX (a1 ), e depois
disso, se FX é descontínua no ponto ai , então teremos que P(X = ai ) = FX (ai ) − FX (ai−1 ).
Exercício
Suponha que X é uma variável aleatória discreta com função de distribuição FX dada por


 0, a < 0,

1/4, 0 ≤ a < 1,
FX (a) =


 1/2, 1 ≤ a < 2,
a ≥ 2.

1,
Obtenha a função de probabilidade p(ai ).
Solução
Os pontos de descontinuidade da função de distribuição FX são 0, 1 e 2. Portanto, pelo que
vimos, temos que p(0) = FX (0) = 1/4, p(1) = FX (1) − FX (0) = 1/2 − 1/4 = 1/4, e finalmente,
p(2) = FX (2) − FX (1) = 1 − 1/2 = 1/2.
Temos um resultado análogo para variáveis aleatórias contínuas.
Importante
Seja agora X uma variável aleatória contínua. Então, vale que
Z x
FX (x) = f (t)dt.
−∞
Ou seja, estamos dizendo que FX é uma primitiva para a função de densidade f . Desta
forma, podemos “recuperar” a função de densidade, a partir da função de distribuição, por
simples derivação em todos os pontos em que FX for derivável:
dFX (a)
f (a) = = FX0 (a).
da
Exercício
Suponha que X é uma variável aleatória contínua com função de distribuição FX dada por
(
0, a < 0,
FX (a) = −a
.
1 − e , a ≥ 0.
Obtenha a função de densidade f (x).
53 / 140
Solução
Sabemos que a função de densidade f (x) é dada pela derivada da função de distribuição em
todos os pontos em que esta for derivável.
Assim, se x < 0, temos que f (x) = FX0 (x) = 0. Se x > 0, então f (x) = FX0 (x) = e−x . Em x = 0,
FX não é derivável, então podemos supor f (x) = 0, já que o valor de uma função em um único
ponto não altera o valor da integral.
Portanto, a função de densidade f da variável aleatória X é dada por
(
0, 0 ≤ x ≤ 0,
f (x) = −x .
e , x > 0.
4.4 Variáveis Aleatórias Mistas
Podemos ter também um terceiro tipo de variável aleatória: a variável aleatória mista. Ela consiste
em uma variável aleatória cuja probabilidade é uma mistura entre as variáveis aleatórias contínuas e
discretas. Assim, se X é uma variável aleatória mista, então existem números reais a1 , a2 , a3 , . . . , tais
que para algum i, P(X = ai ) > 0, e tais que
∞
∑ P(X = ai) = p < 1,
i=1
ou seja, isso garante que ela tem esse comportamento da variável aleatória discreta, mas não é uma
variável aleatória discreta, pois a soma não é igual a 1.
Assim, seja FX a função de distribuição da variável aleatória X. Definimos a parte discreta da função
de distribuição de X como FXd (x) = ∑i;ai ≤x P(X = ai ). Defina p(ai ) = P(X = ai ), então dizemos que
a função p é a função de probabilidade da parte discreta da variável aleatória X.
Nota
Note que se X fosse uma variável aleatória discreta, teríamos FX = FXd .
Agora, defina FXc (x) = FX (x) − FXd (x), a parte contínua da função de distribuição da variável
Z aleatória
x
X. Assim, se X é uma variável aleatória mista, existe uma função f (t) ≥ 0, tal que FXc (x) = f (t)dt,
Z ∞ −∞
e f (t)dt = 1 − p. Dizemos que a função f é a função de densidade da parte contínua de X.
−∞
Nota
Observe então que se X é uma variável aleatória discreta, então FXc (x) = 0, para todo x; e
se X é uma variável aleatória contínua, então FXd (x) = 0, donde temos FX (x) = FXc (x).
Portanto, podemos concluir que FX (x) = FXc (x) + FXd (x), ou seja, vale:
Z x
FX (x) = P(X ≤ x) = f (t)dt + ∑ P(X = ai ).
−∞ i;ai ≤x
54 / 140
Assim, suponha que é dada uma função de distribuição FX de uma variável aleatória mista X, e que
queremos encontrar a função de probabilidade da parte discreta de X, e a função de densidade da
parte contínua de X.
Para tanto, começamos procurando por pontos de descontinuidade de FX . Suponha que temos os
pontos a1 , a2 , . . ., então, para encontrar a função de probabilidade da parte discreta de X, basta calcular
para cada i, o número p(ai ) = P(X = ai ) = P(X ≤ ai ) − P(X < ai ).
Uma vez, encontrada a função de probabilidade da parte discreta de X, definimos FXc (x) = FX (x) −
FXd (x), e obtemos a função de densidade da parte contínua de X por derivação: f (x) = FXc 0 (x), ou seja,
derivamos a parte contínua da função de distribuição FX .
Exercício
Seja X uma variável aleatória mista com função de distribuição

0,
 x ≤ 0,
FX (x) = x, 0 < x < 1/2,

1, x ≥ 1/2.

Obtenha a função de probabilidade da parte discreta de X e a função de densidade da parte

contínua de X.
Solução
Observe que FX só possui apenas um ponto de descontinuidade no ponto x = 1/2. Assim, temos
que a função de probabilidade da parte discreta é dada por p(1/2) = P(X ≤ 1/2) − P(X <
1/2) = FX (1/2) − P(X < 1/2) = 1 − 1/2 = 1/2. Pois, como para x < 1/2, vale, P(X < x) = x,
temos, P(X < 1/2) = 1/2.
Portanto, temos que se x < 1/2, então FXd (x) = 0, e se x ≥ 1/2, então FXd (x) = 1/2. Daí, se x <
1/2, FXc (x) = FX (x) − FXd (x) = x, e se x ≥ 1/2, temos FXc (x) = FX (x) − FXd (x) = 1 − 1/2 = 1/2.
Desta forma, temos que

0,
 x ≤ 0,
c
FX (x) = x, 0 < x < 1/2, .

1/2, x ≥ 1/2.

Assim, derivando, obtemos que a função de densidade da parte contínua de X é dada por
(
0, x ≤ 0 ou x ≥ 1/2,
f (x) = .
1, 0 < x < 1/2.
4.5 Funções de Variáveis Aleatórias
Definição: Função de uma Variável Aleatória

Seja X uma variável aleatória tomando valores reais. Seja Im(X) = X(Ω) = {X(ω); ω ∈ Ω}
a imagem de X, ou seja, o conjunto dos valores que a variável aleatória X pode assumir. Seja
g : Im(X) → R uma função real. Então, a função Y = g(X) é uma nova variável aleatória, e
dizemos que Y é uma função da variável aleatória X.
55 / 140
Relembre a definição de imagem inversa: para um subconjunto dos reais A ⊂ R a imagem inversa de
A pela função g é o conjunto g−1 (A) = {x ∈ Im(X); g(x) ∈ A}.
Assim, temos que para todo evento A ⊂ R, vale P(Y ∈ A) = P(g(X) ∈ A) = P(X ∈ g−1 (A)). Por-
tanto, podemos calcular probabilidades com relação à variável aleatória Y a partir diretamente de
probabilidades envolvendo apenas a variável aleatória X.
Exemplo 4.2 Exemplo de função de variável aleatória discreta

Seja X uma variável aleatória discreta tomando valores no conjunto 1, 2, 3, . . .. Suponha que P(X =
n) = (1/2)n . Defina a função g : {1, 2, 3, . . .} → R dada por f (2k) = 1, k = 1, 2, 3, . . ., e f (2k − 1) =
−1, para k = 1, 2, 3, . . .. Ou seja, g(x) é igual a 1 se x é par, e é igual a -1 se x é ímpar. Desta forma,
definindo Y = g(X), temos que (
1, se X for par,
Y=
−1, se X for ímpar.
Assim, temos que P(Y = 1) = P(g(X) = 1) = P(X ∈ g−1 ({1})). Note que g(x) = 1 se, e somente se,
x é par, ou seja, g−1 ({1}) = {2, 4, 6, . . .}. Assim,
P(Y = 1) = P(X ∈ {2, 4, 6, . . .}) = (1/2)2 + (1/2)4 + (1/2)6 + · · · = 1/4 + (1/4)2 + (1/4)3 + · · ·
1/4
= 1−1/4 = 1/3.
Por outro lado, P(Y = −1) = 1 − P(Y = 1) = 1 − 1/3 = 2/3.
Observe que outra forma equivalente de calcular P(Y = 1), seria observar que Y = 1 se, e somente se,
X é par, e portanto {Y = 1} = {X ∈ {2, 4, 6, . . .}}. E portanto, P(Y = 1) = P(X ∈ {2, 4, 6, . . .}).
Exemplo 4.3 Exemplo de função de variável aleatória contínua

Seja X uma variável aleatória contínua com função de densidade dada por f (x) = 2x, se x ∈ (0, 1), e
0 caso contrário. Seja Y = 3X + 1. Vamos encontrar a função de densidade de Y , que denotaremos
por fY (y).
Primeiramente, note que como Im(X) = (0, 1), e assim Im(Y ) = (1, 4). Observe, agora, que P(Y ≤
y) = P(3X + 1 ≤ y). Sabemos que 3X + 1 ≤ y se, e somente se, X ≤ (y − 1)/3. Portanto, vale
FY (y) = P(3X + 1 ≤ y) = P(X ≤ (y − 1)/3) = FX ((y − 1)/3).
Finalmente, se y ≤ 0, então FY (y) = P(Y ≤ y) = 0, e se y ≥ 4, temos FY (y) = P(Y ≤ y) = 1. Portanto,
se y < 0, então fY (y) = FY0 (y) = 0, e se y > 4, então fY (y) = FY0 (y) = 0.
Agora, se y ∈ (1, 4), temos que FY (y) = FX ((y − 1)/3), e portanto, pela regra da cadeia
2((y − 1)/3) 2(y − 1)
fY (y) = FY0 (y) = FX0 ((y − 1)/3) · 1/3 = f ((y − 1)/3) · 1/3 = = .
3 9
Exercício
Considere X variável aleatória contínua com a densidade do exemplo anterior. Seja g(x) = e−x .
Obtenha a função de densidade de Y = g(X) = e−X , fY (y).
Solução
Como Im(X) = (0, 1), temos que Im(Y ) = (1/e, 1). Assim, se y < 1/e, então FY (y) = P(Y ≤
y) = 0, e se y > 1, então FY (y) = P(Y ≤ y) = 1. Isto implica que se y < 1/e, fY (y) = FY0 (y) = 0,
e se y > 1, temos fY (y) = FY0 (y) = 0.
Falta considerarmos y ∈ (1/e, 1). Assim, temos que Y ≤ y se, e somente se, e−X ≤ y, que por
sua vez, vale se, e somente se, X ≥ − ln(y). Portanto, FY (y) = P(Y ≤ y) = P(X ≥ − ln(y)) =
1 − FX (− ln(y)). Onde temos que
P(X ≥ − ln(y)) = 1 − P(X < − ln(y)) = 1 − P(X ≤ − ln(y)) = 1 − FX (− ln(y)),
56 / 140
pois P(X = − ln(y)) = 0, já que X é uma variável aleatória contínua.

Desta forma, obtemos, usando a regra da cadeia, que para y ∈ (1/e, 1),
−1 −2 ln(y)
fY (y) = FY0 (y) = (1 − FX (− ln(y))0 = − fX (− ln(y)) · = .
y y
Exercício
Seja X uma variável aleatória contínua com função de densidade f . Seja Y = X 2 . Encontre a
função de densidade da variável aleatória Y , fY .
Solução
Observe que X 2 ≥ 0. Daí, se y < 0, segue que FY (y) = P(Y ≤ y) = 0, e portanto, para y < 0,
vale fY (y) = 0.
Suponha agora que y ≥ 0, e note que Y ≤ y se, e somente se, X 2 ≤ y. Esta última desigualdade
vale se, e somente se, X 2 − y ≤ 0. Resolvendo essa inequação, obtemos que X 2 − y ≤ 0 se,
√ √
e somente se, X ≥ − y e X ≤ y. Assim, vale a igualdade entre os conjuntos {Y ≤ y} =
√ √
{− y ≤ X ≤ y}.
Portanto, como X é variável aleatória contínua, segue que,
√ √ √ √ √ √
FY (y) = P(Y ≤ y) = P(− y ≤ X ≤ y) = P(X ≤ y) − P(X < − y) = FX ( y) − FX (− y).
Daí, pela regra da cadeia, vale que

√ 1 √ −1 1 √ √
FY0 (y) = f ( y) · √ − f (− y) · √ = √ ( f ( y) + f (− y)) .
2 y 2 y 2 y
1 √ √
Portanto, fY (y) = √
2 y f ( y) + f (− y) .
4.6 Atividades
1. Seja X uma variável aleatória discreta com função de probabilidade dada por
p(x) = cx, x = 1, . . . , 6.
Encontre:
a) o valor de c;
b) a probabilidade de X ser um número ímpar.
2. Seja X uma variável aleatória discreta com função de probabilidade dada por
c
p(x) = , x = 0, 1, . . . .
4x
Obtenha:
a) o valor de x.
b) a probabilidade de X ser um número par.
57 / 140
3. Seja X uma variável aleatória discreta com função de distribuição dada por


0, se x < 0,

1/2, se 0 ≤ x < 1,





3/5, se 1 ≤ x < 2,
F(x) =
4/5,

 se 2 ≤ x < 3,
9/10, se 3 ≤ x < 4,





1, se x ≥ 4.

Calcule:
a) a função de probabilidade de X.
b) P(X = 0|X é par).
4. Uma urna contém cinco bolas numeradas de 1 a 5. Duas bolas são retiradas simultaneamente.
Obtenha a função de probabilidade das seguintes variáveis aleatórias:
a) o maior número sorteado;
b) a soma dos números retirados.
5. Verifique que as seguintes funções são densidades:
a) 
1/8, se 0 ≤ x ≤ 2,

f (x) = 3/4, se 4 ≤ x ≤ 5,

0, caso contrário.

b) f (x) = 3(1 − x)2 , 0 ≤ x ≤ 1.

c) f (x) = 4xe−2x , x ≥ 0.
6. Seja X uma variável aleatória contínua com densidade dada por
c
f (x) = 3 , x ≥ 1.
x
Calcule:
a) o valor de c;
b) a probabilidade de X ser maior do que 2;
c) a função de distribuição de X.
7. Encontre a densidade de Y = e−2X , onde X é uma variável aleatória contínua com densidade
dada por f (x) = e−x , x > 0.
8. Encontre a densidade de |X|, se X é uma variável aleatória contínua com densidade dada por
1 2
f (x) = √ e−x /2 , x ∈ R.
2π
9. Seja X uma variável aleatória com densidade dada por

1/2,
 se − 1 < x < 0,
f (x) = e−x /2, se x ≥ 0,

0, caso contrário.

Obtenha a densidade de Y = X 2 .
58 / 140

59 / 140
Capítulo 5
Esperança de uma Variável Aleatória
• Entender o que é a esperança de variáveis aleatórias
• Conhecer as propriedades da esperança
• Saber calcular a esperança
• Entender o que é a variância de variáveis aleatórias
• Conhecer as propriedades da variância
• Saber calcular a variância
Vamos começar introduzindo uma notação que será útil ao estudar o conceito de esperança matemá-
tica: variáveis aleatórias independentes.
5.1 Variáveis aleatórias independentes
Relembre a definição de eventos independentes: sejam Ω um espaço amostral, A e B eventos de Ω.

Então, dizemos que os eventos A e B são independentes se P(A ∩ B) = P(A)P(B).
Esta definição motiva a definição de independência entre variáveis aleatórias:
Definição: Variáveis Aleatórias Independentes

Sejam X : Ω → R e Y : Ω → R duas variáveis aleatórias. Dizemos que X e Y são independentes
se para todos os eventos A, B ∈ R, vale a fórmula:
P(X ∈ A e Y ∈ B) = P(X ∈ A)P(Y ∈ B).
Nota
Sejam X e Y são duas variáveis aleatórias discretas. Suponha que X toma valores no con-
junto {a1 , a2 , a3 , . . .} e que Y toma valores no conjunto {b1 , b2 , b3 , . . .}. Então, é possível
mostrar que X e Y são independentes se, e somente se, para cada ai e b j , temos
P(X = ai ,Y = b j ) = P(X = ai )P(Y = b j ).
60 / 140
5.2 Esperança matemática
Vamos começar motivando a definição de esperança. A esperança pode ser pensada como uma ge-
neralização da média. De fato, suponha que temos 10 pesos. O primeiro possui 1 quilo, o segundo
2 quilos, . . . , o décimo 10 quilos. Suponha que uma pessoa escolhe um peso aleatoriamente, onde
todos os pesos possuem a mesma probabilidade de serem escolhidos. Qual o peso médio?
Temos 1 quilo com probabilidade 1/10, 2 quilos com probabilidade 1/10, . . . , 10 quilos com probabi-
lidade 1/10. Assim, o peso médio é m = 1/10 + 2/10 + · · · + 10/10 = 5, 5.
Mais geralmente temos a
Definição: Esperança de Variáveis Aleatórias Discretas

Seja X uma variável aleatória discreta tomando valores no conjunto {a1 , a2 , a3 , . . .}. Seja
p(ai ) = P(X = ai ) sua função de probabilidade. Então, definimos a esperança, ou valor es-
perado, de X como:
∞
E(X) = ∑ ai p(ai ),
i=1
se a série ∑∞ convergir, ou seja, se a série ∑∞
i=1 |ai |p(ai ) i=1 ai p(ai ) convergir absolutamente.
Caso a série em questão não convirja absolutamente, dizemos que a esperança de X não existe.
É claro que se X toma apenas uma quantidade finita de valores, digamos a1 , . . . , an , então a esperança
de X é dada por
n
E(X) = ∑ ai p(ai ).
i=1
Nota
Observe que como a soma p(a1 ) + · · · + p(an ) = 1, podemos pensar nesta esperança como
uma média ponderada, entre os valores a1 , . . . , an , com os pesos p(a1 ), . . . , p(an ). Note
ainda que se todos os valores forem igualmente possíveis, ou seja, se para cada i, p(ai ) =
1/n, então a esperança será dada simplesmente pela média aritmética entre os valores
possíveis:
1 n
E(X) = ∑ ai.
n i=1
Exemplo 5.1 Exemplo de esperança de variável aleatória discreta

Seja X uma variável aleatória que toma valor 1 com probabilidade p, e valor 0 com probabilidade
1 − p. Temos então que
E(X) = 0p(0) + 1p(1) = p(1) = P(X = 1) = p.
Vamos agora definir esperança para variáveis aleatórias contínuas.
Definição: Esperança de Variáveis Aleatórias Contínuas

Seja X uma variável aleatória contínua com função de densidade f . Definimos a esperança de
X como Z ∞
E(X) = f (x)dx,
−∞
61 / 140
se Z ∞
|x| f (x)dx < ∞.
−∞
No caso da integral imprópria acima divergir, dizemos que a esperança de X não existe.
Exemplo 5.2 Exemplo de esperança de variável aleatória contínua

Seja X uma variável aleatória contínua com função de densidade dada por
(
1
, a < x < b,
f (x) = b−a
0, caso contrário.
Portanto,
x2 b
Z b
x 1
E(X) = dx = ·
a b−a b−a 2 a
b2 −a2 (b+a)(b−a)
= 2(b−a) = 2(b−a)
= a+b
2 .
5.3 Esperança de uma Função de Variável Aleatória
Definição: Esperança de função de variável aleatória

Seja X uma variável aleatória e seja Y = H(X), para uma função real H. Temos então dois
casos:
• Se X for uma variável aleatória discreta tomando valores em {a1 , a2 , . . .}, e se p é a função
de probabilidade de X, temos que
∞ ∞
E(Y ) = E(H(X)) = ∑ H(ai )P(X = ai ) = ∑ H(ai )p(ai ).
i=1 i=1
• Se X for uma variável aleatória contínua com função de densidade f , então temos que
Z ∞
E(Y ) = E(H(X)) = H(x) f (x)dx.
−∞
Exemplo 5.3 Exemplo de esperança de função de uma variável aleatória discreta

Vamos relembrar um exemplo estudando quando introduzimos funções de variáveis aleatórias: seja
X uma variável aleatória discreta tomando valores no conjunto 1, 2, 3, . . .. Suponha que P(X = n) =
(1/2)n . Defina a função g : {1, 2, 3, . . .} → R dada por f (2k) = 1, k = 1, 2, 3, . . ., e f (2k − 1) = −1,
para k = 1, 2, 3, . . .. Ou seja, g(x) é igual a 1 se x é par, e é igual a -1 se x é ímpar. Desta forma,
62 / 140
definindo Y = g(X), temos que

∞
E(Y ) = E(g(X)) = ∑ g(i)P(X = i)
i=1
∞ ∞
= ∑ g(2i)P(X = 2i) + ∑ g(2i − 1)P(X = 2i − 1)
i=1 i=1
∞ ∞
= ∑ P(X = 2i) + ∑ (−1)P(X = 2i − 1)
i=1 i=1
∞ ∞
2i
= ∑ (1/2) − ∑ (1/2)2i−1
i=1 i=1
∞ ∞
= ∑ (1/2)2i − ∑ 2 · (1/2)2i
i=1 i=1
∞ ∞
= ∑ (1/2)2i − 2 ∑ (1/2)2i
i=1 i=1
∞
= − ∑ (1/2)2i
i=1
∞
= − ∑ (1/4)i
i=1
1/4
= − 1−1/4
= −1/3.
Portanto, E(Y ) = −1/3.

Note que, quando apresentamos o exemplo no Capítulo 4, vimos que Y só assume os valores −1 e 1.
Além disso, calculamos sua função de probabilidade:
P(Y = −1) = 2/3 e P(Y = 1) = 1/3.
Desta forma, usando diretamente a definição de esperança de variáveis aleatórias discretas, temos:
E(Y ) = (−1) · 2/3 + 1 · 1/3 = −2/3 + 1/3 = −1/3.
Logo, vemos que não há contradição entre as definições, e as esperanças sempre vão coincidir.
Importante
Como vimos no exemplo anterior, na hora de calcular a esperança de funções de variáveis
aleatórias discretas, temos duas opções:
• Calcular diretamente, usando a função de probabilidade de X , através da fórmula

∞
E(Y ) = E(H(X)) = ∑ H(ai )P(X = ai );
i=1
• Obter a função de probabilidade de Y e depois calcular a esperança de Y diretamente:

∞
E(Y ) = ∑ b j P(Y = b j ),
j=1
onde Y toma valores em {b1 , b2 , . . .}.
63 / 140
Exemplo 5.4 Exemplo de esperança de função de uma variável aleatória contínua

Suponha que X é uma variável aleatória contínua com função de densidade
( x
e
, x ≤ 0,
f (x) = e2−x
2 , x > 0.
Tome Y = |X|, então E(Y ) é dada por
Z ∞
E(Y ) = E(|X|) = |x| f (x)dx
−∞ Z
e−x
ex
Z 0 ∞
= −x dx +
dx. x
−∞ 2 0 2
Observe que integrando por partes, obtemos que F(x) = −xex + ex é uma primitiva para −xex e que
G(x) = −xe−x − e−x é uma primitiva para xe−x . Daí,
Z ∞ −x
ex
Z 0 0
1 1 e 1 ∞ 1
x x
−x dx = (−xe + e ) = e x dx = (−xe−x − e−x ) = .

−∞ 2 2 −∞ 2 0 2 2 0 2
Finalmente, juntando todas as informações, obtemos
ex
Z 0 ∞ e−x 1 1
Z
E(Y ) = −x dx + x dx = + = 1.
−∞ 2 0 2 2 2
Assim como no caso de variáveis discretas, podemos calcular a esperança de Y diretamente. Para
isto, vamos obter a função de densidade de Y . Observe que como X é variável aleatória contínua,
P(X = y) = 0 para todo y real. Assim, como Y ≥ 0, segue que para todo y ≥ 0:
FY (y) = P(Y ≤ y) = P(|X| ≤ y) = P(−y ≤ X ≤ y) = P(−y < X ≤ y) = FX (y) − FX (−y).
Desta forma, por derivação, obtemos que a função de densidade de Y , fY (y) é dada por
e−y e−y
fY (y) = f (y) + f (−y) = + = e−y ,
2 2
e f (y) = 0, se y < 0.
Portanto, Z ∞ Z ∞ ∞
−y −y y
E(Y ) = y fY (y)dy = ye dy = (ye − e ) = 1,

−∞ 0 0
donde usamos que −y
H(y) = ye − eyé primitiva de ye−y .
Assim como no caso de funções de variáveis aleatórias discretas, as duas formas de calcular a espe-
rança fornecem o mesmo resultado.
Importante
Como vimos no exemplo anterior, e no caso de funções de variáveis aleatórias discretas,
na hora de calcular a esperança de funções de variáveis aleatórias contínuas, temos duas
opções:
• Calcular diretamente, usando a função de densidade de X , através da fórmula

Z ∞
E(Y ) = E(H(X)) = H(x) f (x)dx;
−∞
• Obter a função de densidade de Y , fY (y), e depois calcular a esperança de Y diretamente:

Z ∞
E(Y ) = y fY (y)dy.
−∞
64 / 140
5.4 Propriedades da Esperança
Nessa seção vamos apresentar várias propriedades da esperança matemática e demonstrar algumas
delas.
Propriedades da esperança
• (Esperança da constante): Seja c ∈ R um número real, e seja X a variável aleatória constante

igual a c, ou seja, P(X = c) = 1. Então E(X) = c..
• (Sinal da esperança): Se X ≥ 0, então E(X) ≥ 0, e se X ≤ 0, então E(X) ≤ 0.
• (Multiplicação por constante): Seja c ∈ R um número real, e seja X uma variável aleatória.
Então E(cX) = cE(X).
• (Soma de variáveis aleatórias): Sejam X e Y variáveis aleatórias quaisquer, então E(X +Y ) =
E(X) + E(Y ).
• (Combinação linear de variáveis aleatórias): Sejam X1 , X2 , . . . , Xn variáveis aleatórias, e
c1 , c2 , . . . , cn números reais. Então
n n
E ∑ ci Xi = ∑ ci E(Xi ).
i=1 i=1
• (Produto de variáveis aleatórias independentes): Sejam X e Y variáveis aleatórias indepen-

dentes, então
E(XY ) = E(X)E(Y ).
Demonstração
• (Esperança da constante): Note que X é uma variável aleatória discreta que toma apenas o
valor c, e portanto
E(X) = cP(X = c) = c.
• (Sinal da esperança): Vamos demonstrar o caso X ≥ 0 para variáveis aleatórias discretas e

para variáveis aleatórias contínuas. Os casos de variáveis aleatórias mistas e X ≤ 0 ficam
como exercícios para o leitor.
Seja X variável aleatória discreta, X ≥ 0, tomando valores no conjunto {a1 , a2 , . . .}. Como
X ≥ 0, segue que para todo i, temos ai ≥ 0. Além disso, P(X = ai ) ≥ 0. Logo,
n
E(X) = ∑ ai P(X = ai ) ≥ 0.
i=1
Seja, agora, X variável aleatória contínua, X ≥ 0, com função de densidade f (x). Então, como
X ≥ 0, vale f (x) = 0 se x < 0. Daí
Z ∞ Z ∞
E(X) = x f (x)dx = x f (x)dx ≥ 0.
−∞ 0
• (Multiplicação por contante): Vamos demonstrar para variáveis aleatórias discretas e para
variáveis aleatórias contínuas. O caso de variáveis aleatórias mistas fica como exercício para
o leitor.
65 / 140
Seja, então, X variável aleatória discreta, e suponha que X toma valores no conjunto
{a1 , a2 , . . .}. Então, cX é função da variável aleatória discreta, daí
∞ ∞
E(cX) = ∑ cai P(X = ai ) = c ∑ ai P(X = ai ) = cE(X).
i=1 i=1
Suponha agora que X é variável aleatória contínua com função de densidade f (x). Então, cX é
função de uma variável aleatória contínua, e segue que
Z ∞ Z ∞
E(X) = cx f (x)dx = c f (x)dx = cE(X).
−∞ −∞
• (Soma de variáveis aleatórias): A demonstração foge do escopo do livro.

• (Combinação linear de variáveis aleatórias): Usando a propriedade da soma de variáveis
aleatórias n vezes, temos que
n n
E ∑ ci Xi = ∑ E(ci Xi ).
i=1 i=1
Usando a propriedade da multiplicação por constante, obtemos o resultado desejado:
n n n
E c X = E(c X ) =
∑ i i ∑ i i ∑ ciE(Xi).
i=1 i=1 i=1
• (Produto de variáveis aleatórias independentes): Foge do escopo do livro.
5.5 Variância de uma variável aleatória
Vamos agora utilizar a esperança para definir uma noção de variabilidade da variável aleatória: a
variância.
A variância de uma variável aleatória mede o quanto a variável aleatória flutua em torno da esperança.
Ou seja, mede quanto os valores da variável aleatória X podem se afastar da esperança.
Vale observar também que se a variância de X for igual a zero, então X não varia nada, com relação à
esperança, e portanto a variável aleatória X é constante igual à esperança de X.
Definição: Variância de uma variável aleatória

Seja X uma variável aleatória. Definimos a variância de X como
Var(X) = E (X − E(X))2 .

Nota
Observe que como (X − E(X))2 ≥ 0, temos pela propriedade do sinal da esperança que
E (X − E(X))2 ≥ 0, e portanto Var(X) ≥ 0.

Uma noção muito útil em estatística é dada pela raiz quadrada da variância (pois a variância
p é maior
ou igual a zero). Mais precisamente, seja X uma variável aleatória, então o número Var(X) é
chamado de desvio padrão de X, e é denotado por σX .
O seguinte resultado fornece uma simplificação do cálculo da variância:
66 / 140
Proposição
Seja X uma variável aleatória, então Var(X) = E(X 2 ) − (E(X))2 .
Demonstração
Temos que como E(X) é um número real constante, podemos utilizar as propriedades: espe-
rança da multiplicação por constante; esperança da constante; e esperança da soma, para obter:
i
Var(X) = E (X − E(X))2

i
= E X 2 − 2XE(X) + E(X)2

= E(X 2 ) − 2E(XE(X)) + E(X)2

= E(X 2 ) − 2E(X)2 + E(X)2
= E(X 2 ) − (E(X))2 .
Importante
É possível mostrar que se Var(X) = 0, então P(X = E(X)) = 1. Ou seja, X é uma variá-
vel aleatória constante. Quanto maior o valor da variância, mais a variável aleatória pode
se afastar da esperança, ou seja, maior a oscilação da variável aleatória em torno da espe-
rança.
Exemplo 5.5 Exemplo de variância de uma variável aleatória discreta

Seja X a variável aleatória discreta que toma valor 1 com probabilidade p e toma valor 0 com proba-
bilidade 1 − p.
Então, temos que E(X) = 0 · (1 − p) + 1 · p = p. Daí,
Var(X) = E(X 2 ) − E(X)2 = E(X 2 ) − p2 = 02 · (1 − p) + 1 · p − p2 = p(1 − p).
Exemplo 5.6 Exemplo de variância de uma variável aleatória contínua

Seja X variável aleatória contínua com função de densidade

1 + x, −1 ≤ x ≤ 0,

f (x) = 1 − x, 0 ≤ x ≤ 1,

0, caso contrário.

Comece notando que

Z 0 Z 1
E(X) = x(1 + x)dx + x(1 − x)dx
Z−1
0 Z 10
= x + x2 dx + x − x2 dx
−12 0 0 2 1
x x3 x x3
= 2 + 3 + 2 − 3
−1 0
= −1/2 + 1/3 + 1/2 − 1/3
= 0.
67 / 140
Além disso, Z 0 Z 1
2
E(X 2 ) = x (1 + x)dx + x2 (1 − x)dx
Z−1
0 Z 1 0
2 3
= x + x dx + x2 − x3 dx
−13 0 0 3 4 1

x x4 x
= 3 + 4 −1 + 3 − x4
0
= 1/3 − 1/4 + 1/3 − 1/4
= 1/6.
Logo, Var(X) = E(X 2 ) = 1/6.
5.6 Propriedades da variância
Nesta seção vamos apresentar algumas propriedades da variância e provar algumas delas.
Propriedades da variância
• (Variância da constante): Seja c ∈ R um número real, e seja X a variável aleatória constante

igual a c, ou seja, P(X = c) = 1. Então, Var(X) = 0.
• (Soma por constante): Seja X uma variável aleatória e seja c ∈ R uma constante. Então,
Var(X + c) = Var(X).
• (Variância da soma de variáveis independentes): Sejam X e Y variáveis aleatórias indepen-
dentes. Então, Var(X +Y ) = Var(X) +Var(Y ).
• (Variância da multiplicação por constante): Seja X variável aleatória, e seja c ∈ R uma cons-
tante. Então, Var(cX) = c2Var(x).
• (Variância de uma função afim de X): Sejam a, b ∈ R, e seja X variável aleatória. Então,
Var(aX + b) = a2Var(X).
Demonstração
• (Variância da constante): Observe que se X é constante igual a c, temos pela propriedade da

esperança que E(X) = c. Daí
h i
Var(X) = E (X − E(X))2 = E[(c − c)2 ] = 0.
• (Soma por constante): Usando as propriedades da esperança, temos diretamente que

h i h i h i
2 2 2
Var(X +c) = E (X +c−E(X +c)) = E (X +c−E(X)−c) = E (X −E(X)) = Var(X).
• (Variância da soma de variáveis independentes): Foge do escopo do livro.

• (Variância da multiplicação por constante): Usando as propriedades da esperança, temos que
h i h i
Var(cX) = E (cX − E(cX))2 = E (cX − cE(X))2
h i h i
= E c2 (X − E(X))2 = c2 E (X − E(X))2
= c2Var(X).
68 / 140
• (Variância de uma função afim de X): Usando a variância da soma por constante, temos
que Var(aX + b) = Var(aX), e usando a variância da multiplicação por constante obtemos
Var(aX) = a2Var(X). Combinando as duas igualdades obtemos Var(aX + b) = a2Var(X).
Exercício
Seja X uma variável aleatória contínua com função de densidade
(
1
, a < x < b,
f (x) = b−a
0, caso contrário.
Encontre Var(X).
Solução
Já vimos no exemplo de esperança de variável aleatória contínua que E(X) = a+b
2 . Temos agora
que
Z b
2 2 1 1 b
E(X ) = x dx =
b−a b−a a

a
1 b3 a3
= −
b−a 3 3
3
b −a 3
= .
3(b − a)
Mas observe agora que temos o produto notável:
(b − a)(a2 + ab + b2 ) = a2 b + ab2 + b3 − a3 − a2 b − ab2 = b3 − a3 .
Portanto, segue que
b3 − a3 (b − a)(a2 + ab + b2 ) a2 + ab + b2
E(X 2 ) = = = .
3(b − a) 3(b − a) 3
Finalmente, temos
a2 + ab + b2 (a + b)2 a2 − 2ab + b2 (b − a)2

Var(X) = E(X 2 ) − (E(X))2 = − = = .
3 4 12 12
Resumindo, Var(X) = (b − a)2 /12.
5.7 Atividades
1. Duas bolas são escolhidas aleatoriamente de uma urna contendo 4 bolas azuis, 3 vermelhas e 2
laranjas. Suponha que ganhamos 10 reais para cada bola azul selecionada, ganhamos 1 real para cada
bola laranja, porém perdemos 8 reais para cada bola vermelha. Seja X o nosso lucro.
a) Determine a função de probabilidade de X;
b) Calcule a esperança e variância de X.
2. Exatamente uma entre 6 chaves parecidas abre uma determinada porta. Tenta-se uma chave
após a outra. Qual o número médio de tentativas necessárias para se conseguir abrir a porta?
3. Cinquenta pessoas lançam uma moeda honesta dez vezes. Obtenha a média e a variância do
número de pessoas que obtêm exatamente 5 caras.
69 / 140
4. Seja X uma variável aleatória contínua com densidade

1
f (x) = , x ≥ 1.
x2
a) Mostre que f é, de fato, uma densidade;

b) A esperança de X existe? Se sim, quanto vale?
5. Seja X uma variável aleatória com distribuição de Laplace (também conhecida como exponencial
dupla), ou seja, X tem densidade
1
f (x) = e|x| , x ∈ R.
2
Obtenha:
a) E(X);
b) E(|X|);
c) Var(X);

70 / 140
Capítulo 6
Principais Distribuições Discretas
• Conhecer as principais distribuições discretas

• Saber a diferença entre a distribuição binomial e hipergeométrica
• Saber a diferença entre a distribuição geométrica e binomial negativa
• Entender a definição da distribuição Poisson e como utilizar a distribuição Poisson para
aproximar a distribuição binomial
Aqui apresentaremos as principais distribuições de variáveis aleatórias discretas, ou seja, apresenta-

remos a função de probabilidade de algumas variáveis aleatórias importantes.
Além disso, apresentaremos algumas propriedades dessas variáveis aleatóriais, tais como esperança e
variância.
O objetivo dessa seção é que o estudante saiba reconhecer qual distribuição utilizar em cada situação.
6.1 A Distribuição Bernoulli
A primeira e mais simples distribuição é a distribuição Bernoulli. É a distribuição de uma variável

aleatória que só pode assumir dois valores: 0 e 1.
Esta distribuição é bastante útil, pois normalmente usa-se a interpretação do resultado 1 como sucesso
e 0 como fracasso. Mais precisamente, temos a
Definição: Variável Aleatória Seguindo Distribuição Bernoulli

Seja X uma variável aleatória discreta tomando os valores 0, 1. Seja p, a probabilidade de X
assumir o valor 1, isto é, seja P(X = 1) = p. Então, pela probabilidade do complementar, segue
que P(X = 0) = 1 − p. Podemos escrever de forma compacta a função de probabilidade de X
como
P(X = i) = pi (1 − p)1−i , i = 0, 1.
Se X satisfaz a definição acima dizemos que X segue distribuição de Bernoulli com parâmetro
p, e denotamos X ∼ Ber(p).
71 / 140
Esperança
Seja X ∼ Ber(p), então
E(X) = 0 · P(X = 0) + 1 · P(X = 1) = p.
Dica
Observe que como X só assume valor 0 ou 1, temos que X = X 2 , e portanto, E(X) =
E(X 2 ).
Variância
Seja X ∼ Ber(p), então
Var(X) = E(X 2 ) − (E(X))2 = E(X) − (E(X))2 = p − p2 = p(1 − p).
Exemplo 6.1 Onde surge o uso da distribuição Bernoulli

A distribuição Bernoulli aparece naturalmente em várias situações. Alguns exemplos incluem:
• Lançamento de moedas;
• Encontrar produtos perfeitos ou defeituosos;
• Ganhar ou perder um sorteio.
6.2 A Distribuição Binomial
A melhor maneira de ilustrar a distribuição binomial é com o seguinte exemplo:
Exemplo 6.2 Exemplo de distribuição binomial

Suponha que temos uma urna com um certo número de bolas, donde com probabilidade p retiramos
bolas azuis e com probabilidade 1 − p retiramos bolas vermelhas, se a retirada for ao acaso. Suponha
que então que n bolas são retiradas com reposição (ou seja, a probabilidade de tirar uma bola azul,
não muda após as retiradas). Se X é a variável aleatória dada pelo número de bolas azuis que foram
retiradas entre as n bolas, dizemos que X segue distribuição binomial com parâmetros n e p.
Importante
Olhando para o exemplo anterior é possível observar que podemos pensar numa distribuição
binomial como uma distribuição que surge de n distribuições de Bernoulli. De fato, se Xi é
a variável aleatória que é igual a 1 se a i-ésima bola retirada foi azul, e zero caso contrário,
temos que Xi ∼ Ber(p). Observe que como as retiradas das bolas são independentes, as
variáveis aleatórias Xi são independentes.
n
Desta forma, é fácil ver que o valor de X é dado pela soma ∑ Xi. Pois teremos retirado k
i=1
bolas azuis se, e somente se, tiver k variáveis aleatórias Xi sendo iguais a 1.
Desta forma, podemos (e devemos) interpretar uma variável aleatória seguindo distribui-
ção binomial como soma de n variáveis aleatórias independentes seguindo distribuição Ber-
noulli.
72 / 140
Vamos agora calcular a probabilidade em questão.

Note que para termos k bolas azuis entre n bolas retiradas, devemos ter exatamente n − k bolas ver-
melhas. Como as retiradas de bolas são independentes, e a probabilidade de se obter uma bola azul é
p, segue que a probabilidade de termos k bolas azuis e n − k bolas vermelhas é pk (1 − p)n−k .
Para concluirmos o cálculo da probabilidade, devemos calcular de quantas formas podemos retirar k
bolas azuis e n − k bolas vermelhas, se retiramos um total de n bolas.
Esta quantidade é dada pelo número de subconjuntos de k elementos em um conjunto com n elemen-
tos. Para entender esta conta, podemos pensar que temos um conjunto com n bolas brancas. Tomando
um subconjunto com k elementos, é a mesma coisa que retirar k bolas. Então pintamos essas k bolas
retiradas de azul, e as bolas restantes pintamos de vermelho. Desta forma, temos uma maneira de
retirar k bolas azuis entre um total de n bolas retiradas. Assim, vemos que quando olhamos para todos
os subconjunto de k elementos, estamos olhando para todas as formas de retirarmos k bolas azuis
entre n bolas disponíveis.
Finalmente, o número de subconjuntos de k elementos de um conjunto com n elementos é dado por
n
k . Portanto, temos que se X é a variável aleatória dada pelo número de bolas azuis retiradas após
retirarmos n bolas, temos que

n k
P(X = k) = p (1 − p)n−k , k = 0, . . . , n.
k
Esta é a função de probabilidade de uma distribuição binomial. Portanto, podemos fornecer a seguinte
Definição: Variável Aleatória Seguindo Distribuição Binomial

Seja X uma variável aleatória dada pelo número de sucessos em n ensaios de Bernoulli, ou seja,
o número de sucessos obtidos em n variáveis aleatórias de Bernoulli independentes. Então,
dizemos que X segue distribuição binomial, denotamos por X ∼ Bin(n, p), e sua função de
probabilidade é dada por

n k
P(X = k) = p (1 − p)n−k , k = 0, . . . , n.
k
É importante verificar que a nossa conta está correta, e que, de fato, a função de probabilidade dada
acima tem soma total igual a 1. Isto segue diretamente do binômio de Newton:
n n
n
∑ P(X = k) = ∑ k pk (1 − p)n−k = (p + 1 − p)n = 1.
k=0 k=0
Esperança
n

n k
E(X) = ∑ k p (1 − p)n−k
k=0 k
n
n!
= ∑k pk (1 − p)n−k
k=1 k!(n − k)!
n
n!
= ∑ pk (1 − p)n−k .
k=1 (k − 1)!(n − k)!
73 / 140
Faça agora a mudança de variável m = k − 1. Isto implica k = m + 1, e portanto, continuando,

n
n!
E(X) = ∑ (k − 1)!(n − k)! pk (1 − p)n−k
k=1
n−1
n!
= ∑ pm+1 (1 − p)n−m−1
m=0 m!(n − m − 1)!
n−1
n · (n − 1)!
= ∑ m!((n − 1) − m)! p · pm(1 − p)(n−1)−m
m=0
n−1
(n − 1)!
= np ∑ pm (1 − p)(n−1)−m
m=0 m!(n − 1 − m)!
= np(p + 1 − p)n−1
= np.
Assim, E(X) = np.
Importante
Temos outra forma de calcular a esperança usando ensaios de Bernoulli.
Como mencionamos, se Xi ∼ Ber(p) são independentes para i = 1, . . . , n, então,
n n
∑ Xi ∼ Bin(n, p). Fazendo X = ∑ Xi, temos que X ∼ Bin(n, p), e usando a pro-
i=1 i=1
priedade de soma de esperança, segue que
n n n
E(X) = E ∑ i ∑ i ∑ p = np,
X = E(X ) =
i=1 i=1 i=1
pois, como vimos na distribuição Bernoulli, E(Xi ) = p.
Variância
Vamos começar calculando E(X 2 ):
n
2 n
2
E(X ) = ∑ k pk (1 − p)n−k
k=0 k
n
n k
= ∑ k(k − 1 + 1) p (1 − p)n−k
k=1 k
n n
n k n−k n k
= ∑ k(k − 1) p (1 − p) + ∑ k p (1 − p)n−k
k=2 k k=1 k
n
n k
= ∑ k(k − 1) p (1 − p)n−k + E(X)
k=2 k
n
n k
= ∑ k(k − 1) p (1 − p)n−k + np.
k=2 k
Vamos então calcular o último somatório do lado direito:

n n
n k n−k n!
∑ k(k − 1) p (1 − p) = ∑ k(k − 1) pk (1 − p)n−k
k=2 k k=2 k!(n − k)!
n
n!
= ∑ pk (1 − p)n−k .
k=2 (k − 2)!(n − k)!
74 / 140
Façamos agora a mudança de variável m = k − 2, daí k = m + 2. Portanto,

n n−2
n n!
∑ k(k − 1) k pk (1 − p)n−k = ∑ pm+2 (1 − p)n−2−m
k=2 m=0 m!(n − 2 − m)!
n−2
(n − 2)!
= ∑ n(n − 1) m!(n − 2 − m)! p2 · pm(1 − p)n−2−m
m=0
n−2
(n − 2)!
= 2
n(n − 1)p ∑ pm (1 − p)n−2−m
m=0 m!(n − 2 − m)!
= 2
n(n − 1)p (p + 1 − p)n−2
= n(n − 1)p2 .
Assim, juntando as contas, temos que
E(X 2 ) = n(n − 1)p2 + np = (np)2 + np − np2 = (np)2 + np(1 − p).
Finalmente, obtemos
Var(X) = E(X 2 ) − (E(X))2 = (np)2 + np(1 − p) − (np)2

= np(1 − p).
Exercício
Um servidor de um jogo online possui 20 slots disponíveis, ou seja, aceita até 20 jogadores
simultaneamente. A probabilidade, em qualquer hora do dia, de que um desses slots esteja
disponível é de 40%, e que a disponibilidade dos slots são independentes. Qual a probabilidade
de um par de amigos encontrarem dois slots disponíveis?
Solução
Seja X o número de slots disponíveis no jogo. Sabemos, pela definição do problema que X ∼
Bin(20, 0.4). Queremos calcular P(X ≥ 2).
Note que P(X ≥ 2) = 1 − P(X = 1) − P(X = 0). Daí,

20
P(X = 0) = (0.4)0 (0.6)20 = (0.6)20 ;
0
e
20
P(X = 1) = 0.4(0.6)19 = 20 · 0.4(0.6)19 = 8 · (0.6)19 .
1
Desta forma,
P(X ≥ 2) = 1 − (0.6)20 − 8(0.6)19 .
Nota
Observe que a hipótese de independência no exemplo acima não é realista, porém é neces-
sária para ser possível trabalhar matematicamente. Caso contrário seria muito complicado.
Suposições desta natureza para facilitar a resolução prática de problemas são muito co-
muns.
75 / 140
6.3 A Distribuição Geométrica
Suponha que uma pessoa tem uma moeda que pode ser desonesta, ou seja, assume cara com probabi-
lidade p, e coroa com probabilidade 1 − p. Vamos agora considerar o experimento aleatório: lançar
esta moeda sucessivamente até obter cara.
Qual a probabilidade da cara ser obtida no lançamento número k? Ou colocando numa forma mais
matemática, se X é a variável aleatória dada pelo número do lançamento no qual a cara foi obtida,
qual é a probabilidade P(X = k)?
A resposta é simples. Para obtermos cara no lançamento número k, esta pessoa terá que ter obtido
coroa em todos os k − 1 lançamentos anteriores e ter obtido cara exatamente no k-ésimo lançamento.
Como os lançamentos das moedas são independentes, temos que esta probabilidade é
P(X = k) = p(1 − p)k−1 , k = 1, 2, . . . .
Essa variável aleatória X é uma variável aleatória que segue distribuição geométrica. Mais precisa-
mente,
Definição: Variável Aleatória Seguindo Distribuição Geométrica

Sejam X1 , X2 , X3 , . . . variáveis aleatórias independentes seguindo distribuição Bernoulli com pa-
râmetro p. Seja X a variável aleatória dada pela ocorrência do primeiro sucesso, ou seja, o
menor índice i, tal que Xi teve sucesso. Então, dizemos que X segue distribuição geométrica
com parâmetro p, e denotamos X ∼ G(p). A função de probabilidade de X é dada por
P(X = k) = p(1 − p)k−1 , k = 1, 2, . . . .
Primeiro vamos observar que a nossa conta está correta e, de fato, a função descrita acima é uma
função de probabilidade. Temos claramente que p(1 − p)k−1 ≥ 0, e pela soma dos termos de uma
progressão geométrica, temos
∞ ∞
1 p
∑ p(1 − p)k−1 = p ∑ (1 − p)k−1 = p 1 − (1 − p) = p = 1.
k=1 k=1
Antes de calcularmos a esperança e variância da distribuição geométrica utilizaremos os seguintes

resultados sobre séries geométricas e suas derivadas:
• Definindo a função f (r) = ∑∞ k

k=0 r , temos que ela converge para 0 ≤ r < 1, e vale a igualdade
∞
1
f (r) = ∑ rk = 1 − r ;
k=0
• Temos que para todo 0 ≤ r < 1, f é infinitamente diferenciável, e sua derivada, para 0 ≤ r < 1 é
dada por
∞
1
f 0 (r) = ∑ krk−1 = (1 − r)2 ;
k=1
• Para 0 ≤ r < 1 a segunda derivada de f é dada por
76 / 140
∞
2
f 00 (r) = ∑ k(k − 1)rk−2 = (1 − r)3 .
k=2
Esperança
Temos que
∞
E(X) = ∑ kp(1 − p)k−1
k=1
∞
= p ∑ k(1 − p)k−1
k=1
1
= p
(1 − (1 − p))2
1
= p 2
p
1
= .
p
Variância
Para encontrar E(X 2 ) vamos calcular primeiro E[X(X − 1)], usando a fórmula da segunda de-
rivada da série geométrica:
∞
E[X(X − 1)] = ∑ k(k − 1)p(1 − p)k−1
k=2
∞
= p(1 − p) ∑ k(k − 1)(1 − p)k−2
k=2
2
= p(1 − p)
(1 − (1 − p))3
2
= p(1 − p) 3
p
2(1 − p)
= .
p2
Assim, segue que:
1
E[X(X − 1)] = E(X 2 − X) = E(X 2 ) − E(X) = E(X 2 ) − .
p
Ou seja,
1 2(1 − p) 1 2 − 2p p 2− p
E(X 2 ) = E(X 2 ) + = 2
+ = 2
+ 2= 2 .
p p p p p p
Finalmente,
2− p 1 1− p
Var(X) = E(X 2 ) − (E(X))2 = − = .
p2 p2 p2
6.3.1 Perda de Memória
Exemplo 6.3 Ilustração da perda de memória da distribuição geométrica

Suponha que João está lançando moedas até o resultado sair cara. Suponha que esta João já lançou
a moeda 12 vezes, e ainda não saiu cara, isto significa que a probabilidade do resultado sair cara no
próximo lançamento será maior do que era 12 jogadas atrás?
77 / 140
A resposta é não. Não importa o quanto tempo João tenha esperado, a probabilidade do próximo
lançamento sempre será 1/2. Esta propriedade da distribuição geométrica é chamada de perda de
memória.
Mais precisamente, seja X uma variável aleatória seguindo distribuição Geométrica com parâmetro
p. Então, temos que para todo par de inteiros positivos, m, n, vale
P(X > m + n|X > m) = P(X > n).
De fato, temos que

P(X > m + n, X > m) P(X > m + n)
P(X > m + n|X > m) = = ,
P(X > m) P(X > m)
no entanto, usando a fórmula da soma dos termos de uma progressão geométrica infinita, temos
∞
p(1 − p)m+n
P(X > m + n) = ∑ p(1 − p)k−1 = = (1 − p)m+n .
k=m+n+1 1 − (1 − p)
Analogamente, P(X > m) = (1 − p)m . Logo,
P(X > m + n) (1 − p)m+n

P(X > m + n|X > m) = = = (1 − p)n = P(X > n).
P(X > m) (1 − p)m
Isto prova a perda de memória. Observe que aqui, na realidade, mostra mais do que falamos. Não só
diz que a próxima probabilidade não muda, mas essencialmente diz o seguinte: se João já esperou um
certo tempo m para sair cara, e a cara ainda não saiu, as probabilidades de sair cara dali para frente
são as mesmas de como se ele tivesse começado a lançar naquele momento. Ou seja, a distribuiçã
geométrica “esquece” todo o passado que já foi executado.
6.4 A Distribuição Pascal (ou Binomial Negativa)
6.4.1 Generalização do Binômio de Newton
Antes de definirmos esta distribuição, vamos rever rapidamente um pouco de teoria matemática pre-
sente em cursos de cálculo.
Existe uma classe de funções reais, tais que a seguinte fórmula, conhecida como expansão em série
de Taylor, é verdade
0 f 00 (a) 2
∞
f (k) (a)
f (x) = f (a) + f (a)(x − a) + (x − a) + · · · = ∑ (x − a)k ,
2 k=0 k!
onde f (k) (a) denota a k-ésima derivada de f no ponto a, e f : I → R, onde I ⊂ R é um intervalo

aberto.
As funções tais que essa expansão é válida são conhecidas como funções analíticas.
Importante
Conhecemos várias funções analíticas: a função exponencial; seno; co-seno; logaritmo;
poliônimos e frações de polinômios.
78 / 140
Um caso particular importante é dado pelas funções do tipo f (x) = (1 − x)−r−1 = (1−x)
1
r+1 , onde r é
um número natural. Como f é fração de polinômios, temos que f é analítica. Assim, considerando o
ponto a = 0, temos
f (x) = (1 − x)−r−1 ; f 0 (x) = −(−r − 1)(1 − x)−r−2 ; f 00 (x) = −(−r − 2)(−r − 1)(1 − x)−r−3 , . . . ,
e em geral, temos
f (k) (x) = −(−r − k)(−r − (k − 1)) · · · (−r − 1)(1 − x)−r−k−1 .
Definindo o coeficiente binomial generalizado como

−r (−r)(−r − 1) . . . (−r − k + 1)
= , k = 0, 1, 2, . . . ,
k k!
podemos escrever
−r − 1
f (k)
(x) = (−1) k! k
(1 − x)−r−k−1 .
k
Aplicando no ponto a = 0, temos

(k) −r − 1
k
f (0) = (−1) k! ,
k
por sua vez, usando na série de Taylor, obtemos,
f (k) (0) k
∞ ∞ ∞
−r−1 k −r − 1 k −r − 1
(1 − x) = f (x) = ∑ x = ∑ (−1) x =∑ (−x)k .
k=0 k! k=0 k k=0 k
Assim, temos o binômio de Newton generalizado:

∞
−r−1 −r − 1
(1 − x) =∑ (−x)k .
k=0 k
Observe que vale também a igualdade:

r+k (r + k)(r + k − 1) · · · (r + 1)r
=
k k!
k (−r − k)(−r − (k − 1)) · · · (−r − 1)(−r) k −r − 1
= (−1) = (−1) .
k! k
Daí, vale também a fórmula do binômio de Newton generalizado:

∞
−r−1 r+k k
(1 − x) =∑ x.
k=0 k
6.4.2 Distribuição Pascal
A distribuição de Pascal (ou Binomial Negativa) é uma generalização natural da distribuição geomé-
trica. Para entendermos melhor esta distribuição, voltemos ao exemplo do lançamento de moedas.
79 / 140
Se uma pessoa tem uma moeda que pode ser desonesta, ou seja, assume cara com probabilidade p,
e coroa com probabilidade 1 − p. Suponha que temos o seguinte experimento aleatório: lançar uma
moeda sucessivamente até obter r caras.
Qual a probabilidade da r-ésima cara ser obtida no lançamento k? Ou, escrevendo de uma maneira
matematicamente mais precisa, se X denota a variável aleatória dada pelo número do lançamento pelo
qual a r-ésima cara foi obtida, qual é a probabilidade P(X = k)?
Vamos calcular essa probabilidade por partes. Comece notando que X = k, se e somente se, no k-
ésimo lançamento o resultado foi cara e nos k − 1 lançamentos anteriores, obtemos r − 1 caras. O
número de formas de isso acontecer é simples: escolher r − 1 resultados para sair cara, entre k − 1
k−1
resultados possíveis, ou seja, temos r−1 possibilidades.
Finalmente, como em um total de k lançamentos, saíram r caras e k − r coroas, e temos k−1

r−1 possi-
bilidades, a probabilidade é dada por

k−1 r
P(X = k) = p (1 − p)k−r , k = r, r + 1, . . . ,
r−1
onde k ≥ r, pois para obter r caras, temos que no mínimo ter k lançamentos.
Importante
Observe que se r = 1, temos que X segue uma distribuição geométrica com parâmetro p.
Mais precisamente,
Definição: Variável Aleatória Seguindo Distribuição Pascal

Sejam X1 , X2 , . . . variáveis aleatórias independentes seguindo distribuição Bernoulli com parâ-
metro p. Seja X a variável aleatória dada pela ocorrência do r-ésimo sucesso, ou seja, o índice
i, tal que Xi é o r-ésimo sucesso. Então, dizemos que X segue distribuição Pascal (ou binomial
negativa) com parâmetros r e p, e denotamos X ∼ Pas(r, p). A função de probabilidade de X é

k−1 r
P(X = k) = p (1 − p)k−r , k = r, r + 1, . . . ,
r−1
Vamos começar mostrando que a função acima é, de fato, uma função de probabilidade. Claramente,
k−1 r
r−1 p (1 − p)k−r ≥ 0, e, temos ainda que usando a mudança de variável j = k − r,
∞ ∞
k−1 r j+r−1 r
∑ r − 1 p (1 − p) = ∑ r − 1 p (1 − p) j
k−r
k=r j=0
∞
j + r − 1
= pr ∑ (1 − p) j
j=0 j
1
= pr
(1 − (1 − p))r
1
= pr r
p
= 1,
onde usamos o binômio de Newton generalizado e usamos que

j+r−1 ( j + r − 1)! j+r−1
= = .
r−1 (r − 1)! j! j
80 / 140
Nota
A distribuição de Pascal, ou Binomial Negativa, recebe o nome de binomial negativa, por utili-
zar o binômio de Newton generalizado (com expoente negativo) para calcular sua esperança
e variância, assim como para mostrar que a soma das probabilidades é igual a 1.
Importante
Existe uma caracterização da distribuição Pascal em termos de soma de variáveis aleatórias
seguindo distribuição geométrica: sejam X1 , X2 , . . . , Xr variáveis aleatórias independentes
seguindo distribuição Geométrica com parâmetro p. Assim, definindo X = ∑rk=1 Xk , temos
que X segue distribuição Pascal com parâmetros r e p.
A intuição é que para termos a “posição” do r-ésimo sucesso, contabilizamos a posição
do primeiro sucesso com a variável X1 , adicionamos a variável X2 para obter a posição do
segundo sucesso, . . . ,, adicionamos a variável Xr para obter a posição do r-ésimo sucesso.
Ou seja, cada variável geométrica Xi representa o tempo que temos que esperar entre os
sucessos, até a obtenção de um sucesso.
Esperança
Temos que, fazendo a mudança j = k − r,
∞
k−1 r
E(X) = ∑ k p (1 − p)k−r
k=r r − 1
∞
j+r−1 r
= ∑ ( j + r) p (1 − p) j
j=0 r − 1
∞
( j + r − 1)!
= pr ∑ ( j + r) (1 − p) j
j=0 (r − 1)! j!
∞
( j + r)!
= pr ∑ (1 − p) j
j=0 (r − 1)! j!
∞
( j + r)!
= pr ∑ r (1 − p) j
j=0 r! j!
∞
j+r
= p ∑r r (1 − p) j
j=0 j
∞
j+r
= rp ∑ r (1 − p) j
j=0 j
1
= rpr
(1 − (1 − p))r+1
r
= .
p
81 / 140
Importante
Vale a pena notar que utilizando a caracterização de X como soma de variáveis alea-
tórias independentes seguindo distribuição geométrica, temos que
r
X = ∑ Xi ,
i=1
onde Xi ∼ G(p). Daí,

r r r
1 r
E(X) = E ∑ i ∑ i ∑ p = p.
X = E(X ) =
i=1 i=1 i=1
Variância
Vamos começar calculando E[X(X + 1)]:
∞
k−1 r
E[X(X + 1)] = ∑ k(k + 1) r − 1 p (1 − p)k−r
k=r
∞
j+r−1 r
= ∑ ( j + r + 1)( j + r) r − 1 p (1 − p) j
j=0
∞
( j + r − 1)!
= r
p ∑ ( j + r + 1)( j + r) (1 − p) j
j=0 (r − 1)! j!
∞
( j + r + 1)!
= pr ∑ (1 − p) j
j=0 (r − 1)! j!
∞
( j + r + 1)!
= pr ∑ r(r + 1) (1 − p) j
j=0 (r + 1)! j!
∞
j+r+1
= r
p ∑ r(r + 1) (1 − p) j
j=0 j
∞
j+r+1
= r(r + 1)p ∑ r (1 − p) j
j=0 j
1
= r(r + 1)pr
(1 − (1 − p))r+2
r(r + 1)
= .
p2
Portanto, temos que E[X(X + 1)] = E(X 2 + X) = E(X 2 ) + E(X). Como E(X) = r/p e E[X(X +
1)] = r(r + 1)/p2 , temos que
r(r + 1) r r2 + r − rp
E(X 2 ) = − = .
p2 p p2
Finalmente, a variância é dada por
r2 + r − rp r2 r − rp r(1 − p)
Var(X) = E(X 2 ) − (E(X))2 = 2
− 2= = .
p p p2 p2
6.5 Distribuição Hipergeométrica
Assim como na distribuição binomial, vamos ilustrar a distribuição hipergeométrica com um exemplo:
82 / 140
Exemplo 6.4 Exemplo de distribuição hipergeométrica

Suponha que temos uma urna com N bolas, das quais n bolas são azuis, e N − n bolas são vermelhas.
Suponha que m bolas foram retiradas aleatoriamente da urna sem reposição. Se X é a variável
aleatória dada pelo número de bolas azuis que foram retiradas entre as m bolas, dizemos que X segue
distribuição hipergeométrica com parâmetros N, n, m.
Vamos agora calcular a probabilidade em questão.

Queremos calcular a probabilidade de termos k bolas azuis. Note que temos m retiradas de bolas,
entre as quais queremos k bolas azuis e m − k bolas vermelhas. O total de bolas azuis é n, então temos
n N−n
k formas de selecionar estas bolas azuis e como temos N − n bolas vermelhas, temos m−k formas
de selecionar as bolas vermelhas. Como temos N bolas no total, e queremos selecionar m bolas, temos
N
m formas de selecionar m bolas. Portanto, a probabilidade é dada por
n N−n
k m−k
P(X = k) = N
.
m
Temos então a
Definição: Variável Aleatória Seguindo Distribuição Hipergeométrica

Suponha que temos N objetos para selecionarmos. Suponha que temos n formas de obter uma
seleção “boa”, e N − n formas de obter uma seleção “ruim”. Suponha que tomemos uma amos-
tra de tamanho m, sem reposição, e seja Xi a variável aleatória que assume valor 1, se a i-ésima
seleção foi boa e assume valor 0, se a i-ésima seleção foi ruim. Então se X denota o número de
seleções boas, ou seja, se
m
X = ∑ Xi ,
i=1
dizemos que X segue distribuição hipergeométrica com parâmetros N, n, m, denotamos por X ∼
HG(N, n, m), e sua função de probabilidade é dada por
n N−n
k m−k
P(X = k) = N
, k = 0, . . . , m.
m
(nk)(N−m
m−k )
Vamos mostrar que a função acima é uma função de probabilidade. Claramente, N ≥ 0. Para
(m )
mostrar que a soma sobre todos os valores de k é igual a 1, vamos obter uma identidade de coeficientes
binomiais.
Considere ocoeficiente de xm na expansão de (1 + x)N em binômio de Newton. Este coeficiente é
dado por Nm .
Por outro lado, sabemos que (1 + x)N = (1 + x)n (1 + x)N−n . Vamos olhar então o coeficiente de xm
na expansão de (1 + x)n (1 + x)N−n , que é igual a Nm .
Mas, observe que
n
N−n
n N−n
n i N − n j
(1 + x) (1 + x) = ∑ x ∑ j x
i=0 i j=0
N i
n N −n i
= ∑ ∑ x.
i=0 j=0 j i− j
83 / 140
Assim, o coeficiente de xm na expansão de (1 + x)n (1 + x)N−n é dado por

m
n N −n
∑ .
k=0 k m−k
Portanto, notando que o coeficiente de xm na expansão de (1 + x)n (1 + x)N−n é igual ao coeficiente

de xm na expansão de (1 + x)N , pois (1 + x)N = (1 + x)n (1 + x)N−n , chegamos à identidade de Chu-
Vandermonte: m
N n N −n
=∑ .
m k=0 k m−k
Dividindo ambos os lados por Nm , temos

m n N−n
k m−k
∑ N
= 1.
k=0 m
(nk)(N−n
m−k )
Isto é o que queríamos provar, pois P(X = k) = .
(Nm)
Esperança
Temos que
m n N−n
E(X) = ∑ k k Nm−k
k=0 m
m n N−n
= ∑ k k Nm−k
k=1 m
m N−n

n m−k
= ∑ k N
k=1 k m
m N−n
n! m−k
= ∑ k N
k=1 k!(n − k)! m
m N−n
n! m−k
= ∑ N
k=1 (k − 1)!(n − k)! m
m N−n
(n − 1)! m−k
= ∑ n N
k=1 (k − 1)!(n − k)!
m N−n m
n − 1 m−k
= n∑ N
k=1 k −1 m
m n−1 N−n
k−1 m−k
= n∑ N
k=1 m
m n−1 N−n

k−1 m−k
= n∑ N−1
k=1 N/m m−1
n−1 N−n
nm m k−1 m−k
= ∑ N−1
N k=1 m−1
nm
= ,
N
onde na última igualdade utilizamos a identidade de Chu-Vandermonte com a terna (N − 1, n −
1, m − 1).
84 / 140
Nota
Podemos também utilizar a caracterização de X como a soma
m
X = ∑ Xi ,
i=1
onde Xi denota a variável aleatória que assume valor 1 se a i-ésima seleção foi boa, e
assume valor 0 se a i-ésima seleção foi ruim.
Observe que temos n seleções boas, entre um total de N possibilidades, ou seja, para
cada i, as variáveis Xi possuem a mesma função de probabilidade:
n
P(Xi = 1) = ,
N
daí, E(Xi ) = n/N , e portanto,
m m m
n nm
E(X) = E ∑ Xi = ∑ E(Xi ) = ∑ = .
i=1 i=1 i=1 N N
Variância
Utilizando a mesma técnica da esperança é possível mostrar que
mn(N − n)(N − m)
Var(X) = .
N 2 (N − 1)
6.6 Distribuição Poisson
Vamos começar motivando a definição da distribuição de Poisson por meio da aproximação conhecida
como lei dos eventos raros. Também é conhecida como aproximação da distribuição binomial pela
distribuição Poisson.
Para tanto, considere o seguinte exemplo:
Exemplo 6.5 Motivação para a distribuição de Poisson

Suponha que uma empresa tem uma linha telefônica dedicada exclusivamente a reclamações. Num
período fixado de 4 horas (por exemplo 08:00 às 12:00) essa linha recebe em média 500 ligações.
Entretanto, essas ligações ocorrem aleatoriamente ao longo dessas 4 horas. Assim, sabemos que ao
longo dos dias, teremos uma quantidade média de 500 ligações ao final das 4 horas, mas não sabemos
em que momentos essas ligações são recebidas, nem o número exato de ligações recebidas em cada
dia.
A pergunta que surge é: Qual a probabilidade de termos k ligações no período de 4 horas no dia de
hoje?
Responder a pergunta acima não é uma tarefa trivial, e essa resposta envolve o uso da distribuição de
Poisson.
Para resolver este problema, divida o intervalo de 4 horas em n subintervalos, de mesmo tamanho,
dado por 4/n horas, onde n > 500. Como 500 é o número médio de ligações recebidas durante todo
o período, é esperado que tenhamos no máximo uma ligação em cada intervalo (observe que se n é
muito grande, o intervalo fica muito pequeno, e a probabilidade de termos duas ligações no mesmo
intervalo é próxima de zero, assim essa aproximação faz sentido).
85 / 140
Assim, temos aproximadamente uma probabilidade 500/n de termos uma ligação em cada intervalo.
Como temos n intervalos, a probabilidade de termos k ligações no total é dada pela probabilidade
n
de escolhermos k intervalos entre os n intervalos disponíveis: temos k formas de escolher esses k
k n−k
intervalos, e cada escolha dessas tem probabilidade 500 n 1 − 500
n . Resumindo, se X denota
a variável aleatória cujo valor é o número de ligações recebidas hoje durante as 4 horas, temos que
P(X = k), ou seja, a probabilidade de termos k ligações é aproximadamente

n 500 k 500 n−k
P(X = k) ≈ 1− .
k n n
Em outras palavras, X segue aproximadamente distribuição binomial (n, 500/n). Observe que o valor
esperado dessa aproximação binomial é dado por 500, o que mostra que a aproximação está consis-
tente com o problema em questão.
Finalmente, para sabermos a probabilidade exata, temos que calcular o limite do lado direito quando
n tende a infinito. Faremos isso na próxima subseção.
Nota
Vale a pena observar que calcular a probabilidade do exemplo anterior usando a aproxima-
ção acima sem calcular o limite é uma tarefa computacionalmente complicada, pois envolve
cálculo de fatoriais de números muito grandes.
Por este motivo também, é muito comum usar uma aproximação inversa: se temos uma
variável aleatória X seguindo distribuição binomial com parâmetros n e p, onde n é muito
grande, é mais fácil calcular uma aproximação desta probabilidade usando a distribuição
Poisson.
6.6.1 Aproximação da distribuição binomial pela Poisson
Baseado no exemplo da seção anterior, suponha que temos uma taxa média λ > 0, e considere a
sequência de variáveis aleatórias X1 , X2 , . . . , onde cada Xn segue distribuição Bin(n, λ /n). Observe
que precisamos que n seja grande para que λ /n < 1 e portanto seja uma probabilidade.
Nosso objetivo nesta seção é calcular o limite

n λ k λ n−k
lim P(Xn = k) = lim 1− .
n→∞ n→∞ k n n
86 / 140
Nota
Para calcular o limite em questão, precisaremos relembrar alguns fatos básicos de cálculo
em uma variável. Relembre que o número de Euler, e, é definido como
1 n
e = lim 1 + .
n→∞ n
Utilizando a regra de L’Hopital, podemos mostrar que para todo x ∈ R
x n
ex = lim 1 + .
n→∞ n
Desta forma, se tomarmos x = −λ na expressão acima, obtemos,
−λ
λ n
e = lim 1 − .
n→∞ n

Finalmente, para cada k natural fixado (constante, não muda com n), temos que limn→∞ 1−
k
λ
n = 1, e portanto
n
λ
λ n−k
1− n
−λ
lim 1 − = lim k = e .
n→∞ n n→∞
1 − λn
Para começarmos a calcular o limite, observe que para cada k, temos

n n! n(n − 1) · · · (n − k + 1)
= = .
k k!(n − k)! k!
Desta forma, temos

n λ k λ n−k
P(Xn = k) = 1−
k n n
n(n − 1) · · · (n − k + 1) λ k λ n−k
= 1−
k! n n
1 λk λ n−k
= n(n − 1) · · · (n − k + 1) k 1 −
k! n n
k
λ n(n − 1) · · · (n − k + 1) λ n−k
= 1−
k! nk n
λk n n − 1 n − k + 1 λ n−k
= ··· 1−
k! n n n n
λk 1 (k − 1) λ n−k
= 1− ··· 1− 1− .
k! n n n
Temos que valem os seguintes limites:
1 (k − 1) λ n−k
lim 1 − ··· 1− = 1, e lim 1 − = e−λ .
n→∞ n n n→∞ n
Portanto, obtemos
λk 1 (k − 1) λ n−k
lim P(Xn = k) = lim 1− ··· 1− 1−
n→∞ n→∞ k! n n n
λ k −λ
= e .
k!
87 / 140
Este é o valor do limite procurado no final do exemplo, e assim, voltando ao exemplo: .Motivação
para a definição da distribuição Poisson
Relembremos que se X denota a variável aleatória cujo valor é o número de ligações recebidas hoje
durante as 4 horas, temos que P(X = k), ou seja, a probabilidade de termos k ligações é aproximada-
mente
n 500 k 500 n−k
P(X = k) ≈ 1− .
k n n
Em outras palavras, X segue aproximadamente distribuição binomial (n, 500/n).
O valor exato da probabilidade é então dado por
500 n−k 500k −500

n 500 k
P(X = k) = lim 1− = e .
n→∞ k n n k!
Importante
Este resultado de aproximação também pode ser usado para calcular aproximações de pro-
babilidades de distribuições binomiais quando n é muito grande.
Mais precisamente, se temos uma variável aleatória X seguindo distribuição binomial com
parâmetros n e p, e n é muito grande, podemos aproximar esta probabilidade por
(np)k −np
P(X = k) ≈ e .
k!
6.6.2 Distribuição Poisson
Definição: Variável Aleatória Seguindo Distribuição Poisson

Suponha que temos ocorrências de eventos em um intervalo (de tempo ou espaço) I. Suponha
que temos um número médio de ocorrências em I é dado por λ > 0, e que a ocorrência de cada
evento subsequente é independente da ocorrência dos eventos anteriores. Então se X denota o
número de ocorrências do evento no intervalo I, dizemos que X segue distribuição Poisson com
parâmetro λ , denotamos por X ∼ P(λ ), e sua função de probabilidade é dada por
λ k −λ
P(X = k) = e , k = 0, 1, . . . .
k!
Para verificar que a função definida acima é realmente uma função de probabilidade, como temos,
claramente, que λ k /k!e−λ > 0, basta verificar que a soma sobre todos os valores de k é igual a 1.
Para tanto, relembre a definição de função analítica. É um fato conhecido que a função exponencial
f (x) = ex é analítica. Como temos que
f (x) = ex , f 0 (x) = ex , f 00 (x) = ex , f 000 (x) = ex ,
e, em geral, vale
f (k) (x) = ex .
Portanto, aplicando em a = 0, temos que f (k) (0) = 1. Assim, obtemos a série de Taylor da função
exponencial,
∞
f (k) (0) k ∞
1
ex = f (x) = ∑ x = ∑ xk .
k=0 k! k=0 k!
88 / 140
Em particular, obtemos
∞
1
eλ = ∑ k! λ k .
k=0
Vamos então mostrar que as probabilidades da Poisson formam, de fato, uma função de probabilidade:
∞
λ k −λ
∞
∑ P(X = k) = ∑ e
k=0 k=0 k!
k
= e−λ ∑∞ λ
k=0 k!
= e−λ eλ
= 1.
Esperança
Temos que
E(X) = ∑∞
k=0 kP(X = k)
λ k −λ
= ∑∞
k=0 k k! e
λ k −λ
= ∑∞
k=1 k k! e
λ k−1 −λ
= ∑∞
k=1 λ (k−1)! e
k−1
= λ ∑∞ λ −λ .
k=1 (k−1)! e
Fazendo j = k − 1, temos que
λ k−1 −λ
∞
E(X) = λ ∑ e
k=1 (k − 1)!
∞
λj
= λ ∑ e−λ
j=0 j!
= λ eλ e−λ
= λ.
Variância
Vamos começar calculando E[X(X − 1)]. Daí,
∞
E[X(X − 1)] = ∑ k(k − 1)P(X = k)
k=0
∞
λ k −λ
= ∑ k(k − 1)
k!
e
k=0
∞
λ k −λ
= ∑ k(k − 1) e
k=2 k!
∞
λ k
= ∑ e−λ
k=2 (k − 2)!
∞
λ k−2 −λ
= ∑ λ2 e .
k=2 (k − 2)!
Fazendo a mudança de variável j = k − 2, temos que
λ k−2 −λ
∞
2
E[X(X − 1)] = ∑ λ e
k=2 (k − 2)!
2
∞
λ j −λ
= λ ∑ e
j=0 j!
= λ 2 eλ e−λ
= λ 2.
89 / 140
Porém, como temos que E[X(X − 1)] = E(X 2 ) − E(X), e portanto E(X 2 ) = E[X(X − 1)] +
E(X) = λ 2 + λ . Portanto, temos que
Var(X) = E(X 2 ) − (EX)2 = λ 2 + λ − λ 2 = λ .
Desta forma, uma variável aleatória com distribuição Poisson com parâmetro λ possui espe-
rança e variância iguais a λ .
6.7 Atividades
1. Quinze pessoas portadoras de determinada doença são selecionadas para se submeter a um trata-
mento. Sabe-se que este tratamento é eficaz na cura da doença em 80% dos casos. Suponha que os
indivíduos submetidos ao tratamento curam-se (ou não) independentemente uns dos outros. Seja X o
número de pessoas curadas dentre os 15 pacientes submetidos ao tratamento.
a) Qual a distribuição de X?
b) Qual a probabilidade de que os 15 pacientes sejam curados?
c) Qual a probabilidade de que pelo menos dois não sejam curados?
2. Um aluno estuda 12 exercícios, dos quais o professor vai escolher 6 aleatoriamente para uma prova.
O estudante sabe resolver 9 dos 12 problemas. Seja X o número de exercícios resolvidos por ele na
prova.
b) Qual a probabilidade do aluno resolver pelo menos 5 exercícios da prova.
3. Um estudante preenche ao acaso um exame de múltipla escolha com 5 respostas possíveis (uma
das quais é a correta) para cada uma de 10 questões.
a) Qual a distribuição do número de respostas certas?
b) Qual a probabilidade de que o estudante obtenha 9 ou mais respostas certas?
c) Qual a probabilidade de que acerte pelo menos duas questões?
4. Em uma pizzaria com entrega a domicílio, 30% dos pedidos por telefone são de mais de uma pizza.
Certo dia, o dono decide mandar um brinde ao cliente que fizer o primeiro pedido com mais de uma
pizza. Seja X o número de pedidos recebidos até o ganhador ganhar o brinde.
b) Determine o menor número de pedidos necessários para garantir que o brinde saia com proba-
bilidade maior do que 0,9.
5. Um vendedor que vai de porta em porta, consegue concretizar uma venda em 40% das visitas que
faz. Este vendedor pretende efetuar no mínimo duas vendas por dia. Seja X o número de visitas feitas
até que a segunda venda seja efetivada.
b) Calcule a probabilidade de que o vendedor faça no máximo seis visitas para concluir as duas
vendas.
6. O número X de acidentes de trabalho que ocorrem em uma fábrica por semana segue distribui-
ção Poisson. Sabendo que a porcentagem de semanas em que ocorre um acidente é um terço da
porcentagem de semanas em que não acontece nenhum, calcule:
90 / 140
a) o parâmetro da distribuição;
b) a probabilidade de que ocorra um acidente em uma semana e também um na semana seguinte,
sabendo que acidentes em semanas diferentes são independentes;
7. Se uma variável aleatória tem distribuição Poisson e P(X = 0) = 1/2, quanto vale a variância
de X?
8. Suponha que 1% das lâmpadas de enfeite de natal de certa marca apresentem defeito. Estime
a probabilidade de que uma caixa com 30 lâmpadas contenha no máximo uma lâmpada com defeito.
(Dica: Aproxime essa probabilidade pela distribuição Poisson)
9. Sabe-se que 0,6% dos parafusos produzidos em uma fábrica são defeituosos. Usando a aproxima-
ção da Binomial pela Poisson, estime a probabilidade de que, em um pacote com 1000 parafusos:
a) tenhamos exatamente 4 parafusos defeituosos;
b) não tenhamos mais do que 4 parafusos defeituosos;
c) encontrem-se pelo menos 3 parafusos defeituosos.

91 / 140
Capítulo 7
Principais Distribuições Contínuas
• Conhecer as principais distribuições contínuas

• Saber utilizar a tabela da distribuição normal
• Conhecer a distribuição Exponencial e Gama
• Saber utilizar a distribuição normal para aproximar a distribuição binomial
Aqui apresentaremos algumas das principais distribuições contínuas. Para tanto, apresentaremos suas
funções de densidade.
Além disso, apresentaremos algumas propriedades destas distribuições, tais como esperança e vari-
ância.
7.1 Distribuição Uniforme
Definição: Variável Aleatória Seguindo Distribuição Uniforme

Suponha que X seja uma variável aleatória contínua que assuma valores no intervalo [a, b], no
qual a e b sejam ambos finitos. Se a função de densidade de X for dada por
(
1
, a ≤ x ≤ b,
f (x) = b−a
0, caso contrário,
dizemos que X é uniformemente distribuída sobre o intervalo [a, b], e denotamos X ∼ U[a, b].
Uma variável aleatória uniformemente distribuída representa o análogo contínuo dos resultados equi-
prováveis no seguinte sentido: Para qualquer subintervalo [c, d], onde a ≤ c < d ≤ b, P(c ≤ X ≤ d) é
a mesma para todos os subintervalos que tenham o mesmo comprimento. Ou seja,
Z d
d −c
P(c ≤ X ≤ d) = f (x)dx = ,
c b−a
e, por isso, depende unicamente do comprimento do intervalo.
92 / 140
Esperança
Temos que
x2 b b2 − a2
Z b
b−a a+b
E(X) = x x= = = .
a d 2(b − a) a 2(b − a) 2
Variância
Temos que
Z b 2
2 x x3 b b3 − a3 a2 + ab + b2
E(X ) = dx = = = .
a b−a 3(b − a) a 3(b − a) 3
Portanto, obtemos que
2 a2 + ab + b2 (a + b)2 (b − a)2
2
Var(X) = E(X ) − (E(X)) = − = .
3 4 12
Exemplo 7.1 Exemplo de aplicação da distribuição uniforme

Um ponto é escolhido ao acaso no segmento de reta [0, 2]. Qual será a probabilidade de que o ponto
escolhido esteja entre 1 e 3/2?
Seja X a variável aleatória que representa a coordenada do ponto escolhido. Temos que X ∼ U[0, 2],
daí (
1/2, 0 ≤ x ≤ 2,
f (x) =
0, caso contrário,
e Z 3/2
1 13 1
P(1 ≤ X ≤ 3/2) = dx = −1 = .
1 2 2 2 4
7.2 A Distribuição Normal
Definição: Variável Aleatória Seguindo Distribuição Normal

A variável aleatória X, que assume valores na reta, −∞ < x < ∞, tem distribuição normal se sua
função de densidade é da forma
1 (x−µ)2
−
f (x) = √ e 2σ 2 , −∞ < x < ∞,
2πσ
onde −∞ < µ < ∞ e σ > 0, e denotamos X ∼ N(µ, σ 2 ).
Na figura abaixo apresentamos gráficos das funções de densidade da distribuição normal para alguns
valores de µ e σ 2 :
93 / 140
0.8
(0;0.2)
0.6
f(x)
0.4
(−2;0.5)
(0;1)
0.2
(0;5)
0.0
−4 −2 0 2 4
x
Figura 7.1: Exemplo de funções de densidade da distribuição normal para valores de µ e σ 2 descritos
no par ordenado (µ; σ 2 )
Esperança e Variância
Temos que se X ∼ N(µ, σ 2 ), então
E(X) = µ e Var(X) = σ 2 .
7.2.1 Padronização e Tabulação da Distribuição Normal
Temos que se X ∼ N(µ, σ 2 ), então a variável padronizada

X −µ
Z=
σ
terá distribuição normal padrão, ou seja, Z ∼ N(0, 1), e sua função de densidade é dada por
1 z2
f (z) = √ e− 2 , −∞ < z < ∞.
2π
Logo, temos que
Z b
1 z2
P(a ≤ Z ≤ b) = √ e− 2 dz.
a 2π
Desta forma, dada uma variável aleatória X ∼ N(µ, σ 2 ), podemos padronizá-la na variável Z, e obter
as probabilidades a partir da tabela de valores da função de distribuição da normal padrão
Z z
1 z2
Φ(z) = P(Z ≤ z) = √ e− 2 dz.
−∞ 2π
Nota
Observe que na padronização dividimos por σ , que é o desvio padrão da variável aleatória
normal. Não dividimos pela variância.
94 / 140
A distribuição normal padrão satisfaz a seguinte propriedade se simetria:

Φ(−x) = 1 − Φ(x).
Importante
A identidade de simetria acima nos diz que podermos calcular as probabilidades P(Z ≤
−x) a partir das probabilidades P(Z ≤ x). Assim, como a tabela da normal apresentada
no apêndice não contém valores negativos de x, para calcularmos estas probabilidades,
utilizamos a fórmula acima.
Exemplo 7.2 Exemplo de cálculo de probabilidades utilizando a tabela da normal

Seja Z ∼ N(0, 1). Vamos calcular as probabilidades P(0 ≤ Z ≤ 1), P(Z ≥ 1, 93), P(−2, 55 ≤ Z ≤ 1, 2)
e P(Z ≤ 1, 93).
Observe inicialmente que
P(0 ≤ Z ≤ 1) = Φ(1) − Φ(0).
Olhando para a tabela da normal (que pode ser encontrada no Apêndice deste livro), obtemos que
Φ(1) = 0, 8413 e Φ(0) = 0, 5. Portanto
P(0 ≤ Z ≤ 1) = Φ(1) − Φ(0) = 0, 8413 − 0, 5 = 0, 3413.
Para a próxima probabilidade, temos que P(Z ≥ 1, 93) = 1 − P(Z ≤ 1, 93) = 1 − Φ(1, 93). Olhando
para a tabela no apêndice, obtemos P(Z ≥ 1, 93) = 1 − Φ(1, 93) = 1 − 0, 9732 = 0, 0268.
A próxima probabilidade deve ser observada com cuidado, pois temos um valor negativo, e se olhar-
mos na tabela, não há valores negativos, e portanto, teremos que usar a simetria da distribuição normal.
Assim,
P(−2, 55 ≤ Z ≤ 1, 2) = Φ(1, 2) − Φ(−2, 55) = Φ(1, 2) − (1 − Φ(2, 55))
= Φ(1, 2) + Φ(2, 55) − 1 = 0, 8849 + 0, 9946 − 1
= 0, 8795.
Finalmente, P(Z ≤ 1, 93) = Φ(1, 93) = 0, 0268.
Veremos agora mais alguns exemplos de aplicações da distribuição normal.
Exemplo 7.3 Exemplo de aplicação da distribuição normal

Suponha que as alturas dos alunos de ciências da computação da UFPB seguem distribuição normal
com média 1,60m e desvio padrão 0,30m. Seja X a variável aleatória que indica a altura de um
aluno de ciências da computação da UFPB escolhido ao acaso. Encontre a probabilidade de um aluno
medir:
a) Entre 1,50m e 1,80m;
Queremos calcular P(1, 50 ≤ X ≤ 1, 80). Observe que
X − 1, 60
Z= ∼ N(0, 1).
0, 30
Temos então que:
P(1, 50 ≤ X ≤ 1, 80) = P(1, 50 − 1, 60 ≤ X − 1, 60 ≤ 1, 80 − 1, 60) = P(−0, 1 ≤ X − 1, 60 ≤ 0, 2)
= P(−0, 1/0, 3 ≤ (X − 1, 60)/0, 30 ≤ 0, 2/0, 3) = P(−1/3 ≤ Z ≤ 2/3)
= Φ(0, 67) − Φ(−0, 33)
= Φ(0, 67) − (1 − Φ(0, 33))
= Φ(0, 67) + Φ(0, 33) − 1
= 0, 7486 + 0, 6293 − 1
= 0, 3779.
95 / 140
b) Mais de 1,75m;
Queremos calcular P(X ≥ 1, 75).
Temos então que:
P(X ≥ 1, 75) = P(X − 1, 60 ≥ 1, 75 − 1, 60) = P(X − 1, 60 ≥ 0, 15)
= P((X − 1, 60)/0, 30 ≥ 0, 15/0, 3) = P(Z ≥ 1/2)
= 1 − P(Z ≤ 1/2)
= 1 − Φ(0, 5)
= 1 − 0, 6915
= 0, 3085.
c) Menos de 1,48m;
Queremos calcular P(X ≤ 1, 48).
Temos então que:
P(X ≤ 1, 48) = P(X − 1, 60 ≤ 1, 48 − 1, 60) = P(X − 1, 60 ≤ −0, 12)
= P((X − 1, 60)/0, 30 ≤ −0, 12/0, 3) = P(Z ≤ −4/10)
= Φ(−0, 4)
= 1 − Φ(0, 4)
= 0, 3446.
d) Qual deve ser a altura mínima para escolhermos 10% dos alunos mais altos?
Queremos encontrar um valor c, tal que P(X > c) = 0, 10.
Assim, temos que
P(X > c) = P(X − 1, 60 > c − 1, 60)
= P((X − 1, 60)/0, 30 > (c − 1, 60)/0, 3) = P(Z > (c − 1, 60)/0, 3)
= 1 − Φ((c − 1, 60)/0, 3).
Assim, queremos encontrar c, tal que 0, 1 = 1−Φ((c−1, 60)/0, 3), ou seja, Φ((c−1, 60)/0, 3) = 0, 9.
Seja z = (c − 1, 60)/0, 3, temos que Φ(z) = 0, 9. Olhando para a tabela, vemos que z = 1,28.
Logo, (c − 1, 60)/0, 3 = 1, 28, o que implica que c = 1, 6 + 0, 384 = 1, 984. Desta forma, a altura em
questão é 1,98m.
7.2.2 Aproximação da Distribuição Binomial pela Normal
Vimos no capítulo de variáveis aleatórias discretas que podemos aproximar a distribuição binomial
pela distribuição Poisson.
A aproximação da distribuição binomial pela Poisson é boa quando o parâmetro p da distribuição
binomial é pequeno. Se este valor for grande, a aproximação pela distribuição Poisson é pobre. Neste
caso, devemos aproximar pela distribuição normal.
Proposição: Aproximação da distribuição binomial pela normal
Suponha que Xn é uma sequência de variáveis aleatórias tais que Xn ∼ Bin(n, p). Então, vale o
seguinte resultado:
X − np
n
lim P p ≤ z = Φ(z),
n→∞ np(1 − p)
onde Φ(z) é a função de distribuição da normal padrão.
Desta forma, vale a aproximação para n grande:
x − np
P(Xn ≤ x) ≈ Φ p .
np(1 − p)
96 / 140
Exemplo 7.4 Exemplo de aplicação da aproximação da binomial pela normal

Suponha que lançamos uma moeda honesta 200 vezes. Obtenha a probabilidade do número de caras
estar entre 45% e 55% dos lançamentos (incluindo os extremos). Ou seja, se Xn denota o número de
caras obtidas após os 200 lançamentos, temos que Xn ∼ Bin(200, 1/2), e queremos calcular
P(90 ≤ Xn ≤ 110) = P(Xn ≤ 110) − P(Xn ≤ 89).
Como o parâmetro p da binomial não é pequeno, ou seja, não está próximo de zero, a aproximação
ideal é dada pela
p normal.
Assim, como np(1 − p) = 7, 07 e np = 100, pela proposição anterior, temos que

P(90 ≤ Xn ≤ 110) ≈ Φ 110−100
7,07 − Φ 90−100
7,07
= Φ(1, 41) − Φ(−1, 27)
= Φ(1, 41) − (1 − Φ(1, 27))
= Φ(1, 41) + Φ(1, 27) − 1
= 0, 9207 + 0, 8980 − 1
= 0, 8187.
Logo, a probabilidade é de aproximadamente 0,8187.
Nota
No exemplo anterior:
• A probabilidade exata é dada por 0,8626.
• A probabilidade obtida pela aproximação de Poisson é dada por 0,7065. Vemos que a
aproximação é, de fato, muito pobre neste caso.
O motivo da aproximação ser ruim é que a aproximação da binomial pela Poisson supõe que
a probabilidade p da binomial tende a zero quando n tende a infinito, o que não acontece no
exemplo anterior.
7.3 A Distribuição Exponencial
A distribuição exponencial é uma distribuição muito utilizada na prática para modelar tempo de falha
de objetos. Por exemplo, pode ser usada para modelar o tempo que demora até uma lâmpada falhar.
Ela possui um parâmetro, λ , que pode ser interpretado da seguinte forma: 1/λ é o tempo de vida
médio do objeto.
Mais precisamente, temos a
Definição: Variável Aleatória Seguindo Distribuição Exponencial

Uma variável aleatória contínua X assumindo valores não-negativos é dita seguir distribuição
exponencial com parâmetro λ > 0, se sua função de densidade é dada por
(
λ e−λ x , x ≥ 0,
f (x) =
0, x < 0.
Denotamos X ∼ Exp(λ ).
97 / 140
Observe que f (x) é, de fato, uma função de densidade, pois f (x) ≥ 0 para todo x, e, além disso,
Z ∞ Z ∞
f (x)dx = λ e−λ x dx
−∞ 0
e−λ x ∞ 1
= λ =λ
−λ 0 λ
= 1.
Na figura abaixo apresentamos gráficos das funções de densidade da distribuição exponencial para
alguns valores de λ : 1.5
1.0
(1.5)
f(x)
0.5
(0.5)
0.0
0 1 2 3 4 5
x
Figura 7.2: Exemplo de funções de densidade da distribuição exponencial para valores de λ descritos
no parêntese (λ )
Podemos também calcular a função de distribuição de uma variável aleatória seguindo distribuição
exponencial explicitamente:
x
R x −λ x e−λ x
F(x) = P(X ≤ x) = 0 λ e dx = λ −λ
h −λ x i 0
= λ −eλ − λ1
= 1 − e−λ x ,
para x ≥ 0, e F(x) = 0, se x < 0.
Em particular, obtemos P(X > x) = e−λ x .
Esperança
Temos que Z ∞
E(X) = xλ e−λ x dx.
0
Integrando por partes com dv = λ e−λ x dx
e u = x, temos que v = −e−λ x e du = dx, e portanto,
∞ Z ∞
−λ x
E(X) = −xe − −e−λ x dx
0∞ 0
e−λ x
= 0 + −λ
0
1
= λ.
98 / 140
Variância
Integrando por partes duas vezes, obtemos que
2
E(X 2 ) = .
λ2
Portanto,
2 1 1
Var(X) = E(X 2 ) − (E(X))2 = 2
− 2 = 2.
λ λ λ
Exemplo 7.5 Exemplo de cálculo envolvendo a distribuição exponencial

Suponha que X ∼ Exp(λ ). Vamos encontrar a probabilidade de que X seja maior que seu valor
esperado. De fato, como E(X) = 1/λ , queremos calcular:
P(X > 1/λ ) = 1 − F(1/λ ) = 1 − (1 − e−λ ·1/λ ) = e−1 ≈ 0, 37.
Exercício
O tempo médio de falha das lâmpadas produzidas em uma certa fábrica é de 17500 horas.
Sabendo que o tempo de falha destas lâmpadas segue distribuição exponencial, qual é a proba-
bilidade de uma lâmpada falhar no primeiro ano de uso?
Solução
Primeiro, observe que como o tempo médio de falha é de 17500 horas, o parâmetro da expo-
nencial é dado por
λ 1
.
= 17500
Como um ano tem 365 dias (em geral não considera-se anos bissextos), temos 24 · 365 = 8760
horas em um ano. Assim, queremos calcular
1
P(X ≤ 8760) = 1 − e− 17500 ·8760 ≈ 1 − e−0,5 ≈ 0, 39.
Assim, temos uma probabilidade de aproximadamente 39% de que a lâmpada venha a falhar no
primeiro ano de uso.
7.3.1 Perda de Memória
Assim como a distribuição Geométrica é a única distribuição discreta que possui perda de memória,
a distribuição exponencial é a única distribuição contínua que possui perda de memória.
Mais precisamente, considere o seguinte exemplo:
Exemplo 7.6 Ilustração da perda de memória da distribuição exponencial

Suponha que Pedro é funcionário da fábrica de lâmpadas e sua função é esperar até que uma lâmpada
falhe. Suponha que Pedro já esperou 6 meses e a lâmpada ainda não falhou, isto significa que a
probabilidade da lâmpada falhar nos próximos 30 dias será maior do que a probabilidade de falhar
nos primeiros 30 dias de uso da lâmpada?
A resposta é não. Não importa o quanto tempo Pedro tenha esperado, a probabilidade de falha nos
próximos 30 dias sempre será a mesma. Assim como para a distribuição geométrica, esta propriedade
da distribuição exponencial é chamada de perda de memória.
99 / 140
Mais precisamente, seja X uma variável aleatória seguindo distribuição exponencial com parâmetro
λ . Então, temos que para todo par de números reais positivos, t, s, vale
P(X > t + s|X > t) = P(X > s).
De fato, temos que
P(X > t + s, X > t) P(X > t + s)

P(X > t + s|X > t) = = ,
P(X > t) P(X > t)
no entanto, já vimos que, para todo x > 0, P(X > x) = e−λ x . Daí,
P(X > t + s) e−λ (t+s)

P(X > t + s|X > t) = = −λt = e−λ s = P(X > s).
P(X > t) e
Isto prova a perda de memória. Observe que aqui, assim como na geométrica, na realidade, mostra
mais do que falamos. Não só diz que a próxima probabilidade não muda, mas essencialmente diz
o seguinte: se Pedro já esperou um certo tempo t para a lâmpada falhar, e ela ainda não falhou, as
probabilidades de falhas dali para frente são as mesmas de como se ele tivesse começado a esperar
naquele momento. Ou seja, a distribuiçã exponencial “esquece” todo o passado que já foi esperado.
7.4 A Distribuição Gama
7.4.1 A Função Gama
Definição: Função Gama

A função gama, denotada por Γ(·), é dada por
Z ∞
Γ(p) = x p−1 e−x dx, p > 0.
0
Realizando a integral por partes na função gama, fazendo u = x p−1 e dv = e−x dx, temos que
∞ Z ∞
−x p−1
− e−x (p − 1)x p−2 dx

Γ(p) = −e x −
0Z
∞ 0
−x p−2
= 0 + (p − 1) e x dx
0
= (p − 1)Γ(p − 1).
Se p = n um número natural, então teremos que
Γ(n) = (n − 1)Γ(n − 1) = · · · = (n − 1)(n − 2) · · · 1 · Γ(1).
Porém, temos que Z ∞

Γ(1) = e−x dx = 1.
0
Assim, temos que se n é um número natural, Γ(n) = (n − 1)!, e portanto a função gama generaliza o
fatorial, e pode ser pensada como o fatorial de números reais positivos.
100 / 140
7.4.2 Distribuição Gama
Definição: Variável Aleatória Seguindo Distribuição Gama

Seja X uma variável aleatória contínua tomando valores não-negativos. Dizemos que X segue
distribuição gama com parâmetros r > 0 e α > 0, se sua função de densidade for dada por
α
f (x) = (αx)r−1 e−αx , x ≥ 0.
Γ(r)
Denotamos X ∼ Gama(r, α).
A distribuição gama é mais flexível que a distribuição exponencial, isto é, as densidades podem
assumir as mesmas formas das densidades da distribuição exponencial, mas também podem assumir
formas diferentes. Isso se deve à inclusão do segundo parâmetro.
Na figura abaixo apresentamos gráficos das funções de densidade da distribuição gama para alguns
valores de r e α:
0.0 0.1 0.2 0.3 0.4 0.5
(1;0,5)
f(x)
(2;0,5) (9;2)
(3;0,5)
0 5 10 15 20
x
Figura 7.3: Exemplo de funções de densidade da distribuição gama para valores de r e α descritos no
par ordenado (r, α)
Nota
Observe que se X ∼ Gama(1, α), então na realidade X ∼ Exp(α). Assim, a distribuição
exponencial é caso particular da distribuição gama.
Além disso, por este fato, o parâmetro α da distribuição gama é chamado de taxa, e o
parâmetro r é chamado de parâmetro de forma.
Esperança e Variância
É possível mostrar que se X ∼ Gama(r, α), então
r r
E(X) = e Var(X) = 2 .
α α
101 / 140
Exercício
Suponha que o tempo de vida útil, em anos, de uma máquina de lavar é uma variável aleatória
X com função de densidade dada por
xe−x/2
f (x) = , x ≥ 0.
4
Determine a distribuição de X.
Além disso, se o fabricante fornece seis meses de garantia para o produto, qual a proporção de
aparelhos que devemos esperar que usem essa garantia?
Solução
Olhando a função de densidade, observamos que não se trata de uma distribuição exponencial,
mas que se parece com uma distribuição gama.
Comparando a densidade acima com a densidade geral da distribuição gama, vemos que X
segue distribuição gama com parâmetros r = 2 e α = 1/2.
Como o tempo de vida está sendo dado em anos, queremos calcular a probabilidade
Z 1/2 −x/2 Z 1/2
xe 1
P(X ≤ 1/2) = dx = xe−x/2 dx.
0 4 4 0
Para calcular a probabilidade acima, vamos integrar por partes. Fazendo u = x e dv = e−x/2 dx,
obtemos que du = dx e v = −2e−x/2 . Desta forma,
1/2 R 1/2
P(X ≤ 1/2) = − 12 xe−x/2 − 14 0 (−2e−x/2 )dx

0R
−1/4 1/2 −x/2
= −e 2 + 12 0 e dx
−1/4 1/2
= −e − e−x/2

2 0
e−1/4 −1/4
= − 2 − (e − 1)
≈ 0, 0265.
Desta forma, é esperado que aproximadamente 2,65% das máquinas de lavar utilizarão o serviço
de garantia.
7.5 Atividades
1. Se Y tem distribuição uniforme em (0, 5), qual é a probabilidade de que as raízes da equação
2
4x + 4xY +Y + 2 = 0 sejam ambas reais?
2. Numa população, o nível sérico de colesterol em adultos (medido em mg/dl) é uma variável
aleatória com distribuição normal com parâmetros µ = 225 e σ = 75. Calcule:
a) a proporção de pessoas com nível de colesterol entre 200 e 350.
b) o valor acima do qual se encontra o colesterol da parcela de 10% da população que tem os níveis
mais elevados.
3. Seja X ∼ N(5, 16). Obtenha:
a) P(X ≤ 13);
b) P(X ≥ 1);
102 / 140
c) P(4 ≤ X ≤ 9);
d) o valor de a tal que P(X ≤ a) = 0, 04;
e) o valor de b tal que P(X ≥ b) = 0, 01;
f) o intervalo que contém 95% dos valores centrais (intervalo simétrico em torno de µ) de X.
4. Em uma fábrica de refrigerante, uma máquina é usada para encher garrafas de 600ml. O conteúdo
líquido (em ml) por garrafa varia segundo a distribuição normal com parâmetros µ = 600 e σ = 4.
Calcule:
a) a porcentagem de garrafas produzidas com conteúdo inferior a 592ml ou superior a 612ml;
b) o conteúdo mínimo encontrado em 96% das garrafas fabricadas.
5. O peso em gramas de recém-nascidos em uma maternidade tem distribuição normal com parâmetro
µ = 3000g. Sabe-se que 98% dos bebês nascem com um peso compreendido entre 2,5kg e 3,5kg.
Determine:
a) o parâmetro σ ;
b) o peso abaixo do qual nascem 0,4% dos bebês dessa maternidade.
6. Se 55% da população de uma cidade é a favor de um projeto proposto pelo prefeito, estime
(usando a aproximação da binomial pela normal) de que, em uma amostra aleatória de 176 pessoas,
no máximo 93 sejam favoráveis ao projeto.
7. Seja U uma variável aleatória uniforme no intervalo (a, b). Calcule, para todo n ≥ 1, E(U n ).
8. Seja X uma variável aleatória seguindo distribuição Exponencial com parâmetro λ . Calcule
E(X n ).
9. Obtenha a esperança da área de um triângulo retângulo isósceles cuja hipotenusa tem compri-
mento uniformemente distribuído no intervalo (2, 8).
10. Um computador foi usado para gerar sete números aleatórios independentes uniformemente dis-
tribuídos no intervalo (0, 1). Calcule a probabilidade de que:
a) exatamente de três números estejam entre 1/2 e 1;
b) menos do que três sejam maiores que 3/4.
11. (Distribuição Log-Normal): Seja Y = eX , onde X ∼ N(0, 1). Encontre a densidade de Y .
12. Seja X ∼ N(0, 1). Seja Y = X 2 . Obtenha a densidade
√de Y , mostre que Y segue distribuição
Gama e determine os parâmetros. (Dica: Use que Γ(1/2) = π.)

103 / 140
Capítulo 8
Introdução à Inferência Estatística
• Conhecer os principais tipos de amostragem

• Saber o que são estimadores e a diferença entre estimador e estimativa
• Conhecer a distribuição amostral da média, proporção, diferença de médias e diferença
de proporções
• Saber construir diversos intervalos de confiança
• Saber realizar uma regressão linear de Y em X e calcular seu coeficiente de determina-
ção
8.1 Definições Básicas
Vamos começar relembrando dois conceitos básicos importantes de estatística, a saber, população e
amostra.
De uma maneira mais precisa, temos a seguinte definição:
Definição: População
O conjunto de todos os elementos, ou resultados, sob investigação é chamado de população.
Quando estamos lidando com uma população é interessante observar:
• Características mensuráveis (expressas por variáveis numéricas);
• Características qualitativas (expressas por variáveis nominais ou categóricas).
Definição: Parâmetros Populacionais

Damos o nome de parâmetros da população ou parâmetros populacionais aos valores numéricos
que caracterizam globalmente uma população.
Relacionadas à população temos as seguintes definições:
104 / 140
Definição: Amostra e Tamanho Amostral

Um subconjunto da população é chamado de amostra. Chamamos o número de elementos da
amostra de de tamanho amostral.
Importante
O objetivo da inferência estatística é produzir afirmações sobre dada característica da popu-
lação na qual estamos interessados, a partir de informações colhidas de uma parte dessa
população. Esta característica na população pode ser representada por uma variável aleató-
ria.
A relação entre inferência e amostragem é ilustrada na figura abaixo:
Figura 8.1: Amostragem e Inferência
Nota
• Se tivermos informações completas sobre a distribuição, não haverá necessidade de obter

amostras.
• Podemos supor que as variáveis vêm de uma família de distribuições de probabilidade,

mas não podemos supor qual o valor do parâmetro. Por exemplo, podemos supor que os
dados seguem distribuição normal, mas não podemos informar os valores das médias e
variâncias.
• Existem casos onde a amostragem é necessária. Por exemplo, se quisermos saber o

número de glóbulos brancos.
• É importante que a amostra seja representativa da população, ou seja, que o comporta-

mento da amostra seja próximo do comportamento da população. Para garantir isso, é
preciso saber escolher bem o tamanho amostral, e que a amostra seja obtida aleatoria-
mente.
8.2 Amostragem
8.2.1 Tipos de Amostragem
Temos dois grandes grupos de amostragem:
105 / 140
• Amostragem Probabilística: O mecanismo de escolha dos elementos da amostra é tal que existe
uma probabilidade conhecida de cada elemento da população vir a participar da amostra.
• Amostragem Não-Probabilística: Não existe nenhum mecanismo probabilístico na seleção da

amostra.
Tipos de Amostragem Probabilística
• Amostragem Aleatória Simples (AAS):
a. Supomos que a população é homogênea, ou seja, a característica que estamos procurando

pode aparecer em qualquer elemento da população com a mesma probabilidade;
b. Procedimento: Rotular os elementos da população e sortear os indivíduos que farão parte da
amostra.
• Amostragem Sistemática:
a. Supomos que a população é homogênea;

b. Procedimento: Os elementos da população são ordenados, a retirada do primeiro elemento
é aleatória, e a partir do segundo elemento a retirada é feita periodicamente (com período
determinístico). Por exemplo, o primeiro elemento é retirado aleatoriamente, e em seguida,
retiramos o décimo elemento depois do primeiro retirado, depois o décimo elemento após o
segundo retirado, e assim por diante.
• Amostragem Estratificada:
a. Supomos que a população é heterogênea, ou seja, a característica que estamos procurando

pode variar dependendo de onde os dados são retirados. Entretanto, supomos que podemos
dividir a população em grupos (estratos) homogêneos;
b. Procedimento: A seleção dos elementos de cada estrato é realizada de forma aleatória, ou seja,
realizamos uma amostragem aleatória simples em cada estrato.
• Amostragem por Conglomerado:
a. Supomos que a população pode ser dividida em subgrupos (conglomerados) heterogêneos;

b. Procedimento: A amostragem é realizada sobre os conglomerados, e não mais sobre os indiví-
duos da população, ou seja, realiza-se uma amostragem aleatória simples, onde os elementos
escolhidos são os conglomerados a serem utilizados, ao invés de já se sortear os elementos da
amostra.
106 / 140
8.2.2 Distribuição Amostral
Interesse
Uma medida que descreva certa característica da população. Normalmente temos interesse em
um parâmetro desconhecido da população, seja média, variância, ou outro parâmetro.
Solução
A partir da amostra, podemos construir uma função, utilizando apenas os valores obtidos nesta
amostra, para descrever tal característica. Esta função é chamada de estatística.
Nota
Como os valores da amostra são aleatórios, qualquer quantidade calculada em função dos
elementos da amostra também será uma variável aleatória. Assim, as estatísticas, sendo
variáveis aleatórias, terão alguma distribuição de probabilidade.
Formalização do Problema
Seja X1 , . . . , Xn uma amostra aleatória simples (AAS) de uma população de tamanho n. Para realizar-
mos uma afirmação sobre algum parâmetro θ da população (média, variância, etc.), utilizaremos uma
estatística T que, como sabemos, é uma função da amostra, isto é, T = f (X1 , . . . , Xn ), para alguma
função f .
Nota
Quando conhecemos melhor o comportamento da estatística T , ou seja, se conhecemos
sua distribuição amostral, que nada mais é que a distribuição de probabilidade da variável
aleatória T , poderemos realizar afirmações sobre o parâmetro θ .
A distribuição amostral relata o comportamento da estatística T , caso retirássemos todas as
possíveis amostras de tamanho n.
8.2.2.1 Distribuição Amostral da Média
Consideremos uma população identificada pela variável aleatória X, cujos parâmetros média popula-
cional µ = E(X) e variância populacional σ 2 = Var(X) são supostos conhecidos. Vamos tirar todas
as possíveis amostras de tamanho n dessa população e, para ccada uma, calcular a média amostral X
dada por
1 n
X = ∑ Xi ,
n i=1
e em seguida vamos obter algumas propriedades de X.
Considere a população {1, 3, 5, 7}. Sabemos que a média populacional é µ = 4, 2 e a variância popu-
lacional é σ 2 = 4, 16. Se retiramos uma amostra de tamanho n = 2, segundo amostragem aleatória
simples (então todos os elementos possuem a mesma probabilidade de serem retirados), a distribuição
amostral de
X1 + X2
X=
2
será dada por
107 / 140
x 1 2 3 4 5 6 7 Total
P(X = x) 1/25 2/25 5/25 6/25 6/25 4/25 1/25 1
Assim,
7
E(X) = ∑ xi P(X = xi ) = 4, 2,
i=1
e
Var(X) = 2, 08.
Temos então a seguinte proposição:
Proposição
Seja X uma variável aleatória com média µ e variância σ 2 , e seja (X1 , . . . , Xn ) uma AAS de X.
Então,
σ2
E(X) = µ e Var(X) = .
n
Demonstração
Temos que
1 n
E(X) = E ∑ Xi
n i=1
n
E(Xi )
= ∑ n
i=1
1 n
= ∑µ
n i=1
nµ
=
n
= µ.
e, usando que a variância de soma de variáveis independentes é dada pela soma das variâncias,
e as propriedades da variância, temos:
1 n
Var(X) = Var ∑ Xi
n i=1
n X
i
= ∑ Var
i=1 n
1 n 2
= ∑σ
n2 i=1
nσ 2
=
n2
σ2
= .
n
8.2.2.2 Teorema Central do Limite
Vamos agora enunciar um dos principais resultados da probabilidade moderna: o teorema central do
limite. A demonstração deste teorema pode ser encontrada em livros mais avançados de probabili-
dade.
108 / 140
Teorema Central do Limite

Sejam X1 , . . . , Xn uma AAS da variável aleatória X, com distribuição comum satisfazendo
E(Xi ) = µ e Var(Xi ) = σ 2 . Como a amostragem foi AAS, temos que as variáveis são inde-
pendentes. Assim, se n é grande, temos que,
P(X ≤ x) ≈ Φµ,σ 2 /n (x),
onde Φµ,σ 2 é a função de distribuição de uma variável aleatória N ∼ N(µ, σ 2 /n).
Assim, dizemos que X segue aproximadamente distribuição normal com média µ e variância
σ 2 /n.
Podemos fazer a mudança de variáveis:
X −µ
Z= √ .
σ/ n
Desta forma, o teorema central do limite nos diz que se n é suficientemente grande, temos que Z segue
aproximadamente distribuição normal com média 0 e variância 1.
Nota
No caso em que a distribuição de X é normal, a distribuição de X será normal, mesmo para
valores pequenos de n.
8.2.2.3 Distribuição Amostral da Proporção
Seja X uma variável aleatória com distribuição Bernoulli com parâmetro p, isto é, P(X = 1) = p e
P(X = 0) = 1 − p. Temos que E(X) = p e Var(X) = p(1 − p). Considere uma AAS de tamanho n
dessa população. Seja
n
Sn = ∑ Xi ,
i=1
o número de indivíduos com a característica de interesse da amostra. Sabemos que Sn ∼ Bin(n, p).
Pelo teorema central do limite temos que X tem distribuição aproximadamente normal, para n sufici-
entemente grande. Seja pb = X, a proporção amostral. Então, temos que
aprox.
p(1 − p)
pb ∼ N p, ,
n
ou equivalentemente,
pb − p aprox.
Z=p ∼ N(0, 1),
p(1 − p)/n
pois, temos que
S 1 p
n
E( pb) = E = E(Sn ) = n = p,
n n n
e S
n 1 np(1 − p) p(1 − p)
Var( pb) = Var = 2 Var(Sn ) = = .
n n n2 n
É possível mostrar, na realidade, que vale o seguinte resultado:
pb − p aprox.
p ∼ N(0, 1),
pb(1 − pb)/n
ou seja, se trocarmos p(1 − p)/n por pb(1 − pb)/n, o resultado ainda vale. Este resultado será útil na
construção de intervalos de confiança.
109 / 140
8.2.2.4 Distribuição Amostral da Diferença entre Médias
Em vários problemas práticos, deseja-se comparar duas populações de interesse. Por exemplo, pode-
mos estar interessados em avaliar a diferença de desempenho entre duas linhas de produção.
Suponha que duas populações de interesse, X1 e X2 , com médias µ1 e µ2 , e variâncias σ12 e σ22 ,
respectivamente.
Considere duas AAS independentes de tamanhos n1 e n2 das duas populações. Pelo teorema central
do limite, a distribuição amostral da diferença (X 1 − X 2 ), para n1 e n2 suficientemente grandes, será
dada por
aprox.
σ2 σ2
(X 1 − X 2 ) ∼ N µ1 − µ2 , 1 + 2 ,
n1 n2
(X 1 − X 2 ) − (µ1 − µ2 ) aprox.
Z= q ∼ N(0, 1),
2 2
σ1 /n1 + σ2 /n2
pois,
E(X 1 − X 2 ) = E(X 1 ) − E(X 2 ) = µ1 − µ2 ,
e
σ12 σ22
Var(X 1 − X 2 ) = Var(X 1 ) +Var(X 2 ) = + .
n1 n2
8.2.2.5 Distribuição Amostral da Diferença entre Proporções
Neste caso, supomos que as duas populações de interesse apresentam distribuição binomial com pro-
porções p1 e p2 . Considere que são feitas duas AAS independentes de tamanhos n1 e n2 . A distri-
buição amostral da diferença entre proporções ( pb1 − pb2 ), para n1 e n2 suficientemente grandes, pelo
teorema central do limite temos
aprox.
p1 (1 − p1 ) p2 (1 − p2 )
( pb1 − pb2 ) ∼ N p1 − p2 , + ,
n1 n2
( pb1 − pb2 ) − (p1 − p2 ) aprox.
Z=p ∼ N(0, 1).
p1 (1 − p1 )/n1 + p2 (1 − p2 )/n2
8.3 Inferência Estatística
Suponha que alguma característica da população possa ser representada por uma variável aleatória
X, com função de distribuição FX (x; θ ). Suponha que os valores x1 , . . . , xn de uma AAS X1 , . . . , Xn
de FX (x; θ ) possam ser observados. Com base nos valores amostrais, desejamos estimar o parâmetro
desconhecido θ , ou alguma função deste parâmetro. Neste caso, a estimação poderá ser feita de duas
maneiras:
• Estimação Pontual: Estimamos o parâmetro θ por meio de uma estatística T = t(X1 , . . . , Xn ),

chamada de estimador.
• Estimação Intervalar: É definida por duas estatísticas T1 = t1 (X1 , . . . , Xn ) e T2 = t2 (X1 , . . . , Xn ),
tais que T1 < T2 , onde o intervalo [T1 , T2 ] terá uma probabilidade conhecida de conter o parâmetro
desconhecido θ .
110 / 140
8.3.1 Estimação Pontual
Vamos começar entendendo a diferença entre estimador e estimativa.
Definição: Estimador
Um estimador é uma estatística, isto é, é uma função da amostra, que é usada para representar
um valor plausível para o parâmetro desconhecido de interesse.
Definição: Estimativa
É valor numérico particular assumido por um estimador. Ou seja, é o valor do estimador apli-
cado em uma realização da amostra.
8.3.2 Propriedades dos Estimadores
Importante
É importante frisar que podem existir vários estimadores para um mesmo parâmetro popula-
cional. Logo, a escolha do melhor estimador será feita com base em alguns critérios.
• Não-Tendencioso (Também chamados de não-viesados ou não-viciados): Dizemos que um estima-

dor T é não-viesado para o parâmetro θ se o seu valor esperado for igual ao próprio parâmetro, isto
é, se
E(T ) = θ .
• Consistência: Dizemos que um estimador T para o parâmetro θ é consistente se, além de ser
não-viesado, sua variância tende a zero quando o tamanho amostral tende a infinito:
lim Var(T ) = 0.
n→∞
• Eficiência: Sejam T1 e T2 dois estimadores não-viesados para o parâmetro θ , com
Var(T1 ) < Var(T2 ),

então, dizemos que T1 é mais eficiente que T2 .
111 / 140
Exemplo 8.1 Exemplo de estimador viesado

Seja X1 , . . . , Xn uma AAS da seguindo distribuição uniforme no intervalo [0, θ ]. Um estimador natural
para θ é dado pelo maior valor encontrado na amostra, já que sabemos que a distribuição uniforme
não fornece valores maiores do que θ .
Assim, seja M = max(X1 , . . . , Xn ), ou seja, o maior valor da amostra. Vamos mostrar que M é um
estimador viesado para θ .
Seja X ∼ U(0, θ ), então a função de densidade de X é dada por
1
fX (x) = , 0 < x < θ,
θ
e fX (x) = 0 caso contrário. Assim, se FM é a função de distribuição de M, então, como as variáveis
X1 , . . . , Xn são independentes, temos que
FM (m) = P(M ≤ m) = P(max(X1 , . . . , Xn ) ≤ m)

= P(X1 ≤ m, . . . , Xn ≤ m) = P(X1 ≤ m) · · · P(Xn ≤ m)
= [P(X ≤ m)]n = [FX (m)]n ,
e portanto,
fM (m) = FM0 (m) = n[FX (m)]n−1 fX (m).
Além disso, temos que Z x
1 x
FX (x) = dt = , 0 < x < θ.
0 θ θ
Logo, temos que
h m in−1 1 nmn−1
fM (m) = n = , 0 < m < θ.
θ θ θn
nmn−1 n θ n
Z θ Z
E(M) = m dm = m dm
0 θn θn 0
n mn+1 θ
=
θn n+1 0

n θ n+1
=
θn n+1
n
= θ.
n+1
Assim, temos que M é um estimador viesado. Podemos obter um outro estimador, a partir de M, que
seja não-viesado, dado por
Me = n + 1 M.
n
8.3.3 Alguns Estimadores Pontuais Importantes
8.3.3.1 Estimador para a Média
O estimador mais utilizado para a média populacional µ é a média amostral:
1 n
b=X =
µ ∑ Xi.
n i=1
112 / 140
8.3.3.2 Estimador para a Variância
Quando a média populacional µ é conhecida, um estimador para a variância populacional é dado por
1 n
b2 =
σ ∑ (Xi − µ)2.
n i=1
Caso a média populacional µ seja desconhecida, que é a situação mais comum na prática, a variância
populacional pode ser estimada por
1 n
S2 = ∑ (Xi − X)2.
n − 1 i=1
8.3.3.3 Estimador para a Proporção
Um estimador para a proporção populacional é dado pela proporção amostral:

Sn
,pb =
n
onde Sn é o número de elementos que apresentam uma determinada característica de interesse entre
os n elementos da amostra.
8.3.4 Estimação Intervalar
Suponha que temos um estimador para um certo parâmetro θ dado por θb. Além disso, suponha que
temos a seguinte aproximação:
θb − θ aprox.
∼ N(0, 1).
σ
Queremos então utilizar θb e a aproximação acima para construir um intervalo de confiança para θ , ou
seja, queremos utilizar θb para construir um intervalo aleatório, do tipo [T1 , T2 ], onde T1 e T2 dependem
de θb tal que
P(T1 < θ ≤ T2 )) ≈ 1 − α,
onde α é um nível de significância determinado previamente. Normalmente costuma-se escolher
α = 0, 01, α = 0, 05 ou α = 0, 10, isto é, estamos afirmando que em apenas em 1%, ou 5%, ou 10%,
das amostras possíveis (de mesmo tamanho) da população, o intervalo de confiança não contém o
parâmetro θ . Nestes casos, dizemos que estamos construindo intervalos de confiança de níveis de
confiança de 99%, 95% ou 90%, respectivamente.
Observe que a aproximação acima obtida para θb nos fornece:

P −C < θ −θ ≤ C = P θb−θ
≤ C − P θb−θ
≤ −C
b
σ σ σ
≈ Φ(C) − Φ(−C)
= Φ(C) − 1 + Φ(C)
= 2Φ(C) − 1.
Por outro lado,

θb−θ
P −C < σ ≤C = P −Cσ < θb − θ ≤ Cσ

= P −Cσ − θ < −θ ≤ Cσ − θ
b b

= P −Cσ + θb ≤ θ < Cσ + θb .
113 / 140
Juntando as duas equações, obtemos que:

P −Cσ + θ ≤ θ < Cσ + θ ≈ 2Φ(C) − 1.
b b
Se quisermos um nível 1 − α, temos que resolver 2Φ(C) − 1 = 1 − α o que fornece

−1
α
C=Φ 1− ,
2
onde Φ−1 (1 − α/2) é o valor encontrado na tabela da normal, tal que a probabilidade de ser menor
ou igual a este valor é de 1 − α/2.
Finalmente, obtemos que um intervalo de confiança de nível α para θ é dado por

−Cσ + θb;Cσ + θb ,

onde C é dado por C = Φ−1 1 − α2 .
8.3.5 Intervalo de Confiança para a Média
Seja X1 , . . . , Xn uma AAS de uma variável aleatória comum X satisfazendo E(Xi ) = µ e Var(Xi ) = σ 2 .
Então, seja X a média dessa AAS:
1 n
X = ∑ Xi .
n i=1
Vimos que a distribuição amostral da média é, pelo Teorema Central do Limite, aproximadamente:
X −µ
√ ≈ N(0, 1).
σ/ n
Pelo que vimos na subseção anterior, isto nos diz que um intervalo de confiança de nível 1 − α para a
média é dado por h σ σ i
−C √ + X;C √ + X ,
n n

Exemplo 8.2 Exemplo de cálculo de intervalo de confiança para a média

Suponha que as alturas dos alunos da UFPB tenham distribuição normal com σ = 15cm. Foi retirada
uma amostra aleatória de 100 alunos obtendo-se X = 175cm. Vamos construir um intervalo de 95\%
de confiança para a verdadeira altura média dos alunos.
Primeiramente, note que estamos querendo 1 − α = 0, 95, o que nos fornece α = 0, 05 e desta forma,
1 − α/2 = 0, 975.
Olhando para a tabela da normal, vemos que C = Φ−1 (1 − α/2) é dado por 1,96.
Desta forma, o intervalo de confiança é dado por
h 15 15 i
− 1, 96 · √ + 175; 1, 96 · √ + 175 .
100 100
Realizando a conta, obtemos que o intervalo, ao nível de 95% de confiança para o verdadeiro valor da
altura média dos alunos da UFPB é h i
− 1, 72; 1, 78 .
114 / 140
8.3.6 Intervalo de Confiança para a Proporção
Seja X1 , . . . , Xn uma AAS de uma variável aleatória Bernoulli X com parâmetro p, isto é, as variáveis
Xi assumem o valor 1 com probabilidade p, e 0 com probabilidade 1 − p. Seja pb a proporção da
amostra que assume valor 1 (ou em exemplos práticos a proporção da amostra que satisfaz uma
determinada condição), então, temos que pb é dado por
1 n
pb = X = ∑ Xi.
n i=1
Vimos que a distribuição amostral da proporção satisfaz

pb − p aprox.
p ∼ N(0, 1).
pb(1 − pb)/n
Desta forma, utilizando o que vimos na construção de intervalos de confiança, um intervalo de confi-
ança de nível 1 − α para a proporção é dado por
p p
h pb(1 − pb) pb(1 − pb) i
−C √ + pb;C √ + pb ,
n n

Exemplo 8.3 Exemplo de cálculo de intervalo de confiança para a proporção

Uma amostra de 300 habitantes de uma cidade mostrou que 180 desejavam a água fluorada. Vamos
encontrar o intervalo de confiança de 95% para a população favorável a fluoração.
1 − α/2 = 0, 975.
Por outro lado, como a proporção estimada dos habitantes favoráveis a fluoração é
180
pb = = 0, 6.
300
Desta forma, o intervalo de confiança é dado por
√ √
h 0, 6 · 0, 4 0, 6 · 0, 4 i
− 1, 96 · √ + 0, 6; 1, 96 · √ + 0, 6 .
300 300
proporção da população favorável a fluoração é
h i
0, 54; 0, 65 .
8.3.7 Intervalo de Confiança para a Diferença de Médias
Considere duas AAS independentes de tamanhos n1 e n2 das duas populações. Vimos que a distribui-
ção amostral da diferença (X 1 − X 2 ), para n1 e n2 suficientemente grandes, satisfaz
(X 1 − X 2 ) − (µ1 − µ2 ) aprox.
q ∼ N(0, 1).
σ12 /n1 + σ22 /n2
115 / 140
Desta forma, utilizando o que vimos na construção de intervalos de confiança, um intervalo de confi-
ança de nível 1 − α para a diferença de médias é dado por
h q q i
−C σ1 /n1 + σ2 /n2 + X 1 − X 2 ;C σ12 /n1 + σ22 /n2 + X 1 − X 2 ,
2 2

onde C é dado por C = Φ −1 α
1− 2 .
Exemplo 8.4 Exemplo de cálculo de intervalo de confiança para a diferença de médias

Um teste psicológico destinado a medir a precisão com que uma pessoa julga outras pessoas, foi
realizado. As notas possíveis do teste variam de 0 a 41. Durante sua elaboração o teste foi aplicado a
vários grupos com diferentes de pessoas. De acordo com os resultados observados, vamos construir
um intervalo de confiança para a diferença entre as médias dos grupos de homens e de mulheres, com
$95\%$ de confiança.
Homens: n = 133, X = 25, 34 e σ = 5, 05.
Mulheres: n = 162, X = 24, 94 e σ = 5, 44.
1 − α/2 = 0, 975.
Pelos dados do problema, temos que o intervalo de confiança é dado por
r r
h (5, 05)2 (5, 44)2 (5, 05)2 (5, 44)2 i
− 1, 96 · + + 25, 34 − 24, 94; 1, 96 · + + 25, 34 − 24, 94 .
133 162 133 162
diferença entre as médias dos grupos de homens e de mulheres é
h i
− 0, 80; 1, 60 .
8.4 Regressão e Correlação
8.4.1 Correlação
Relação Funcional e Relação Estatística Como sabemos, o perímetro e o lado de um quadrado estão
relacionados. A relação que os liga é perfeitamente definida e pode ser expressa matematicamente
por
perímetro = 4l,
onde l é o lado do quadrado. Atribuindo-se, então, um valor qualquer a l, é possível determinar
exatamente o valor do perímetro.
Consideremos agora a relação entre o peso e a altura de um grupo de pessoas. É evidente que esta
relação não é do mesmo tipo da anterior. Assim, podemos ter duas pessoas com a mesma altura
e pesos diferentes, assim como pessoas com mesmo peso e alturas diferentes. Porém, existe uma
tendência clara de que, quanto maior a altura, maior o peso.
As relações do tipo perímetro-lado são chamadas de relações funcionais e as relações do tipo peso-
altura são chamadas de relações estatística.
Quando duas variáveis estão ligadas por uma relação estatística, dizemos que existe correlação entre
elas.
116 / 140
8.4.1.1 Diagrama de Dispersão
O diagrama de dispersão apresenta os pares ordenados (xi , yi ) de uma amostra aleatória bidimensional
em um plano cartesiano. Esse diagrama nos fornece uma ideia grosseira, porém útil, da correlação
existente.
2
1
0
y
−1
−2
−2 −1 0 1 2
x
Figura 8.2: Exemplo de diagrama de dispersão
Correlação Linear
• Se os pontos do diagrama apresentam uma tendência linear ascendente, temos correlação linear
positiva:
30
20
y
10
5
0
0 5 10 15 20 25 30
x
Figura 8.3: Exemplo de diagrama de dispersão com correlação linear positiva
117 / 140
• Se os pontos apresentam uma tendência linear descendente, temos correlação linear negativa
0
−10
y
−20
−30
0 5 10 15 20 25 30
x
Figura 8.4: Exemplo de diagrama de dispersão com correlação linear negativa
• Se os pontos apresentam uma tendência curvilínea, temos correlação não-linear

1.2
0.8
y
0.4
0.0
0 5 10 15 20 25 30
x
Figura 8.5: Exemplo de diagrama de dispersão com correlação não-linear
• Se os pontos apresentam-se dispersos, não oferecendo uma tendência definida, concluímos que não
há correlação entre as variáveis em estudo
118 / 140
1
0
y
−1
−2
−2 −1 0 1 2
x
Figura 8.6: Exemplo de diagrama de dispersão sem correlação
8.4.1.2 Coeficiente de Correlação de Pearson
É usado para indicar o grau de intensidade da correlação linear entre duas variáveis e, ainda, o sentido
dessa correlação: se positivo ou negativo. O coeficiente de correlação de Pearson entre duas amostras
(x1 , . . . , xn ) e (y1 , . . . , yn ) é dado por
n ∑ni=1 xi yi − ∑ni=1 xi ∑ni=1 yi

r = rh ,
n 2 n
2 ih n 2 n
2 i
n ∑i=1 xi − ∑i=1 xi n ∑i=1 yi − ∑i=1 yi
onde n é o número de observações. Observe que r ∈ [−1, 1].

Temos que
• Se r = 1, há uma correlação perfeita e positiva entre as variáveis.
• Se r = −1 há uma correlação perfeita e negativa entre as variáveis.
• Se r = 0 não há correlação entre as variáveis.
Exemplo 8.5 Exemplo de cálculo do coeficiente de correlação de Pearson

Considere uma amostra aleatória das variáveis (X,Y ), dada por (xi , yi ) na tabela abaixo:
xi yi xi yi xi2 y2i
4 12 48 16 144
6 10 60 36 100
8 8 64 64 64
10 12 120 100 144
12 14 168 144 196
119 / 140
∑ xi ∑ yi ∑ xi yi ∑ xi2 ∑ y2i
40 56 460 360 648
Assim, temos n = 5, e portanto

5 × 460 − 40 × 56
r= p = 0, 4160.
(5 × 360 − (40)2 )(5 × 648 − (56)2 )
Logo, a correlação linear entre as variáveis X e Y é positiva, porém fraca.
8.4.2 Regressão
Podemos dizer que a análise de regressão tem como objetivo descrever, através de um modelo mate-
mático, a relação entre duas variáveis.
A variável sobre a qual desejamos fazer uma estimativa recebe o nome de variável dependente e a
outra variável recebe o nome de variável independente.
Assim, supondo que X é a variável independente e Y é a variável dependente, procuramos determinar
através de ajuste de uma reta a relação entre essas variáveis, ou seja, vamos obter a função definida
por
Y = a + bX,
onde a e b são os parâmetros da regressão. Entretanto, sabemos que essa fórmula não é exata, assim,
existe a presença de um erro aleatório:
Yi = a + bXi + ei , i = 1, . . . , n,
onde ei é um erro aleatório que possui valor esperado igual a zero.

A maneira que vamos utilizar para determinar valores adequados para a e b é a de minimizar a soma
de quadrado dos erros. Ou seja, queremos escolher os valores a e b de tal forma que o nosso modelo
“erre” pouco.
Este método é chamado de método de mínimos quadrados. Assim, dadas as observações (Xi ,Yi ), i =
1, . . . , n, desejamos minimizar
n n
∑ e2i = ∑ (Yi − a − bXi)2.
i=1 i=1
Desta forma, para encontrarmos o ponto de mínimo, precisamos calcular as derivadas parciais:
∂ ∑ni=1 e2i n
= −2 ∑ (Yi − a − bXi ),
∂a i=1
e
∂ ∑ni=1 e2i n
= −2 ∑ (Yi − a − bXi )Xi .
∂b i=1
Assim, como os nossos estimadores ab e b b são os valores que minimizam a soma de quadrados dos
erros, temos que ab e b são tais que as derivadas parciais calculadas acima se anulam.
b
Logo, temos que:
n n n
1 n 1 n
−2 ∑ (Yi − ab − b
bXi ) = 0 ⇒ ∑ Yi − nb
a−b
b ∑ Xi = 0 ⇒ ∑ i Y = a
b + b
b ∑ Xi,
i=1 i=1 i=1 n i=1 n i=1
120 / 140
e portanto
ab = Y − b
bX.
Por outro lado, temos também que
n n n n
−2 ∑ (Yi − ab − b b ∑ Xi2 = 0,
bXi )Xi = 0 ⇒ ∑ Yi Xi − ab ∑ Xi − b
i=1 i=1 i=1 i=1
daí,
n n n
∑ YiXi = ab ∑ Xi + bb ∑ Xi2.
i=1 i=1 i=1
Substituindo o valor de ab na equação acima, obtemos
n n n
∑ YiXi = (Y − bbX) ∑ Xi + bb ∑ Xi2.
i=1 i=1 i=1
Isolando b
b, obtemos
n n
2 n n
n
2 ∑i=1 Xi ∑i=1 Yi ∑i=1 Xi
b ∑ Xi −
b = ∑ Yi Xi − .
i=1 n i=1 n
Isto nos fornece

∑ni=1 Yi Xi − ∑ni=1 Yi ∑ni=1 Xi /n

b=
b 2
∑ni=1 Xi2 − ∑ni=1 Xi /n
Costuma-se usar as seguintes notações para o numerador e denominador da expressão que define b
b:
∑ni=1 Yi ∑ni=1 Xi
n

SY X = ∑ Yi Xi − ,
i=1 n
e 2
n
∑ni=1 Xi
SXX = ∑ Xi2 − .
i=1 n
Assim, temos as fórmulas para b

b e ab em notação simplificada:
SY X
b=
b e ab = Y − b
bX.
SXX
Importante
Como estamos fazendo uso de uma amostra para obtermos os valores dos parâmetros, o
resultado, na realidade, é um estimador para a verdadeira equação de regressão, e portanto,
temos
Ybi = ab + b
bXi ,
onde Y
bi é um estimador para Yi .
Exemplo 8.6 Exemplo de cálculo das estimativas dos parâmetros em um modelo de regressão
Abaixo apresentamos os valores de uma amostra de 10 observações de duas variáveis aleatórias X e
Y:
121 / 140
yi xi yi xi xi2
6 5 30 25
9 8 72 64
8 7 56 49
10 10 100 100
5 6 30 36
7 7 49 49
8 9 72 81
4 3 12 9
6 8 48 64
2 2 4 4
∑ xi ∑ yi ∑ xi yi ∑ xi2
65 65 473 481
Daí,
652
SY X = 473 − = 473 − 422, 5 = 50, 5,
10
e
652
SXX = 481 − = 481 − 422, 5 = 58, 5,
10
assim
50, 5 65 65
b=
b = 0, 86 e ab = − 0, 86 · = 0, 91.
58, 5 10 10
Logo, temos a equação
Ybi = 0, 91 + 0, 86Xi .
Na figura abaixo apresentamos o diagrama de dispersão juntamente com a reta de regressão estimada
no exemplo anterior:
10
8
6
y
4
2
2 4 6 8 10
x
Figura 8.7: Exemplo de ajuste de regressão
122 / 140
8.4.2.1 O Poder Explicativo do Modelo
Existe uma medida utilizada para avaliar a “qualidade” do ajuste. Esta medida é conhecida como
coeficiente de determinação ou poder explicativo da regressão. Seu valor fornece a proporção da
variação total da variável Y explicada pela variável X através da função ajustada.
O coeficiente de determinação é denotado por R2 e pode ser expresso por
b2 SXX
b bSY X
b
R2 = ou R2 = ,
SYY SYY
onde 2
n
∑ni=1 Xi
SXX =∑ Xi2 − ,
i=1 n
n n
2
∑i=1 Yi
SYY = ∑ Yi2 − ,
i=1 n
e
∑ni=1 Yi ∑ni=1 Xi
n

SY X = ∑ Yi Xi − .
i=1 n
O coeficiente de determinação pode assumir valores no intervalo [0, 1], isto é, 0 ≤ R2 ≤ 1.
Quando R2 = 0, a variação explicada de Y é zero, ou seja, a reta ajustada é paralela ao eixo da variável
X. Se R2 = 1, a reta ajustada explicará toda a variação de Y . Assim, quanto mais próximo de 1 estiver
o valor de R2 , melhor será a “qualidade” do ajuste da regressão aos pontos do diagrama de dispersão
e quanto mais próximo de zero, pior será a “qualidade” do ajuste.
Se o poder explicativo for, por exemplo, 98%, isto significa que 98% das variações de Y são explicadas
por X através da função escolhida para relacionar as duas variáveis e 2% são atribuídas a causas
aleatórias.
Na figura abaixo vemos um exemplo no qual R2 = 1:
2
1
y
0
−1
−1 0 1 2
x
Figura 8.8: Exemplo contendo diagrama de dispersão e reta de regressão ajustada para R2 = 1
123 / 140
Nesta figura vemos um exemplo no qual R2 < 1, mas é próximo de 1, R2 = 0, 93:
2
1
y
0
−1
−1 0 1 2
x
Figura 8.9: Exemplo contendo diagrama de dispersão e reta de regressão ajustada para R2 = 0, 93
Nesta figura vemos um exemplo no qual 0 < R2 , mas é próximo de 0, R2 = 0, 32:

2
1
y
0
−1
−2 −1 0 1 2
x
Figura 8.10: Exemplo contendo diagrama de dispersão e reta de regressão ajustada para R2 = 0, 32
Na figura abaixo vemos um exemplo com R2 = 0:
124 / 140
2
1
y
0
−1
−2 −1 0 1 2
x
Figura 8.11: Exemplo contendo diagrama de dispersão e reta de regressão ajustada para R2 = 0
Exemplo 8.7 Exemplo de cálculo do R2

Vamos calcular o coeficiente de determinação, R2 , para o exemplo considerado na última seção. A
saber, temos os valores de uma amostra de 10 observações de duas variáveis aleatórias X e Y :
yi xi yi xi xi2 y2i
6 5 30 25 36
9 8 72 64 81
8 7 56 49 64
10 10 100 100 100
5 6 30 36 25
7 7 49 49 49
8 9 72 81 64
4 3 12 9 16
6 8 48 64 36
2 2 4 4 4
∑ xi ∑ yi ∑ xi yi ∑ xi2 ∑ y2i
65 65 473 481 475
Daí,
652
SYY = 475 − = 475 − 422, 5 = 52, 5,
10
e
652
SXX = 481 − = 481 − 422, 5 = 58, 5.
10
b = 0, 86 e, portanto,
Como calculado anteriormente, temos que b
58, 5
R2 = (0, 86)2 ≈ 0, 83.
52, 5
125 / 140
Logo, 83% da variação total está sendo explicada pela regressão.
8.5 Atividades
1. Suponha que as alturas dos alunos da UFPB tenham distribuição normal com σ = 15cm. Foi
retirada uma amostra aleatória de 100 alunos obtendo-se X = 175cm. Construa um intervalo de 90%
de confiança para a verdadeira altura média dos alunos, e outro de nível 99%.
2. Foram retiradas 25 peças da produção diária de uma máquina, encontrando-se para uma me-
dida uma média de 5,2mm. Sabendo-se que as medidas têm distribuição normal com desvio-padrão
populacional de 1,2mm, construa intervalos de confiança para a média com confianças de 90%, 95%
e 99%.
3. Suponha uma população com σ 2 = 9 e considere uma amostra aleatória de tamanho n = 36
dessa população, com X = 110. Determine os intervalos de confiança para µ, com confiança de 90%
e 95%.
4. Uma amostra de 300 habitantes de uma cidade mostrou que 180 desejavam a água fluorada.
Encontre os intervalos de confiança de 90% e 99% para a população favorável a fluoração.
5. Em 50 lances de uma moeda foram obtidas 30 caras. A partir de um intervalo de confiança de
96%, pode-se dizer que a moeda é honesta?
6. Numa amostra de 400 casas, 100 dessas casas são alugadas. Construa um intervalo de confiança
para a proporção de casas alugadas, com uma confiança de 96% e, supondo a mesma confiança,
construa também um intervalo de confiança para o número de casas alugadas na cidade, uma vez que
a cidade possui 20.000 casas.
7. Um teste psicológico destinado a medir a precisão com que uma pessoa julga outras pessoas, foi
realizado. As notas possíveis do teste variam de 0 a 41. Durante sua elaboração o teste foi aplicado
a vários grupos com diferentes de pessoas. De acordo com os resultados observados, construa um
intervalo de confiança para a diferença entre as médias dos grupos de homens e de mulheres, com
90% de confiança.
Homens: n = 133, X = 25, 34 e σ = 5, 05.
Mulheres: n = 162, X = 24, 94 e σ = 5, 44.
8. Suponha duas populações normalmente distribuídas de forma que a população I corresponde
a variável aleatória X ∼ N(µ1 , 25) e a população II corresponde a variável aleatória Y ∼ N(µ2 , 40).
Com base nas amostras obtidas abaixo construa um intervalo de confiança para µ1 − µ2 com 95% de
confiança.
Amostra da População I - 12, 14, 15, 14, 13, 17, 14, 13.
Amostra da População II - 13, 17, 14, 13, 16, 17, 18, 16.
9. Uma pesquisa revelou que das 500 donas de casa consultadas, 300 preferiram o detergente
A. Um funcionário da companhia afirmou que 50% das donas de casa preferem o detergente A. A
companhia, tem evidência, ao nível de 95% para confiar no funcionário?
10. Sabe-se por experiência que 5% da produção de um determinado artigo é defeituosa. Um novo
empregado é contratado. Ele produz 600 peças do artigo com 82 defeituosas. Podemos afirmar, ao
nível de 90% de confiança, que o novo empregado produz peças com maior índice de defeitos que o
existente?
126 / 140
11. A partir da tabela:

Xi 2 4 6 8 10 12 14
Yi 30 25 22 18 15 11 10
a) Calcule o coeficiente de correlação;
b) Determine a reta ajustada;
c) Estime o valor de Y para X = 0.
12. Certa empresa, estudando a variação da demanda de seu produto em relação à variação de preço
de venda, obteve a tabela:
Preço (Xi ) 38 42 50 56 59 63 70 80 95 110

Demanda (Yi ) 350 325 297 270 256 246 238 223 215 208
a) Estabeleça a equação da reta ajustada;

b) Estime o valor de Y para X = 60 e X = 120.
c) Calcule o coeficiente de determinação da regressão.
13. Pretendendo-se estudar a relação entre as variáveis consumo de energia elétrica (Xi ) e vo-
lume de produção nas empresas industriais (Yi ), fez-se uma amostragem que inclui vinte empresas,
computando-se os seguintes valores:
∑ Xi = 11.34, ∑ Yi = 20.72, ∑ Xi2 = 12.16, ∑ Yi2 = 84.96, e ∑ XiYi = 22.13

Determine:
a) A equação de regressão de Y para X;
b) O coeficiente de determinação da regressão acima;
c) A equação de regressão de X para Y ;
d) O coeficiente de determinação da regressão acima.

127 / 140
Capítulo 9
Respostas das Atividades
9.1 Capítulo 1
3. 41,8
4. 13,8
5. 41
6. 9
7. 41
8. 14
9. 6,33
10. 5,52
11. Variância amostral = 67,75. Variância populacional = 65,81.
12. Variância amostral = 76,83. Variância populacional = 73,76.
13. 19,69%.
14. 63,52%.
9.2 Capítulo 2
1. Respostas:
a. V;
b. F;
c. V;
d. V;
e. V;
f. F;
128 / 140
g. V;
h. F;
i. V;
j. F;
k. V;
l. F;
m. V;
n. F.
2. Respostas:
a. {1, 2, 3, 4, {5}, {6, 7}};
b. 0;
/
c. {1, 2, 3, 4, {5}, {6, 7}};
d. {5, 6, 7};
e. {1, 2, 3, {6, 7}};
f. {6, 7};
g. {{5}}.
3. Seja M = {1, 2, 3, 4, {1}, {2}, {3}, {4}}. Sejam A = {1, {2}, 3, {4}} e B = {{1}, 2, {3}, 4}.
a. Justifique!;
b. Ac = B, Bc = A, A ∪ Bc = A, Ac ∪ B = B, Ac ∪ Bc = M, A ∪ B = M, A ∪ Ac = M, B ∪ Bc = M.
/ Ac ∩ Bc = 0,
c. A ∩ B = 0, / A ∩ Ac = 0/ e B ∩ Bc = 0.
/
4. 26 · 25 · 24 = 15600.
5. 6.
6. 51 0 = 9765625.
7. 60.
8. 6840.
9. 8! = 40320.
10. 5! = 120.
11. 210.
12. 120.
13. 371.
129 / 140
9.3 Capítulo 3
1. Respostas:
a) A ∩ Bc ∩Cc
b) A ∩ B ∩Cc
c) A ∩ B ∩C
d) A ∪ B ∪C
e) (A ∪ B ∪C)c
f) (A ∩ Bc ∩Cc ) ∪ (Ac ∩ B ∩Cc ) ∪ (Ac ∩ Bc ∩C)
(26)(26)
2. 2 52 2 .
(4)
12!
3. 1212
.
4. Respostas:
7
a)
(104)
b) 1/210
c) 2/5
d) 2/3
e) 1/42
5. Respostas:
a) 1/2
b) 3/4
c) 11/20
d) 1/20
e) 3/10
f) 7/20
g) 9/20
h) 4/5
6. 14/15
7. Respostas:
a) 319/324
b) 203/23328
c) 7/792
8. Respostas:
a) 2/15
b) 1/2
9. Sim
10. Respostas:
a) 0,92
b) 0,44
130 / 140
9.4 Capítulo 4
1. Respostas:
a) 1/21
b) 3/7
2. Respostas:
a) 3/4
b) 4/5
3. Respostas:
a) P(X = 0) = 1/2, P(X = 1) = P(X = 3) = P(X = 4) = 1/10, P(X = 2) = 1/5.
b) 5/8
4. Respostas:
a) p(2) = 1/10, p(3) = 1/5, p(4) = 3/10, p(5) = 2/5.
b) p(x) = 1/10 se x ∈ {3, 4, 8, 9} e p(x) = 1/5 se x ∈ {5, 6, 7}.
6. Respostas:
a) 2
b) 1/4
(
1 − x2 , se x ≥ 1,
c) F(x) =
0, se x < 1.
1
7. fY (y) = 2 y,
√ 0 < y < 1.
8. fY (y) = (2/π)1/2 exp{−y2 /2}, y > 0.
9.  √
 1
√ 1 + e − y , se 0 ≤ y < 1,
4 y √

fY (y) = 4√y e− y ,
1
se y ≥ 1,


0, caso contrário.
9.5 Capítulo 5
1. Respostas:
a) p(−16) = 1/12, p(−7) = 1/6, p(2) = 13/36, p(11) = 2/9, p(20) = 1/6.
b) E(X) = 4,Var(X) = 108, 5.
2. 7/2.
3. média = 12,3; variância = 9,3.
4. Resposta:
b) E(X) = ∞
5. Respostas:
a) E(X) = 0;
b) E(|X|) = 1.
c) Var(X) = 2.
131 / 140
9.6 Capítulo 6
1. Respostas:
a) Binomial com n = 15, p = 0, 8.
b) 0,035
c) 0,83
2. Respostas:
a) Hipergeométrica com parâmetros 6, 9 e 12.
b) 1/2.
3. Respostas:
a) Binomial com n = 10 e p = 1/5.
b) 4, 2 · 10−6 .
c) 0, 62.
4. Respostas:
a) Geométrica com p = 0, 3.
b) 7
5. Respostas:
a) Binomial negativa n = 2 e p = 2/5.
b) 0,7667
6. Respostas:
a) 1/3
b) 0,057
7. log(2).
8. 0,9631
9. Respostas:
a) 0,1339
b) 0,2851
c) 0,9380
9.7 Capítulo 7
1. 3/5
2. Respostas:
a) 58,2%
b) 321
3. Respostas:
132 / 140
a) 0,9772
b) 0,8413
c) 0,44
d) -2
e) 14,32
f) [−2, 84, 12, 84].
4. Respostas:
a) 2,41%
b) 593ml
5. Respostas:
a) 214,6
b) 2431g
6. 0,281.
bn+1 −an+1
7. (n+1)(b−a)
8. n!/λ n .
9. 7
10. Respostas:
a) 35/128
b) 12393/16384.
11. fY (y) = y−1 (2π)−1/2 exp{−(log(y))2 /2}, y > 0.
12. Y segue distribuição Gama (1/2, 1/2).
9.8 Capítulo 8
1. Intervalo de 90% [1, 73; 1, 77]. Intervalo de 99% [1, 71; 1, 79].
2. Intervalo de 90% [4, 80; 5, 59]. Intervalo de 95% [4, 73; 5, 67]. Intervalo de 99% [4, 58; 5, 82].
5. Intervalo de 96% [0, 46; 0, 74]. Como o valor p = 0, 5 pertence ao intervalo de confiança de 96%,
podemos afirmar, com 96% de confiança que, sim, a moeda é honesta.
6. Intervalo de 96% [0, 20; 0, 29]. Baseado no intervalo de confiança, temos que se Xi é uma variá-
vel aleatória indicando que a i-ésima casa é alugada, então, Xi segue distribuição Bernoulli com o
parâmetro p pertencente a este intervalo. O número de casas alugadas então é dado por
20.000
N= ∑ Xi .
i=1
Portanto, N ∼ Bin(n, p), onde p pertence a este intervalo. Como o número esperado de casas alugadas
é dado por
E(N) = 20.000p.
133 / 140
Temos que o número esperado de casas alugadas pertence ao intervalo
[4000, 5800].
7. Intervalo de 90% [−0, 61; 1, 41].

8. Intervalo de 95% [−7, 09; 4, 09].
9. Intervalo de 95% [0, 56; 0, 64]. Como 0,5 = 50% não pertence ao intervalo, e o intervalo contém,
com 95% de confiança, a média verdadeira. Temos que com 95% de confiança a média verdadeira,
isto é, a proporção de donas de casa que preferem o detergente A, é maior do que 50%. Desta forma,
a companhia tem evidência suficiente para NÃO confiar no funcionário.
10. Intervalo de 90% [0, 11; 0, 16]. Como 0,05 = 5% não pertence ao intervalo, e o intervalo contém,
com 90% de confiança, a média verdadeira. Temos que com 90% de confiança a média verdadeira,
isto é, o percentual de artigos defeituosos produzidos pelo novo empregado, é maior do que 5%. Desta
forma, podemos sim afirmar que o novo empregado produz peças com índice de defeitos maior do
que o existente.
11. a) -0,9921.
b) Yb = 32, 28 − 1, 7X.
c) Temos que para X = 0, Yb = 32, 28.
12. a) Yb = 386, 84 − 1, 87X.
b) Temos que para X = 60, Yb = 274, 64. Para X = 120, temos Yb = 162, 44.
c) R2 ≈ 0, 79.
13. a) Yb = 1, 81X.
b) R2 ≈ 0, 30
c) Xb = 0, 4 + 0, 16X.
d) R2 ≈ 0, 30.
134 / 140
Apêndice A
Apêndice - Tabela da Distribuição Normal
Z x
1 2
P(X ≤ x) = Φ(x) = √ e−y /2 dy
−∞ 2π
Φ(−x) = 1 − Φ(x).
FUNÇÃO DE DISTRIBUIÇÃO DA NORMAL N(0,1)
x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7703 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
135 / 140
FUNÇÃO DE DISTRIBUIÇÃO DA NORMAL N(0,1)

x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
136 / 140
Capítulo 10
Índice Remissivo
A de Determinação, 123
AAS, 107 Coeficiente Binomial Generalizado, 79
Absoluta Coeficiente de Variação, 21
Acumulada, 6 Coeficientes Binomiais, 30
Acumulada, 6 Combinações, 29
Aditividade Complementar, 26, 36
Contável, 35 Condicional, 38
Finita, 35 Conjunto, 23
Aleatória Simples, 106 Complementar, 26
Amostra, 1, 104 Diferença, 26
Tamanho, 104 Elemento, 24
Amostragem, 105 Igualdade, 24
Aleatória Simples, 106 Interseção, 25
Estratificada, 106 Subconjunto, 24
Não-Probabilística, 105 União, 24
por Conglomerado, 106 Vazio, 24
Probabilística, 105 Consistência, 111
Sistemática, 106 Consistente, 111
Amostral, 18, 34 Contável, 35
Amplitude, 17 Contínua, 2, 49
Amplitude Total, 4 Contagem
Analítica, 78 Regra da adição, 28
Aproximação da Binomial, 86 Regra da multiplicação, 27
Arranjos, 29 Correlação, 116
de Pearson, 119
B Correlação Linear
Bayes, 41 Negativa, 117
Bernoulli, 71 Positiva, 117
Binômio de Newton, 30 Correlação Não-Linear, 117
Generalizado, 79 Cronológica, 3
Binomial, 72
Binomial Negativa, 78 D
de Colunas, 9
C de Determinação, 123
Censo, 1 de Dispersão, 16
Central do Limite, 108 de Linhas, 8
Certo, 34 de Pearson, 119
Coeficiente de Setores, 11
137 / 140
de Tendência Central, 11 Função de, 62

Densidade Variável Aleatória Contínua, 61
Parte contínua, 54 Variável Aleatória Discreta, 61
densidade, 49 Estatística, 107, 116
Dependente, 120 Estimação
Desvio Intervalar, 110
Médio, 17 Pontual, 110
Padrão, 19 Estimador, 110
Desvio padrão, 66 Consistente, 111
Diferença, 26 Eficiente, 111
Discreta, 2 Não-tendencioso, 111
Discretas, 48 Não-viciado, 111
Distribuição, 51, 71 Não-viesado, 111
Bernoulli, 71 Estimativa, 111
Binomial, 72 Estratificada, 106
Binomial Negativa, 78 Evento, 34
Exponencial, 97 Certo, 34
Perda de Memória, 99 Complementar, 36
Gama, 100 Impossível, 34
Geométrica, 76 Eventos
Perda de memória, 77 Independentes, 42
Hipergeométrica, 83 Mutuamente excludentes, 34
Normal, 93 Experimento Aleatório, 33
Padronização, 94 Exponencial, 97
Tabulação, 94 Perda de Memória, 99
Parte contínua, 54
Parte discreta, 54 F
Pascal, 78 Fórmula da Mediana, 15
Poisson, 85 Fórmula de Czuber, 13
Aproximação da Binomial, 86 Finita, 35
Uniforme, 92 Frequência
Distribuição acumulada, 51 Absoluta
Distribuição Amostral, 107 Acumulada, 6
Distribuição de Frequência, 4 Relativa, 6
Acumulada, 6
E Frequência Absoluta, 5
Eficiência, 111 Função, 55
Eficiente, 111 Analítica, 78
Elemento, 24 Densidade
Elemento Mediano, 14 Parte contínua, 54
em Barras, 10 densidade, 49
Equiprováveis, 37 Distribuição, 51
Espaço Parte contínua, 54
Amostral, 34 Parte discreta, 54
Espaço Amostral Distribuição acumulada, 51
Partição, 35 Gama, 100
Reduzido, 39 Probabilidade
Específica, 4 Parte discreta, 54
Esperança Função de, 48, 62
Variável Aleatória, 61 Funcional, 116
138 / 140
G Mista, 54
Gama, 100 Moda, 11, 13
Generalizado, 79 Modelos Matemáticos, 33
Geográfica, 3 Multiplicação, 39
Geométrica, 76 Mutuamente excludentes, 34
Perda de memória, 77
Gráfico N
de Colunas, 9 Não-Probabilística, 105
de Linhas, 8 Não-tendencioso, 111
de Setores, 11 Não-viciado, 111
em Barras, 10 Não-viesado, 111
Pizza, 11 Negativa, 117
Nominal, 2
H Normal, 93
Hipergeométrica, 83 Padronização, 94
Histograma, 7 Tabulação, 94
I O
Identidade de Chu-Vandermonte, 84 Ordinal, 2
Igualdade, 24
P
Imagem inversa, 47
Padrão, 19
Impossível, 34
Padronização, 94
Inclusão e Exclusão, 36
Parâmetros Populacionais, 104
Independente, 120
para a Diferença de Médias, 115
Independentes, 42, 60
para a Média, 114
Induzida por uma variável aleatória, 47
para a Proporção, 115
Interseção, 25
Parte contínua, 54
Intervalar, 110
Parte discreta, 54
Intervalo de Confiança, 113
Partição, 35
para a Diferença de Médias, 115
Pascal, 78
para a Média, 114
Perda de Memória, 99
para a Proporção, 115
Perda de memória, 77
L Permutação, 28
Lei dos eventos raros, 85 Pizza, 11
Poisson, 85
M Aproximação da Binomial, 86
Média, 11 Polígono de Frequência, 7
Média Amostral, 107 Ponderada, 12
Média Aritmética, 11 Pontual, 110
Ponderada, 12 População, 1, 104
Médio, 17 Populacional, 18
Método por Conglomerado, 106
Mínimos Quadrados, 120 Positiva, 117
Mínimos Quadrados, 120 Princípio
Mediana, 11, 14 Inclusão e Exclusão, 36
Medida Probabilística, 105
Probabilidade, 35 Probabilidade, 35
Medidas Condicional, 38
de Dispersão, 16 Função de, 48
de Tendência Central, 11 Induzida por uma variável aleatória, 47
139 / 140
Parte discreta, 54 Independentes, 60

Probabilidade total, 40 Variável, 1
Dependente, 120
Q Independente, 120
Qualitativa Qualitativa
Nominal, 2 Nominal, 2
Ordinal, 2 Ordinal, 2
Quantitativa Quantitativa
Contínua, 2 Contínua, 2
Discreta, 2 Discreta, 2
R Variável Aleatória, 46, 61, 66
Reduzido, 39 Contínua, 49
Regra da adição, 28 Desvio padrão, 66
Regra da multiplicação, 27 Discretas, 48
Relação Função, 55
Estatística, 116 Função de, 62
Funcional, 116 Imagem inversa, 47
Relativa, 6 Mista, 54
Acumulada, 6 Variância, 66
Resultados Variável Aleatória Contínua, 61
Equiprováveis, 37 Variável Aleatória Discreta, 61
Rol de dados, 4 Variância, 66
Amostral, 18
S Populacional, 18
Série Variável Aleatória, 66
Cronológica, 3 Vazio, 24
Específica, 4
Geográfica, 3
Temporal, 3
Série de Taylor, 78
Sistemática, 106
Subconjunto, 24
T
Tabelas, 3
Tabulação, 94
Tamanho, 104
Tamanho Amostral, 5
Temporal, 3
Teorema
Bayes, 41
Central do Limite, 108
Multiplicação, 39
Probabilidade total, 40
U
União, 24
Uniforme, 92
V
Variáveis Aleatórias
140 / 140

Livro PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Livro PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Probabilidade e Estatística

UNIVERSIDADE FEDERAL DA PARAÍBA

R672p Rocha , Andrea Vanessa.

Curso de Licenciatura em Computação na Modalidade à Distância.

1. Estatística. 2. Teoria dos Conjuntos. 3. Probabilidade. 4. Variáveis

BS-CCEN CDU 519.2

Todos os direitos e responsabilidades dos autores.

2 Teoria dos Conjuntos e Contagem 23

4 Variáveis Aleatórias e Suas Distribuições 46

5 Esperança de uma Variável Aleatória 60

6 Principais Distribuições Discretas 71

7 Principais Distribuições Contínuas 92

8 Introdução à Inferência Estatística 104

9 Respostas das Atividades 128

A Apêndice - Tabela da Distribuição Normal 135

10 Índice Remissivo 137

Como você deve estudar cada capítulo

• Leia a visão geral do capítulo

NA SALA DE AULA DO CURSO

Contribuindo com o livro

Tabela 1: Métodos para contribuição do livro

• Inscrição no site do Consiste em acessar o repositório do livro e

• Realizar fork de Consiste em acessar os arquivos fontes do livro,

Contribuição através do Issue track

Figura 1: Exemplo de contribuição através do Issue track

Baixando a edição mais nova deste livro

• Conhecer os conceitos básicos da estatística e, principalmente, a diferença entre popu-

1.1 Conceitos Básicos

1.1.1 Definições importantes

Na estatística temos algumas definições importantes:

• Amostra: É um subconjunto de elementos pertencentes a uma população.

• Censo: Exame de todos os elementos da população.

Figura 1.1: População e Amostra

Figura 1.2: Exemplo de variável

Temos dois tipos de variáveis:

1.2 Tabelas Estatísticas

O cabeçalho deve conter o suficiente para que sejam respondidas as questões:

• O que está representado?

1.2.1 Série Cronológica ou Temporal

1.2.2 Série Geográfica

1.2.3 Série Específica

Áreas de Ensino Matrículas

1.3 Distribuição de Frequência

1.3.1 Construção de uma distribuição de frequência

X1 = 21, X2 = 22, X3 = 23, X4 = 24, etc.

F1 = 3, F2 = 2, F3 = 2, F4 = 1, etc. Vamos calcular, agora, o tamanho amostral, ou seja, o

• Amplitude das Classes h:

• Limites das Classes:

• Pontos Médios das Classes pmi :

• Frequência Absoluta Acumulada Fac :

Classes pmi Fi Fac

Classes pmi Fi Fac fi

• Frequência Relativa Acumulada fac :

1.4 Gráficos Estatísticos

O histograma é uma representação gráfica da distribuição de frequência. O histograma é formado

Figura 1.3: Histograma

1.4.2 Polígono de Frequência

Abaixo vemos um exemplo de polígono de frequência obtido a partir de um histograma:

Figura 1.4: Polígono de Frequência Obtido a Partir de um Histograma

Abaixo vemos um exemplo contendo apenas o polígono de frequência:

Figura 1.5: Polígono de Frequência Obtido a Partir de um Histograma

1.4.3 Gráfico de Linhas

2006 2008 2010 2012 2014