Você está na página 1de 171

Universidade de São Paulo

Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto


Departamento de Fı́sica e Matemática

Introdução à Probabilidade e Inferência


Estatı́stica

Texto resultante da implementação do Projeto


Ensinar com Pesquisa: Estudo da adequação de bibliografia e
elaboração de material didático no ensino e aprendizagem de
Probabilidade e Estatı́stica no contexto de cursos de graduação de
caráter aplicado

Danieli Xavier de Barros


Orientadora: Geraldine Góes Bosco

Ribeirão Preto
2010
Sumário

1 Probabilidade - Primeiros Conceitos 7


1.1 Experimentos Aleatórios e Espaço Amostral . . . . . . . . . . . . . . . 7
1.2 Conjuntos e suas relações . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Conceito de Par Ordenado . . . . . . . . . . . . . . . . . . . . . 10
1.2.2 Conceito de Produto Cartesiano . . . . . . . . . . . . . . . . . 10
1.2.3 Subconjuntos e Eventos . . . . . . . . . . . . . . . . . . . . . . 11
1.2.4 Relações entre conjuntos . . . . . . . . . . . . . . . . . . . . . . 12
1.2.5 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.6 Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3 Abordagem Clássica da Probabilidade . . . . . . . . . . . . . . . . . . 22
1.3.1 Análise combinatória . . . . . . . . . . . . . . . . . . . . . . . . 24
1.4 Abordagem Frequentista da Probabilidade . . . . . . . . . . . . . . . . 32
1.5 Definição Axiomática de Probabilidade . . . . . . . . . . . . . . . . . . 33
1.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.7 Álgebra e σ - Álgebra . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.8 Espaço de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.9 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.9.1 Teorema do Produto . . . . . . . . . . . . . . . . . . . . . . . . 40
1.9.2 Teorema da Multiplicação . . . . . . . . . . . . . . . . . . . . . 41
1.9.3 Conceito de Partição de Ω . . . . . . . . . . . . . . . . . . . . . 42
1.9.4 Teorema da Probabilidade Total . . . . . . . . . . . . . . . . . 43
1.9.5 Fórmula de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 44
1.9.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1.10 Independência de eventos . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.10.1 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2 Variáveis Aleatórias Discretas 51


2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.2 Conceito de Variável Aleatória . . . . . . . . . . . . . . . . . . . . . . 52
2.3 Distribuição de massa de probabilidade . . . . . . . . . . . . . . . . . 53

3
4 SUMÁRIO

2.4 Funções de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . 55


2.5 Esperança e Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.5.1 Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.5.2 Esperança para funções de variáveis aleatórias . . . . . . . . . 60
2.5.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.6 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . 64
2.6.1 Uniforme Discreta . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.6.2 Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.6.3 Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.6.4 Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.6.5 Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
2.7 Função de Distribuição de Probabilidade . . . . . . . . . . . . . . . . . 76
2.8 Função Geradora de Probabilidades . . . . . . . . . . . . . . . . . . . 79
2.9 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

3 Vetores Aleatórios Discretos 87


3.1 Distribuição Conjunta de Probabilidade . . . . . . . . . . . . . . . . . 87
3.2 Distribuições Marginais . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.3 Distribuições Condicionais . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.4 Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.5 Covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.6 Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4 Variáveis Aleatórias Contı́nuas 101


4.1 Esperança e Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.2 Principais Variáveis Aleatórias Contı́nuas . . . . . . . . . . . . . . . . 104
4.2.1 Variável Aleatória Uniforme . . . . . . . . . . . . . . . . . . . . 104
4.2.2 Variável Aleatória Exponencial . . . . . . . . . . . . . . . . . . 105
4.2.3 Variável Aleatória Normal . . . . . . . . . . . . . . . . . . . . . 107
4.3 Função de distribuição . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.4 Função Geradora de Momentos . . . . . . . . . . . . . . . . . . . . . . 111
4.4.1 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.5 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

5 Vetores Aleatórios Contı́nuos 121


5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.2 Densidades Marginais . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.3 Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.4 Distribuições Condicionais . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.5 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
SUMÁRIO 5

6 Inferência Estatı́stica 127


6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.2 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.2.1 Estimação pontual . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.2.2 Distribuição Amostral da média . . . . . . . . . . . . . . . . . 133
6.2.3 Exercı́cios - Teorema Central do Limite . . . . . . . . . . . . . 134
6.2.4 Exercı́cios - Estimadores . . . . . . . . . . . . . . . . . . . . . . 136
6.3 Princı́pio da Máxima Verossimilhança . . . . . . . . . . . . . . . . . . 137
6.3.1 Para Variável Aleatória Discreta . . . . . . . . . . . . . . . . . 138
6.3.2 Para Variável Aleatória Contı́nua . . . . . . . . . . . . . . . . . 140
6.3.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
6.4 Intervalo de Confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
6.4.1 Intervalo de confiança para a média µ . . . . . . . . . . . . . . 146
6.4.2 Intervalo de Confiança para p . . . . . . . . . . . . . . . . . . . 149
6.4.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
6.5 Teste de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
6.5.1 Erro Tipo I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
6.5.2 Erro Tipo II . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
6.5.3 Relações entre os Erros Tipo I e Tipo II . . . . . . . . . . . . . 159
6.5.4 Poder e Função Poder de um Teste . . . . . . . . . . . . . . . . 159
6.5.5 Teste de Hipóteses para a média de populações normais com
variâncias conhecidas . . . . . . . . . . . . . . . . . . . . . . . . 162
6.5.6 P-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
6.5.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
6 SUMÁRIO
Capı́tulo 1

Probabilidade - Primeiros
Conceitos

1.1 Experimentos Aleatórios e Espaço Amostral


Quando falamos em Experimento Aleatório estamos nos referindo a um expe-
rimento que utiliza um mecanismo que gera resultados aleatórios. É um dos
conceitos mais básicos em probabilidade e estatı́stica. Entre esses experimentos,
os mais comuns e conhecidos de qualquer pessoas são bingo, loteria, lançamento
de dados, lançamento de uma moeda.

Exemplo 1.1.1 Experimento Aleatório: jogar uma moeda.


Usemos a seguinte convenção:
H - Head - cara
T - Tail - coroa
Quais são todos os possı́veis resultados?
Resposta: H, T.

Exemplo 1.1.2 Experimento Aleatório: jogar a mesma moeda duas vezes.


Quais são todos os possı́veis resultados?
Resposta: HH, HT, TH, TT (observar que a ordem importa).

Exemplo 1.1.3 Experimento Aleatório: lançamento de um dado.


Quais são todos os possı́veis resultados?
Resposta: 1, 2, 3, 4, 5, 6.

7
8 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

Exemplo 1.1.4 Experimento Aleatório: Lançamento de dois dados iguais.


Quais são todos os possı́veis resultados?
Por exemplo, sair 1 no primeiro lançamento e também sair 1 no segundo lançamento,
que representaremos por ”1 e 1”. Os demais possı́veis resultados são então:
1 e 2; 1 e 3; 1 e 4; 1 e 5; 1 e 6;
2 e 1; 2 e 2; 2 e 3; 2 e 4; 2 e 5; 2 e 6;
3 e 1; 3 e 2; 3 e 3; 3 e 4; 3 e 5; 3 e 6;
4 e 1; 4 e 2; 4 e 3; 4 e 4; 4 e 5; 4 e 6;
5 e 1; 5 e 2; 5 e 3; 5 e 4; 5 e 5; 5 e 6;
6 e 1; 6 e 2; 6 e 3; 6 e 4; 6 e 5; 6 e 6;

As descrições acima dos possı́veis resultados de um Experimento Aleatório


são bastante informais. Precisamos introduzir alguma estrutura matemática
para descrever de maneira formal os resultados de um experimento aleatório.

Definição 1.1.1 (Espaço Amostral) Vamos chamar de Espaço Amostral o con-


junto de todos os possı́veis resultados de um experimento aleatório.

Pergunta ao leitor: qual foi a estrutura matemática que usamos nessa definição?

1.2 Conjuntos e suas relações


O conceito de conjunto é fundamental na Teoria de Probabilidades. Talvez isso
só fique claro mais tarde. Num primeiro momento, entender bem as relações en-
tre conjuntos vai facilitar muito o entendimento de diversos conceitos necessários
para definir o que se chama de Espaço de Probabilidade que é a estrutura fun-
damental na solução de qualquer problema da área. E num segundo momento,
se percebe que não dá para falar em probabilidade sem falar em conjuntos.

◦ Informalmente falando, um conjunto é uma coleção de objetos.

◦ Representamos um conjunto comumente por letras maiúsculas (A, B por


exemplo) e os objetos são colocados entre chaves ({. . .}).

◦ Conjuntos podem ser também representados pelos chamados diagramas de


Venn.

◦ Os elementos de um conjunto podem ser representados por letras minúsculas:


a, b, . . . y, z, ω.
1.2. CONJUNTOS E SUAS RELAÇÕES 9

◦ A relação de “um elemento a pertencer a um conjunto A” é indicada pelo


sı́mbolo de pertence: ∈. Assim temos a ∈ A.

◦ Existem várias maneiras de descrever que objetos estão contidos em um con-


junto A.

(a) Podemos fazer uma lista dos elementos de A. Por exemplo,


A = {1, 2, 3, 4} descreve o conjunto formado pelos inteiros positivos
maiores ou iguais a 1 e menores ou iguais a 4.

(b) Podemos descrever um conjunto A por meio de palavras. Por


exemplo, poderemos dizer que A é o conjunto dos números inteiros
pares positivos. E podemos descrevê-lo de maneira mais formal

A = {x|x = 2 · k, k = 1, 2, . . .}

isto é , A é o conjunto de todos os x’s tal que x é um número inteiro


par positivo.

◦ O conjunto vazio é representado pelo sı́mbolo ∅ e é o conjunto que não contém


elementos.

O Espaço Amostral é denotado pela letra grega Ω (”omega”). bUm elemento


de Ω é chamado de ponto amostral e representado pela letra grega minúscula ω
(“omegazinho”). Voltando aos Exemplos 2.2.1, 1.1.2, 2.1.1 e 1.1.4, quais são os
espaços amostrais que aparecem nesses exemplos?

• No exemplo 2.2.1 temos Ω1 = {H, T }.

• No exemplo 1.1.2 temos Ω2 = {HH, HT, T H, T T }. Observe que no


lançamento de duas moedas, a “ordem importa”, pois HT é diferente de
T H.

• No exemplo 2.1.1 temos Ω3 = {1, 2, 3, 4, 5, 6}.

Pergunta ao leitor: Como representar, de maneira formal, os elementos do


Espaço Amostral no caso do exemplo 1.1.4 ? Para responder essa pergunta
precisamos das definições de pares ordenados e produto cartesiano, exibidas a
seguir.
10 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

1.2.1 Conceito de Par Ordenado


Intuitivamente, um par ordenado consiste de dois elementos, digamos a e b, dos
quais um, no caso o elemento a, é designado como primeiro elemento e o outro
como segundo elemento, no caso o elemento b. Um par ordenado é denotado
por (a, b). Dois pares ordenados (a, b) e (c, d) são iguais se, e somente se, a = c
e b = d. Em sı́mbolos

(a, b) = (c, d) ⇔ a = c e b = d.

Observações:

• os pares ordenados (2, 3) e (3, 2) são diferentes.

• podemos ter pares ordenados com os primeiros e segundos elementos idênticos


tais como: (1, 1), (5, 5) e (7, 7).

1.2.2 Conceito de Produto Cartesiano


Dados dois conjuntos A e B, o produto cartesiano desses dois conjuntos, sim-
bolizado por A × B, é o conjunto de todos os pares ordenados cujo primeiro
elemento pertence ao conjunto A e o segundo elemento pertecente ao conjunto
B.

Exemplo 1.2.1 Produto cartesiano de A e B.

• se A = {1, 2, 3} e B = {2, 3, 4} então o produto cartesiano desses dois


conjuntos será :

A × B = {(1, 2), (1, 3), (1, 4), (2, 2), (2, 3), (2, 4), (3, 2), (3, 3), (3, 4)}.

Observe que o elemento (4, 1) não pertence a A × B.

• se A = B = {0, 1} então o produto cartesiano desses dois conjuntos será :

A × B = A × A = {(0, 0), (0, 1), (1, 0), (1, 1)}.

Voltando ao lançamento de dois dados, temos que Ω4 é o produto cartesiano


do conjunto A = {1, 2, 3, 4, 5, 6} por ele mesmo, ou seja, Ω4 = A × A e seus
elementos são representados por pares ordenados:

Ω4 = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6),
1.2. CONJUNTOS E SUAS RELAÇÕES 11

(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6),

(5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)}.

Observe que também poderı́amos ter representado Ω2 (o espaço amostral


do lançamento de duas moedas) através de pares ordenados. Para tanto, basta
perceber que Ω2 é o produto cartesiano de Ω1 (o espaço amostral do lançamento
de uma moeda) por ele mesmo, ou seja,

Ω2 = Ω1 × Ω1 = {H, T } × {H, T } = {(H, H), (H, T ), (T, H), (T, T )}.

1.2.3 Subconjuntos e Eventos


Se todo elemento de um conjunto A for também elemento de um conjunto B,
diremos que A é um subconjunto de B e escrevemos simbolicamente A ⊂ B.

Exemplo 1.2.2 Sejam os conjuntos A = {2, 3} e B = {1, 2, 3, 4}. Todos os


elementos do conjunto A pertencem ao conjunto B, portanto o conjunto A é
subconjunto de B, ou A ⊂ B.

Os subconjuntos do espaço amostral Ω são chamados de eventos.

Exemplo 1.2.3 Voltando ao Exemplo 2.1.1, onde o Experimento Aleatório é o


lançamento de um dado, e Ω = {1, 2, . . . , 6}, vamos considerar o conjunto “sair
números pares” e chamá-lo de A, ou seja

A = {2, 4, 6}.

Temos que A ⊂ Ω, e dizemos que A é um evento de Ω.

Exemplo 1.2.4 Consideremos o seguinte Experimento Aleatório: Lançar


três moedas distintas uma vez. Temos então que o Espaço Amostral é dado
por
Ω = {HHH, HHT, HT H, T HH, HT T, T HT, T T H, T T T },

Vamos considerar o evento A= ”não sair mais do que uma cara (H) nos lançamentos”,

A = {T T T, T HT, HT T, T T H}.

Dizemos que um evento A ocorre se o resultado de um experimento aleatório


pertencer a ele. No exemplo 1.2.3, se jogarmos o dado e sair 2, temos que o
evento A = {2, 4, 6} ocorreu, pois 2 ∈ A (o ponto amostral 2 “pertence ao”
evento A). Por outro lado, dizemos que um evento A não ocorre se o resultado
12 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

de um experimento aleatório não pertencer ao conjunto A. No exemplo 1.2.3,


se jogarmos o dado e sair 3, temos que o evento A não ocorreu, pois 3 ∈
/ A (o
ponto amostral 3 “não pertence ao” evento A).
Um evento que contem um único elemento é chamado de evento elementar. No
exemplo 2.1.1, o evento B =“sair um número divisı́vel por 5”(B = {5}) é um
evento elementar.
Para todo conjunto A, temos que ∅ ⊂ A.

1.2.4 Relações entre conjuntos


1) União: Sejam A e B dois eventos de Ω. A união de A e B, denotada
A ∪ B, é o evento em que só A ocorre ou só B ocorre ou ambos ocorrem.
Representamos a união de A e B, por:

A ∪ B = {ω ∈ Ω : ω ∈ A ou ω ∈ B ou (ω ∈ A e ω ∈ B)}.
n
[
• Seja A1 , A2 , . . . , An uma sequência finita de eventos, então Ai
i=1
representa a união desses eventos, e corresponde ao evento em que
ao menos um dos Ai ocorre.

[
• Seja A1 , A2 , . . . uma sequência infinita de eventos, temos que Ai
i=1
representa a união desses eventos, e corresponde ao evento em que
pelo menos um dos Ai ocorre.

Exemplo 1.2.5 Voltando ao lançamento de dois dados, vamos considerar


os eventos A =”sair soma igual a 5 nos dois lançamentos”e B = ”sair
soma igual a 7 nos dois lançamentos”.
Queremos saber quais são os resultados que correspondem à ocorrência de
A, de B ou de ambos. Temos

A = {(1, 4), (2, 3), (3, 2), (4, 1)}

e
B = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}.
Logo

A ∪ B = {(1, 4), (2, 3), (3, 2), (4, 1), (1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}.

2) Interseção: A interseção de A e B, denotada A ∩ B, é o evento em que A


ocorre e B ocorre. Representamos a interseção de A e B, por:

A ∩ B = {ω ∈ Ω : ω ∈ A e ω ∈ B}.
1.2. CONJUNTOS E SUAS RELAÇÕES 13

n
\
• Seja A1 , A2 , . . . , An uma sequência finita de eventos , então Ai
i=1
representa a intersecção desses eventos e corresponde ao evento em
que todos os Ai ocorrem.

\
• Para uma sequência infinita de eventos A1 , A2 , . . ., temos que Ai
i=1
representa a intersecção desses eventos e corresponde ao evento em
que todos os Ai ocorrem.

Exemplo 1.2.6 Um baralho possui 52 cartas. Estas cartas estão dividi-


das em 4 naipes: ouros, copas, espadas e paus. As cartas dos naipes de
ouros e copas são vermelhas, já as cartas das naipes espadas e paus são
pretas.
Cada naipe possui 13 cartas, sendo que 3 delas são chamadas de dama,
valete e rei, e indentificadas pelas letras Q,J e K, respectivamente. As de-
mais cartas de um naipe são numeradas de 2 a 10, e a carta que simboliza
o número 1, é chamada de ás, representado pela letra A.
Vamos considerar o experimento aleatório em que uma carta é retirada ao
acaso de um baralho. Quais são os possı́veis resultados?
Vamos representar os naipes pelas letras maiúsculas: O = ouros, C =
copas, E= espadas e P = paus. Por exemplo, se sair a carta 2 de paus,
esse resultado é representado por 2P, ou se sair a carta valete de copas,
esse resultado é representado por JC.
Logo, o espaço amostral é :

Ω = {AO, 2O, 3O, 4O, 5O, 6O, 7O, 8O, 9O, 10O, QO, JO, KO,

AC, 2C, 3C, 4C, 5C, 6C, 7C, 8C, 9C, 10C, QC, JC, KC,

AE, 2E, 3E, 4E, 5E, 6E, 7E, 8E, 9E, 10E, QE, JE, KE,

AP, 2P, 3P, 4P, 5P, 6P, 7P, 8P, 9P, 10P, QP, JP, KP }

Vamos chamar de A o evento evento retira uma dama. Então

A = {QC, QO, QP, QE},

Se B for o evento retirar uma carta vermelha, então

B = {AC, 2C, 3C, 4C, 5C, 6C, 7C, 8C, 9C, 10C, JC, QC, KC,

AO, 2O, 3O, 4O, 5O, 6O, 7O, 8O, 9O, 10O, JO, QO, KO}.
14 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

Portanto se , A ∩ B representa o evento retirar uma dama vermelha, ou


seja
A ∩ B = {QO, QC}.

3) Complemento: O complemento de A, denotado Ac , é o evento que ocorre


quando A não ocorre, ou seja

Ac = {ω ∈ Ω : ω 6∈ A}.

Exemplo 1.2.7 Voltando ao lançamento de um dado, seja A o evento


sair um número par, então A = {2, 4, 6}, e nesse caso Ac = {1, 3, 6}.

4) Diferença: A diferença entre o evento A e o evento B, A − B, é o conjunto


dos elementos que pertencem ao evento A, mas não pertence ao evento B,
ou seja
A − B = A ∩ B c = {ω ∈ Ω : ω ∈ A e ω 6∈ B}.

Exemplo 1.2.8 Considerando novamente o experimento aleatório, lançamento


de dois dados iguais, chamamos de A o evento sair números primos nos
dois lançamentos. Portanto,

A = {(1, 1), (1, 2), (1, 3), (1, 5), (2, 1), (2, 2), (2, 3), (2, 5),

(3, 1), (3, 2), (3, 3), (3, 5), (5, 1), (5, 2), (5, 3), (5, 5)}.
Chamamos de B o evento sair números ı́mpares nos dois lançamentos,
logo

B = {(1, 1), (1, 3), (1, 5), (3, 1), (3, 3), (3, 5), (5, 1), (5, 3), (5, 5)}

e
A − B = {(1, 2), (2, 1), (2, 2), (2, 3), (2, 5), (3, 2), (5, 2)}.

5) Diferença Simétrica: A diferença simétrica de A e B, A 4 B, é o conjunto


dos elementos que ou pertencem a A ou pertencem a B, mas não pertencem
a ambos os conjuntos A e B simultaneamente, ou seja

A4B = (A∩B c )∪(B ∩Ac ) = {ω ∈ Ω : ω ∈ A e ω 6∈ B ou ω 6∈ A e ω ∈ B}.

Exemplo 1.2.9 Voltando ao lançamento de dois dados iguais, seja A o


evento sair dois números ı́mpares, cuja soma seja 6,

A = {(1, 5), (3, 3), (5, 1)}.


1.2. CONJUNTOS E SUAS RELAÇÕES 15

Seja B o evento em que saem números pares ou números iguais, tais que
somam 6,
B = {(2, 4), (4, 2), (3, 3)}.

Logo temos que a diferença simétrica de A e B é:

A 4 B = {(1, 5), (5, 1), (2, 4), (4, 2)}.

6) Conjuntos Disjuntos: Se os conjuntos A e B não possuem elemento em


comum, dizemos que A e B são conjuntos disjuntos. Em sı́mbolos ma-
temáticos, A e B são disjuntos, se:

A ∩ B = ∅.

Neste caso, os eventos A e B também são chamados mutualmente exclu-


sivos.

Exemplo 1.2.10 Sejam A e B dois eventos quaisquer de Ω. Observemos


que os conjuntos A−B, A∩B e B −A são dois a dois disjuntos. Podemos
também observar que pela relação de diferença, os conjuntos A − B e B
são disjuntos.

Exemplo 1.2.11 Novamente considerando o lançamento de um dado,


seja A o evento sair números pares, e seja B o evento sair números
ı́mpares. Então A e B são disjuntos, pois não há um elemento comum
aos eventos A e B, já que não exite um número que seja simultaneamente
par e ı́mpar.

Antes de demonstrar algumas propriedades de conjuntos, precisamos saber quando


um conjunto é igual a outro. Dados dois conjuntos quaisquer A e B, esses con-
juntos são iguais se, e somente se, eles possuem os mesmos elementos, isto é,

A = B ⇔ A ⊆ B e B ⊆ A.

A partir desse resultado vamos derivar algumas propriedades, que usaremos


mais tarde quando definirmos o conceito de probabilidade:

1) Ωc = ∅.
Prova: Temos que provar que Ωc ⊂ ∅ e que ∅ ⊂ Ωc . Nesse tipo de prova
costumamos tomar um elemento genérico de um dos conjuntos e mostrar
que ele pertence ao outro conjunto. Vamos chamar esse elemento de ω.
16 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

Vamos primeiro provar que Ωc ⊂ ∅. Neste caso vamos tomar ω pertencente


a Ωc , que representamos por ω ∈ Ωc , que implica em ω 6∈ Ω, que por
sua vez implica em ω ∈ ∅. Em sı́mbolos matemáticos, essas idéias ficam
resumidas na seguinte sentença:

ω ∈ Ωc ⇒ ω 6∈ Ω ⇒ ω ∈ ∅.

Agora, vamos provar que ∅ ⊂ Ωc . Usaremos uma técnica que se chama


“provar por vacuidade”, uma vez que o conjunto vazio não contém nenhum
elemento.
Comecemos pensando no que significa ∅ ⊂ A, sendo A um conjunto qual-
quer. Por mais absurdo que pareça, significa que os elementos do conjunto
vazio (∅) pertencem a A também. Como ∅ não tem elementos, podemos
afirmar que ”todos os elementos de ∅ pertencem a A”e portanto ∅ ⊂ A.
Podemos concluir que o conjunto vazio é subconjunto de qualquer con-
junto. E portanto, neste caso especı́fico, temos que ∅ ⊂ Ωc , finalizando a
prova.

2) (Ω ∪ A) = Ω.
Prova: Temos que provar que (Ω ∪ A) ⊂ Ω e Ω ⊂ (Ω ∪ A). Primeiramente
vamos provar que (Ω ∪ A) ⊂ Ω. Tomamos ω pertencente a (Ω ∪ A),
que representamos por ω ∈ (Ω ∪ A), que implica pela relação de união
de conjuntos que ω pertence a A ou ω pertence a B. Na simbologia
matemática, temos que:

ω ∈ (Ω ∪ A) ⇒ ω ∈ Ω ou ω ∈ A.

Mas como A ⊂ Ω temos ω ∈ Ω e portanto ω ⊂ Ω.


Agora temos que provar que Ω ⊂ (Ω ∪ A). O resultado fica provado se
usarmos a idéia de que um conjunto sempre está contido na união dele
com outro conjunto. Nesse caso

A ⊂ (Ω ∪ A) e Ω ⊂ (Ω ∪ A).

3) (Ω ∩ A) = A.
Prova: Temos que provar que (Ω ∩ A) ⊂ A e A ⊂ (Ω ∩ A). Vamos
primeiro provar que (Ω ∩ A) ⊂ A. Nesse caso, vamos tomar ω ∈ (Ω ∩ A),
que implica pela, relação de interseção de conjuntos, que ω pertence a Ω
e ω pertence a A. Em sı́mbolos matemáticos, temos:

ω ∈ (Ω ∩ A) ⇒ ω ∈ Ω e ω ∈ A ⇒ ω ∈ A.
1.2. CONJUNTOS E SUAS RELAÇÕES 17

Agora, vamos mostrar que A ⊂ (Ω ∩ A). Tomemos ω pertencente a A.


Como A ⊂ Ω, temos que todo ω pertencente a A, , pertence a Ω também.
Portanto finalizando a prova temos que ω pertence a interseção de A e Ω,
ou seja, ω ∈ (A ∩ Ω).

4) (A ∪ Ac ) = Ω.
Prova: Temos que provar que (A ∪ Ac ) ⊂ Ω e Ω ⊂ (A ∪ Ac ).
Começaremos provando que (A ∪ Ac ) ⊂ Ω. Nesse caso tomomamos ω
pertencente a (A ∪ Ac ), o que significa que ω pertence a A ou ω pertence
ao seu complementar (Ac ). Como A é um subconjunto de Ω, ω pertence a
A implica em ω ∈ Ω. Analogamente, Ac ⊂ Ω, e portanto ω ∈ Ωc implica
em ω ∈ Ω.
Agora precisamos provar que Ω ⊂ (A ∪ Ac ). Tomamos ω pertencente a Ω,
o que implica em ω ∈ A ou ω ∈ Ac . Ou seja, se um elemento pertence a Ω,
ou ele pertence a um subconjunto (A) de Ω ou pertence a ao complementar
desse subconjunto (Ac ), que representamos por ω ∈ (A ∪ Ac ). Portanto
(A ∪ Ac ) ⊂ Ω, finalizando nossa prova.

5) Leis de De Morgan.

5.1) (A ∪ B)c = Ac ∩ B c .
5.2) (A ∩ B)c = Ac ∪ B c .
Prova de 5.1: Temos que provar que (A ∪ B)c ⊂ (Ac ∩ B c ) e
Ac ∩ B c ⊂ (A ∪ B)c .
Vamos primeiro provar que (A ∪ B)c ⊂ (Ac ∩ B c ). Tomamos então
ω pertencente a (A ∪ B)c . Isso equivale a dizer, que ω não pertence
a união de A e B, o que denotamos por ω 6∈ (A ∪ B), que implica em
ω 6∈ A e ω 6∈ B. Em sı́mbolos matemáticos, temos:

ω ∈ (A ∪ B)c ⇒ ω 6∈ (A ∪ B) ⇒ ω 6∈ A e ω 6∈ B.

Como ω 6∈ A e ω 6∈ B, temos que ω ∈ Ac e ω ∈ B c , o que implica


que ω ∈ (Ac ∩ B c ). Portanto temos que, (A ∪ B)c ⊂ (Ac ∩ B c ).
Agora, vamos mostrar que Ac ∩ B c ⊂ (A ∪ B)c . Tomamos ω perten-
cente a Ac ∩ B c . Assim se ω pertence a Ac e B c , temos que ω 6∈ A e
ω 6∈ B. Em sı́mbolos matemáticos, temos:

ω ∈ (Ac ∩ B c ) ⇒ ω ∈ Ac e ω ∈ B c ⇒ ω 6∈ A e ω 6∈ B.
18 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

Logo, se ω 6∈ A e ω 6∈ B, temos que ω 6∈ (A ∪ B). Isso implica que


ω ∈ (A ∪ B)c . Portanto concluimos que Ac ∩ B c ⊂ (A ∪ B)c , finali-
zando nossa prova.

Deixamos como exercı́cio para o leitor, a prova de (5.2).

As Leis de De Morgan também se aplicam há uma sequência finita de


eventos (A1 , A2 , ..., An ) e para uma sequência infinita (enumerável) de
eventos (A1 , A2 , ...) de Ω. Assim, temos
n
[ n
\
5.3) ( Ai )c = Ai c .
i=1 i=1
\n [n
5.4) ( Ai )c = Ai c .
i=1 i=1
Prova de 5.3:
n
[ n
\ n
\ n
[
Temos que provar que ( Ai )c ⊂ Ai c e Ai c ⊂ ( Ai )c .
i=1 i=1 i=1 i=1
n
[ n
\
Primeiro vamos provar que ( Ai ) c ⊂ Ai c . Seja (A1 , A2 , ..., An )
i=1 i=1
n
[
uma sequência de eventos finita , tomamos ω pertencente a ( Ai )c .
i=1
n
[
Isso equivale a dizer, que ω 6∈ ( Ai ), e que por sua vez implica que ω
i=1
não pertence a nenhum dos eventos (Ai ). Em simbolos matemáticos,
temos
n
[ n
[
ω∈( Ai )c ⇒ ω 6∈ Ai ⇒ ω 6∈ Ai ∀ i = 1, 2, .., n.
i=1 i=1

Logo, w ∈ Ai c para todo i. Daı́ decorre que ω pertence a interseção


n
[ \n
de todos Ai c , portanto temos que ( Ai )c ⊂ Ai c .
i=1 i=1
n
\ n
[
Nessa segunda parte da prova vamos mostrar que Ai c ⊂ ( Ai )c .
i=1 i=1
n
\
c
Tomamos então ω pertencente a Ai . Assim temos que ω pertence
i=1
a todos os Ai c , o que implica que ω 6∈ Ai , para todo i, que por sua vez
n
[ [n
implica que ω 6∈ Ai . Assim onclui-se que ω ∈ ( Ai )c . Portanto,
i=1 i=1
1.2. CONJUNTOS E SUAS RELAÇÕES 19

n
\ n
[
c
finalizando a prova, temos que Ai ⊂ ( Ai )c .
i=1 i=1

1.2.5 Exercı́cios
1. Experimento Aleatório: Um dado é lançado duas vezes.

(a) Descreva o espaço amostral (Ω).


(b) Descreva os seguintes eventos
i. A=”A soma do resultado do lançamento do primeiro dado com
o resultado do lançamento do segundo dado é igual a 2”.
ii. B=”A soma do resultado do lançamento do primeiro dado com
o resultado do lançamento do segundo dado é igual a 7”.
iii. C=”o resultado do lançamento do primeiro dado é um número
ı́mpar”.
iv. D=”o resultado do lançamento do segundo dado é um número
ı́mpar”.
v. E=”A soma do resultado do lançamento do primeiro dado com
o resultado do lançamento do segundo dado é ı́mpar”.

2. Experimento Aleatório: Um dado é lançado e uma mesma moeda é


jogada duas vezes.

(a) Descreva o espaço amostral (Ω).


(b) Descreva os seguintes eventos
i. A=”no lançamento do dado sai 6, e no lançamento da moeda
duas vezes, sai pelo menos uma cara”.
ii. B=”no lançamento do dado sai um número par, e no lançamento
da moeda duas vezes, sai cara na segunda vez”.
iii. C=”no lançamento do dado sai um número menor que 5, e no
lançamento da moeda duas vezes, sai pelo menos uma coroa”.

3. Suponha que você anote o número de dias em que choveu na última se-
mana.

(a) Quem é o espaço amostral?


(b) Quem é o evento A ”ter ocorrido mais dias com chuva do que dias
sem chuva”?
20 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

4. Em uma urna há a bolas amarelas e b bolas brancas. Alguém retira c


bolas da urna sem reposição, de tal forma que c ≤ min{a, b}

(a) Apenas descreva em palavras o espaço amostral.


(b) Quem é o evento A ”ter retirado o mesmo número de bolas brancas
e amarelas”? Quem é A se c for um número ı́mpar?

Relações entre Conjuntos

5. Desenhe o diagrama de Ven do conjunto (A − B) ∪ (B − A)).

6. Desenhe o diagrama de Venn para os seguintes eventos.

(a) A ∩ B ∩ C
(b) Ac ∩ B ∩ C

7. Mostre que para os eventos A e B vale que

(A ∩ B)c = Ac ∪ B c

8. Sejam A, B e C eventos de Ω. Demonstre as seguintes relações:

(a) (Ωc )c = Ω
(b) (Ac )c = A
(c) A ∩ Ac = ∅
(d) A ∪ Ω = Ω
(e) A ∪ Ac = Ω
(f) A ∩ Ω = A
(g) (A ∩ B)c = Ac ∪ B c
(h) (A ∪ B)c = Ac ∩ B c
(i) Ω ∩ (A ∪ B) = (Ω ∩ A) ∪ (Ω ∩ B)
(j) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
(k) A ∪ (B ∩ U ) = (A ∪ B) ∩ (A ∪ C)
(l) (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)
(m) (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C)
(n) A ∪ (B ∪ C) = (A ∪ B) ∪ C
(o) A = (A ∩ B) ∪ (A ∩ B c )
1.2. CONJUNTOS E SUAS RELAÇÕES 21

9. Sejam A e B dois eventos quaisquer. Considere que eles não sejam dis-
juntos (A ∩ B 6= ∅). Mostre que

(a) A ∪ B = (A ∩ B) ∪ (A − B) ∪ (B − A)
(b) A ∪ B = A ∪ (B − A)
(c) A ∪ B = B ∪ (A − B)

10. Sejam A e B dois eventos quaisquer. Considere que eles não sejam dis-
juntos (A ∩ B 6= ∅).

(a) Os eventos (Ac ∩B) e (Ac ∩B c ) são disjuntos? (dica: use os diagramas
de Venn para ter intuição sobre os eventos. )

(b) Mostre que Ac = (Ac ∩ B) ∪ (Ac ∩ B c )


(c) Os eventos (Ac ∩ B), (Ac ∩ B c ) e A ∩ B c são disjuntos?
(d) Mostre que (A ∩ B)c = (Ac ∩ B) ∪ (Ac ∩ B c ) ∪ (A ∩ B c ).

Dicas para os exercı́cios 5, 6 e 7.

• Dica 1: Use os diagramas de Venn para ter intuição sobre os eventos.


ATENÇÃO: Apresentar só os diagramas não será considerado como res-
posta correta. Usar os diagramas tem como objetivo ajudá-lo(a) a entender
melhor as relações entre os conjuntos, o que deve ajudá-lo(a) nas demons-
trações.
• Dica 2: Caso ache estranhas as igualdades acima, mesmo usando os dia-
gramas de Venn, você pode usar um exemplo concreto como: Considere o
lançamento de um dado. Sejam A o evento “sair número ı́mpar”, e B “sair
número menor que 4”. ATENÇÃO: Apresentar só o exemplo também
não será considerado como resposta correta. Usar o exemplo tem como
objetivo ajudá-lo(a) a entender melhor as relações entre os conjuntos, o
que deve ajudá-lo(a) nas demonstrações.

1.2.6 Complementos

Definição 1.2.1 Um conjunto é enumerável se existir uma bijeção entre esse


conjunto e o dos números naturais (N).

Exemplo 1.2.12 Os seguintes conjuntos são denominados enumeráveis.

• (Z) é enumerável : {−3, −2, −1, 0, 1, 2, 3, ...}.

• Todo conjunto finito {a1 ,....an } é enumerável.


22 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

• O conjunto de todas as sequências binárias finitas é enumerável:

{0, 1, 00, 11, 01, 10, 000, 010, 001, 100, ....}.

Observação: Os números binários são utilizados pelo computador para proces-


sar dados. É um sistema de numeração que em vez de utilizar 10 algarismos,
utiliza apenas dois (0,1).

Resumindo, pode se dizer que o Espaço Amostral Ω pode ser um conjunto


finito (exemplos 2.2.1, 1.1.2, 2.1.1 e 1.1.4), infinito enumerável (conjunto dos
números pares) ou infinito não enumerável (conjunto dos números reais do in-
tervalo [0, 1]).

1.3 Abordagem Clássica da Probabilidade


Quando realizamos um experimento aleatório, a pergunta que logo surge é: Qual
a probabilidade de certo evento acontecer?
Assim, para o lançamento de um dado honesto, se perguntamos: Qual a proba-
bilidade de sair um número par? Quase todos respondem (1/2).
Essa conclusão está baseada no conceito primitivo de eventos igualmente prováveis,
pois se o dado for honesto cada uma das faces tem igual probabilidade de sair,
ou seja, (1/6). Assim como temos 3 números pares, a probabilidade de sair um
número par é 3(1/6) = (1/2). Mais informalmente, podemos dizer que metade
das ocorrências correspondem a números pares, ou ainda, contamos o número
de ocorrências que nos interessam e dividimos pelo total.
As duas hipóteses que justificam essa forma de pensar são:

(1) O espaço amostral, Ω = {ω1 , ω2 , . . . , ωn }, é finito.

(2) Cada um dos resultados é equiprovável, ou seja, a probabilidade de cada


um dos eventos elementares ,{wi }(i = 1 . . . , n), ocorrer é (1/n).

Essas hipóteses guiaram as primeiras tentativas de modelamento dos jogos de


azar, principalmente a partir do século XVII. Basicamente, elas nos permitem
dizer que a probabilidade de um evento ocorrer, é o número de resultados fa-
voráveis a esse evento, dividido pelo número total de resultados, condiderando
todos os resultados equiprováveis. Convencionou-se chamar essa abordagem de
versão Clássica da probabilidade. Assim, temos que dado o espaço amostral Ω
e um evento A, a probabilidade de A ocorrer fica definida como:
1.3. ABORDAGEM CLÁSSICA DA PROBABILIDADE 23

n(A) |A|
P(A) = = ,
n(Ω) |Ω|
onde n(A) é o número de elementos de A e que também podemos representar
por |A|, e n(Ω) = |Ω| é o número de elementos de Ω.

Exemplo 1.3.1 Considerando novamente o lançamento de duas moedas iguais,


onde temos
Ω = {HH, HT, T H, T T }.

Seja A o evento ”sair pelo menos uma cara (H)”, ou seja, A = {HH, HT, T H}.
Supondo que as moedas sejam honestas, queremos saber qual é a probabilidade
de A ocorrer.
Temos |A| = 3 e |Ω| = 4, logo pela abordagem clássica, a probabilidade de A
ocorrer é :
3
P(A) = .
4
As hipóteses anteriores nos levam a concluir que:

1. P(A) ≥ 0, para todo A ⊂ Ω. Isto é, não podemos ter um número negativo
de elementos.
|Ω|
2. P(Ω) = = 1.
|Ω|
3. Se A e B são eventos disjuntos então:

P(A ∪ B) = P(A) + P(B).

Exemplo 1.3.2 Sejam A = {ω1 , ω2 , ω3 } e B = {ω4 , ω8 , ω9 , ω10 } even-


tos pertencentes ao espaço amostral, Ω = {ω1 , ω2 , ..., ω10 }. Por meio da
abordagem clássica, temos que

|A| 3 |B| 4
P(A) = = e P(B) = = .
|Ω| 10 |Ω| 10

Sabemos pela relação de união, que A ∪ B = {ω1 , ω2 , ω3 , ω4 , ω8 , ω9 , ω10 }.


Portanto concluimos que a probabilidade da união dos eventos A e B, é a
soma das probabilidades desses dois eventos, ou seja,

|A ∪ B| 7 (3 + 4) 3 4
P(A ∪ B) = = = = + = P(A) + P(B).
|Ω| 10 10 10 10
24 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

1.3.1 Análise combinatória


Vimos na seção anterior que para calcularmos a probabilidade de eventos de um
espaço amostral finito, cujos eventos elementares são equiprovaveis, basta que
contemos o número de elementos do evento em questão e o número de elementos
do espaço amostral (Ω).
Mas quando n for muito grande, contar ”na mão” pode não ser possı́vel. Nesse
caso a análise combinatória é simplesmente um método de contagem que nos
auxilia, para evitar que tenhamos que escrever/enumerar toda a lista de resul-
tados possı́veis. Contudo, são poucos os problemas de contagem que podem ser
resolvidos por meio das técnicas que desenvolveremos nessa seção.
Para motivação vamos considerar dois ”problemas”:

Probema 1: No congresso brasileiro sempre há CPI‘s. A última delas a ser


formada é para investigar o grande número de reprovações nos cursos de cálculo.
A comissão será formada por dois parlamentares, um membro do senado e ou-
tro da câmara dos deputados. Sabemos que o Brasil possui 81 senadores e 513
deputados.
Questão: De quantas maneiras pode ser formada essa comissão?
Vamos começar escolhendo o membro do senado, de quantas maneiras podemos
fazer isso?
Uma vez escolhido o senador, de quantas maneiras podemos escolher um depu-
tado?
Probema 2: Houve um protesto geral pedindo que os membros da CPI fossem
de estados diferentes.
Questão: Considerando esse prostesto, de quantas formas pode ser formada essa
comissão?
Para responder a essa pergunta devemos pensar de duas formas:
1. Podemos escolher primeiro o senador e depois selecionar um deputado que
não seja do mesmo estado do senador escolhido.
2. Como não conhecemos o número de deputados que cada estado apresenta,
mas sabemos que cada estado do paı́s possui três senadores, podemos inverter a
ordem das escolhas. Então após escolher o deputado, escolhemos o senador en-
tre os 78 senadores que não pertence ao mesmo estado do deputado já escolhido.

Usaremos a análise combinatória para resolver casos semelhantes a estes. Vere-


mos que cada problema deverá ser resolvido por meio de um método de contagem
especı́fico.
Para classificar os casos que poderão ser resolvidos pela análise combinatória,
1.3. ABORDAGEM CLÁSSICA DA PROBABILIDADE 25

devemos saber que:

1. Há casos em que a ordem dos elementos dos arranjos importa. Isto é,
quando temos dois arranjos com os mesmos elementos, porém em ordens
distintas, se esses arranjos forem considerados diferentes, então dizemos
que a ordem dos elementos importa. Caso contrário a ordem dos elementos
dos arranjos não importa.

2. Temos também os casos em que os arranjos são feitos com ou sem re-
posição. Em um arranjo com reposição, a idéia fundamental é que esco-
lhido um elemento, nada impede que ele volte a ser escolhido.

Os casos podem ser divididos em:

• (Ordem importa, com reposição)

• (Ordem importa, sem reposição)

• (Ordem não importa, sem reposição)

• (Ordem não importa, com reposição)

1. Ordem importa, com reposição


O número de maneiras distintas para selecionar r elementos com reposição,
de um conjunto com n elementos, é dado por:

(n)r .

Exemplo 1.3.3 As placas de carro no Brasil são formadas por três letras
do alfabeto e quatro algarismos entre 0 e 9. Tanto as letras quanto os
algarismos podem ser repetidos. Assim, se quisermos formar a parte das
letras de uma placa, a escolha da primeira não impõe restrições à escolha
da segunda e a escolha da terceira também será independente das letras
escolhidas anteriormente. Além disso, para formar a parte das letras, a
ordem das letras escolhidas importa. Isto é, duas placas que possuam a
mesma sequência de algarismos, mas a parte de letras de uma é ABC e
da outra é CBA, são consideradas diferentes.
Logo, a escolha de letras de uma placa de carro no Brasil, pode ser feita
de (26)3 maneiras.

Exemplo 1.3.4 O lançamento de uma moeda é um exemplo com re-


posição. O espaço amostral é Ω = {H, T }.
26 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

O fato de obtermos cara, não impede em obter cara novamente no próximo


lançamento.
Portanto, jogando-se uma moeda n vezes, temos (2)n resultados possı́veis.

2. Ordem importa, sem reposição


O número de maneiras distintas para selecionar r elementos sem reposição,
de um conjunto com n elementos, denotado como (n)r , é dado por:

(n)r = n(n − 1) . . . n(n − r + 1).

Ou seja, temos n possibilidades na seleção do primeiro elemento, (n − 1)


possibilidades na seleção do segundo e assim por diante até chegar a
(n − (r − 1)) possibilidades na seleção do último elemento.

Observação: Como selecionamos os objetos sem reposição, não pode-


mos ter r maior que n , ou seja, nesse caso r ≤ n.
Alguns casos especiais:

a) Quando n = r. O número de maneiras de ordenar n elementos distintos


é:
n! = n(n − 1) . . . (2)(1).
Esse número é chamado de fatorial de n. Por convenção, 0! = 1.

Exemplo 1.3.5 Tenho 10 livros diferentes e quero distribuı́-los na


primeira parte de uma prateleira, de quantas maneiras diferentes
posso fazer isso?
Resposta: 10!.

Exemplo 1.3.6 Quantos anagramas da palavra VIDA podemos con-


seguir?
Resposta: 4!.

b) O que fizemos no caso anterior, foi arranjar os objetos em uma linha


ou um ao lado do outro. Um outro caso especial consiste arranjá-los
em um cı́rculo. Por exemplo, podemos pensar numa mesa redonda
com n lugares, onde se sentarão n pessoas para uma reunião.
Temos que, o número de maneiras de dispor n objetos distintos em
torno de um cı́rculo é (n − 1)!. Nessa contagem interessa apenas a
posição relativa dos objetos entre si, ou seja, duas disposições são
consideradas indistinguı́veis se uma pode ser obtida da outra através
de uma rotação conveniente dos objetos.
1.3. ABORDAGEM CLÁSSICA DA PROBABILIDADE 27

Exemplo 1.3.7 O presidente e os 10 diretores de uma empresa vão


se reunir numa sala onde há uma mesa redonda. De quantas manei-
ras os 11 executivos podem se sentar?
Primeiro observamos que se cada uma das pessoas mudar para a ca-
deira à sua direita, a distribuição das pessoas na mesa continua igual
a anterior. O mesmo acontece se todas as pessoas mudarem para a
cadeira à sua esquerda. Agora, se duas pessoas trocarem de lugar,
entre si, a disposição muda e temos um novo arranjo.
Voltando à reunião dos executivos, vamos introduzir o tempo para
facilitar a contagem dos casos:
O presidente senta primeiro (não importando a cadeira que ele es-
colheu para se sentar). Temos que os demais lugares deixaram de
ser equivalentes. Por exemplo, temos a primeira cadeira à direita do
presidente e a primeira cadeira à esquerda do presidente, a quarta
à direita do presidente e a quarta à esquerda do presidente, e assim
por diante.
Portanto agora devemos perguntar: De quantas maneiras os 10 dire-
tores podem se sentar em 10 cadeiras diferentes?
Resposta: (n − 1)! = (11 − 1)! = 10!.
c) Mais um caso. O número de maneiras distintas de arranjar n objetos,
sendo que r são iguais, é dado por:
n!
.
(n − r)!
Exemplo 1.3.8 De quantas formas as letras da palavra AMAR po-
dem ser arranjadas, ou seja, quantos anagramas tem a palavra AMAR
?
Se todas as letras fossem diferentes, A e A, por exemplo, terı́amos 4!
anagramas. Mas agora temos duas letras A, logo muitos anagramas
são idênticos. Por exemplo:
(AM A R = AMAR e MARA = MARA),
são o mesmo anagrama.
Nesse caso, como temos duas letras repetidas, contamos duas vezes
cada anagrama. Então para obter o número de anagramas, dividimos
4! por 2. Isto é, temos que n = 4 e r = 2, assim o número de
anagramas da palavra AMAR, é dado por:
n! 4!
= = 2.
(n − r)! (4 − 2)
28 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

Exemplo 1.3.9 Já no caso da palavra BATATA temos mais de uma


letra que se repete.
Portanto novamente teremos anagramas idênticos. Temos dois T ’s:
T eT

(BaT AtA = BAT Ata = BAT atA


= BaT AtA = BAT atA = BAT Ata)

e também

(ATAT aB = AT ATaB),

são o mesmo anagrama.


Portanto o número de anagramas da palavra BATATA será:
n! 6! 6!
= = = 5.
(n − r1 )!(n − r2 )! (6 − 3)!(6 − 2)! 3! 4!

Vemos que agora o denominador da fómula apresenta uma multi-


plicação, isso acontece pelo fato, de que além da letra A, a letra T
também se repete.
Em geral, se tivermos uma palavra ou um anagrama com várias letras
repetidas usaremos o mesmo método.

3. Ordem não importa, sem reposição


A idéia aqui será utilizar os métodos expostos acima. Tanto no caso (2)
como no caso (3) vamos selecionar r objetos dentre n, sem reposição.
Vimos que há n!/(n − r!) maneiras de selecionar r objetos dentre n, se a
ordem for levada em conta.
Já o número de maneiras para escolher r objetos entre n objetos, sem
reposição e independentemente da ordem, será denotado por:
!
n n!
= .
r (n − r)! r!

Exemplo 1.3.10 De quantas formas diferentes podem ser criadas CPMI’s


com 10 senadores no Congresso brasileiro?
Como vimos anteriormente, temos no Brasil 81 senadores. Assim para
selecionar 10 senadores num total de 81, fazemos r = 10 e n = 81.
Portanto o número de escolhas para selecionar 10 senadores que partici-
parão de apenas uma CPMI e não importando a ordem de convocação de
cada senador, será:
1.3. ABORDAGEM CLÁSSICA DA PROBABILIDADE 29
!
81 81!
= .
10 (81 − 10)! 10!

Exemplo 1.3.11 De quantas maneiras podemos selecionar uma comissão


discente com 3 membros, para representar uma classe de 18 alunos?
Uma possı́vel comissão seria formada por:

Ana, Paulo, Cláudia = Cláudia, Paulo, Ana = Ana, Cláudia, Paulo =


= Cláudia, Ana, Paulo = Paulo, Cláudia, Ana = Paulo, Ana, Cláudia.

Estamos contando a mesma comissão (6 = 3!) vezes. Assim como no


outro caso, temos que dividir n por (3!).
Portanto o número de comissões diferentes formadas por 3 alunos de uma
sala com 18, será dado por:
!
18 18!
= = 816.
3 15!3!

Exemplo 1.3.12 Numa prova, um estudante deve responder exatamente


7 questões de um total de 10 questões. Quantas escolhas ele tem? Quantas
escolhas ele tem se entre as 7 questões deve responder pelo menos 3 das
primeiras 5 questões?
O estudante deve escolher um subconjunto
! de tamanho 7 de um conjunto
10
com 10 elementos, logo tem = 120 escolhas.
7

No caso em que entre as 7 questões deve responder pelo menos 3 das


primeiras 5 questões, o estudante possui três opções (disjuntas):
- Escolher exatamente 3 das primeiras 5 questões e 4 das 5 últimas;
- Escolher exatamente 4 das primeiras 5 questões e 3 das 5 últimas;
- Escolher as 5 primeiras questões e 2 das 5 últimas.
Assim, o total de escolhas que ele tem, é
! ! ! ! ! !
5 5 5 5 5 5
= + + = 110.
3 4 4 3 2 2

Outra resposta para a segunda pergunta:


! !
5 5
120 - = 110.
2 2
30 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

(4) Ordem não importa, com reposição


Esse caso é bem diferente dos anteriores, pois consiste em escolher r ob-
jetos dentre n, com reposição e não importando a ordem.
Temos que o número de maneiras de escolha nesse caso, é denotado por:
!
n+r−1 (n + r − 1)!
=
r (n − 1)!r!

Exemplo 1.3.13 De quantas maneiras podemos comprar 5 potes de sor-


vete, numa sorveteria em que há 4 sabores?
Como a escolha dos potes pode ser feita em qualquer ordem, e poderá ser
escolhido sabores repetidos, temos que haverá
! ! !
n+r−1 4+5−1 8
= = = 56,
r 5 5

maneiras de escolha.

Exemplo 1.3.14 Um dado é lançado 3 vezes de maneira independente. O que


é mais possı́vel acontecer: a soma dos resultados ser 11 ou ser 12?
Antes de começarmos vamos verificar quantas combinações de 3 números entre
1 e 6 dão soma 11:

• As triplas (1,4,6), (2,3,6), (2,4,5) são formadas por três números diferen-
tes, então cada uma apresenta 6 combinações.

• Já as triplas (3,3,5), (3,4,4), (1,5,5) apresentam dois números iguais cada
uma, então possuem 3 combinações.

Seja A o conjunto das triplas, cujos algarismos somam 11, então A possui 27
elementos. Ou seja, existem 27 combinações em que a soma dos resultados de
3 lançamentos de um dado é igual a 11.
Agora temos que verificar quantas combinações de 3 números entre 1 e 6 somam
12:

• As triplas (1,5,6), (4,3,6), (3,4,5) como possuem 3 números distintos,


apresentam cada uma 6 combinações.

• Ambas as triplas (2,5,5) e (3,3,6) possuem dois números iguais, logo apre-
sentam 3 combinações.
1.3. ABORDAGEM CLÁSSICA DA PROBABILIDADE 31

• Temos também a tripla (4,4,4), que é formada só pelo número 4, que
portanto apresenta uma combinação.
Seja B o conjunto das triplas, cujos algarismos somam 12, então B possui 25
elementos. Ou seja, existem 25 combinações em que a soma dos resultados de
3 lançamentos de um dado é igual a 12.
Sabemos que o número de triplas é igual a 216, ou seja, |Ω| = (6)3 = 216.
Assim, a probabilidade de sair soma igual a 11 e a 12, é dada por:
|A| 27
P(”sair soma 11”) = = .
|Ω| 216
|B| 25
P(”sair soma 12”) = = .
|Ω| 216
Portanto vemos que a probabilidade de sair soma 11 em 3 lançamentos de um
dado, é maior do que sair soma 12.

Mas nem sempre é possı́vel calcular probabilidade, através da abordagem


clássica. Dois fatores podem impedir:
1. Ω não ter um número finito de elementos.

Exemplo 1.3.15 Jogando uma moeda repetidas vezes até aparecer cara
(H), temos que

Ω = {H, T H, T T H, . . . , T T T T H, . . . , T T T T T T T T T T H, . . .}.

Observamos que nesse caso o espaço amostral é um conjunto com um


número infinito (enumerável) de elementos, logo a versão clássica da pro-
babilidade não se aplica.

2. Ω finito, mas os eventos elementares não são equiprováveis.

Exemplo 1.3.16 Considerando o Experimento Aleatório que consiste em


jogar dados viciados de um Cassino, sabemos que existe mais chance de
sair um ou mais números.
Assim podemos ter que o número 1 e o número 3, apresentam maior
probabilidade de sair do que os demais:
1 1
P({1}) = , P({3}) = ,...
4 3
Além disso, devemos observar que a chamada abordagem clássica da probabili-
dade, não se sustenta, pois é definida a partir da premissa dos eventos elemen-
tares serem igualmente prováveis. Ou seja, é uma versão de probabilidade que
já em si, usa o conceito de probabildade.
32 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

1.4 Abordagem Frequentista da Probabilidade


No século XVII Jacob Bernoulli realizou estudos de probabilidade, que consis-
tiam em determinar a probabilidade de um evento ocorrer, quando Ω não fosse
finito.
Em seus estudos, repetia n vezes um experimento aleatório e depois dividia o
número de vezes em que o evento de interesse ocorria pelo total de repetições,
no caso n. Essa razão é chamada de frequência relativa de um evento.
Bernoulli concluiu que numa série imensa de experimentos, a frequência rela-
tiva de um evento se aproxima cada vez mais da sua probabilidade. Em outras
palavras, quando se repete um experimento um número suficientemente grande
de vezes é possı́vel, substituir a expressão ”Frequência Relativa” por ”Probabi-
lidade”com erro desprezı́vel. Essa abordagem é comumente chamada de abor-
dagem frequentista da probabilidade.
Nesse caso, o ponto mais delicado é decidir quantas vezes é necessário repetir o
experimento para se fazer a atribuição de probabilidades, com alguma garantia
de não se estar muito distante do verdadeiro valor. Porém, essa questão será
vista na parte de Inferência Estatı́stica, onde será apresentada a Lei dos Gran-
des Números.
Mais tarde outros matemáticos continuaram desenvolvendo os estudo de Ber-
noulli. No século XVIII, o naturalista francês, Conde de Buffon, realizou 4040
lançamentos de uma moeda e observou a ocorrência de 2048 caras, obtendo uma
frequência relativa de 0,5064. No inı́cio do século, por volta de 1900, o inglês
Karl Pearson realizou 24000 lançamentos de moedas, obtendo 12012 caras e uma
frequência relativa de 0,5005. Percebe-se então que, com o aumento do número
de realizações do experimento, a frequência relativa de caras tende a convergir
para a real probabilidade de ocorrência de cara.
A abordagem frequentista da probabilidade é bastante utilizada por estátisticos
aplicados e demais profissionais que trabalham com dados em geral. A partir

das idéias acima podemos fazer a seguinte definição:


Definição 1.4.1 Seja n(A) o número de vezes em que um evento A ocorre em
n repetições de um experimento aleatório. Assumindo que a frequência relativa
de A convirja para um limite, temos que esse limite será a probabilidade de A,
denotada por
n(A)
P(A) = lim .
n→+∞ n
Essa definição apresenta algumas propriedades:
1. P(A) ≥ 0, ∀ A ⊂ Ω.
1.5. DEFINIÇÃO AXIOMÁTICA DE PROBABILIDADE 33

2. P(Ω) = 1.

3. Para A e B, tal que (A ∩ B) = ∅, temos


 
n(A ∪ B) n(A) n(B)
P(A ∪ B) = lim = lim +
n→+∞ n n→+∞ n n

n(A) n(B)
= lim + lim .
n→+∞ n n→+∞ n

As abordagens anteriores estão de acordo com apenas nossa intuição, com


relação ao conceito de probabilidade. Contudo para derivarmos resultados mais
profundos e abrangentes, é necessário definir probabilidade por meio de axiomas
que na verdade justificam as abordagens Clássica e Frequentista.

1.5 Definição Axiomática de Probabilidade


Probabilidade é uma função, denotada por P, definida para cada evento de Ω,
assumindo valores no intervalo [0, 1] e satisfazendo os seguintes axiomas:

(A1 ) P(A) ≥ 0 para todo A ⊂ Ω;

(A2 ) P(Ω) = 1;

(A3 ) Para uma sequência infinita de eventos disjuntos, temos que:



[ ∞
X
P( Ai ) = P(Ai ).
i=1 i=1

Propriedades decorrentes dessa definição:

1. P(Ac ) = 1 − P(A).
Prova:
Sabemos que Ω = A ∪ Ac , o que implica que

P(Ω) = P(A ∪ Ac ) (1.1)

Do axioma 2, temos que a probabilidade do espaço amostral é 1, ou seja,

P(Ω) = 1 (1.2)

e pelo axioma 3, temos que

P(A ∪ Ac ) = P(A) + P(Ac ) (1.3)

Substituindo (1.2) e (1.3) em (1.1) temos:


34 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

1 = P(A) + P(Ac )

Logo, temos que P(Ac ) = 1 − P(A), finalizando a prova.

2. Da propriedade anterior decorre que P(∅) = 0.


Prova:
Sabemos que Ωc = ∅.
Portanto, P(Ωc ) = P(∅) = 1 − P(Ω) = 0.

3. Se A ⊂ B, então P(A) ≤ P(B).


Prova:
Seja A ⊂ B, temos que B = A ∪ (B ∩ Ac ) , o que implica que
P(B) = P(A ∪ (B ∩ Ac )).
Sendo A e B disjuntos, pelo axioma 3 temos que
P(B) = P(A) + P(B ∩ Ac ), o que implica em:

P(A) = P(B) − P(B ∩ Ac ).

Devido ao axioma 1, sabemos que P(B ∩ Ac ) é positivo, logo

P(A) ≤ P(B).

4. P(A ∪ B) = P(A) + P(B) − P(A ∩ B).


Prova:
Se A ∪ B = A ∪ (B ∩ Ac ), temos que P(A ∪ B) = P(A ∪ (B ∩ Ac )).
Sendo A e B disjuntos, pelo axioma 3

P(A ∪ B) = P(A) + P(B ∩ Ac ). (1.4)

Seja B = (A ∩ B) ∪ (B ∩ Ac ), pelo axioma 3, temos

P(B) = P(A ∩ B) + P(B ∩ Ac ). (1.5)

Somando (1.4) e (1.5), obtemos P(A) + P(B) = P(A ∪ B) + P(A ∩ B), o


que implica em

P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

Exemplo 1.5.1 Seja A o evento sair um número par, no lançamento de um


dado honesto. Quando nos baseamos na Abordagem Clássica da Probabilidade
deduzimos que:
1.6. EXERCÍCIOS 35

|A| 3 1
P(A) = = = .
|Ω| 6 2
Essa afirmação está correta, pois sabemos que o dado nesse caso é honesto e
portanto os eventos elementares são equiprováveis.
Agora iremos analisar P(A) pelos axiomas da Definição Axiomática. temos que:

P(A) = P({2, 4, 6}) = P({2} ∪ {4} ∪ {6}).

Como os eventos elementares são disjuntos, pelo axioma 3, tem-se:


1 1 1 1
P(A) = P({2}) + P({4}) + P({6}) = + + = .
6 6 6 2
Portanto pela definição axiomática, obtemos que a probabilidade de sair um
1
número par no lançamento de um dado é .
2

1.6 Exercı́cios
1. Sejam A e B dois eventos de um espaço amostral. Suponha que P(A) =
0.4, P(B) = 0.5 e P(A ∩ B) = 0.1. Encontre a probabilidade de A e B
ocorrerem, mas não ambos ao mesmo tempo ((A − B) ∪ (B − A)).

2. Sejam C e D dois eventos de um espaço amostral para os quais se sabe


que P(C) = 0.3, P(D) = 0.4 e P(C ∩ D) = 0.2. Encontre P(D − C).

3. Mostre que a probabilidade de exatamente um dos eventos A ou B ocorrer


é P(A) + P(B) − 2P(A ∩ B)

4. Seja o espaço de probabilidade (Ω, P). Sejam A e B eventos (subconjuntos


de Ω), tais que
1 1 1
P(A) = , P(B) = , P(A ∩ B) = .
2 4 5
Encontre:

(a) P(A ∪ B);


(b) P(Ac );
(c) P(B c );
(d) P(Ac ∩ B c ).

5. Seja Ω = {ω1 , ω2 , ω3 , ω4 , ω5 , ω6 }. E sejam os eventos

(A − B) = {ω1 }, (B − A) = {ω4 , ω6 }, (A ∪ B) = {ω1 , ω3 , ω4 , ω6 }


36 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

(a) Determine: A ∩ B e Ac ∩ B c .
(b) Agora, considere que os eventos elementares são equiprováveis. De-
termine: P(A) e P(B).
2
6. Sejam A e B eventos, tais que P(A) = 3 e P(B) = 94 . Mostre que

a. P(A ∪ B) ≥ 23 ;
2
b. 9 ≤ P(A ∩ B c ) ≤ 95 ;
1
c. 9 ≤ P(A ∩ B) ≤ 49 .

7. Segundo dados meteorológicos, em certa região no inverno, há 20% de


chance do tempo estar úmido, 30% de chance de estar ventando e 40% de
chance do tempo estar úmido e com vento. Encontre as probabilidades do
seguintes eventos:

(a) ”o tempo está seco”.


(b) ”o tempo está seco e há vento”.
(c) ”o tempo está úmido ou com vento”.

1.7 Álgebra e σ - Álgebra


Definição 1.7.1 Uma coleção não vazia de subconjuntos de Ω, que é fechada
sob finitas operações da teoria de conjuntos, é chamada de Álgebra de subcon-
juntos de Ω.
Definimos então como A (Álgebra), uma coleção não vazia de subconjuntos de
Ω, tendo as seguintes propriedades:

(i) Ω ∈ A;

(ii) Se A ∈ A, então Ac ∈ A;

(iii) Se A e B ∈ A, então A ∪ B e A ∩ B ∈ A .

Agora vamos na direção de uma classe de eventos mais restritiva. Exigiremos


que A seja fechada não somente a um número finito de operações da teoria
dos conjuntos mas também, sob um número infinito e enumerável de operações
da teoria dos conjuntos, ou seja: Se {An } , para n ≤ 1 é uma sequência de
conjuntos em A, exigiremos que
S∞ T∞
n=1 An ∈ A e n=1 An ∈ A.
1.7. ÁLGEBRA E σ - ÁLGEBRA 37

Definição 1.7.2 Uma coleção de subconjuntos de um espaço amostral Ω, que é


fechada sob um número infinito enumerável de operações da teoria dos conjuntos
é chamada σ - Álgebra de subconjuntos de Ω.
Diz- se que uma coleção de subconjuntos de Ω é uma σ - Álgebra de conjuntos
de Ω, desde que as seguintes propriedades sejam satisfeitas:

(i) Ω ∈ A;

(ii) Se A ∈ A, então Ac ∈ A;
S∞ T∞
(iii) Se An ∈ A, tal que n ∈ N, então n=1 An ∈ A e n=1 An ∈ A.

Exemplo 1.7.1 (A menor σ - álgebra gerada por um subconjunto).


Em várias situações, nosso interesse é construir uma σ - álgebra que tenha entre
seus elementos, um particular subconjunto A ⊂ Ω.
Seja F = {∅, A, Ac , Ω} uma σ - álgebra , sendo A um de seus elementos, qual-
quer outra σ - álgebra que também possuir A será ”maior”, isto é , terá os
elementos de F e eventualmente mais alguns.
Por isso F é definida como a σ - álgebra gerada por A ou, ainda, como a
interseção de todas as σ - álgebras que contém o subconjunto A. Numa de-
nominação mais informal diremos que F é a menor σ - álgebra que contém o
subconjunto A.

Exemplo 1.7.2 Considere Ω = {1, 2, 3} e as seguintes coleções de subconjun-


tos: A = {∅, Ω, {1}, {2, 3}} e F = {∅, Ω, {1}, {2}, {1, 3}, {2, 3}}.
Seriam ambas σ− álgebra ?
Para responder, devemos verificar se A e F satisfazem os itens (i), (ii) e (iii)
da definição.
Para A:

(i) Ω ∈ A.

(ii) Ac ∈ A, pois (Ωc = ∅, ∅c = Ω, {1}c = {2, 3}, {2, 3}c = {1}) ∈ A.



[
(iii) An ∈ A , pois ({1} ∪ {2, 3} = Ω) ∈ A.
n=1

A satisfaz todos os itens, logo A é uma σ− álgebra.


Para F:

(i) Ω ∈ F.

(ii) Ac ∈ F, pois (Ωc = ∅, {1}c = {2, 3}, {2}c = {1, 3}, ∅c = Ω, {1, 3}c =
{2}, {2, 3}c = {1}) ∈ F.
38 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS


[
(iii) An ∈
/ F, pois ({1} ∪ {2} = {1, 2}) ∈
/ F.
n=1

F não satisfaz (iii), logo não é uma σ− álgebra.

Para os exemplos que trataremos neste texto, onde Ω é finito, e a σ−álgebra


envolvida é o conjunto de todos os eventos de Ω, que é o chamado Conjuntos
das Partes de Ω.

1.8 Espaço de Probabilidade


Definição 1.8.1 Um espaço de probabilidade, é representado pela tripla (Ω,A,P),
no qual, dado um experimento, Ω representa o conjunto de todos os resultados
possı́veis; A representa uma σ - álgebra (neste texto - conjunto das partes )
e P(.) é a função de probabilidade, cujo domı́nio é A e o contradomı́nio é o
intervalo [0,1].

Exemplo 1.8.1 Sejam Ω = {0, 1}, A = {∅, {0}, {1}, {0, 1}} e p, tal que 0 ≤
p ≤ 1.
Definindo P({1}) = p e P({0}) = 1 − p.
Então (Ω, A, P) é um espaço de probabilidade.

1.9 Probabilidade Condicional


Considerando novamente o lançamento de dois dados honestos, vamos chamar
de A o evento ”sair o total 6 ”, ou seja, A = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}.
Como |A| = 5 e como já vimos |Ω| = 36, pela abordagem clássica, temos que:

5 5 1
P(A) = ∼ = .
36 35 7
Vamos supor que não se presencie os lançamentos dos dados, mas se receba a
seguinte informação: ”saiu 1 no primeiro dado ”. Nestas condições, pergunta-
se: Qual é a probabilidade de A dado essa nova informação? Ou seja, qual a
probabilidade do total ser 6 no lançamento de dois dados honestos, sendo que
o resultado do primeiro dado é igual a 1?
Com essa nova informação temos um novo espaço amostral, pois agora vamos
considerar apenas os lançamentos em que saiu 1 no primeiro dado, ou seja,
podemos considerar o evento ”saiu 1 no primeiro dado” como o novo espaço
amostral para o experimento. Isto é,
1.9. PROBABILIDADE CONDICIONAL 39

Ω = {(1, 1); (1, 2); (1, 3); (1, 4); (1, 5); (1, 6)}.

A probabilidade ”atual”, ou seja, nesse caso a probabilidade de A dado que o


resultado do primeiro dado é igual a 1 é chamada de probabilidade condicional.

Definição 1.9.1 Seja (Ω, P) um espaço de probabilidade, com A e B eventos


de Ω, com P(B) > 0. A probabilidade condicional de qualquer evento A, dado
um evento B é definida por:
P(A ∩ B)
P(A|B) = .
P(B)
Vamos verificar os três axiomas da definição axiomática para P(A|B):

1. Primeiro precisamos verificar se P(A|B) ≥ 0.


Se ∅ ⊂ (A ∩ B), temos que 0 = P(∅) ≤ P(A ∩ B).
Então
P(A ∩ B) P(∅)
P(A|B) = ≥ =0 (1.6)
P(B) P(B)
Por (1.6), concluı́mos que P(A|B) ≥ 0.

2. Agora vamos verificar se P(Ω|B) = 1. Seja B um evento de Ω. Temos


que:
P(Ω ∩ B) P(B)
P(Ω|B) = = = 1.
P(B) P(B)
3. O axioma 3 diz que, dado dois ou mais eventos disjuntos, a probabilidade
conjunta desses eventos é igual a soma de cada um dos eventos. Portanto,
dado A1 e A2 tais que A1 ∩ A2 = ∅, temos que verificar se P(A1 ∪ A2 |B) =
P(A1 |B) + P(A2 |B):
P((A1 ∪ A2 ) ∩ B) P((A1 ∩ B) ∪ (A2 ∩ B))
P(A1 ∪ A2 |B) = =
P(B) P(B)

P(A1 ∩ B) P(A2 ∩ B)
= + = P(A1 |B) + P(A2 |B).
P(B) P(B)

A partir desses três itens, vemos que a probabilidade condicional satisfaz


os axiomas da definição axiomática.

Exemplo 1.9.1 Considerando novamente o lançamento de dois dados,


seja A o evento sair o total 6 nos dois lançamentos e B o evento sair o
número 1 no primeiro dado, B = {(1, 1); (1, 2); (1, 3); (1, 4); (1, 5); (1, 6)}.
Então temos que A ∩ B = {(1, 5), (5, 1)}, que implica em P(A ∩ B) = 2/36.
Portanto a probablidade de A, dado que o evento B ocorreu, é:
40 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

P(A ∩ B) 2/36 1
P(A|B) = = = .
P(B) 6/36 3

Exemplo 1.9.2 Em um reino, há um rei que vem de uma famı́lia de dois
filhos. Nestas condições pergunta-se: Qual é a probabilidade do rei ter
uma irmã?
Vamos denotar por H e M , se o irmão do rei for homem ou mulher,
respectivamente.
O espaço amostral em questão é Ω = {(H, H), (H, M ), (M, H), (M, M )}.
Vamos assumir que os quatros eventos elementares sejam equiprováveis.
Sejam U e V dois eventos:
U : ”uma das crianças é uma menina ”, ou seja U = {(H, M ), (M, H), (M, M )}.
V : ”uma das crianças é o rei ”, ou seja V = {(H, H), (H, M ), (M, H)}.
U ∩ V : ”uma das crianças é uma menina e a outra criança é o rei ”, ou
seja U ∩ V = {(H, M ), (M, H)}.
Logo, a probabilidade do rei ter uma irmã, é dada por:
P(U ∩ V )) 2/4 2
P(U |V ) = = = .
P(V ) 3/4 3

1.9.1 Teorema do Produto

A partir da definição de probabilidade condicional, podemos obter a se-


guinte expressão:

P(A ∩ B) = P(B)P(A|B) = P(A)P(B|A),

para P(A) e P(B) maiores que zero.

Exemplo 1.9.3 Uma urna contém 5 bolas brancas e 2 bolas azuis. Uma
bola é retirada e, sem reposição, uma segunda bola é retirada. Qual a
probabilidade de ambas serem brancas?
Sendo A e B dois eventos:
A: a primeira bola retirada é branca.
B: a segunda bola retirada é branca.
Esses dois eventos são dependentes, pois a probabilidade de ocorrência de
B depende do que ocorreu na retirada da primeira bola. Temos que
5
P(A) = .
7
1.9. PROBABILIDADE CONDICIONAL 41

Tendo sido retirada uma bola branca e não havendo reposição na urna,
restam agora 6 bolas, onde quatro são brancas. Logo, a probabilidade de
retirar-se outra bola branca é
4 2
P(B|A) = = .
6 3
Portanto,
52 10
P(A ∩ B) = P(A)P(B|A) = = .
73 21

Exemplo 1.9.4 Sabe-se que 80% dos pênaltis marcados a favor do Brasil,
são cobrados por jogadores do Flamengo. A probabilidade de um pênalti
ser convertido é de 40% se o cobrador for do Flamengo e de 70% caso
contrário.
Um pênalti a favor do Brasil acabou de ser marcado: Qual a probabilidade
do pênalti ser cobrado por um jogador do Flamengo e ser convertido?
Sendo A e B os eventos:
A: ”cobrador do Flamengo ”.
B: ”pênalti é convertido”.
O que queremos saber é a probabilidade do seguinte evento: A ∩ B.
Logo, pelo Teorema do Produto

P(A ∩ B) = P(A)P(B|A) = (0, 8).(0, 4) = 0, 32.

1.9.2 Teorema da Multiplicação

Seja (Ω, P) um espaço de probabilidade e A1 , A2 . . . , An eventos de Ω, tais


que P(Ai ) > 0 para todo i, tem-se:

P(A1 ∩A2 ∩. . .∩An ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩A2 ) . . . P(An |A1 ∩. . .∩An−1 ).

Vemos que o Teorema da multiplicação é uma generalização do Teorema


do Produto, de modo que agora temos a probabilidade da intersecção de n
eventos A1 , A2 , ...An , por meio das probabilidades condicionais sucessivas.
Para verificar que a fómula funciona, vamos considerar os eventos A1 , A2 , A3 ∈
Ω. A probabilidade de A3 dado que a intersecção de A1 e A2 ocorreu é

P((A1 ∩ A2 ) ∩ A3 )
P(A3 |A1 ∩ A2 ) =
P(A1 ∩ A2 )
42 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

Daı́ decorre que

P((A1 ∩A2 )∩A3 ) = P(A3 |A1 ∩A2 )P(A1 ∩A2 ) = P(A3 |A1 ∩A2 )P(A2 |A1 )P(A1 ).

A prova para n eventos é feita por indução.

Exemplo 1.9.5 Uma urna contém 10 bolas idênticas das quais 5 são pre-
tas, 3 são vermelhas e 2 são brancas. Quatro bolas são retiradas uma a
uma e sem reposição. Encontre a probabilidade da primeira bola ser preta,
da segunda ser vermelha, da terceira ser branca, e da quarta ser preta
também.
Vamos denotar por:
A1 o evento em que a primeira bola retirada é preta;
A2 o evento em que a segunda bola retirada é vermelha;
A3 o evento em que a terceira bola retirada é branca;
A4 o evento em que a quarta bola retirada é preta;
Sabendo que Ω será formado por todas as combinações possı́veis de 4 bolas,
qual a probabilidade pedida?
Queremos saber a probabiliade de inrterseção desses 4 eventos elementa-
res, assim a probabilidade de interesse será denotada por

P(A1 ∩ A2 ∩ A3 ∩ A4 ) = P(A4 |A1 ∩ A2 ∩ A3 )P(A3 |A2 ∩ A1 )P(A2 |A1 )P(A1 ).

Vamos assumir que em cada passo os eventos elementares de Ω sejam


equiprováveis. Sabendo que
5 3 2 4
P(A1 ) = , P(A2 |A1 ) = , P(A3 |A2 ∩ A1 ) = , P(A4 |A1 ∩ A2 ∩ A3 ) = .
10 9 8 7
Obtemos
5 324 1
P(A1 ∩ A2 ∩ A3 ∩ A4 ) = = .
10 9 8 7 42

1.9.3 Conceito de Partição de Ω

Dizemos que a coleção {A1 , A2 , ...An } forma uma partição de Ω, se seus


elementos forem disjuntos, ou seja, Ai ∩ Aj = ∅ para todo i e todo j com
n
[
i 6= j, e se a sua união, denotada por Ai , for igual a Ω.
i=1
Seja B um evento, tal que B ⊂ Ω. De maneira geral, para uma partição
{A1 , A2 , ...An } de Ω, temos que:
n
[
B= (B ∩ Ai ).
i=1
1.9. PROBABILIDADE CONDICIONAL 43

Isso implica em
n
[ n
X n
X
P(B) = P( B ∩ Ai ) = P(B ∩ Ai ) = P(B|Ai )P(Ai ).
i=1 i=1 i=1

1.9.4 Teorema da Probabilidade Total

Seja {A1 , A2 , ...An } uma partição de Ω e B um evento. Sendo P(Ai ) > 0


para todo i, temos que:

P(B) = P(A1 ∩ B) + ... + P(An ∩ B)


= P(A1 )P(B|A1 ) + ... + P(An )P(B|An )
Xn
= P(B|Ai )P(Ai )
i=1

Exemplo 1.9.6 Observou-se um posto de gasolina da BR. A proporção


de motoristas que usam gasolina comum, gasolina aditivada e gasolina
premium durante um certo perı́odo de tempo é: 30%, 35% e 25% respecti-
vamente. A proporção com que os motoristas enchem o tanque com essas
gasolinas é: 30%, 50% e 60%. Qual é a probabilidade de um motorista se-
lecionado de maneira aleatória dentre os clientes do posto, e nesse mesmo
perı́odo de tempo colocar gasolina no seu tanque?
Denotamos os seguintes eventos:
E - ”encher o tanque no perı́odo de tempo considerado ”.
A1 - ”motorista usa gasolina comum ”.
A2 - ”motorista usa gasolina aditivada ”.
A3 - ”motorista usa gasolina premium ”.
A partir desses eventos obtemos as seguintes probabilidades:
P(A1 ) = 0.4, P(A2 ) = 0.35, P(A3 ) = 0.25,
P(E|A1 ) = 0.3, P(E|A2 ) = 0.5 e P(E|A3 ) = 0.6.
Seja {A1 , A2 , A3 } a partição de Ω e E o evento de interesse. Pelo teorema
da probabilidade total, temos que:

P(E) = P(A1 )P(E|A1 ) + P(A2 )P(E|A2 ) + P(A3 )P(E|A3 )


= (0.4)(0.3) + (0.35)(0.5) + (0.25)(0.6) = 0.445.
44 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

1.9.5 Fórmula de Bayes

Seja B um evento e {A1 , A2 e A3 } uma partição do espaço amostral Ω.


Assumindo que P(Ai ) > 0 para i = 1, 2 e 3, temos uma outra aplicação
da probabilidade condicional:

P(Ai )P(B|Ai )
P(Ai |B) = .
P(A1 )P(B|A1 ) + P(A2 )P(B|A2 ) + P(A3 )P(B|A3 )

Podemos escrever essa mesma fórmula para A1 e A2 .


Observem que se tomarmos um evento A, então A e Ac formam uma
partição de Ω. Temos assim que

P(A ∩ B) P(A)P(B|A)
P(A|B) = = .
P(B) P(A)P(B|A) + P(Ac )P(B|Ac )

Exemplo 1.9.7 Durante o mês de agosto a probabilidade de chuva em


um dia determinadado é de 4/10.
O Fluminense ganha um jogo em um dia com chuva com probabilidade
6/10 e em um dia sem chuva com probabilidade 4/10.
Sabendo-se que o Fluminense ganhou um jogo num dia de agosto, qual a
probabilidade de que tenha chovido nesse dia?
Denotamos os eventos por:
A - ”O Fluminense ganhou o jogo ”.
A1 - ”Choveu ”.
A2 - ”Não choveu ”.
As probabilidades de vitória do Fluminense, em dias de chuva e em dias
sem chuva, são respectivamente:
6 4
P(A|A1 ) = e P(A|A2 ) = .
10 10
Portanto, a probabilidade de ter chovido em um dia em que o fluminense
ganhou um jogo, é dada por
(4/10)(6/10)
P( choveu | ganhou) = P(A1 |A) = = 1/2.
(4/10)(6/10) + (6/10)(4/10)

Exemplo 1.9.8 Um teste para uma doença rara está correto 95% das
vezes. Em outras palavras, se uma pessoa tem a doença, o teste dá positivo
com probabilidade 0.95, e se a pessoa não tem a doença o resultado do teste
dá negativo com probabilidade 0.95.
1.9. PROBABILIDADE CONDICIONAL 45

Uma pessoa escolhida aleatoriamente de determinada população tem pro-


babilidade 0.001 de ter a doença. Dado que o resultado do teste para uma
determinada pessoa deu positivo, qual é a probabilidade dela ter a doença?
Temos os seguintes eventos:
A = ”a pessoa possui a doença ”.
Ac = ”a pessoa não possui a doença ”.
B = ”o resultado do teste deu positivo ”.
E sabemos que:

P(B|A) = 0.95 ⇒ P(B|Ac ) = 0.05.

Portanto a probabilidade da pessoa ter a doença, sendo que o resultado do


exame deu positivo é:
P(A ∩ B) (0.001)(0.95)
P(A|B) = = = 0.0187.
P(B) (0.001)(0.95) + (0.999)(0.05)

Exemplo 1.9.9 A administração de um fundo de investimentos em ações


pretende divulgar, após o encerramento do pregão, a probabilidade de
queda de um ı́ndice da bolsa no dia seguinte, baseando-se nas informações
disponı́veis até aquele momento. Suponha que a previsão inicial seja de
0.10. Após encerrado o pregão, nova informação sugere uma alta do dólar
frente ao real. A experiência passada indica que, quando houve queda da
bolsa no dia seguinte, 20% das vezes foram precedidas por esse tipo de
notı́cia, enquanto, nos dias em que a bolsa esteve em alta, apenas em 5%
das vezes houve esse tipo de notı́cia no dia anterior.
Chamando de E o evento que indica ”queda da bolsa ”, a sua probabilidade
a priori é P(E) = 0.10, enquanto a probabilidade de alta é P(E c ) = 0.90.
Se B indicar ”alta do dólar ”, então temos que

P(B|E) = 0, 20.
P(B|E c ) = 0, 05.

Logo pelo Teorema de Bayes, teremos que


P(E)P(B|E)
P(B|E) = .
P(E)P(B|E) + P(E c )P(B|E c )
ou seja,
(0, 10)(0, 20) 0, 02
P(B|E) = = = 0, 31.
(0, 10)(0, 20) + (0, 90)(0, 05) 0, 065
46 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

Portanto a nova informação aumenta a probabilidade de que haja queda


na bolsa de 10% para 31%.
Suponha, agora, que horas depois surja uma nova informação relevante: o
Banco Central irá reduzir a taxa de juros vigente a partir do dia seguinte.
Denotando-se, agora, por B1 o evento ”alta do dólar”e por B2 o evento
”queda na taxa de juros ”, o interessante será saber como essa nova in-
formação, B2 , afetará a probabilidade calculada, P(E|B1 ). Segue-se que
essa é agora a probabilidade a priori para E com respeito a B2 .
Novamente, informações passadas mostram que, dado que tenha havido
alta no dólar e queda na bolsa, 60% das vezes foram precedidas de queda
dos juros. Então temos que

P(B2 |E, B1 ) = 0, 10.


P(B2 |E c , B1 ) = 0, 60.

O Teorema de Bayes fica escrito agora na forma

P(E|B1 )P(B2 |E, B1 )


P(E|B1 , B2 ) = .
P(E|B1 )P(B2 |E, B1 ) + P(E c |B1 )P(B2 |E c , B1 )
do que segue, que
(0, 31)(0, 10) 0, 031
P(E|B1 , B2 ) = = = 0, 07.
(0, 31)(0, 10) + (0, 69)(0, 60) 0, 445

Ou seja, a informação B2 causa um decréscimo na probabilidade de queda


da bolsa, de 0.31 para 0.07, que é menor ainda do que a probabilidade a
prori inicial, P(E) = 0.10.
Observe que usamos a notação P(E|B1 , B2 ) = P(E|B1 ∩B2 ), ou seja, para
a probabilidade de E dado a ocorrência simultânea dos eventos B1 e B2 .

1.9.6 Exercı́cios
(a) Em um dia qualquer a chance de chover é de 25%. A chance de
chover em dois dias consecutivos é de 10%.
i. Dado que está chovendo hoje, qual é a chance de chover amanhã?
ii. Dado que choverá amanhã, qual é a chance de chover hoje?
(b) Os eventos A, B e C satisfazem as seguintes condições: P(A|B ∩B) =
1/4, P(B|C) = 1/3 e P(C) = 1/2. Encontre P(Ac ∩ B ∩ C).
1.10. INDEPENDÊNCIA DE EVENTOS 47

(c) Sejam A e B dois eventos independentes para os quais P(B|A ∪ B) =


2/3 e P(A|B) = 1/2. Encontre P(B).
(d) Mostre que para a probabilidade condicional P(A|B) vale que
i. P(A1 ∪ A2 |B) = P(A1 |B) + P(A2 |B) quando A1 e A2 forem dis-
juntos.
ii. P(A|B) = 1 − P(Ac |B).

1.10 Independência de eventos

Definição 1.10.1 Sejam A e B dois eventos disjuntos e suponha que


P(A) > 0. O evento B é dito independente do evento A se:

P(B|A) = P(B).

Esta definição é bastante intuitiva, pois diz que a probabilidade de ocorrência


de B não é influenciada com a informação de que o evento A ocorreu.
Portanto se o evento B é independente do evento A, então pela fórmula
de probabilidade condicional, temos que:

P(A ∩ B) = P(A)P(B).

No caso de A ∩ B = ∅, temos:

P(A ∩ B) = P(∅) = 0 = P(A)P(B).

Isso quer dizer que A e B não são independentes a menos que um deles
tenha probabilidade zero.
Se o evento B for independente do evento A, então esperamos que A
também seja independente de B. De fato isso ocorre, como é verificado a
seguir:
P(A ∩ B) P(A)P(B)
P(A|B) = = = P(A).
P(B) P(B)

Exemplo 1.10.1 Considerando novamente o lançamento de duas moe-


das, onde a probabilidade de todos os eventos elementares é igual a 1/4,
ou seja, a probabilidadede de cada evento sair é:

P({HH}) = P({HT }) = P({T H}) = P({T H}) = 1/4.


48 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

Temos os seguintes eventos:


A1 - ”sair cara no primeiro lançamento ”, tal que A1 = {HH, HT }.
B2 - ”sair coroa no segundo lançamento ”, tal que B2 = {HT, T T }.
A1 ∩ B2 - ”sair cara no primeiro lançamento e sair coroa no segundo”, tal
que A1 ∩ B2 = {HT }.
Calculando-se as probabilidades desses eventos, obtemos:

P(B2 |A1 ) = 1/2 = P(B2 ).

Portanto, B2 é independente de A1 .

Exemplo 1.10.2 Considerando o exemplo anterior, só que agora com


cada evento possuindo probabilidades diferentes, ou seja, agora temos que
a probabilidade de cada evento sair é:

P({HH}) = 5/24, P({HT }) = 9/24, P({T H}) = 7/24 e


P({T T }) = 3/24.

A1 e B2 continuam sendo os mesmos eventos, logo:

P(A1 ) = P({HT }) + P({HH}) = 9/24 + 5/24 = 14/24 = 7/12

P(B2 ) = P({HT }) + P({T T } = 9/24 + 3/24 = 12/24 = 6/12


P(A1 ∩ B2 ) = P({HT }) = 9/24.
Então temos que
P(A1 ∩ B2 ) 9/24
P(B2 |A1 ) = = = 9/14.
P(A1 ) 14/24

Como P(B2 |A1 ) 6= P(B2 ), então nesse caso B2 é dependente de A1 .

Conclusão: A independência de eventos ”depende ” da distribuição de


probabilidade.

Exemplo 1.10.3 Suponha-se que joguemos dois dados. Definindo os eventos


A, B e C da seguinte forma:
A - ”o primeiro dado mostra um número par ”.
B - ”o segundo dado mostra um número ı́mpar ”.
C - ”ambos os dados mostram números ı́mpares ou ambos mostram números
pares ”.
1.10. INDEPENDÊNCIA DE EVENTOS 49

Decorre daı́ que:


P(A) = P(B) = P(C) = 1/2
P(A ∩ B) = P(A ∩ C) = P(B ∩ C) = 1/4.
Observamos a partir disso as seguintes igualdades:

P(A ∩ B) = P(A)P(B)
P(B ∩ C) = P(B)P(C)
P(A ∩ C) = P(A)P(C).

Portanto, os três eventos são todos independentes dois a dois.


Contudo,
P(A ∩ B ∩ C) = 0 6= P(A)P(B)P(C).

Este exemplo sugere a seguinte definição.

Definição 1.10.2 Diremos que os três eventos A, B e C são mutualmente in-


dependentes se, e somente se, todas as condições seguintes forem válidas:

P(A ∩ B) = P(A)P(B)
P(A ∩ C) = P(A)P(C)
P(B ∩ C) = P(B)P(C)
P(A ∩ B ∩ C) = P(A)P(B)P(C).

Conclusão: Os eventos A1 , A2 , ..., An , tal que (n ≥ 2), são chamados de cole-


tivamente independentes se:

P(Ai1 ∩ Ai2 ∩ · · · ∩ Aim ) = P(Ai1 ) ∩ P(Ai2 ) ∩ . . . P(Aim ),

para todo 1 ≤ i1 ≤ i2 ≤ · · · < im ≤ n, m = 2, 3...

1.10.1 Exercı́cios
1. Um dado honesto é lançado duas vezes. Seja A o evento “a soma dos
lançamentos é igual a 4”, e seja B o evento “pelo menos um dos resultados
dos lançamentos é igual a 3”.

a. Calcule P(A|B).
b. A e B são independentes? Justifique sua resposta.

2. Sejam A e B dois eventos independentes, tais que P(B|A ∪ B) = 2/3 e


P(A|B) = 1/2. Quanto vale P(B)?
50 CAPÍTULO 1. PROBABILIDADE - PRIMEIROS CONCEITOS

3. Sejam os eventos A e B. Se A e B forem independentes mostre que

a. A e B c também são independentes;


b. Ac e B também são independentes;

4. Seja o espaço de probabilidade (Ω, P), tal que

Ω = {ω1 , ω2 , ω3 , ω4 },

e
1
P({ω1 }) = P({ω2 }) = P({ω3 }) = P({ω4 }) = .
4
Sejam os seguintes eventos:

• A = {ω1 , ω2 };
• B = {ω2 , ω3 };
• C = {ω2 , ω4 }.

(a) Mostre que:


i. A e B são independentes;
ii. A e C são independentes;
iii. B e C são independentes.
(b) Os eventos A, B e C são independentes? Justifique sua resposta.

5. Sejam A e B dois eventos independentes, tais que 0 < P(A) < 1 e 0 <
P(B) < 1. Responda as seguintes perguntas com justificativas e contra-
exemplos quando forem necessários.

a. Se A e B forem disjuntos, podem ser independentes?


b. Se A e B forem independentes, podem ser disjuntos?
c. Se A ⊂ B, podem A e B serem independentes?
d. Se A e B forem independentes, podem A e A∪B serem independentes?
Capı́tulo 2

Variáveis Aleatórias
Discretas

2.1 Introdução
Em vários experimentos aleatórios os resultados são numéricos, por exemplo,
dados com 6 faces e megasena (60 algorismos). Contudo, em outros experi-
mentos os resultados não são numéricos, mas podem ser associados a números.
Dado um experimento aleatório e um espaço amostral, uma variável aleatória
associa valores numéricos a todos elementos de Ω. Chamamos esses valores de
valores assumidos pela variável aleatória.

Exemplo 2.1.1 Vamos considerar o experimento aleatório que envolve o lançamento


de dois dados com 4 faces. O espaço amostral nesse caso é

Ω = {(1,1),(1,2),(1,3),(1,4),(2,1),(2,2),(2,3),(2,4),(3,1),
(3,2),(3,3),(3,4),(4,1),(4,2),(4,3),(4,4)}.

Podemos definir a variável aleatória como sendo o máximo dos resultados de


um lançamento desses dois dados. Ou seja,

X(ω) = max(x1 , x2 ).
Para ω = (1, 1) temos X((1, 1)) = 1.
Para ω = (1, 2) temos X((1, 2)) = 2.
Para ω = (4, 2) temos X((4, 2)) = 4.

51
52 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

2.2 Conceito de Variável Aleatória


Definição 2.2.1 Uma variável aleatória é uma função que associa um número
real a cada elemento de Ω.

X : Ω → R.

De agora em diante denotaremos o termo variável aleatória por v.a. No


exemplo 2.1.1 a variável aleatória X pode assumir quatro valores distintos: 1,
2, 3 e 4. Esses são os elementos do conjunto imagem da v.a X, ou seja, o conjunto
de todas os valores que a v.a. X assume :

IX = {1, 2, 3, 4}.

Exemplo 2.2.1 Uma moeda é lançada cinco vezes. Seja X a v.a que denota
o número de caras em cada sequência de lançamentos. Então, X pode assumir
os seguintes valores IX = {0, 1, 2, 3, 4, 5}.

Exemplo 2.2.2 Lançar duas vezes o mesmo dado.

• A soma dos dois valores é uma v.a.

• O número de seis em cada lançamento é uma v.a.

• A função que leva cada par ao valor do segundo lançamento elevado à


quinta potência, também é uma v.a.

Uma v.a é chamada de discreta se seu conjunto imagem for finito ou infinito
enumerável. Nos exemplos 2.1.1 e 2.2.1 o conjunto imagem é finito.
Uma variável aleatória pode assumir um número infinito não-enumerável de va-
lores. Por exemplo, considere o experimento de escolher um ponto a do intervalo
[−1, 1]. A variável aleatória que associa o valor numérico a2 ao resultado a não
é discreta. Por outro lado, a seguinte v.a X(a) é discreta:


 1
 se a > 0
X(a) = sinal(a) = 0 se a = 0

−1 se a < 0.

Nas próximas páginas só trataremos de variáveis aleatórias discretas.


2.3. DISTRIBUIÇÃO DE MASSA DE PROBABILIDADE 53

2.3 Distribuição de massa de probabilidade


Uma v.a discreta tem a ela associada uma distribuição de probabilidade que
fornece a probabilidade da v.a assumir cada um dos elementos de seu conjunto
imagem. A distribuição de probabilidade é a principal maneira de caracteri-
zarmos uma variável aleatória. Vamos denotá-la por pX . Em particular, se x
for um valor que a v.a X pode assumir, pX (x) é a probabilidade de ocorrer o
evento {X = x} que consiste de todos os elementos de Ω que são levados por X
ao valor numérico x, ou seja:

pX (x) = P({X = x}),

tal que X
P(X = x) = 1, ∀x ∈ IX .
x

No exemplo 2.1.1, pode ser importante saber ”com que probabilidade a v.a X
assume, por exemplo, o valor 2”. Essa pergunta pode ser representada mate-
maticamente por:
P({X = 2}) = P(X = 2),
onde {X = 2} é o conjunto de todos os elementos de Ω que são levados pela v.a
X ao valor numérico 2. Temos assim que

{X = 2} = {ω ∈ Ω : X(ω) = 2} = {(1, 2), (2, 1), (2, 2)}.

Se os eventos elementares forem equiprováveis, então:

P(X = 2) = P({(1, 2), (2, 1), (2, 2)})


(A3 )
= P({(1, 2)}) + P({(2, 1}) + P({2, 2}) = 3/16,

P(X = 3) = P({(1, 3), (2, 3), (3, 3), (3, 2), (3, 1)})
(A3 )
= P({(1, 3)}) + P({(2, 3}) + P({3, 3}) + P({(3, 2)}) + P({(3, 1}) = 5/16.

O sı́mbolo (A3 ), representa o uso do axioma 3 em determinada igualdade.

Exemplo 2.3.1 Considere o lançamento de duas moedas honestas. Seja X a


v.a que representa o número de caras obtidas nos lançamentos, X assume os
valores 0, 1 ou 2, ou seja, IX = {0, 1, 2}. Então nesse caso, dizer quem é a
distribuição de probabilidade de X é encontrar:

P({X = 0}), P({X = 1}), P({X = 2}).


54 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

Temos que
Ω = {HH, HT, T H, T T },
onde H (Head) e T (Tail) denotam cara e coroa, respectivamente.
Primeiro passo é perguntar: Quem é o evento {X = 0} ?
{X = 0} = {ω ∈ Ω : X(ω) = 0} = {T, T }.
Em seguida fazer a mesma pergunta para {X = 1} e {X = 2}.

Segundo passo: Descobrir P({X(w) = x}).


Para moedas honestas:
P({HH}) = P({HT }) = P({T H}) = P({T T }) = 1/4.
Então:
P({X(w) = 0}) = 1/4
P({X(w) = 1}) = 1/2
P({X(w) = 2}) = 1/4
Terceiro passo: Verificar se:

P({X(w) = 0}) + P({X(w) = 1}) + P({X(w) = 2}) = 1.


Quarto passo: Organizar as idéias:

 1/4 se x = 0 ou x = 2

pX (x) = 1/2 se x = 1

0 caso contrário.

Resumindo: Para determinarmos a distribuição de probabilidade da v.a X,


temos que
1. Encontrar todos os valores que a v.a. X assume.

2. Encontrar todos os eventos elementares contidos no evento {X = x}.

3. Somar suas probabilidades para obter pX (x).


E se desejamos calcular P(X > 0)? Inicialmente, vamos descobrir quem é o
evento {X > 0}.
{X > 0} = {ω ∈ Ω : X(ω) > 0}
{X > 0} = {HT, T H, T T } = {HT ∪ T H ∪ |{z}
T T }.
| {z }
X=1 X=2

Logo,
P(X > 0) = P({X = 1} ∪ {X = 2}) = P(X = 1) + P(X = 2) = 1/2 + 1/4 = 3/4.
2.4. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 55

2.4 Funções de Variáveis Aleatórias


Quando realizamos um experimento aleatório, é comum nos interessarmos em
uma função g(X) de uma variável aleatória X. Ou também, é frequente o nosso
interesse estar na distribuição de probabilidade de uma função de uma variável
aleatória.

Exemplo 2.4.1 Seja Y = g(X) = (1, 8)X + 32 uma função linear da variável
aleatória X. Temos que, X representa a temperatura de um ambiente em graus
Celsius e Y representa a mesma temperatura, só que na escala Fahrenheit.

Se X for uma v.a discreta com distribuição de massa de probabilidade pX ,


e Y uma função de X, a sua distribuição de probabilidade pode ser calculada
pela distribuição de probabilidade de X. Em particular, para obter pY (y) para
qualquer valor de y, somamos as probabilidades de todos os valores de x tal que
g(x) = y: X
pY (y) = pX (x).
{x|g(x)=y}

Exemplo 2.4.2 Seja X uma variável aleatória que assume os valores {−1, 0, 1}
com as seguintes probabilidades:


 1/3
 se x = −1
pX (x) = 1/6 se x=0

1/2 se x = 1.

Vamos encontrar, pY (y) para Y = 2X + 1.


1◦ passo: Que valores Y assume?

Para X = −1 : Y = 2(−1) + 1 = −1.

Para X = 0 : Y = 2(0) + 1 = 1.
Para X = 1 : Y = 2(1) + 1 = 3.
Logo,
IY = {−1, 1, 3}.
2◦ passo: Com que probabilidades Y assume esses valores? Ou seja, qual a
distribuição de massa de probabilidade de Y ?
Temos que

pY (−1) = P({Y = −1}) = P({X = −1}) = pX (−1) = 1/3.


56 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

pY (1) = P({Y = 1}) = P({X = 0}) = pX (0) = 1/6.

pY (3) = P({Y = 3}) = P({X = 1}) = pX (1) = 1/2.

3◦ passo: Verificar se o somatório das probabilidades de Y é igual a 1:

pY (y) = pY (−1) + pY (1) + pY (3)


= 1/3 + 1/6 + 1/2 = 1.

Portanto, a distribuição de massa de probabilidade de Y é definida por


 1/3
 se y = −1
pY (y) = 1/6 se y=1

1/2 se y = 3.

Exemplo 2.4.3 Considere a mesma variável aleatória, X, do exemplo 2.4.2.


Vamos agora encontrar pY (y), tal que Y = X 2 .
1◦ passo: Que valores Y assume?

Para X = −1 : Y = (−1)2 = 1.

Para X = 0 : Y = (0)2 = 0.

Para X = 1 : Y = (1)2 = 1.

Então,
IY = {0, 1}.

2◦ passo: Qual a distribuição de massa de probabiliddade de Y ?


Temos que

pY (0) = P({Y = 0} = P({X = 0}) = pX (0) = 1/6.

pY (1) = P({Y = 1}) = P({X = −1})+P({X = 1}) = pX (−1)+pX (1) = 1/3+1/2 = 5/6.

3◦ passo: Verificar se o somatório das probabilidades de Y é igual a 1:

pY (y) = pY (0) + pY (1) = 1/6 + 5/6 = 1.

Logo, a distribuição de massa de probabilidade de Y é definida por

(
1/6 se y=0
pY (y) =
5/6 se y = 1.
2.5. ESPERANÇA E VARIÂNCIA 57

2.5 Esperança e Variância


2.5.1 Esperança
A distribuição de massa de probabilidade de uma variável aleatória X nos for-
nece uma série de números, os quais são as probabilidades de ocorrência de cada
um dos possı́veis valores de X. Seria interessante resumir essa informação em
um único número representativo. Para encontrar esse número introduzimos o
conceito de esperança de X, valor esperado ou média. A esperança de X, é a
média ponderada dos valores assumidos por X, onde a ponderação dos valores
é feita pelos pX (x)0 s.

Definição 2.5.1 (Esperança de uma v.a X ou seu valor esperado, ou sua média).
O valor esperado de uma variável aleatória X, com distribuição de massa de
probabilidade pX , é definido por:
X
E(X) = xpX (x).
x

Exemplo 2.5.1 Vamos considerar novamente o lançamento de um dado ho-


nesto. Seja X a v.a, que assume os resultados do lançamento, vamos encontrar
a distribuição de probabilidade e a esperança de X.

1. Distribuição de probabilidade:
Temos que
IX = {1, 2, 3, 4, 5, 6}.

Como o dado é honesto, a probabilidade de sair qualquer número é a


mesma, isto é

P(X = 1) = P(X = 2) = P(X = 3) = P(X = 4) = P(X = 5) = P(X = 6) = 1/6.

2. Esperança de X.
Temos que,
6
X
E(X) = xP(X = x).
x=1

Portanto,

E(X) = (1)1/6 + (2)1/6 + (3)1/6 + (4)1/6 + (5)1/6 + (6)1/6 = 3, 5.

Exemplo 2.5.2 Um empresário pretende estabelecer uma firma para montagem


de um produto composto de uma esfera e um cilindro. A esfera será produzida
58 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

na fábrica A, enquanto que a produção do cilindro será feita na fábrica B.


No setor de montagem será feita a junção e a pintura das peças. Cada cilindro
e cada esfera terão, respectivamente, um comprimento e uma espessura deter-
minada.
O empresário quer estudar a viabilidade de seu emprendimento, mais precisa-
mente, quer ter uma idéia da distribuição do lucro por peça montada.
Caracterı́sticas das peças:

Cilindro (comprimento) Esfera (espessura)


Bom (B) (dentro das especificações) Boa (B) (dento das especificações)
Longo (L) (maior que as especificações) Longa (L) (maior que as especificações)
Curto (C) (menor que as especificações) Curta (C) (menor que as especificações)
A seguir temos, a probabilidade de cada comprimento e espessura do cilindro e
da esfera, respectivamente.

Produto Cilindro Esfera


B 0.80 0.70
L 0.10 0.20
C 0.10 0.10
O preço de cada componente do produto será 5 reais. Se algum componente
apresentar a caracterı́stica curto (C) depois de montadado o produto, o con-
junto todo será vendido como sucata ao preço de 5 reais.
Cada componente longo (L) poderá ser recuperado ao preço de 5 reais.

Pergunta 1: Se o preço de venda de cada unidade for de 25 reais, como seria


a distribuição de probabilidade da v.a X: lucro por conjunto montado?
Como os componentes vem de fábricas diferentes, vamos supor que a classi-
ficação dos cilindros e das esferas, segundo suas caracterı́sticas, sejam eventos
independentes.
Sabemos que:

Ω = {BB, BL, LB, BC, CB, LL, CC, LC, CL}.

Considerando os seguintes eventos:

A1 = cilindro bom = {BB, BL, BC} ⇒ P(A1 ) = 0.8.


B1 = esfera boa = {BB, LB, CB} ⇒ P(B1 ) = 0.7.
B2 = esfera longa = {BL, LL, CL} ⇒ P(B2 ) = 0.2.
2.5. ESPERANÇA E VARIÂNCIA 59

Obtemos,

A1 ∩ B1 ⇒ P(A1 ∩ B1 ) = P(A1 )P(B1 ) = P({B, B}) = (0.8)(0.7) = 0.56.

A1 ∩ B2 ⇒ P(A1 ∩ B2 ) = P(A1 )P(B2 ) = P({B, B}) = (0.2)(0.8) = 0.16.

A seguir temos a probabilidade de todos os produtos do espaço amostral e seus


respectivos lucros:

Produto Probabilidade Lucro por montagem (X)


BB 0.56 25 − 10 = 15
BL 0.16 25 − 15 = 10
BC 0.08 5 − 10 = −5
LB 0.07 25 − 15 = 10
LL 0.02 25 − 20 = 5
LC 0.01 5 − 10 = −5
CB 0.07 5 − 10 = −5
CL 0.02 5 − 10 = −5
CC 0.01 5 − 10 = −5

Vemos que a v.a X pode assumir os seguintes resultados:

IX = {15, 10, 5, −5}.

Portanto, temos que:

P(X = 15) = P({BB}) = 0.56.


P(X = 10) = P({BL, LB}) = P({BL}) + P({LB}) = 0.16 + 0.07 = 0.23.
P(X = 5) = P({LL}) = 0.02.
P(X = −5) = P({BC, CB, CL, LC, CC})
= P({BC}) + P({CB}) + P({CL}) + P({LC}) + P({CC})
= 0.08 + 0.01 + 0.07 + 0.02 + 0.01 = 0.19.

Então a distribuição de probabilidade da v.a X, lucro por conjunto montado, é


definida por:

x P(X = x)
15 0.56
10 0.23
5 0.02
−5 0.19
60 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

Por meio da tabela acima, concluı́mos que a probabilidade do lucro ser igual a
15 é superior a 50%.
Pergunta 2: Qual o lucro médio por conjunto montado, ou seja, qual é a
E(X)?

E(X) = 15P(X = 15) + 10P(X = 10) + 5P(X = 5) + (−5)P(X = −5)


= 15(0.56) + 10(0.23) + 5(0.02) − 5(0.19) = 9, 85.

2.5.2 Esperança para funções de variáveis aleatórias


Seja X uma variável aleatória com distribuição de massa de probabilidade pX ,
e seja g(X) uma função de X. Então, o valor esperado da variável aleatória
g(X) é dado por:
X
E(g(X)) = g(x) pX (x).
x

Para verificar que isto é verdade, vamos supor que Y = g(x) e usar a fórmula
apresentada anteriormente:
X
pY (y) = pX (x).
{x|g(x)=y}

Temos então que:


X X X
E(g(x)) = E(Y ) = y pY (y) = y pX (x)
y y {x|g(x)=y}

X X X X
= y pX (x) = g(x)pX (x)
y {x|g(x)=y} y {x|g(x)=y}

X
= g(x)pX (x).
x

2.5.3 Variância
Um outro importante número associado à variável aleatória X é a variância, que
é denotada por V ar(X) e é definida como valor esperado da v.a (X − E(X))2 ,
isto é,
V ar(X) = E[(X − E(X))2 ].

Como (X − E(X))2 só assume valores positivos, observamos que V ar(X) é


sempre um número positivo.
2.5. ESPERANÇA E VARIÂNCIA 61

Exemplo 2.5.3 Voltando ao exemplo 2.5.1, vamos agora calcular a variância


de X.
Temos que
6
X
V ar(X) = (x − E(X))2 pX (x).
x=1

Tomamos E(X) = 3.5, então:

V ar(X) = (1 − 3.5)2 (1/6) + (2 − 3.5)2 (1/6) + ... + (6 − 3.5)2 (1/6) ' 3.

A variância representa uma medida de dispersão de X em torno da sua média.


Outra medida de dispersão é o desvio-padrão de X, que é definido como a raiz
quadrada da variância, denotado por σX :

p
σX = V ar(X).

O desvio-padrão é muitas vezes mais fácil de interpretar, porque ele apresenta as


mesmas unidades de X. Por exemplo, se a unidade de medida de X for metro,
então a unidade do desvio-padrão também será metro, enquanto que a unidade
de medida da variância será metro quadrado.

Desenvolvendo o quadrado da fórmula da variância de X, encontramos uma


outra maneira de calcular a V ar(X) :

V ar(X) = E(X 2 ) − (E(X))2 .

Esta expressão é verificada da seguinte forma:


X
V ar(X) = (X − E(X))2 pX (x)
x
X
= (X 2 − 2XE(X) + (E(X))2 )pX (x)
x
X X X
= X 2 pX (x) − 2XE(X)pX (x) + (E(X))2 pX (x)
x x x
X X
2
= E(X ) − 2E(X) XpX (x) + (E(X))2 pX (x)
x x
= E(X 2 ) − 2E(X)E(X) + (E(X))2
= E(X 2 ) − (E(X))2 .
62 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

Esta nova fórmula, apresenta uma maior facilidade para o cálculo da variância.
Uma outra forma de provar que V ar(X) = E(X 2 ) − [E(X)]2 é a seguinte:

V ar(X) = E[(X − E(X))2 ]


= E{X 2 − 2E(X)X + [E(X)]2 }
= E(X 2 ) − 2E(X)E(X) + [E(X)]2
= E(X 2 ) − [E(X)]2 .

Note que na terceira igualdade usamos o fato de E(X) ser uma constante.

A partir da definição de esperança para funções de variáveis aleatórias, vamos


agora obter propriedades da esperança e da variância:
Assumindo Y , como uma função linear da variável aleatória X, isto é,

Y = aX + b,

tal que a, b ∈ R. Vamos mostrar as seguintes propriedades:

1. E(Y ) = E(aX + b) = aE(X) + b.

2. V ar(Y ) = V ar(aX + b) = a2 V ar(X).

3. σY = |a|σY .

Prova:

1.
X X X
E(Y ) = E(aX+b) = (aX+b)pX (x) = a XpX (x)+b pX (x) = aE(X)+b.
x x x

2.
X
V ar(Y ) = (aX + b − E(aX + b))2 pX (x)
x
X
= (aX + b − aE(X) − b)2 pX (x)
x
X
= (a(X − E(X)))2 pX (x)
x
X
= a2 (X − E(X))2 pX (x)
x
= a2 V ar(X).
2.5. ESPERANÇA E VARIÂNCIA 63

3.
p p p
σY = V ar(Y ) = a2 V ar(Y ) = |a| V ar(Y ) = |a|σY .

Podemos observar que nestes resultados estão implı́citas mais duas propriedades:
Sejam a e b duas constantes, temos que

E(b) = b.
V ar(a) = 0.

Terminaremos essa seção com uma forma alternativa de expressar a esperança


no caso de variáveis aleatórias não negativas.
Suponha que X seja uma v.a inteira e não negativa. Então

X
E(X) = P(X ≥ i),
i=1

X
E(X 2 ) = 2 iP(X ≥ i) − E(X).
i=1

Prova:

X ∞ X
X i X
E(X) = i P(X = i) = P(X = i) = P(X = i)
i=1 i=1 j=1 1≤j≤i<∞
X ∞
∞ X ∞
X
= P(X = i) = P(X ≥ j),
j=1 i=1 j=1


X ∞
X
E(X 2 ) = i2 P(X = i) = i2 [P(X ≥ i) − P(X ≥ i + 1)]
i=1 i=1

X ∞
X
= i2 P(X ≥ i) − i2 P(X ≥ i + 1)
i=1 i=1

X ∞
X
= i2 P(X ≥ i) − (i − 1)2 P(X ≥ i)
i=1 i=2

X
= P(X ≥ 1) + [i2 − (i − 1)2 ] P(X ≥ i)
i=2

X ∞
X ∞
X
= (2i − 1)P(X ≥ i) = 2 i P(X ≥ i) − P(X ≥ i)
i=1 i=1 i=1

X
= 2 P(X ≥ i) − E(X).
i=1
64 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

2.6 Variáveis Aleatórias Discretas


2.6.1 Uniforme Discreta
Seja X uma variável aleatória cujos valores possı́veis são representados por
x1 , x2 , . . . , xn . Então diz-se que X segue o modelo uniforme discreto se sua
distribuição de probabilidade for da forma:
(
1/n, para i = 1,. . . ,n
P(X = xi ) =
0, caso contrário.

para n ∈ N. Para representar que a v.a X possui distribuição uniforme, usamos


a notação X ∼ Ud [n].
Este é o caso mais simples de variável aleatória discreta, já que cada valor
possı́vel ocorre com a mesma probabilidade.

Esperança e Variância:

Se X tiver distribuição uniforme discreta, então

n+1 n2 − 1
E(X) = e V ar(X) = .
2 12
Prova:
Assumindo pX (x) = 1/n, a partir da definição de E(X), temos que
n n n
X X 1 1X
E(X) = x pX (x) = x = x
x=1 x=1
n n x=1

1 n(n + 1) n+1
= = .
n 2 2
Como V ar(X) = E(X 2 ) − E(X)2 , temos que obter E(X 2 ):
n n n
X X 1 1X 2
E(X 2 ) = x2 pX (x) = x2 = x
x=1 x=1
n n x=1

1 n(n + 1)(2n + 1) (n + 1)(2n + 1)


= = .
n 6 6
Logo,

(n + 1)(2n + 1) (n + 1)2 n2 − 1
V ar(X) = − = .
6 4 12
Exemplo 2.6.1 Uma rifa possui 100 bilhetes numerados de 1 a 100. Tenho
cinco bilhetes consecutivos numerados de 21 a 25, e meu colega tem outros cinco
2.6. VARIÁVEIS ALEATÓRIAS DISCRETAS 65

bilhetes, com os números 7, 13, 29, 66 e 98. Quem tem a maior possibilidade de
ser sorteado?
Seja X uma v.a uniforme que representa o número de cada bilhete, então todos
os 100 bilhetes possuem a mesma probabilidade de serem sorteados. Assim,
se ambos os indı́viduos apresentam o mesmo número de bilhetes, temos que a
probabilidade de serem sorteados é a mesma. Então, a probabilidade de sair os
números 21, 22, 23, 24, 25 e 7, 13, 29, 66, 98 é :

P(X = 21) + P(X = 22) + P(X = 23) + P(X = 24) + P(X = 25) = 5/100,

P(X = 7) + P(X = 13) + P(X = 29) + P(X = 66) + P(X = 98) = 5/100.
Portanto, concluı́mos que ambos possuem uma probabilidade de 5/100 de serem
sorteados.

2.6.2 Bernoulli
Uma variável aleatória X com distribuição de probabilidade de Bernoulli é usada
para modelar situações onde ocorre dois eventos, que chamaremos de fracasso
e sucesso. Uma v.a de Bernoulli, tem como caracterı́stica atribuir um valor a à
ocorrência de fracasso e um valor b para a ocorrência de sucesso, com probabili-
dades (1 − p) e p, respectivamente, tal que a, b ∈ [0, 1]. Comumente atribuı́mos
0 à ocorrência de fracasso e 1 à ocorrência de sucesso.
Por exemplo, podemos considerar o lançamento de uma moeda, no qual sai cara
com probabilidade p e sai coroa com probabilidade 1 − p. Então seja X uma
v.a de Bernoulli, temos que X é igual a 1 se sai cara e igual a 0 se sai coroa:
(
1 se sai cara
X=
0 se sai coroa.

Como é a distribuição de massa de probabilidade dessa variável aleatória?


Como Ix = {1, 0}, temos que encontrar P(X = 1) e P(X = 0). Sendo Ω =
{H, T }, então:

{X = 1} = {ω ∈ Ω : X(ω) = 1} = {H}.
{X = 0} = {ω ∈ Ω : X(ω) = 0} = {T }.

Usaremos a seguinte notação: P({X = x}) = P(X = x). Assim obtemos

P({X = 1}) = P(X = 1) = P({H}) = p.

P({X = 0}) = P(X = 0) = P({T }) = 1 − p.


66 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

Logo, a função de probabilidade de uma v.a X de Bernoulli, que denotaremos


por X ∼ Bernoulli(p), é definida pela seguinte expressão:

P(X = x) = px (1 − p)1−x ,

com x ∈ {0, 1} e p ∈ [0, 1].

Esperança e Variância:

Se X tiver distribuição de Bernoulli, então

E(X) = p e V ar(X) = p(1 − p).

Prova:
Se pX (1) = p e pX (0) = 1 − p, pela definição de E(X), obtemos

1
X
E(X) = x pX (x) = 0(1 − p) + 1(p) = p,
x=0

e também,
1
X
E(X 2 ) = x2 pX (x) = (0)2 p + (1)2 p = p.
x=0

Então como V ar(X) = E(X 2 ) − (E(X))2 , temos que

V ar(X) = p − p2 = p(1 − p).

Por causa da sua simplicidade, uma v.a de Bernoulli é muito importante no


dia-a-dia. Ela é usada para modelar situações onde há apenas dois eventos, tais
como:

• A situação de uma linha telefônica: Está ocupada ou não.

• O estado médico de um paciente: Está com determinada doença ou está


saudável.

• A tendência polı́tica de uma pessoa: Está a favor ou contra determinado


candidato.

Se combinarmos várias v.a’s de Bernoulli podemos construir variáveis aleatórias


mais complicadas, como é o caso da variável aleatória binomial, que veremos a
seguir.
2.6. VARIÁVEIS ALEATÓRIAS DISCRETAS 67

2.6.3 Binomial
Uma moeda é lançada n vezes. Em cada lançamento sai cara com probabilidade
p e coroa com probabilidade (1−p), independentemente do lançamento anterior.
Seja X a v.a que indica o número de caras nos n lançamentos. Nos referimos a
X como sendo uma variável aleatória binomial com parâmetros n e p, onde n é
o número de ensaios e p a probabilidade de sucesso em cada ensaio. A variável
aleatória binomial é denotada por X ∼ b(n, p). O conjunto Ω nesse caso é:

Ω = {HH...H
| {z }, |HH...H {z }}.
{z } T, ..., |T T...T
n n−1 0

Qual é a distribuição de massa de probabilidade de uma v.a binomial?


Nesse caso, Ix = {0, 1, 2, ..., n}, logo temos que encontrar:

P(X = 0), P(X = 1), ..., P(X = n).

Vemos que,

{X = 0} = Não sair cara = {T {z }}P(X = 0) = (1


| T...T − p).(1 − p)...(1 − p) = (1−p)n
| {z }
n n

{X = 1} = Sair apenas uma cara = {H |T...T


{z }, T H T...T
| {z }, ..., T
| T...T
{z } H}
n−1 n−2 n−1

P(X = 1) = P(H |T T...T


{z }, T H T
| T...T
{z }, ..., T
| T...T
{z } H)
n−1 n−2 n−1

P(X = 1) = P({HT T...T } ∪ {T HT...T }∪, ..., ∪{T T...T H})

P(X = 1) = P(HT T...T ) + P(T HT T...T ) + ... + P(T T...T H)

P(X = 1) = p(1 − p)n−1 + (1 − p)p(1 − p)n−2 + ... + (1 − p)n−1 p

P(X = 1) = p(1 − p)n−1 + p(1 − p)n−1 + ... + p(1 − p)n−1

P(X = 1) = np(1 − p)n−1 .

Na última equação podemos observar que p(1−p)n−1 é multiplicado por n. Essa


parcela é especı́fica para X = 1, assim para acharmos P(X = x) é necessário
pensarmos em todas as combinações que os subconjuntos de {X = x} possuem,
o qual representamos por

{X = x} = {H |T...T
{z }, T H T...T
| {z }, ..., T
| T...T
{z } H}.
n−1 n−2 n−1
68 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

Então para obtermos uma equação que descreve genericamente o problema,


devemos multiplicar p(1 − p)n−1 por todas as suas combinações,
 
n! n
=
(n − x)! x! x
onde x é o valor da variável aleatória. Assim, a equação da distribuição binomal
é:  
n
P(X = x) = px (1 − p)n−x , x ∈ N ≥ 0.
x
Uma maneira para testarmos se a distribuição de probabilidade acima foi defi-
nida corretamente, é verificar se o axioma (A2 ) é satisfeito, ou seja, verificar se
a probabilidade do conjunto Ω é igual a 1.
Temos que

Ω = {X = 1} ∪ {X = 2} ∪ ... ∪ {X = n} = ∪nk=0 {X = k}, n ∈ N.

Então
n
X
P(Ω) = P(∪nx=0 {X = x}) = P(X = x)
x=0
n  
X n
= px (1 − p)n−x = (p + 1 − p)n = 1.
x=0
x

Exemplo 2.6.2 Sabe-se que a ocorrência de peças com algum tipo de imper-
feição em uma linha de produção é de 10%. Escolhem-se três peças, ao acaso,
e deseja-se verificar o número de peças defeituosas nesse grupo e as respectivas
probabilidades. O evento ”peça com defeito” será representado por D.
Assim, o espaço amostral é dado por

Ω = {DDD, DDDc , DDc D, Dc DD, DDc Dc , Dc Dc D, Dc DDc , Dc Dc Dc }.

Na tabela a seguir temos a probabilidade de todos os eventos, tal que, a proba-


bilidade da peça estar com ou sem defeito é, respectivamente, 0.1 e 0.9 :

X Evento Probabilidade (X)


3 DDD (0.1)3
2 DDDc (0.9)(0.3)2
2 DDc D (0.9)(0.3)2
2 Dc DD (0.9)(0.3)2
1 DDc Dc (0.9)2 (0.3)
1 Dc Dc D (0.9)2 (0.3)
1 Dc DDc (0.9)2 (0.3)
0 Dc Dc Dc (0.1)3
2.6. VARIÁVEIS ALEATÓRIAS DISCRETAS 69

Exemplo 2.6.3 Uma moeda honesta é lançada vinte vezes. Qual a probabili-
dade de saı́rem oito caras?

Definimos a v.a X como sendo o número de sucessos, ou seja, o número de


caras em vinte lançamentos. Podemos representá-la através do modelo bino-
mial, com parâmetros n = 20 e p = 1/2.
Logo, a probabilidade de sair oito caras em vinte lançamentos, é:

 
20
P(X = 8) = (1/2)8 (1/2)12 .
8

Exemplo 2.6.4 Numa criação de coelhos, 40% são machos. Então qual é a
probabilidade de nascer pelo menos dois coelhos machos, num dia em que nas-
ceram vinte coelhos?

Definimos a variável aleatória X como sendo o número de coelhos machos.


Sabemos que IX = {0, 1, 2, . . . , 20}, logo X representa uma v.a binomial, com
parâmetros n = 20 e p = 0.4.
Então a probabilidade de nascer pelo menos dois coelhos machos nesse dia, é
definida por:

P(X ≤ 2) = 1 − P(X < 2) = 1 − [P(X = 0) + P(X = 1)]


   
20 0 20 20
= 1− (0.40) (0.60) − (0.40)1 (0.60)19 .
0 1

Esperança e Variância:

Se X tiver distribuição Binomial, vamos provar que

E(X) = np e V ar(X) = np(1 − p).

Prova:
Considerando que X representa uma variável aleatória binomial, encontramos
70 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

a partir da definição de E(X) que:


n n
! n
X X n X n!
E(X) = x pX (x) = x px (1 − p)n−x = x px (1 − p)n−x
x=0 x=0
x x=1
(n − x)!x!
n n
X n! Xn!
= x px (1 − p)n−x = px (1 − p)n−x
x=1
(n − x)!x(x − 1)! x=1
(n − x)!(x − 1)!
n n
X n(n − 1)! X (n − 1)!
= px (1 − p)n−x = np px−1 (1 − p)n−x
x=1
(n − x)!(x − 1)! x=1
(n − x)!(x − 1)!
n
!
X n−1
= np px−1 (1 − p)n−x .
x=1
x − 1
Tomando, l = x − 1, temos que
n−1
!
X n−1
E(X) = np pl (1 − p)(n−1)−l .
l=0
l
De acordo com a definição de distribuição de probabilidade de uma v.a binomial,
n
!
X n
px (1 − p)n−x = 1.
x=0
x
Portanto, a partir da expressão acima, temos que

E(X) = np.

Agora temos que encontrar E(X 2 ) para obter V ar(X):


n n
! n
!
2
X
2
X
2 n X n
E(X ) = x pX (x) = x px (1 − p)n−x = [x(x − 1) + x] px (1 − p)n−x
x=0 x=1
x x=1
x
n
! n
!
X n X n
= x(x − 1) px (1 − p)n−x + x px (1 − p)n−x
x=2
x x=1
x
n n
X n! X n.(n − 1)(n − 2)! 2 x−2 n−x
= px (1 − p)n−x + np = p p q + np
x=2
(x − 2)!(n − x)! x=2
(x − 2)!(n − x)!
n
2
X (n − 2)!
= n.(n − 1)p px−2 q n−x + np.
x=2
(x − 2)!(n − x)!

Tomando agora , l = x − 2, temos que


n−2
!
2 2
X n−2
E(X ) = n.(n − 1)p pl q n−2−l + np
l=2
l
= n(n − 1)p2 + np.
2.6. VARIÁVEIS ALEATÓRIAS DISCRETAS 71

Finalmente encontramos V ar(X):

V ar(X) = E(X 2 ) − (E(X))2


= n(n − 1)p2 + np − n2 p2
= n(np2 − p2 + p − np2 )
= np(np − p + 1 − np)
= np(1 − p).

Exemplo 2.6.5 Seja Y = 3X+2 uma variável aleatória binomial de parâmetros


n = 20 e p = 0.3, encontre:

(a) E(Y ).
Como vimos anteriormente, E(aX + b) = aE(X) + b, assim nesse caso
podemos observar que a = 3 e b = 2, logo:

E(3X + 2) = E(3X) + E(2) = 3E(X) + 2.

Temos que E(X) = np. Então

E(3X + 2) = 3(np) + 2 = 3(20)(0.3) + 2 = 20.

(b) V ar(Y ).
Sabemos que V ar(aX + b) = a2 V ar(X), então

V ar(Y ) = V ar(3X +2) = V ar(3X)+V ar(2) = 32 V ar(X)+0 = 9V ar(X).

Sendo V ar(X) = np(1 − p), temos que

V ar(3X + 2) = 9np(1 − p) = 37, 8.

2.6.4 Geométrica
Suponha que repitamos independentemente o lançamento de uma moeda cuja
probabilidade de sair cara é p e sair coroa é (1 − p), onde 0 < p < 1. A variável
aleatória geométrica corresponde ao número de lançamentos necessários para
ocorrer uma cara pela primeira vez. Usamos a notação X ∼ Geo(p), para
representar que X é uma v.a com distribuição geométrica. Neste caso:

• Podemos precisar de 1 lançamento apenas

• Podemos precisar de 2 lançamentos apenas


..
.
72 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

• Podemos precisar de n lançamentos

O espaço amostral para esse experimento é o conjunto:

Ω = {H, T H, T T H, T T T H...}.

Sendo X a v.a que representa o número de lançamentos que sairam coroa antes
de sair a primeira cara, qual é a distribuição de probabilidade de X?
Vemos facilmente que

{X = 1} = {H} ⇒ P(X = 1) = p
{X = 2} = {T H} ⇒ P(X = 2) = p(1 − p)
..
.
x−1
{X = x} = {T {z } H} ⇒ P(X = x) = p(1 − p)
| T...T ,
n−1

uma vez que p(1−p)x−1 , é a probabilidade de sair uma sequência de lançamentos


consistindo de x − 1 sucessivas coroas seguidas por uma cara.
Simplificando, diz-se que uma variável aleatória tem disribuição geométrica, se
possui a seguinte distribuição de probabilidade:

p(1 − p)x−1 , x = 1, 2, . . .

Note que, no caso binomial, o número de repetições é pré determinado e aqui


este número é uma variável aleatória. Na interpretação do modelo geométrico,
pode-se dizer que a v.a. X, com distribuição geométrica, corresponde ao número
de ensaios de Bernoulli que precedem o primeiro sucesso.
Agora para verificar se a distribuição de probabilidade foi corretamente definida,
vamos provar que a probabilidade do conjunto Ω é 1:
Temos que

Ω = {X = 1} ∪ {X = 2} ∪ ... = ∪∞
x=1 {X = x}, n ∈ N.

Então

X
P(Ω) = P(∪∞
x=1 {X = x}) = P(X = x)
x=1

X 1 p
= p(1 − p)x−1 = p = = 1.
x=1
1 − (1 − p) p

A última igualdade é consequência da série geométrica.


2.6. VARIÁVEIS ALEATÓRIAS DISCRETAS 73

Esperança e Variância:

Se X tiver distribuição Geométrica, vamos mostrar que


1 1−p
E(X) = e V ar(X) = .
p p2
Prova:
Para calcular a E(X), usaremos uma expressão muito utilizada nos estudos
de Cálculo. Para todo número real x no intervalo (0, 1) consideremos a série
geométrica cuja soma é dada a seguir:

X 1
xi = . (2.1)
x=1
1−x

Derivando-se ambos os lados dessa igualdade, temos:


∞ ∞
d X i X i−1 1
x = ix = . (2.2)
dx x=1 x=1
(1 − x)2

Definimos q = 1 − p. Usando a definição de Esperança, tem-se:


n
X n
X
E(X) = x pX (x) = x p.q x−1 .
x=0 x=1

Utilizando as expressões (1.1) e (1.2), obtemos


n n
dq x
 
X d X x d q 1 1
E(X) = p =p q =p =p 2 = .
x=1
dq dq x=1 dq 1 − q p p

De maneira análoga, podemos obter E(X 2 ) e também a variância de X:


1−p
V ar(X) = E(X 2 ) − E(X)2 = .
p2
Exemplo 2.6.6 Uma linha de produção está sendo analisada para efeito de
controle de qualidade das peças produzidas. Tendo em vista o alto padrão reque-
rido, a produção é interrompida para regulagem toda vez que uma peça defeituosa
é observada. Se 0, 02 é a probabilidade da peça ser defeituosa, deseja-se veri-
ficar o comportamento da variável, que representa a quantidade de peças boas
produzidas antes da primeira defeituosa.
Seja X a variável aleatória geométrica que corresponde ao número de peças boas
produzidas antes da primeira defeituosa. Então a probabilidade de a primeira
peça ser defeituosa depois de x peças boas, é dada por:

P(X = x) = p(1 − p)x−1 = (0, 02)(0, 98)x−1


74 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

2.6.5 Poisson
A distribuição de probabilidade de uma variável aleatória que registra o número
de ocorrências sobre um intervalo de tempo é chamada de Poisson. A distri-
buição de probabilidade de uma v.a de Poisson, com parâmetro λ > 0, é definida
pela seguinte expressão:
e−λ λx
P(X = x) = , x = 0, 1, . . . ,
x!
com o parâmetro λ sendo usualmente referido como a a taxa de ocorrência. A
notação X ∼ P o(λ), será usada para representar que X é uma v.a que segue o
modelo Poisson.
O modelo de Poisson tem sido muito utilizado em experimentos fı́sicos e biológicos
e, nesses casos, λ é a frequência média ou esperada de ocorrências num deter-
minado intervalo de tempo.
Vamos verifificar se a distribuição de probabilidade de uma v.a de Poisson, foi
definida corretamente. Não é difı́cil observar que, para qualquer x, ela é um
número positivo. Basta mostrar que a s probabilidades somam 1. Temos,
∞ ∞ ∞
X X e−λ λx X λx
P(X = x) = = e−λ = e−λ eλ = 1.
x=0 x=0
x! x=0
x!
x
No cálculo acima, usamos que a série λ /x!, somada para valores de x ≥ 0,
produz eλ . Esse resultado é bastante utilizado nos textos de Cálculo Diferencial
e Integral e segue do desenvolvimento em série de Taylor do termo eλ .
Exemplo 2.6.7 Alguns dos itens abaixo são exemplos de fenômenos aleatórios
de contagem em unidade de tempo.
• Números de carros que chegam a um posto de gasolina;

• Números de acidentes de trânsito por semana em uma cidade;

• Números de chamadas telefônicas por hora em uma central telefônica.

Esperança e Variância:

Se X tiver distribuição de Poisson, vamos mostrar que

E(X) = λ e V ar(X) = λ.

Prova:
∞ ∞ ∞ ∞
X e−λ λx X e−λ λx X e−λ λx X e−λ λx−1
E(X) = x = x = =λ .
x=0
x! x=0
x(x − 1)! x=1 (x − 1)! x=1
(x − 1)!
Tomando, m = x − 1, temos que
2.6. VARIÁVEIS ALEATÓRIAS DISCRETAS 75


X e−λ λm
E(X) = λ .
m=0
m!

De acordo com a definição de distribuição de probabilidade de uma v.a de Pois-


son, temos que

X e−λ λx
= 1.
x=0
x!

Portanto, a partir da expressão acima, obtemos:

E(X) = λ.

Agora para calcular a V ar(X), temos que obter E(X 2 ):


∞ ∞ ∞
X X x2 e−λ λx X x2 e−λ λx
E(X 2 ) = x2 pX (x) = =
x=0 x=0
x! x=0
x(x − 1)!
∞ ∞
X xe−λ λx X xe−λ λx−1
= =λ .
x=1
(x − 1)! x=1
(x − 1)!

Tomando novamente, m = x − 1, temos


∞ ∞ ∞
X (m + 1)e−λ λm X m e−λ λm X e−λ λm
E(X 2 ) = λ =λ + λ .
x=1
m! x=1
m! x=1
m!

Substituindo a E(X) na expressão acima, obtemos

E(X)2 = λ E(X) + λ = λ2 + λ.

Logo,
V ar(X) = E(X 2 ) − E(X)2 = λ2 + λ − λ2 = λ.

Exemplo 2.6.8 Calcule as probabilidades de obter X = 2 e X = 3 em uma


distribuição de Poisson com média igual a 1.
Se a média é 1, então λ = 1. Assim, a probabilidade de X = 2 e X = 3 é dada
da seguite forma:

e−1 12
P(X = 2) = = 0, 18394.
2!

e−1 13
P(X = 3) = = 0, 06131.
3!
76 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

2.7 Função de Distribuição de Probabilidade


Nesta seção, vamos apresentar uma outra forma de associar probabilidades aos
valores ou a intervalos de valores de uma variável aleatória. Chamaremos esta
nova forma, de função de distribuição de probabilidade (f.d.p) ou de função de
distribuição acumulativa (f.d.a). Veremos que essa segunda denominação é bem
sugestiva para a definição da função.

Definição 2.7.1 Seja X uma variável aleatória discreta, a função de distri-


buição de probabilidade de X, é definida para qualquer número real x, pela
seguinte expressão:
F (x) = P(X ≤ x),

sendo que o domı́nio de F é todo o conjunto dos números reais, enquanto que
a imagem é definida pelo intervalo [0, 1].

A função de distribuição de probabilidade de uma variável aleatória X, apre-


senta as seguintes propriedades:

i) 0 ≤ F (x) ≤ 1, pois F (x) representa uma probabilidade.

ii) F (x) é não decrescente e contı́nua à direita.

iii) lim F (x) = 0 e lim F (x) = 1.


x→−∞ x→+∞

Exemplo 2.7.1 Seja X a variável aleatória que representa o número de caras


em três lançamentos independentes de uma moeda, ou seja, X = {0, 1, 2, 3}.
Queremos determinar a função de distribuição de probabilidade da v.a X.

Para definir F (x), precisa-se obter a sua expressão para todo x ∈ R:

Se (−∞ < x < 0):

F (x) = P(X ≤ x) = P(ω ∈ Ω : X(ω) ≤ x) = P(∅) = 0.

Se (0 ≤ x < 1):

Para x = 0, F (0) = P(X ≤ 0) = P({T, T, T }) = 1/8.

Note que a variável só assume valores inteiros, então esse valor fica inalterado
no intervalo [0, 1). Isto é, F (0.1), F (0.5) ou F (0.9) também são iguais a 1/8.
Isso também vale para os demais intervalos.
2.7. FUNÇÃO DE DISTRIBUIÇÃO DE PROBABILIDADE 77

Se (1 ≤ x < 2):

Para x = 1, F (1) = P(X ≤ 1) = P({H, T, T })+P({T, H, T })+P({T, T, H}) = 3/8.

Se (2 ≤ x < 3):

Para x = 2, F (2) = P(X ≤ 2) = P({H, H, T })+P({T, H, H})+P({H, T, H}) = 3/8.

Se (x ≥ 3):

Para x = 3, F (3) = P(X ≤ 3) = P({H, H, H}) = 1/8.

Portanto a função de distribuição de probabilidade da variável aleatória X é


definida por:



 0 se − ∞ < x < 0
1/8 se 0 ≤ x < 1




F (x) = 3/8 se 1 ≤ x < 2

3/8 se 2 ≤ x < 3





 1/8 se x ≥ 3.

Exemplo 2.7.2 Considerando o lançamento de dois dados honestos, seja X a


v.a que assume os valores da soma das faces, ou seja, X = {2, 3, . . . , 12}. Qual
é a função de distribuição de probabilidade de X?

Para definir F (x), precisa-se obter a sua expressão para todo x ∈ R:

Se (x < 2):
F (x) = P(X ≤ x) = P(∅) = 0.

Se (2 ≤ x < 3):

Para x = 2, F (2) = P(X ≤ 2) = P({1, 1}) = 1/36.

Se (3 ≤ x < 4):

Para x = 3, F (3) = P(X ≤ 3) = P({1, 1}) + P({1, 2}) + P({2, 1}) = 3/36.

Repetimos esses mesmos passos para os demais valores de x. Deste modo, en-
contramos os valores completos da função de distribuição de probabilidade da
variável aleatória X:
78 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS



 0 se x<2
2≤x<3




 1/36 se
3/36 se 3≤x<4





6/36 se 4≤x<5





10/36 se 5≤x<6





 15/36 se 6≤x<7
F (x) =


 21/36 se 7≤x<8
26/36 se 8≤x<9





30/36 se 9 ≤ x < 10





33/36 se 10 ≤ x < 11








 35/36 se 11 ≤ x < 12
x ≥ 12.

1 se

A partir da função de distribuição de probabilidade de uma v.a X, conseguimos


encontrar a sua distribuição de massa de probabilidade.

Exemplo 2.7.3 Uma v.a X possui a seguinte função de distribuição de proba-


bilidade: 


 0 se x<5
 0.3 se 5≤x<7



F (x) = 0.5 se 7≤x<8

0.9 se 8 ≤ x < 15





 1 se x ≥ 15.
Com essas informações vamos determinar a distribuição de probabilidade de X.

Baseando-se na definição de função de distribuição de probabilidade, temos que


a distribuição de probabilidade de X é definida por:

X P(X = x)
5 0.3
7 0.2
8 0.4
15 0.1

Exercı́cio:
De acordo com o exemplo 2.7.3, determine as seguintes probabilidades:

a) P(X ≤ 7).

b) P(X < 7).


2.8. FUNÇÃO GERADORA DE PROBABILIDADES 79

c) P(7 ≤ X ≤ 10).

d) P(X > 9).

2.8 Função Geradora de Probabilidades


Se X for uma variável aleatória com pX dada e IX = {0, 1, 2, . . .}, definimos a
seguinte função

X
G(s) = E(sX ) = s0 pX (0) + s1 pX (1) + s2 pX (2) + . . . = sr pX (r).
r=0

Exemplo 2.8.1 Se X for uma variável aleatória binomial de parâmetros n e


p, o que indicaremos por X ∼ Bin(n, p), temos que
n n
!
X
X
r
X
r n
E(s ) = s pX (r) = s pr (1 − p)n−r
r=0 r=0
r
n
!
X n
= (sp)r (1 − p)n−r = (sp + (1 − p))n .
r=0
r

Portanto, G(s) = (sp + 1 − p)n .

Exemplo 2.8.2 Se X for uma variável aleatória geométrica de parâmetro p, o


que indicaremos por X ∼ Geo(p), temos que

X ∞
X
E(sX ) = sr pX (r) = sr (1 − p)r−1 p
r=1 r=1

X 1
= ps [s(1 − p)]r−1 = ps .
r=1
1 − s(1 − p)

ps
Portanto, G(s) = .
1 − s(1 − p)

A função G(s) é chamada de função geradora de probabilidades. A sua im-


portância se deve ao fato de facilitas a obtenção de E(X), V ar(X) como veremos
no teorema a seguir.

Teorema 2.8.1 Seja E(sX ) = G(s), e seja G(r) (s) a r-ésima derivada de G(s).
Então
G(r) (1) = E{X(X − 1)(X − 2) . . . (X − r + 1)}.
dG(s)
Em particular, G(1) (s) = = G0 (1) = E(X).

ds s=1

s=1
80 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

A prova desse teorema pode ser vista em GRIMMETT. Observações

1. Para r = 2 temos
d2 G(s)
• G(2) (s) = = G00 (s)
ds2
• G00 (1) = E{X(X − 2 + 1)} = E{X(X − 1)} = E{X 2 − X}

X ∞
X
2. A série sr pX (r) converge para |s| ≤ 1, pois pX (r) = 1. Logo G(s)
r=0 r=0
está bem definida para |s| ≤ 1.
Voltando ao exemplo 1.8.1, onde X ∼ Bin(n, p) e G(s) = (sp + 1 − p)n , temos
que

G0 (s) = n(sp + 1 − p)n−1 p = pn(sp + 1 − p)n−1


G00 (s) = pn(n − 1)p(sp + 1 − p)n−2 = p2 n(n − 1)(sp + 1 − p)n−2 .

Assim pelo teorema anterior,

G0 (1) = E(X) = np,

G00 (1) = E{X(X − 1)} = E{X 2 − X} = E(X 2 ) − E(X).


Logo

G00 (1) = p2 n(n − 1) = E(X 2 ) − E(X)


= p2 n(n − 1) = E(X 2 ) − np

Portanto,
E(X 2 ) = p2 n(n − 1) + np = np{(n − 1)p + 1}.
2
Agora podemos encontrar V ar(X) = E(X 2 ) − (E(X)) :

V ar(X) = np{(n − 1)p + 1} − n2 p2


= np{np − p + 1 − np} = np(1 − p).
ps
Voltando agora ao exemplo 1.8.2, onde X ∼ Geo(p) e G(s) = ,
1 − s(1 − p)
temos que
p[1 − s(1 − p)] − [−(1 − p)]ps p − ps(1 − p) + ps(1 − p) p
G0 (s) = 2 = 2 = 2.
[1 − s(1 − p)] [1 − s(1 − p)] [1 − s(1 − p)]
Substituindo s = 1, encontramos
p 1
G0 (1) = = = E(X).
p2 p
Fica a cargo do leitor encontrar V ar(X).
2.9. EXERCÍCIOS 81

2.9 Exercı́cios
1. Seja o espaço de probabilidade (Ω, F, P). Para o evento D ⊂ Ω seja a
seguinte variável aleatória


1, se ω ∈ D,
X(ω) =
0, se ω ∈
/ D.

(a) Mostre que E(X) = P(D).


(b) Mostre que V ar(X) = P(D) · P(Dc ).

2. Suponha um jogo infantil onde há a representação de uma estrada de


100km que liga a cidade B à cidade A. A estrada é tortuosa e está dividida
em 100 quadradinhos de 1km. O jogo começa com todos os jogadores na
cidade B. É escolhida uma ordem entre os jogadores, e cada um lança
um dado honesto duas vezes, e de maneira independente. A soma dos
resultados corresponde à distância que cada jogador percorrerá em cada
rodada. Ganha aquele que chegar primeiro na cidade A.

(a) Encontre Ω.
Você concorda que os jogadores estão mais interessados na soma dos
ressultados do lançamento do que com os elementos de Ω? Por isso, é
interessante definir a variável aleatória S que associa a cada elemento
de Ω a soma dos resultados dos lançamentos.
(b) Encontre {S = 8}, {S = 12}.
(c) Se o dado tivesse apenas 3 faces, como seria a distribuição de massa
de probabilidade de S?
(d) Para a mesma situação do item c, encontre E(S) e V ar(S).

3. Seja Ω = {ω1 , ω2 , ω3 , ω4 , ω5 , ω6 , ω7 , ω8 , ω9 , ω10 }. Considere que todos os


eventos elementatares são equiprováveis. Definamos em Ω a seguinte
variável aleatória:

X(ω1 ) = X(ω2 ) = X(ω3 ) = X(ω5 ) = 5

X(ω4 ) = X(ω8 ) = 10

X(ω6 ) = X(ω7 ) = X(ω9 ) = 20

X(ω10 ) = 30
82 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

(a) Determine a distribuição de massa de probabilidade de X.


(b) Calcule E(X)
(c) Calcule E(a · X), a ∈ R.

4. Considere o espaço amostral Ω = {1, 2, 3, 4, 5, 6}, e considere os eventos


elementares equiprováveis. Seja X uma variável aleatória tal que

X(1) = X(2) = X(3) = X(5) = −1, X(4) = X(6) = 1.

(a) Determine a distribuição de massa de probabilidade de X.


(b) Calcule E(X).
(c) Calcule E(a · X + b), a e b ∈ R.
(d) Seja Y = X 2 . Calcule E(Y ).

5. Seja Ω = {1, 2, 3, 4, 5, 6}. E sejam os eventos

(A − B) = {1}, (B − A) = {4, 6}, (A ∪ B) = {1, 3, 4, 6}.

Considere os eventos elementares equiprováveis.

(a) Determine P(A) e P(B).


(b) Defina a seguinte variável aleatória

X(2) = X(4) = X(6) = +1

X(1) = X(3) = X(9) = −1.

Encontre a distribuição de massa de probabilidade de X.


(c) Calcule E(X) e V ar(X).

6. Seja o espaço de probabilidade (Ω, F, P). Considere a variável aleatória


X, com a seguinte distribuição de massa de probabilidade:

k −1 0 1 2
pX (k) 0.2 0.1 0.3 0.4
Para η = 2X encontre:

(a) E(η).
(b) V ar(η).
2.9. EXERCÍCIOS 83

7. Considere que você esteja numa situação difı́cil. Você vai assistir a aula
de uma disciplina e descobre que o professor preparou uma prova sur-
presa. Agora você está diante de uma prova teste com 10 questões, cada
uma com 4 alternativas equiprováveis, e somente uma correta, e está to-
talmente despreparada. Você sequer apareceu nas últimas aulas. Você
não foi muito bem na primeira prova do curso, e sabe que se tirar 6 nessa
prova você passa, caso contrário você vai ter que fazer a recuperação. Você
decide responder às questões de maneira aleatória e de forma que a res-
posta de uma não influencie nas outras e vice-versa, ou seja de maneira
independente.

(a) Considere a seguinte varı́avel aleatória: Ri = 1 se a i-ésima resposta


for correta, e Ri = 0 se a i-ésima resposta não for correta. Encontre
a distribuição de massa de probabilidade de Ri .
(b) Encontre E(X) e V ar(X).

8. Seja X uma variável aleatória de Bernoulli que assume 1 com probabili-


dade p e 0 com probabilidade 1 − p.

(a) Encontre E(X).


(b) Encontre V ar(X).

Agora considere a soma de 12 variáveis aleatórias de Bernoulli indepen-


dentes como a definida acima. Encontre E(X) e V ar(X).

9. Seja X uma variável aleatória de Bernoulli tal que



 1, com probabilidade p,
X(ω) =
−1, com probabilidade 1 − p.

(a) Encontre E(X).


(b) Encontre V ar(X).

Agora considere a soma de 10 variáveis aleatórias de Bernoulli indepen-


dentes como a definida acima. Encontre E(X) e V ar(X).

10. Utilizando o teorema 2.8.1, encontre E(X 3 ) para X ∼ Bin(n, p) e X ∼


Geo(p).

11. Experimento Aleatório: Uma moeda honesta é lançada duas vezes.


Seja X(ω) o número de ocorrências de caras.
84 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS

(a) Encontre Ω.
(b) Encontre a distribuição de massa de probabilidade de X.
(c) Encontre E(X).
(d) Encontre V ar(X).
(e) Encontre a função geradora de probabilidades G(s).
(f) A partir da G(s) e do teorema acima, confira se os resultados encon-
trados nos itens (b) e (c) estão corretos

12. Encontre a função geradora de probabilidade para a seguinte variável


aleatória

 1, com probabilidade p,
X(ω) =
−1, com probabilidade 1 − p.
Agora, use-a para encontrar E(X) e V ar(X).

13. Nas 3 situações seguintes, calcule explicitamente a probabilidade pedida.

(a) Uma moeda honesta é lançada 3 vezes. Qual a probabilidade de


serem obtidas 2 caras?
Dica: Neste caso a v.a. X é o número de caras em 3 lançamentos.
Então X tem distribuição binomial de parâmetros n = 3 e p = 1/2.
(b) Um dado honesto é lançado cinco vezes. Qual é a probabilidade de
se obter face 5 no máximo 3 vezes?
Dica: Neste caso a v.a. X é o número de vezes que aparece face 5
em 5 lançamentos. Então X tem distribuição binomial de parâmetros
n = 5 e p = 1/6. E a probabilidade que se quer calcular é P(X ≤ 3).
(c) Dez peças são extraı́das, ao acaso, com reposição, de um lote con-
tendo 500 peças. Qual é a probabilidade de que todas sejam defeitu-
osas, sabendo-se que 10% das peças do lote são defeituosas.
Dica: Neste caso a v.a. X é o número de peças defeituosas num
lote de 10 peças. Então X tem distribuição binomial de parâmetros
n = 10 e p = 0, 1. E a probabilidade que se quer calcular é P(X = 10).

14. Acredita-se que 20% dos moradores das proximidades de uma grande
indústria siderúrgica tem alergia aos poluentes lançados ao ar. Admitindo
que este percentual de alérgicos é real (correto), calcule a probabilidade
de que pelo menos 4 moradores tenham alergia entre 13 selecionados ao
acaso.
2.9. EXERCÍCIOS 85

15. Três em cada quatro alunos de uma universidade fizeram cursinho antes
de prestar vestibular. Se 16 alunos são selecionados ao acaso, qual é a
probabilidade de que:

(a) Pelo menos 12 tenham feito cursinho?


(b) No máximo 13 tenham feito cursinho?
(c) Exatamente 12 tenham feito cursinho?

16. Num teste tipo certo/errado, com 50 questões, qual a probabilidade de


que um aluno acerte 80% das questões, supondo que ele as responda ao
acaso?

17. Repita o exercı́cio anterior, considerando cinco alternativas para cada


questão.

18. Seja X uma v.a. Binomial com parâmetros n = 20 e p = 3/4. Encontre


E(X) e V ar(X) em função de n e p.
Seja X uma variável aleatória Geométrica de parâmetro p.

(a) Para n ≥ 0, mostre que P (X > n) = (1 − p)n .


(b) Mostre que para n, k = 0, 1, 2, . . .,

P(X > n + k|X > k) = P(X > n).


86 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS DISCRETAS
Capı́tulo 3

Vetores Aleatórios
Discretos

3.1 Distribuição Conjunta de Probabilidade


Modelos probabilı́sticos geralmente envolvem várias variáveis aleatórias. Aqui
vamos nos concentrar no estudo de um par de variáveis aleatórias, não se es-
quecendo que os resultados obtidos para duas variáveis aleatórias podem ser
estendidos facilmente a um conjunto finito de variáveis aleatórias. A seguir
temos a definição de vetor aleatório bidimensional.

Definição 3.1.1 Sejam X e Y duas variáveis aleatórias. Chamamos (X, Y ) de


vetor aleatório, que será discreto se X e Y forem variáveis aleatórias discretas.

Exemplo 3.1.1 No contexto de diagnóstico médico, os resultados de diversos


exames são significativos para o profissional médico descobrir que doença aco-
mete seu paciente.
Digamos que um paciente procure um médico com sintomas de cansaço e ton-
tura. O médico pede um exame de sangue para verificar anemia e diabetes.
Definamos:
(
1, se o paciente tiver anemia
X=
0, caso contrário

(
1, se o paciente tiver diabetes
Y =
0, caso contrário

87
88 CAPÍTULO 3. VETORES ALEATÓRIOS DISCRETOS

Nesse caso o par (X, Y ) é uma vetor aleatório bidimensional.

Um vetor aleatório analogamente a uma variável aleatória unidimensional só


fica determinada quando além de seus valores também são conhecidas as pro-
babilidades com que esses valores são assumidos. A definição de distribuição de
probabilidade apresentada para uma v.a unidimensional pode ser estendida de
maneira natural para uma vetor aleatório.

Definição 3.1.2 (Distribuição de Probabilidade Conjunta).


Seja (X, Y ) um vetor aleatório discreto, onde X assume os valores x1 , x2 , . . . , xn
e Y assume os valores y1 , y2 , . . . , ym . A cada par ordenado (xi , yj ) associaremos
um número p(xi , yj ) = P(X = xi , Y = yj ), satisfazendo:

1. p(xi , yj ) ≥ 0, ∀ i, j;
n X
X m
2. p(xi , yj ) = 1.
i=1 j=1

O conjunto de valores p(xi , yj ), 1 ≤ i ≤ n, 1 ≤ j ≤ n é a distribuição conjunta


do vetor aleatório discreto (X, Y ). Esses valores são normalmente apresentados
em forma de tabela, tal como veremos nos exemplos abaixo.

Agora, considerando o exemplo 3.1.1, conseguimos responder algumas perguntas


como: a pessoa pode ter as duas doenças?
Nesse caso os eventos de interesse são: {X = 1} e {Y = 1}. Em palavras,
queremos saber qual é a probabilidade da pessoa apresentar as duas doenças.
Por meio da distribuição conjunta conseguimos encontrar essas probabilidades,
ou seja, calculamos

P({X = 1} ∩ {Y = 1}) = P(X = 1, Y = 1).

Isto é, obtemos com que probabilidade X e Y assumem conjuntamente (ao


mesmo tempo) seus diversos valores.

Exemplo 3.1.2 (Morettin, Bussab) Suponha que estejamos interessados em es-


tudar a composição de famı́lias com 3 crianças, quanto ao sexo. Definamos:

X = número de meninos
(
1, se o 1◦ filho for homem
Y =
0, se o 1◦ filho for mulher
3.2. DISTRIBUIÇÕES MARGINAIS 89

Z = número de vezes em que houve variação do sexo entre um nascimento


e outro, dentro da mesma famı́lia.
Com essas informações, e supondo que cada composisão tenha a mesma
probabilidade, obtemos na tabela abaixo a probabilidade de cada evento possı́vel,
onde H e M representam se o filho é homem ou mulher, respectivamente:

elementos de Ω Probabilidade X Y Z
HHH 1/8 3 1 0
HHM 1/8 2 1 1
HMH 1/8 2 1 2
MHH 1/8 2 0 1
HMM 1/8 1 1 1
MHM 1/8 1 0 2
MMH 1/8 1 0 1
MMM 1/8 0 0 0

Obtidos esses resultados podemos determinar qual é a distribuição conjunta do


vetor aleatório (X, Y ). Por exemplo,

P(X = 2, Y = 1) = P({HHM, HM H})


= P({HHM }) + P({HM H})
= 1/8 + 1/8 = 2/8

Seguindo esse mesmo procedimento para os demais pares ordenados assumidos


por (X, Y ), encontramos sua distribuição conjunta:

X=0 X=1 X=2 X=3


Y =0 1/8 2/8 1/8 0
Y =1 0 1/8 2/8 1/8

Fica a cargo do leitor encontrar a distribuição conjunta do vetor (X, Y, Z).

3.2 Distribuições Marginais


Consideramos anteriormente uma variável aleatória bidimensional (X, Y ), onde
X assume os valores x1 , x2 , . . . , xn e Y assume os valores y1 , y2 , . . . , ym . Seja
P(X = xi , Y = yj ), para i = 1, 2, . . . , n e j = 1, 2, . . . , m a distribuição conjunta
de (X, Y ). Uma vez que tenhamos a distribuição de massa de probabilidade
conjunta, podemos recuperar pX e pY .
90 CAPÍTULO 3. VETORES ALEATÓRIOS DISCRETOS

A distribuição de probabilidade de X é obtida calculando-se para i = 1, 2, . . . , n:


m
X m
X
pX (xi ) = P(X = xi ) = P(X = xi , Y = yj ) = pX,Y (xi , yj ).
j=1 j=1

Ela é denominada distribuição marginal de X.


A distribuição marginal de Y é calculada de modo análogo. Então para j =
1, 2, . . . , m, temos que
n
X n
X
pY (yj ) = P(Y = yj ) = P(X = xi , Y = yj ) = pX,Y (xi , yj ).
i=1 i=1

Exemplo 3.2.1 Seja (X, Y ) um vetor aleatório discreto. A distribuição con-


junta de X e Y é dada pela tabela a seguir. Determine as suas distribuições
marginais.

Y =1 Y =2 Y =3
Y =1 0 1/5 0
Y =2 1/5 1/5 1/5
Y =3 0 1/5 0

Primeiramente vamos calcular a distribuição marginal de X:


3
X 1 1
• pX (1) = pX,Y (1, j) = pX (1, 1) + pX (1, 2) + pX (1, 3) = 0 + +0=
j=1
5 5

3
X 1 1 1 3
• pX (2) = pX,Y (2, j) = pX (2, 1) + pX (2, 2) + pX (2, 3) = + + =
j=1
5 5 5 5

3
X 1 1
• pX (3) = pX,Y (3, j) = pX (3, 1) + pX (3, 2) + pX (3, 3) = 0 + +0=
j=1
5 5

Agora de forma análoga obtemos a distribuição marginal de Y :


3
X 1 1
• pY (1) = pX,Y (i, 1) = pY (1, 1) + pY (2, 1) + pY (3, 1) = 0 + +0=
i=1
5 5

3
X 1 1 1 3
• pY (2) = pX,Y (i, 2) = pX (1, 2) + pX (2, 2) + pX (3, 2) = + + =
i=1
5 5 5 5

3
X 1 1
• pY (3) = pX,Y (i, 3) = pX (1, 3) + pX (2, 3) + pX (3, 3) = 0 + +0=
i=1
5 5
3.3. DISTRIBUIÇÕES CONDICIONAIS 91

3.3 Distribuições Condicionais


Quando trabalhamos com vetores aleatórios, é conveniente calcular proporções
em relação a uma linha ou coluna, e não em relação ao total. Assim, consi-
derando novamente o exemplo 3.1.2, qual seria a distribuição do número de
meninos, sabendo-se que o primeiro filho é do sexo masculino? Ou seja, quere-
mos calcular a probabilidade P({X = x}|{Y = 1}) = P(X = x|Y = 1). A partir
da definição de probabilidade condicional, obtemos
P({X = x} ∩ {Y = 1}) P(X = x, Y = 1)
P(X = x|Y = 1) = = , x = 0, 1, 2, 3.
P({Y = 1}) P(Y = 1)
Usamos pX|Y (x, y) para denotar a probabilidade condicional dos valores de X
dado um valor de Y .
De forma geral podemos definir a distribuição condicional de duas variáveis
aleatórias da seguinte forma:

Definição 3.3.1 Seja (X, Y ) um vetor aleatório discreto. A probabilidade con-


dicional de {X = x}, dado que {Y = y} ocorreu, é dada pela expressão:
P(X = x, Y = y)
P(X = x|Y = y) = , se P(Y = y) > 0.
P(Y = y)
Definimos a probabilidade condicional de Y = y, dado que X = x ocorreu da
mesma forma. Logo temos que
P(X = x, Y = y)
P(Y = y|X = x) = .
P(X = x)
As mesmas condições impostas a P(Y = y) para o cálculo de P(X = x|Y = y)
são transferidas à P(X = x) para determinar P(Y = y|X = x).

Exemplo 3.3.1 (Morettin, Bussab) Num estudo de rotatividade de mão-de-


obra, foram definidas para certa população de trabalhadores as variáveis aleatórias:

• X = número de empregos que um funcionário teve ao mesmo tempo no


último ano

• Y = salário

Obteve-se a seguinte distribuição conjunta:


X=1 X=2 X=3 X=4
Y = 800 0 0 0.10 0.10
Y = 1200 0.05 0.05 0.10 0.10
Y = 2000 0.05 0.20 0.05 0
Y = 5000 0.10 0.05 0.05 0
92 CAPÍTULO 3. VETORES ALEATÓRIOS DISCRETOS

A partir dessas informações queremos estudar a distribuição do número de em-


pregos de cada trabalhador no último ano, dado que o sálario foi de 5000 reais,
isto é, queremos estudar a distribuição de probabilidade de X dado que {Y =
5000 }:
P(X = x, Y = 5000)
P(X = x, Y = 5000) = .
P(Y = 5000)

Da última linha da tabela obtemos as probabilidades conjuntas de interesse,


P(X = 1, Y = 5000), P(X = 2, Y = 5000), P(X = 3, Y = 5000) e P(X =
4, Y = 5000). Dividindo-se essas probabilidades por P(Y = 5000), que está na
margem da tabela, obtemos a probabilidade condicional P(X = xi |Y = 5000):
P(X = 1, Y = 5000) 0.10 1
pX|Y (1, 5000) = = =
P(Y = 5000) 0.20 2

P(X = 2, Y = 5000) 0.05 1


pX|Y (2, 5000) = = =
P(Y = 5000) 0.20 4

P(X = 3, Y = 5000) 0.05 1


pX|Y (3, 5000) = = =
P(Y = 5000) 0.20 4

P(X = 4, Y = 5000) 0
pX|Y (4, 5000) = = =0
P(Y = 5000) 0.20
Os resultados obtidos podem ser verificados de forma simplificada, na tabela
abaixo:
X 1 2 3 4
pX|Y 1/2 1/4 1/4 0
Por meio da amostra escolhida, conclui-se que metade das pessoas que possuem
salários de 5000 reais, só tiveram um emprego e a outra metade é representada
por pessoas que já tiveram 2 ou 3 empregos.

Considere a distribuição condicional de X, dado que Y = 5000, apresentada no


exemplo 3.3.1. Podemos calcular a média dessa distribuição, a saber

E(X|Y = 5000) = 1(1/2) + 2(1/4) + 3(1/4) + 4(0).

De modo geral, dada a probabilidade condicional de P(X|Y = y), podemos


calcular a esperança dos valores de X dado um valor de Y . Apresentamos isso
na seguinte definição:
Definição 3.3.2 A esperança de X, dado que Y = yj , é definida por
n
X
E(X|Y = yj ) = xi P(X = xi |Y = yj ).
i=1
3.4. INDEPENDÊNCIA 93

Uma definição análoga vale para E(Y |X = xi ).

3.4 Independência
Intuitivamente a independência de X em relação a Y significa: ”seja qual for o
valor que Y assuma, isso não influencia no fato de X assumir quaisquer de seus
valores ”.
Os conceitos envolvidos na independência de variáveis aleatórias são os mesmos
já vistos para eventos independentes.

Definição 3.4.1 Dizemos que duas variáveis aleatórias X e Y são independen-


tes se

pX,Y (x, y) = pX (x)pY (y), para todo x ∈ IX e y ∈ IY .

Observações:

1. a definição acima é equivalente a dizer que os eventos {X = x} e {Y = y}


são independentes para todo x ∈ IX e todo y ∈ IY .
pX,Y (x, y)
2. relembrando que pX|Y (x|y) = . Então quando X e Y são inde-
pY (y)
pX (x) pY (y)
pendentes temos que pX|Y (x|y) = = pX (x) para todo y com
pY (y)
pY (y) > 0 e todo x.

Exemplo 3.4.1 Sejam X e Y duas variáveis aleatórias, cuja distribuição con-


junta é dada por
x+y
pX,Y (x, y) = , x = 1, 2, 3 e y = 1, 2.
21
Vamos determinar se X e Y são independentes.
Temos que verificar se pX,Y (x, y) = pX (x). pY (y). O primeiro passo é encontrar
as distribuições marginais pX (x), para x = 1, 2, 3 e pY (y), para y = 1, 2:
2 2
X X x+y x+1 2x + 3
• pX (x) = pX,Y (x, y) = = =
y=1 y=1
21 21 21

3 3
X X x+y 1+y 2+y 3+y 6 + 3y
• pY (y) = pX,Y (x, y) = = + + =
x=1 x=1
21 21 21 21 21

Encontrado as distribuições marginais de X e Y , podemos substituir valores


para verificar se a igualdade acima é satisfeita, pois se existir pelo menos um
94 CAPÍTULO 3. VETORES ALEATÓRIOS DISCRETOS

par (x, y), tal que pX,Y (x, y) 6= pX (x)pY (y), X e Y não serão independentes.
Então, para x = 1 e y = 1, temos que:
2 45
pX,Y (1, 1) = 6= pX (1)pY (1) = .
21 21
Portanto, as variáveis aleatórias X e Y não são independentes.

A independência de variáveis aleatórias implica também em outros resultados,


um deles é mostrado na definição abaixo.

Lema 3.4.1 Se X e Y forem variáveis aleatórias independentes, então

E(XY ) = E(X)E(Y ).

A demonstração deste lema é vista facilmente:


Suponhamos que a distribuição conjunta de (X, Y ), seja dada por pX,Y (xi , yj ),
para i = 1, 2, . . . , n e j = 1, 2, . . . , m, tem-se:
n X
X m n X
X m
E(XY ) = xi yj pX,Y (xi , yj ) = xi yj pX (xi )pY (yj )
i=1 j=1 i=1 j=1
Xn m
X
= xi pX (xi ) yj pY (yj ) = E(X)E(Y ).
i=1 j=1

3.5 Covariância
1
Seja (X, Y ) um vetor aleatório discreto. Vimos até aqui que as esperanças de
X e Y nos fornecem uma medida de posição das respectivas distribuições nos
respectivos eixos da coordenada do plano. E as variâncias de X e de Y dão
uma medida da dispersão dos valores de cada variável aleatória em torno das
respectivas médias E(X) e E(Y ).
A covariância, que definiremos a seguir, fornece a medida de dispersão dos
valores das variáveis aleatórias (X, Y ) em relação ao ponto (E(X), E(Y )).

Definição 3.5.1 Seja (X, Y ) um vetor aleatório. A covariância entre X e Y é


definida por
Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))].

Em palavras, a covariância de X e Y é o valor médio do produto dos desvios


dos valores de cada uma das duas variáveis aleatórias em relação a suas médias.
Isso implica que,
1 Seguindo Dantas [3]
3.6. CORRELAÇÃO 95

• Cov(X, Y ) > 0 : X e Y são positivamente correlacionadas

• Cov(X, Y ) < 0 : X e Y são negativamente correlacionadas

• Cov(X, Y ) = 0 : X e Y não são correlacionadas

A fórmula da covariância pode ser escrita de uma forma mais simples. Note que

Cov(X, Y ) = E[XY − XE(Y ) − Y E(X) + E(X)E(Y )]


= E(XY ) − E(X)E(Y ) − E(Y )E(X) + E(X)E(Y )

ou seja,
Cov(X, Y ) = E(XY ) − E(X)E(Y ).
Quando escrevemos a fórmula da covariância dessa maneira fica fácil entender
o próximo resultado.

Lema 3.5.1 Se X e Y forem variáveis aleatórias independentes, temos que a


Cov(X, Y ) = 0.

Em palavras, se X e Y forem independentes, então elas serão não-correlacionadas.


A recı́proca desse lema não é verdadeira, ou seja, se tivermos Cov(X, Y ) = 0
isso não implica que X e Y sejam independentes. Agora sabendo que X e Y
são independentes, a esperança do produtos das variáveis é igual ao produto das
esperanças, o que torna a demonstração do lema imediata.

3.6 Correlação
2
É comum estarmos interessados na relação entre duas variáveis aleatórias. Por
exemplo, é razoável esperar uma correlação (variação em conjunto) entre um
aumento no nı́vel de produção da economia e o número de pessoas empregadas.
Ou ainda, o percentual de inadimplência dos clientes de uma instituição finan-
ceira pode estar associado com as variações verificadas em seus nı́veis de renda.
Assim, a correlação entre duas variáveis aleatórias indica a maneira como essas
se movem juntas. A medição desse relacionamento é obtida estatisticamente
por meio do coeficiente de correlação.

Definição 3.6.1 Seja (X, Y ) um vetor aleatório bidimensional, definimos o co-


eficiente de correlação entre X e Y como
Cov(X, Y ) Cov(X, Y )
ρ(X, Y ) = p = .
V ar(X). V ar(Y ) σX σY
2 Seguindo Dantas [3]
96 CAPÍTULO 3. VETORES ALEATÓRIOS DISCRETOS

Em palavras, o coeficiente de correlação é o quociente entre a covariância e o


produto dos desvios-padrão de X e Y . A divisão pelo produto dos desvios-
padrão tem a função de padronizar a medida e torná-la possı́vel de ser utilizada
para comparações com outras variáveis.
O coeficiente de correlação varia entre -1 e 1, sendo interpretado em função
do resultado e sinal esperados. Assim, quanto mais perto de -1 situar-se o
coeficiente, mais negativa (inversa) será a correlacão entre as variáveis, isto
é, quando Y diminui, X tende a elevar-se. O contrário acontece quando o
coeficiente está perto de 1. O coeficiente atinge a posição perfeitamente negativa
e positiva quando o coeficiente de correlação for exatamente igual a -1 e 1,
respectivamente.

Exemplo 3.6.1 Sejam X e Y v.a’s que representam o preço de venda e a


demanda de um produto, respectivamente. Com base no comportamento dos
valores obtidos na tabela abaixo, determine o coeficiente de correlação entre
essas duas variáveis aleatórias.

X = Preço de venda Y = Demanda


40 reais 10 unidades
48 reais 8 unidades
52 reais 7 unidades
36 reais 11 unidades
32 reais 12 unidades

De forma intuitiva podemos ver que há uma correlação perfeitamente negativa
entre as variáveis preço e demanda. Um aumento de 4 reais no preço de venda
(por exemplo de $32 para $36 ou de $48 para $52 ) determina uma redução de
uma unidade demandada (por exemplo, de 8 para 7 unidades e de 11 para 12
unidades), e assim por diante. Logo, ρ(X, Y ) = 1.

Para as decisões financeiras a aplicação do conceito de correlação é de grande


importância para o processo de redução do risco por meio de uma diversificação
dos retornos esperados. Por exemplo, investimentos em ativos com semelhantes
coeficientes de correlação não colaboram para a redução do risco total, visto
que todos eles convergem para ganhos quando a situação econômica lhes for
favorável, e para perdas em épocas desfavoráveis.
Como o cálculo do coeficiente de correlação é feito facilmente, ele vem sendo
bastante utilizado, contudo, apresenta algumas limitações. Uma delas é o fato
do coeficiente de correlação de duas v.a’s independentes ser igual a zero, mas a
recı́proca não ser verdadeira.
3.7. EXERCÍCIOS 97

3.7 Exercı́cios
1. Considere um dado honesto de 6 faces. Sejam X a variável aleatória que
assume o resultado de um lançamento e Y a v.a que assume o número de
caras do lançamento de X moedas honestas.

a) Encontre as distribuições condicionais de Y dado X.


b) A partir do item a) encontre a distribuição conjunta de X e Y .
c) A partir do item a) encontre a distribuição marginal de Y .

Dica: observe que a distribuição marginal de X está implicitamente dada


no enunciado.

2. Dois dados honestos são lançados. Seja U a variável aleatória que assume
o valor mı́nimo dos lançamentos. E seja V a variável aleatória que assume
o valor máximo dos lançamentos.

a) Encontre a distribuição conjunta de U e V .


b) Encontre as distribuições condicionais de U e V .
c) A partir dos resultados obtidos no item b), encontre a distribuição de
U , supondo que você saiba a distribuição marginal de V .
d) Encontre as esperanças condicionais de U dado V .
e) A partir dos resultados obtidos em d) e supondo que a distribuição
marginal de V seja conhecida, encontre E(U ).

3. Seja o espaço de probabilidade (Ω, F, P), e considere A e B dois eventos in-


dependentes, a partir dos quais definimos as seguintes variáveis aleatórias.

1, se ω ∈ A,
IA (ω) =
0, se ω ∈ / A.


1, se ω ∈ B,
IB (ω) =
0, se ω ∈
/ B.

(a) Encontre a distribuição de probabilidade conjunta do vetor aleatório


(IA , IB ) em função de P(A) e P(B).
(b) Encontre também a distribuição condicional de probabilidade pX|Y (x|y).
98 CAPÍTULO 3. VETORES ALEATÓRIOS DISCRETOS

4. Considere uma urna com 3 bolas numeradas de 2 a 4. Uma bola é escolhida


aleatoriamente. Seja X a variável aleatória que assume o número impresso
na bola. Agora, considere um dado honesto que é lançado X vezes. Seja
Y a variável aleatória que assume o número de vezes que sai o número 4.
Encontre:

(a) as distribuições condicionais de Y dado X.


(b) a distribuição conjunta de probabilidade de X e Y .

5. Sejam X e Y variáveis aleatórias com a seguinte distribuição conjunta de


probabilidades:

Y/ X 1 2 3

1 2/36 2/36 3/36


2 1/36 10/36 3/36
3 4/36 5/36 6/36

(a) Encontre as distribuições marginais de X e Y .


(b) X e Y são independentes?
(c) Calcule E(X), E(Y ), V ar(X), V ar(Y )
(d) Calcule E(X + Y ).
(e) Calcule Cov(X, Y ).
(f) Calcule V ar(X + Y ).

6. Sejam X e Y variáveis aleatórias com a seguinte distribuição conjunta de


probabilidades:

Y/ X 0 1 2 3

1 1/8 1/16 3/16 1/8


2 1/16 1/16 1/8 1/4

(a) Encontre as distribuições marginais de X e Y .


(b) X e Y são independentes?
(c) Calcule E(X), E(Y ), V ar(X), V ar(Y ).
(d) Calcule E(X + Y ).
(e) Calcule Cov(X, Y ).
3.7. EXERCÍCIOS 99

(f) Calcule V ar(X + Y ).

7. Lançam-se uma moeda e um dado honestos. Seja X a v.a. que conta o


número de caras obtidas, e seja Y o número de vezes que sai a face 1 do
dado.

(a) Exiba o espaço amostral.


(b) Encontre a distribuição de X.
(c) Calcule a E(X) e a V ar(X).
(d) Encontre a distribuição de Y .
(e) Calcule a E(Y ) e a V ar(Y ).
(f) Monte a tabela de da distribuição conjunta de X e Y .
(g) Calcule Cov(X, Y ).

8. Considere três moedas distintas. Para a moeda 1, a probabilidade de sair


cara é 0.6. Para a moeda 2, a probabilidade de sair cara é 0.2. Para a
moeda 3, a probabilidade de sair cara é 0.4. A moeda 1 é lançada. Seja
X a variável aleatória que assume 1 se saiu cara e 0 se saiu coroa. Agora,
se saiu cara, lance a moeda 2, e se saiu coroa, lance a moeda 3. Seja Z a
variável aleatória que assume 1 se saiu cara nesse segundo lançamento e 0
se saiu coroa. Encontre:

(a) as distribuições condicionais de probabilidade da variável aleatória Z


dado a variável aleatória X.
(b) a partir das distribuições condicionais de Z dado X, encontre a dis-
tribuição de probabilidade de Z.
(c) a distribuição de probabilidade conjunta de X e Z.
(d) a E(Z|X = 0).

9. Considere duas variáveis aleatórias X e Y , tais que X assume os valores


1, 2, 3, e Y assume os valores 2, 3, 4. Sabe-se que Y assume os valores 2, 3, 4
com igual probabilidade, e que E(X|Y = 2) = E(X|Y = 3) = E(X|Y =
4) = 2. Encontre E(X).

(a) Sejam (X, Y ) um vetor aleatório bidimensional, mostre que


a) Var(X+Y)=Var(X)+Var(Y)+ 2Cov(X,Y).
b) Var(X - Y)=Var(X)+Var(Y) - 2Cov(X,Y).
100 CAPÍTULO 3. VETORES ALEATÓRIOS DISCRETOS

(b) Considere uma urna com três bolas brancas e duas vermelhas. Retiram-
se duas bolas da urna, uma após a outra, sem reposição. Defina a
v.a X igual a 1 se a primeira bola retirada for branca, e igual a 0 se
esta for vermelha. Analogamente, defina Y igual a 1 se a segunda
bola for branca, e 0 se for vermelha.
a) Encontre a distribuição conjunta.
b) Encontre as distribuições marginais.
c) Grafique a Covariância.
d) Calcule Cov(X, Y ).
Capı́tulo 4

Variáveis Aleatórias
Contı́nuas

As variáveis aleatórias contı́nuas assumem valores em conjuntos infinitos não-


enumeráveis, tais como o conjunto dos números reais (R) ou como o intervalo
[0, 1] ⊂ R. A velocidade de um veı́culo trafegando ao longo de uma estrada, é
um exemplo de variável aleatória contı́nua. Se olharmos para um velocı́metro
digital que só nos fornece alguns números entre 0 e 200, podemos achar que
só existem velocidades em um conjunto finito de valores. Mas se usarmos um
aparelho mais preciso que mostre exatamente a velocidade do veı́culo, vamos
ver que essas velocidades pertencem a um conjunto não-enumerável de valores,
o que caracteriza esta velocidade como sendo uma v.a contı́nua.
Modelos que envolvem variáveis contı́nuas são bastante úteis, pois permitem
uma maior precisão e o uso de técnicas aprendidas em cursos de cálculo e que
não poderiam ser utilizadas em modelos discretos.
Uma variável aleatória discreta X tem a ela associada uma distribuição de massa
de probabilidade pX (x). Agora no caso contı́nuo, quem faz o papel da distri-
buição de probabilidade de X é a chamada função densidade de probabilidade
de X, que denotaremos por fX (x).
Definição 4.0.1 Uma variável aleatória X é chamada de contı́nua se existir
uma função fX , chamada de função densidade de probabilidade de X, tal que
R +∞
fX (x) ≥ 0 para todo x ∈ R, −∞ fX (x)dx = 1 e
Z b
P(a ≤ X ≤ b) = fX (x)dx
a

para todo o intervalo [a, b] ⊂ R.

101
102 CAPÍTULO 4. VARIÁVEIS ALEATÓRIAS CONTÍNUAS

Podemos dizer que uma variável aleatória discreta X tem a ela associada uma
distribuição de massa de probabilidade pX (x), e uma v.a. contı́nua tem a ela
associada uma função densidade de probabilidade fX (x).

Observações:

(1) Note que continuamos a ter X : Ω → R.


Rb
(2) a fX (x)dx é a área do gráfico de fX (x) entre o intervalo [a, b].
Ra
(3) Para qualquer a ∈ R, P(X = a) = a fX (x)dx = 0.

(4) Por (3) incluir ou excluir os extremos de um intervalo não tem nenhum
efeito em sua probabilidade

P(a ≤ X ≤ b) = P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b).


R +∞
(5) P(−∞ < X < ∞) = −∞ fX (x)dx = 1. Graficamente falando, isso signi-
fica que a área inteira sob o gráfico da função densidade de probabilidade
deve ser igual a 1.

(6) A não ser que ser que seja explicitado, IX = R.

(7) É importante saber que apesar da função densidade de probabilidade ser


usada para calcular probabilidades de eventos, fX (x) não é a probabilidade
de qualquer evento particular. Ou seja , é essencial saber que fX (x) pode
assumir valores maiores que 1.

4.1 Esperança e Variância


A esperança matemática de uma variável aleatória contı́nua é obtida de
forma semelhante ao caso discreto, trocando apenas o somatório pela in-
tegral e a pX por f (x)dx.

Definição 4.1.1 A esperança da variável aleatória contı́nua X, com função


de densidade f (x), é dada por
Z ∞
E(X) = µ = xf (x)dx.
−∞

Como consequência da definição acima, a variância de uma v.a X contı́nua


também é calculada de modo similar ao caso discreto. Isso acontece pois
a V ar(X) é o valor esperado da v.a (X − E(X))2 .
4.1. ESPERANÇA E VARIÂNCIA 103

Definição 4.1.2 Seja X uma variável aleatória contı́nua, a variância de


X é dada por Z ∞
2
σ = (x − E(X))2 f (x)dx.
−∞

Para variáveis aleatórias contı́nuas também podemos utilizar a expressão


alternativa
σ 2 = E(X 2 ) − (E(X))2 .
com E(X 2 ) sendo definido por:
Z ∞
2
E(X ) = x2 f (x)dx.
−∞

Exemplo 4.1.1 ([7]) Arqueólogos estudaram uma certa região e estabeleceram


um modelo teórico para a variável C, comprimento de fósseis da região (em cm).
Suponha que C SEJA uma variável aleatória contı́nua com a seguinte função
densidade de probabilidade:
1

 (c + 1), se 0 ≤ c ≤ 2

 4
f (c) =


0, caso contrário.

Vamos encontrar E(C) e V ar(C).


Temos,
Z 2
1 1 c3 2 1 c2 2 2 1 7
E(C) = c (c + 1) dc = + = + = .
0 4 4 3 0 4 2 0 3 2 6
Para encontraR a variância calculamos primeiro, E(C 2 ):
Z 2
1 1 c4 2 1 c3 2 2 5
E(C 2 ) = c2 (c + 1) dc = + =1+ = .
0 4 4 4 0 4 3 0 3 3
Então,
5 49 11
V ar(C) = E(C 2 ) − (E(C))2 = − = cm2 .
3 36 36
Assim como foi mostrado para variáveis aleatórias discretas, temos uma fórmula
especı́fica para calcular a esperança de v.a’s contı́nuas não negativas.
Suponha que X seja uma variável aleatória contı́nua e não negativa. Então
Z ∞
E(X) = P(X > x)dx
0
Z ∞
E(X 2 ) = 2 x P(X > x)dx.
0
A demonstração nesse caso, se baseia na teoria de integração por partes do
Cálculo, e por isto será omitida.
104 CAPÍTULO 4. VARIÁVEIS ALEATÓRIAS CONTÍNUAS

4.2 Principais Variáveis Aleatórias Contı́nuas


1
Vimos que, para caracterizar completamente uma variável aleatória contı́nua,
precisamos fornecer sua função densidade de probabilidade. A seguir apresen-
tamos algumas das principais variáveis aleatórias contı́nuas, distinguı́veis por
suas respectivas funções densidades de probabilidade.

4.2.1 Variável Aleatória Uniforme


Definição 4.2.1 Uma variável aleatória X tem distribuição uniforme contı́nua
no intervalo [a, b], com a < b, se sua função densidade de probabilidade for
definida por:
1

 b − a,

 a ≤ x ≤ b,
f (x) =


0, caso contrário.

Para representar que X tem distribuição uniforme no intervalo [a, b], usamos a
notação X ∼ U [a, b].

Exemplo 4.2.1 Seja X a variável aleatória que representa o tempo de vôo de


um aeroplano viajando de Chicago até Nova York. Suponha que o tempo de
vôo possa ser qualquer valor no intervalo [120, 140], o que caracteriza X como
uma v.a contı́nua. Vamos assumir que existem dados de vôo suficientes para
concluir que o que acontece em dois ou mais intervalos de tempo de mesmo
tamanho, acontece com a mesma probabilidade. A v.a X apresenta a seguinte
função densidade de probabilidade:

 c , para 120 ≤ c ≤ 140

f (x) =

0, caso contrário.

Vamos encontrar c.
R +∞
Usando que −∞ f (x)dx = 1, temos que
Z 140
c dx = c[140 − 120] = c.20 = 1.
120

1
Logo, c = .
20
1 Seguindo Magalhães e Lima [7]
4.2. PRINCIPAIS VARIÁVEIS ALEATÓRIAS CONTÍNUAS 105

Exemplo 4.2.2 Seja X uma v.a uniforme contı́nua, e sua função de densidade
igual a
1

 7 , se − 5 ≤ x ≤ 2


f (x) =


0, caso contrário.

a) Qual é a probabilidade de X ∈ [−0.5, 1.5]?


Z 1.5
1 1 1.5 2
P(−0.5 ≤ X ≤ 1.5) = dx = x = .
−0.5 7 7 −0.5 7

b) Qual é a probabilidade de X ∈ [−10, −4.5]?


−5 −4.5
1 −4.5
Z Z
1 1
P(−10 ≤ X ≤ −4.5) = 0 dx + dx = x = .
−10 −5 7 7 −5 14

Esperança e Variância

De maneira geral, se X tiver distribuição uniforme no intervalo [a, b], vamos


mostrar que
a+b (b − a)2
E(X) = e V ar(X) = .
2 12
Prova:
Z b
1 1 x2 b b2 − a2 a+b
E(X) = x dx = = = .
a b − a b − a 2 a 2(b − a) 2

Agora para calcular V ar(X), temos que obter E(X 2 ) :


b
1 x3 b b3 − a3 b2 + ab + a2
Z
1
E(X 2 ) = x2 dx = = = .
a b−a b−a 3 a 3(b − a) 3

Logo,
2
b2 + ab + a2 (b − a)2

a+b
V ar(X) = E(X 2 ) − (E(X))2 = − = .
3 2 12

4.2.2 Variável Aleatória Exponencial


O modelo exponencial é um bom modelo para representar o tempo que se leva
para completar determinada tarefa, o tempo de vida de um material, e situações
semelhantes. Por exemplo, o tempo para um cliente ser atendido numa fila de
banco, o tempo que um passageiro espera no ponto de ônibus ou o tempo de
vida de uma lâmpada.
106 CAPÍTULO 4. VARIÁVEIS ALEATÓRIAS CONTÍNUAS

Definição 4.2.2 Uma variável aleatória X tem distribuiçaõ exponencial com


parâmetro λ se sua função densidade de probabilidade for da forma:

f (x) = λe−λx , para x ≥ 0, λ ≥ 0.

Usamos X ∼ Exp(λ), para denotar que X segue o modelo exponencial com


parâmetro λ.

Exemplo 4.2.3 Seja T uma v.a com distribuição exponencial de parâmetro


1/2. Se T representa o tempo de vida de uma lâmpada, qual é a probabilidade
dessa lâmpada durar:

1. menos do que 3 unidades de tempo ?

2. pelo menos 4 unidades de tempo ?

3. entre 1 e 4 unidades de tempo ?


R3 3
1. P(T < 3) = 1
e−x/2 dx = e−x/2 = e−3/2 − 1.

2 0 0

R∞ ∞
2. P(T ≥ 4) = 1
e−x/2 dx = e−x/2 = −e−2 .

2 4 4

R4 4
3. P(1 ≤ T ≤ 4) = 1
e−x/2 dx = e−x/2 = e−2 − e−1/2 .

2 1 1

Esperança e Variância

Se X tiver distribuição exponencial, vamos mostrar que


1 1
E(X) = e V ar(X) = 2 .
λ λ
Prova:
Sabemos que para x ≥ 0,
Z ∞
E(X) = P(X > x) dx.
0

Então, seja X uma v.a exponencial temos que


Z ∞ Z ∞ ∞
P(X > x) = f (x)dx = λe−λx dx = −e−λx = e−λx ,

x x x

portanto,

e−λx ∞
Z
1
E(X) = e−λx dx = − = .
0 λ 0 λ
4.2. PRINCIPAIS VARIÁVEIS ALEATÓRIAS CONTÍNUAS 107

Agora para determinar V ar(X) temos antes que encontrar, E(X 2 ):


Z ∞ Z ∞
E(X 2 ) = 2 x P(X > x) dx = 2 xe−λx dx
0 0
2 ∞
Z
2 2
= xλ e−λx dx = E(X) = 2 .
λ 0 λ λ

Logo,
2 1 1
V ar(X) = E(X 2 ) − (E(X))2 = − 2 = 2.
λ2 λ λ
Exemplo 4.2.4 Considere o tempo que se leva para carregar um caminhão na
doca de carregamento da COSIPA em Santos. Se o tempo médio de carrega-
mento é 15 minutos, qual é a probabilidade do caminhão ser carregado em menos
de dez minutos?
1
O tempo médio de carregamento é 15 minutos, o que implica que, λ = . Logo
15
Z 10 10
1 −x/15
P(X ≤ 10) = e dx = −e−x/15 = 1 − e−3/2 = 0, 78.

0 15 0

4.2.3 Variável Aleatória Normal


Definição 4.2.3 Dizemos que uma variável aleatória contı́nua X tem distri-
buição normal, com parâmetros µ e σ 2 , se sua função densidade for dada por:
1 (x−µ)2
f (x) = √ e− 2σ2 , para x, µ ∈ R e σ > 0.
σ 2π

Usaremos X ∼ N (µ, σ 2 ) para indicar que X tem distribuição normal com


parâmetros µ e σ 2 .
A seguir temos algumas propriedades da função densidade normal:

1. f (x) é simétrica em relação à µ.

2. f (x) → 0 quando x → ±∞.

3. o valor máximo de f (x) se dá quando x = µ.

Temos que µ é um parâmetro de localização da distribuição normal, mais es-


pecificamente do eixo de simetria de f . Já σ 2 é uma medida de largura da
distribuição normal. Pode-se ainda verificar que µ e σ 2 representam, respecti-
vamente, a esperança e a variância da distribuição. Isto é, seja X uma v.a com
distribuição normal, temos que

E(X) = µ e V ar(X) = σ 2 .
108 CAPÍTULO 4. VARIÁVEIS ALEATÓRIAS CONTÍNUAS

No cáculo de probabilidades para variáveis contı́nuas, devemos resolver a integral


da função densidade no intervalo de interesse, isto é,
Z b
1 (x−µ)2
P(a ≤ X ≤ b) = √ e− 2σ2 dx.
a σ 2π
No entanto, a integral acima só pode ser resolvida de modo aproximado e com
ajuda de métodos numéricos. Por essa razão o cálculo de probabilidades para
o modelo normal é feito com o auxı́lio de tabelas. Para facilitar os cálculos e
evitar a multiplicação desnecessária de tabelas para cada par de valores (µ, σ 2 ),
utiliza-se uma transformação que conduz sempre ao cálculo de probabilidades
com uma v.a. X com distribuição normal de parâmetros µ = 0 e σ 2 = 1,
chamada de v.a.com distribuição Normal Padrão, como veremos abaixo.

Padronização da distribuição normal

Uma propridade útil da distribuição normal é a seguinte. Suponha que a variável


X tenha uma distribuição normal com com parâmetros (µ0 , σ02 ) arbitrários. Se
Z for a variável aleatória obtida de X segundo a transformação

X − µ0
Z= ,
σ0

denominda padronização de X, então Z tem distribuição normal padrão com


parâmetros µ0 = 0 e σ02 = 1. A notação usada para representar uma normal
padrão é
X ∼ N (µ0 , σ02 ) ⇒ Z ∼ N (0, 1).

Pelas propriedades do valor esperado e da variância, segue que


 
X − µ0 1 1
E(Z) = E = E(X − µ0 ) = [E(X) − µ0 ] = 0,
σ0 σ0 µ0
 
X − µ0 1 1
V ar(Z) = V ar = 2 V ar(X − µ0 ) = 2 V ar(X) = 1.
σ0 σ0 σ0
Com isto, as probabilidades de X podem ser obtidas de Z da seguinte maneira.
Para todo x1 , x2 ∈ R,

P(x1 < X < x2 ) = P(z1 < Z < z2 ),

com zi = (xi − µ0 )/σ0 , i = 1, 2.


4.2. PRINCIPAIS VARIÁVEIS ALEATÓRIAS CONTÍNUAS 109

Propriedades da distribuição normal padrão

1. A função densidade de uma v.a com distribuição normal padrão, é dada


por
1 2
f (x) = √ e−x /2 , x ∈ R.

2. A função densidade de uma v.a com distribuição normal padrão é simétrica
em torno da origem, isto é
Z z Z ∞
f (x)dx = f (x)dx.
−∞ −z

3. Em termos de probabilidade a igualdade do item (2) fica da seguinte forma,

P(Z < z) = P(Z > −z).

4. Seja a função Φ : R → [0, 1], tal que para z ∈ R

Φ(z) = P(Z < z).

Então se, a < b


P(a < Z < b) = Φ(b) − Φ(a).
Valores de Φ(z) são tabelados para diversos valores de z. Os valores de z
são só positivos, mas isso é suficiente, pois

Φ(z) = P(Z > −z) = 1 − P(Z < −z) = 1 − Φ(−z),

onde a complementaridade foi usada na segunda igualdade.

Vamos terminar essa seção com uma propriedade muito importante do modelo
normal, porém a sua prova será omitida:
A combinação linear de variáveis normais independentes, também terá distri-
buição normal. Em outras palavras, se X1 , X2 , . . . , Xn formam uma sequência
de variáveis aleatórias N (µi , σi2 ) independentes e a1 , a2 , . . . , an , são constantes
Xn
quaisquer, então W = ai Xi terá distribuição normal. Seus parâmetros são
i=1
determinados a partir das propriedades da média e da variância, ou seja,
Xn n
X n
X n
X
µW = E( ai Xi ) = E(ai Xi ) = ai E(Xi ) = ai µi ,
i=1 i=1 i=1 i=1

n
X n
X n
X n
X
2
σW = V ar( ai Xi ) = V ar(ai Xi ) = a2i V ar(Xi ) = a2i σi2 .
i=1 i=1 i=1 i=1
110 CAPÍTULO 4. VARIÁVEIS ALEATÓRIAS CONTÍNUAS

Este resultado amplia, consideravelmente, o uso da distribuição normal, con-


forme pode ser notado no exemplo a seguir, retirado de (Magalhães e Lima, p.
192 [7]).

Exemplo 4.2.5 Uma corretora negocia tı́tulos na Bolsa de Valores e utiliza um


modelo probabilı́stico para avaliar seus lucros. Suas aplicações financeiras de
compra e venda atingem três áreas: agricultura, indústria e comércio. Admita
que o seguinte modelo representa o comportamento do lucro diário da corretora
( em milhares de reais):

L = 2LA + 5LI + 3LC ,

com LA , LI e LC representando, respectivamente, os lucros diários nos setores


de agricultura, indústria e comércio. As distribuições de probabilidade dessas
variáveis aleatórias são LA ∼ N (3, 4), LI ∼ N (6, 9) e LC ∼ N (4, 16). Supondo
independência entre os três setores, qual será a probabilidade de um lucro diário
acima de 50 mil?
A variável L é uma combinação linear de normais independentes, logo possui
distribuição normal com parâmetros

µL = 2.(3) + 5.(6) + 3.(4) = 48,

2
σL = 22 .(4) + 52 .(9) + 32 .(16) = 385.

Então L ∼ N (48, 385) e, portanto,


 
50 − 48
P(L > 50) = P Z > √ = P(Z > 0.10) = 0, 4602,
385

indicando uma alta probabilidade de lucros superiores a 50 mil.

4.3 Função de distribuição


Para caracterizar uma variável aleatória, podemos usar tanto a função de dis-
tribuição F (x), como a distribuição de massa de probabilidade e a função den-
sidade de probabilidade, para o caso discreto e contı́nuo, respectivamente. Usar
a função de distribuição ou a distribuição de probabilidade e a função de densi-
dade é uma questão de conveniência. Vamos ver isso na definição a seguir, que
nos mostra que se tivermos a função de distribuição conseguimos recuperar a
função de densidade de probabilidade.
4.4. FUNÇÃO GERADORA DE MOMENTOS 111

Definição 4.3.1 A função de distribuição de uma variável aleatória X contı́nua


é definida em termos da fX (x), como
Z x
FX (x) = P(X ≤ x) = fX (x) dx, ∀ x ∈ R,
−∞

tal que,
dFX (x)
fX (x) = .
dx
Exemplo 4.3.1 Seja X uma variável aleatória contı́nua com distribuição expo-
nencial,sendo FX (t) = 1 − e−λt a sua função de distribuição, determine fX (t).

dFX (t) d(1 − e−λt )


fX (t) = = = λe−λt .
dt dt
Logo 
−λt
 λe ,
 para t ≥ 0
f (x) =

0, caso contrário.

4.4 Função Geradora de Momentos


Nesta seção vamos apresentar o conceito de função geradora de momentos, além
de exemplos para ilustrar a sua utilização. Embora não intuitiva, a função ge-
radora de momentos é muitas vezes conveniente para certos tipos de ”mani-
pulações”matemáticas. Também veremos que com o auxilio da função geradora
de momentos, conseguimos obter a esperança e a variância de uma variável
aleatória.

Definição 4.4.1 A função geradora de momentos de uma variável aleatória X,


que denotaremos por M (t), é definida matematicamente por:

M (t) = E(etX ),

para todo t ∈ R.

Então, seja X uma variável aleatória discreta, a função geradora de momentos


de X, é definida por
X∞
M (t) = etxi P(X = xi ).
i=1

Exemplo 4.4.1 Seja X uma variável aleatória, tal que

P(X = 0) = 1 − p, P(X = 1) = p,
112 CAPÍTULO 4. VARIÁVEIS ALEATÓRIAS CONTÍNUAS

vamos determinar a função geradora de momentos de X.


Temos que

M (t) = E(etX ) = et.0 P(X = 0) + et.1 P(X = 1) = 1 − p + et p.

Portanto, a função geradora de X é 1 − p + et p.

Quando X for uma variável aleatória contı́nua com função densidade de proba-
bilidade f (x), a função geradora de momentos de X, é definida por
Z ∞
M (t) = etx f (x)dx.
−∞

Exemplo 4.4.2 Seja X uma variável aleatória contı́nua com função densidade:

(
λe−λx x≥0
f (x) =
0 x < 0.

Vamos determinar a função geradora de momentos de X.


Temos que
Z ∞ Z ∞
M (t) = E(etx ) = etx (λe−λx )dx = λe−(λ−t)x dx
0 0
" #∞
λe−(λ−t)x λ
= = , para t < λ.
−(λ − t) λ−t
0

λ
Portanto, a função geradora de momentos de X é , para t < λ.
λ−t
A razão pelo nome alternativo é que possuindo a função geradora de momentos,
conseguimos calcular facilmente os momentos de uma variável aleatória.

Definição 4.4.2 Seja X uma variável aleatória. A esperança de X k é deno-


minado momento da v.a X ou k-ésimo momento de X, para k = 1, 2, 3, . . ..

Para demonstrarmos isto, vamos considerar a definição de função geradora de


momentos para uma v.a contı́nua.
Seja X uma v.a contı́nua, com função geradora de momentos dada por
Z ∞
M (t) = etx f (x)dx.
−∞

Se derivarmos em relação a t os dois lados da equação acima, obtemos:


Z ∞
d
M (t) = xetx f (x)dx.
dt −∞
4.4. FUNÇÃO GERADORA DE MOMENTOS 113

Essa derivada vale para todo valor de t. Ao considerarmos o caso especial t = 0,


temos: Z ∞
M 0 (0) = xf (x)dx = E(X).
−∞

Calculando-se a segunda derivada de M (t), tem-se:


Z ∞
d2
M (t) = x2 etx f (x)dx.
dt2 −∞

O valor dessa derivada no ponto t = 0 é:


Z ∞
M 00 (0) = x2 f (x)dx = E(X 2 ).
−∞

Assim, repetindo esses mesmo passos, para k = 3, 4, . . ., obtemos:

M (k) (0) = E(X k ).

em que M (k) (0) representa a derivada de ordem k da função M (t) no ponto


zero.
Portanto, obtemos que
E(X) = M 0 (0),

V ar(X) = M 00 (0) − (M 0 (0))2 .

Exemplo 4.4.3 Seja X ∼ Poisson (λ). Vamos calcular E(X) e V ar(X) com
base na função geradora de momentos.
Primeiramente, temos que encontrar M (t):
∞ ∞
X X e−λ λx
M (t) = E(etx ) = etx P(X = x) = etx
x=0 x=0
x!
∞ ∞
X e−λ (λet )x (λet )x
X t t
= = e−λ = e−λ eλe = eλ(e −1) .
x=0
x! x=0
x!

Derivando M (t), obtemos


t
M 0 (t) = eλ(e −1)
λet .

Portanto, a esperança de X é
0
E(X) = M 0 (0) = eλ(e −1)
λe0 = λ.

Agora para calcular V ar(X), temos que obter M 00 (t):


t t
M 00 (t) = λet (et λeλ(e −1)
) + λet (eλ(e −1)
).
114 CAPÍTULO 4. VARIÁVEIS ALEATÓRIAS CONTÍNUAS

Substituindo t por zero, obtemos

M 00 (0) = λ2 + λ.

Portanto a V ar(X) é definida por

V ar(X) = M 00 (0) − (M 0 (0))2 = λ2 + λ − (λ)2 = λ.

Então obtemos que, E(X) = λ e V ar(X) = λ.

Exemplo 4.4.4 Seja X uma v.a com distribuição normal. Vamos determinar
E(X) e V ar(X), com base na função gereadora de momentos.
A função densidade da v.a X é
1 −(x−µ)2
fX (x) = √ e{ 2σ2 } .
2πσ
Logo,
Z ∞ Z ∞
1 −(x−µ)2 1 (x−µ)2
M (t) = e √ tx
e{ 2σ2 } = √ e{tx− 2σ 2
}
dx.
−∞ 2πσ 2π −∞

Vamos deixar o cálculo de M (t) mais simples. Para isso, vamos desenvolver a
seguinte expressão
(x − µ)2
 
tx −
2σ 2
Temos que

2σ 2 tx − (x − µ)2 = 2σ 2 tx − (x2 − 2xµ + µ2 ) = −{x2 − 2µx − 2σ 2 tx + µ2 }

Completanto o quadrado perfeito, obtemos que

x2 − 2(µ + σ 2 t)x + µ2 = {x − (µ + σ 2 t)}2 + µ2 − [µ + σ 2 t]2


= {x − (µ + σ 2 t)}2 + µ2 − µ2 − 2µσ 2 t − σ 4 t2
= {x − (µ + σ 2 t)}2 − 2µσ 2 t − σ 4 t2

Portanto, M (t) fica


Z ∞
1 [x−(µ+σ 2 t)]2 2µσ 2 t+σ 4 t2
M (t) = √ e{− 2σ 2
}
e{ 2σ 2
}
.
2πσ −∞

Tomando,
x − (µ + σ 2 t) dx
y= ⇒ dy = ,
σ σ
temos que

σ 2 t2
Z  
σ 2 t2 1 2
M (t) = e{µt+ 2 }
√ e(−y/2) dy = exp µt + .
2π −∞ 2
4.4. FUNÇÃO GERADORA DE MOMENTOS 115

Então
2σ 2 t2 σ 2 t2
   
0
M (t) = µ+ exp µt + .
2 2
O que implica que E(X) é
E(X) = M 0 (0) = µe0 = µ.
Agora vamos obter V ar(X). Temos que
σ 2 t2 2σ 2 t2 σ 2 t2
     
M 00 (t) = σ 2 exp µt + + (µ + σ 2 t) µ + exp µt +
2 2 2
⇒ M 00 (0) = σ 2 + µ2 = E(X 2 ).
Portanto,
V ar(X) = σ 2 + µ2 − µ2 = σ 2 .
Então, obtemos que E(X) = µ e V ar(X) = σ 2 .
Exemplo 4.4.5 Seja X uma variável aleatória com distribuição exponencial,
com parâmetro λ. Vamos calcular E(X) e V ar(X) com base na função geradora
de momentos.
Primeiramente temos que encontrar a função geradora de momentos de X:
Z ∞ Z ∞
−λx
tx
M (t) = E(e ) = tx
e λe dx = λe−(λ−t)x dx
−∞ 0


λe−(λ−t)x ∞
Z
λ
= λ e−(λ−t)x dx = = .
0 −(λ − t) 0 λ−t
Derivando M (t), e depois fazendo t = 0, encontramos E(X):
λ
M 0 (t) =
(λ − t)2
Portanto,
1
E(X) = M 0 (0) =
.
λ
Agora vamos encontrar a variância de X. Para isso, usaremos a seguinte
fórmula
V ar(X) = E(X 2 ) − (E(X))2 = M 00 (0) − (M 0 (0))2 .
Então derivando M (t) duas vez e substituindo t por zero, obtemos
2λ2 − 2tλ 2
M 00 (t) = 4
⇒ M 00 (0) = 2 .
(λ − t) λ
Logo,
2 1 1
− 2 = 2.
V ar(X) =
λ2 λ λ
1 1
Então temos que, E(X) = e V ar(X) = 2 .
λ λ
116 CAPÍTULO 4. VARIÁVEIS ALEATÓRIAS CONTÍNUAS

4.4.1 Propriedades
1. Função geradora de momentos para uma função linear.
Seja MX (t) a função geradora de momentos associada a variável aleatória
X. Considerando uma nova variável aleatória Y = aX + b, temos que a
função geradora de momentos de Y é

MY (t) = E[et(aX+b) ] = etb E[etax ] = etb MX (ta).

Por exemplo, se X for uma variável aleatória exponencial com parâmetro


1
λ = 1, tal que MX (t) = e Y = 2X + 3, então
1−t
1
MY (t) = e3t .
1 − 2t

2. Soma de variáveis aleatórias independentes.


Sejam X e Y variáveis aleatórias independentes, e seja W = X + Y . A
função geradora de momentos de W , é definida por

MW (t) = E(etW ) = E(et(X+Y ) ) = E(etX etY ).

Como X e Y são independentes, etX e etY são variáveis aleatórias inde-


pendentes. Sabemos então que a esperança do produto é o produto das
esperanças, logo

MW (t) = E(etX )E(etY ) = MX (t)MY (t).

Generalizando, temos que se X1 , . . . , Xn são v.a’s independentes e W =


X1 + . . . + Xn , então

MW (t) = MX1 (t) + . . . + MXn (t).

Por exemplo, sejam X1 , . . . , Xn variáveis aleatórias independentes de Ber-


noulli, com parâmetro p. Como vimos,

MXi (t) = (1 − p)e0t + pe1t = 1 − p + pet , para i = 1, . . . , n.

Então, temos que W = X1 + . . . + Xn é uma variável aleatória binomial


com parâmetros n e p, em que sua função geradora de momentos é dada
por
MW (t) = (1 − p + pet )n .
4.5. EXERCÍCIOS 117

4.5 Exercı́cios
1. Sabe-se que a v.a. X está uniformemente distribuı́dada entre 1.0 e 1.5

(a) Encontre fX (x), a função densidade de probabilidade de X, e faça o


seu gráfico.
(b) Encontre F (x), a função de distribuição de X, e faça o seu gráfico.
(c) Calcule P(X = 1.25).
(d) Calcule P(1.0 ≤ X ≤ 1.25).
(e) Calcule P(1.20 ≤ X ≤ 1.5).
(f ) Encontre E(X).
(g) Encontre V ar(X).

2. A maioria das linguagens de computador tem uma função que pode ser
usada para gerar números aleatórios. No Excel, a função RAND pode ser
usada para gerar números aleatórios entre 0 e 1. Se X denota um número
aleatório gerado, então X é uma variável aleatória contı́nua com a seguinte
função densidade de probabilidade.

 1, para 0 ≤ x ≤ 1
fX (x) =
 0, caso contrário.

(a) Faça o gráfico da função densidade de probabilidade de X.


(b) Qual é a probabilidade de se gerar um número aleatório entre 0.25 e
0.75?
(c) Qual é a probabilidade de se gerar um número aleatório com valor
menor ou igual a 0.30?
(d) Qual é a probabilidade de se gerar um número aleatório com valor
maior que 0.60?
(e) Encontre E(X).
(f ) Encontre V ar(X).

3. Seja X uma variável aleatória uniformemente distribuı́dada no intervalo


[0, 1]. Considere a variável aleatória Y = g(X), onde

1, se x ≤ 1/3
g(x) =
2, se x > 1/3

Encontre o valor esperado de Y de duas formas diferentes e depois com-


pare.
118 CAPÍTULO 4. VARIÁVEIS ALEATÓRIAS CONTÍNUAS

R∞
(a) Encontre a f.d.p. de Y e calcule E(X) −∞
yfY (y)dy
(b) Encontre o valor esperado de Y usando a f.d.p. de X.

4. Seja X uma variável aleatória com a seguinte f.d.p.


λ −λ·|x|
fX (x) = e ,
2
onde λ é um escalar positivo.
R∞
(a) Verifique que se −∞ fX (x)dx = 1.
(b) Encontre E(X).
(c) Encontre V ar(X).

5. Considere uma variável aleatória X que tem a seguinte função densidade


de probabilidade exponencial.
1 −x/8
fX (x) = e
8
(a) Faça o gráfico da função densidade de probabilidade de X.
(b) Calcule P(X ≤ 2).
(c) Calcule P(X ≥ 3).
(d) Calcule P(X ≤ 5).
(e) Calcule P(2 ≤ X ≤ 5).
(f ) Encontre a função de distribuição F (x) a partir da fX .
(g) Encontre a função geradora de momentos de X.
(h) Encontre E(X).
(i) Encontre V ar(X).

6. Se Z for N (0, 1), encontre

(a) P(0.53 < Z ≤ 2.06),


(b) P(−0.79 ≤ Z ≤ 1.52),
(c) P(−2.63 < Z ≤ −0.51),
(d) P(Z > 2.89),
(e) P(|Z| < 1.96),
(f ) P(|Z| < 1),
(g) P(|Z| < 2),
4.5. EXERCÍCIOS 119

(e) P(|Z| < 3).


(h) Encontre a função geradora de momentos de Z.
(i) Encontre E(Z).
(j) Encontre V ar(Z).

7. Se Z tiver distribuição normal de probabilidade com média igual a 6 e


variancia igual a 25, encontre

(a) P(6 ≤ Z ≤ 12),


(b) P(0 ≤ Z ≤ 8),
(c) P(−2 < Z ≤ 0),
(d) P(Z > 21),
(e) P(|Z − 6| < 5),
(f ) P(|Z − 6| < 10),
(g) P(|Z − 6| < 15),
(h) Encontre a função geradora de momentos de Z.
(i) A partir da função geradora de momentos de Z, verifique se E(Z) = 6.
(j) A partir da função geradora de momentos de Z, verifique se V ar(X) =
25.
2
8. Se a função geradora de momentos de Z for M (t) = e−6t+32t , encontre

(a) P(−4 ≤ Z < 16),


(b) P(−10 < Z ≤≤ 0).

9. Se Z for N (650, 625), encontre

(a) P(600 ≤ Z < 660),


(b) a constante c tal que P(|Z − 650| ≤ c) = 0.9544.

10. Doentes sofrendo de certa moléstia são submetidos a um tratamento in-


tensivo, cujo o tempo de cura foi modelado por uma normal X ∼ N (15, 4).

(a) Qual a proporção desses pacientes demora mais de sete dias para se
recuperar?
(b) Qual a probabilidade de um paciente, escolhido ao acaso, apresentar
tempo de cura inferior a vinte dias?
120 CAPÍTULO 4. VARIÁVEIS ALEATÓRIAS CONTÍNUAS

(c) Qual o tempo máximo necessário para a recuperação de 25% dos


pacientes?
(d) Suponha que certo fundo mútuo tenha uma taxa anual de retorno que
seja, aproximadamente, normalmente distribuı́da, com média 10% e
desvio-padrão 4%. Use a tabela da distribuição normal.
(e) Ache a probabilidade de seu retorno de um ano ser negativo.
(f) Ache a probabilidade de seu retorno de um ano exceder 15%.
(g) Se os gestores de fundos mútuos modificarem a composição de suas
carteiras, poderão elevar seu retorno anual médio a 12%, mas isso
elevará também o desvio-padrão dos retornos a 5%. Responda as
partes a) e b) de acordo com essas decisões. O leitor aconselharia os
gestores de fundos a fazerem essa mudança na carteira?

11. A f.d.p. de uma variável aleatória X é dada por



 1/3, se 0 < x < 1


fX (x) = 2/3, se 1 < x < 2


0, caso contrário.

Encontre a FX (x) e faça um gráfico de FX (x) e fX (x).

12. Seja X uma variável aleatória contı́nua com f.d.p.



 k · x, para 0 < x < 1,
fX (x) =
 0, caso contrário,

onde k é uma constante.

(a) Determine o valor de k e faça o gráfico de fX (x).


(b) Encontre F (x), a função de distribuição de X, e faça seu gráfico.
(c) Calcule P(1/4 < X ≤ 2).
Capı́tulo 5

Vetores Aleatórios
Contı́nuos

5.1 Introdução
Para desenvolver1 a teoria de v.a’s contı́nuas multidimensionais, vamos utilizar
um vetor aleatório bidimensional para a facilidade de cálculos.
Definição 5.1.1 Uma função f (x, y) definida para −∞ < x < ∞, −∞ < y <
∞, não-negativa e satisfazendo a condição
Z ∞Z ∞
f (x, y)dx dy = 1,
−∞ −∞

é denominada uma função densidade de probabilidade da vetor aleatório (X, Y ),


se para todo subconjunto B de pontos do R2 tivermos
Z Z
P[(X, Y ) ∈ B] = f (x, y)dx dy.
B

Seja (x, y) um ponto do plano e consideremos um retângulo de lado 4x e 4y


construı́do a partir do ponto (x, y). A probabilidade de que (X, Y ) pertença a
esse retângulo é aproximadamente igual ao volume do paralelepı́pedo de lados
4x e 4y, cuja altura é f (x, y), ou seja
P(x < X ≤ x + 4x, y < Y ≤ y + 4y) ' f (x, y) 4 x 4 y.
Observação: O valor exato dessa probabilidade é igual ao volume da figura
delimitada pela função f (x, y) e pelo retângulo de lado 4x e 4y, que é igual à
integral dupla de f (x, y) nesse retângulo.
1 Seguindo Dantas [3]

121
122 CAPÍTULO 5. VETORES ALEATÓRIOS CONTÍNUOS

5.2 Densidades Marginais


Definição 5.2.1 Se tivermos a função densidade de probabilidade f (x, y), do
vetor aleatório (X, Y ), podemos recuperar as suas densidades marginais
Z ∞
fX (x) = f (x, y)dy
−∞
e Z ∞
fY (y) = f (x, y)dx.
−∞

Exemplo 5.2.1 Seja (X, Y ) um vetor aleatório, cuja função densidade de pro-
babilidade é dada por
3 2

 80 (x + xy), se 0 ≤ x ≤ 2e0 ≤ y ≤ 4


f (x, y) =


0, caso contrário.

a) Mostre que f (x, y) é uma função densidade de probabilidade.

b) Encontre a densidade marginal de X.

c) Encontre a densidade marginal de Y .


a)
Z 2 Z 4 Z 2 Z 4
3 3
f (x, y) = (x2 + xy) dxdy = dx (x2 + xy) dy
0 0 80 80 0 0
Z 2  2 4 Z 2 
 
3 2 y 3 2
= dx x y + x = dx 4x + 8x
80 0 2 0 80 0
Z 2 Z 2
3 3
= (4x2 + 8x) dx = (x2 + 2x) dx
80 0 20 0
2
3 x3 2x2
  
3 8 3 20
= + = +4 = = 1.
20 3 2 0 20 3 20 3
b)
4 Z 4 4
y2
Z 
3 3
fX (x) = f (x, y) dy = (x2 + xy)dy = yx2 + x
0 80 0 80 2 0
3 3
= (4x2 + 8x) = (x2 + 2x).
80 20
c)
2 Z 2 2
3 x3 x2
Z 
3 2
fY (y) = f (x, y)dx = (x + xy)dx = + y
0 80 0 80 3 2 0
 
3 8 4 1 3
= + y = + y.
80 3 2 10 40
5.3. INDEPENDÊNCIA 123

5.3 Independência
Definição 5.3.1 As variáveis aleatórias X e Y com função densidade conjunta
f (x, y), para −∞ < x < ∞ e −∞ < y < ∞, e cujas densidades marginais são
denotadas por fX (x) e fY (y), são ditas independentes se para todo par de valores
(x, y) tivermos:
f (x, y) = fX (x)fY (y).

Exemplo 5.3.1 Seja



−x(y+1)
 xe
 , para 0 ≤ x ≤ ∞ e 0 ≤ y ≤ ∞
f (x, y) =

0, caso contrário.

a função densidade conjunta de X e Y . Verificar se X e Y são independentes.

Primeiramente temos que encontrar as densidades marginais de X e Y e depois


verificar se o produto delas é igual a densidade conjunta dessas variáveis:
Z ∞ Z ∞
e−zx ∞
fX (x) = x e−x(y+1) dy = x e−zx dz = x = e−x .
0 1 −x 1
Z ∞ Z ∞
1 1 1 1
fY (y) = x e−x(y+1) dx = x(y+1) e−x(y+1) dx = = .
0 y + 1 0 y + 1 y + 1 (y + 1)2
R∞
Note que, 0 x(y + 1) e−x(y+1) dx, representa a esperança de uma v.a com
distribuição exponencial, de parâmetro (y + 1). Então,
1
fX (x)fY (y) = e−x 6= f (x, y).
(y + 1)2
Portanto, X e Y não são independentes.

Resultado: Se X e Y forem independentes, então

E(XY ) = E(X)E(Y ).

Mas o contrário não é verdadeiro, isto é, se E(XY ) = E(X)E(Y ), não necessa-
riamente X e Y são independentes.

5.4 Distribuições Condicionais


Vimos distribuições condicionais para o caso em que X e Y eram discretas.
Agora vamos ver para o caso onde X e Y são contı́nuas.
124 CAPÍTULO 5. VETORES ALEATÓRIOS CONTÍNUOS

Definição 5.4.1 Sejam X e Y variáveis aleatórias contı́nuas, a densidade con-


dicional de Y dado X = x, denotada por f (y|x), é dada para cada x fixo por
f (x, y)
f (y|x) = ⇔ f (x, y) = fX (x)f (y|x).
fX (x)
Exemplo 5.4.1 Considerando o exemplo 5.3.1, onde

−x(y+1)
 xe
 , para 0 ≤ x ≤ ∞ e 0 ≤ y ≤ ∞
f (x, y) =

0, caso contrário.

Vamos determinar f (y|x).


Sabemos que, fX (x) = e−x para x positivo e zero caso contrário.
Então
f (x, y) xe−x(y+1)
f (y|x) = = = xe−xy e−x ex = xe−xy .
fX (x) e−x
Logo a distribuição condicional de Y dado X = x é uma exponencial com
parâmetro x.

Exemplo 5.4.2 Calcule as densidades marginais e condicionais para o vetor


(X, Y ), cuja função de densidade é
1
f (x, y) = 64 (x + y), para 0 ≤ x ≤ 4 e 0 ≤ y ≤ 4.

1. Densidades marginais:
Z 4 Z 4 4
y2

1 1 x 1
fX (x) = f (x, y)dy = (x + y)dy = xy + = + .
0 64 0 64 2 0 16 8
Z 4 Z 4  2 4
1 1 x y 1
fY (y) = f (x, y)dx = (x + y)dx = + yx = + .
0 64 0 64 2 0 16 8
2. Densidades condicionais
1
f (x, y) 64 (x + y) 1 (x + y)
f (y|x) = = x = .
fX (x) 16 + 18 4 (x + 2)
1
f (x, y) 64 (x + y) 1 (x + y)
f (x|y) = = y = .
fY (y) 16 + 18 4 (y + 2)

Definição 5.4.2 Sejam X e Y v.a’s contı́nuas, com densidades marginais f (x, y), fX (x)
e densidade condicional f (y|x) = ffX
(x,y)
(x) . A esperança condicional de Y dado
X = x é definida por
Z ∞
E(Y |X = x) = y f (y|x)dy.
−∞
5.5. EXERCÍCIOS 125

Exemplo 5.4.3 Encontre as esperanças condicionais do vetor aleatório (X, Y ),


do exemplo 5.4.2.
Z ∞ Z 4 Z 4
1 (x + y) 1
E(Y |X = x) = y f (y|x)dy = y dy = (yx + y 2 )dy
−∞ 0 4 (x + 2) 4(x + 2) 0
 2 4
y x y3
 
1 1 16
= + = 2x + .
4(x + 2) 2 3 0 (x + 2) 3
Z ∞ Z 4 Z 4
1 (x + y) 1
E(X|Y = y) = x f (x|y)dx = x dy = (x2 + yx)dy
−∞ 0 4 (y + 2) 4(y + 2) 0
 3 4
x2 y
  
1 x 1 16
= + = + 2y .
4(y + 2) 3 2 0 (y + 2) 3

5.5 Exercı́cios
1. Sejam X e Y duas v.a.’s contı́nuas cuja função densidade de probabilidade
conjunta é definida como segue:

c x2 + xy  , se 0 < x < 1 e 0 < y < 2,
2
f (x, y) =
0, caso contrário.

(a) Determine o valor da constante c.


(b) Encontre as densidades marginais de X e Y .
(c) Determine as densidades condicionais de Y dado X e X dado Y .
(d) Encontre E(X|Y = y) e E(Y |X = x).

2. Sejam X e Y duas v.a.’s contı́nuas cuja função densidade de probabilidade


conjunta é definida como segue:

 6 x2 + xy  , se 0 < x < 1 e 0 < y < 2,
f (x, y) = 7 2
0, caso contrário.

(a) Encontre as densidades marginais de X e Y .


(b) Determine as densidades condicionais de Y dado X e X dado Y .
(c) Encontre E(X|Y = y) e E(Y |X = x).

3. Seja (X, Y ) um vetor aleatório com a seguinte densidade conjunta de pro-


babilidade

4ρxy − 2ρx − 2ρy + ρ + 1, se 0 ≤ x ≤ 2 e 0 ≤ y ≤ 2,
f (x, y) =
0, caso contrário,

para −1 < ρ < 1.


126 CAPÍTULO 5. VETORES ALEATÓRIOS CONTÍNUOS

(a) Determine a densidade condicional de X dado Y .


(b) Encontre E(X|Y = y).
(c) Para que valores de ρ as variáveis aleatórias X e Y são independentes?

4. Sejam as v.a.’s X1 , X2 , . . . , Xn , independentes e identicamente distribuı́das


segundo uma Normal de parâmetro µ e σ 2 . Encontre a E(X1 + X2 + X3 +
. . . Xn ) e V ar(X1 + X2 + X3 + . . . Xn ), usando a função geradora de mo-
mentos.
Capı́tulo 6

Inferência Estatı́stica

6.1 Introdução
A Inferência Estatı́stica é um conjunto de técnicas para estudar a população
por meio de evidências fornecidas por uma amostra. Ou seja, com base nos
elementos da amostra, conseguimos medir quantidades de interesse da população
em questão.

Definição 6.1.1 População é o conjunto de indivı́duos ou objetos, cujas carac-


terı́sticas queremos analisar.

Normalmente desejamos analisar caracterı́sticas de uma população. Mas na


maioria dos casos estudar toda a população pode ser inviável, pois podemos
estar trabalhando com uma população muito grande e difı́cil de ser encontrada,
como toda a flora da floresta amazônica, assim como o tempo para realizar a
pesquisa de toda a população pode ser muito pequeno. Ou também, podemos
estar interessados em analisar uma população que requer recursos que podem
não estar disponı́veis. Desta forma, veremos que será mais eficiente coletar uma
amostra aleatória dessa população.

Definição 6.1.2 Uma amostra aleatória é um subconjunto dos elementos da


população de interesse, obtido de forma aleatória. Isto é, uma amostra aleatória
é uma simplificação da população sob estudo. Assim, quanto mais elementos
tiver na amostra aleatória, mais conhecimento teremos da população.

Na próxima definição vamos apresentar uma das formas mais fáceis, para sele-
cionar uma amostra aleatória de uma população.

127
128 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

Definição 6.1.3 Amostra aleatória simples.


Para obter uma amostra aleatória simples de uma população com N elemen-
tos, associamos uma variável aleatória Xi a cada elemento da população, isto
é Xi , i = 1, . . . , N , e de forma aleatória, como um sorteio, escolhem-se n ele-
mentos da população para formar a amostra. Para selecionar uma amostra
aleatória simples, que denotaremos por A.A.S, além de serem independentes,
todos os elementos da população devem possuir a mesma probabilidade de per-
tencer à amostra.

Uma amostra aleatória simples de tamanho n é representada por uma sequência


de tamanho n de variáveis aleatórias independentes e identicamente distribuı́das,
que denotaremos por (X1 , X2 , . . . , Xn ). A distribuição de probabilidade de Xi
corresponde à distribuição de probabilidade da caracterı́stica da população que
está sendo estudada. E os elementos da amostra efetivamente coletada são rea-
lizações da v.a X associada à caracterı́stica de interesse da população.

Exemplo 6.1.1 Consideremos a população formada pelas mulheres brasileiras.


Queremos analisar a caracterı́stica altura. Associamos uma v.a X a essa carac-
terı́stica e queremos encontrar,

P(X ≥ 1.90) e P(X ≤ 1.50),

que correspondem a perguntar:

• ”qual a probabilidade de uma mulher brasileira ter mais do que 1.90m de


altura? ”

• ”qual a probabilidade de uma mulher brasileira ter menos do que 1.50m


de altura? ”

A maior dificuldade para calcular essas probabilidades, é o tamanho da po-


pulação, pois não conseguimos entrevistar todas as brasileiras. Por isso, se-
lecionamos uma amostra dessa população. Digamos que haja 100 milhões de
mulheres no Brasil, a cada uma vamos associar um número. Selecionar uma
amostra corresponde a colocar todos esses números numa urna e sortear diga-
mos mil mulheres e a cada uma associarmos uma v.a Xi , i = 1, . . . , 1000, todas
independentes e com a mesma distribução de X. Feito isso vamos perguntar
a cada uma delas qual a sua altura. Obtidas as respostas, têm-se a seguinte
amostra:
(x1 , x2 , . . . , x1000 ).
6.2. ESTIMAÇÃO 129

Assim, coletada a altura das 1000 mulheres, a amostra poderia ter a seguinte
resposta: (x1 , x2 , . . . , x1000 ) = (1.60, 1.75, . . . , 1.48).

Selecionamos a amostra por meio de sorteio, pois queremos que as respos-


tas sejam independentes, no sentido ”de uma mulher não influenciar a outra ”.
Também vale dizer, que pela natureza aleatória, geralmente envolvida no pro-
cesso amostral, não podemos afirmar que repetições de amostras produzam sem-
pre resultados idênticos. Isto é, assim como é quase impossı́vel obter amostras
iguais de uma mesma população, também é muito difı́cil que uma mesma amos-
tra obtenha sempre os mesmos resultados, já que há aleatoriedade na operação.

É importante observar que usamos a notação Xi para a variável aleatória


associada a um indivı́duo da população, e queremos denotar todas as possı́veis
variações que a caracterı́stica de interesse pode assumir. Se estamos interessados
na caracterı́stica altura da mulher brasileira, Xi pode assumir valores, em metro,
entre [0.50, 2.50]. E a notação xi é usada quando queremos nos referir à altura
da mulher i após a pesquisa.

6.2 Estimação
O objetivo de uma estimação é estudar uma caracterı́stica de interesse da po-
pulação, por meio da informação fornecida por uma amostra. Há dois procedi-
mentos de estimação: pontual e intervalar.

6.2.1 Estimação pontual


Quando estudamos uma caracterı́stica da população, em muitos casos temos
uma idéia da distribuição da v.a X associada a essa caracterı́stica, porém não
conseguimos definir os parâmetros dessa distribuição. Por isso, nesta seção
vamos ver que a partir de uma amostra aleatória dessa população podemos es-
timar os valores dos parâmetros desconhecidos, e então definir completamente
a distribuição de probabilidade de X. Por exemplo, suponha que X tenha uma
distribuição de Poisson com parâmetro λ desconhecido. Então a partir da amos-
tra conseguimos estimar λ.
A estimação pontual se caracteriza por retornar um único valor para o parâmetro
desconhecido.
Considerando o exemplo 6.1.1, a v.a X tem uma distribuição proposta por es-
tatı́sticos, economistas, biólogos ou fı́sicos, mas com parâmetros desconhecidos.
Para eles é natural que a v.a X, que representa a altura das brasileiras, apresente
130 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

uma distribuição normal, com parâmetros µ e σ 2 desconhecidos. Entretanto,


sabemos que para analisar a caracterı́stica de interesse temos que encontrar a
distribuição de X e por isso temos que estimar os parâmetros desconhecidos.

Definição 6.2.1 Estatı́stica é uma função da amostra, que usamos para esti-
mar um parâmetro da população.

Com a amostra numérica em mãos, as estatı́sticas assumem números que são


chamados de estimativas. Se a amostra numérica muda, as estimativas também
mudam.
A seguir temos as funções especı́ficas para se obter os parâmetros desconhecidos
do exemplo 6.1.1, ou seja, µ e σ 2 :
Pn
Xi
b = g(X1 , X2 , . . . , Xn ) = X n = i=1
µ
n
e !
n
c2 = h(X1 , X2 , . . . , Xn ) = S 2 = 1 X
2 2
σ X − nX .
n − 1 i=1 i

Chamaremos estas funções de estimadores de µ e σ 2 , respectivamente.


Notamos que um estimador, digamos θ, b é uma função das variáveis aleatórias
constituintes da amostra, isto é, θ = f (X1 , X2 , . . . , Xn ). Logo, um estimador
b
também é uma variável aleatória. Assim, temos que saber a distribuição de
probabilidade desses estimadores, para poder dizer se são ou não ”bons estima-
dores”.
Espera-se que um bom estimador seja não viesado ou não viciado.

Definição 6.2.2 Estimador Viciado. Um estimador θb é não viesado ou não


viciado para um parâmetro θ se E(θ)
b = θ. Em outras palavras, um estimador é
não-viesado se o seu valor esperado coincidir com o parâmetro de interesse.

Espera-se também que um bom estimador seja consistente.

Definição 6.2.3 Consistência. Um estimador θb é consistente, se, à me-


dida que o tamanho da amostra aumenta, seu valor esperado convergir para
o parâmetro de interesse e sua variância convergir para zero. Ou seja, θb é
consistente se as duas propriedades seguintes forem satisfeitas:

lim E(θ)
b = θ e lim V ar(θ)
b = 0.
n→∞ n→∞

Observamos, que na definição de consistência, o estimador depende do tamanho


da amostra, isto é, E(θ)
b = θ só para valores grandes de n. Já na definição de
viés, o resultado deve valer para todo n. Logo, vemos que para definição de
6.2. ESTIMAÇÃO 131

consistência, o estimador necessita ser não viesado, apenas para valores grandes
de n.
Iremos apresentar a seguir, uma definição que nos ajuda decidir qual é o esti-
mador mais preciso, quando dois estimadores forem não viesados e consistentes
para um determinado parâmetro.

Definição 6.2.4 Eficiência. Sejam θb1 e θb2 dois estimadores, não viesados
para um parâmetro θ, dizemos que θb1 é mais eficiente do que θb2 se V ar(θb1 ) <
V ar(θb2 ).

Exemplo 6.2.1 (Marcos) Considere uma certa população, cuja caracterı́stica


de interesse seja associada a v.a X, que tem a seguinte distribuição de probabi-
lidade:
X 0 10 20 30
P(X = x) 0.2 0.3 0.3 0.2
Com a definição de esperança e variância apresentadas no capı́tulo de v.a’s veri-
ficamos facilmente que E(X) = 15 e V ar(X) = 105. Mas vamos fazer de conta
que não conhecemos E(X) e vamos tomar uma amostra aleatória de tamanho
2 para determiná-la. Para identificarmos as possı́veis amostras que podemos
coletar, podemos pensar no par ordenado (X1 , X2 ), sendo X1 e X2 variáveis
aleatórias independentes com mesma distribuição de X. Os possı́veis resulta-
dos dessas amostras, pertencem ao conjunto formado pelo produto cartesiano,
{0, 10, 20, 30} × {0, 10, 20, 30}, o qual possui 24 elementos:

{(0, 0), (0, 10), (0, 20), (0, 30), (10, 0), (10, 20), (10, 30), . . . , (30, 30)}.

As amostras não são equiprováveis. Por exemplo, a amostra (0, 0) tem probabi-
lidade 0.04 de ocorrer, enquanto que (0, 10) tem 0.06 de ocorrer, pois

P({(0, 0)} = P(X1 = 0, X2 = 0) = P(X1 = 0)P(X2 = 0) = 0.04


P({(0, 10)} = P(X1 = 0, X2 = 10) = P(X1 = 0)P(X2 = 10) = 0.06.

Para estimar o valor da média µ na população, vamos considerar os seguintes


estimadores:
µ
b1 = f1 (X1 , X2 ) = X1 ,
X1 + X2
b2 = f1 (X1 , X2 ) = X =
µ .
2
A função f1 já foi apresentada e podemos facilmente calcular sua média. Como
X1 tem a mesma distribuição de X, seus valores esperados são iguais, logo

E(X1 ) = 0(0.2) + 10(0.3) + 20(0.3) + 30(0.2) = 15.


132 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

Agora para a variável aleatória X, não é difı́cil verificar que sua distribuição de
probabilidade é:
X 0 5 10 15 20 25 30
P(X = x) 0.04 0.12 0.21 0.26 0.21 0.12 0.04
Assim, temos que

E(X) = 0(0.04)+5(0.12)+10(0.21)+15(0.26)+20(0.21)+25(0.12)+0.30(0.04) = 15.

Portanto, concluı́mos que os dois estimadores são não viesados, pois

E(X) = E(X1 ) = E(X) = 15.

Será que são consistentes?

V ar(X1 ) = 105 ⇒ lim V ar(c


µ1 ) = 105 6= 0.
n→∞

Portanto, µ
c1 não é consistente.
Já µ
c2 depende do tamanho da amostra e mais tarde veremos que X será um
estimador consistente para a média populacional.

Exemplo 6.2.2 Considere uma população com n elementos, tal que E(X) = µ
e V ar(X) = σ 2 . Um estimador ”natural” para σ 2 , baseado na amostra aleatória
(X1 , X2 , . . . , Xn ) extraı́da dessa população, é
n
c2 = 1
X
σ (Xi − X)2 .
n i=1

c2 ) =
Vamos verificar se esse estimador é não viesado, para isso tem que valer E(σ
σ2 :
( n ) ( n )
2
1 X
2 1 X
2
E(σ ) =
c E (Xi − X) = E (Xi − µ + µ − X)
n i=1
n i=1
( n )
1 X
= E (Xi − µ)2 − 2(Xi − µ)(X − µ) + (X − µ)2
n i=1
( n ) ( n ) ( n )
1 X
2 2 X 1 X
2
= E (Xi − µ) − E (Xi − µ)(X − µ) + E (X − µ)
n i=1
n i=1
n i=1
n n n
1X 2 X 1X
= E(Xi − µ)2 − (X − µ) (E(Xi ) − µ) + E(X − µ)2
n i=1 n i=1
n i=1

n
!
1X 2 n 2 1 2 σ2 n−1
= E(Xi − µ) + E(X − µ) = nσ − = σ2 .
n i=1 n n n n
6.2. ESTIMAÇÃO 133

Pelo resultado acima, conclui-se que σc2 é um estimador viesado para σ 2 .


Vemos que se multiplicarmos σ c2 por n/(n − 1) teremos um estimador não vie-
sado.
c2 é consistente. Dica: basta verificar se
Fica a cargo do leitor verificar se σ
lim V ar(θ)
b = 0.
n→∞

Agora iremos estudar a distribuição amostral da estátistica X . Mais para


frente, essa distribuição será usada para fazer inferências sobre populações.

6.2.2 Distribuição Amostral da média


Vamos considerar uma população normal, sendo X a v.a de interesse com média
populacional µ = E(X) e variância populacional σ 2 = V ar(X) conhecidas, isto
é, X ∼ N (µ, σ 2 ). Temos que a média amostral é dada por:

X1 + X2 + . . . + Xn
X= .
n
Vimos que a combinação linear de uma v.a normal também tem distribuição
de probabilidade dada pelo modelo normal. Assim, podemos dizer que X ∼
2
N (µX , σX ). Então de acordo com as propriedades de esperança e variância,
temos  X n 
1 1
µX = E(X) = E Xi = nµ = µ,
n i=1 n
n
σ2
 
2 1X 1
σX = V ar(X) = V ar Xi = 2
nσ 2 = .
n i=1 n n

Sabemos que E(X) = X é um estimador não viesado para µ, e como lim V ar(X) =
n→∞
0, temos que X é um estimador consistente.

Observamos que quando o tamanho da amostra cresce, independentemente da


forma da distribuição da população, a distribuição amostral se aproxima cada
vez mais de uma distribuição normal padrão. Esse resultado fundamental é co-
nhecido como Teorema Central do Limite (T.C.L):
Teorema Central do Limite: Para amostras aleatórias simples (X1 , . . . , Xn )
retiradas de uma população com média µ e variância σ 2 finita, a distribuição
amostral da média aproxima-se para n grande, de uma distribuição normal com
média µ e variância (σ 2 )/n.
A prova desse teorema será omitida, pois é muito elaborada e exigiria conceitos
que estão além do escopo deste texto.
134 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

Exemplo 6.2.3 Um dado é lançado 180 vezes. Qual é a probabilidade do re-


sultado ser ”6” em quarenta ou mais lançamentos?
Seja Xi a face do dado observada, no i-ésimo lançamento, tal que (i = 1, 2, . . . , 180).
Então (
1, se xi = 6
Xi =
0, se xi 6= 6.
Vemos que a v.a X segue a distribuição de Bernoulli, logo
E(X) = 1(1/6) + 0(5/6) = 1/6,

V ar(X) = E(X 2 ) − (E(X))2 = E(X) − (E(X))2 = 1/6 − 1/36 = 5/36.


Assim,
!
X1 + . . . Xn − nµ 40 − nµ
P(X1 + . . . + X180 ≥ 40) = P √ ≥ √
σ n σ n
! !
T.C.L 40 − nµ 40 − 180(1/6)
' P Z≥ √ =P Z≥ p √
σ n 5/36 180
! !
10 10
= P Z≥p =P Z≥ √
900/36 25

= P(Z ≥ 2) = 1 − P(Z ≤ 2)

= 1 − (0, 5 + 0, 4772) = 1 − 0, 9772 = 0, 0228.


Portanto, conclui-se que há uma probabilidade de aproximadamente 2%, para
que em mais de 40 lançamentos a face do dado observada seja 6.

6.2.3 Exercı́cios - Teorema Central do Limite


1. Uma companhia de seguros possui 10000 assegurados. Cada assegurado
aciona o seguro (aleatoriamente e independentemente dos demais assegu-
rados) num valor médio de $300 com desvio padrão igual a $700. Aproxime
pela normal a probabilidade de que o valor total a ser pago pela companhia
seja superior a $2, 7 milhões.

2. O nı́vel de colesterol de uma população de trabalhadores tem média 202


e desvio padrão igual a 14. Se uma amostra de 36 trabalhadores é sele-
cionada, calcule aproximadamente a probabilidade da média amostral do
seu nı́vel de colesterol estar entre 198 e 206.
6.2. ESTIMAÇÃO 135

3. Considere uma amostra de uma população tendo média 128 e desvio


padrão igual a 16. Se uma amostra de tamanho 100 é selecionada, calcule
aproximadamente a probabilidade da média amostral estar entre 124 e
132.

4. Sejam X1 , X2 , . . . X144 v.a.s independentes e identicamente distribuı́das,


cada uma tendo média µ = E[Xi ] = 2, e variância σ 2 = V ar(Xi ) = 4. Use
o Teorema Central do Limite para aproximar P(X1 +X2 +. . .+X144 > 264).

5. Sejam X1 , X2 , . . . X265 v.a.s independentes e identicamente distribuı́das,


com função densidade de probabilidade f dada por

 3(1 − x)2 , para 0 ≤ x ≤ 1,
Xi =
 0, caso contrário.

Use o Teorema Central do Limite para aproximar

P(X1 + X2 + . . . + X265 > 170).

6. Seja X uma v.a. que descreve determinada caracterı́stica de certa po-


pulação. X tem média µ = 80 e variância σ 2 = 26. Dessa população
retira-se uma amostra de tamanho n = 25. Calcule

(a) P(X > 83).

(b) P(X ≤ 82).

(c) P(X − 2 · V ar(X) ≤ µ ≤ X + 2 · V ar(X)).

7. Seja X uma v.a. que descreve determinada caracterı́stica de certa po-


pulação. X tem média µ = 100 e variância σ 2 = 85. Dessa população
retira-se uma amostra de tamanho n = 20.

(a) Calcule P(95 < X > 83 < 105).

(b) Encontre Zα tal que P(X − Zα · V ar(X) < µ ≤ X + Zα · V ar(X)) =


0.95.

8. Qual deve ser o tamanho de uma amostra a ser retirada de uma população,
descrita por uma v.a. X com distribuição normal de média µ = 200 e
variância σ 2 = 350, para que P(|X − µ| < 5) = 0.95?
136 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

6.2.4 Exercı́cios - Estimadores


1. Suponha uma Amostra Aleatória Simples (A.A.S.) X1 , X2 , . . . , Xn de uma
v.a. X com distribuição de Bernoulli de parâmetro p. Seja X o número
de sucessos e considere os seguintes estimadores para p:

(a) pb1 = X/n


(b) 
1, se a primeira prova resulta sucesso
pb2 =
0, caso contrário

Encontre E(bp1 ), E(b


p2 ), V ar(b
p1 ) e V ar(b
p2 ). São pb1 e pb2 estimadores não-
viesados para p? Qual dos dois é mais eficiente?

2. Considere o seguinte estimador para σ 2 :


n
1X
Vn2 = (Xi − X)2 .
n i=1

Calcule o viés E[Vn2 ] − σ 2 para esse estimador. Dica: observe que Vn2 =
(n − 1)S 2 /n.

3. Suponha que as v.a.s X1 , X2 , . . . Xn tenham a mesma esperança µ.

(a) S = 12 X1 + 31 X2 + 16 X3 é um estimador não-viesado para µ?


(b) Quais as condições que as constantes a1 , a2 , . . . , an devem obedecer
para que T = a1 X1 +a2 X2 +. . . an Xn seja um estimador não-viesado
para µ?

4. Seja X1 , X2 , X3 uma amostra aleatória de uma população exponencial com


média θ, isto é, E[Xi ] = θ, i = 1, 2, 3. Cosidere os estimadores

X1 + X2
θb1 = X̄, θb2 = X1 , θb3 =
2
(i) Demostrar que nenhum dos três estimadores é viesado. (ii) Qual
dos estimadores tem menor variância? Lembrar que no caso exponencial
Var(Xi ) = θ2 .

5. As folhas de árvores são divididas em 4 tipos: A, B, C e D. De acordo com


a teoria genética, os tipos ocorrem respectivamente com probabilidades
1 1 1 1
4 (θ+2), 4 θ, 4 (1−θ) e 4 (1−θ), com 0 < θ < 1. Suponha que alguém colheu
uma amostra de n folhas de uma mata. O número de folhas do tipo A é
6.3. PRINCÍPIO DA MÁXIMA VEROSSIMILHANÇA 137

modelado segundo uma v.a. N1 com distribuição Binomial de parâmetros


n e p1 = 14 (θ +2), e o número de folhas do tipo B é modelado segundo uma
v.a. N2 com distribuição Binomial de parâmetros n e p2 = 14 θ. A tabela a
seguir mostra a distribuição da progenia de heterozigotos auto-fertilizados
entre 3839 folhas.
Tipo Quantidade
A 1997
B 32
C 906
D 904

Considere os seguintes estimadores para θ:


4 4
T1 = N1 − 2 e T2 = N2
n n
(a) Verifique se T1 e T2 são estimadores não-viesados para θ.
(b) Encontre as estimativas para θ provenientes da tabela acima, usando
T1 e T2 .
(c) Em termos de eficiência, qual é o melhor estimador?

6. Suponha que alguém observe por algum tempo a chegada de telefonemas


e obteve o seguinte conjunto de dados: x1 , x2 , . . . , xn , onde xi representa
número de chegadas no i-ésimo minuto. Então x1 , x2 , . . . , xn é uma re-
alização das v.a.’s X1 , X2 , . . . , Xn , todas com distribuição de Poisson de
parâmetro µ.

(a) Calcule p0 = P(X = k).


(b) Um estimador natural para p0 seria a frequencia relativa de Xi ’s
iguais a zero, ou seja,
n. de Xi0 s iguais a zero
pˆ0 = .
n
Mostre que pˆ0 tem distribuição binomial de parâmetros n e p0 .
(c) Determine um estimador para µ a partir de pˆ0 .
(d) O estimador do item anterior é não-viesado?

6.3 Princı́pio da Máxima Verossimilhança


Até agora construı́mos apenas de maneira natural os estimadores de parâmetros
de interesses. Por exemplo, a esperança e a probabilidade têm como estimado-
138 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

res a média amostral e a frequência relativa, respectivamente. Mas em algu-


mas situações, essas analogias não existem. Por isso, nesta seção vamos ver
um princı́pio geral para construir estimadores: princı́pio da máxima verossimi-
lhança.
O princı́pio da máxima verossimilhança consiste em adotar, como estimativas
dos parâmetros, os valores que maximizam a probabilidade da amostra obser-
vada ocorrer.

6.3.1 Para Variável Aleatória Discreta


Suponha que tenhamos um conjunto de dados x1 , x2 , . . . , xn , modelado segundo
uma possı́vel realização de uma amostra aleatória simples obtida a partir de
uma v.a X discreta com distribuição de probabilidade, caracterizada por um
parâmetro θ, que chamamos de pθ (x). Neste caso, a função de verossimilhança
é definida por:

L(θ) = P(X1 = x1 , X2 = x2 , . . . , Xn = xn )
= P(X1 = x1 )P(X2 = x2 ) . . . P(Xn = xn )
= pθ (x1 )pθ (x2 ) . . . pθ (xn ).

Na segunda igualdade, usamos o fato de que X1 , . . . , Xn são variáveis aleatórias


independentes.
L(θ) é a função que deve ser maximizada. Para isso, devemos primeiramente
derivar e igualar L(θ) a zero e depois verificar se a condição de segunda ordem
para máximo é satisfeita, isto é:

Primeiro passo: encontrar θ tal que L0 (θ) = 0.

Segundo passo: verificar se para esse θ, L00 (θ) < 0.

Exemplo 6.3.1 Uma moeda viciada é lançada várias vezes até sair cara pela
primeira vez. Esse experimento é repetido 3 vezes, com a mesma moeda e os
seguintes dados são obtidos:

Experimento 1: cara apareceu pela primeira vez no 3◦ lançamento.

Experimento 2: cara apareceu pela primeira vez no 5◦ lançamento.

Experimento 3: cara apareceu pela primeira vez no 4◦ lançamento.

Seja p a probabilidade de sair cara para essa moeda. Determine uma estimativa
de máxima verossimilhança p̂ para p.
6.3. PRINCÍPIO DA MÁXIMA VEROSSIMILHANÇA 139

1◦ passo: Identificar o conjunto de dados:

x1 = 3, x2 = 5, x3 = 4.

2◦ passo: Propor um modelo para as variáveis aleatórias X1 , X2 e X3 :


As v.a’s seguem a distribuição geométrica de parâmetro p, isto é, X1 , X2 , X3 ∼
X, tal que
P(X = x) = (1 − p)x−1 p, x = 1, 2, . . .

3◦ passo: Determinar L(p):

L(p) = P(X1 = 3, X2 = 5, X3 = 4) = P(X1 = 3)P(X2 = 5)P(X3 = 4)


= [(1 − p)2 p][(1 − p)4 p][(1 − p)3 p] = p3 (1 − p)9 .

Na segunda igualdade usamos que X1 , X2 e X3 são independentes.

4◦ passo: Derivar L(p) e igualar a zero:

L0 (p) = 3p2 (1 − p)9 − 9p3 (1 − p)8 = 3p2 (1 − p)8 [(1 − p) − 3p]


= 3p2 (1 − p)8 [1 − 4p] = 0

Portanto, L0 (p) = 0 se:

p = 0, que não faz sentido

(1 − p) = 0 ⇔ p = 1, que não faz sentido


1 − 4p = 0 ⇔ p = 1/4.

5◦ passo Verificar se a condição de segunda ordem para máximo é satisfeita,


quando p = 1/4:

L00 (p) = 6p(1 − p)8 (1 − 4p) − (8)(3)p2 (1 − p)7 (1 − 4p) − (4)(3)p2 (1 − p)8
= 6p(1 − p)8 (1 − 4p) − 24p2 (1 − p)7 (1 − 4p) − 12p2 (1 − p)8
= 6p(1 − p)7 [(1 − 4p) − 4p(1 − 4p) − 2p(1 − p)]
= 6p(1 − p)7 [(1 − 4p)(1 − 4p) − 2p(1 − p)]
= 6p(1 − p)7 [1 − 8p + 16p2 − 2p + 2p2 ]
= 6p(1 − p)7 [1 − 10p + 18p2 ].

Substituindo p por 1/4, temos

L00 (1/4) = (6/4)(3/4)7 [1 − 10/4 + 18/16] = 6/4(3/4)7 (−6/16) < 0.

Logo p̂ = 1/4 é a estimativa de máxima verossimilhança para p.


140 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

Exemplo 6.3.2 Suponha três realizações de uma variável aleatória de Ber-


noulli, com parâmetro de sucesso p, tal que 0 < p < 1. Temos que
(
1, com probabilidade p
X=
0, com probabilidade 1 − p.
Os resultados das três realizações são, repectivamente: x1 = 1, x2 = 1 e x3 = 0.
Vamos determinar uma estimativa de máxima verossimilhança para p:

L(p) = P(X1 = 1, X2 = 1, X3 = 0)
= P(X1 = 1)P(X2 = 1)P(X3 = 0)
= pp(1 − p) = p2 (1 − p).

Na segunda igualdade, usamos que X1 , X2 e X3 são variáveis aleatórias inde-


pendentes.
Maximizando a função L(p):

L0 (p) = 2p(1 − p) + p2 (−1) = 2p − 2p2


= 2p − 3p2 = p(2 − 3p).

Portanto L0 (p) = 0 ⇔ p = 0, que não faz sentido ou p = 2/3.


Agora precisamos verificar se a condição de segunda ordem para máximo é sa-
tisfeita:
L00 (p) = (2 − 3p) + p(−3) = 2 − 3p − 3p = 2 − 6p.
Substituindo o valor 2/3 temos que

L00 (2/3) = 2 − 6(2/3) = −2 < 0.

Logo p̂ = 2/3 é a estimativa de máxima verossimilhança para p.

6.3.2 Para Variável Aleatória Contı́nua


Como é a função de verossimilhança de X, se X for uma variável aleatória
contı́nua ?
Para o caso contı́nuo vamos definir a função de máxima verossimilhança de
forma diferente, pois definindo igual ao caso discreto terı́amos sempre L(θ) = 0.
Isso acontece, porque a integral de um ponto é zero. Então para definir a função
de máxima verossimlhança para uma amostra de variáveis aleatórias contı́nuas,
vamos considerar a seguinte motivação:
Seja f (x, θ) a função densidade da variável aleatória X e tome  > 0. Veremos
que obteremos uma estimativa de máxima verossimilhança para θ quando

P(x1 −  ≤ X1 ≤ x1 + , . . . , xn −  ≤ Xn ≤ xn + )
6.3. PRINCÍPIO DA MÁXIMA VEROSSIMILHANÇA 141

for máxima.
Temos que,
Z xi +
P(xi −  ≤ Xi ≤ xi + ) = f (x, θ)dx ' 2f (xi , θ).
xi −

Então, como as Xi ’s são independentes, temos


P(x1 −  ≤ X1 ≤ x1 + , . . . , xn −  ≤ Xn ≤ xn + ) =
P(x1 −  ≤ X1 ≤ x1 + ) . . . P(xn −  ≤ Xn ≤ xn + ) '
f (x1 , θ)f (x2 , θ) . . . f (xn , θ)(2)n .
Note que f (x1 , θ)f (x2 , θ) . . . f (xn , θ)(2)n é máxima, quando f (x1 , θ)f (x2 , θ) . . . f (xn , θ)
for máxima, independentemente do valor de .
Portanto, a função de máxima verossimilhança de uma v.a contı́nua é definida
por
L(x1 , . . . , xn , θ) = f (x1 , θ) . . . f (xn , θ).
Como no caso discreto, a estimativa de máxima verossimilhança de θ é o valor
que maximiza L(x1 , . . . , xn , θ).
Exemplo 6.3.3 Suponha um conjunto de dados x1 , . . . , xn modelado como sendo
uma realização de uma amostra aleatória simples de uma v.a exponencial de
parâmetro λ, com função densidade dada por
(
0, se x < 0
f (x, λ) =
λe−λx , para x ≥ 0.
Vamos determinar o estimador de máxima verossimilhança para λ.
Temos que
L(λ) = λe−λx1 λe−λx2 . . . λe−λxn = (λ)n e−λ{x1 +x2 +...+xn } .
Derivando e igualando a zero temos,
n
X
L0 (λ) = nλn−1 e−λ{x1 +x2 +...+xn } − λn xi e−λ{x1 +x2 +...+xn }
i=1
 n
X 
= λn−1 e−λ{x1 +x2 +...+xn } n − λ xi
i=1
0
Assim L (λ) = 0, se
λ = 0,
n  Xn 
X 1
n−λ xi = 0 ⇒ λ = n/ xi =
i=1 i=1
X
Vemos que nesse caso, não será fácil encontrar L00 (λ). Por isso, vamos apresen-
tar uma outra ferramenta para calcular o estimador de máxima verossimilhança.
142 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

Log - Verossimilhança

Seja L(θ) uma função de verossimilhança, o máximo dessa função ocorre no


mesmo ponto que log(L(θ)). Isso acontece, pois o logaritmo é uma função
monótona crescente. Assim, tanto para o caso discreto como para o caso
contı́nuo, podemos utilizar o logaritmo natural log(L(θ)) em vez de L(θ), o
que pode ser mais conveniente em determinadas situações, como no exemplo
6.3.3. Assim, temos que

L(θ) = f (x1 , θ)f (x2 , θ) . . . f (xn , θ) ⇔ log(L(θ)) = log(f (x1 , θ)f (x2 , θ) . . . f (xn , θ))
= log(f (x1 , θ)) + log(f (x2 , θ)) + . . . + log(f (xn , θ)).

Exemplo 6.3.4 Voltando ao exemplo 6.3.3, vamos encontrar a estimativa de


máxima verossimilhança para λ utilizando o logaritmo de L(λ), que denotaremos
por l(λ):
Temos que
L(λ) = (λ)n e−λ{x1 +x2 +...+xn } .

Assim,
n
X
l(λ) = log(L(λ)) = n log(λ) − λ xi .
i=1

Derivando l(λ) e depois igualando-o a zero, encontramos que:


n  X n 
0 1 X 1
l (λ) = n − xi = 0 ⇔ λ = n/ xi = .
λ i=1 i=1
X

Agora vamos verificar se a condição para máximo é satisfeita, ou seja, se l00 (λ) <
0:
1
l00 (λ) = −n 2 .
λ
Logo, l00 (λ) será menor do que zero, para qualquer valor de λ diferente de zero.
1
Então a estimativa de máxima verossimilhança para λ é .
X
Exemplo 6.3.5 Suponha que o número de acidentes que ocorrem durante um
dia do ano em uma cidade, siga uma distribuição de Poisson(λ). Em dez dias
escolhidos ao acaso, os números de acidentes observados na cidade de Campinas,
foram
4, 0, 6, 5, 1, 2, 0, 3, 4 e 2.

Usando o princı́pio da máxima verossimilhança para λ, estime a proporção de


dias do ano nos quais ocorrerão no máximo dois acidentes em Campinas.
6.3. PRINCÍPIO DA MÁXIMA VEROSSIMILHANÇA 143

Temos que,
n
Y e−λ λxi
f (x1 , λ)f (x2 , λ) . . . f (xn , λ) = .
i=1
xi !
Então
n
! n
! n
!
Y Y e−λ λxi X e−λ λxi
l(λ) = log f (xi , λ) = log = log
i=1 i=1
xi ! i=1
xi !
n
X n
X
= (log e−λ λxi − log xi !) = (log e−λ + log λxi − log xi !)
i=1 i=1
n
X n
X n
X
xi xi
= (−λ + log λ − log xi !) = n(−λ) + log λ − log xi !.
i=1 i=1 i=1

Derivando l(λ) e igualando-o a zero, temos que:


n n
X 1 xi −1 X xi
l0 (λ) = −n + xi
λ x i = − n = 0.
i=1
λ i=1
λ
n
X xi
⇒ λ̂ = .
i=1
n
Substituindo os valores da amostra, obtemos
n
X xi 27
λ̂ = = = 2, 7.
i=1
n 10

Agora que encontramos uma estimativa para λ conseguimos estimar a quanti-


dade de dias em que ocorrerão no máximo dois acidentes em Campinas.
2 2
X X e−2,7 2, 7a 2, 7 −2,7
P(X ≤ 2) = P(X = a) = = e−2,7 + 2, 7e−2,7 + e
a=0 a=0
a! 2
10, 1
= e−2,7 (1 + 2, 7 + (2, 7/2)) = e−2,7 ' 0, 34.
2
Portanto, estima-se que em aproximadamente 35% dos dias do ano ocorrerão
no máximo dois acidentes nesta cidade.

Exemplo 6.3.6 Vamos supor agora, que o conjunto de dados x1 , . . . , xn seja


uma realização de uma amostra aleatória simples proveniente de uma distri-
buição normal, N (µ, σ 2 ), com µ e σ 2 desconhecidos. Quais são os estimadores
de máxima verossimilhança para µ e σ 2 ?
Seja (  2 )
1 1 x − µ
f (xi , µ, σ 2 ) = √ exp − ,
σ 2π 2 σ
144 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

temos que
√ 1
l(µ, σ 2 ) = −n log(σ) − n log( 2π) − 2 [(x1 − µ)2 + . . . + (xn − µ)2 ].

Vamos calcular as derivadas parciais de l(µ, σ 2 ):
∂l 1
= {−2(x1 − µ) − . . . − 2(xn − µ)}
∂µ 2σ 2
1 n
= {x1 − . . . − xn + nµ} = 2 {X − µ}
σ2 σ
e
∂l 1 1
= −n + {(x1 − µ)2 + . . . + (xn − µ)2 }
∂σ 2 σ ( σ3 )
n
n 1 X
= − 3 σ2 − (xi − µ)2 .
σ n i=1

∂l ∂l
O máximo da função l(µ, σ 2 ) ocorrerá quando = =0:
∂µ ∂σ 2
∂l n
1. = 2 (X − µ) = 0 ⇔ X − µ = 0 ⇔ µ = X.
∂µ σ
n
! n
∂l n 1X 2 2 1X
2. = − σ 2
− (x i − X) = 0 ⇔ σ = (xi − X)2 .
∂σ 2 σ3 n i=1 n i=1
n
c2 = 1
X
Portanto, µ̂ = X e σ (xi − X)2 são estimadores de máxima verossimi-
n i=1
lhança de µ e σ 2 , respectivamente.

Propriedades dos estimadores de máxima verossimilhança:

1. Podem ser viesados.


n
c2 = 1
X
Como vimos no exemplo 6.3.6, σ (xi − X)2 é o estimador de
n i=1
máxima verossimilhança para σ 2 , mas
n
1 X
S2 = (xi − X)2
n − 1 i=1

é o estimador não viciado de σ 2 .

2. Se T for o estimador de máxima verossimilhança para um parâmetro θ e


g(θ) for uma função inversı́vel para θ, então g(T ) é o estimador de máxima
verossimilhança para g(θ).
6.3. PRINCÍPIO DA MÁXIMA VEROSSIMILHANÇA 145

6.3.3 Exercı́cios
1. Suponha uma Amostra Aleatória Simples (A.A.S.) X1 , X2 , . . . , Xn de uma
v.a. X com distribuição de Bernoulli de parâmetro p. Para n = 4 obteve-
se a seguinte realização das Xi ’s: x1 = 1, x2 = 0, x3 = 0, x4 = 0. Encontre
uma estimativa de máxima verossimilhança para p.

2. Suponha uma Amostra Aleatória Simples (A.A.S.) X1 , X2 , . . . , Xn de uma


v.a. contı́nua com função densidade de probabilidade (f.d.p.) dada por

θxθ−1 se 0 ≤ x ≤ 1
fθ (x) =
0 caso contrário

Seja x1 , x2 , . . . , xn uma realização das v.a.’s X1 , X2 , . . . , Xn .

(a) Determine a função de verossimilhança.


(b) Encontre uma estimativa de máxima verossimilhança para θ.

3. Suponha uma Amostra Aleatória Simples (A.A.S.) X1 , X2 , . . . , Xn de uma


v.a. contı́nua com função densidade de probabilidade (f.d.p.) dada por

fθ (x) = θe−θx , se x ≥ 0

Seja x1 , x2 , . . . , xn uma realização das v.a.’s X1 , X2 , . . . , Xn .

(a) Proponha um estimador para θ.


(b) Determine a função de verossimilhança.
(c) Encontre uma estimativa de máxima verossimilhança para α.

4. Suponha uma Amostra Aleatória Simples (A.A.S.) X1 , X2 , . . . , Xn de uma


v.a. contı́nua com função densidade de probabilidade (f.d.p.) dada por

θ2 xe−θx se x > 0
fθ (x) =
0 caso contrário

Seja x1 , x2 , . . . , xn uma realização das v.a.’s X1 , X2 , . . . , Xn .

(a) Proponha um estimador para θ.


(b) Determine a função de verossimilhança.
(c) Encontre uma estimativa de máxima verossimilhança para θ.
146 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

5. Seja X1 , X2 , . . . , Xn uma amostra aleatória de uma densidade f (x, θ). En-


contre o estimador de máxima verossimilhança de θ em cada um dos casos
a seguir:

(a) f (x, θ) = θe−θx , x ≥ 0, θ > 0.


(b) f (x, θ) = θcθ x−(θ+1) , x ≥ c > 0, θ > 0.
x2
 
x
(c) f (x, θ) = 2 exp − 2 , x > 0, θ > 0.
θ 2θ
(d) f (x, θ) = θc xc−1 exp{−θxc }, x ≥ 0, θ > 0.

6.4 Intervalo de Confiança


Estudamos nas seções anteriores apenas estimadores pontuais, que possuem
como caracterı́stica especificar um único valor para o estimador. Vamos ver
nesta seção como construir um intervalo aleatório, que com alta probabilidade,
contenha o parâmetro de interesse. Chamaremos esse intervalo de Intervalo de
Confiança.

6.4.1 Intervalo de confiança para a média µ


Podemos saber se uma estimativa pontual de µ é boa, perguntando qual é o
erro amostral envolvido na estimação, isto é: Qual é o erro envolvido quando
um determinado valor de X é usado como uma estimativa por ponto de µ?
Definimos o erro amostral de µ, como a diferença entre os valores da amostra e
da população:
e = X − µ.

Como não conhecemos µ, não conseguiremos determinar o erro amostral uti-


lizando esta fómula. Mas, uma vez que a distribuição amostral de X mostra
como os valores de X estão distribuı́dos ao redor de µ, também nos fornece
a informação sobre as possı́veis diferenças de X e µ. Portanto, veremos que
podemos usar a distribuição de X para fazermos ”declarações”de probabilidade
sobre o tamanho do erro amostral.
Temos que a esperança e a variância do erro amostral para média, são:

E(e) = E(X − µ) = E(X) − E(µ) = µ − µ = 0

e
σ2
V ar(e) = V ar(X − µ) = V ar(X) − V ar(µ) = V ar(X) = .
n
6.4. INTERVALO DE CONFIANÇA 147

Portanto, com esses resultados, conseguimos determinar a probabilidade do erro


amostral ser menor que determinado γ ∈ [0, 1], que denominamos de coeficiente
de confiança e posteriormente construir o intervalo de confiança. Então, temos
que

P(|e| < z) = P(−z < e < z)


 
−z z
' P √ <e< √
σ/ n σ/ n
 √ √ 
−z n z n
= P <e< =γ
σ σ
 √   √ 
z n z n
⇔ P Z< −1+P Z < =γ
σ σ
 √ 
z n
⇔ 2P Z < −1=γ
σ
 √ 
z n 1+γ
⇔ P Z< = .
σ 2
Dado γ = 0.95, obtemos
 √ 
z n 1.95
P(−z < e < z) ' P Z < = = 0.975.
σ 2
Pela tabela da normal padrão:

z n 1.96σ
= 1.96 ⇒ z = √ = 1.96σX̄ .
σ n
Logo,

P(−z < e < z) = P(−1.96σX̄ < X − µ < 1.96σX̄ )


= P(X − 1.96σX̄ < µ < X + 1.96σX̄ ) = 0.95.

Assim, o intervalo de confiança para µ, com coeficiente de confiança γ = 0.95,


é dado por
IC(µ; 0.95) = [ X − 1.96σX̄ , X + 1.96σX̄ ].
Interpretação: Se pudéssemos construir uma quantidade grande desses inter-
valos [ X − 1.96σX̄ , X + 1.96σX̄ ], todos baseados em amostras de tamanho n,
95% deles conteriam o parâmetro µ.
Em outras palavras, se obtivermos várias amostras de mesmo tamanho n, para
cada uma delas, calcularmos os correspondentes intervalos de confiança com
coeficiente de confiança γ, esperamos que a proporção de intervalos que conte-
nham o valor verdadeiro de µ seja igual a γ.
Então, diferentemente da estimação pontual, agora conseguimos determinar com
que probabilidade estamos obtendo uma estimativa.
148 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

Exemplo 6.4.1 Considere 20 amostras de tamanho n = 25, de uma distri-


buição normal com média 5 e variância igual a 9, isto é, N (5, 9). Vamos cons-
truir um intervalo de confiança para µ, com γ = 0.95.
O desvio padrão para a amostra é dado por

σ 9 3
σX̄ = √ = √ = .
n 25 5
Vimos que o intervalo de confiança para µ, tal que γ = 0.95, é dado por

IC(µ; 0.95) = [ X − 1.96σX̄ , X + 1.96σX̄ ]

Portanto, o intervalo procurado é

IC(µ; 0.95) = [ X − 1.96(3/5), X + 1.96(3/5)] = [ X − 1.76, X + 1.76].

Exemplo 6.4.2 A Esportes e cia é uma empresa de encomendas por mala di-
reta, especializada em equipamentos e acessórios esportivos. A empresa se pre-
ocupa em oferecer o melhor serviço aos seus clientes, por isso monitora a qua-
lidade de seus serviços selecionando uma A.A.S de clientes a cada mês. Cada
cliente é questionado sobre uma série de problemas e as respostas obtidas são
usadas para calcular uma contagem de satisfação para cada um dos clientes
pertencentes à amostra. Essa contagem varia entre 1 a 100, em que 1 e 100
representam a pior e a melhor avaliação, respectivamente.
Uma contagem média é calculada todo mês e usada como uma estimativa pon-
tual da contagem média para toda a população de clientes da empresa.
Dado que num lançamento recente 100 clientes foram entrevistados e obteve-se
X = 82, vamos determinar o intervalo de confiança para µ.
Assumiremos que o desvio-padrão da população será sempre σ = 20. Então,
temos que
σ 20
σX̄ = √ = = 2.
n 10
Como foi visto no desenvolvimento teórico apresentado acima, o intervalo de
confiança para µ, com γ = 0.95 é dado por

IC(µ; 0.95) = [ X − 1.96σX̄ , X + 1.96σX̄ ]

Então, nesse caso, o intervalo de confiança para µ, com coeficiente de confiança


γ = 0.95 é

IC(µ; 0.95) = [ X − 1.96(2), X + 1.96(2)] = [82 − 3.92, 82 + 3.92] = [78.08, 85.92].

Portanto, há uma probabilidade de 95% de que a média da amostra forneça um


erro de 3.92 ou menos.
6.4. INTERVALO DE CONFIANÇA 149

Esta declaração é uma declaração de precisão, que diz à empresa sobre o erro
que pode ser esperado se uma amostra aleatória simples de 100 clientes for usada
para estimar a média da contagem de satisfação da população.

Agora vamos analisar o intervalo de confiança do exemplo 6.4.2, quando muda-


mos apenas o valor de nı́vel de confiança γ.
Para γ = 0.99:

IC(µ; 0.99) = [ X−2.576σX̄ , X+2.576σX̄ ] = [82−5.15, 82+5.15] = [76.85, 87.15].

Para γ = 0.90:

IC(µ; 0.90) = [ X−1.645σX̄ , X+1.645σX̄ ] = [82−3.29, 82+3.29] = [78.71, 85.29].

Pegamos um valor acima e um abaixo de γ = 0.95 para podermos analisar o


que acontece nesses dois casos distintos. Vemos que aumentando o valor de γ,
obtemos um intervalo de confiança maior do que o do exemplo 6.4.2 e o contrário
ocorre, quando diminuı́mos o valor de γ. Isso acontece, porque aumentando o
nı́vel de confiança γ, o valor de z também aumenta e como consequência temos
um intervalo maior. Já quando diminuı́mos γ, o valor de z fica menor, dimi-
nuindo o intervalo de confiança.
O mesmo acontece se aumentarmos o desvio padrão, ou seja, aumentando σ a
amplitude do intervalo também aumenta e, diminui quando diminuı́mos σ.
Se aumentarmos o valor de n e deixarmos as outras variáveis constantes, ve-
remos que a amplitude do intervalo vai diminuir. Isso acontece, porque com
um maior número de dados a estimação fica mais precisa se restringindo a um
intervalo cada vez menor. O contrário acontece quando diminuı́mos n.
Portanto, notamos que a amplitude de um intervalo de confiança depende de
três elementos: do coeficiente de confiança (γ), do tamanho da amostra (n) e
do desvio padrão (σ).

6.4.2 Intervalo de Confiança para p


O exemplo a seguir foi retirado do livro de (Bussab e Morettin, p. 306).

Exemplo 6.4.3 Vamos obter um intervalo de confiança, com γ = 0.95, para


o parâmetro p de uma distribuição binomial de parâmetros n e p. Seja X a
variável aleatória que representa o número de sucessos em n provas, temos que

E(X) = np
150 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

V ar(X) = np(p − 1).

Pelo Toerema Central do Limite sabemos que

X − np
Z=p ∼ N (0, 1)
np(1 − p)

ou também, √
X/N − p n(p̂ − p)
Z= p = √ ∼ N (0, 1).
pq/n pq
Usando a tabela da normal padrão, temos que
 √ 
(p − p̂) n
P(−1.96 ≤ Z ≤ 1.96) = 0.95 = P −1.96 ≤ √ ≤ 1.96
pq
 √ √ 
pq pq
= P −1.96 √ ≤ p − p̂ ≤ 1.96 √
n n
 √ √ 
pq pq
= P p̂ − 1.96 √ ≤ p ≤ p̂ + 1.96 √
n n

onde q = (1 − p).
Não conhecemos p. Como vamos determinar pq?
Uma das formas é obter o valor máximo da função p(1 − p). Podemos usar este
método, pois quanto maior for p(1 − p) maior será o tamanho do intervalo, e
consequentemente, haverá mais chances desse intervalo conter o parâmetro.
Utilizando a regra do máximo, temos que

g(p) = p(1 − p) ⇒ g 0 (p) = (1 − p) − p ⇒ p = 1/2.

Note que g 00 (p) = −1 − 1 < 0.


Portanto, p = 1/2 maximiza g(p). Então substituindo p = 1/2 em g(p), temos
que o valor máximo de p(1 − p) é 1/4.
Assim, temos que
r r
1 pq 1 pq 1
pq ≤ ⇒ ≤ √ ⇒ −1.96 ≥ −1.96 √ .
4 n 4n n 4n

Usando as desigualdades acima, obtemos


r r
1 pq pq 1.96
p̂ − 1.96 √ ≤ p̂ − 1.96 ≤ p ≤ p̂ + 1.96 ≤ p̂ + √ .
4n n n 4n

O que implica em
1.96 1.96
p̂ − √ ≤ p ≤ p̂ + √ .
4n 4n
6.4. INTERVALO DE CONFIANÇA 151
 
1.96 1.96
Então p̂ − √ , p̂ + √ é um intervalo de confiança para p com coeficiente
4n 4n
de confiança de 95%.
Para um γ qualquer, o intervalo de confiança acima é escrito da seguinte forma:
 
z(γ) z(γ)
IC(p; γ) = p̂ − √ , p̂ + √ .
4n 4n
O intervalo de confiança obtido é chamado de conservador, pois estamos substi-
tuindo a variância por um valor maior do que o verdadeiro e assim assegurando
que o coeficiente de confiança seja no mı́nimo γ.

No próximo exemplo, também retirado do livro de (Bussab e Morettin, p.307),


vamos mostrar uma outra maneira para se obter pq quando p for desconhecido.

Exemplo 6.4.4 Numa pesquisa de mercado 400 pessoas foram entrevistadas


sobre determinado produto, e 60% delas preferiram a marca A. Seja p̂ = 0.60,
um intervalo de confiança conservador para esse caso, é:
 
z(γ) z(γ)
IC(p; 0.95) = p̂ − √ , p̂ + √ = [0.551, 0.649].
4n 4n
Novamemte não conhecemos p. A segunda forma de proceder nessas situações
é substituir pq por p̂q̂ com q̂ = 1 − p̂.
Desta forma, obtemos o seguinte intervalo de confiança:
" r r #
p̂q̂ p̂q̂
I(p, γ) = p̂ − z(γ) , p̂ + z(γ)
n n

Temos que
p̂ = 0.6 ⇒ q̂ = 0.4 ⇒ p̂q̂ = 0.24.
Então, o intervalo de confiança com γ = 0.95 é
" r r #
0.24 0.24
IC(p; 0.95) = 0.60 − 1.96 , 0.60 + 1.96 = [0.551, 0.649]
400 400

Neste exemplo, tanto o intervalo conservador quanto o intervalo de confiança


obtido pela estimativa de p apresentaram o mesmo valor. Veremos no próximo
exemplo, retirado do livro de (Bussab e Morettin, p. 307), que isso não acontece
sempre.

Exemplo 6.4.5 Suponha que em n = 400 provas obtivemos k = 80 sucessos.


Vamos obter um intervalo de confiança para p com γ = 0.90.
Temos que
80
p̂ = = 0.2 ⇒ q̂ = 1 − p̂ = 0.8.
400
152 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

Portanto, substituindo pq por p̂q̂, obtemos


" r r #
(0.2)(0.8) (0.2)(0.8)
IC(p; 0.90) = 0.2−1.645 , 0.2+1.645 = [0.167, 0.233].
400 400
r
pq
Como vimos, para construir o intervalo conservador, seria trocado por
n
r
1 1 1
= = .
4n 4(400) 40

Portanto, temos que


 
1 1
IC(p; 0.90) = 0.2 − 1.645 , 0.2 + 1.645 = [0.159, 0.241].
40 40

Como o intervalo conservador apresenta uma menor precisão para p̂, vemos que
a amplitude desse intervalo será sempre maior ou igual a do intervalo em que
é usado a estimativa para p.

6.4.3 Exercı́cios
1. Você tem em mãos um conjunto de dados que podem ser considerados
como um realização de uma A.A.S de uma variável aleatória com distri-
buição normal. O tamanho da amostra é n = 34, o valor assumido pela
média amostral é 3.54, e σx̄ = 0.13. Construa um intervalo para µ com
nı́vel de confiança igual a 98%.

2. Uma amostra de 25 observações de uma normal N (µ, 16) foi coletada e


forneceu uma média amostral de 8. Construa intervalos com confiança
80%, 85%, 90% e 95% para a média populacional. Comente as diferenças
encontradas.

3. Suponha que a média e o desvio padrão amostrais das notas de um teste


de habilitação para uma amostra de 20 estudantes de uma classe com um
total 100 estudantes, sejam X̄ = 150 e σx̄ = 20. Encontrar um intervalo
de confiança para µ de 95%.

6.5 Teste de Hipóteses


Até agora trabalhamos apenas com estimativas númericas fornecidas por esti-
madores e intervalos de confiança. Nesta seção iremos estudar situações em
6.5. TESTE DE HIPÓTESES 153

que temos que escolher ou refutar uma hipótese sobre o parâmetro desconhe-
cido e também situações em que temos que decidir entre duas hipóteses sobre o
parâmetro desconhecido.
Suponha que um conjunto de dados seja modelado como a realização das v.a.’s
X1 , X2 , . . . Xn e que a distribuição de Xi seja conhecida, mas com parâmetros
desconhecidos. Para determiná-los vamos propor hipóteses sobre esses parâmetros
desconhecidos.
Em particular, vamos estudar distribuições com apenas um parâmetro, θ, des-
conhecido, e propor hipóteses para esse parâmetro.

Definição 6.5.1 Hipótese (Estatı́stica) é qualquer afirmação que se faça sobre


um parâmetro desconhecido.

Exemplo 6.5.1 ([9]) Um professor aplica um teste envolvendo 10 questões do


tipo “certo ou errado” e quer testar a hipótese “o estudante está adivinhando
(chutando) as respostas”.
Vamos chamar de p a probabilidade do estudante responder corretamente a uma
questão, independentemente de ele estar chutando ou não as respostas.
Para modelar probabilı́sticamente este problema, temos que primeiro identificar
a amostra aleatória:
O professor tem em mãos uma realização das variáveis aleatórias X1 , X2 , . . . X10 ,
onde Xi é uma v.a que assume o valor 1 se o aluno acertou a i-ésima pergunta
e 0 se errou. Assim, Xi tem distribuição de Bernoulli com parâmetro p, desco-
nhecido. Isto é,

1, se acertou (com probabilidade p)
Xi =
0, se errou (com probabilidade 1 − p)

A hipótese natural para este caso, é propor que a probabilidade do aluno acertar
uma pergunta seja 1/2. Esta hipótese é comumente chamada de hipótese nula
e simbolizada por H0 . Porém, se o aluno não estivesse “chutando”, ele respon-
deria corretamente com probabilidade maior que 1/2.
Então nos interessa testar

H0 : p = 1/2 contra
H1 : p > 1/2,

onde H1 é chamada de hipótese alternativa.


Para resolver exemplos como este, temos que questionar algumas situações,
para isso as perguntas frequentes são: Sem conhecer a atitude do aluno, como
154 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

julgar se a hipótese nula é verdadeira ou não?


Uma pergunta mais adequada, seria: Aceito ou rejeito a hipótese nula?
Ou ainda: Com que probabilidade eu aceito ou rejeito a hipótese nula?
Para respondermos a essas questões precisamos conhecer dois conceitos es-
tatı́sticos:

• Teste Estatı́stico

• Regra de Decisão

O Teste Estátistico é qualquer função da amostra (estimador), cujo valor


numérico (estimativa) possa ser usado para decidir sobre rejeitar ou aceitar a
hipótese nula.
Voltando ao exemplo 6.5.1, o Teste Estátistico mais natural para esse caso é

10
X
Y = Xi ,
i=1

o número de respostas corretas.


Um Teste Estatı́stico é uma variável aleatória, logo precisamos saber quais
valores Y assume e qual é a sua distribuição de probabilidade. Temos que Y
tem distribuição binomial de parâmetros n = 10 e p (desconhecido) e, portanto,
assume os seguintes valores:

0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.

De acordo com esses valores podemos formar uma Regra de Decisão para o
exemplo 6.5.1, a qual determina para quais valores do Teste Estatı́stico vamos
rejeitar ou aceitar a hipótese nula.

Suponha que no exemplo, o professor adote a seguinte Regra de Decisão:

“Se oito ou mais respostas estiverem corretas, o estudante não está adivinhando,
enquanto que se um número menor que oito questões estiverem corretas, o es-
tudante está advinhando.”

Ou seja, a hipótese nula, H0 : p = 1/2, será rejeitada se Y = 8 ou Y = 9 ou


Y = 10.

O evento {Y ≥ 8} é chamado de Região Crı́tica ou Região de Rejeição


do Teste de Hipóteses. Enquanto que o evento {Y < 8} é chamado de Região
de Aceitação ou Região de Não-Rejeição do Teste de Hipóteses.
6.5. TESTE DE HIPÓTESES 155

6.5.1 Erro Tipo I


Voltando ao exemplo 6.5.1, o professor sabe que é possı́vel que um estudante
esteja adivinhando e ainda assim ele acerte 8 ou mais questões. Isto é, temos a
situação em que H0 é verdadeira, mas é rejeitada. O professor quer, certamente,
que a probabilidade desse evento seja pequena. Podemos calculá-la da seguinte
forma:

P({Y = 8} ∪ {Y = 9} ∪ {Y = 10}; “usando p = 1/2”) =

P({Y = 8}; “p = 1/2”) + P({Y = 9}; “p = 1/2”) + P({Y = 10}; “p = 1/2”) =

   10    10    10


10 1 10 1 10 1 7
+ + = ' 0, 054.
8 2 9 2 10 2 128

Portanto, se o teste fosse aplicado 128 vezes, o professor esperaria rejeitar


H0 sete vezes, quando H0 fosse verdadeira.
A probabilidade 7/128 é chamada de Nı́vel de Significância do Teste de
Hipóteses e representada pela letra α. A probabilidade α de rejeitar a hipótese
nula quando ela for verdadeira, é também chamada probabilidade de se cometer
o Erro do tipo I.
No exemplo 6.5.1 vimos um Teste de Hipótese chamado de Unilateral (à direita).
Este teste possui essa denominação, pois testamos a hipótese nula onde p = 1/2,
contra uma hipótese alternativa de p assumir valores maiores que 1/2. Agora
no próximo exemplo vamos ver um caso de Teste de Hipótese Bilateral.

Exemplo 6.5.2 ([9]) Temos uma moeda e queremos saber se ela é honesta,
lançando-a cinco vezes. Vamos chamar de X a v.a que representa o resul-
tado dos lançamentos, onde Xi representa se saiu cara ou coroa no i-ésimo
lançamento.
Temos que X é uma variável com ditribuição de Bermoulli de parâmetro p,
desconhecido, tal que

1, se acertou com probabilidade p
Xi =
0, se errou com probabilidade 1 − p
156 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

A hipótese natural a se propor é que a moeda seja honesta (p = 1/2).


Assim, o Teste Estatı́stico mais adequado neste caso, é
5
X
Y = Xi
i=1

onde Y representa o número de caras nos 5 lançamentos. Temos, novamente,


uma v.a. Y com distribuição binomial de probabilidade com parâmetros n = 10
e p (desconhecido) e, portanto, assume os seguintes valores:

0, 1, 2, 3, 4, 5.

Vamos supor a seguinte Regra de Decisão:

”A moeda será considerada viciada se saı́rem 5 caras ou 5 coroas.”

Então rejeitamos a hipótese nula, se {Y = 5} ou {Y = 0}, ou seja, quando


sairem 5 ou nenhuma cara. Portanto, a Região Crı́tica será

{Y = 5} ∪ {Y = 0}.

Calculando o Nı́vel de Significância do teste, ou melhor, a probabilidade da


moeda ser viciada uma vez que p = 1/2, temos
 5  5
1 1 1
α = P({Y = 0} ∪ {Y = 5}; “p = 1/2”) = + = .
2 2 16

Portanto, concluı́mos que se a moeda fosse lançada 16 vezes, rejeitarı́amos a


hipótese nula uma vez, quando H0 fosse verdadeira.

No exemplo acima, o teste é chamado de Teste de Hipóteses Bilateral, pois


testamos a hipótese nula de p = 1/2 contra p 6= 1/2, isto é, testamos a hipótese
de p assumir valores maiores ou menores que 1/2.

6.5.2 Erro Tipo II


Retornando ao exemplo 6.5.1, vamos supor que o aluno acertou apenas 6 questões.
Então, não há razão para rejeitar H0 e dirı́amos que o aluno está ”advinhando”.
Mas, é possı́vel que o aluno não esteja ”adivinhando”(isto é, p > 0, 5), e no
entanto o aluno acertou apenas 6 questões. Portanto, há um outro tipo de erro
envolvido nesse processo decisório: aceitar H0 , sendo ela falsa, ou de forma
equivalente, rejeitar H1 , sendo ela verdadeira.
6.5. TESTE DE HIPÓTESES 157

Assim, vamos supor a seguinte situação. Seja p = 0, 8 a probabilidade desse


aluno acertar, podemos repensar o problema em termos de testar

H0 : p = 0, 5

contra a hipótese alternativa

H1 : p = 0, 8.

Vamos calcular a probabilidade, que chamaremos de β, de aceitar H0 quando


H1 for verdadeira, ou equivalentemente, calcular a probabilidade, β, de aceitar
H0 quando H0 for falsa. Temos, para p = 0.8, que

β = P({Y = 0} ∪ {Y = 1} ∪ . . . ∪ {Y = 7}; “p = 0.8”)


= P(Y = 0) + P(Y = 1; “p = 0.8”) + . . . + P(Y = 7; “p = 0.8”) = 0.322.

O Erro que consiste em aceitar H0 , sendo ela falsa, é denominado Erro do


tipo II. E, portanto, β é a probabilidade de se cometer Erro do tipo II.
Na tabela a seguir estão representados os erros de decisão:

A Verdade

H0 é verdadeira H1 é verdadeira

Nossa Decisão Rejeitar H0 Erro Tipo I Decisão Correta


Baseada no

Conj. de Dados Não Rejeitar H0 Decisão Correta Erro Tipo II

Na tabela abaixo estão os erros de decisão do exemplo 6.5.1:


158 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

A Verdade

p = 0, 5 p = 0, 8

Nossa Decisão Rejeitar H0 Erro Tipo I Decisão Correta


Baseada no α

Conj. de Dados Não Rejeitar H0 Decisão Correta Erro Tipo II


β
6.5. TESTE DE HIPÓTESES 159

6.5.3 Relações entre os Erros Tipo I e Tipo II


Vamos ver como os erros de tipo I e II estão relacionados, quando tentamos
diminuir um dos erros, digamos α.
Considerando novamente o exemplo 6.5.1, suponha que tomemos como Região
Crı́tica o evento
{Y ≥ 9}.

Com a mudança da Região Crı́tica, obtemos novos valores para α e β:

α ' 0.01 < 0.054

β = P(Y = 0; “p = 0.8”)+. . .+P(Y = 7; “p = 0.8”)+P(Y = 8; “p = 0.8”) = 0.624 > 0.322.

Vemos que diminuindo α, β aumenta. Na tabela abaixo podemos comparar


alguns valores de α e β, associados a diferentes Regiões Crı́ticas:

Região Crı́tica α β
{7, 8, 9, 10} 0.17 0.121
{8, 9, 10} 0.054 0.322
{9, 10} 0.01 0.624

Gostarı́amos que α e β fossem pequenos mas para n fixado a priori, não é


possı́vel escolher α e β à nossa vontade. Então é usual fixar um valor para α,
comumente menor ou igual a 0, 01.

6.5.4 Poder e Função Poder de um Teste


Exemplo 6.5.3 Um novo método de ensino envolvendo recursos computacio-
nais foi usado no ensino de estatı́stica a um grupo de 100 estudantes. Seja X a
variável aleatória que representa as notas dos alunos de 1 a 100, onde X possui
distribuição normal com σ 2 = 100.
Antes de se adotar o novo método de ensino sabia-se que µ = 60. A partir
de uma amostra aleatória de 25 notas, queremos testar se a média das notas
aumentaram após o uso do novo método.
Portanto, vamos testar as seguintes hipóteses

H0 : µ = 60
H1 : µ > 60.
160 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

O Teste Estatı́stico para a média amostral será:


P25
i=1 Xi
X=
25

onde X ∼ N (µ, σ 2 /n) com σ 2 = 100/25.


Para caracterizar o desempenho do teste, definimos a Função Poder do Teste,
que é a probabilidade de se rejeitar H0 quando ela for falsa, que representamos
por:
K(µ) = P(rejeitar H0 ; µ).

Observe que se H0 for falsa, então H1 é verdadeira. Em todos os exemplos


que vimos até agora, H1 não explicita um valor especı́fico para µ, daı́ termos a
Função Poder do Teste, K(µ), como função de µ. Para um valor especı́fico
de µ, digamos µ1 , obedecendo à condição exposta em H1 , temos que K(µ1 ) é
chamado de Poder do Teste para µ1 .
Voltando ao exemplo, vamos supor inicialmente a seguinte Regra de De-
cisão: rejeitar H0 se X ≥ 62. Então, temos que
 
X −µ 62 − µ
K(µ) = P(X ≥ 62; µ) = P ≥ ;µ
2 2
 
X −µ 62 − µ
K(µ) = 1−P ≤ ; µ , µ ≥ 60
2 2
 
X −µ 62 − µ
K(µ) = 1−P ≤ ; µ , µ ≥ 60
2 2

Em particular, K(60) = 0.1587 é a probabilidade de se rejeitar H0 : µ = 60,


quando ela for verdadeira. Note que nesse caso, a função poder é igual ao nı́vel
de significância (α), ou ainda, é igual a probabilidade de se cometer o Erro do
Tipo I.
Calculando a função poder para µ = 65, temos que K(65) = 0.9332, que é a
probabilidade de se rejeitar H0 : µ = 60 quando µ = 65. Portanto, quando µ
for um valor da hipótese alternativa, não é difı́cil perceber que quanto maior a
função poder, melhor será o teste. Então, para µ = 65, 1 − K(65) = 0.0668 é
a probabilidade de não se rejeitar H0 : µ = 60 quando µ = 65. Ou melhor, é a
probabilidade de se cometer o Erro Tipo II: Rejeitar H1 : µ > 60 quando ela for
verdadeira, o que denotaremos por:

β = 1 − K(µ)
6.5. TESTE DE HIPÓTESES 161

Voltando novamente ao exemplo, o valor de α = 0.1587 é considerado muito


grande para a maior parte dos estatı́sticos. Assim, vamos obter uma nova Regra
de Decisão fixando α = 0.05:

K(60) = P(X ≥ tc ; µ = 60) = 0.05

 
X − 60 tc − 60
K(60) = P ≥ ; µ = 60 = 0.05
2 2
 
X −µ tc − 60
K(60) = 1−P ≤ ; µ = 60 = 0.05.
2 2

Da Tabela da normal padrão segue que

tc − 60
= 1.645 ⇒ tc = 60 + 3.29 = 63.29
2
Embora esta mudança cause uma redução em α de 0.1587 para 0.05, ela aumenta
β de 0.0668 para 0.1963, isto é

β = 1 − K(62.29) = 1 − P(X ≥ 63.29; µ = 65)

 
X − 65 63.29 − 65
= 1−P ≥ ; µ = 65
2 2

= P (Z ≥ −0.855; µ = 65) = 0.1963.

Diminuir α e β simultaneamente requer o aumento do tamanho da amostra ou


a proposta de um teste de hipóteses mais eficiente.
Por exemplo, se n = 100 com α = 0.05, significa que a Regra de Decisão será
determinada a partir do cálculo de tc , tal que

α = P(X ≥ tc ; µ = 60) = 0.05

Como X ∼ N (µ, 1) temos


 
X − 60 tc − 60
α=P ≥ ; µ = 60 = 0.05
1 1

e pela tabela da normal padrão

tc − 60 = 1.645 ⇒ tc = 61.645.
162 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

A função poder é

K(µ) = P(X ≥ 61.645; µ)

 
X −µ 61.645 − µ
= P ≥ ;µ
1 1

= 1 − P (Z ≤ 61.645 − µ; µ) .

Em particular,

β = 1 − K(65) = P (Z ≤ 61.645 − 65; µ = 65)

= P (Z ≤ −3.355; µ = 65) ≈ 0.

Portanto, para n = 100, α e β diminuiram em relação aos valores que assumi-


ram quando n = 25 (α = 0.1587 e β = 0.0668), contudo ao preço de termos
que usar uma amostra quatro vezes maior, que em muitos casos pode não ser
praticável. Porém, podemos encontrar o valor mais adequado de n, que diminua
α e β, calculando a função poder para uma região crı́tica “X ≥ tc ’, impondo
α = 0.025, e para µ = 65 impondo β = 0.05.
Desta forma X ∼ N (µ, 100/n), e temos duas equações
 
tc − 60
0.025 = P(X ≥ tc ; µ = 60) = 1 − Z ≥ √ ; µ = 60
10/ n
e  
tc − 65
0.05 = P(X ≥ tc ; µ = 60) = Z≥ √ ; µ = 65
10/ n
Obtendo,
tc − 60


 √ = 1.96
 10/ n


 tc − 65
√ = −1.645


10/ n

Solucionando o sistema acima, temos que n = 51.98 e tc = 62.718. Portanto se


X ≥ 62.718, rejeitamos a hipótese nula.

6.5.5 Teste de Hipóteses para a média de populações nor-


mais com variâncias conhecidas
Vamos abordar este tópico através de alguns exemplos.
6.5. TESTE DE HIPÓTESES 163

Exemplo 6.5.4 Uma fábrica anuncia que a média do ı́ndice de nicotina dos
cigarros da marca X apresenta-se abaixo de 26mg por cigarro. Um laboratório
realiza 10 análises do ı́ndice, obtendo os seguintes resultados:

26, 24, 23, 22, 28, 25, 27, 26, 28, 24.

Sabe-se que o ı́ndice de nicotina dos cigarros da marca X se distribui normal-


mente com variância 5.36(mg)2 .
Pode-se aceitar a afirmação do fabricante, ao nı́vel de 5%?
As hipóteses nesse caso, são

H0 : µ = 26
H1 : µ < 26.

Temos uma amostra aleatória simples (X1 , . . . , X10 ), com distribuição nor-
mal, tal que Xi ∼ N (µ, σ 2 ), com σ 2 = 5.36.

O Teste Estátı́stico para média amostral é


P10
Xi
X = i=1
10
p
onde X ∼ N (µ, σ 2 /n) com σ = (5.73)/10 = 0.73.

Determinamos a Regra de Decisãoa partir de α = 5%. Então, temos que

P(X < tc ; sob H0 ) = 5%

Portanto,  
X − E(X) tc − E(X)
⇒ P q ≥q  = 0.05
V ar(X) V ar(X)
   
X − 26 tc − 26 tc − 26
⇒P ≥ =P Z≥ = 0.05
0.73 0.73 0.73
Da tabela da distribuição normal, obtemos
tc − 26
= −1.64,
0.73
o que nos dá
tc = 0.73(−1.64) + 26 = 24.803

Logo, a Região Crı́tica do teste de hipóteses é

{X : X < 24.803}.
164 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

A amostra forneceu X = 25.3 que não pertence à Região de Rejeição de H0 .


Logo, aceitamos H0 com 5% de chance de aceitarmos uma hipótese Falsa. Ou
ainda, aceitamos H0 com 5% de chance de cometermos Erro Tipo I (aceitar H0
quando ela é falsa).

Exemplo 6.5.5 De uma população normal com variância 36 toma-se uma


amostra aleatória simples de tamanho 16, obtendo X = 43. Ao nı́vel de sig-
nificância de 10%, vamos testar as hipóteses:

H0 : µ = 45
H1 : µ 6= 45.

A amostra aleatória simples (X1 , . . . , X16 ), tem distribuição normal, onde Xi ∼


N (µ, σ 2 ) com σ 2 = 36.
O Teste Estatı́stico é: P16
Xi
X = i=1
16
onde X ∼ N (µ, σ 2 /n) com σ 2 = 36/16.
A região crı́tica nesse caso será da forma:

{−tc < X < tc }.

Agora vamos precisamos determinar a Regra de Decisão, a partir do nı́vel de


significância α = 10%. Então, devido a simetria da distribuição normal temos
que encontrar
P(X ≥ tc | sob H0 ) = 5%

 
X − E(X) tc − E(X)
⇒ P q ≥q  = 0.05
V ar(X) V ar(X)
   
X − 45 tc − 45 tc − 45
⇒P ≥ =P Z≥ = 0.05
6/4 6/4 3/2
Da tabela da distribuição normal, temos
tc − 45
= 1.64,
3/2

o que implica em

tc = 1.64(3/2) + 45 = 47.46
−tc = 1.64(3/2) − 45 = 42.54
6.5. TESTE DE HIPÓTESES 165

Concluindo
−tc = 42, 54 e tc = 47, 46

Logo, a Região Crı́tica de H0 é

{X : 42, 54 < X < 47, 46}.

Temos que X = 43 pertence à Região de Rejeição de H0 . Logo, rejeitamos H0 .

Passos para a realização de um Teste de Hipóteses

A seguir apresentamos resumidamente os passos para a realização de um teste


de hipóteses:

1. Estabelecer a hipótese nula e a hipótese alternativa.

2. Identificar a A.A.S e sua distribuição

3. Determinar o teste estátistico e seu valor numérico

4. Fixar α ou estabelecer uma Regra de Decisão, e encontrar a região crı́tica

5. Tomar a decisão entre rejeitar ou não a hipótese nula, com base na região
crı́tica.

6.5.6 P-valor
Até agora, construı́mos os testes de hipóteses a partir da fixação de um nı́vel
de significância α ou da escolha de uma Regra de Decição. Nesta seção, va-
mos mostrar outra forma de procedimento, conhecida por três denominações:
Probabilidade de Significância, Nı́vel Descritivo e p-valor. Vamos ver que a
única diferença entre os dois procedimentos, é que utilizando o p-valor, não
construı́mos a Região Crı́tica. A seguir apresentamos o conceito de p-valor.

Definição 6.5.2 O p−valor associado a um teste de hipóteses é a probabilidade


de se obter o valor observado do teste estatı́stico ou um valor mais extremo em
direção à hipótese alternativa, calculada quando H0 for verdadeira.

Assim, ao invés de selecionar uma Região Crı́tica, o p−valor é calculado e o


pesquisador toma uma decisão comparando-o com um α de sua escolha.
Voltando ao exemplo 6.5.3, digamos que queiramos testar

H0 : µ = 60
H1 : µ > 60.
166 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

baseados em uma amostra com 52 observações.


Suponha que obtivemos: X = 62.75. O p-valor para esse teste de hipótese é

p-valor = P(X ≥ 62.75; µ = 60)

 
X − 60 62.75 − 60
= P √ ≥ √ ; µ = 60
10/ 52 10/ 52
 
X − 60 62.75 − 60
= 1−P √ ≤ √ ; µ = 60
10/ 52 10/ 52
 
X − 60
= 1−P √ ≤ 1.983; µ = 60 = 0.0237.
10/ 52
Então quando o p-valor for pequeno teremos a evidência de que a hipótese nula
é falsa, pois a amostra possui uma probabilidade muito pequena de acontecer
se H0 for verdadeira e portanto nesse caso rejeitamos H0 . Podemos ver isso no
exemplo 6.5.3, onde rejeitar H0 quando p − valor ≤ 0.025 é o mesmo tipo de
rejeição obtida se X ≥ 62.718.
Nesse caso, dizemos que X = 62.718 tem p-valor igual 0.025 e a hipótese nula é
rejeitada para um nı́vel de significância de 5%.

Exemplo 6.5.6 Suponha que no passado, a pontuação de um jogador de golfe


tivesse distribuição, aproximadamente, normal com µ = 90 e σ 2 = 9.
Depois de perder algumas aulas, o jogador acredita que sua média µ diminuiu,
continuando com σ 2 = 9.
Vamos testar as seguintes hipóteses

H0 : µ = 90
H1 : µ < 90.

com base nas 16 partidas de golfe, que o jogador jogou recentemente.


O Teste Estatı́stico para a média amostral é
P16
Xi
X = i=1
16
onde X ∼ N (µ, σ 2 /n) com σ 2 = 9/16.
Regra de Decisão: Se X observado for pequeno, digamos X ≤ tc , então H0 é
rejeitado e H1 aceita.
Vamos supor que tc = 88.5, então a função poder do teste é

K(µ) = P(X ≤ 88.5; µ).


6.5. TESTE DE HIPÓTESES 167

Como X ∼ N (µ, 9/16) temos que


 
X −µ 88.5 − µ
K(µ) = P ≤ ;µ
3/4 3/4
 
88.5 − µ
= P Z≤ ;µ .
3/4

onde Z ∼ N (0, 1).


Em particular,
 
88.5 − 90
α = K(90) = P Z ≤ ; µ = 90
3/4
 
−6
= P Z≤ ; µ = 90
3

= P (Z ≤ −2; µ = 90) = 1 − 0.9772 = 0.0228,

que é a probabilidade de se cometer o Erro do Tipo I.


Se o valor verdadeiro de µ após as aulas for µ = 88, o poder do teste é

K(88) = P (Z ≤ 2/3; µ = 88) = 0.7475.

Se, por outro lado, o valor verdadeiro de µ após as aulas for µ = 87, o poder do
teste é
K(87) = P (Z ≤ 2; µ = 87) = 0.9772.

O valor observado de X igual a X = 88.25 tem



p − valor = P X ≤ 88.25; µ = 90

 
X − 90 88.25 − 90
= P ≤ ; µ = 90
3/4 3/4
 
X − 90 −7
= P ≤ ; µ = 90 = 0.0098,
3/4 3

e isso nos levaria a rejeitar H0 para α = 0.0228 (ou mesmo até para α = 0.01).

6.5.7 Exercı́cios
1. Um candidato a presidente de um grande clube de futebol garante que
pelo menos metade dos sócios do clube apoia sua candidatura.
168 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

(a) Uma empresa de pesquisas pretende avaliar esta pretensão do candi-


dato em termos de um teste de hipóteses apoiado nos resultados de
uma sondagem. Identifique a hipótese nula e a hipótese alternativa
que acha adequadas para realizar o teste.
(b) Identifique o teste estatı́stico e diga se o teste é bilateral, unilateral
à esquerda ou unilateral à direita.
(c) Quais as interpretações das expressões ”rejeitar Ho ”e ”não rejeitar
Ho ”no contexto do problema?
(d) Quais os significados dos erros Tipo I e II no contexto do problema?

2. Num processo de fabricação, a probabilidade de uma peça sair defeituosa


é 0.1 quando o processo está sob controle. Para testar se o processo está
sob controle são inspecionadas 15 peças, escolhidas ao acaso da produção,
concluindo-se que o processo está fora de controle se o número de peças
defeituosas encontradas é maior do que 3.

(a) Identifique a hipótese nula e a hipótese alternativa que acha adequa-


das para realizar o teste.
(b) Identifique o teste estatı́stico e diga se o teste é bilateral, unilateral
à esquerda ou unilateral à direita.
(c) Determine o nı́vel de significância do teste.
(d) Quais as interpretações das expressões ”rejeitar Ho ”e ”não rejeitar
Ho ”no contexto do problema?
(e) Quais os significados dos erros Tipo I e II no contexto do problema?
(f) Calcule a potência do teste admitindo que o processo está a produzir
peças de tal maneira que 20% são defeituosoas. Nestas situações,
qual é a probabilidade de cometer um erro do tipo II?

3. Uma convicção generalizada entre as pessoas é que a temperatura média do


corpo humano é 37 graus. Para uma amostra formada por 120 adultos sem
problemas de saúde foram observados e regitradas as suas temperaturas.
Obteve-se x̄ = 36.8 e s = 0.62. Baseado nessa amostra, vc acha que essa
convicção é correta? Teste a hipótese da temperatura média do corpo
humano ser 37 graus contra a hipótese de ser diferente desse valor, usando

(a) o procedimento baseado na determinação da região crı́tica ao nı́vel


de significância α = 5%,
(b) e procedimento baseado no p-valor, tendo como referência α = 1%.
6.5. TESTE DE HIPÓTESES 169

4. Um fabricante de latas para conserva de ameixas vai realizar um ajuste


do equipamento que produz as latas se o valor médio do peso for maior ou
igual ao peso da quantidade máxima de ameixas que é conveniente colocar
na lata e que é 450 gramas.
Para decidir sobre o que deve fazer, o fabricante obteve uma amostra de
15 latas retiradas ao acaso do estoque produzido e obteve uma média
de peso igual a 442.35 gramas e um desvio padrão amostral igual a 23.2
gramas. Sabe-se ainda, da história do processo de testes efetuados, que o
verdadeiro desvio padrão do peso é 14.5 gramas.

(a) Especifique as hipóteses que devem ser consideradas para podermos


realizar um teste com vista a encontrar a decisão que o fabricante
deve tomar.
(b) Teste as hipóteses que formulou considerando dois nı́veis de signi-
ficância α = 5% e α = 10%.

5. Para testar um certa hipótese nula Ho usou-se um teste estatı́stico T com


distribuição amostral contı́nua. Concordou-se que Ho seria rejeitada se
fosse observado um valor de t do teste estatı́stico para o qual (sob Ho ) a
P(T ≥ t) fosse menor ou igual a 0.05. São fornecidos abaixo, diferentes
valores de t e uma correspondente probabilidade (sob Ho ). Especifique
para cada caso o p-valor se possı́vel, e se devemos rejeitar Ho .

(a) t = 2.34 e P(T ≥ 2.34) = 0.23.


(b) t = 2.34 e P(T ≤ 2.34) = 0.23.
(c) t = 0.03 e P(T ≥ 0.03) = 0.968.
(d) t = 1.07 e P(T ≤ 1.07) = 0.981.
(e) t = 1.07 e P(T ≤ 2.34) = 0.01.
(f) t = 2.34 e P(T ≤ 1.07) = 0.981.
(g) t = 2.34 e P(T ≤ 1.07) = 0.800.

6. É dado um número t, que é a realização de uma v.a. T com distribuição


normal N (µ, 1). Para testar Ho : µ = 0 contra H1 : µ 6= 0, usa-se o teste
estatı́stico T . Decide-se rejeitar Ho a favor de H1 se |t| ≥ 2. Encontre a
probabilidade de se cometer erro tipo I.

7. Para testar se um dado é honesto, ele é lançado 1000 vezes e é considerado


viciado se o número de resultados pares ocorrerem mais do que 510 ou
menos do que 490 vezes. Qual o nı́vel de siginificância do teste?
170 CAPÍTULO 6. INFERÊNCIA ESTATÍSTICA

8. De uma v.a. uniforme assumindo valores no intervalo (0, θ) é extraı́da


uma única observação com vista a testar a hipótese Ho : θ = 1/2 contra
H1 : θ > 1/2

(a) Sabendo-se que a regra de decisão consiste em rejeitar Ho se o valor


observado exceder 0.499, determine
i. nı́vel de significância do teste;
ii. a probabilidade de ser cometido um erro Tipo II, admitindo que
Ho é falsa e que o verdadeiro valor de θ é 0.6;
(b) Responda os itens (i) e (ii) anteriores para as seguintes novas regras
de decisão:
i. rejeitar Ho se o valor observado exceder 0.5;
ii. rejeitar Ho se o valor observado exceder 0.25;
(c) Faça uma tablela relacionando os valores de θ, α e β nas três si-
tuações. O que vc pode concluir de toda análise feita no decorrer do
exercı́cio?

9. Uma população X tem distribuição normal X ∼ N (µ, 4). A fim de proce-


der o teste da hipótese Ho : µ = 1 contra hipótese H1 : µ 6= 1 ao nı́vel de
significância α, é extraı́da uma amostra da população x1 , . . . xn e usa-se a
seguinte regra: ”rejeitar Ho se x̄ < 1 − c, onde x̄ é o valor assumido pela
média amostral a partir do conjunto de dados x1 , . . . xn .
Determine o valor de c em função da dimensão da amostra e do nı́vel de
significância. Especifique a região de rejeição para o caso em que n = 64
e α = 5%.
Referências Bibliográficas

[1] BERTSEKAS D. P; TSITSIKLIS J.N. Introduction to Probability.


Cambridge: Athena Scientific, 2000.

[2] BUSSAB, W. O; MORETTIN, P. A. Estatı́stica Básica. 5a ed. São Paulo:


Saraiva, 2002.

[3] DANTAS, C. A. B. Probabilidade: um curso introdutório. 2a ed. São


Paulo: Editora da Universidade de São Paulo, 2004.

[4] DEKKING, F. M; KRAAIKAMP, C.; LOPUHAÄ, H. P; MEESTER, L.E.


A Modern Introduction to Probability and Statistics. Londres:
Spinger, 2005.

[5] HOGG, R.V; CRAIG, A. Introduction to Mathematical Statistics.


5a ed. Upper Saddle River: Prentice Hall, 1995.

[6] HOGG, R. V; TANIS, E. A. Probability and Statistical Inference. 3a


ed. New York: Macmillan Publishing Company, 1988.

[7] MAGALHÃES, N. M; LIMA, A. C. P. Noções de Probabilidade e Es-


tatı́stica. 6a ed. rev. São Paulo: Editora da Universidade de São Paulo,
2005.

[8] MORETTIN, L. G. Estatı́stica Básica. v.1, 7a ed. São Paulo: Makron


Books, 1999.

[9] MORETTIN, P. A. Inrodução à Estatı́stica para Ciências Exatas.


São Paulo: Atual, 1981.

171