Probabilidade e Inferência

Probabilidade e Inferência
Caroline Cavatti Vieira Bolonini

caroline.vieira@ufes.br
Bibliografia básica:
• Caroline C. Vieira. Notas de aula
• M. N. Magalhães; Antonio C. P. de Lima. Noções de

Probabilidade e Estatística.
Conteúdo Programático
• Noções de probabilidade
• Variáveis aleatórias discretas e contínuas
• Distribuição amostral da média
• Estimação de parâmetros
• Teste de hipóteses
1. Probabilidade
1.1. Conceitos iniciais
• Probabilidade é a medida de incerteza sobre

algum fenômeno aleatório de interesse.
• Fenômeno Aleatório: é um acontecimento cujo
resultado não pode ser previamente previsto com
certeza. Um experimento aleatório pode fornecer
diferente resultados, mesmo que seja repetido
sempre da mesma maneira. Exemplos:
1. O resultado do seu time no próximo jogo do
Campeonato Brasileiro;
2. A altura do aluno sorteado ao acaso nesta sala;
3. A taxa de inflação do mês subseqüente;
4. O resultado do lançamento de um dado.

• Espaço amostral (Ω ou S): é o conjunto de
todos os resultados possíveis de um
fenômeno ou experimento aleatório. Pode ser
finito ou infinito, de acordo com a quantidade
de possíveis resultados.
• O espaço amostral de cada um dos exemplos
anteriores é:
1. Ω = {derrota, empate, vitória};
1. Ω = {derrota, empate, vitória};

2. Ω = (0; 1 );
2. Ω = {0; 1};
3.3. Ω = R;
4. Ω = {1, 2, 3, 4, 5, 6}.
4. Ω = {1, 2, 3, 4, 5, 6}
• Evento (A; B; C; ... ; Z): é qualquer subconjunto do
espaço amostral (Ω). Exemplos:
1. Seu time não perde A = {empate, vitória};

2. A altura do aluno está entre 1,40 e 1,60 B = (1,40;
1,60);
3. A taxa de inflação do mês subseqüente é menor
ou igual a 10% C = (- 1 ; 0,10];
4. Ocorre uma face par D = {2; 4; 6}.
• Evento elementar: é um resultado ou evento que não
pode mais ser decomposto em componentes mais
simples.
Eventos especiais:
• Evento impossível (∅ ): é o evento que nunca ocorre.
• Evento certo (Ω): é o evento que sempre ocorre.

• União de eventos (𝑨 ∪ 𝑩): representa a ocorrência de
pelo menos um dos eventos A ou B, ou seja, A ou B ou
ambos.
Ω
EX: Experimento: lançamento de um dado.
• Evento A: ocorre face par.

• Evento B: ocorre face inferior a 4.
𝐴 ∪ 𝐵 = {1, 2, 3, 4, 6}
• Interseção de eventos (𝑨 ∩ 𝑩): representa a
ocorrência simultânea de A e B.
Ω
EX: no nosso exemplo anterior.
• Evento A: ocorre face par.

• Evento B: ocorre face inferior a 4.
𝐴 ∩ 𝐵 = {2}
• Eventos disjuntos ou mutuamente exclusivos: São
eventos que não podem ocorrer simultaneamente. A
e B são disjuntos se e somente se 𝐴 ∩ 𝐵 = ∅.
Ω
EX: Experimento: lançamento de um dado.
• Evento A: ocorre face inferior a 4.

ntos• ou mutuamente
Evento exclusivos:
B: ocorre face 5. São
ão podem ocorrer simultaneamente. A
os se e somente se 𝐴 ∩ 𝐵 = ∅.
𝒄 ′
• Eventos complementares (𝑨 ou 𝑨 , ou 𝑨 ): O evento
𝐴 ocorre se o evento A não ocorre. É formado por
todos os pontos de Ω que não estão em A. A e 𝐴 são
complementares se, e somente se, 𝐴 ∩ 𝐴 = ∅ e
𝐴 ∪ 𝐴 = Ω.
Ω
• No lançamento de um dado, se A é o evento
“ocorrer face par”, então o evento complementar de
A é o evento “ocorrer face ímpar”.
A  {2, 4, 6} e A  {1 ,3 ,5}
• Observação: É importante relembrar as leis de

Morgan:
(𝐴 ∪ 𝐵) = 𝐴 ∩ 𝐵 e (𝐴 ∩ 𝐵) = 𝐴 ∪ 𝐵
1.2. Interpretações de probabilidade
• Probabilidade é uma função 𝑃(∙) definida do

conjunto de todos os possíveis subconjuntos de Ω em
[0;1]. Esta função atribui chances de ocorrência de
cada evento de Ω.
• Definição clássica de probabilidade: Seja um
experimento aleatório com espaço amostral finito
Ω = {𝜔1 , 𝜔2 , ⋯ , 𝜔𝑛 }. Se tivermos evidências de que
todos os resultados têm a mesma chance de
acontecer, define-se:
1
𝑃 𝜔𝑖 = 𝑖 = 1, ⋯ , 𝑛
𝑛
• Para 𝐴 ⊂ Ω defini-se:
# 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 𝐴 𝑛(𝐴)
𝑃 𝐴 = =
# 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 Ω 𝑛(Ω)
Neste caso dizemos que os resultados 𝜔𝑖 são

equiprováveis.
Exemplos:
1. Qual e a probabilidade de se extrair um ás de um

baralho bem misturado de 52 cartas?
A = extrair um ás de um baralho.
n(A) = 4; n(Ω) = 52
4 1
𝑃 𝐴 = = ≅ 0,08
52 13
2. Ɛ – lançar duas moedas e observar a configuração
obtida. c = cara; k = coroa.
Ω = {cc; ck; kc; kk}
• Qual a probabilidade de se obter zero caras? E uma

cara?
A – zero caras → A = {kk} → 𝑃 𝐴 = 1 4.

B – uma cara → B = {ck; kc} → 𝑃 𝐵 = 2 4.
Aproximação da probabilidade pela freqüência
relativa.
• Realize (ou observe) um experimento aleatório Ɛ um

grande número de vezes.
• Registre quantas vezes o evento A ( A ½ Ð ) ocorre

efetivamente.
• Então, a probabilidade de ocorrência do evento A é
estimada como se segue
# 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝐴
𝑃 𝐴 =
# 𝑟𝑒𝑝𝑒𝑡𝑖çõ𝑒𝑠 𝑑𝑜 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜
• Lei dos Grandes Números: Ao se repetir um
experimento um grande número de vezes, a
probabilidade pela freqüência relativa de um evento
tende para a probabilidade teórica.
• A lei dos Grandes Números afirma que a

aproximação pela freqüência relativa tende a
melhorar quando o número de observações
aumenta.
• Formalmente, tem-se que: Considere n repetições
“independentes” de um experimento aleatório Ɛ.
Seja A um evento qualquer. Defina:
# 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝐴
𝑃𝑛 𝐴 =
# 𝑟𝑒𝑝𝑒𝑡𝑖çõ𝑒𝑠 𝑑𝑜 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜
• A probabilidade frequencial de A é então dada por:
𝑃 𝐴 = lim 𝑃𝑛 𝐴
𝑛→∞
Exemplos:
1. Num lançamento de um dado, a probabilidade de

ocorrência da face i é dada por:
# 𝑜𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑎 𝑓𝑎𝑐𝑒 𝑖
𝑓𝑟𝑖 =
# 𝑙𝑎𝑛ç𝑎𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑜 𝑑𝑎𝑑𝑜
• Quando o número de lançamentos é muito grande,

fri se estabiliza. Daí, toma-se fri como a probabilidade
de ocorrência da face i.
2. Suponha que temos uma linha de produção em
grande escala. Retiramos n itens desta linha de
produção, e a cada retirada contamos o número de
itens defeituosos (A = item defeituoso)
• Podemos então afirmar que a probabilidade
frequencial de um item defeituoso nesta linha
de produção é 0,05.
1.3. Regras básicas de probabilidade
1. 𝑃 Ω = 1.
2. 𝑃 ∅ = 0.
3. 0 ≤ 𝑃(𝐴) ≤ 1, para qualquer evento A.
4. Regra da adição:
𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃(𝐴 ∩ 𝐵)
• Se A e B forem disjuntos, então:

𝑃 𝐴∪𝐵 =𝑃 𝐴 +𝑃 𝐵
5. 𝑃 𝐴 = 1 − 𝑃(𝐴).
Como A e 𝐴 são complementares temos 𝐴 ∩ 𝐴 = ∅

e 𝐴 ∪ 𝐴 = Ω. Então, pela regra da adição,
𝑃 Ω = 𝑃 𝐴 ∪ 𝐴 = 𝑃 𝐴 + 𝑃 𝐴 e pela regra 1,
𝑃 𝐴 + 𝑃 𝐴 = 1, logo 𝑃 𝐴 = 1 − 𝑃 𝐴 .
• Exemplo: Distribuição de alunos segundo o sexo e a
escolha do curso.
Sexo
Curso Total
Homens (H) Mulheres (M)
Matemática Pura (P) 70 40 110

Matemática Aplicada (A) 15 15 30
Estatística (E) 10 20 30
Computação (C) 20 10 30
Total 115 85 200
110 30 140
- 𝑃 𝑃 ∪ 𝐸 = 𝑃 𝑃 + 𝑃 𝐸 = 200 + 200 = 200 = 0,7
- 𝑃 𝐴 ∪ 𝑀 = 𝑃 𝐴 + 𝑃 𝑀 − 𝑃(𝐴 ∩ 𝑀)
30 85 15 100
= + − = = 0,5
200 200 200 200
30 170
- 𝑃 𝐶 = 1 − 𝑃 𝐶 = 1 − 200 = 200 = 0,85
1.4. Probabilidade condicional
• Para dois eventos A e B do espaço amostral

definimos:
• Definição: A probabilidade condicional de um evento

A dado um evento B, denotada por 𝑃(𝐴|𝐵), é,
𝑃(𝐴 ∩ 𝐵)
𝑃 𝐴𝐵 = 𝑝𝑎𝑟𝑎 𝑃(𝐵) ≠ 0
𝑃(𝐵)
• A probabilidade condicional de A dado B revela a
incerteza que se tem sobre o evento A supondo
conhecida a verdade sobre o evento B. Podemos
interpretá-la como a chance relativa de A restrita ao
fato de que B ocorreu.
Exemplos:
1. Uma urna contém 2 bolas brancas (B) e 3 bolas

vermelhas (V). Suponha que são sorteadas duas
bolas ao acaso, sem reposição.
2. As informações abaixo se referem aos candidatos
que prestaram vestibular na UFES em 2010:
Homem (H) Mulher (M) Total

Aprovado (A) 8 14 22
Reprovado (R) 4 6 10
Total 12 20 32
• Um aluno é sorteado ao acaso. Qual é a
probabilidade de:
• Ser mulher e ter sido aprovado?

• Se é mulher, ter sido aprovada?
• Ser mulher dado que foi aprovado?
• Soluções:
a. 𝑃 𝑀 ∩ 𝐴 = 14 32 ≅ 0,44
𝑃(𝐴∩𝑀) 14 32 14
b. 𝑃 𝐴𝑀 = = = = 0,70
𝑃(𝑀) 20 32 20
𝑃(𝐴∩𝑀) 14 32 14
c. 𝑃 𝑀𝐴 = = = ≅ 0,64
𝑃(𝐴) 22 32 22
• Propriedades:
1. 𝑃 Ω|B = 1
2. 𝑃 ∅|B = 0
3. 0 ≤ 𝑃(𝐴|𝐵) ≤ 1, para qualquer evento A.
4. 𝑃 𝐶 ∪ 𝐷|𝐵 = 𝑃 𝐶|𝐵 + 𝑃 𝐷|𝐵 − 𝑃(𝐶 ∩ 𝐷|𝐵)
5. 𝑃 𝐶 ∪ 𝐷|𝐵 = 𝑃 𝐶|𝐵 + 𝑃 𝐷|𝐵 ⇔ 𝐶 ∩ 𝐷 = ∅
6. 𝑃 𝐴|𝐵 = 1 − 𝑃(𝐴|𝐵)
1.5. Regra da multiplicação
• A definição de probabilidade condicional pode ser

reescrita para fornecer uma expressão geral para a
probabilidade da interseção de dois eventos:
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝐵 𝑃 𝐵 = 𝑃 𝐵 𝐴 𝑃(𝐴)
Exemplo 1:
• Acredita-se que na população do ES 20% de seus

habitantes sofrem algum tipo de alergia, sendo
classificados como alérgicos para fins de saúde
pública. Sendo alérgico, a probabilidade de ter
reação a certo antibiótico é de 0,5. Para os não
alérgicos esta probabilidade é de apenas 0,05.
• Escolhendo-se uma pessoa ao acaso da população do
ES, qual a probabilidade de que ela:
a. Seja do grupo dos alérgicos e tenha alergia ao

ingerir o antibiótico?
b. Seja do grupo dos não alérgicos e não tenha

alergia ao ingerir o antibiótico?
• Solução: Se fizermos A → ser do grupo dos alérgicos e
B → ter reação, temos:
a. 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 𝐴 𝑃 𝐴 = 0,5 × 0,2 = 0,10

b. 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 𝐴 𝑃 𝐴 = 0,95 × 0,8 = 0,76
Exemplo 2: Considere uma urna contendo três bolas
pretas (P) e cinco bolas vermelhas (V).
a. Duas bolas são retiradas da urna, sem reposição.

Qual a probabilidade de que ambas sejam da
mesma cor.
b. Três bolas são retiradas da urna, sem reposição.

Qual a probabilidade de que apenas uma delas seja
vermelha.
a.
Ω = 𝑃𝑃; 𝑃𝑉; 𝑉𝑃; 𝑉𝑉
𝑃 𝑃𝑃 𝑜𝑢 𝑉𝑉 = 𝑃 𝑃𝑃 + 𝑃 𝑉𝑉 = 𝑃 𝑃1 ∙ 𝑃 𝑃2 |𝑃1 + 𝑃 𝑉1 ∙ 𝑃 𝑉2 |𝑉1
3 2 5 4
𝑃 𝑃𝑃 𝑜𝑢 𝑉𝑉 = ∙ + ∙
8 7 8 7
b.
Ω = 𝑃𝑃𝑃; 𝑃𝑃𝑉; 𝑃𝑉𝑃; 𝑉𝑃𝑃; 𝑉𝑉𝑃; 𝑉𝑃𝑉; 𝑃𝑉𝑉; 𝑉𝑉𝑉
𝑃 𝑃𝑃𝑉 𝑜𝑢 𝑃𝑉𝑃 𝑜𝑢 𝑉𝑃𝑃 = 𝑃 𝑃𝑃𝑉 + 𝑃 𝑃𝑉𝑃 + 𝑃 𝑉𝑃𝑃
= 𝑃 𝑃1 ∙ 𝑃 𝑃2 |𝑃1 ∙ 𝑃 𝑉3 |𝑃1 ∩ 𝑃2 + 𝑃 𝑃1 ∙ 𝑃 𝑉2 |𝑃1 ∙ 𝑃 𝑃3 |𝑃1 ∩ 𝑉2

+ 𝑃 𝑉1 ∙ 𝑃 𝑃2 |𝑉1 ∙ 𝑃 𝑃3 |𝑉1 ∩ 𝑃2
3 2 5 3 5 2 5 3 2 30
= ∙ ∙ + ∙ ∙ + ∙ ∙ =3× = 0,268
8 7 6 8 7 6 8 7 6 336
1.6. Independência
• Definição: Dois eventos A e B são independentes se a

ocorrência de um não afeta a probabilidade de
ocorrência do outro. Assim, tem-se que:
1. 𝑃 𝐴 𝐵 = 𝑃(𝐴)
2. 𝑃 𝐵 𝐴 = 𝑃(𝐵)
• Dessa forma, para dois eventos independentes a
regra da multiplicação reduz-se a:
𝑃 𝐴 ∩ 𝐵 = 𝑃(𝐴) × 𝑃(𝐵)
Exemplos:
1. Urna → 2 bolas brancas (B) e 3 bolas vermelhas (V).

Sorteia-se 2 bolas ao acaso, com reposição.
2. Considere os sistemas com dois componentes
apresentados na figura a seguir.
• No sistema da figura (a) os componentes estão
ligados em série. Neste caso, o sistema funcionará se
os componentes 1 e 2 funcionarem
simultaneamente. Se um dos componentes falhar, o
sistema também falhará.
• Se os componentes estiverem ligados em paralelo,

como na figura (b), então o sistema funcionará se
pelo menos um dos dois componentes funcionar.
• Denotemos por F o evento “o sistema funciona” e
por Ai o evento “o componente i funciona”, i = 1, 2.
• Supondo que os componentes de ambos os sistemas

funcionem independentemente, e se pi for a
probabilidade de o componente i (i = 1, 2) funcionar,
então:
• A probabilidade do sistema da figura (a) funcionar
será
P( F )  P( A1  A2 )  P( A1 )  P( A2 )  p1 p2
• Já a probabilidade do sistema da figura (b) funcionar

será
P( F )  P( A1  A2 )  P( A1 )  P( A2 )  P( A1  A2 )  p1  p2  p1 p2
1.7. Regra da probabilidade total
• A regra da multiplicação é útil para

determinarmos a probabilidade de um evento
que depende de outros eventos.
Exemplo:
• Em uma fábrica de parafusos, as máquinas A e B

produzem 2/3 e 1/3 da produção total,
respectivamente. Da produção de cada máquina 2%
e 0,8%, respectivamente, são parafusos defeituosos.
Escolhendo-se aleatoriamente um parafuso, qual a
probabilidade que ele seja defeituoso?
• Claramente a resposta depende de qual máquina

produziu aquele parafuso.
• Se chamarmos A → parafuso produzido pela máquina
A, B → parafuso produzido pela máquina B e D →
parafuso é defeituoso podemos afirmar que:
𝐷 = 𝐷 ∩ 𝐴 ∪ (𝐷 ∩ 𝐵)
Ω
• E como 𝐷 ∩ 𝐴 e (𝐷 ∩ 𝐵) são disjuntos podemos
escrever que:
𝑃 𝐷 =𝑃 𝐷∩𝐴 +𝑃 𝐷∩𝐵
=𝑃 𝐷 𝐴 𝑃 𝐴 +𝑃 𝐷 𝐵 𝑃 𝐵
𝑃 𝐷 = 0,02 × 2 3 + 0,008 × 1 3 = 0,016

• Para generalizarmos o conceito da probabilidade
total, definimos:
• Definição: Dizemos que os eventos {A1; A2; ... ; An}

formam uma partição do espaço amostral se:
1. 𝐴𝑖 ∩ 𝐴𝑗 = ∅ 𝑝𝑎𝑟𝑎 𝑖 ≠ 𝑗
𝑛
2. 𝑖=1 𝐴𝑖 =Ω
• Podemos assim enunciar o Teorema da
Probabilidade Total:
• Seja {A1; A2; ... ; An} uma partição do espaço amostral

e seja B um evento qualquer, então,
𝑃 𝐵 = 𝑃 𝐵 ∩ 𝐴1 + 𝑃 𝐵 ∩ 𝐴2 + ⋯ + 𝑃 𝐵 ∩ 𝐴𝑛
𝑃(𝐵) = 𝑃 𝐵 𝐴1 𝑃 𝐴1 + 𝑃 𝐵 𝐴2 𝑃 𝐴2 + ⋯ + 𝑃 𝐵 𝐴𝑛 𝑃 𝐴𝑛
𝑛
𝑃(𝐵) = 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖
𝑖=1
Exemplos:
1. Suponha que um fabricante de sorvetes recebe 20%

de todo o leite que consome da fazenda F1, 30% da
fazenda F2 e o restante da F3.
• A vigilância sanitária inspecionou as fazendas de

surpresa e observou que 20% do leite produzido na
fazenda F1 estava adulterado por adição de água, o
mesmo ocorrendo com 5% e 2% respectivamente
nas fazendas F2 e F3.
• Na indústria de sorvete os galões de leite são
armazenados sem identificação das fazendas
produtoras. Um galão é sorteado ao acaso na
indústria. Calcule:
a. A probabilidade de que o galão esteja adulterado.

b. A probabilidade do galão estando adulterado ter
vindo da fazenda F1.
• Solução: Seja A → o leite está adulterado e Fi → o
leite veio da fazenda Fi .
a. 𝐴 = 𝐴 ∩ 𝐹1 ∪ 𝐴 ∩ 𝐹2 ∪ 𝐴 ∩ 𝐹3
𝑃 𝐴 = 𝑃 𝐴 ∩ 𝐹1 + 𝑃 𝐴 ∩ 𝐹2 + 𝑃 𝐴 ∩ 𝐹3
𝑃(𝐴) = 𝑃 𝐴 𝐹1 𝑃 𝐹1 + 𝑃 𝐴 𝐹2 𝑃 𝐹2 + 𝑃 𝐴 𝐹3 𝑃 𝐹3
Assim:
𝑃 𝐴 = 0,2 × 0,2 + 0,05 × 0,3 + 0,02 × 0,5 = 0,065

b.
𝑃 𝐹1 𝐴
𝑃 𝐴 𝐹1 𝑃(𝐹1 )
=
𝑃 𝐴 𝐹1 𝑃 𝐹1 + 𝑃 𝐴 𝐹2 𝑃 𝐹2 + 𝑃 𝐴 𝐹3 𝑃 𝐹3
0,2 × 0,2
𝑃 𝐹1 𝐴 = ≅ 0,615
0,065
2. Variáveis Aleatórias
• Sabe-se que um espaço amostral (Ω ou S) é o

conjunto de todos os resultados possíveis de um
fenômeno ou experimento aleatório.
• Em muitos casos não estamos interessados na

descrição detalhada de todos os resultados, e é mais
interessante resumirmos o resultado através de
números.
• Definição: Uma variável aleatória (v.a.) é uma função
que confere um número real a cada resultado no
espaço amostral de um experimento aleatório.
• Uma variável aleatória é denotada por uma letra

maiúscula (por ex. X) e os valores que ela pode
assumir como xi.
Exemplos:
1. E – lançar duas moedas. O espaço amostral desta

experiência é Ω = {cc; ck; kc; kk} onde c = cara e k =
coroa. Uma variável aleatória pode ser “número de
caras”, X = {0; 1; 2}.
2. E – jogar um dado duas vezes. X = soma das duas
faces obtidas.
(1; 1) … (1; 6)
Ω= ⋮ ⋱ ⋮
(6; 1) … (6; 6)
• A distribuição de probabilidades de uma
variável aleatória X é uma descrição das
probabilidades associadas com os possíveis
valores de X. Esta descrição pode ser realizada
em forma de tabelas ou gráficos.
• No exemplo 1, onde a v.a. de interesse era “o
número de caras obtidas num lançamento de duas
moedas” temos a seguinte distribuição de
probabilidades:
X 0 1 2
P( X  x) 1/4 1/2 1/4
• Já no exemplo 2, definimos a v.a. X como “a soma das faces
obtidas em dois lançamentos de um dado”. A distribuição
de probabilidades de X é dad por:
X 2 3 4 5 6 7 8 9 10 11 12
P( X  x) 136 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 136
Classificação:
• Variável aleatória discreta: assume valores num

conjunto finito ou infinito enumerável. EX: n° de
filhos, n° de peças defeituosas em um lote, bits
transmitidos que foram recebidos com erros.
• Variável aleatória contínua: seu conjunto de
valores é qualquer intervalo dos números
reais, o que seria um conjunto infinito não
enumerável. EX: peso, altura, corrente
elétrica, pressão, temperatura, tempo.
2.1. Variáveis aleatórias discretas
Alguns modelos de variáveis aleatórias discretas:
1. Um sistema de comunicação por voz de uma

empresa possui 48 linhas externas. A cada intervalo
de tempo o sistema é supervisionado e registra-se o
número de linhas em uso. Se fizermos X = número
de linhas em uso. Os valores possíveis de X = {0; 1;
2; ...; 48}.
2. No processo de fabricação de semicondutores o
fabricante deve se preocupar com o número de
partículas contaminantes. Se definirmos a variável
aleatória Y = número de partículas contaminantes
em uma pastilha, os valores possíveis de Y = {0; 1;
2; ...}.
Definição:
• Seja X uma v.a. discreta. A função de

probabilidade de X é uma função fX que
atribui a cada valor possível de X a sua
probabilidade de ocorrência.
• Assim se X é uma variável aleatória assumindo os
valores x1, x2, ... , xn a função de probabilidade
associada a X é:
f X xi   P X  xi   Pxi   pi , i  1 ,, n
• São propriedades da função de probabilidade:
1. 0 ≤ 𝑝𝑖 ≤ 1
2. 𝑖 𝑝𝑖 = 1
• Exemplo: Um empresário pretende estabelecer uma
firma para montagem de um produto composto de
uma esfera e um cilindro. As partes são adquiridas de
fábricas diferentes (A e B), e a montagem consistirá e
juntar as duas peças e pintá-las.
• O produto acabado deve ter o comprimento

(definido pelo cilindro) e a espessura (definida pela
esfera) dentro de certos limites, e isso só poderá ser
verificado após a montagem.
• Para estudar a viabilidade do seu empreendimento, o
empresário quer ter uma idéia da distribuição do
lucro por peça produzida.
• Sabe-se que cada componente pode ser classificado

como bom, longo ou curto, conforme sua medida
esteja dentro da especificação, maior ou menor que
a medida especificada, respectivamente.
• Foram obtidos com os fabricantes, o preço de cada
componente, que é de R$ 5,00, e as probabilidades
de produção de cada componente com as
características bom, longo ou curto. Essas
probabilidades estão apresentadas na tabela abaixo.
Fábrica A Fábrica B
Componente
(cilindro) (esfera)
Dentro das especificações - bom (B) 0,80 0,70
Maior que as especificações - longo (L) 0,10 0,20
Menor que as especificações - Curto (C) 0,10 0,10
• Se o produto final apresentar algum componente com
a característica curto, ele será irrecuperável, e o
conjunto será vendido como sucata ao preço de R$
5,00.
• Cada componente longo poderá ser recuperado a um

custo adicional de R$ 5,00.
• Se o preço de venda de cada unidade for de R$ 25,00,

como seria a distribuição de probabilidade da variável
X: lucro por unidade montada?
• Primeiramente, vejamos a construção do espaço
amostral para a montagem das unidades segundo as
características de cada componente e seus
respectivos lucros e probabilidades.
• Como os componentes vêm de fábricas diferentes,

vamos supor que a classificação do cilindro e da
esfera, segundo suas características, sejam eventos
independentes.
• Uma representação do espaço amostral em questão

é apresentada pelo diagrama em árvore a seguir.
• Com base no diagrama em árvore, vemos que a v.a. X
pode assumir os seguintes valores:
– 15, se ocorrer o evento A1 = {BB};
– 10, se ocorrer o evento A2 = {BL, LB};
– 5, se ocorrer o evento A3 = {LL};
– -5, se ocorrer o evento A4 = {BC, LC, CB, CL, CC}.
• Cada um desses eventos tem uma probabilidade

associada, ou seja,
P( A1 )  0,56, P( A2 )  0,23,
P( A3 )  0,02, P( A4 )  0,19.
• Dessa forma, a distribuição de probabilidade da
variável aleatória X é dada por:
X P(x)
-5 0,19
5 0,02
10 0,23
15 0,56
Total 1
2.1.1. Média e variância de uma variável
aleatória discreta
• A média ou valor esperado de uma variável aleatória

discreta X é dada pela expressão:
𝜇=𝐸 𝑋 = 𝑥𝑖 𝑝𝑖
𝑖
• A variância de X é dada pela expressão:
𝜎2 = 𝑉 𝑋 = (𝑥𝑖 − 𝜇)2 𝑝𝑖 = 𝑥𝑖2 𝑝𝑖 − 𝜇2

𝑖 𝑖
• O desvio padrão da v.a. X é, então, dado por:
  DP( X )   2
• Exemplo: Para o último exemplo, tem-se que o lucro
esperado por unidade montada é igual a:
  E( X )  (5)  0,19  5  0,02  10  0,23  15  0,56  9,85.
Ou seja, o empresário espera ter um lucro de 9,85

reais por unidade montada.
• Já a variância e o desvio padrão da v.a. X são dados por:
 2  (5) 2  0,19  52  0,02  10 2  0,23  152  0,56 9,852
 2  V ( X )  154,25  97,02  57,23
   DP( X )  57,23  7,57

2.2. Distribuições discretas mais comuns
• Estudaremos nesta seção a distribuição de

probabilidade de algumas variáveis aleatórias,
que por possuírem características especiais
comuns são agrupadas em “famílias”.
4.2.1. Distribuição Bernoulli
Muitos experimentos são tais que os resultados

apresentam ou não uma determinada característica.
Por exemplo:
• Uma moeda é lançada: o resultado é cara ou não;

• Uma peça é escolhida ao acaso de um lote
contendo 500 peças: essa peça é defeituosa ou
não;
• Em ambos os casos, estamos interessados na
ocorrência de sucesso ou fracasso.
• OBS: A palavra sucesso como usada aqui é arbitrária

e não representa, necessariamente, algo bom
• Definição: Seja X uma variável aleatória que assume
os valores 1 (sucesso) e 0 (fracasso). Diz-se que X tem
distribuição Bernoulli com parâmetro p, onde p é a
probabilidade de sucesso.
• Notação: X ~ Bernoulli(p)
• A função de probabilidade de X é:
𝑃 𝑋 = 𝑥 = 𝑝 𝑥 (1 − 𝑝)1−𝑥 , 𝑥 = 0 𝑜𝑢 1
• Assim temos:
1
𝐸 𝑋 = 𝑥𝑃 𝑋 = 𝑥 = 0𝑃 𝑋 = 0 + 1𝑃 𝑋 = 1
𝑥=0
𝐸 𝑋 =𝑃 𝑋=1 =𝑝
1
𝑉 𝑋 = 𝑥2𝑃 𝑋 = 𝑥 − 𝐸 𝑋 2
𝑥=0
𝑉 𝑋 = 02 𝑃 𝑋 = 0 + 12 𝑃 𝑋 = 1 − 𝑝2
𝑉 𝑋 = 𝑃 𝑋 = 1 − 𝑝2 = 𝑝 − 𝑝2 = 𝑝(1 − 𝑝)
2.2.2. Distribuição Binomial
• Se realizarmos n experimentos de Bernoulli de forma

independente e se cada experimento tem
probabilidade de sucesso igual a p (fixo), então a
variável aleatória que conta o número de sucessos
nestes n experimentos tem distribuição binomial.
Por exemplo:
• Uma moeda é lançada três vezes; qual é a

probabilidade de se obter duas caras?
• Dez peças são extraídas, ao acaso, com reposição, de

um lote de 500 peças; qual é a probabilidade de que
pelo menos duas sejam defeituosas; sabendo-se que
10% das peças do lote são defeituosas?
• Imagine o experimento de Bernoulli (E) em que:
𝑠𝑢𝑐𝑒𝑠𝑠𝑜 → 𝑝
𝐸=
𝑓𝑟𝑎𝑐𝑎𝑠𝑠𝑜 → 1 − 𝑝
• Vamos realizar n repetições independentes de E,

chamando X do número de sucessos nas n
repetições.
• O resultado desta experiência é um vetor (𝑥1 , ⋯ , 𝑥𝑛 )
em que cada resultado pode ser um sucesso (S) ou um
fracasso (F). Se quisermos calcular 𝑃(𝑋 = 𝑘) teremos:
𝑃 𝑆𝑆𝑆𝑆𝑆 ⋯ 𝑆𝑆𝑆 𝐹𝐹𝐹 ⋯ 𝐹𝐹 = 𝑝𝑘 (1 − 𝑝)𝑛−𝑘

k n-k
• Mas quantos vetores de tamanho n com k sucessos e
(n – k) fracassos podem ser formados?
• Para responder a essa pergunta, basta calcularmos o

número de permutações possíveis de n elementos
com k e (n – k) repetições.
• Dessa forma, o número de permutações procurado
é:
𝑛! 𝑛
=
𝑘! 𝑛 − 𝑘 ! 𝑘
• Agora é intuitivo ver que a probabilidade procurada

é:
𝑛 𝑘
𝑃 𝑋=𝑘 = 𝑝 (1 − 𝑝)𝑛−𝑘 .
𝑘
Definição: Uma distribuição de probabilidade Binomial
resulta de um experimento que satisfaz os seguintes
requisitos:
1. O experimento tem um número fixo de tentativas;

2. As tentativas devem ser independentes;
3. Cada tentativa deve ter todos os resultados
classificados em duas categorias;
4. A probabilidade de um sucesso em cada tentativa,
denotada por p, permanece constante.
• A variável aleatória X, correspondente ao número
total de sucessos nas n tentativas do experimento,
tem distribuição Binomial com parâmetros n e p e
função de probabilidade:
𝑛 𝑥
𝑃 𝑋=𝑥 = 𝑝 (1 − 𝑝)𝑛−𝑥 , 𝑥 = 0, 1, 2, ⋯ , 𝑛.
𝑥
• Notação X~Binomial(n; p)
Exemplos:
1. Um professor de Psicologia planeja dar um teste

surpresa que consiste em 4 questões de múltipla
escolha, cada uma com 5 alternativas possíveis (a,
b, c, d, e), uma das quais é correta. Suponhamos
que um aluno despreparado faça adivinhações
aleatórias. Qual é a probabilidade de que este aluno
acerte exatamente três questões?
• Solução: Primeiramente, note que esse
procedimento satisfaz os 4 requisitos para uma
distribuição binomial.
• Se chamarmos de sucesso o fato da resposta estar

correta, vemos que 𝑃 𝑆 = 1 5 = 0,2; uma vez que
para cada questão há 5 respostas possíveis (a, b, c, d,

e), uma das quais é correta.
• A variável aleatória X, número de respostas corretas
dentre as 4 questões, pode assumir os valores {0, 1,
2, 3, 4}.
• Dessa forma, X ~ Binomial(4; 0,2).

• Assim, a probabilidade de 3 respostas corretas
é:
4
𝑃 𝑋=3 = 0,23 (1 − 0,2)4−3
3
4!
𝑃 𝑋=3 = × 0,008 × 0,8 ≅ 0,026
3! 4 − 3 !
2. Uma linha de produção em grande escala
produz 6% de itens defeituosos. 30 itens da
produção semanal são observados. Calcular a
probabilidade de se observar pelo menos 2
itens defeituosos?
• Solução: Seja X = número de itens defeituosos dentre
os 30 observados. X = {0, 1, 2, ..., 30}.
• X ~ Binomial(30; 0,06)
𝑃 𝑋 ≥2 =1−𝑃 𝑋 <2
Onde,
𝑃 𝑋 <2 =𝑃 𝑋 =0 +𝑃 𝑋 =1
30 0 30
30 1 29
𝑃 𝑋<2 = 0,06 0,94 + 0,06 0,94
0 1
𝑃 𝑋 < 2 = 0,156256 + 0,299213 = 0,455469
∴ 𝑃 𝑋 ≥ 2 = 1 − 0,455469 ≅ 0,545
• A figura a seguir mostra exemplo de
distribuições binomiais. Para n fixo (no
exemplo n = 20) à medida que p aumenta de 0
a 0,5 a distribuição se torna mais simétrica. O
mesmo acontece se p diminui de 1 a 0,5.
• Média e variância de uma distribuição
binomial:
𝐸 𝑋 = 𝑛𝑝
𝑉 𝑋 = 𝑛𝑝(1 − 𝑝)
• Exemplo: No exemplo anterior da linha de produção,
tem-se que o número esperado de itens defeituosos
dentre os 30 observados è:
𝐸 𝑋 = 30 × 0,06 = 1,8
• A variância e o desvio padrão são respectivamente:
𝑉 𝑋 = 30 × 0,06 × 0,94 = 1,692
𝐷𝑃 𝑋 = 1,692 = 1,3
2.2.3. Distribuição de Poisson
• É útil para descrever as probabilidades do

número de ocorrências num campo ou
intervalo contínuo (em geral tempo ou
espaço).
• Por exemplo, a v.a. de interesse pode ser:
– Nº de peças defeituosas substituídas num veículo

durante o primeiro ano de vida;
– Nº de erros tipográficos por página, em um material
impresso;
– Nº de acidentes por mês, em determinada rodovia;
– Número de clientes que chegam ao caixa de um
supermercado por hora;
• A utilização da distribuição de Poisson baseia-se nas
seguintes hipóteses:
1. A probabilidade de ocorrência é a mesma para dois

intervalos quaisquer de igual comprimento.
2. A probabilidade de duas ou mais ocorrências
simultâneas é aproximadamente zero.
3. O número de ocorrências em qualquer intervalo é
independente do número de ocorrências em outros
intervalos.
• A função de probabilidade de Poisson é
definida pela seguinte equação:
e¡¸ ¸x
P (X = x) =
x!
Onde,
• P (X = x) - probabilidade de x ocorrências em um
intervalo.
• e - base dos logaritmos naturais ( e = 2; 71828).
• ¸ - taxa de ocorrências no intervalo considerado.
• OBS: o número de ocorrências não tem limite
máximo. Ela é uma v.a. discreta que pode assumir
uma sequência infinita de valores (X = 0, 1, 2, ...).
• Média e variância de uma distribuição de Poisson
𝐸 𝑋 =𝜆
𝑉 𝑋 =𝜆
Exemplos:
1. Suponha que estejamos interessados no número de

carros que chegam a um caixa automático drive-
thru de um banco durante um período de 15
minutos nas manhãs de fins de semana.
• Considere que a análise dos dados históricos mostre

que o número médio de carros que chegam no
período considerado é igual a 10.
• Determine a probabilidade de:
a) Exatamente 5 carros chegarem em 15 min.?
X = nº de carros que chegam em um período de

15 min qualquer.
e¡10 105
P (X = 5) = = 0; 0378
5!
b) Um carro chegar em um período de 3 mim.?
Y = nº de carros que chegam em um período de 3 min

qualquer.
10
¸=3£ = 2 =) Número esperado de carros
15 que chegam em um período
de 3 min
• Portanto,
e¡2 21
P (Y = 1) = = 0; 2707
1!
2. Suponha que os defeitos em fios para tear possam

ser aproximados por um modelo de Poisson com
média de 0,2 defeitos por metro. Inspecionando-se
pedaços de fio de 6 metros de comprimento,
determine a probabilidade de se encontrar menos
de 2 defeitos.
¸ = 6 £ 0; 2 = 1; 2
P (X · 1) = P (X = 0) + P (X = 1)
e¡1;2 1; 20 e¡1;2 1; 2
= +
0! 1!
= 0; 301 + 0; 3612 = 0; 6622
2.3. Variáveis aleatórias contínuas
• Vimos que uma v.a. contínua é uma função X,

definida sobre o espaço amostral Ω, que assume
valores num intervalo dos números reais.
• Ex: tempo de vida de uma lâmpada, nível de

colesterol no soro sanguíneo, tempo de espera de
um cliente para ser atendido num banco, duração de
uma chamada telefônica, etc.
• Distribuições de probabilidade contínuas: Dado que
uma v.a. contínua X assume um conjunto infinito não
enumerável de valores, torna-se impraticável a idéia
de atribuir uma probabilidade a cada possível valor
de X, como era feito no caso de uma v.a. discreta.
• Agora, o procedimento para a obtenção de

probabilidades levará em conta intervalos de valores
e usará o histograma.
• Considere uma distribuição de freqüências com 9
classes:
Peso fi fr
x0 |- x1 f1 fr1
x1 |- x2 f2 fr2
x2 |- x3 f3 fr3
  
x7 |- x8 f8 fr8
x8 |- x9 f9 fr9
Total n
• Lembre-se que na construção de um histograma, a
altura correspondente a cada retângulo equivale
densidade da classe, onde 𝑑𝑖 = 𝑓𝑟 /𝑕 . Dessa forma, a
área de cada retângulo é igual a freq. relativa da
classe.
• Assim, dado que a soma das freq. relativas é igual a

1, a área total do histograma e do polígono de
freqüências também é 1.
di
• Considere o intervalo (x1,x2). Temos que a
probabilidade de um ponto qualquer cair
entre x1 e x2 será aproximadamente igual a
área do retângulo hachurado.
• Se diminuirmos a amplitude dos intervalos,
(aumentando, assim, o número de intervalos)
tornando a mesma infinitamente pequena, o
polígono de freqüências passará a ser uma
curva.
di
𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = á𝑟𝑒𝑎 𝑕𝑎𝑐𝑕𝑢𝑟𝑎𝑑𝑎
• Essa curva é a representação gráfica de uma função da
v.a. X, denotada por 𝑓(𝑥) e chamada função de
densidade de probabilidade. Esta função deve
satisfazer as seguintes propriedades:
1. 𝑓(𝑥) ≥ 0, para todo 𝑥 ∈ −∞, ∞ ;

2. A área definida por 𝑓(𝑥) tem que ser igual a 1.
• Uma vez que, para v.a. contínuas, as probabilidades
são definidas para intervalos de valores e são obtidas
como áreas sob a curva 𝑓(𝑥), temos que:
𝑃 𝑋 = 𝑥 = 𝑃 𝑥 = 0;
Uma vez que só temos uma linha, cuja área é zero.

• Exemplo: Arqueólogos estudaram certa região e
estabeleceram um modelo teórico para a variável C,
comprimento de fósseis na região (em cm). Suponha
que C é uma variável aleatória contínua com a
seguinte função densidade de probabilidade:
8 1
¡c ¢
< 40 10 + 1 ; se 0 · c · 20
f (c) =
:
0 caso contr¶ario
• É fácil observar que f(c) é positiva. Integrando a
função densidade em todo o seu domínio podemos
verificar que a área definida por f(c) é igual a 1.
20 1  c  20 c 20 1
0
  1 dc  0
40  10  400
dc  
0 40
dc
2 20 20
c c
   0,5  0,5  1
800 0 40 0
• Dessa forma, concluímos que f(c) é efetivamente
uma função densidade de probabilidade.
• Deseja-se determinar:
a. A probabilidade de um fóssil, escolhido ao acaso
nessa região, apresentar comprimento inferior a
8 cm.
b. O número k tal que PC  k   0,8 .
• Resolução:
a. A probabilidade desejada é obtida integrando-se a

função densidade de probabilidade no intervalo
que vai de 0 a 8. Assim,
1 c 
PC  8  
8 8 c 8 1
  1 dc  0 dc   dc
0 40  10  400 0 40
2 8 8
PC  8 
c c
  0,08  0,2  0,28
800 0 40 0
b. Nesse caso, queremos encontrar o valor k tal que a
área definida por f(c) à direita de K seja igual a 0,8.
Dessa forma,
1  c 
PC  k   0,8  
20 20 c 20 1
  1 dc  k dc   dc
k 40  10  400 k 40
2 20 20
k2
PC  8 
c c k
  0,5   0,5   0,8
800 k 40 k 800 40
 k 2  20k  160  0
Utilizando a fórmula de Bhaskara:
 b  b  4ac  20  32,25
2
k 
2a 2
k1  6,125 e k 2  26,125
 k  6,125 cm
4.3.1. Média e variância de uma variável
aleatória contínua
• A média ou valor esperado de uma variável aleatória

discreta X é dada pela expressão:
Z 1
¹ = E(X) = x f (x) dx
¡1
• A variância de X é dada pela expressão:
Z 1
¾2 = V (X) = (x ¡ ¹)2 f(x) dx
¡1
Z 1
¾ 2 = V (X) = x2 f(x) dx ¡ ¹2
¡1
• O desvio padrão da v.a. X é, então, dado por:
𝜎= 𝜎2
• Exemplo: Considerando o exemplo anterior, calcule a
média e a variância da v.a. C, comprimento de fósseis
de certa região (em cm), cuja função densidade de
probabilidade é dada por:
8 1
¡c ¢
< 40 10 + 1 ; se 0 · c · 20
f (c) =
:
0 caso contr¶ario
Solução:
• Cálculo da média
20 1  c  20 c 2
20 c
 c   1 dc   dc   dc
0 40  10  0 400 0 40
3 20 2 20
c c 35
    11,67 cm
1200 0 80 0 3
• Cálculo da variância e do desvio padrão
20 20
2 2
1 𝑐
𝑐 𝑓(𝑐)𝑑𝑐 = 𝑐 + 1 𝑑𝑐
0 0 40 10
20 4 20 3 20
2
1 𝑐 1 𝑐 500
𝑐 𝑓(𝑐)𝑑𝑐 = + =
0 400 4 0
40 3 0
3
2
2
500 35
𝜎 = − = 30,56 𝑐𝑚2
3 3
∴𝜎= 30,56 = 5,53 𝑐𝑚

• Propriedades da média:
1. 𝐸 𝑐 = 𝑐
2. 𝐸 𝑐𝑋 = 𝑐𝐸(𝑋)
3. 𝐸 𝑐𝑋 + 𝑏 = 𝑐𝐸 𝑋 + 𝑏
4. 𝐸 𝑋 + 𝑌 = 𝐸 𝑋 + 𝐸(𝑌)
• Propriedades da variância:
1. 𝑉 𝑐 = 0
2. 𝑉 𝑐𝑋 = 𝑐 2 𝑉(𝑋)
3. 𝑉 𝑐𝑋 + 𝑏 = 𝑐 2 𝑉(𝑋)
4. 𝑉 −𝑋 = 𝑉(𝑋)
2.4. Distribuições contínuas mais comuns
2.4.1. Distribuição Uniforme
• Definição: Uma v.a. contínua tem uma

distribuição uniforme se todos os valores que
assume são igualmente prováveis.
• Uma v.a. X tem distribuição Uniforme Contínua no
intervalo [a, b], a < b, se sua função densidade de
probabilidade é dada por:
1
, 𝑠𝑒 𝑎 ≤ 𝑥 ≤ 𝑏
𝑓 𝑥 = (𝑏 − 𝑎)
0, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
• Notação: X ~ Uniforme[a, b]
• Exemplo: Uma professora planeja a aula tão
cuidadosamente, que a duração de suas aulas é
distribuída uniformemente entre 50 e 52 minutos.
Isto é, qualquer tempo entre 50 e 52 minutos é
possível, e todos esses valores possíveis são
igualmente prováveis.
• Se selecionarmos aleatoriamente uma aula e
designarmos X a v.a. representativa do tempo de
aula, então, X tem uma distribuição definida pela
função densidade
1
, 𝑠𝑒 50 ≤ 𝑥 ≤ 52
𝑓 𝑥 = 2
• Ache a probabilidade de uma aula durar mais de 51,5
minutos.
𝑃 𝑋 > 51,5 = á𝑟𝑒𝑎 𝑑𝑎 𝑟𝑒𝑔𝑖ã𝑜 𝑠𝑜𝑚𝑏𝑟𝑒𝑎𝑑𝑎
𝑃 𝑋 > 51,5 = 0,5 × 0,5 = 0,25

• Média e variância de uma distribuição Uniforme
Contínua
𝐸 𝑋 = 𝑎+𝑏 2
2
𝑉 𝑋 = 𝑏−𝑎 12
• Exemplo: No exemplo anterior relacionado à duração
de aula de uma determinada professora, designou-se
X a v.a. representativa do tempo de aula (em min.),
onde X seguia uma distribuição Uniforme[50, 52].
Dessa forma, o tempo esperado de aula é:
52 + 50
𝐸 𝑋 = = 51
2
• A variância e o desvio padrão são respectivamente:
(52 − 50)2 4
𝑉 𝑋 = = ≅ 0,333
12 12
𝐷𝑃 𝑋 = 0,333 ≅ 0,578
2.4.2. Distribuição Exponencial
• Uma v.a. contínua X, assumindo valores não

negativos, segue o modelo Exponencial com
parâmetro 𝛼 > 0 se sua densidade é:
𝛼𝑒 −𝛼𝑥 , 𝑠𝑒 𝑥 ≥ 0
𝑓 𝑥 =
• Notação: X ~ Exp(α).
• Para calcular probabilidades com a exponencial,
precisamos resolver a integral correspondente ao
intervalo de interesse. Assim,
𝑏
𝑃 𝑎≤𝑋≤𝑏 = 𝛼𝑒 −𝛼𝑥 𝑑𝑥 = − 𝑒 −𝛼𝑥 𝑏
𝑎 = 𝑒 −𝛼𝑎 − 𝑒 −𝛼𝑏
𝑎
• Esta distribuição tem sido amplamente utilizada nas
áreas de física, engenharia, computação e biologia.
• Variáveis como a vida útil de equipamentos, tempos

de falha, tempos de sobrevivência de espécies e
intervalos entre solicitações de recursos são algumas
das quantidades que têm sido modeladas pela
exponencial.
• Média e variância de uma distribuição
Exponencial
𝐸 𝑋 =1 𝛼
𝑉 𝑋 = 1 𝛼2
• Exemplo: Uma indústria fabrica lâmpadas especiais
que ficam em operação continuamente. A empresa
oferece a seus clientes a garantia de reposição, caso a
lâmpada dure menos de 50 horas. A vida útil dessas
lâmpadas é modelada através da distribuição
Exponencial com parâmetro 1 8000. Determine a
proporção de trocas por defeito de fabricação.
Solução: Representemos pela v.a. T, o tempo de vida da
lâmpada, e assim T ~ Exp(1 8000). A probabilidade
desejada será:
50
1 1
−8000 𝑡
𝑃 𝑇 < 50 = 𝑒 𝑑𝑡
0 8000
1 50 1 1
𝑃 𝑇 < 50 = − 𝑒 −8000 𝑡 = 𝑒 −8000 ×0
− 𝑒 −8000 ×50
0
50
−
𝑃 𝑇 < 50 = 1 − 𝑒 8000 ≅ 0,006
• Dessa forma, a proporção de trocas por defeito de
fabricação será de aproximadamente 0,6%.
• Esse número é relativamente pequeno, o que não é

surpresa, tendo em vista que, como o parâmetro é
𝛼 = 1 8000, a duração média das lâmpadas é
𝐸 𝑇 = 1 𝛼 = 8000 horas.
2.4.3. Distribuição Normal
• Dizemos que uma variável aleatória contínua X tem

distribuição Normal com parâmetros  e 2, se sua
função densidade é dada por:
1 1
𝑓 𝑥 = 𝑒𝑥𝑝 − 2 (𝑥 − 𝜇)2 , 𝑝𝑎𝑟𝑎 − ∞ < 𝑥 < ∞
𝜎 2𝜋 2𝜎
x
µ
• Notação: X ~ N(𝜇, 𝜎 2 ).
• Propriedades da Normal:
1. 𝑓 𝑥 é simétrica em relação a .
2. 𝑓 𝑥 → 0 quando 𝑥 → ±∞.
3. O valor máximo de 𝑓 𝑥 ocorre quando 𝑥 = 𝜇.
• A distribuição Normal é completamente especificada
pela média μ e pela variância σ2 (parâmetros da
distribuição). A figura a seguir mostra exemplo de
distribuições Normais.
• Como calcular Probabilidades para distribuição
Normal ?
Z ~ N(0,1) – distribuição Normal Padrão.

𝑃(𝑍 ≤ 𝑧1 ) são tabeladas (valores de z entre -3 e 3)
z1
• Exemplo: Uma empresa de instrumentos científicos
de precisão fabrica termômetros que devem
informar temperaturas de 0°C no ponto de
congelamento da água.
• Testes em uma grande amostra desses instrumentos

revelam que, no ponto de congelamento da água,
alguns termômetros indicam temperaturas
superiores ou inferiores a 0°C.
• Suponha que as leituras desses termômetros sejam

Normalmente distribuídas com média 0°C e desvio
padrão 1°C.
• Um termômetro é selecionado aleatoriamente.
Calcule a probabilidade de que o termômetro
escolhido apresente leitura no ponto de
congelamento da água:
a) inferior a 1,58°.
b) superior a -1,23°C.
c) entre -2,00°C e 1,50°C.
a) A probabilidade de que o termômetro escolhido
apresente leitura inferior a 1,58°C (no ponto de
congelamento da água) corresponde à área
sombreada na figura abaixo.
• A área desejada é obtida diretamente da tabela da
distribuição normal Padrão. Dessa forma, temos que,
PZ  1,58  0,9429.
b) PZ  1,23  área sombreada em cinza escuro

na figura a seguir.
A tabela de probabilidade da Normal Padrão
fornece a área à esquerda de -1,23 (área
sombreada em cinza claro).
• Dessa forma, temos que,
PZ  1,23  PZ  1,23  1  0,1093  0,8907

c) P 2,00  Z  1,50  área sombreada em cinza
escuro na figura a seguir.
A tabela de probabilidade da Normal Padrão fornece

a área à esquerda de -2,00 (área sombreada em
cinza claro) e a área à esquerda de 1,50 (área
pontilhada de preto).
• Dessa forma, temos que,
P 2,00  Z  1,50  PZ  1,50  PZ  2,00

 0,9332  0,0228  0,9104
Procedimento para achar escores z a partir de áreas
conhecidas.
1. Desenhe uma curva em forma de sino e identifique

a região sob a curva que corresponde à
probabilidade dada. Se esta região não for uma
região acumulada à esquerda, trabalhe com regiões
conhecidas que sejam acumuladas à esquerda.
• Usando a área acumulada à esquerda, localize a
probabilidade mais próxima no corpo da tabela da
distribuição Normal e identifique o escore z
correspondente.
• Exemplo: Usando os mesmos termômetros do

exemplo anterior, ache a temperatura
correspondente ao percentil 95 (P95).
• A figura a seguir ilustra o escore z que corresponde

ao percentil 95.
95%
P95
• A fim de encontrarmos o P95 devemos procurar a

área mais próxima de 0,95 no corpo da tabela de
probabilidades da Normal Padrão.
• Consultando a tabela observamos que a área de 0,95
está exatamente entre as áreas 0,9495 e 0,9505.
• O escore z procurado é então obtido através do

calculo da média dos escores 1,64 e 1,65.
• Dessa forma, a temperatura correspondente ao

percentil 95 é igual a 1,645°C. Assim, 95% dos
termômetros fabricados pela empresa apresentam
leituras (no ponto de congelamento da água)
inferiores ou iguais a 1,645°C.
• Como calcular probabilidades para uma N(μ,σ2)?
• A fim de que possamos calcular probabilidades para
distribuições Normais não-padronizadas, iremos
transformar uma v.a. X ~ N(𝜇, 𝜎 2 ) em uma v.a. com
distribuição Normal padrão (Z ~ N(0,1)).
• A padronização de x é feita usando-se a fórmula:

𝑋−𝜇
𝑍=
𝜎
• Qual a distribuição de X - μ?
• Qual a distribuição de Z = (X-μ)/σ?
• Resultado Importante: Se X ~ N(𝜇, 𝜎 2 ), então:
𝑋−𝜇
𝑍= ~ 𝑁(0, 1)
𝜎
e
𝑥−𝜇
𝑃 𝑋≤𝑥 =𝑃 𝑍≤
𝜎
• Exemplo: Doentes sofrendo de certa moléstia são
submetidos a um tratamento intensivo cujo tempo
de cura foi modelado por uma densidade Normal, de
média 15 e desvio padrão 2 (em dias).
• Seja X a v.a. que denota o tempo de cura, temos que

X ~ N(15, 4).
• Calcule a probabilidade do tempo de cura:
a. Ser superior a 17 dias?

b. Ser inferior a 20 dias?
c. Estar entre 14 e 17 dias?
• Solução:
17−15
a. 𝑃 𝑋 > 17 = 𝑃 𝑍 > =𝑃 𝑍>1
2
= 1 − 𝑃 𝑍 ≤ 1 = 1 − 0,8413 = 0,1587
20−15
b. 𝑃 𝑋 < 20 = 𝑃 𝑍 < 2
= 𝑃 𝑍 < 2,5 = 0,9938
14−15 17−15
c. 𝑃 14 < 𝑋 < 17 = 𝑃 2
<𝑍< 2
= 𝑃 −0,5 < 𝑍 < 1
= 𝑃 𝑍 < 1 − 𝑃(𝑍 < −0,5)
∴ 𝑃 14 < 𝑋 < 17 = 0,8413 − 0,3085 = 0,5328

• Uma questão interessante seria saber o tempo
máximo necessário para a recuperação de 25% dos
pacientes, ou seja,
𝑃 𝑋 < 𝑥 = 0,25
𝑥 − 15
𝑃 𝑋≤𝑥 =𝑃 𝑍≤ = 0,25
2
• A partir da tabela da Normal padrão obtemos:
𝑥 − 15
= −0,67 ⇒ 𝑥 = 13,66
2
• Assim, 25% dos pacientes ficarão curados antes de 14

dias, aproximadamente.
• Dessa forma, 𝑥 = 𝜇 + (𝑧𝜎).

2.5. Distribuições amostrais
2.5.1. Distribuição de médias amostrais.
• Considere uma população com parâmetros µ (média)

e σ2 (variância).
• Se tirarmos uma amostra aleatória de tamanho n e

calcularmos sua média, teremos um valor para 𝑋 .
• Se retirarmos outras amostras de tamanho n da mesma
população, obteremos outros valores para 𝑋 que serão
diferentes do primeiro.
• Logo 𝑋 é uma variável que muda de valor de amostra

para amostra.
• Se associarmos a cada valor de 𝑋 a probabilidade da
amostra que lhe corresponde, 𝑋 passa a ser uma
variável aleatória.
• Assim, 𝑋 tem uma distribuição de probabilidade que

recebe o nome de distribuição amostral de 𝑋.
• Exemplo: Selecionamos todas as possíveis amostras
de tamanho 2, com reposição, da população {1, 3, 5,
5, 7}. Existem 5x5 = 25 possibilidades:
1e1 1e3 1e5 1e5 1e7

3e1 3e3 3e5 3e5 3e7
5e1 5e3 5e5 5e5 5e7
5e1 5e3 5e5 5e5 5e7
7e1 7e3 7e5 7e5 7e7
• E suas médias são: 1, 2, 3, 3, 4, 2, 3, 4, 4, 5, 3, 4, 5, 5,
6, 3, 4, 5, 5, 6, 4, 5, 6, 6 e 7, respectivamente.
• Como cada amostra tem probabilidade de ocorrência

igual a 1/25, a distribuição amostral de é dada por:
𝑋 1 2 3 4 5 6 7
1 2 5 6 6 4 1
𝑃(𝑋 = 𝑥 ) 25 25 25 25 25 25 25
𝜇𝑋 = 𝐸 𝑋 = 𝑥𝑖 𝑝𝑖 = 4,2
𝑖
𝜎𝑋2 = 𝑉 𝑋 = 𝑥𝑖2 𝑝𝑖 − 𝜇𝑋2 = 2,08

𝑖
• Note que a média e variância populacionais são,

respectivamente:
𝜇 = 𝐸 𝑋 = 4,2 e 𝜎 2 = 𝑉(𝑋) = 4,16,

• Verificamos, aqui, dois fatos:
– primeiro, a média das médias amostrais (𝜇𝑋 )
coincide com a média populacional (𝜇);
– segundo, a variância de 𝑋 é igual à variância de X,
dividida por n = 2.
Esses dois fatos não são casos isolados. Na realidade,

temos o seguinte resultado.
• Teorema: Seja X uma v.a. com média 𝜇 e variância 𝜎 2 ,
e seja 𝑋1 , ⋯ , 𝑋𝑛 uma amostra aleatória de X.
Então,
2
𝜇𝑋 = 𝐸 𝑋 = 𝜇 e 𝜎𝑋2 =𝑉 𝑋 = 𝜎
𝑛
• OBS: O desvio padrão de 𝑋 é comumente chamado de

erro padrão de 𝑋 e denotado por 𝜎𝑋 .
Teorema Central do Limite (TCL)
• Dado:
1. A v.a. X tem uma distribuição (que pode ou não
ser normal) com média 𝜇 e desvio padrão 𝜎.
2. Amostras aleatórias, todas de tamanho n, são

selecionadas da população. (As amostras são
selecionadas de modo que todas as possíveis
amostras de tamanho n têm a mesma chance de
serem escolhidas).
• Conclusão:
A distribuição das médias amostrais (𝑋) irá se
aproximar de uma distribuição normal à medida que n
aumentar. Ou seja,
2
𝑋 ~N 𝜇, 𝜎
𝑛 .
Regras práticas comumente utilizadas:
1. Se a população não for normalmente

distribuída, eis uma diretriz em comum: para
amostras de tamanho n maior que 30, a
distribuição de 𝑋 pode ser razoavelmente bem
aproximada pela distribuição normal. A
aproximação se torna melhor à medida que o
tamanho amostral n aumenta.
• OBS: Populações com distribuições muito
assimétricas, requerem tamanhos de amostra muito
maiores que 30.
2. Se a população for normalmente distribuída, então

𝑋 será normalmente distribuída para qualquer
tamanho amostral n.
• Exemplo: Em uma certa cidade, a duração de
conversas telefônicas em minutos, originárias de
telefones públicos, segue um modelo Exponencial
com parâmetro 1/3. Observando-se uma amostra
aleatória de 50 dessas chamadas, qual será a
probabilidade delas, em média, não ultrapassarem 4
minutos?
• Solução: Representando por X a duração das
chamadas, temos que X ~ Exp(1/3). Dessa forma,
tem-se que: 𝐸 𝑋 = 3 e 𝑉 𝑋 = 9.
• Admitindo uma amostra suficientemente grande, pelo

TCL temos que: 𝑋 ~N(3; 9/50).
• Dessa forma, podemos calcular a probabilidade
desejada da seguinte forma:
4−3
𝑃 𝑋≤4 =𝑃 𝑍≤ = 𝑃 𝑍 ≤ 2,36 = 0,9909
9 50
• Tendo em vista o alto valor de probabilidade

encontrado, podemos dizer que é praticamente certo
que a media amostral estará abaixo de 4 min.
3. INFERÊNCIA ESTATÍSTICA
• Objetiva estudar a população através de

evidências fornecidas pela amostra. No nosso
caso, as amostras serão obtidas por
amostragem aleatória simples (AAS).
3.1. Estimação
Definições:
• Parâmetro: Resumo de uma característica obtido a

partir de todos os elementos de uma população. Ex:
média populacional (µ), desvio-padrão populacional
(σ), proporção populacional (p).
• Estimador: À combinação dos elementos da amostra,
construída com a finalidade de representar, ou
estimar, um parâmetro de interesse. Notação: 𝜇, 𝜎, 𝑝,
etc.
• Estimativa: Um valor específico do estimador, obtido

para uma amostra em particular.
3.1.1. Estimação pontual
• Um único valor amostral é usado como

estimativa de um parâmetro da população.
• A seguir encontram-se alguns exemplos de

estimadores pontuais.
Parâmetro Estimador
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑘
µ 𝜇=𝑋=
𝑛
𝑓𝑟𝑒𝑞. 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 𝑐𝑜𝑚 𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎

p 𝑝=
𝑛
𝑛
2 − 𝑋)2
𝑖=1(𝑋𝑖
𝜎 𝜎2 = 𝑆2 =
𝑛−1
𝜎 𝜎=𝑆= 𝑆2
3.1.2. Intervalos de Confiança
• Idéia Básica: Suponha que estamos interessados num

parâmetro populacional verdadeiro (mas
desconhecido) 𝜃. Podemos obter uma estimativa
pontual de 𝜃 (𝜃) usando informação de nossa
amostra. Contudo, sabemos que o valor estimado
dificilmente será exatamente igual ao valor
verdadeiro.
• A partir da estimação pontual, somos incapazes de
julgar qual a possível magnitude do erro que estamos
cometendo.
• Daí, surge a idéia de construir os intervalos de

confiança, que são baseados na distribuição amostral
do estimador pontual.
• Definição: um intervalo de confiança (IC) é
uma faixa (ou um intervalo) de valores usada
para estimar o verdadeiro valor de um
parâmetro populacional.
3.1.3. Intervalos de Confiança para µ
• Suponha que queiramos estimar a média µ de uma

população qualquer, e para tanto utilizamos a média 𝑋
de uma amostra de tamanho n. Do TCL,
𝑋 ~N 𝜇, 𝜎𝑋2
• E portanto,
𝑒 = 𝑋 − 𝜇 ~ N 0, 𝜎𝑋2 ,
2
onde 𝜎𝑋2 =𝑉 𝑋 = 𝜎
𝑛
• Daqui podemos determinar qual a probabilidade de
cometermos erros de determinadas magnitudes. Por
exemplo,
𝑃 𝑒 < 1,96 𝜎𝑋 = 1 − 𝛼 = 0,95
ou
𝑃 𝑋 − 𝜇 < 1,96 𝜎𝑋 = 0,95
• Que é equivalente a
𝑃 −1,96 𝜎𝑋 < 𝑋 − 𝜇 < 1,96 𝜎𝑋 = 0,95
• E, finalmente,
𝑃 𝑋 − 1,96 𝜎𝑋 < 𝜇 < 𝑋 + 1,96 𝜎𝑋 = 0,95
• Onde 1 − 𝛼 = 0,95 é o nível de confiança do

intervalo.
• Dessa forma, um intervalo de confiança de 95% para 𝜇
é dado por:
𝐼𝐶 𝜇 ; 0,95 = (𝑋 − 1,96 𝜎𝑋 ; 𝑋 + 1,96 𝜎𝑋 )
• Podemos criar intervalos de confiança com outros

níveis de confiança, tais como: 80%, 90%, 99%.
• De forma geral, o intervalo de confiança de 100 ×
1 − 𝛼 % para  é dado por:
𝐼𝐶 𝜇 ; 1−𝛼 = 𝑋 − 𝑧𝛼 ∙ 𝜎 ; 𝑋 + 𝑧𝛼 ∙ 𝜎
2 2
𝑛 𝑛
• Onde 𝐸 = 𝑧𝛼 2 ∙ 𝜎 𝑛 é denominado margem de erro e

𝑧𝛼 2 é o valor que define uma área de 𝛼 2 na cauda
direita da distribuição normal padrão.
OBS: 1) Quanto maior o nível de confiança (1 − 𝛼),
maior será 𝑧𝛼 2 e assim E também aumentará.
2) Quanto maior for 𝜎𝑋 , maior será a margem de erro

(E).
• Interpretação do intervalo de confiança: Se
obtivermos várias amostras de mesmo tamanho e,
para cada uma delas, calcularmos os correspondentes
intervalos de confiança com coeficiente de confiança
1 − 𝛼, esperamos que a proporção de intervalos que
contenham o valor de  seja igual a 1 − 𝛼.
Interpretação Gráfica do IC(, 𝟏 − 𝜶)
• Exemplo: Seja X uma v.a. distribuída normalmente com
média  desconhecida e desvio padrão 4. Toma-se uma
amostra de tamanho 100 e encontra-se 𝑋 = 20.
Determine um intervalo de confiança de 95% para .
• Solução: Para 1 − 𝛼 = 0,95 → 𝑧𝛼 2 = 1,96. (Olhar na
tabela 1 − 𝛼 2).
4
𝐸 = 𝑧𝛼 2 ∙𝜎 = 1,96 = 0,8
𝑛 100
𝐼𝐶 𝜇 ; 0,95 = 20 − 0,8; 20 + 0,8 = (19,2; 20,8)
• Assim, estamos 95% confiantes de que o intervalo de

19,2 a 20,8 realmente contenha o verdadeiro valor
de .
• Um problema com a construção de intervalos para  é
que não sabemos o verdadeiro desvio padrão
populacional 𝜎.
• Dessa forma, o estimamos com o valor do desvio

padrão amostral 𝑆. Porém, isso introduz uma outra
fonte de incerteza, especialmente com amostras
pequenas.
• Para manter o intervalo de confiança em algum nível
desejado, tal como 95%, compensamos essa
incerteza adicional construindo um intervalo de
confiança um pouco mais largo.
• Para tal, utilizamos a distribuição t de Student ao

invés da dist. Normal padrão. Assim, em vez de usar o
valor 𝑧𝛼 2 , usamos um valor ligeiramente maior
(𝑡𝛼 2 ) fornecido pela dist. t de Student.
Distribuição t de Student
• Se a distribuição de uma população é essencialmente

normal (com forma aproximada de um sino), então a
distribuição de
𝑋−𝜇
𝑇=
𝑆
𝑛
é essencialmente uma distribuição t de Student com

n – 1 graus de liberdade.
• O único parâmetro que define e caracteriza a forma
dessa distribuição é o número de graus de liberdade
(g.l.), que corresponde ao número de valores
amostrais que podem variar após terem sido
impostas certas restrições aos dados amostrais.
• Ex: 10 estudantes obtêm em um teste média 8,0.
– A soma das 10 notas deve ser 80. Portanto, neste
caso, temos 10 − 1 = 9 graus de liberdade, uma vez
que as nove primeiras notas podem ser escolhidas
aleatoriamente, mas a 10ª deve ser igual a [80 -
(soma das 9 primeiras notas)].
Propriedades da dist. t-Student:
• É diferente conforme o tamanho da amostra (n);
• Tem a mesma forma geral simétrica que a dist.

Normal padrão, mas reflete a maior variabilidade
esperada em pequenas amostras;
• Tem média igual à zero;

• O desvio padrão varia com o tamanho da amostra,
mas é maior do que 1;
• À medida que o tamanho amostral n se torna maior,

a dist. t-Student se aproxima da dist. Normal padrão.
• Dessa forma, o intervalo de confiança de 𝟏𝟎𝟎 ∙
𝟏 − 𝜶 % para  , quando 𝝈 é desconhecido, é dado
por:
𝐼𝐶 𝜇 ; 1−𝛼 = 𝑋 − 𝑡𝛼 ∙ 𝑆 ; 𝑋 + 𝑡𝛼 ∙ 𝑆
2 2
𝑛 𝑛
• Onde 𝑡𝛼 2 é o valor que define uma área de 𝛼 2 na

cauda direita da distribuição t-Student.
• Exemplo: Considere um teste de colisão de carros. A
análise de 12 carros danificados resulta num custo de
conserto que parece ter distribuição em forma de
sino, com média e desvio-padrão a seguir (R$).
𝑋 = 26.227 e 𝑆 = 15.873
• Determine um intervalo de 95% de confiança para 

(custo médio de conserto).
• Solução:
1 − 𝛼 = 0,95
Para → 𝑡𝛼 2 = 2,201.
𝑔. 𝑙. = 𝑛 − 1 = 11
15.873
𝐸 = 𝑡𝛼 2 ∙𝑆 = 2,201 = 10.085,29
𝑛 12
𝐼𝐶 𝜇 ; 0,95 = 26.227 − 10.085,29; 26.227 + 10.085,29
𝐼𝐶 𝜇 ; 0,95 = (16.141,71; 36.312,29)
• Assim, estamos 95% confiantes de que o intervalo

(16.141,71; 36.312,29) realmente contenha o
verdadeiro valor de .
3.2. Teste de Hipóteses (TH)
• Definição: Uma hipótese estatística é uma

afirmação acerca dos parâmetros de uma
população, ou acerca da distribuição da
população.
• O objetivo de um teste de hipóteses é fornecer uma
metodologia que nos permita verificar se os dados
amostrais trazem evidências que apóiem ou não uma
hipótese formulada.
• A construção de um TH para um parâmetro

populacional pode ser colocado do seguinte modo:
• Existe uma v.a. X associada a dada população e tem-se
uma hipótese sobre determinado parâmetro 𝜃 dessa
população.
• Colhe-se uma amostra aleatória de elementos dessa

população, e com ela deseja-se comprovar ou não tal
hipótese.
• Exemplo: exemplo 8.1 do livro do Magalhães.

3.2.1. Teste sobre a média de uma
população com variância conhecida
Procedimento geral do teste de hipóteses

Passo 1: Formular as hipóteses nula e alternativa.
 𝐻0 (hipótese nula): é a hipótese que estamos pondo à

prova.
 𝐻1 (hipótese alternativa): hipótese que será
considerada aceitável, caso 𝐻0 seja rejeitada.
• As possíveis hipóteses de interesse são:
𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0 → 𝑕𝑖𝑝ó𝑡𝑒𝑠𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙
𝑉𝑠 𝐻1 : 𝜇 > 𝜇0 → 𝑕𝑖𝑝. 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑑𝑖𝑟𝑒𝑖𝑡𝑎
𝐻1 : 𝜇 < 𝜇0 → 𝑕𝑖𝑝. 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑒𝑠𝑞𝑢𝑒𝑟𝑑𝑎
• Qualquer que seja a decisão tomada, vimos que
estamos sujeitos a cometer erros.
• Erro do tipo I: Rejeitar 𝐻0 quando essa é verdadeira.

Chamamos de 𝛼 a probabilidade de cometermos esse
erro, isto é,
𝛼 = 𝑃 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎
• Erro do tipo II: Não rejeitar 𝐻0 quando essa é falsa. A
probabilidade de cometermos esse erro é denotada
por 𝛽, logo:
𝛽 = 𝑃 𝑛ã𝑜 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 𝐻0 é 𝑓𝑎𝑙𝑠𝑎
• Passo 2: Identificar a distribuição do estimador

(estatística de teste) e obter sua estimativa.
• Passo 3: Fixar 𝛼 (nível de significância) e obter a região
crítica (ou região de rejeição).
• Região crítica (RC): é o conjunto de todos os valores da

estatística de teste que nos levam a rejeitar 𝐻0 .
• A definição da RC de pende da hipótese alternativa.
Por exemplo, suponha que estamos realizando um
teste para a média (µ) de uma população qualquer.
Tem-se que, para:
𝐻1 : 𝜇 ≠ 𝜇0 → 𝑅𝐶 = 𝑥 ∈ ℝ| 𝑥 < 𝑥𝑐1 𝑜𝑢 𝑥 > 𝑥𝑐2

𝐻1 : 𝜇 > 𝜇0 → 𝑅𝐶 = 𝑥 ∈ ℝ| 𝑥 > 𝑥𝑐
𝐻1 : 𝜇 < 𝜇0 → 𝑅𝐶 = 𝑥 ∈ ℝ| 𝑥 < 𝑥𝑐
• Ou de forma equivalente:
1 𝐻1 : 𝜇 ≠ 𝜇0 → 𝑅𝐶 = 𝑧 ∈ ℝ| 𝑧 < 𝑧𝑐1 𝑜𝑢 𝑧 > 𝑧𝑐2

2 𝐻1 : 𝜇 > 𝜇0 → 𝑅𝐶 = 𝑧 ∈ ℝ| 𝑧 > 𝑧𝑐
3 𝐻1 : 𝜇 < 𝜇0 → 𝑅𝐶 = 𝑧 ∈ ℝ|𝑧 < 𝑧𝑐
• Após fixar a probabilidade 𝛼, constrói-se a RC, de modo
que:
𝑃 𝑋 ∈ 𝑅𝐶 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎 = 𝛼,
onde 𝑋 é o estimador de 𝜇.
• OBS: É importante ressaltar que a RC é sempre

construída sob a hipótese de 𝐻0 ser verdadeira.
• Passo 4: Concluir o teste com base na estimativa e na
região crítica.
Se o valor da estatística de teste calculado com base na
amostra não pertencer à RC, não rejeite 𝐻0 ; caso
contrário rejeite 𝐻0 .
• Exemplo: A resistência à tração do aço inoxidável
produzido numa usina permanecia estável, com uma
resistência média de 73 kg/mm2 e um desvio padrão
de 2,0 kg/mm2; sendo que tal resistência comporta-
se de acordo com uma dist. Normal. Recentemente,
a máquina foi ajustada.
• A fim de determinar o efeito do ajuste, 10 amostras
foram testadas.
76,2 78,3 76,4 74,7 72,6 78,4 75,7 70,2 73,3 74,2
• Presuma que o desvio padrão seja o mesmo que

antes do ajuste. Podemos concluir que o ajuste
mudou a resistência à tração de aço? (Adote um
nível de significância de 5%)
• Solução:
• Passo 1: Formulação das hipóteses.

𝐻0 : o ajuste não mudou a resistência à tração de aço
𝐻1 : o ajuste mudou a resistência à tração de aço
• Em termos estatísticos, temos que:

𝐻0 : 𝜇 = 73
𝐻1 : 𝜇 ≠ 73
• Passo 2: Identificar a distribuição do estimador
(estatística de teste) e obter sua estimativa.
2 2
𝑋~𝑁 𝜇; 𝜎 → 𝑋~𝑁 𝜇; 2
𝑛 10
• A amostra obtida forneceu a estimativa 𝑥𝑜𝑏𝑠 = 75.

Dessa forma,
𝑥𝑜𝑏𝑠 − 𝜇𝑠𝑜𝑏 𝐻0 75 − 73
𝑧𝑜𝑏𝑠 = 𝜎 = = 3,16
2
𝑛 10
• Passo 3: Fixar 𝛼 e obter a região crítica.
• Tendo em vista a especificação de 𝐻1 , a RC será da

forma:
𝑅𝐶 = 𝑧 ∈ ℝ| 𝑧 < 𝑧𝑐1 𝑜𝑢 𝑧 > 𝑧𝑐2
• Fixando-se 𝛼 = 0,05, temos que:
𝑃 𝑧 ∈ 𝑅𝐶 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎 = 0,05
𝑃 𝑧 < 𝑧𝑐1 𝑜𝑢 𝑧 > 𝑧𝑐2 𝜇 = 73 = 0,05
𝑃 𝑧 < 𝑧𝑐1 + 𝑃 𝑧 > 𝑧𝑐2 = 0,05
• Pela tabela da dist. normal padrão, tem-se que:
𝑧𝑐1 = −1,96 e 𝑧𝑐2 = 1,96
• Dessa forma, 𝑅𝐶 = 𝑧 ∈ ℝ| 𝑧 < −1,96 𝑜𝑢 𝑧 > 1,96

• Passo 4: Conclusão.
Uma vez que 𝑧𝑜𝑏𝑠 = 3,16 pertence à RC, rejeitamos
𝐻0 ao nível de significância de 5%. Ou seja,
concluímos que a resistência à tração do aço mudou
após ter sido feito ajuste da máquina.
3.2.2. Teste sobre a média de uma
população com variância desconhecida
• Exemplo: Um fabricante afirma que seus cigarros

contêm não mais que 30mg de nicotina. Uma
amostra de 25 cigarros fornece média de 31,5mg e
desvio padrão de 3mg. No nível de 5%, os dados
refutam ou não a afirmação do fabricante?
• Solução:
𝐻0 : 𝜇 = 30
• Passo 1:
𝐻1 : 𝜇 > 30
• Passo 2:
𝑋−𝜇
𝑡= ~ 𝑡(24)
𝑆
𝑛
• A amostra obtida forneceu a estimativa 𝑥𝑜𝑏𝑠 = 31,5.
Dessa forma,
𝑥𝑜𝑏𝑠 − 𝜇𝑠𝑜𝑏 𝐻0 31,5 − 30

𝑡𝑜𝑏𝑠 = = = 2,5
𝑆 3
𝑛 25
• Passo 3: Fixando-se 𝛼 = 0,05, temos que:
𝑃 𝑡 ∈ 𝑅𝐶 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎 = 0,05
𝑃 𝑡 > 𝑡𝑐 𝜇 = 30 = 0,05
• Pela tabela da dist. t-Student, tem-se que: 𝑡𝑐 = 1,711.

Dessa forma,
𝑅𝐶 = 𝑡 ∈ ℝ| 𝑡 > 1,711
• Passo 4: Uma vez que 𝑡𝑜𝑏𝑠 = 2,5 pertence à RC,
rejeitamos 𝐻0 ao nível de significância de 5%. Ou seja,
há evidências de que os cigarros contenham mais de
30mg de nicotina.
3.2.4. Probabilidade de significância (p-valor)
• Ao realizarmos um teste de hipóteses, partimos da

fixação do nível de significância 𝛼 para construirmos a
RC.
• Um enfoque alternativo consiste em calcular,
supondo que a hipótese nula seja verdadeira, a
probabilidade de se obter um valor da estatística de
teste que seja no mínimo tão extremo quanto o que
foi observado a partir da amostra.
• Essa quantidade é chamada probabilidade de

significância ou p-valor.
• Valores pequenos de p-valor evidenciam que 𝐻0 é
falsa, pois sendo a amostra nossa ferramenta de
inferência sobre a população, ela fornece uma
estimativa que teria uma probabilidade muito pequena
de ocorrer, caso 𝐻0 fosse verdadeira.
• Exemplo: Uma associação de defesa do consumidor
desconfia que embalagens de 450 gramas de certo
tipo de biscoito estão abaixo do peso. Para verificar
tal afirmação, foram coletados ao acaso 80 pacotes
em vários supermercados, obtendo-se uma média de
peso de 447 gramas. Admitindo-se que o peso dos
pacotes segue o modelo Normal com desvio padrão
10 gramas, que conclusão pode ser tirada através da
probabilidade de significância (p-valor)?
• As hipóteses de interesse são:
 H 0 :   450

 H1 :   450
• As suposições feitas sobre a normalidade da variável

peso implicam que X ~ N (;100 80).
• O valor observado na amostra foi xobs  447 .

• Dessa forma o p-valor é dado por:
p  valor  P X  xobs | H 0 verdadeiro   P X  447 |   450
 447  450 
p  valor  P Z    PZ  2,68  0,0037
 10 80 
• Note que o p-valor se relaciona diretamente com o
nível de significância 𝛼.
• Neste
Neste exemplo,
exemplo,sesetivéssemos
tivéssemosfixado umum
fixado 𝛼 ≥nível
1,83%,
de
significância superior
a decisão seria ou igual
pela rejeição de a𝐻00,37%, a conclusão
, ao passo que para
seria pela rejeição de H0, ao passo que valores
𝛼 < 1,83%, optaríamos por não rejeitar 𝐻0 .
inferiores a 0,37% conduziriam à não rejeição da
hipótese nula.
• Exemplo: No exemplo da seção 5.2.3, estávamos
testando a afirmativa de que os cigarros de certo
fabricante não contêm mais que 30mg de nicotina,
ou seja, estávamos
Solução: testando as seguintes hipóteses:
𝐻0 : 𝜇 = 30
Passo 1:
𝐻1 : 𝜇 > 30
• A amostraPasso
de 252:cigarros forneceu as estimativas
xobs  31,5 mg 𝑋−
e 𝑡 =Sobs  3𝜇 mg
~ 𝑡(24)
𝑆
𝑛
p  valor  P X  xobs | H 0 verdadeiro   P X  31,5 |   30
 31,5  30 
p  valor  P T    PT  2,5
 3 25 
Para g.l  24  0,005  p  valor  0,01
• Uma vez que p-valor< 0,05, rejeitamos H0.

• Podemos considerar probabilidades de significância
bilaterais.
• Neste caso, precisamos considerar que a forma da

região crítica envolve os valores de xobs que se
distanciam muito (para mais ou para menos) daquele
previsto pela hipótese nula.
• Um procedimento é tomar o p-valor unilateral como

sendo igual a 2 vezes o p-valor unilateral.
• Dessa forma para testar 𝐻0 : 𝜇 = 𝜇0 vs 𝐻1 : 𝜇 ≠ 𝜇0 ,
temos que:
• 1º Caso: se 𝑋𝑜𝑏𝑠 < 𝜇0 ,

𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑋 < 𝑋𝑜𝑏𝑠 | 𝐻0 𝑣𝑒𝑟𝑑.
2º Caso: se 𝑋𝑜𝑏𝑠 > 𝜇0 ,

•
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑋 > 𝑋𝑜𝑏𝑠 | 𝐻0 𝑣𝑒𝑟𝑑.
• Exemplo: No exemplo da resistência à tração do aço
inoxidável, estávamos testando as hipóteses:
𝐻0 : o ajuste não mudou a resistência à tração de aço

𝐻1 : o ajuste mudou a resistência à tração de aço
𝐻0 : 𝜇 = 73
𝐻1 : 𝜇 ≠ 73
2
• Como vimos, sob 𝐻0 , 𝑋~𝑁 73; 2
10 .
• Colhida a amostra obtivemos 𝑥𝑜𝑏𝑠 = 75.

𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑋 > 75| 𝜇 = 73
75 − 73
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑍 >
2 10
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑍 > 3,16 = 2 × 1 − 𝑃 𝑍 < 3,16
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 1 − 0,9992 = 2 × 0,0008 = 0,0016
• Uma vez que p-valor< 0,05, rejeitamos H0.

Probabilidade e Inferência

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Probabilidade e Inferência

Enviado por

Direitos autorais:

Formatos disponíveis

Probabilidade e Inferência

Caroline Cavatti Vieira Bolonini

• Caroline C. Vieira. Notas de aula

• M. N. Magalhães; Antonio C. P. de Lima. Noções de

1.1. Conceitos iniciais

• Probabilidade é a medida de incerteza sobre

2. A altura do aluno sorteado ao acaso nesta sala;

3. A taxa de inflação do mês subseqüente;

4. O resultado do lançamento de um dado.

1. Ω = {derrota, empate, vitória};

1. Ω = {derrota, empate, vitória};

1. Seu time não perde A = {empate, vitória};

• Evento impossível (∅ ): é o evento que nunca ocorre.

• Evento certo (Ω): é o evento que sempre ocorre.

• Evento A: ocorre face par.

• Evento A: ocorre face par.

• Evento A: ocorre face inferior a 4.

• Observação: É importante relembrar as leis de

• Probabilidade é uma função 𝑃(∙) definida do

Neste caso dizemos que os resultados 𝜔𝑖 são

1. Qual e a probabilidade de se extrair um ás de um

• Qual a probabilidade de se obter zero caras? E uma

A – zero caras → A = {kk} → 𝑃 𝐴 = 1 4.

• Realize (ou observe) um experimento aleatório Ɛ um

• Registre quantas vezes o evento A ( A ½ Ð ) ocorre

• A lei dos Grandes Números afirma que a

• A probabilidade frequencial de A é então dada por:

1. Num lançamento de um dado, a probabilidade de

• Quando o número de lançamentos é muito grande,

• Se A e B forem disjuntos, então:

Como A e 𝐴 são complementares temos 𝐴 ∩ 𝐴 = ∅

Matemática Pura (P) 70 40 110

• Para dois eventos A e B do espaço amostral

• Definição: A probabilidade condicional de um evento

1. Uma urna contém 2 bolas brancas (B) e 3 bolas

Homem (H) Mulher (M) Total

• Ser mulher e ter sido aprovado?

• A definição de probabilidade condicional pode ser

• Acredita-se que na população do ES 20% de seus

a. Seja do grupo dos alérgicos e tenha alergia ao

b. Seja do grupo dos não alérgicos e não tenha

a. 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 𝐴 𝑃 𝐴 = 0,5 × 0,2 = 0,10

a. Duas bolas são retiradas da urna, sem reposição.

b. Três bolas são retiradas da urna, sem reposição.

𝑃 𝑃𝑃𝑉 𝑜𝑢 𝑃𝑉𝑃 𝑜𝑢 𝑉𝑃𝑃 = 𝑃 𝑃𝑃𝑉 + 𝑃 𝑃𝑉𝑃 + 𝑃 𝑉𝑃𝑃

= 𝑃 𝑃1 ∙ 𝑃 𝑃2 |𝑃1 ∙ 𝑃 𝑉3 |𝑃1 ∩ 𝑃2 + 𝑃 𝑃1 ∙ 𝑃 𝑉2 |𝑃1 ∙ 𝑃 𝑃3 |𝑃1 ∩ 𝑉2

• Definição: Dois eventos A e B são independentes se a

1. Urna → 2 bolas brancas (B) e 3 bolas vermelhas (V).

• Se os componentes estiverem ligados em paralelo,

• Supondo que os componentes de ambos os sistemas

• Já a probabilidade do sistema da figura (b) funcionar

• A regra da multiplicação é útil para

• Em uma fábrica de parafusos, as máquinas A e B

• Claramente a resposta depende de qual máquina

𝑃 𝐷 = 0,02 × 2 3 + 0,008 × 1 3 = 0,016

• Definição: Dizemos que os eventos {A1; A2; ... ; An}

• Seja {A1; A2; ... ; An} uma partição do espaço amostral

1. Suponha que um fabricante de sorvetes recebe 20%

• A vigilância sanitária inspecionou as fazendas de

a. A probabilidade de que o galão esteja adulterado.

𝑃 𝐴 = 0,2 × 0,2 + 0,05 × 0,3 + 0,02 × 0,5 = 0,065

• Sabe-se que um espaço amostral (Ω ou S) é o

• Em muitos casos não estamos interessados na