Distribuição de Probabilidades Unidade 3

Distribuição de probabilidades
Em diversas situações, não estamos interessados exatamente no resultado de um

experimento aleatório, mas nas probabilidades associadas a cada possível resultado.
Nesses casos, tratamos do conceito de distribuição de probabilidades, como uma
extensão do cálculo probabilístico, considerando os diversos resultados prováveis e
analisando a probabilidade associada a casos específicos, em geral para tomada de
decisão.
De uma maneira geral, em situações genéricas, podemos sempre calcular ou estimar

a probabilidade associada a cada um dos eventos possíveis e, com isso, estimar como
essa probabilidade se comporta como função dos valores. O interessante, porém, é
que muitas situações bastante comuns podem ser modeladas teoricamente, e as suas
probabilidades podem ser calculadas sem que seja necessário realizar, efetivamente,
experimentos que nos permitam calculá-las.
Nesta unidade, veremos as distribuições de probabilidade, de uma maneira geral, e

algumas dessas distribuições teóricas que são muito usadas na prática: a Binomial, a
de Poisson e a Normal.
Objetivo
Ao final desta unidade, você deverá ser capaz de:
• Compreender as aplicações das distribuições de probabilidades

no escopo da inferência estatística.
• Aplicar os conceitos e técnicas referentes à Distribuição Binomial
e à Distribuição de Poisson no cálculo de probabilidade.
• Aplicar os conceitos e técnicas referentes à Distribuição Normal
no cálculo de probabilidade
Conteúdo Programático
Esta unidade está organizada de acordo com os seguintes temas:
• Tema 1 - Variáveis aleatórias e distribuições de probabilidade

• Tema 2 - Distribuição de probabilidade discreta: Binomial e
Poisson
• Tema 3 - Distribuição de probabilidade contínua: Normal
Um dos temas fundamentais no estudo da Estatística são os estudos sobre as

distribuições de probabilidades. Entre elas, a mais comumente usada é a Distribuição
Normal, pois diversos fenômenos naturais e sociais apresentam comportamento
bastante próximo a essa distribuição. Uma curiosidade interessante a respeito da
distribuição normal é que seu gráfico, em formato de sino, costuma ser chamado de
curva Gaussiana, e a própria distribuição também é referenciada como Distribuição
Gaussiana, em homenagem ao matemático alemão Carl Friedrich Gauss.
Ocorre que os desenvolvimentos teóricos relacionados à descoberta e uso da

Distribuição Normal começaram muito antes. Há registros de que o matemático
francês Abraham de Moivre a apresentou num artigo, cerca de quarenta anos antes de
Gauss nascer!
Gauss, sem dúvida, foi muito importante para o desenvolvimento teórico neste campo,
tendo desenvolvido e utilizado a equação da curva normal em pesquisas em
Astronomia. Porém, esse mérito parece ser mais um dos vários exemplos de uma lei
formulada por Stephen Stigler, lá pelos idos dos anos 1980. Segundo essa lei,
chamada de Lei de Stigler da Eponímia, “nenhuma descoberta científica é designada
com o nome do seu fundador original”.
Independentemente de julgamentos acerca da designação, o fato é que compreender

os fundamentos teóricos a respeito da distribuição normal e aplicá-los nos contextos
adequados é de extrema importância.
Como tomar decisões apropriadas, com base na correta estimativa de

probabilidades, em casos em que é possível modelar a situação considerando
uma distribuição normal de probabilidades? Que casos seriam estes?
Tema 1
Variáveis aleatórias e distribuições de
probabilidade
Como podemos representar os resultados de um

experimento aleatório e reuni-los numa representação?
Em diversas situações práticas, não estamos interessados num resultado específico

de um evento aleatório, mas nas probabilidades associadas a cada um dos resultados
possíveis.
Por exemplo, se considerarmos o lançamento de duas moedas (não viciadas), podem

ocorrer os quatro resultados a seguir:
Moeda 1 Moeda 2 Resultado
cara cara (cara, cara)
cara coroa (cara, coroa)
coroa cara (coroa, cara)
coroa coroa (coroa, coroa)
Se considerarmos X a quantidade de caras obtidas nesses dois lançamentos, os

valores possíveis para X são: 0, 1, ou 2. Ao associarmos esses valores aos eventos
correspondentes, temos:
X Significado Evento correspondente Quantidade de resultados
0 Nenhuma ocorrência de cara A1={(coroa,coroa)} 1
1 Uma ocorrência de cara A2={(cara,coroa),(coroa,cara)} 2
2 Duas ocorrências de cara A3={(cara,cara)} 1
O conjunto de todos os resultados possíveis é chamado de espaço amostral, e

costumamos denotá-lo por Ω. Desta maneira, Ω={A1∪A2∪A3 }.
Note que cada evento pertencente a esse espaço amostral está associado a um único
número real, representado por um valor de X. Desta maneira, dizemos que X é uma
“variável aleatória”.
Podemos associar a probabilidade de X assumir cada um dos valores possíveis às

probabilidades dos eventos correspondentes. Assim, teremos:
Colocando numa tabela, teremos:
X P(X)
0 0,25
1 0,5
2 0,25
Com isso, associamos cada valor de X à sua probabilidade. Essa associação é

chamada de “distribuição de probabilidade” da variável aleatória X. Sendo assim, uma
distribuição de probabilidade descreve os possíveis valores da variável aleatória a ela
relacionada, assim como suas probabilidades.
Vamos rever e aprofundar alguns conceitos já vistos na unidade anterior. Como vimos,
existem dois tipos de variáveis aleatórias: discretas e contínuas.
Variáveis aleatórias discretas

Uma variável aleatória é classificada como “discreta” quando possui um conjunto
enumerável (finito ou infinito) de valores possíveis. Como vimos anteriormente, no
caso do lançamento de duas moedas, temos quatro possíveis valores para a variável
aleatória X=quantidade de caras. Como o conjunto de valores possíveis é enumerável
(e, neste caso, finito), X é uma variável discreta.
Imaginemos, agora, que haja interesse em estudar a chegada de carros a uma praça
de pedágio numa rodovia, num intervalo de uma hora. Sendo X = quantidade de
carros que chegam em um intervalo de uma hora, essa variável aleatória pode assumir
qualquer valor inteiro não negativo. Não sabemos, a priori, qual é o maior valor
possível, mas podemos enumerar facilmente esse conjunto.
Assim, a variável aleatória X, descrita desta maneira, é infinita, porém enumerável,

logo, também é uma variável discreta.
Variáveis aleatórias contínuas

Por sua vez, uma variável aleatória é chamada de contínua quando o conjunto de
valores possíveis é infinito, não enumerável. Por exemplo, se nos interessa estudar a
performance de atletas olímpicos da modalidade de lançamento de dardos, a variável
X = distância alcançada pelo dardo em um lançamento pode assumir uma infinidade
de valores, e, por isso, dizemos que X é uma variável aleatória contínua.
Para ilustrar essa diferença entre os dois tipos de variáveis aleatórias, vamos
considerar uma pesquisa nos domicílios de uma região. Uma das perguntas poderia
ser a respeito da idade do chefe da família, enquanto outra poderia ser relativa à renda
familiar. Por mais que seja possível encontrar pessoas com mais de cem anos de
idade, os valores possíveis para a primeira variável aleatória X=idade do chefe da
família são enumeráveis. Por sua vez, os valores possíveis para a segunda variável
aleatória Y=renda familiar são inúmeros, não enumeráveis, o que justifica que ela seja
considerada contínua.
Cálculo de probabilidades com variáveis aleatórias

A partir do conhecimento da distribuição de probabilidades da variável aleatória
analisada, é possível fazer cálculos de probabilidades. Esses cálculos são um pouco
diferentes, caso a variável seja discreta ou contínua. Vamos começar com as
variáveis discretas.
Para complementar o conteúdo apresentado, sugerimos leitura do capítulo 3

(pp. 32-36) do livro MONTGOMERY, Douglas. Estatística Aplicada e
Probabilidade para Engenheiros. Rio de Janeiro: LTC, 2021. ISBN 978-8-
521-63743-1. Disponível no acervo da Minha Biblioteca.
Função de probabilidade – variáveis discretas

Para explicarmos o conceito de função de probabilidade, considerando variáveis
discretas, vamos usar um exemplo simples.
Uma universidade fez uma pesquisa com alunos do primeiro período de um curso, na
qual, entre outras informações, buscou saber a quantidade de disciplinas em que
estavam matriculados. Sendo assim, teremos a variável aleatória discreta
X=quantidade de disciplinas em que está matriculado. Após receber os formulários
preenchidos, foi possível elaborar a seguinte tabela com os resultados, chamada de
tabela de distribuição de frequências:
X Frequência
1 15
2 20
3 45
4 50
5 60
Total 190
Notamos que os valores possíveis da variável X são {0,1,2,3,4 e 5}, conforme

observamos na primeira coluna da tabela. Na segunda coluna, temos a contagem da
quantidade de vezes que cada valor ocorreu na pesquisa.
A distribuição de probabilidade de uma variável aleatória discreta é chamada de

“função (massa) de probabilidade”. Nesse caso, podemos especificar a probabilidade
de a variável X ser igual a um determinado valor x, que representamos por pX (x) ou
P(X=x). Calculando para cada um dos valores possíveis da variável X, podemos
construir a tabela de distribuição de probabilidades:
X Frequência P(X = x)
0 0
1 15
2 20
3 45
4 50
5 60
Total 190 1,00

Clique na tabela para ver os cálculos feitos para se chegar aos valores da coluna P(X = x).
Nessa tabela, a terceira coluna, também chamada de frequência relativa, é o resultado

da divisão da frequência de cada valor pelo total de casos contados (190). Sendo
assim, representa a probabilidade de que, sorteando-se um aluno qualquer que tenha
respondido à pesquisa, sua resposta tenha sido cada um dos valores da variável X.
Além da probabilidade associada a cada um dos valores da variável aleatória, também

é possível calcular probabilidades para intervalos ou expressões lógicas que
representem combinações dos eventos associados a cada valor de X. Por exemplo, se
quisermos saber qual a probabilidade de sortearmos aleatoriamente um aluno que
tenha se matriculado em menos de três disciplinas, isso corresponderia a:
P(X < 3) = P(X = 0) + P(X = 1) + P(X = 2)=0,08 + 0,11 = 0,19
Poderíamos estar interessados em avaliar a probabilidade de sortear aleatoriamente

um aluno que tenha se matriculado em mais de uma disciplina. Ou seja:
P(X > 1) = P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5)

P(X > 1) = 0,11 + 0,24 + 0,26 + 0,31 = 0,92
Porém, poderíamos ter pensado que:
P(X > 1) = 1-P(X ≤ 1) = 1-[P(X = 0) + P(X = 1)] = 1-0,08 = 0,92
Que é o mesmo resultado encontrado anteriormente.
Função densidade de probabilidade – variáveis contínuas

A distribuição de probabilidade de uma variável aleatória contínua é chamada de
“função densidade de probabilidade”. Como a quantidade de valores possíveis de uma
variável aleatória contínua é infinita (ou, pelo menos, não enumerável), não faz sentido
calcular a probabilidade de um valor específico.
Sendo assim, no caso de variáveis aleatórias contínuas, calculamos a probabilidade

de a variável X estar num intervalo, como acima de um valor a, representado por P(a <
X), abaixo de um valor b, representado por P(X < b), ou entre os valores a e b, que
representamos por P(a < X < b). Como não faz sentido calcular P(X = a) ou P(X = b), a
probabilidade de X estar no intervalo entre a e b pode, também, ser expressa por P(a≤
X ≤b).
Sendo b > a, teremos que P(X < b) = P(a < X) + P(a ≤ X ≤ b). Ou seja, a probabilidade
de X ser menor que b é a soma da probabilidade de X ser maior que a somada à
probabilidade de X estar no intervalo entre a e b. Resolvendo para a probabilidade de
X estar no intervalo entre a e b, teremos:
P(a≤ X ≤b) = P(a < X < b) = P(X < b) - P(X < a) =P(X ≤ b) - P(X ≤ a)
Chamamos a probabilidade de X ser menor ou igual a um determinado valor a de

“função de distribuição acumulada” até a, e representamos por F(a). Assim, podemos
reescrever a probabilidade de X estar no intervalo entre a e b:
P(a ≤ X ≤ b) = P(a < X < b) = F(b) - F(a)
Em termos matemáticos mais explícitos, dizemos que:

Isso corresponde à área sob a curva da função densidade de probabilidade, conforme
vemos na figura a seguir:
Com a distribuição de probabilidade definida, podemos calcular algumas estatísticas

de resumo, tais como a média e a variância.
Média ou valor esperado

A “média” (ou “valor esperado”, ou ainda “esperança” matemática) de uma variável
aleatória X, denotada por E(X), é uma medida que dá uma ideia de qual valor de X que
seria esperado, caso o experimento ao qual a variável está associada fosse repetido
inúmeras vezes.
Em termos matemáticos, para uma variável aleatória discreta, o valor esperado E(X) é
a média ponderada de todos os possíveis valores de X com pesos iguais às
respectivas probabilidades desses valores.
Já para o caso de variáveis aleatórias contínuas, o valor esperado é calculado pela

seguinte fórmula:
Felizmente, as principais distribuições contínuas apresentam cálculos bem

simplificados para o valor esperado. Assim, não precisamos ficar resolvendo integrais
quando as utilizamos.
Retomando o exemplo da pesquisa feita pela universidade com seus alunos do

primeiro período, podemos calcular o valor esperado da variável X=quantidade de
disciplinas em que está matriculado, com o auxílio de mais uma coluna na tabela de
distribuição de probabilidades construída anteriormente.
X Frequência P(X = x) x.P(X = x)
0 0 0,00 0 . 0 = 0,00
1 15 0,08 1 . 0,08 = 0,08
2 20 0,11 2. 0,11 = 0,22
3 45 0,24 3 . 0,24 = 0,72
4 50 0,26 4 . 0,26 = 1,04
5 60 0,31 5 . 0,31 = 1,55
Total 190 1,00 3,61

Clique na tabela para ver os cálculos feitos para se chegar aos valores da coluna x.P(X = x).
Cada célula na quarta coluna dessa nova tabela corresponde à multiplicação do valor
de X pela sua probabilidade P(X=x). Portanto, o valor de 3,61, correspondente à soma
dos valores da quarta coluna, é exatamente o valor esperado da variável X.
Vale observar que 3,61 é o valor esperado (ou seja, a média), da quantidade de
disciplinas em que um aluno se matriculou, porém, esse nem é um valor possível para
a variável X. Se sortearmos um aluno da amostra que respondeu à pesquisa, jamais
encontraremos um que tenha sido matriculado em 3.61 disciplinas. No entanto, se
sorteássemos muitos alunos e calculássemos a média da quantidade de disciplinas
em que eles estavam matriculados, o valor obtido seria muito próximo a 3,61.
Variância
A “variância” de uma variável aleatória X é uma medida de sua dispersão estatística, e
corresponde ao valor esperado do quadrado de quanto ela se afasta de seu valor
esperado. O valor dado por X-E(X) corresponde ao desvio de X em relação a sua
média. Logo, para calcular a variância, usamos as seguintes fórmulas:
Var(X) = E [(X-E(X))2] = E (X2 ) - [E(X)]2
Quando X é uma variável aleatória contínua, recorremos ao cálculo integral:
Também no caso da variância, as principais distribuições contínuas apresentam

cálculos bem simplificados, o que evita a necessidade de ficarmos resolvendo
integrais quando as utilizamos.
Novamente, voltando ao exemplo da pesquisa feita pela universidade, vamos incluir
algumas colunas na tabela anterior para auxílio no cálculo da variância da quantidade
de disciplinas em que os alunos se matricularam.
X Frequência P(X=x) x.P(X=x) (x-E(X))2 (x-E(X))2.P(X=x)
0 0 0,00 0,00 (0-3,61)2 =13,03 13,03 .0,00=0,00
1 15 0,08 0,08 (1-3,61)2 =6,81 6,81 .0,08=0,54
2 20 0,11 0,22 (2-3,61)2 =2,59 2,59 .0,11=0,29
3 45 0,24 0,72 (3-3,61)2 0,37 0,37 .0,24=0,29
4 50 0,26 1,04 (4-3,61)2 =0,15 0,15 .0,26=0,29
5 60 0,31 1,55 (5-3,61)2 =1,93 1,93 .0,31=0,29
Total 190 1,00 3,61 1,56
Na quinta coluna dessa tabela, calculamos o quadrado da diferença entre cada valor
assumido pela variável X e o valor esperado de X. Na sexta coluna, multiplicamos
esse resultado pela probabilidade associada a cada um desses itens, que é
exatamente a mesma probabilidade associada a cada valor de X. O valor de 1,56,
correspondente à soma dos valores da sexta coluna é exatamente a variância da
variável X.
Vamos fazer um exercício para fixar os conceitos?
Exercício
Suponha que o gerente de uma revendedora de motores elétricos de alta

potência tenha contratado você para ajudá-lo a analisar as vendas de sua
equipe. Então, seguindo sua orientação, ele levantou os dados históricos
de vendas e construiu uma tabela de frequências para a variável aleatória
X=quantidade de motores vendidos por dia, como apresentado na tabela a
seguir:
Ele quer saber, primeiramente, o valor esperado e o desvio padrão das
vendas por dia. Adicionalmente, ele gostaria de saber a probabilidade de
que, num dia, sua equipe consiga vender exatamente quatro motores.
Finalmente, ele também quer saber qual a probabilidade da equipe realize
vendas de no máximo dois motores.
Para responder ao gerente da loja que o contratou, você deve inicialmente

elaborar a seguinte tabela:
Com isso, concluir que o valor esperado da quantidade de vendas por dia é
de 1,55 unidades, a variância é de 1,25 e o desvio padrão é de
=1,12 unidades.
A probabilidade de que a equipe venda exatamente quatro motores em um

dia corresponde ao valor calculado na terceira coluna desta tabela, para a
linha correspondente ao valor X=4. Ou seja, P(X = 4) = 0,05.
Para o último caso, devemos pensar que “vender no máximo dois motores”
significa “vender um motor” ou “vender dois motores”. A probabilidade
procurada, então, é a soma das probabilidades correspondentes às linhas
de X=1 e X=2. Ou seja, P(X = 0 ou X=1 ou X=2) = P (X=0) + P(X=1) +
P(X=2) = 0,20 + 0,30 + 0,30 =0,80.
Tema 2
Distribuição de probabilidade discreta: Binomial
e Poisson
Por que o profissional que necessita inferir as chances

de ocorrência de um determinado fato investigado
pertinente à sua área de conhecimento necessita dos
conceitos e técnicas de cálculo probabilístico
abordados na Distribuição Binomial e na Distribuição
de Poisson?
Vimos anteriormente o cálculo das probabilidades associadas a fenômenos que

podem ser descritos por distribuições de probabilidade — discretas ou contínuas. Da
maneira como abordamos o problema, tivemos uma visão bastante genérica dos
conceitos e métodos. No entanto, o trabalho de análise é bastante extenso nos casos
gerais. Felizmente, em várias situações de interesse prático, os fenômenos podem ser
descritos — aproximada ou exatamente — por distribuições facilmente modeladas
matematicamente. Abordaremos a seguir duas das principais distribuições discretas
de probabilidade, que encontram vasta aplicação em diversos contextos: as
distribuições Binomial e de Poisson.
Distribuição Binomial
Em muitas situações práticas, lidamos com fenômenos que apresentam duas
possibilidades excludentes de resultados, cada qual com uma probabilidade
associada. Certo/errado, preto/branco, verdadeiro/falso, doente/saudável,
perfeito/defeituoso etc.
Porém, não é incomum ser mais importante saber não apenas a probabilidade de
ocorrência de um único resultado, mas de uma combinação de várias repetições do
fenômeno que leva a eles. Por exemplo, vamos imaginar que uma linha de produção
seja capaz de gerar peças sem defeitos com 99% de probabilidade. Um possível
problema de interesse para a área de controle de qualidade é estimar qual a
quantidade de peças defeituosas que será encontrada em um lote com 1000 unidades.
Com certeza, podemos afirmar que a quantidade de peças defeituosas vai estar entre
zero e 1000. Contudo, qual a probabilidade de cada um desses valores possíveis?
Qual o valor esperado da quantidade de peças defeituosas? Se o cliente recusar o lote
de 1000 peças caso haja mais de dez peças defeituosas, será que a probabilidade de
haver problemas é muito alta?
Esse fenômeno é modelado perfeitamente pela Distribuição Binomial, e a variável
aleatória discreta associada à situação descrita é X = quantidade de peças defeituosas
em um lote de 1000 unidades. A propósito, a distribuição que modela o fenômeno
descrito por “fabricar uma peça sem defeitos”, que está na base da situação analisada
e cujos resultados possíveis são {sem defeito, com defeito}, é chamada de
Distribuição de Bernoulli.
Para aprofundar seu conhecimento acerca da Distribuição de Bernoulli,

sugerimos leitura do capítulo 3 (pp. 169-180), ROSS, Sheldon.
Probabilidade: um curso moderno com aplicações. Porto Alegre: Bookman,
2010. Disponível no acervo da Minha Biblioteca.
Então, um fenômeno modelado pela Distribuição Binomial baseia-se em um outro

fenômeno, “unitário”, para o qual existem dois possíveis resultados excludentes. Um
deles, que será tratado como “sucesso”, com probabilidade p e o outro, “fracasso”,
com probabilidade (1-p). Cada “unidade” do fenômeno base se repete por n vezes, de
maneira independente. A variável aleatória do fenômeno de interesse é, então, a
quantidade de vezes, dentre as n repetições do fenômeno base, em que o resultado
correspondeu a “sucesso”. Representamos da seguinte maneira:
X~Bin(n; p)
Dizemos, então, que X tem Distribuição Binomial, com parâmetros n e p.

Para compreendermos melhor as fórmulas da Distribuição Binomial, vamos imaginar
uma situação não muito prática, mas bastante simples e de fácil compreensão.
Jogamos um dado não viciado e, caso o resultado seja o número seis, ganhamos.
Caso contrário, perdemos. Vamos repetir essa jogada por três vezes.
Os possíveis resultados de cada jogada são {igual a seis,diferente de seis}, sendo que
o resultado “igual a seis” corresponde ao “sucesso”. É fácil perceber que a
probabilidade associada ao sucesso é , o que resulta
em .
Na tabela a seguir, listamos todas as possibilidades de combinações dos resultados

das três jogadas do dado e contamos quantas vezes obtivemos “sucesso” em cada
uma delas.
Primeira Segunda Número
jogada jogada Terceira jogada Resumo das de
J1 J2 J3 jogadas “sucessos” Frequência
J1: 6
Igual a seis (1 face
J2: 6 3 1
possível)
J3: 6
Igual a seis (1
face possível)
J1: 6
Diferente de seis (5
J2: 6 2 5
faces possíveis)
Igual a seis J3: 1, 2, 3, 4 ou 5
(1 face
possível) J1: 6
J2: 1, 2, 3, 4 ou 5 2 5
possível)
Diferente de J3: 6
seis (5 faces
possíveis) J1: 6
J2: 1, 2, 3, 4 ou 5 1 25
faces possíveis)
J3: 1, 2, 3, 4 ou 5
J1: 1, 2, 3, 4 ou 5
J2: 6 2 5
possível)
J3: 6
Igual a seis (1
face possível)
J1: 1, 2, 3, 4 ou 5
J2: 6 1 25
Diferente faces possíveis)
J3: 1, 2, 3, 4 ou 5
de seis (5
faces
J1: 1, 2, 3, 4 ou 5
possíveis) Igual a seis (1 face
J2: 1, 2, 3, 4 ou 5 1 25
possível)
Diferente de J3: 6
seis (5 faces
possíveis) J1: 1, 2, 3, 4 ou 5
J2: 1, 2, 3, 4 ou 5 0 125
faces possíveis)
J3: 1, 2, 3, 4 ou 5
A primeira linha desta tabela correspondente à situação de conseguir 6 na primeira
jogada, 6 na segunda e 6 na terceira, ou seja, obtermos 3 “sucessos”. Essa
combinação ocorre apenas uma vez. Com isto, a frequência associada a ela é 1(última
coluna). Já a segunda linha correspondente à situação de conseguir 6 na primeira
jogada, 6 na segunda, mas não conseguir 6 na terceira, o que acontece quando se
obtém os valores de 1 a 5. Nestes casos, temos 2 “sucessos” e percebemos que esta
situação ocorre 5 vezes. Sendo assim, completamos a última coluna desta linha com o
valor 5. Esse mesmo raciocínio vale para as demais linhas da tabela.
Podemos resumir todos estes casos, somando as frequências associadas a cada valor
possível para a quantidade de “sucessos” nestas diversas situações relacionadas
acima. Com isto, criamos uma tabela de frequências, para a variável aleatória
X=quantidade de vezes que saiu 6, apresentada a seguir:
X Frequência P(X=x)
0 125
1 75
2 15
3 1
Esse processo de contagem, apesar de ser fácil, é muito trabalhoso, principalmente

quando temos muitas repetições. No entanto, podemos recorrer aos conhecimentos de
teoria de probabilidade para chegarmos a uma fórmula geral para a Distribuição
Binomial.
A função de probabilidade da Distribuição Binomial é dada por:
O termo indica a probabilidade de exatamente x sucessos ocorrerem nas n
observações em uma determinada sequência de resultados. E o termo indica a

quantidade de combinações existentes de x sucessos ocorrerem em sequências de n
observações, que é calculado pela fórmula (o símbolo “!” significa fatorial

de cada um dos números; o cálculo do fatorial foi visto em unidade anterior). Por isso,
a probabilidade de x sucessos é dada pelo produto do número de todas as sequências
possíveis multiplicado pela probabilidade de sucesso de uma determinada sequência.
Para a Distribuição Binomial, temos
Isso ocorre porque as variáveis X1,X2, ⋯,Xn~Be(p) e todas elas são independentes
entre si.
Vamos então comparar os resultados da aplicação da fórmula com aqueles que
obtivemos anteriormente, pela contagem dos resultados possíveis.
Como vemos, os resultados são exatamente os mesmos, como era de se esperar!
O valor esperado, nessa situação, será:
E a variância será:
Para facilitar o entendimento do conteúdo apresentado, vamos ver um outro exercício.

Exercício
Numa fábrica, a probabilidade de o processo produtivo gerar uma peça

defeituosa é de 5%. Qual a probabilidade de que, num lote de 100 peças,
haja 5 peças defeituosas?
É dado no enunciado que p=0,05, que corresponde à probabilidade de

haver “sucesso”, definido, neste caso, por mais estranho que possa
parecer, como “fabricar uma peça defeituosa” – pois a pergunta que
queremos responder é sobre “peças defeituosas”. Logo, q=1-p=0,95.
Como são lotes de 100 peças, temos n=100. Finalmente, como estamos
interessados na probabilidade correspondente a 5 peças defeituosas,
queremos saber P(X=5).
Substituindo os valores na fórmula da binomial, temos:

Ou seja, há uma probabilidade de 18% de que haja 5 peças defeituosas
num lote de 100 peças.
Teste com outros valores: compare este resultado, por exemplo, com a
probabilidade de haver duas peças defeituosas. Talvez você se
surpreenda com o fato de que a probabilidade de que haja cinco peças
defeituosas num lote de 100 peças fabricadas é maior que a probabilidade
de haver duas! Confira os cálculos! Veja que a probabilidade de haver
duas peças defeituosas é de 8,1%.
Distribuição de Poisson
A Distribuição de Poisson é adequada para modelar fenômenos quando não estamos
interessados exatamente na quantidade de sucessos em uma determinada quantidade
de repetições, mas na frequência de sucessos, calculada pela quantidade de sucessos
em um determinado intervalo de tempo ou distância. No caso, a ocorrência de novos
sucessos é independente da quantidade de sucessos obtidos previamente.
Essa distribuição tem como parâmetro apenas a frequência média de sucesso (λ) no
intervalo de tempo considerado, e é representada da seguinte maneira:
X~Poi(λ)
A função de probabilidade da Distribuição de Poisson é dada por:
Nessa fórmula, e é o número de Napier, ou número neperiano, cujo valor é

aproximadamente 2,718.
Para a Distribuição de Poisson, temos:
E(X)=Var(X)=λ
Por exemplo, vamos considerar que a fila da secretaria da universidade tenha, em

média, 4 alunos a cada hora no horário de pico. Isso significa que, considerando que
esse fenômeno seja descrito pela Distribuição de Poisson, λ=4. Sendo a variável
aleatória X = quantidade de alunos por hora, podemos representar da seguinte
maneira:
X~Poi(4)
Além disso, E(X)=Var(X)=4.

Podemos calcular probabilidades associadas a essa distribuição. Por exemplo, a
gerente responsável pela operação da secretaria poderia estar interessada em saber a
probabilidade de não haver quaisquer alunos por hora na fila. Usando a fórmula
apresentada, teremos:
Esses cálculos podem ser muito facilitados com o uso de planilhas eletrônicas e
calculadoras científicas.
Tema 3
Distribuição de probabilidade contínua: Normal

pertinente à sua área de conhecimento utiliza os
referentes à Distribuição Normal?
Muitos fenômenos naturais e sociais podem ser descritos por meio de uma distribuição
Normal de probabilidades. Além disso, um importante resultado teórico, enunciado
como o Teorema Central do Limite, mostra que amostras retiradas de populações que
apresentem quaisquer distribuições apresentam distribuições amostrais de
probabilidade normais, desde que tenham um número suficientemente grande de
elementos. Sendo assim, a distribuição Normal é uma das mais utilizadas em todas as
aplicações práticas e teóricas da Estatística.
Para definir completamente uma distribuição normal, são necessários dois parâmetros:
a média e o desvio-padrão. É uma distribuição contínua, infinita para os dois lados,
cujo gráfico tem formato de sino, simétrico ao redor da média e com uma largura que
depende do desvio-padrão.
Representamos a variável X com distribuição normal da seguinte maneira:
X~N(μ,σ2)
Onde μ é a média e σ, o desvio-padrão.
A função densidade de probabilidade da distribuição normal é dada por:
Quando aumentamos o valor da média, deslocamos o gráfico para a direita. Se

diminuirmos, o gráfico desloca-se para a esquerda. Quando o desvio-padrão é grande,
a curva é larga, espalhada em torno da média, dando ao gráfico um formato
“achatado”. Quando o desvio-padrão é pequeno, a largura da curva é pequena, e o
gráfico tem um formato mais alto e magro.
Podemos perceber isso na figura abaixo. As curvas A e B têm mesma média, porém o
desvio-padrão de A é maior que o desvio-padrão de B, logo, a curva A é mais
achatada que a curva B. As curvas B e C têm o mesmo desvio-padrão, então têm o
mesmo formato. Porém, a média de C é superior à média de B, então a curva C está
mais à direita.
Como observamos no gráfico, os valores de X se estendem pelo intervalo (-∞,+∞), e a
probabilidade associada a eles vai diminuindo conforme se afastam da média, de tal
forma que é muito pequena (mas nunca igual a zero) quando os valores são extremos.
Isso significa que é muito improvável encontrar valores muito distantes da média, tanto
para direita quanto para esquerda. Na prática, nem sempre vamos encontrar situações
em que o intervalo de valores da variável aleatória seja estritamente infinito em ambos
os sentidos. Porém, pela característica explicada anteriormente, em muitas situações
podemos considerar a Distribuição Normal uma boa aproximação para a faixa de
valores observada.
Para a Distribuição Normal, temos:
E(X)=μ
Var(X)=σ2
Uma importante característica observada empiricamente na Distribuição Normal é a

porcentagem da probabilidade total coberta em determinados intervalos medidos em
quantidades de desvios-padrão em relação à média.
• Cerca de 68,26% da probabilidade total está entre μ-σ e μ+σ.

• Cerca de 95,44% da probabilidade total está entre μ-2σ e μ+2σ.
• Cerca de 99,74% da probabilidade total está entre μ-3σ e μ+3σ.
Sabemos que, para variáveis aleatórias contínuas, não podemos calcular a
probabilidade associada a um valor específico, apenas probabilidades acumuladas. No
caso da Normal, isso envolve cálculos pouco amigáveis. Uma das possibilidades para
se lidar com isso é usar ferramentas computacionais. Outra é o uso de tabelas com os
valores de probabilidade acumulada da distribuição. O problema é que não
conseguimos criar tabelas com todos os valores para todas as combinações de média
e desvio-padrão possíveis. A saída, neste caso, é o uso de uma distribuição normal
padrão, e a tabulação das probabilidades acumuladas dessa distribuição, conforme
descrito a seguir.
Distribuição Normal Padrão

A padronização da Normal é feita usando-se uma nova variável, chamada z-score, de
tal forma que cada valor x da variável X está associado a um valor z da variável Z pela
seguinte fórmula:
Assim, a nova variável tem média zero e desvio-padrão 1. Dizemos, portanto, que:
Z~N(0,12)
Para compreendermos melhor o uso da Distribuição Normal e da Normal Padrão,

vamos acompanhar um exemplo.
Considere que as notas obtidas na disciplina de Estatística possam ser aproximadas
por uma Distribuição Normal, com média μ=6,5 e desvio-padrão σ=1,5. Ou
seja, X~N(6,5,1,52). O professor pretende dar parabéns para os alunos que tirarem
uma nota igual ou superior a oito. Qual a probabilidade de um aluno receber parabéns
do professor?
Começamos calculando o z-score para o ponto de interesse (x=8):
Traduzindo a situação-problema para linguagem estatística, queremos calcular:
Vale lembrar que a tabela normal padronizada nos dá a probabilidade acumulada

entreZ=0 e o valor Z procurado. Ou seja, ao consultarmos a Tabela da Distribuição
Normal padronizada, encontramos P(0 ≤ Z ≤ z). Além disso, sabemos que a
distribuição normal é simétrica em relação à média, e que, no caso da normal
padronizada, temos que a média é zero. Logo, a probabilidade acumulada à direita da
média é igual à probabilidade à esquerda. Numa linguagem estatística, podemos
escrever:
P(Z ≤ 0) = P(Z ≥ 0) = 0,5
Porém,
P(Z ≤ z) = P(Z ≤ 0) + P(0 ≤ Z ≤ z)
P(Z ≤ z) = 0,5 + P(0 ≤ Z ≤ z)
Ou seja, para calcularmos P(Z ≤ z) usando uma tabela de distribuição normal

padronizada devemos somar 0,5 ao valor encontrado.
Além disso, devemos lembrar que a distribuição normal é simétrica. Logo, se no lugar
de P(Z ≤ z) quisermos calcular P(Z ≥ z), vamos lembrar que:
P(Z ≥ z) = 1 - P(Z ≤ z)
Considerando o valor do exemplo, consultamos uma tabela da distribuição normal
padronizada, e obtemos o valor:
P(0 ≤ Z ≤ 1) = 0,3413
Logo, concluímos que
P(Z ≤ 1) = 0,5 + 0,3413 = 0,8413
Porém, como queremos calcular P(Z ≥ 1), teremos:

A figura a seguir ilustra este raciocínio. A área azul riscada é o que obtemos
consultando a tabela da distribuição normal padrão, correspondente à probabilidade
acumulada entre zero e o z-score procurado. A área azul sem riscos é a probabilidade
à esquerda da média e é igual a 0,5. As duas áreas azuis somadas nos dão a
probabilidade acumulada até o ponto procurado. A área branca é a área que nos
interessa, e igual a 1 menos a soma das duas áreas azuis.
Considere agora que os alunos que tirarem menos de cinco serão chamados para
fazer aulas de recuperação. Qual a porcentagem da turma que deve ir para
recuperação?
De novo, escrevendo em linguagem estatística, temos:
Antes de prosseguirmos, tentando encontrar o valor deste z-score na tabela da

distribuição normal padrão, devemos lembrar de uma propriedade fundamental da
distribuição normal: como ela é simétrica, P(Z ≤ - 1) = P(Z ≥ 1). Como calculamos
anteriormente P(Z ≥ 1), o resultado que desejamos agora é imediato:
P(X ≤ 5) = P(Z ≤ -1) = P(Z ≥ 1) = P(X ≥ 8) = 0,1587
Ou seja, espera-se que 15,87% da turma seja encaminhada para recuperação.
A figura abaixo ilustra este raciocínio. A área azul à esquerda de X=5 (que
corresponde a Z=-1) é a probabilidade que queremos calcular, e, por simetria, ela é
igual à área azul à direita de X=8 (que corresponde a Z=1).
Vamos considerar ainda que o professor vai oferecer aos alunos que tirarem entre
cinco e seis a possibilidade de também frequentarem as aulas de recuperação. A que
porcentagem da turma deverá ser oferecida esta alternativa?
Para resolver esta situação, devemos pensar no seguinte: como a nota cinco é menor
que a nota seis, a probabilidade de que a nota do aluno seja menor que seis engloba a
probabilidade de ela ser menor que cinco, o que não serve para o nosso cálculo.
Então, a probabilidade que estamos procurando encontrar é a da nota ser menor que
seis, mas temos que tirar deste valor a probabilidade dela ser menor que cinco. Ou
seja, escrevendo em linguagem estatística, podemos resumir este raciocínio com a
seguinte expressão:
P(5 ≤ X ≤ 6) = P(X ≤ 6) - P(X ≤ 5)
Vamos colocar os z-scores na expressão acima, para calcularmos a probabilidade

desejada.
=P(Z ≤ - 0,5) - P(Z ≤ -1)
Na tabela de distribuição normal padronizada, temos probabilidades para z-scores

positivos. Portanto, devemos lembrar da propriedade de simetria da distribuição
normal:
P(Z ≤ -z) = P(Z ≥ z)
Além disso, como vimos no primeiro exemplo, P(Z ≥ z) = 1 - P(Z ≤ z). Logo,
P(Z ≤ -z) = (Z ≥ z) = 1 - P(Z ≤ z)

Lembrando que a tabela de distribuição normal padronizada nos dá o valor da
probabilidade acumulada P(0 ≤ Z ≤ z) e que para encontrarmos P(Z ≤ z) usando a
tabela devemos usar que P(Z ≤ z) = 0,5 + P(0 ≤ Z ≤ z), teremos:
P(Z ≤ -z) = (Z ≥ z) = 1 - P(Z ≤ z) = 1-(0,5 + P(0 ≤ Z ≤ z))

P(Z ≤ -z) = (Z ≥ z) = 0,5 - P(0 ≤ Z ≤ z)
Isto nos dá um método genérico para calcular probabilidades, usando a tabela de

distribuição normal padronizada. Chamando de PT o valor encontrado na tabela:
Quando o z-score é positivo:
Para encontrar P(Z ≤ zpos):

Usamos o próprio valor de z para procurar na tabela o valor PT correspondente, e
somamos 0,5
P(Z ≥ zpos) = 0,5 - PT
Para encontrar P(Z ≥ zpos ):
Usamos o próprio valor de z para procurar na tabela o valor PT correspondente, e
subtraímos de 0,5
P(Z ≥ zpos ) = 0,5 - PT
Quando o z-score é negativo:
Para encontrar P(Z ≤ zneg):
Usamos o valor absoluto de z (ou seja, tiramos o sinal) para procurar na tabela o valor
PT correspondente, e subtraímos de 0,5
P(Z ≤ zneg) = 0,5 - PT
Para encontrar P(Z ≥ zneg):
Usamos o valor absoluto de z (ou seja, tiramos o sinal) para procurar na tabela o valor
PT correspondente, e somamos 0,5
P(Z ≥ zneg) = 0,5 + PT
Resolvendo a situação proposta, vamos, então, ter o seguinte:
P(5 ≤ X ≤ 6) = P(Z ≤ -0,5) -P(Z ≤ -1)
Consultamos a tabela normal padronizada para os valores z=0,5 e z=1, obtendo,

respectivamente, 0,1915 e 0,3413. Como os z-scores que estamos testando são
negativos, vamos ter:
P(Z ≤ -0,5) = 0,5 - 0,1915 = 0,3085

P(Z ≤ -1) = 0,5 - 0,3413 = 0,1587
O que vai resultar em:
P(5 ≤ X ≤ 6) = 0,3085 - 0,1587 = 0,1498
Ou seja, espera-se que 14,98% da turma seja convidada a fazer a recuperação.
Vamos aplicar estes conhecimentos, mostrando outro exemplo que ilustra o uso da
distribuição Normal.
Considere uma distribuição normal, com média 1.000 e desvio padrão 40. Calcule:
a) P(X ≥ 1.060)
b) P(X ≤ 960)
c) P(976 ≤ X ≤ 1.016)
Vamos começar a solução calculando os z-scores de cada item.
No primeiro caso, temos P(X ≥ 1.060) = P(Z ≥ 1,5). Como o z-score é positivo, usamos
seu próprio valor para procurar a probabilidade correspondente na tabela de
distribuição normal padronizada, encontrando PT=0,4332. Para calcular P(Z ≥ 1),
então, vamos fazer:
P(X ≥ 1.060) = P(Z ≥ 1,5) = 0,5 - 0,4332 = 0,0662
No segundo caso, temos P(X ≤ 960) = P(Z ≤ -1). Como o z-score, neste caso, é
negativo, usamos seu valor absoluto (ou seja, z=1) para procurar a probabilidade
correspondente na tabela de distribuição normal padronizada, encontrando
PT= 0,3413. Para calcular P(Z ≥ 1), então, vamos fazer:
P(X ≤ 960) = P(Z ≤ -1) = 0,5 - 0,3413 = 0,1587
No terceiro caso, temos
P(976 ≤ X ≤ 1.016) = P(-0,6 ≤ Z ≤ 0,4) = P(Z ≤ 0,4) - P(Z ≤ -0,6)

Como o primeiro z-score é positivo, usamos seu próprio valor para procurar a
probabilidade correspondente na tabela de distribuição normal padronizada,
encontrando PT=0,1554. Para calcular P(Z ≤ 0,4), então, vamos fazer:
P(Z ≤ 0,4) = 0,5 + 0,1554 = 0,6554
segundo z-score é negativo, então vamos usar seu valor absoluto (ou seja, z = -0,6)
para procurar a probabilidade correspondente na tabela de distribuição normal
padronizada, encontrando PT=0,2257. Para calcular P(Z ≥ -0,6), então, vamos fazer:
P(Z ≤ -0,6) = 0,5 - 0,2257 = 0,2743
Com isso,
P(976 ≤ X ≤ 1.016) = 0,6554 - 0,2743 = 0,3811

Encerramento
Como podemos representar os resultados de um

experimento aleatório e reuni-los numa representação?
Por meio da variável aleatória que está associada aos possíveis resultados, cujas
chances de ocorrência são representadas por uma função denominada distribuição de
probabilidades

pertinente à sua área de conhecimento necessita dos
abordados na Distribuição Binomial e na Distribuição
de Poisson?
Porque os modelos probabilísticos permitem a esse profissional lidar com

circunstâncias práticas muito comuns, e são divididos em dois tipos. O primeiro
consiste nos casos em que os resultados pertencem a duas categorias relevantes, tais
como aceitável/não aceitável ou boa/defeituosa, por exemplo. Nesse caso, trata-se da
Distribuição Binomial. O outro contempla as situações em que se verifica a ocorrência
de fatos ao longo de intervalos especificados de tempo ou distância, por exemplo.
Nesses casos, considera-se a Distribuição de Poisson.

pertinente à sua área de conhecimento utiliza os
referentes à Distribuição Normal?
Porque a Distribuição Normal consiste na distribuição contínua de probabilidades mais

comumente utilizada em situações de cunho prático inerentes a diversas áreas de
formação profissional.
Resumo da Unidade
Nesta unidade, abordamos as distribuições de probabilidade. Iniciamos

apresentando o conceito de maneira genérica, apontando para a utilização das
tabelas de frequências, que são a base para a construção das tabelas de
distribuição de probabilidade. Com elas, calculamos probabilidades associadas a
eventos. Além disso, identificamos que há variáveis aleatórias discretas e
contínuas, e definimos algumas das principais distribuições de probabilidade. No
caso das distribuições discretas, abordamos a Distribuição Binomial e a de
Poisson, enquanto que, no caso das contínuas, falamos sobre a Distribuição
Normal. Definimos e caracterizamos cada uma delas, apresentando exemplos
típicos de sua utilização e abordando o método geral para cálculo de
probabilidades em cada caso.
Para aprofundar e aprimorar os seus conhecimentos sobre os assuntos

abordados nessa unidade, não deixe de consultar as referências
bibliográficas básicas e complementares disponíveis no plano de ensino
publicado na página inicial da disciplina.

Distribuição de Probabilidades Unidade 3

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Distribuição de Probabilidades Unidade 3

Enviado por

Direitos autorais:

Formatos disponíveis

Distribuição de probabilidades

Em diversas situações, não estamos interessados exatamente no resultado de um

De uma maneira geral, em situações genéricas, podemos sempre calcular ou estimar

Nesta unidade, veremos as distribuições de probabilidade, de uma maneira geral, e

• Compreender as aplicações das distribuições de probabilidades

• Tema 1 - Variáveis aleatórias e distribuições de probabilidade

Um dos temas fundamentais no estudo da Estatística são os estudos sobre as

Ocorre que os desenvolvimentos teóricos relacionados à descoberta e uso da

Independentemente de julgamentos acerca da designação, o fato é que compreender

Como tomar decisões apropriadas, com base na correta estimativa de

Como podemos representar os resultados de um

Em diversas situações práticas, não estamos interessados num resultado específico

Por exemplo, se considerarmos o lançamento de duas moedas (não viciadas), podem

Moeda 1 Moeda 2 Resultado

cara cara (cara, cara)

cara coroa (cara, coroa)

coroa cara (coroa, cara)

coroa coroa (coroa, coroa)

Se considerarmos X a quantidade de caras obtidas nesses dois lançamentos, os

0 Nenhuma ocorrência de cara A1={(coroa,coroa)} 1

1 Uma ocorrência de cara A2={(cara,coroa),(coroa,cara)} 2

2 Duas ocorrências de cara A3={(cara,cara)} 1

O conjunto de todos os resultados possíveis é chamado de espaço amostral, e

Podemos associar a probabilidade de X assumir cada um dos valores possíveis às

Colocando numa tabela, teremos:

Com isso, associamos cada valor de X à sua probabilidade. Essa associação é

Variáveis aleatórias discretas

Assim, a variável aleatória X, descrita desta maneira, é infinita, porém enumerável,

Variáveis aleatórias contínuas

Cálculo de probabilidades com variáveis aleatórias

Para complementar o conteúdo apresentado, sugerimos leitura do capítulo 3

Função de probabilidade – variáveis discretas

Notamos que os valores possíveis da variável X são {0,1,2,3,4 e 5}, conforme

A distribuição de probabilidade de uma variável aleatória discreta é chamada de

Total 190 1,00

Nessa tabela, a terceira coluna, também chamada de frequência relativa, é o resultado

Além da probabilidade associada a cada um dos valores da variável aleatória, também

P(X < 3) = P(X = 0) + P(X = 1) + P(X = 2)=0,08 + 0,11 = 0,19

Poderíamos estar interessados em avaliar a probabilidade de sortear aleatoriamente

P(X > 1) = P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5)

Porém, poderíamos ter pensado que:

P(X > 1) = 1-P(X ≤ 1) = 1-[P(X = 0) + P(X = 1)] = 1-0,08 = 0,92

Que é o mesmo resultado encontrado anteriormente.

Função densidade de probabilidade – variáveis contínuas

Sendo assim, no caso de variáveis aleatórias contínuas, calculamos a probabilidade

Chamamos a probabilidade de X ser menor ou igual a um determinado valor a de

P(a ≤ X ≤ b) = P(a < X < b) = F(b) - F(a)

Em termos matemáticos mais explícitos, dizemos que:

Com a distribuição de probabilidade definida, podemos calcular algumas estatísticas

Média ou valor esperado

Já para o caso de variáveis aleatórias contínuas, o valor esperado é calculado pela

Felizmente, as principais distribuições contínuas apresentam cálculos bem

Retomando o exemplo da pesquisa feita pela universidade com seus alunos do

X Frequência P(X = x) x.P(X = x)

1 15 0,08 1 . 0,08 = 0,08

2 20 0,11 2. 0,11 = 0,22

3 45 0,24 3 . 0,24 = 0,72

4 50 0,26 4 . 0,26 = 1,04

5 60 0,31 5 . 0,31 = 1,55

Total 190 1,00 3,61

Var(X) = E [(X-E(X))2] = E (X2 ) - [E(X)]2

Quando X é uma variável aleatória contínua, recorremos ao cálculo integral:

Também no caso da variância, as principais distribuições contínuas apresentam

X Frequência P(X=x) x.P(X=x) (x-E(X))2 (x-E(X))2.P(X=x)