04 Probabilidade

Capítulo 4
Distribuições de Probabilidade
Uma distribuição de probabilidade atribui uma probabilidade a cada valor da

variável aleatória ou a cada intervalo de valores. Quando tratamos com variáveis que podem
assumir apenas valores discretos, a cada possível valor da variável podemos associar a no
máximo um valor de probabilidade. Temos, assim, a noção de função de um conjunto para
outro conjunto, de modo que o primeiro conjunto contém os valores possíveis da variável
aleatória e o segundo conjunto contém as probabilidades. Para variáveis que assumem valores
contínuos em ℜ , temos que as variáveis são definidas num dado intervalo de números reais e
as probabilidades pertencem ao intervalo [0,1] . No caso discreto, para um certo valor xi do
primeiro conjunto associamos diretamente a probabilidade de sua ocorrência, que é designada
por P( xi ) . Por outro lado, para o caso contínuo, não tem sentido o cálculo da probabilidade
para um valor especificado de x . Trabalhamos então com a noção de função densidade de

probabilidade, que no caso unidimensional é uma função real, isto é, f : ℜ → ℜ , que permite
calcular as probabilidades associadas uma variável aleatória contínua.
A exemplo dos modelos matemáticos determinísticos, nos quais as funções
desempenham importante papel (por exemplo, a linear, a quadrática, a exponencial, a
trigonométrica, etc.), verificamos também que, na obtenção de modelos estocásticos para
problemas do mundo real, algumas distribuições de probabilidade surgem mais
freqüentemente que outras. Neste capítulo estudaremos as distribuições de probabilidade de
variáveis discretas, a binomial, a hipergeométrica, a uniforme e a distribuição de Poisson, e
também as distribuições de probabilidade de variáveis contínuas, a retangular ou uniforme
continua, a normal, a exponencial e a distribuição de Erlang.
Antes de iniciarmos o estudo das distribuições de probabilidade, faremos
uma breve revisão do conceito de probabilidade. Após esta revisão trataremos dos modelos
empíricos e dos modelos teóricos no estudo de probabilidades.
4.1 Probabilidade
Um sonho humano sempre foi prever o futuro. No entanto, como este

intento não pode ser plenamente satisfeito, a existência de uma ‘medida’ que permita verificar
as chances de ocorrerem determinados acontecimentos ou eventos é um passo importante. Á
medida da incerteza associada a um dado evento damos o nome de probabilidade. A primeira
tarefa a ser empreendida trata-se de corretamente identificar todos os eventos ou
acontecimentos que de fato sejam possíveis em relação à situação que examinamos. Estamos
particularmente interessados em experiências cujos resultados são imprevisíveis e
mutuamente exclusivos. Isto significa que, em cada repetição dessa experiência é impossível
prever, com absoluta certeza, qual o resultado que será obtido e, além disso, a ocorrência de
um resultado exclui a ocorrência de qualquer um dos demais, o que quer dizer que, só um dos
eventos pode acontecer de cada vez. Toda experiência com essas características é chamada de
experimento aleatório, e seus possíveis resultados são chamados de eventos. Por último, resta-
nos verificar quais são os que possuem maiores ou menores “chances” de ocorrer.
O conceito de probabilidade está diretamente associado ao conceito de
conjunto e, também, à idéia de contagem dos elementos desse conjunto e dos elementos dos
seus subconjuntos.
Para cada experimento aleatório ε , definiremos o espaço amostral S como
o conjunto de todos os resultados possíveis de ε . Dado um experimento aleatório, os métodos
empíricos de cálculo de probabilidade caracterizam-se pela contagem ou enumeração
exaustiva dos elementos do espaço amostral S com a finalidade de obter a freqüência relativa
de certo evento A , sendo que A é um subconjunto de S , ou seja, A ⊆ S . O evento A
relativo a um particular espaço amostral S associado a um experimento ε é simplesmente
um conjunto de resultados possíveis. Aplicamos então a definição clássica de probabilidade.
Definição 4.1 (Probabilidade) Seja um experimento aleatório ε cujo espaço amostral é

caracterizado pelo conjunto S , e seja um evento aleatório caracterizado pelo conjunto A , a
probabilidade de ocorrência do evento A é a razão da cardinalidade de A e a cardinalidade
de S , conforme estabelece a expressão
| A|
P( A) = , (4.1)
|S|
108
onde, A e S são a quantidade de elementos do conjunto A e a quantidade de elementos do
conjunto S , respectivamente.
Apresentaremos a seguir um exemplo de aplicação da Definição 4.1.
Exemplo 4.1: A cesta ilustrada na Figura 4.1 contém seis bolas, sendo duas pretas e quatro
brancas.
Figura 4.1: Cesta com seis bolas.
Realizaremos o experimento aleatório que consistirá em retirar

simultaneamente duas bolas, anotar suas cores e em seguida devolvê-las à cesta. Qual é a
probabilidade de neste experimento retirar uma bola preta e a outra branca?
Vamos supor inicialmente como se as bolas brancas fossem identificadas
por números de 1 a 4 e as pretas por números de 1 a 2. Com o auxílio desse artifício
descreveremos o espaço amostral S associado a este experimento aleatório, representando as
bolas brancas por b1, b2 , , b4 e, as pretas, por p1 e p2 ,
S = {{b1, b2},{b1, b3},{b1, b4},{b2 , b3},{b2 , b4},{b3 , b4},{b1, p1},{b1, p2},

{b2 , p1},{b2 , p2 },{b3 , p1},{b3 , p2},{b4 , p1},{b4 , p2 },{ p1, p2 }}.
O número de elementos do espaço amostral, ou seja, | S | , é a combinação
simples de seis bolas tomadas duas a duas, isto é, C62 = 15 .

O evento “uma bola preta e a outra branca” é um subconjunto de S
representado pelo conjunto A , mostrado a seguir:
A = {{b1, p1},{b1, p2 },{b2 , p1},{b2 , p2 },{b3 , p1},{b3 , p2},{b4 , p1},{b4 , p2 }}.
Aplicamos a Definição 4.1 e obtemos a solução,
109
| A| 8
P( A) = = .
| S | 15
A fórmula geral para o cálculo da probabilidade de exatamente x eventos
na amostra é
n− x
CDx C N −D ,
n
CN
onde, N é o número de itens da coleção de objetos, D é o número desses objetos que gozam
de certa propriedade e n é o número de elementos da amostra.
O problema solucionado anteriormente é um exemplo do modelo estocástico
hipergeométrico.
A principal conclusão que extraímos desse exemplo é que a probabilidade
depende diretamente do conjunto que define o espaço amostral e do subconjunto que descreve
o evento que caracteriza objetivamente o processo que estamos estudando.
A seguir resolveremos um exemplo parecido com o Exemplo 4.1, de modo
que as alterações do enunciado levarão a um problema completamente diferente.
Exemplo 4.2: Considere a cesta ilustrada na Figura 4.1. Realizaremos o experimento aleatório
que consistirá em retirar uma bola anotar sua cor e devolvê-la à cesta e, em seguida, pegar
uma segunda bola e proceder do mesmo modo. Qual é a probabilidade de retirar uma bola
preta e a outra branca?
O número de elementos do espaço amostral, S , é 62 = 36 . Se fossemos
enumerar os elementos do espaço amostral, bastaria obter o produto cartesiano do conjunto

{b1, b2 , b3 , b4 , p1, p2 } com ele próprio. Neste caso, percebemos que a ordem de aparecimento
do elemento, ou seja, qual cor ocorre em primeiro lugar está em discussão, isto porque um
elemento é retirado e depois é retirado outro, diferentemente do que foi feito no Exemplo 4.1.
O evento “uma bola preta e a outra branca” é um subconjunto de S
representado por A , mostrado a seguir:
A = {(b1, p1), (b1, p2 ), (b2 , p1 ), (b2 , p2 ), (b3 , p1), (b3 , p2 ), (b4 , p1 ), (b4 , p2 ),
( p1, b1 ), ( p2 , b1 ), ( p1, b2 ), ( p2 , b2 ), ( p1, b3 ), ( p2 , b3 ), ( p1, b4 ), ( p2 , b4 )}.
110
Note que cada elemento do conjunto é um par ordenado, enquanto que, no
exemplo anterior, cada elemento era um conjunto de dois elementos.
Aplicamos a Definição 4.1 e obtemos a solução,
| A | 16
P( A) = = → P( A) = 4 9 .
| S | 36
Uma forma alternativa para solucionar o exemplo é a seguinte. As

probabilidades de retirar uma bola branca e de retirar uma preta, são, respectivamente, 2 3 e
1 . Se desenvolvermos o binômio ( 2 + 1 ) 2 obtemos

3 3 3
( 2 + 1 )2 = ( 2 )2 ( 1 )0 + 2( 2 )1( 1 )1 + ( 2 )0 ( 1 ) 2 → 4 + 4 + 1 .
3 3 3 3 3 3 3 3 9 9 9
A segunda parcela do desenvolvimento binomial corresponde à

probabilidade de retirar uma bola branca e uma preta (vide os expoentes). O expoente do
binômio é o número de tentativas no evento. A generalização desse procedimento nos levaria
a uma fórmula geral para o cálculo de probabilidade com reposição. Este exemplo
corresponde ao modelo estocástico binomial.
A probabilidade tal como estudada nesta seção não permite sua aplicação
em problemas complexos, uma vez que a contagem dos elementos do espaço amostral nem
sempre é trivial e a representação do fenômeno aleatório sob a forma de conjuntos não é
praticável em muitas situações.
Uma forma de trabalhar com probabilidade que permite o uso do
computador é a sua interpretação como freqüência relativa no contexto de um experimento
aleatório.
4.1.1 Probabilidade e freqüência relativa
Considere um experimento aleatório e um evento a ele associado, designado

por A . São realizadas, inicialmente, k1 repetições do experimento; depois k1 + k2 repetições;
em seguida, k1 + k2 + k3 , continuando dessa maneira até realizarmos k1 + k2 + k3 + + kr
111
repetições do experimento. Seja n o número de repetições do experimento, isto é,
n = k1 + k2 + k3 + + kr , e n( A) o número de vezes que o evento A ocorre, então a
freqüência relativa de A , f ( A) , é
n( A)
f ( A) = . (4.2)
n
A freqüência relativa f ( A) goza da seguinte propriedade: à medida que o

número de repetições do experimento aleatório for aumentado, a freqüência relativa baseada
neste número crescente de repetições tenderá a se ‘estabilizar’ próxima de algum valor
numérico definido (MEYER, 1980). Esta propriedade é descrita formalmente no Teorema 4.1,
que é atribuído a Bernoulli, 1713, e é conhecido como ‘Primeira Lei dos Grandes Números’.
Teorema 4.1: Quando o número de realizações de um experimento aleatório cresce muito, a

freqüência relativa do sucesso associado vai se aproximando cada vez mais de certo valor que
denominamos de probabilidade.
Este teorema nos fornece uma interpretação da probabilidade que é
adequada a cálculos com o computador. Esta noção é explorada exaustivamente no capítulo
deste livro que trata de Simulações.
Os fenômenos aleatórios podem ser descritos através de métodos empíricos
ou por meio de modelos teóricos de probabilidade. Utilizando uma distribuição empírica de
probabilidade seja no processo de simulação seja na solução de problemas de tomada de
decisão, estaremos limitando as possíveis ocorrências futuras às condições válidas no passado.
Alguns acontecimentos podem não ter tido oportunidade de ocorrência, o que impede sua
reprodução no futuro. Usando uma distribuição teórica de probabilidade nas condições
descritas, estaremos adicionando informações ao comportamento da variável, o que torna o
modelo mais apto a prever o futuro. Desta forma, sempre que houver condições favoráveis,
devemos optar pelo uso do modelo teórico ajustado ao invés do modelo empírico.
A seguir trataremos os métodos empíricos para depois abordarmos os
modelos teóricos.
4.2 Distribuição de probabilidade e variável aleatória
112
Com o objetivo de mostrar a relação entre a variável aleatória X e a
probabilidade P( X ) , iniciaremos o estudo de distribuições de probabilidade analisando
alguns casos empíricos.
Exemplo 4.3: Consideremos o lançamento simultâneo de duas moedas, cujo espaço amostral é
S = {(Ca, Ca ), (Ca, Co), (Co, Ca ), (Co, Co)} . A variável aleatória X representa o número de
caras que aparecem. Na Tabela 4.1 vemos a associação existente entre o evento ‘cara’, a
variável X e a probabilidade P( X ).
Tabela 4.1: Relações entre evento, variável aleatória e probabilidade.
Espaço amostral Número de caras ( X ) P( X )

(Ca, Ca ) 2 1
4
(Ca, Co) , (Co, Ca ) 1 1 1 1
4+ 4 = 2
(Co, Co) 0 1
4
Ao definirmos a distribuição de probabilidade estabelecemos uma

correspondência entre os valores da variável aleatória e os valores da probabilidade. A função
f ( xi ) = P ( X = xi ) determina a distribuição de probabilidade da variável aleatória X .
A Figura 4.2 ilustra a distribuição de probabilidade da Tabela 4.1.
P( X )
1
2
1
4
0 1 2 X
Figura 4.2: Distribuição de probabilidade do evento ‘número de caras’.
O Exemplo 4.4 que será apresentado a seguir mostra a estreita relação

existente entre distribuição de freqüência e distribuição de probabilidade.
Exemplo 4.4: Após 30 dias de observações o número de acidentes diários num grande
estacionamento de veículos foi catalogado. A Tabela 4.2 mostra os dados obtidos.
113
Tabela 4.2: Distribuição de freqüência de acidentes num estacionamento.
Número de acidentes Freqüência

0 22
1 5
2 2
3 1
i fi = 30
As probabilidades são obtidas dividindo as freqüências pelo total de

observações. A Tabela 4.3 mostra a distribuição de probabilidade para este problema.
Tabela 4.3: Distribuição de probabilidade de acidentes num estacionamento.
Número de acidentes Probabilidade

0 0,73
1 0,17
2 0,07
3 0,03
P( X ) = 1,00
Devemos ressaltar que a associação entre freqüência relativa e probabilidade

só é possível se o número de observações for suficientemente grande.
Exemplo 4.5: No lançamento de dois dados são observados os números de pontos das faces
que saem voltadas para cima. Definimos uma variável aleatória X que é igual à soma dos
pontos das faces de cima de ambos os dados. Os resultados possíveis são catalogados e estão
apresentados na Tabela 4.4.
Tabela 4.4: Distribuição de probabilidade de X .
X 2 3 4 5 6 7 8 9 10 11 12
P( X ) 1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
A Figura 4.3 representa graficamente P( X ) × X , sob a forma de histograma.
114
P( X ) 1
6
5
36
1
9
1
12
1
18
1
36
2 3 4 5 6 7 8 9 10 11 12
Figura 4.3: Distribuição de probabilidade do evento ‘soma dos pontos das faces de dois
dados’.
A seguir são apresentadas duas definições fundamentais no estudo de

processos estocásticos.
4.2.1 Esperança matemática e variância de uma variável aleatória discreta
Definimos esperança matemática de uma variável aleatória discreta X

como a soma de todos os produtos possíveis dos valores da variável aleatória pelas
respectivas probabilidades. Através da expressão (4.3) definimos a esperança matemática
E( X ) .
∞
E( X ) = xi P( xi ), (4.3)
i =1
onde, E ( X ) é a média ponderada dos possíveis valores de X , cada um ponderado por sua
probabilidade.
No contexto do estudo de probabilidades, esperança (ou valor esperado)
possui o mesmo significado de média, por isso, é muitas vezes designado por x quando se
trata de amostra e µ para uma população.
Definimos variância de uma variável aleatória como a esperança matemática
do quadrado da diferença entre a variável aleatória e sua média, ou seja,
115
V ( X ) = E ( X − E ( X )) 2 . (4.4)
A expressão (4.4) advém da definição clássica de variância, que é a

seguinte:
N
( xi − x ) 2
i =1
V (X ) = ,
N −1
onde, N é o número de elementos da amostra e N − 1 é o número de graus de liberdade.
Após desenvolvimentos, a definição de variância pode ser expressa

conforme mostrada em (4.5).
V ( X ) = E ( X 2 ) − [ E ( X )]2 , (4.5)
onde, E ( X 2 ) = xi2 P ( xi ) e [ E ( X )]2 é o quadrado da esperança matemática E ( X ) .
Ressaltamos que a variância é igual ao desvio padrão ao quadrado, isto é,
V ( X ) = s 2 , onde s é o desvio padrão amostral.

Agora estamos preparados para estudar os modelos teóricos de
probabilidade. Iniciaremos o estudo com distribuições de variáveis aleatórias discretas.
4.3 Distribuição hipergeométrica
A distribuição hipergeométrica é a distribuição de probabilidade discreta

mais elementar e é aplicável aos casos de amostragens sem reposição. Consideremos uma
coleção de N itens, sendo que D desses itens tenham certa propriedade e o restante, N − D ,
não tenha esta propriedade. Se a amostra de n itens for retirada sem reposição, então a
probabilidade de exatamente x eventos na amostra é obtida pela relação (4.6):
n− x x
CN − DCD
P( X = x) = . (4.6)
n
CN
O valor esperado de uma variável hipergeométrica é dado pela expressão

(4.7).
116
D
E( X ) = n . (4.7)
N
A variância de uma variável hipergeométrica é dada pela expressão (4.8).
D D N −n
V (X ) = n 1− . (4.8)
N N N −1
Apresentamos a seguir um exemplo para ilustrar a aplicação da distribuição

de probabilidade hipergeométrica.
Exemplo 4.6: Em um lote de doze peças do mesmo modelo, quatro são defeituosas. Sendo
retiradas aleatoriamente duas peças, qual é a probabilidade de ambas serem defeituosas?
A primeira pergunta que surge é se o experimento é feito sem reposição ou
com reposição. Vamos resolver o problema considerando sem reposição, que é o caso da
distribuição hipergeométrica. Primeiramente, analisemos a retirada de duas peças por meio de
um processo empírico.
Para utilizarmos o método empírico direto, estabelecemos as seguintes
definições:
evento A ={ primeira peça defeituosa };
evento B = { segunda peça defeituosa }.
4
A probabilidade de retirarmos uma peça defeituosa é P( A) = .
12
Supondo que os eventos A e B sejam dependentes, ou seja, a peça retirada
no evento A afeta a probabilidade de retirada da segunda peça, a probabilidade de retirarmos
simultaneamente duas peças defeituosas é o produto da probabilidade do evento A e a
probabilidade do evento B tendo em vista que A ocorreu.
4 3 1
P( A ∧ B) = P( A) × P( B A) = × = .
12 11 11
Agora, resolveremos o mesmo problema (Exemplo 4.6) aplicando a

definição de distribuição hipergeométrica.
117
Supondo que não haja reposição no experimento teremos a distribuição
hipergeométrica. O experimento aleatório em que são retiradas peças defeituosas de um lote
de peças é um exemplo típico de aplicação da distribuição hipergeométrica.
Pela definição dada em (4.6), a propriedade que é referida pode ser ‘o
defeito das peças’. Portanto, temos D = 4 peças com esta propriedade; N = 12 peças no lote.
Desejamos calcular a probabilidade de retirar duas peças com defeito, sem
reposição, então: a amostra retirada tem n = 2 itens; como queremos duas defeituosas implica
que o número de eventos é x = 2 ; portanto, a probabilidade é
C 2 − 2 C42 C80 C42 1 × 6 1

P ( x = 2) = 8 = = = .
2 2 66 11
C12 C12
Um método de verificação dos resultados obtidos passa pela enumeração

dos elementos do espaço amostral, o qual denominamos de método empírico enumerativo, é
apresentado a seguir.
Suponhamos que as peças sejam representadas por letras,
a, b, c, d , e, f , g , h, i, j , k , l . Imaginemos que as peças a, b, c, d sejam as quatro defeituosas
do lote. Formando subconjuntos de duas peças, teremos o espaço amostral S . O total de
2 12!
elementos de S é C12 = = 66 elementos, uma vez que a ordem que as peças
2!(12 − 2)!
aparecem no grupo não é importante. O evento ‘duas peças defeituosas’ é representado pelo
subconjunto A = {{a, b}, {a, c}, {a, d }, {b, c},{b, d }, {c, d }} . Aplicamos a Definição 4.1 e
6 1
obtemos P( A) = = . Esta é a probabilidade de retirar exatamente duas peças sem
66 11
reposição (retirar uma peça, não repô-la no lote e depois retirar uma segunda peça).
4.4 Distribuição binomial
Antes de introduzir a distribuição binomial, primeiramente vamos relembrar

o desenvolvimento do binômio (q + p ) elevado ao expoente inteiro n . Segundo o Teorema
Binomial, temos o somatório:
n
( p + q)n = Cnk p k q n − k .
k =0
118
n
O número Cnk = é conhecido como coeficiente binomial e é definido
k
pela relação (4.9):
n n!
= Cnk = . (4.9)
k k !(n − k )!
Definimos a variável aleatória X como o número de sucessos nas n

tentativas. Logo, X pode assumir os valores 0, 1, 2, 3, , n . Para X = x , temos x sucessos
e n − x fracassos, então a distribuição binomial é expressa pela relação (4.10):
P( X = x) = Cnx p x q n − x , (4.10)
onde: P( X = x) é a probabilidade de exatamente x eventos em n tentativas independentes;

p é a probabilidade do evento numa tentativa;
q é a probabilidade de que o evento não ocorra na mesma tentativa, q + p = 1 .
Ao aplicarmos as definições (4.3) e (4.4), concluímos que o valor esperado
da distribuição binomial é np e sua variância é npq .
As condições para aplicação da distribuição binomial requerem que os
eventos sejam independentes e complementares, e que devemos conhecer a probabilidade do
sucesso de uma tentativa, p , e a probabilidade do insucesso, q , além do que as
probabilidades p e q devem manter-se constantes no decorrer do experimento (isto é, com
reposição).
A distribuição binomial de probabilidade é adequada aos experimentos que
apresentam apenas dois resultados: sucesso ou fracasso. A condição que exige que as
probabilidades p e q sejam constantes é satisfeita tirando-se amostras e repondo no universo
cada unidade amostral retirada.
Para ilustrar a distribuição binomial consideremos o Exemplo 4.7, que é o
mesmo Exemplo 4.6 com a diferença de que há reposição ao retirar as duas peças.
Exemplo 4.7: Em um lote de doze peças do mesmo modelo, quatro são defeituosas. São
retiradas aleatoriamente duas peças, uma após a outra e com reposição. Qual é a probabilidade
de ambas as peças serem defeituosas?
119
Consideremos que o sucesso consiste em retirar uma peça defeituosa do lote
4 1
de doze, em que existem quatro defeituosas. Então, a probabilidade do sucesso é p = =
12 3
para uma tentativa. Não retirar uma peça defeituosa corresponde à probabilidade
1 2
complementar, q = 1 − p = 1 − = ou q = 812 .
3 3
Identificamos os parâmetros n = 2 tentativas, x = 2 eventos. São duas
tentativas porque retiramos uma peça e depois a outra. Aplicamos a expressão (4.10) para o
cálculo da probabilidade de ocorrer exatamente duas peças defeituosas,
2 0
1 2 1
P( x = 2) = C22 = .
3 3 9
Eis mais um exemplo de aplicação do modelo binomial.
Exemplo 4.8: Considere um processo de fabricação onde a probabilidade de ocorrência de um

item defeituoso é de 0,2. Se tirarmos uma amostra de vinte itens, qual é a probabilidade de
ocorrerem menos de três itens defeituosos na amostra?
A probabilidade de ocorrência de menos de três itens significa o seguinte:
nenhum item defeituoso, um item ou dois itens defeituosos. Portanto, aplicaremos a
distribuição binomial conforme a seguir:
P( x < 3) = P( x = 0) + P( x = 1) + P( x = 2),
0
P( x < 3) = C20 (0,2) 0 (0,8) 20 + C120 (0,2)1 (0,8)19 + C20
2
(0,2) 2 (0,8)18 ,
P( x < 3) = 0,206.
A soma de termos de probabilidades exibida anteriormente é denominada de

probabilidade conjunta.
4.5 Distribuição uniforme discreta
Para um conjunto com n + 1 elementos, a distribuição uniforme de

probabilidade é dada pela relação (4.11):
120
1
P( X = x) = . (4.11)
n +1
A relação (4.11) é válida para os seguintes valores de X ,
X = x = a, a + 1, a + 2, , a + (n − 1), a + n .
A média e a variância são, respectivamente,
n
E( X ) = a + , (4.12)
2
n(n + 2)
V (X ) = . (4.13)
12
O Exemplo 4.9 mostra como são feitos os cálculos de probabilidades com a

distribuição uniforme discreta.
Exemplo 4.9: Uma variável aleatória discreta pode ter apenas os valores 3, 4, 5, 6 e 7 .
Supondo que distribuição de probabilidade dessa variável é uniforme, qual é a probabilidade
de que a variável aleatória tenha o valor 4? Qual é a probabilidade de que a variável tenha
valores menores ou iguais a 6? Determine também a média e a variância.
Para este exemplo, com o auxílio da relação (4.11) determinamos o valor de

n,
x = a, a + 1, a + 2, , a + (n − 1), a + n,
x = 3, 3 + 1, 3 + 2, 3 + (n − 1), 3 + n,
x = 3, 4, 5, 6, 7 n = 4.
Dado que a distribuição é uniforme, a probabilidade de que uma variável

aleatória tenha um valor particular dentre os valores possíveis para X é a mesma para
qualquer outro valor. Neste exemplo, a probabilidade de que a variável tenha valor 4 é,
1 1 1
P( X = 4) = = = = 0,20 .
n +1 4 +1 5
121
A probabilidade de que a variável aleatória x tenha valores menores ou
iguais a 6 é a probabilidade de termos os números 3, 4, 5 ou 6,
P( X ≤ 6) = 0,20 + 0,20 + 0,20 + 0,20 = 0,80 .
A média é
n 4
x =a+ = 3 + = 5.
2 2
A variância é
4(4 + 2)
V (X ) = = 2.
12
4.6 Distribuição de Poisson
Em muitos casos, conhecemos o número de sucessos, porém, se torna difícil

e, às vezes, sem sentido, determinar o número de fracassos ou o número total de tentativas.
Por exemplo, considere automóveis que passam num cruzamento. Podemos, num dado
intervalo de tempo, anotar quantos carros com uma determinada característica passaram pelo
cruzamento específico, porém, o número de carros que deixaram de passar pela esquina não
poderá ser determinado.
A distribuição de Poisson é usada nas situações probabilísticas onde a área
de oportunidade de ocorrência de um evento é grande, mas a oportunidade de ocorrência em
um intervalo particular (ou em um ponto particular) é muito pequena. Os experimentos de
Poisson fornecem valores numéricos de uma variável aleatória X que representam os
números de sucessos que ocorrem durante um dado intervalo de tempo ou em uma região
especificada. Se for tempo, o intervalo de tempo pode ser de qualquer ordem de grandeza,
como um minuto, um dia, uma semana, um mês ou mesmo um ano. Se for uma medida
geométrica, a região especificada pode ser um segmento de reta, um volume de um sólido, um
pedaço de material, etc.
Assim, um experimento de Poisson pode gerar observações para a variável
aleatória X que representa o número de chamadas telefônicas por hora recebidas num
122
escritório, ou o número de horas que uma escola fica sem luz elétrica. Em outras palavras, a
distribuição de Poisson descreve o número de vezes que ocorre um evento, que certamente
ocorrerá muitas vezes, mas que é pouco provável que ocorra num particular instante de
observação. Essa característica é típica de chegadas em uma fila de espera.
A probabilidade de x ocorrências em um processo de Poisson com
parâmetro α é definida pela relação (4.14).
x
α
P( X = x) = e −α , x ∈ Z + . (4.14)
x!
O parâmetro α permite empregar o modelo de Poisson seja para tempo,

para distância, para área, etc. Quando trabalhamos com tempo, o parâmetro α é definido
como α = λ∆t , onde λ é uma taxa na unidade de tempo.
Os histogramas mostrados na Figura 4.4 ilustram distribuições de
probabilidade de Poisson para quatro diferentes valores de α . A abscissa é a variável x .
Figura 4.4: Histogramas da distribuição de Poisson para quatro valores do parâmetro α .
Na distribuição de Poisson, a média e a variância são, respectivamente,
123
E( X ) = α , (4.15)
V (X ) = α . (4.16)
Iremos, a seguir, interpretar fisicamente os parâmetros da distribuição de

Poisson através de exemplos.
Exemplo 4.10: Uma fila de atendimento de um pronto socorro recebe em média quatro
acidentados por hora. Qual é a probabilidade de chegar em uma hora até dois acidentados?
acidentados
Calcularemos primeiro a taxa λ . A taxa de chegada é λ = 4 ,
hora
sendo o tempo de observação ∆t = 1 hora . Vamos calcular as probabilidades dos eventos
x = 0, x = 1, x = 2 , ou seja, ninguém chega, chega um e chegam dois acidentados no
intervalo de uma hora:
(4 × 1)0 − 4×1
nenhuma chegada, P( x = 0) = e = 0,018 ,
0!
(4 × 1)1 − 4×1
uma chegada, P( x = 1) = e = 0,074 ,
1!
(4 × 1) 2 − 4×1
duas chegadas, P( x = 2) = e = 0,146 .
2!
A probabilidade de ocorrerem chegadas de até dois acidentados em uma
hora é a probabilidade conjunta dos eventos analisados anteriormente,
P( x < 3) = P( x = 0) + P( x = 1) + P( x = 2) ,
P( x < 3) = 0,018 + 0,074 + 0,146 ,
P( x < 3) = 0,238.
Convidamos o leitor a fazer uma comparação deste exemplo com o

Exemplo 4.8. Será possível resolver o Exemplo 4.8 utilizando o modelo de Poisson?
Exemplo 4.11: Num processo de fabricação que produz lâminas de vidro, em que o número
médio de defeitos por lâmina é cinco, qual é a probabilidade de que uma lâmina tenha
exatamente seis defeitos?
124
Dos dados, temos que o número médio de lâminas é α = 5 e o número de
eventos é x = 6. Portanto, a solução é imediata,
56 −5
P( x = 6) = e = 0,146 .
6!
Exemplo 4.12: Uma companhia de seguros estima que 0,005% de uma população sofre cada
ano de certo tipo de acidente. Qual é a probabilidade que a companhia tenha que pagar a mais
do que três pessoas dentre as dez mil seguradas contra este tipo de acidente em um dado ano?
A probabilidade de uma pessoa acidentar-se é 0,00005. Isto significa que a

taxa anual de ocorrências deste tipo de acidentes é
0,00005 × 10.000
λ= = 0,5 pessoas ano .
1
O número médio de ocorrências é λ ∆t = 0,5 e o número de eventos é x = 3.
x =3 0,5 x × e −0,5
P( x > 3, ∆t = 1) = 1 − P ( x ≤ 3, ∆t = 1) = 1 − ,
x =0 x!
P( x > 3, ∆t = 1) = 1 − 0,998 = 0,002.
Nas seções seguintes analisaremos as distribuições de probabilidade de

variáveis contínuas mais importantes do ponto de vista da Pesquisa Operacional. Porém, antes
de iniciarmos o estudo dessas distribuições, estabeleceremos definições que serão de grande
utilidade para a compreensão das mesmas.
4.7 Variável aleatória contínua e distribuições de probabilidade
Certos experimentos aleatórios requerem que a variável aleatória, X ,

assuma valores reais. Por exemplo, se estivermos estudando a medida da altura de pessoas em
um conjunto especificado de uma comunidade, a variável X não é mais restrita a valores
discretos. As alturas podem ser 1,89 metros ou 2,01 metros, etc. Outro exemplo é quando
125
precisamos medir uma temperatura ou uma tensão elétrica, que certamente não são números
inteiros. Isto nos leva à consideração das variáveis aleatórias contínuas, que podem ser
definidas em todo conjunto real, ou em intervalos especificados do mesmo conjunto.
Para tratarmos das distribuições continuas, considere as seguintes

definições.
Definição 4.2: (Função densidade de probabilidade, fdp) Seja o intervalo contínuo I = (a, b) ,
sendo a e b números reais, a < b . A variável aleatória X que tome os valores reais x , tais
que x ∈ I , tem uma distribuição ℑ se sua função densidade de probabilidade, f (x) ,
f : ℜ → ℜ , for tal que
a) f ( x) ≥ 0 ,
b
b) f ( x)dx = 1 ,
a
c) P( x1 ≤ X ≤ x2 ) = xx2 f ( x) dx , probabilidade de que X esteja entre os

1
valores x1 e x2 ,
d) F ( x) = f ( x)dx , função de probabilidade acumulada.
Definição 4.3: (Esperança matemática de uma variável aleatória contínua) Seja X uma
variável aleatória contínua com função densidade de probabilidade, f ( x) , o valor esperado de
X é
E ( X ) = ab xf ( x)dx . (417)
Definição 4.4: (Variância de uma variável aleatória contínua) Seja X uma variável aleatória
contínua com função densidade de probabilidade, f ( x) , a variância de X é
b (4.18)
V (X ) = x 2 f ( x)dx − [ E ( X )]2 .
a
Compare a expressão (4.8) com a expressão (4.5).
126
Agora estamos prontos para o estudo de algumas distribuições de variáveis
aleatórias continuas.
4.7.1 Distribuição normal
Uma das distribuições mais importantes é a distribuição normal. Uma das

razões dessa importância é que a distribuição normal, comumente, representa com boa
aproximação as distribuições de freqüência observadas em diversos fenômenos naturais.
Outra razão é que a distribuição normal pode ser relacionada com a maioria das distribuições
de probabilidade existentes por meio do Teorema do Limite Central (vide seção 4.8). Além
disso, para um número grande de tentativas, as normais servem como aproximação de
probabilidades binomiais.
A distribuição normal é também conhecida como distribuição de Gauss. A
distribuição de Gauss é contínua e simétrica em torno da média e sua curva estende-se de
menos infinito ( − ∞ ) a mais infinito ( + ∞ ).
Matematicamente, a função densidade de probabilidade (fdp) da distribuição
normal é definida por (4.19):
2
( x−µ )
1 −
f ( x) = e 2σ ,
2
− ∞ < x < + ∞. (4.19)
2 πσ
Na equação (4.19), os símbolos possuem os seguintes significados:
µ: média da população;
σ: desvio padrão;
π: número irracional cujo valor aproximado é 3,1415;
e: número irracional cujo valor aproximado é 2,71828.
O parâmetro µ é a média da distribuição normal. Este valor é a média
populacional, que junto com a variância populacional, σ 2 , são valores supostamente

conhecidos. É importante fazer neste ponto um paralelo entre µ e a média x , definida
anteriormente. Seja uma população de tamanho N donde vamos retirar todas as possíveis
127
amostras simples de tamanho n dessa população, e para cada uma vamos calcular a média x .
A Figura 4.5 ilustra a relação existente entre µ e x .
população
amostra
média µ média x
Figura 4.5: Ilustração da relação entre µ e x .
As relações da média, do desvio padrão e da variância para uma amostra e

para uma população são apresentadas na Tabela 4.5.
Tabela 4.5: Relações dos parâmetros com amostra e população.
Parâmetro Amostra População finita

Quantidade de elementos n N
Média x µ
Desvio padrão s σ
Variância s2 σ2
A probabilidade de uma variável aleatória contínua normalmente distribuída

ser igual ou menor que um número a é a área sob a curva normal de − ∞ a a .
Matematicamente, esta probabilidade é dada pela relação (4.20):
a
P( x ≤ a) = f ( x)dx = área sob a curva normal de − ∞ até a ,
−∞
(4.20)
( x−µ )2
a 1 −
P( x ≤ a) = e 2σ 2 dx .
−∞ 2π σ
128
Do mesmo modo, a probabilidade de uma variável aleatória normalmente
distribuída ser maior do que um valor dado a é,
P( x > a) = 1 − P( x ≤ a) .
As curvas normais exibem características especiais em termos de sua forma

geométrica, de como se especificam e também de como são utilizadas para obtenção de
probabilidades. O gráfico de uma distribuição normal se assemelha muito a um sino: é suave e
unimodal, e simétrico em relação à sua média. Menos óbvio é o fato de que a curva se
prolonga indefinidamente em qualquer das direções, a partir da média. Aproxima-se cada vez
mais do eixo horizontal à medida que aumenta a distância a contar da média, mas nunca chega
a tocar no eixo.
Outra característica importante é que uma distribuição normal fica
completamente especificada por dois parâmetros: sua média e seu desvio padrão. Em outras
palavras, existe uma única distribuição normal para cada combinação de uma média µ e um
desvio padrão σ . Diferentes combinações de média e desvio padrão originam curvas normais
distintas.
A probabilidade de uma variável aleatória distribuída normalmente tomar
um valor entre dois pontos dados é igual à área sob a curva normal compreendida entre os
dois pontos.
É essencial reconhecer que uma distribuição normal é uma distribuição
teórica. Para mensurações físicas grupadas numa distribuição de freqüência é uma
distribuição ideal; nenhum conjunto de valores efetivos adaptar-se-á exatamente a ela. Assim
é que, por exemplo, os valores reais não variam entre − ∞ e + ∞ . As limitações do
instrumento que se usa nas medições eliminam efetivamente outros valores potenciais. Não
obstante, tais deficiências são amplamente contrabalançadas pela facilidade de utilização da
distribuição normal na obtenção de probabilidades, e pelo fato de que a referida distribuição
ainda constitui uma boa aproximação de dados reais. Assim, quando dizemos que uma
variável aleatória é distribuída normalmente, a afirmação deve ser interpretada como uma
implicação de que a distribuição de freqüência de seus resultados possíveis pode ser
satisfatoriamente bem aproximada pela distribuição normal de probabilidades. Logo, a curva
129
normal é um modelo. Em simulações computacionais é comum o emprego da distribuição
normal truncada, conforme será vista no Capítulo 7.
Como a integração indicada na equação (4.20) não pode ser efetuada
diretamente pelos métodos triviais de Cálculo Diferencial e Integral, usamos tabelas para
determinar as áreas sob a curva normal. Uma forma de facilitar a obtenção das probabilidades
normais é utilizar a forma normal padronizada e apresentar os valores em tabelas. As Tabelas
4.6 e 4.7 apresentam valores das áreas sob a curva normal padronizada. Nessas tabelas, dados
os valores de x , µ e σ , tem-se a proporção da área total sob a curva que está sob a porção
x−µ
da curva de − ∞ a z = .
σ
A distribuição normal constitui, na realidade, uma família infinitamente
grande de distribuições (isto é, uma para cada combinação µ e σ ). Conseqüentemente, seria
inútil procurar elaborar tabelas que atendessem a todas as necessidades. Há, entretanto, uma
alternativa bastante simples que contorna o problema: tomando como ponto de referência a
origem e o desvio padrão como medida de afastamento a contar daquele ponto (unidade de
medida), determinamos uma nova escala que é comumente conhecida como escala z .
Utilizamos a variável normal padronizada dada pela relação (4.21):
x−µ
z= . (4.21)
σ
As áreas sob a curva de qualquer distribuição normal podem ser achadas

utilizando-se uma tabela normal padronizada, após fazer a conversão da escala original para a
escala em termos de desvios padrões. A tabela dá a área sob a curva (isto é, a probabilidade de
um valor cair naquele intervalo) entre − ∞ e valores escolhidos de z , isto é,
P(−∞ < Z ≤ z ) . Temos, então, que se X é uma variável aleatória com distribuição normal
de média µ e desvio padrão σ , podemos escrever P(−∞ < X ≤ x) = P(−∞ < Z ≤ z ) onde
x−µ
Z é uma variável aleatória tal que z = . A partir desta transformação, a distribuição
σ
resultante tem média igual a zero e desvio padrão igual a um. Por isso, é denotada por N (0,1) .
130
Tabela 4.6: Áreas sob a curva normal padronizada de − ∞ a z , z ≤ 0 .
x−µ 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0,00
σ
−3,5 0,00017 0,00017 0,00018 0,00019 0,00019 0,00020 0,00021 0,00022 0,00022 0,00023
−3,4 0,00024 0,00025 0,00026 0,00027 0,00028 0,00029 0,00030 0,00031 0,00033 0,00034
−3,3 0,00035 0,00036 0,00038 0,00039 0,00040 0,00042 0,00043 0,00045 0,00047 0,00048
−3,2 0,00050 0,00052 0,00054 0,00056 0,00058 0,00060 0,00062 0,00064 0,00066 0,00069
−3,1 0,00071 0,00074 0,00076 0,00079 0,00082 0,00085 0,00087 0,00090 0,00094 0,00097
−3,0 0,00100 0,00104 0,00107 0,00111 0,00114 0,00118 0,00122 0,00126 0,00131 0,00135
−2,9 0,0014 0,0014 0,0015 0,0015 0,0016 0,0016 0,0017 0,0017 0,0018 0,0019
−2,8 0,0019 0,0020 0,0021 0,0021 0,0022 0,0023 0,0023 0,0024 0,0025 0,0026
−2,7 0,0026 0,0027 0,0028 0,0029 0,0030 0,0031 0,0032 0,0033 0,0034 0,0035
−2,6 0,0036 0,0037 0,0038 0,0039 0,0040 0,0041 0,0043 0,0044 0,0045 0,0047
−2,5 0,0048 0,0049 0,0051 0,0052 0,0054 0,0055 0,0057 0,0059 0,0060 0,0062
−2,4 0,0064 0,0066 0,0068 0,0069 0,0071 0,0073 0,0075 0,0078 0,0080 0,0082
−2,3 0,0084 0,0087 0,0089 0,0091 0,0094 0,0096 0,0099 0,0102 0,0104 0,0107
−2,2 0,0110 0,0110 0,0113 0,0116 0,0119 0,0122 0,0125 0,0129 0,0136 0,0139
−2,1 0,0143 0,0146 0,0150 0,0154 0,0158 0,0162 0,0166 0,0170 0,0174 0,0179
−2,0 0,0183 0,0188 0,0192 0,0197 0,0202 0,0207 0,0212 0,0217 0,0222 0,0228
−1,9 0,0233 0,0239 0,0244 0,0250 0,0256 0,0262 0,0268 0,0274 0,0281 0,0287
−1,8 0,0294 0,0301 0,0307 0,0314 0,0322 0,0329 0,0336 0,0344 0,0351 0,0359
−1,7 0,0367 0,0375 0,0384 0,0392 0,0401 0,0409 0,0418 0,0427 0,0436 0,0446
−1,6 0,0455 0,0465 0,0475 0,0485 0,0495 0,0505 0,0516 0,0526 0,0537 0,0548
−1,5 0,0559 0,0571 0,0582 0,0594 0,0606 0,0618 0,0630 0,0643 0,0655 0,0668
−1,4 0,0681 0,0694 0,0708 0,0721 0,0735 0,0749 0,0764 0,0778 0,0793 0,0808
−1,3 0,0823 0,0838 0,0853 0,0869 0,0885 0,0901 0,0918 0,0934 0,0951 0,0968
−1,2 0,0985 0,1003 0,1020 0,1038 0,1057 0,1075 0,1093 0,1112 0,1131 0,1151
−1,1 0,1170 0,1190 0,1210 0,1230 0,1251 0,1271 0,1292 0,1314 0,1335 0,1357
−1,0 0,1379 0,1401 0,1423 0,1446 0,1469 0,1492 0,1515 0,1539 0,1562 0,1587
−0,9 0,1611 0,1635 0,1660 0,1685 0,1711 0,1736 0,1762 0,1788 0,1814 0,1841
−0,8 0,1867 0,1894 0,1922 0,1949 0,1977 0,2005 0,2033 0,2061 0,2090 0,2119
−0,7 0,2148 0,2177 0,2207 0,2236 0,2266 0,2297 0,2327 0,2358 0,2389 0,2420
−0,6 0,2451 0,2483 0,2514 0,2546 0,2578 0,2611 0,2643 0,2676 0,2709 0,2743
−0,5 0,2776 0,2810 0,2843 0,2877 0,2912 0,2946 0,2981 0,3015 0,3050 0,3085
−0,4 0,3121 0,3156 0,3192 0,3228 0,3264 0,3300 0,3336 0,3372 0,3409 0,3446
−0,3 0,3483 0,3520 0,3557 0,3594 0,3632 0,3669 0,3707 0,3745 0,3783 0,3821
−0,2 0,3859 0,3897 0,3936 0,3974 0,4013 0,4052 0,4090 0,4129 0,4168 0,4207
−0,1 0,4247 0,4286 0,4325 0,4364 0,4404 0,4443 0,4483 0,4522 0,4562 0,4602
−0,0 0,4641 0,4681 0,4721 0,4761 0,4801 0,4840 0,4880 0,4920 0,4960 0,5000
131
Tabela 4.7: Áreas sob a curva normal padronizada de − ∞ a z , z ≤ 3,5 .
x−µ 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
σ
+0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
+0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
+0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
+0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
+0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
+0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
+0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
+0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
+0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8079 0,8106 0,8133
+0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
+1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
+1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
+1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
+1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
+1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
+1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
+1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
+1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
+1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
+1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
+2,0 0,9773 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
+2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
+2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
+2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
+2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
+2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
+2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
+2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
+2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
+2,9 0,9981 0,9982 0,9983 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
+3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99899 0,99893 0,99896 0,99900
+3,1 0,99903 0,99906 0,99910 0,99913 0,99915 0,99918 0,99921 0,99924 0,99926 0,99929
+3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950
+3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965
+3,4 0,99966 0,99967 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976
+3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983
O Exemplo 4.13 mostra como calcular a probabilidade com distribuição

normal utilizando a variável z e as tabelas.
132
Exemplo 4.13: Num laboratório, repetidas medições executadas numa peça utilizando certo
instrumento eletrônico resultam numa seqüência de valores. Os erros de medição comportam-
se de forma aleatória segundo a distribuição de Gauss. A média da distribuição é vinte e o
desvio padrão é oito. Qual é a probabilidade de medir valores menores que quatorze?
Temos: µ = 20; σ = 8; a = 14 , que é o maior valor da variável aleatória x .

Aplicamos a fórmula (4.21) para variável normal padronizada:
14 − 20
z= = − 0,75 .
8
Desejamos obter a probabilidade P( x ≤ 14) . Na verdade, com a

transformação, vamos buscar na tabela a área sob a curva normal modificada de − ∞ a z.
Consultamos a Tabela 4.6. Localizamos na primeira coluna o valor − 0,7 e
no cruzamento dessa linha com a coluna de 0,05 encontramos o número 0,2266. Portanto, a
probabilidade procurada é P( x ≤ 14) = 0,2266. O valor 0,2266 pode ser interpretado como a
proporção dos valores menores do que 14.
Exemplo 4.14: Os pesos de 600 estudantes são normalmente distribuídos com média 65,3 kg
e variância 30,25. Determine o número de estudantes que pesam: (a) entre 60 e 70 kg ; e (b)
mais de 63,2 kg .
Vamos considerar primeiro o cálculo da probabilidade para estudantes que
pesam entre 60 e 70 kg. Suporemos também que µ ≅ x e σ ≅ s . A variância é o quadrado do
desvio padrão:
σ = V ( X ) → σ = 30,25 = 5,5 kg .
Vamos calcular a probabilidade de a variável aleatória estar entre 60 e 70

kg , que é
P(60 ≤ x ≤ 70) .
133
Raciocinando em termos da área da curva normal, vamos calcular a área de
− ∞ a 70 e subtrair desse valor a área que vai de − ∞ a 60 ,
P(60 ≤ x ≤ 70) = P( x ≤ 70) − P( x ≤ 60) .
Temos que calcular as variáveis normais padronizadas z 70 e z 60 (para

isso temos que empregar a relação (4.21)),
70 − 65,3
z70 = = 0,85,
5,5
60 − 65,3
z60 = = − 0,96.
5,5
Consultamos as Tabelas 4.6 e 4.7 entrando com os valores de z e achamos

os seguintes números:
z70 → P ( x ≤ 70) = 0,8023,

z60 → P ( x ≤ 60) = 0,1685,
P(60 ≤ x ≤ 70) = 0,8023 − 0,1685 = 0,6338.
O número esperado de estudantes com pesos compreendidos entre 60 e 70

é o produto 0,6338 × 600 ≅ 380 estudantes.
A probabilidade de termos estudantes com mais que 63,2 kg é obtida do
seguinte modo. Vamos calcular a probabilidade de a variável aleatória ser menor ou igual a
63,2 kg ,
P( x ≤ 63,2) .
Como a área total sob a curva normal é igual a um, vamos subtrair dessa
área o resultado obtido, P( x ≤ 63,2) , já que queremos calcular a probabilidade P( x > 63,2) ,
P( x > 63,2) = 1 − P( x ≤ 63,2),

63,2 − 65,3
z= = −0,38.
5,5
134
Consultamos a Tabela 4.7 e obtemos:
P( x ≤ 63,2) = 0,3520 .
Concluímos que a probabilidade de, neste universo, encontrarmos

estudantes com mais de 63,2 kg é
P( x > 63,2) = 1 − P ( x ≤ 63,2) = 1 − 0,352 = 0,648 .
Desse modo, esperamos que 0,648 × 600 ≅ 389 estudantes tenham peso
superior a 63,2 kg .
4.7.2 Distribuição retangular ou uniforme
Nesta seção trataremos apenas da distribuição retangular (uniforme)

contínua. Esta distribuição é aplicável em situações nas quais as probabilidades de todos os
sucessos são iguais. A Figura 4.6 ilustra a função densidade de probabilidade retangular.
f (x)
1
b−a
a b x
Figura 4.6: Distribuição retangular contínua.
A função da Figura 4.6 é definida conforme a relação (4.22):
135
0, x<a
1
f ( x) = , a ≤ x ≤ b. (4.22)
b−a
0, x>b
Notemos que a área do retângulo ilustrado na Figura 4.6 é igual a um, como
deve ser para qualquer função densidade de probabilidade. A probabilidade de que uma
variável aleatória x tenha um valor menor ou igual a um número x1 que pertença ao intervalo
[a, b] é:
x1 d dx x −a
P( x ≤ x1 ) = f ( x)dx = = 1 a ≤ x1 ≤ b ,
a ab − a b−a
onde, P( x ≤ x1 ) é a probabilidade acumulada da variável aleatória x de a até x1 .
A média e a variância das variáveis aleatórias da distribuição uniforme são

obtidas pelas expressões (4.23) e (4.24), de acordo com as Definições (4.3) e (4.4).
a+b
E( X ) = µ = . (4.23)
2
(b − a )2
V (X ) = σ 2 = . (4.24)
12
4.7.3 Distribuição exponencial
A função densidade de probabilidade exponencial é definida pela relação

(4.25).
f ( x) = β e − β x , 0 ≤ x < ∞ . (4.25)
Esta forma de distribuição de probabilidade é conhecida mais

especificamente como distribuição exponencial negativa ( β > 0 ) e, nesta forma, é
136
freqüentemente usada para descrever tempos de serviço em modelos de fila de espera. Neste
tipo de aplicação, a variável aleatória x representa o tempo.
Em aplicações na teoria de filas, o parâmetro β da relação (4.25) é o
número de ocorrências na unidade de tempo. Por exemplo, β pode ser a taxa de chegada de
usuários por unidade de tempo (neste caso, na teoria de filas, β corresponderia ao parâmetro
λ , que é a notação usual para a taxa média de chegada de usuários).
A média e a variância das variáveis aleatórias da distribuição exponencial
são obtidas pelas relações (4.26) e (4.27).
1
E( X ) = µ = . (4.26)
β
1
V (X ) = σ 2 = . (4.27)
β
A probabilidade acumulada exponencial desde zero até um instante que

tenha transcorrido um tempo ∆t , isto é, a função de distribuição acumulada, é dada por
(4.28):
P( x ≤ ∆t ) = 1 − e − β ∆t (4.28)
A função de distribuição acumulada é obtida integrando a função f (x) em

x de 0 a ∆t. O valor acumulado mede a probabilidade de o intervalo entre duas ocorrências
consecutivas ser menor ou igual ao intervalo de tempo ∆t .
Exemplo 4.15: Numa linha de montagem de televisores, localizada na Zona Franca de

Manaus, obtivemos a informação de que o tempo de serviço médio por aparelho é de duas
horas. Qual é a probabilidade de ocorrer um tempo de serviço de menos de 1:40 horas?
1
A média é igual a = 2 horas aparelho o que implica em β = 0,5 . O
β
40 5
intervalo requerido de execução do serviço é 1 : 40 horas = 1 + = horas. A probabilidade
60 3
de termos intervalos de execução do serviço inferiores a 1 : 40 horas é:
137
5
5 − 0,5×
P( x ≤ ) = 1 − e 3 = 1 − e −0,83334 ,
3
5
P( x ≤ ) = 0,5654 .
3
4.7.4 Distribuição de Erlang
Esta distribuição de probabilidade leva o nome do seu criador, o

dinamarquês Erlang, um estudioso pioneiro da área de telecomunicações, que viveu no século
XIX. A função densidade de probabilidade da distribuição de Erlang é definida em (4.29).
−x
x m −1e a
f ( x) = , 0 ≤ x < ∞. (4.29)
(m − 1)!a m
Onde:
a : parâmetro de escala ou coeficiente de variação, a > 0 ;
m : parâmetro de fôrma ( m é um número inteiro positivo).
Após a comparação entre as distribuições exponencial negativa e Erlang, é

imediata a constatação de que em (4.29) para m = 1 e 1 a = β teremos a fdp exponencial
definida em (4.25).
A média e a variância das variáveis aleatórias da distribuição Erlang são
obtidas pelas relações (4.30) e (4.31).
E ( X ) = µ = am . (4.30)
V ( X ) = σ 2 = a 2m . (4.31)
A função de probabilidade acumulada da fdp de Erlang, calculada desde

zero até um valor especificado x , é dada por (4.32).
138
−x
m −1
( x a )i
F ( x) = 1 − e a .
i =0 (4.32)
i!
A distribuição Erlang é usada como uma extensão para a distribuição

exponencial se o coeficiente de variação for menor que 1 (isto é, a < 1 ), por exemplo nas
seguintes aplicações:
a) na modelagem de tempos de atendimento (ou de serviço) de sistemas
de filas;
b) na modelagem do tempo de reparo e tempo entre falhas de
equipamentos e sistemas.
Na primeira aplicação mencionada, um servidor com tempos de serviço cuja
distribuição seja Erlang( a, m ) pode ser representado como se fosse uma série de m
servidores com tempos de serviço de distribuição exponencial.
Especificamente em sistemas de telecomunicações, a distribuição Erlang é
empregada na modelagem do tráfego de chamadas telefônicas.
Para m não muito grande, a utilização do computador para o cálculo do
fatorial seja na expressão (4.29) e seja em (4.32) requer certos cuidados por parte do
programador em face das limitações de representação da aritmética inteira das máquinas
atualmente disponíveis. Todavia, existem métodos para contornar essas dificuldades.
Em simulações com o uso do computador, a distribuição Erlang é gerada a
partir de variáveis uniformemente distribuídas seguindo os passos apresentados no Algoritmo
4.1.
Algoritmo 4.1: Obtenção de variáveis de Erlang a partir da distribuição continua uniforme.

Dados: os parâmetros m e a .
Faça P ← 1
Para i = 1, , m
ui ← U (0,1)
P ← P × ui
Erlang (a, m) ← − a × ln P
Na seção seguinte será estudado um teorema de capital importância para

simulações em computador, que encontra muitas aplicações em Pesquisa Operacional.
139
4.8 Teorema do Limite Central
Este teorema afirma que, sob condições genéricas, as somas e as médias das
amostras de medidas aleatórias extraídas de uma população tendem a apresentar uma
distribuição aproximadamente bem comportada, desde que a amostragem seja repetida. O
significado desta afirmação pode ser melhor ilustrado com um exemplo.
Exemplo 4.16: Considere a população referente à experiência de se jogar um dado não viciado
um número grande de vezes. A distribuição de probabilidade é dada pelo histograma da
Figura 4.7.
P( y)
1
6
0
1 2 3 4 5 6 y
Figura 4.7: Distribuição de y , que é o número obtido ao se jogar um dado.
Extraímos uma amostra de n = 5 medidas (jogamos o dado cinco vezes e

anotamos os resultados obtidos) obtendo assim a amostra desejada. Por exemplo,
suponhamos que os números anotados nessa primeira amostra sejam y = 3, 5, 1, 3 e 2 .
Calculemos a soma dessas cinco medidas e também a média da amostra, y . A título de
experiência, vamos repetir a amostragem cem vezes. Os resultados para cem amostras estão
5
parcialmente indicados na Tabela 4.8, juntamente com os valores correspondentes de yi e
i =1
y.
Tabela 4.8: Medidas da amostra: soma e média.
Número da amostra Medidas contidas na amostra yi y

1 3, 5, 1, 3 ,2 14 2,8
2 3, 1, 1, 4, 6 15 3,0
... ... ... ...
100 2, 4, 3, 4, 6 19 3,8
140
5
Construiremos um histograma de freqüências de y (ou de yi ) para essas
i =1
cem amostras e teremos uma representação gráfica da distribuição empírica. Observaremos

um resultado interessante: embora os valores de y, na população ( y = 1, 2 , 3, 4, 5, 6 ), sejam
equiprováveis (vide Figura 4.7) e, por conseguinte, possuam uma distribuição perfeitamente
uniforme, as médias das amostras (ou somas) apresentam uma distribuição não uniforme.
Em termos formais, um enunciado do Teorema do Limite Central é como
apresentado a seguir.
Teorema 4.2: Se amostras aleatórias com n observações forem extraídas de uma população
com média µ e desvio padrão σ , então, quando n for grande, a média amostral será
σ
normalmente distribuída com média µ e desvio padrão .
n
A aproximação aludida no Teorema 4.2 será tanto mais perfeita quanto
maior for o valor de n .
Para ilustrar este teorema foi elaborado no ambiente MATLAB um código
para simular o lançamento do dado por cinco vezes consecutivas. Esse experimento foi
repetido mil vezes. O histograma de freqüências resultante é conforme ilustrado na Figura 4.8.
Figura 4.8: Histograma de freqüências que se apresenta com o aspecto de uma normal.
141
O código escrito com instruções do MATLAB é mostrado na Figura 4.9.
n = input('Entrar com o tamanho da amostra: ');

m = input('Entrar com a quantidade de simulações: ');
for k = 1:m,
soma = 0;
for i = 1:n,
y(i) = fix(1 + 6*rand);
soma = soma + y(i);
end;
media(k) = soma/n;
end;
maior = norm(media, inf); menor = norm(media, -inf);
h = (maior - menor)/m;
x = menor: h: maior;
hist(media, x)
Figura 4.9: Código em MATLAB para verificação do Teorema do Limite Central.
Chamamos a atenção do leitor para forma do histograma da Figura 4.8, que

lembra a forma de sino típica da distribuição normal.
Ressaltamos que o Teorema do Limite Central não especifica a distribuição
da população. Na realidade, a distribuição da população pode se apresentar sob uma vasta
gama de distribuições de probabilidade e é isto que torna este teorema notável e de grande
aplicabilidade. O Teorema do Limite Central também pode ser enunciado de modo específico
para uma população uniformemente distribuída.
Teorema 4.3: Sejam u1, u2 , , uk , k variáveis aleatórias independentes uniformes e sejam

k
µ = E (ui ) e σ 2 = V (ui ) a esperança e a variância, respectivamente. Ao obter x = ui , a
i =1
esperança e a variância de X são, respectivamente, E ( X ) = kµ e V ( X ) = kσ 2 , e tem-se,
para k grande, que Z k = ( X − kµ ) kσ é aproximadamente a distribuição normal

padronizada.
142
Considerando ainda o Exemplo 4.16, observamos que o Teorema do Limite
Central poderia ser enunciado de maneira alternativa para a soma dos resultados de uma
5
amostra yi , que também tende a apresentar uma distribuição normal, de média µ e desvio
i =1
padrão σ à medida que n se torne cada vez maior.

n
Este teorema nos diz que a média e o desvio padrão da distribuição das
médias amostrais são definitivamente relacionados à média e o desvio padrão da população
amostrada, bem como ao tamanho n da amostra. As duas distribuições têm a mesma média,
µ , e o desvio padrão da distribuição das médias amostrais é igual ao desvio padrão da
população σ dividido por n . Conseqüentemente, a dispersão da distribuição das médias
amostrais será consideravelmente menor ( 1 , no máximo), quanto mais difusa for a

n
distribuição da população. Mais importante ainda é o fato de o Teorema do Limite Central
afirmar que a distribuição das médias amostrais é aproximadamente normal (distribuição de
Gauss) para amostras de tamanho n moderado ou grande.
4.9 Exercícios propostos
1. Resolva os problemas supondo distribuição binomial:

a) Uma moeda é lançada 5 vezes seguidas e independentes. Calcule a probabilidade de
serem obtidas 3 caras nessas 5 provas.
b) Dois times de futebol A e B, jogam entre si 6 vezes. Encontre a probabilidade de o
time A ganhar 4 jogos. (Lembre-se que a probabilidade de um time ganhar uma
partida é 13 ).
c) Considere um processo de fabricação onde a probabilidade de ocorrência de um item

defeituoso é de 0,05. Se tirarmos uma amostra de 10 itens, calcule a probabilidade de
menos de três itens defeituosos na amostra.
2. Resolva os problemas supondo distribuição hipergeométrica:

a) Uma empresa possui 8 diretores, dos quais 5 são homens e 3 são mulheres. Uma
comissão de 3 diretores deve ser constituída através de sorteio para representar a
143
empresa num Congresso que acontecerá em Cancun. Qual é a probabilidade de ser
sorteada uma comissão que tenha exatamente 2 mulheres?
b) Pequenos motores elétricos são expedidos em lotes de 50 unidades. Antes que uma
remessa seja aprovada, um inspetor escolhe 5 desses motores e os inspeciona. Se
nenhum dos motores inspecionados for defeituoso, o lote é aprovado. Se um ou mais
forem verificados defeituosos, todos os motores da remessa serão inspecionados.
Suponha que existam, de fato, três motores defeituosos no lote. Calcule a
probabilidade de que a inspeção de todo o lote de 50 seja necessária? (Sugestão:
calcule a probabilidade P( X ≥ 1), onde X é o número de motores). Resposta: ≅ 0,28.
3. Suponha um jogo de 25 números (inteiros de 1 a 25) no qual são escolhidos 15 números.

Apenas o acerto dos 15 números dá um excelente prêmio ao felizardo. No sorteio, os números
são retirados de um mesmo globo sem reposição. Um esperançoso apostador está intrigado
porque ele normalmente acerta 10 ou 11 pontos e nunca fez os 15. Como podemos explicar
isto para o apostador usando o modelo hipergeométrico? Será que acertar poucos pontos é
difícil também? Faça cálculos e, se for necessário, um gráfico também.
4. Uma companhia de seguros descobriu que somente cerca de 0,1 por cento da população
está incluído em certo tipo de acidente cada ano. Se seus 10.000 segurados são escolhidos ao
acaso na população, qual é a probabilidade de que não mais do que 5 de seus clientes venham
a estar incluídos em tal acidente no próximo ano? (Resposta: 0,067).
5. Resolva o Exemplo 4.8 usando o modelo de Poisson com parâmetro α igual a 4.
6. Prove a expressão (4.15) do valor esperado para o modelo de Poisson dado pela expressão
(4.14).
7. Resolva os problemas supondo distribuição normal:

a) Um teste padronizado de escolaridade tem distribuição normal com média igual a 100 e
desvio padrão igual a 10. Determine a probabilidade de um indivíduo submetido ao
teste ter nota: (1) maior que 120 (resposta: 0,0228); (2) entre 85 e 115 (resposta:
0,8664).
144
b) Uma lâmpada eletrônica tem duração média de 850 dias e desvio padrão de 40 dias.
Sabendo que a duração é normalmente distribuída, calcule a probabilidade de uma
lâmpada desse tipo durar: (1) entre 700 e 1.000 dias (resposta: 0,9998); (2) menos de
750 dias (resposta: 0,0062).
8. Entrando em um sistema de auto-atendimento de um banco, os clientes com seus

automóveis acessam o caixa-rápido. Os tempos de utilização são exponencialmente
distribuídos com uma média de 45 segundos. Qual é a probabilidade de ocorrer um tempo de
acesso ao caixa-rápido de menos de 30 segundos?
9. Resolva o problema supondo distribuição uniforme discreta. Uma tabela de 100 números
(00 a 99) dispostos aleatoriamente. Fecha-se o olho e ao acaso aponta-se para um dos
números da tabela. Qual é a probabilidade de ‘apontar’ o número 24? Qual é a probabilidade
de acertar um número correspondente à sua idade nesta tabela? Supondo que ninguém na sala
tem menos de 20 e mais que 45 anos, qual é a probabilidade de apontar números na faixa de
idades do pessoal da sala? Qual é a média dos números dessa tabela? Qual é a variância? Qual
é o desvio padrão?
145

04 Probabilidade

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

04 Probabilidade

Enviado por

Direitos autorais:

Formatos disponíveis

Capítulo 4

Uma distribuição de probabilidade atribui uma probabilidade a cada valor da

para um valor especificado de x . Trabalhamos então com a noção de função densidade de

Um sonho humano sempre foi prever o futuro. No entanto, como este

Definição 4.1 (Probabilidade) Seja um experimento aleatório ε cujo espaço amostral é

Figura 4.1: Cesta com seis bolas.

Realizaremos o experimento aleatório que consistirá em retirar

S = {{b1, b2},{b1, b3},{b1, b4},{b2 , b3},{b2 , b4},{b3 , b4},{b1, p1},{b1, p2},

O número de elementos do espaço amostral, ou seja, | S | , é a combinação

simples de seis bolas tomadas duas a duas, isto é, C62 = 15 .

A = {{b1, p1},{b1, p2 },{b2 , p1},{b2 , p2 },{b3 , p1},{b3 , p2},{b4 , p1},{b4 , p2 }}.

Aplicamos a Definição 4.1 e obtemos a solução,

O número de elementos do espaço amostral, S , é 62 = 36 . Se fossemos

enumerar os elementos do espaço amostral, bastaria obter o produto cartesiano do conjunto

Uma forma alternativa para solucionar o exemplo é a seguinte. As

1 . Se desenvolvermos o binômio ( 2 + 1 ) 2 obtemos

A segunda parcela do desenvolvimento binomial corresponde à

4.1.1 Probabilidade e freqüência relativa

Considere um experimento aleatório e um evento a ele associado, designado

A freqüência relativa f ( A) goza da seguinte propriedade: à medida que o

Teorema 4.1: Quando o número de realizações de um experimento aleatório cresce muito, a

4.2 Distribuição de probabilidade e variável aleatória

Tabela 4.1: Relações entre evento, variável aleatória e probabilidade.

Espaço amostral Número de caras ( X ) P( X )

Ao definirmos a distribuição de probabilidade estabelecemos uma

Figura 4.2: Distribuição de probabilidade do evento ‘número de caras’.

O Exemplo 4.4 que será apresentado a seguir mostra a estreita relação

Número de acidentes Freqüência

As probabilidades são obtidas dividindo as freqüências pelo total de

Tabela 4.3: Distribuição de probabilidade de acidentes num estacionamento.

Número de acidentes Probabilidade

Devemos ressaltar que a associação entre freqüência relativa e probabilidade

Tabela 4.4: Distribuição de probabilidade de X .

A Figura 4.3 representa graficamente P( X ) × X , sob a forma de histograma.

A seguir são apresentadas duas definições fundamentais no estudo de

4.2.1 Esperança matemática e variância de uma variável aleatória discreta

Definimos esperança matemática de uma variável aleatória discreta X

A expressão (4.4) advém da definição clássica de variância, que é a

onde, N é o número de elementos da amostra e N − 1 é o número de graus de liberdade.

Após desenvolvimentos, a definição de variância pode ser expressa

onde, E ( X 2 ) = xi2 P ( xi ) e [ E ( X )]2 é o quadrado da esperança matemática E ( X ) .

Ressaltamos que a variância é igual ao desvio padrão ao quadrado, isto é,

V ( X ) = s 2 , onde s é o desvio padrão amostral.

4.3 Distribuição hipergeométrica

A distribuição hipergeométrica é a distribuição de probabilidade discreta

O valor esperado de uma variável hipergeométrica é dado pela expressão

A variância de uma variável hipergeométrica é dada pela expressão (4.8).

Apresentamos a seguir um exemplo para ilustrar a aplicação da distribuição

Agora, resolveremos o mesmo problema (Exemplo 4.6) aplicando a

C 2 − 2 C42 C80 C42 1 × 6 1

Um método de verificação dos resultados obtidos passa pela enumeração

4.4 Distribuição binomial

Antes de introduzir a distribuição binomial, primeiramente vamos relembrar

Definimos a variável aleatória X como o número de sucessos nas n

onde: P( X = x) é a probabilidade de exatamente x eventos em n tentativas independentes;

Eis mais um exemplo de aplicação do modelo binomial.

Exemplo 4.8: Considere um processo de fabricação onde a probabilidade de ocorrência de um

A soma de termos de probabilidades exibida anteriormente é denominada de

4.5 Distribuição uniforme discreta

Para um conjunto com n + 1 elementos, a distribuição uniforme de

A relação (4.11) é válida para os seguintes valores de X ,

A média e a variância são, respectivamente,

O Exemplo 4.9 mostra como são feitos os cálculos de probabilidades com a