Aulas2 IAG

2.
PROBABILIDADE
2.1 Introdução
Como vimos no ponto 1.1, a Teoria da Probabilidade, na qual se

fundamenta a Inferência Estatística, vai começar a ser desenvolvida neste
ponto.
O início da Teoria da Probabilidade esteve ligado aos chamados “jogos de

azar”, jogados nos casinos, e à vontade de descrever matematicamente a
proporção de vezes em que determinado jogo ou determinada aposta é
ganha. De facto, foi esta vontade que levou a que dois dos melhores
matemáticos do século XVII, Pascal e Fermat, trocassem uma série de
correspondência sobre a correcta aplicação da matemática ao cálculo dessas
proporções. Segundo os historiadores, esta troca de correspondência
constituiu o início da Teoria da Probabilidade tal como a conhecemos hoje.
2.2 Experiências aleatórias. Espaço de resultados.
O objecto da Teoria da Probabilidade é o estudo de certos fenómenos

observáveis, influenciados pelo acaso, ou seja, o estudo dos fenómenos
aleatórios. Os fenómenos aleatórios vão estudar-se fazendo apelo à noção
de experiência aleatória.
Uma experiência aleatória é qualquer processo que conduz a resultados

observáveis e, pelo facto de estar sujeito à influência de factores aleatórios, a
resultados incertos (isto é, a resultados que não se podem prever
antecipadamente com toda a certeza).
1
Exemplos de experiências aleatórias: lançamento de uma moeda ao ar e
observação da face que fica voltada para cima; lançamento de um dado e
observação do nº de pontos obtidos; anotação do sexo de um recém-nascido
numa série de nascimentos; observação da duração de componentes
electrónicas de determinado tipo; observação das taxas de inflação em anos
sucessivos; registo do número de sinistros por apólice do ramo automóvel
durante uma anuidade.
O espaço de resultados (ou espaço-amostra) associado a uma experiência

aleatória é o conjunto de todos os resultados que se podem obter ao efectuar a
experiência aleatória. O espaço de resultados designa-se por Ω e os seus
elementos (resultados individuais) por ω (ω ∈ Ω) .
Exemplos de espaços de resultados:
1) Lançamento de uma moeda
Ω = {F , C}
2) Lançamento de um dado
Ω = { 1, 2, 3, 4, 5, 6}
3) Lançamento de uma moeda seguido do lançamento de um dado
Ω = { ( F ,1) , ( F ,2) , ..., ( F ,6) , (C,1) , (C,2) ,..., (C,6) }
2
Tendo em conta a natureza do conjunto Ω, os espaços de resultados podem
ser discretos (finitos ou infinitos numeráveis) ou contínuos (infinitos não
numeráveis). Os 3 exemplos dados anteriormente são espaços discretos
finitos. Um exemplo de um espaço discreto (infinito numerável) é aquele que
está associado à experiência aleatória que consiste na observação do nº de
telefonemas recebidos por hora em determinada central telefónica:
Ω = { 0,1, 2, ...}
A observação da duração de um determinado tipo de componente electrónica,

medida por um nº real x, é uma experiência aleatória com espaço de
resultados contínuo: Ω = { x : x > 0 }.
Exercícios
1. Diga qual o espaço de resultados associado à experiência que consiste em

tirar uma bola de uma urna que contém 10 bolas numeradas de 1 a 10.

tirar 2 bolas com reposição da urna referida no exercício anterior
(reposição, significa que a primeira bola tirada é posta novamente na urna,
antes da segunda bola ser tirada).

tirar 2 bolas sem reposição da urna referida no exercício 1.
3
2.3 Acontecimentos. Operações sobre acontecimentos.
Um acontecimento é qualquer subconjunto do espaço de resultados. Os

subconjuntos com apenas um elemento ω ∈ Ω dizem-se acontecimentos
elementares. O próprio Ω também é um acontecimento.
Ao efectuar a experiência associada com Ω diz-se que o acontecimento A ,

A ⊂ Ω , se realiza se o resultado é um elemento que pertence a A : ω ∈ A .
Exemplos de acontecimentos:
1) Na experiência do lançamento de um dado são acontecimentos:
A = { 1, 3, 5} (“saída de um nº de pontos ímpar”)

B = { 2 , 4, 6} (“saída de um nº de pontos par”)
2) Na experiência do lançamento de uma moeda seguido do lançamento de

um dado são acontecimentos:
A = { ( F ,1), (C,1) } (“saída de um nº de pontos igual a 1 no

lançamento do dado”)
B = { (C ,1) , (C , 2) , (C, 3) , (C, 4) , (C , 5) , (C , 6)} (“saída de uma

coroa no lançamento da moeda”)
4
Atendendo a que os acontecimentos são subconjuntos do espaço de
resultados, podem estabelecer-se entre estes as operações que podem
estabelecer-se entre os conjuntos. Existe um paralelismo perfeito entre a
álgebra dos conjuntos e a álgebra dos acontecimentos. Apenas a
terminologia é ligeiramente diferente da utilizada na álgebra dos conjuntos.
Os principais conceitos da álgebra dos acontecimentos são os seguintes:
1) Implicação de acontecimentos – a realização do acontecimento A

implica a realização do acontecimento B se e só se todo o elemento de A
é elemento de B, e escreve-se A ⊂ B .
2) Identidade de acontecimentos – A e B são acontecimentos idênticos se e

só se A ⊂ B e B ⊂ A , ou seja, se e só se a realização de um implica a
realização do outro, e escreve-se A=B .
3) União de acontecimentos – a união de dois acontecimentos A e B é o

acontecimento que se realiza se e só se A ou B se realizam (ou seja, se e
só se pelo menos um deles se realiza). Este acontecimento representa-se
por A ∪ B e é formado pelos elementos que pertencem a A ou pertencem
a B.
4) Intersecção de acontecimentos – a intersecção de dois acontecimentos A

e B é o acontecimento que se realiza se e só se A e B se realizam
conjuntamente. Este acontecimento representa-se por A ∩ B e é formado
pelos elementos comuns a A e B.
5
5) Dois acontecimentos, A e B, dizem-se mutuamente exclusivos ou
incompatíveis se e só se a realização de um deles implica a não
realização do outro. Isto ocorre quando qualquer elemento de A não é
elemento de B.
6) Para contornar a impossibilidade de efectuar a intersecção de dois

acontecimentos incompatíveis, introduz-se o conceito de acontecimento
impossível: é o acontecimento que resulta da intersecção de dois
acontecimentos incompatíveis e representa-se por ∅. Assim, A e B são
incompatíveis se e só se A ∩ B = ∅ . O acontecimento Ω costuma
designar-se por acontecimento certo, uma vez que qualquer que seja o
resultado da experiência este pertence a Ω.
7) Diferença de acontecimentos – a diferença entre os acontecimentos A e

B é o acontecimento que se realiza se e só se A se realiza sem que se
realize B e representa-se por A − B . Este acontecimento é constituído
por todos os elementos que pertencem a A e não pertencem a B.
8) Quando B ⊂ A , A − B diz-se o acontecimento complementar de B em

relação a A. Em particular, Ω − A diz-se o acontecimento contrário ou
complementar de A, realiza-se se e só se A não se realiza e representa-se
por A . Tem-se, evidentemente, que A ∩ A = ∅ e A ∪ A = Ω . Note-se

que, utilizando o conceito de acontecimento complementar, pode
escrever-se A − B = A ∩ B .
6
As propriedades das operações definidas sobre acontecimentos são as
mesmas que as propriedades das operações definidas sobre conjuntos:
associatividade, comutatividade, distributividade e leis de De Morgan.
Tarefa: rever estas propriedades em Murteira et al [2007].
2.4 Interpretações do conceito de probabilidade
2.4.1 Clássica
A primeira interpretação de probabilidade a surgir foi a interpretação

clássica (surgiu no início do século XIX e foi explicitada por Laplace).
Considere-se um Ω finito composto por n acontecimentos elementares
Ω = {ω1 , ω 2 , ..., ω n }
A probabilidade de qualquer acontecimento A ( A ⊂ Ω) pode ser obtida à

custa das probabilidades dos acontecimentos elementares. Isto porque
A = {ω i1 , ω i 2 , ..., ω im } = {ω i1 } ∪ {ω i 2 } ∪ ... ∪ {ω im }
Atendendo a que os acontecimentos elementares são incompatíveis, tem-se
P( A) = P({ωi1}) + P({ωi 2 }) + ... + P({ωim })
7
Assumindo que os acontecimentos elementares são igualmente possíveis,
então
1
P({ωi }) = , i = 1, 2,..., n
n
e, portanto,
m
P( A) =
n
sendo m o número de acontecimentos elementares contidos em A e n o

número de acontecimentos elementares de Ω . Assim, segundo a
interpretação clássica, a probabilidade de um acontecimento é o quociente
entre o número de casos favoráveis ao acontecimento (m) e o número de
casos possíveis (n) (note-se que esta fórmula para o cálculo da probabilidade
de um acontecimento pressupõe um Ω finito e acontecimentos elementares
igualmente prováveis). É importante referir que, em muitas situações, é
necessário recorrer à análise combinatória para fazer a contagem do
número de casos favoráveis e do número de casos possíveis.
Uma das críticas que é feita a esta interpretação é que é circular pois o
conceito de probabilidade é referido na própria definição (“acontecimentos
elementares igualmente prováveis”). Outra das críticas tem a ver com o facto
de esta fórmula não se poder aplicar aos casos em que o Ω não é finito e/ou
os acontecimentos elementares não são igualmente possíveis.
8
2.4.2 Frequencista
A interpretação frequencista vigorou durante a primeira metade do século

XX e ainda hoje é aceite pela maioria dos estatísticos. Foi com base nesta
interpretação que surgiram os axiomas que definem a probabilidade de um
acontecimento.
Segundo esta interpretação, tomar P( A) como a probabilidade do

acontecimento A equivale a aceitar que, numa repetição numerosa da
experiência aleatória em condições semelhantes, a frequência relativa do
acontecimento A é aproximadamente igual a P( A) . Isto significa que,
tomado um ε arbitrariamente pequeno e positivo, existe sempre um inteiro N
suficientemente grande tal que, numa sucessão de N ou mais provas, é
praticamente certo que
P ( A) − ε < f N ( A) < P ( A) + ε
com f N ( A) a frequência relativa do acontecimento A em N provas (ou seja,

R
f N ( A) = com R o número de realizações de A em N provas).
N
Constata-se que as frequências relativas verificam as seguintes propriedades:
1) f N ( A) ≥ 0 , ∀ A
2) f N (Ω ) = 1
3) Se A e B são acontecimentos incompatíveis, A ∩ B = ∅ , ao fim de N

provas tem-se
f N ( A ∪ B ) = f N ( A) + f N (B )
9
No ponto 2.5 verificaremos que os axiomas de Kolmogorov são adaptações
destas propriedades.
Uma das críticas que é feita a esta interpretação é que nem todas as
experiências são passíveis de se poderem repetir um grande número de vezes
em condições semelhantes. Por exemplo, a experiência que consiste em
observar se o actual governo se vai manter inalterado nos próximos 6 meses
não se pode repetir. A observação da taxa de inflação em anos sucessivos
não pode ser repetida em condições semelhantes.
2.4.3 Subjectiva
Segundo a interpretação subjectiva ou personalista, as probabilidades são

expressões do grau de credibilidade que as pessoas atribuem aos
acontecimentos. As probabilidades são atribuídas aos acontecimentos de
uma forma pessoal, em função das características das pessoas, das suas
formações e do nível do conhecimento que têm acerca dos acontecimentos.
As pessoas podem exprimir os graus de credibilidade que atribuem aos

acontecimentos através de apostas. São características desta interpretação
afirmações do seguinte tipo acerca de uma dada proposição: “aposto 3 contra
1 em como a proposição é verdadeira”. Um indivíduo ao fazer esta
afirmação está implicitamente a admitir que a probabilidade da proposição
ser verdadeira é ¾ e a probabilidade da afirmação ser falsa é ¼.
Desde que os indivíduos sejam coerentes ao atribuírem os graus de

credibilidade aos acontecimentos, verifica-se que as probabilidades assim
fixadas também verificam os axiomas de Kolmogorov que serão
apresentados no ponto 2.5.
10
Apesar desta interpretação ultrapassar o problema da obrigatoriedade de se
poder repetir a experiência um grande número de vezes em condições
semelhantes, inerente à interpretação frequencista, também está sujeita a
críticas. Uma das críticas que lhe é feita é o facto dos processos segundo os
quais os indivíduos exprimem os graus de credibilidade poderem ser
diferentes. Além disso, mesmo que o processo utilizado seja o mesmo,
devido às diferentes características, formações e níveis de conhecimento dos
assuntos, as probabilidades atribuídas a um determinado acontecimento por
diferentes pessoas podem ser diferentes.
2.5 Definição axiomática de probabilidade. Primeiros teoremas.
A probabilidade é uma medida do grau de incerteza que se atribui à

realização de acontecimentos. Esta medida tem várias interpretações, as
principais das quais foram estudadas no ponto anterior. No entanto, as
características gerais da medida de probabilidade são comuns a todas as
interpretações (vimos isso em relação às interpretações frequencista e
subjectiva e é fácil verificar que estas características são também satisfeitas
pelas probabilidades calculadas segundo a fórmula da interpretação clássica)
e podem ser formalizadas através de um número reduzido de proposições
fundamentais – axiomas – a partir das quais é possível obter, por dedução
lógica, proposições ou teoremas que, juntamente com os axiomas, dão corpo
à teoria matemática da probabilidade. Os axiomas que se vão apresentar
de seguida são conhecidos como axiomas de Kolmogorov.
11
A medida de probabilidade é uma função P que a cada acontecimento
A , A ⊂ Ω , faz corresponder um número real, P( A) , probabilidade do
acontecimento A, que verifica os três axiomas seguintes:
P1) P ( A) ≥ 0
P2) P(Ω) = 1
P3) Se A e B forem acontecimentos incompatíveis, A ∩ B = ∅ , então
P ( A ∪ B) = P ( A) + P ( B )
Os teoremas que vamos apresentar de seguida dizem-se teoremas

elementares ou primeiros teoremas pois demonstram-se apenas com base
nos axiomas de Kolmogorov.
Teorema 1 – Sendo ∅ o acontecimento impossível, P(∅ ) = 0 .
Teorema 2 – Para qualquer acontecimento A, P(A ) = 1 − P( A) .
Teorema 3 – Sendo A e B acontecimentos quaisquer,
P (B − A) = P (B ) − P ( A ∩ B )
Teorema 4 – Sendo A e B acontecimentos quaisquer,
P ( A ∪ B ) = P ( A) + P (B ) − P ( A ∩ B )
12
Teorema 5 – Sendo A e B acontecimentos quaisquer, se A ⊂ B , então
P ( A) ≤ P (B )
Corolário 1 – Para qualquer acontecimento A, P( A) ≤ 1 .
Note-se que o teorema 4 se pode generalizar para 3 ou mais acontecimentos.

No caso particular de 3 acontecimentos, tem-se:
P( A ∪ B ∪ C ) = P( A) + P(B ) + P(C ) − P( A ∩ B ) − P( A ∩ C ) − P(B ∩ C ) + P( A ∩ B ∩ C )
Tarefa: ver as demonstrações dos teoremas anteriores que não foram

feitas na aula em Murteira et al [2007].
Exercícios
1. Sejam A e B dois acontecimentos definidos num mesmo espaço de

resultados. Mostre que:
P[( A ∩ B ) ∪ ( A ∩ B )] = P( A) + P( B) − 2 P( A ∩ B)
2. Numa população, 20% das famílias têm máquina de lavar louça, 30% têm
máquina de lavar roupa e 10% têm ambos os tipos de máquinas.
Escolhida uma família ao acaso, calcule a probabilidade de:
a) Ter pelo menos um dos tipos de máquinas.

b) Não ter qualquer dos tipos de máquinas.
c) Ter um e um só dos tipos de máquinas.
13
3. Para cada um dos casos seguintes indique, justificando, qual a
interpretação do conceito de probabilidade (clássica, frequencista ou
subjectiva) que julga mais adequada:
a) Probabilidade de no próximo ano a taxa de inflação ser superior a 5%.

b) Probabilidade de obter a face com 6 pontos ao lançar um dado regular.
c) Probabilidade de uma peça extraída ao acaso de um lote muito
numeroso ser defeituosa.
d) Probabilidade de obter o primeiro prémio numa dada semana em que
compra um bilhete de lotaria.
e) Probabilidade de o PIB crescer mais que 3%, no próximo ano.
f) Probabilidade de uma pessoa, escolhida ao acaso de entre as que
entram num armazém, realizar uma compra.
4. Numa cidade são publicados três semanários: S1, S2 e S3. Sabe-se que:
- 22% dos habitantes lêem S1;

- 8% dos habitantes lêem S1 e S2;
- 2% dos habitantes lêem os três.
Calcule a probabilidade de um habitante da cidade, escolhido ao acaso:
a) Ler pelo menos um semanário;

b) Ler um e um só semanário;
c) Não ler qualquer dos semanários.
14
2.7 Probabilidades condicionadas. Teorema de Bayes.
Dados dois acontecimentos, A e B, a probabilidade de A se realizar sabendo-

se que B se realizou – ou probabilidade de A condicionada por B –,
designada por P ( A | B ) , é definida por
P( A ∩ B )
P( A | B ) = se P(B) > 0
P( B )
Facilmente se verifica que a probabilidade condicionada é uma medida

de probabilidade já que verifica os axiomas de Kolmogorov. Isto significa
que se aplicam às probabilidades condicionadas os teoremas demonstrados
para as probabilidades simples. Exemplos:
1) P( A | B) = 1 − P( A | B)
2) P(( A ∪ C ) | B) = P( A | B) + P(C | B) − P(( A ∩ C ) | B)
A probabilidade condicionada pode interpretar-se como uma reavaliação da

probabilidade de um acontecimento quando se tem a informação de que
outro acontecimento se realizou. Uma vez conhecida a realização desse
outro acontecimento, B, o espaço de resultados deixa de ser Ω e passa a ser
B. Desta forma, o acontecimento A só se realiza quando se realiza A ∩ B .
Através da fórmula de probabilidade condicionada anterior obtêm-se as

seguintes relações:
P( A ∩ B ) = P( B ) P( A | B ) = P ( A) P( B | A)
15
Exemplo – Suponhamos que um dado é lançado duas vezes sucessivamente
e que são observados os números de pontos obtidos nos dois lançamentos.
Sabendo que os números de pontos obtidos não são iguais, qual a
probabilidade de que a sua soma seja 4?
Diz-se que a classe de acontecimentos {A1 , A2 ,..., Am ,...} é uma partição do
espaço de resultados Ω quando
Ai ∩ A j = ∅ , (i ≠ j ) e i Ai =Ω
Podem considerar-se partições com um número finito ou com uma

infinidade numerável de acontecimentos.
Uma partição tem a seguinte propriedade:
P( A
i i
)= i =1 P ( Ai ) =1
Teorema da Probabilidade Total – Se {A1 , A2 ,..., Am ,...} é uma partição de
Ω e se P( Ai ) > 0 (i = 1,2,..., m,...) , vem, para qualquer acontecimento B,
P( B ) = i =1
P ( Ai ) P( B | Ai )
16
Teorema de Bayes - Se {A1 , A2 ,..., Am ,...} é uma partição de Ω e se
P( Ai ) > 0 (i = 1,2,..., m,...) , vem, para qualquer acontecimento B a verificar
P( B ) > 0 ,
P( Ai ) P ( B | Ai )
P( Ai | B ) =
i =1
P( Ai ) P ( B | Ai )
A expressão deste teorema é a conhecida fórmula de Bayes.
Note-se que, tal como i =1 P ( Ai ) = 1 , também se tem i =1 P ( Ai | B) = 1 .
2.8 Independência
Dois acontecimentos, A e B, do mesmo espaço de resultados, dizem-se

independentes, se e só se
P( A ∩ B ) = P( A) P( B )
Teorema – Se A e B forem acontecimentos independentes, então
P( A | B ) = P( A) se P(B) > 0
P( B | A) = P( B ) se P(A) > 0
Este teorema tem uma interpretação clara: se dois acontecimentos são

independentes, o conhecimento de que um deles se realizou em nada altera a
probabilidade do outro se realizar.
17
Teorema – Se os acontecimentos A e B são independentes, também o são A
e B , A e B, A e B .
Tarefa: fazer a demonstração deste teorema.
Teorema – Sejam A e B dois acontecimentos tais que P( A) > 0 e P( B) > 0 .

Se A e B são acontecimentos independentes, não são mutuamente
exclusivos; se A e B são acontecimentos mutuamente exclusivos, não são
independentes.
Este teorema vem confirmar que não se devem confundir acontecimentos

independentes com acontecimentos mutuamente exclusivos.
Note-se que qualquer acontecimento A é independente de ∅ e Ω:
P( A ∩ ∅ ) = P ( A) P (∅) = 0
P( A ∩ Ω ) = P ( A) P (Ω) = P ( A)
Exercício
Uma empresa discográfica de Braga reparte as suas vendas por 4 categorias

de música diferentes. As vendas de música clássica e pop/rock são de
montante igual enquanto que as vendas de música jazz e de outros tipos de
música correspondem a 20% e 10% do total, respectivamente. As vendas
distribuem-se entre homens e mulheres, dentro de cada categoria, de acordo
com os seguintes valores:
18
Clássica Pop/Rock Jazz Outros
Homens 60% 35% 70% 40%
Mulheres 40% 65% 30% 60%
a) Um aluno da Universidade do Minho acaba de comprar um disco.

Calcule a probabilidade de que ele tenha escolhido um disco de música
jazz.
b) A partir do resultado obtido na alínea anterior mostre que as vendas de
música jazz dependem do sexo do comprador.
3. VARIÁVEIS ALEATÓRIAS
3.1 Conceito de variável aleatória
Se considerarmos uma dada experiência aleatória e o espaço de resultados Ω

que lhe está associado, uma variável aleatória relacionada com a experiência
pode ser concebida como uma regra que associa a cada resultado possível da
experiência, ou seja, a cada elemento ω ∈ Ω , um nº real.
Uma variável aleatória (v.a.) X é uma função real de elementos de Ω. O

conjunto de valores que X pode assumir representa-se por R X .
Por agora, para realçar que uma v.a. X é uma função de elementos de Ω,
vamos utilizar a notação X (ω ) . Tem-se pois que, com ω ∈ Ω , X (ω ) : Ω → ℜ,
ou seja, X (ω ) tem por domínio Ω e por contradomínio RX ⊂ ℜ .
19
Exemplos:
1) Na experiência do lançamento de uma moeda tem-se, por exemplo,
ω X (ω)
Ω = {C , F } → {0,1} = RX
; X (ω )
C 0
F 1
A atribuição de números reais aos ω é, neste caso, puramente

convencional.
2) Na experiência que consiste em lançar um dado duas vezes

sucessivamente, sendo registados os números de pontos obtidos nos dois
lançamentos, pode definir-se uma v.a. que representa a soma dos pontos
obtidos nos dois lançamentos:
Ω = { ( x1, x2 ) : x1, x2 = 1, 2, 3, 4, 5, 6 } ; ω = ( x1, x2 ) ∈ Ω
X (ω ) = x1 + x 2 ; R X = {2, 3, 4, ..., 12}
Dado um acontecimento, A ⊂ Ω , chama-se imagem de A por X, e

representa-se por X ( A) , ao conjunto de valores que X assume para os
elementos ω ∈ A :
X ( A) = {X (ω ) : ω ∈ A}
20
Por outro lado, a cada subconjunto, E ⊂ ℜ , pode fazer-se corresponder o
subconjunto, X −1 (E ) , formado por todos os elementos
ω ∈ Ω tais que X (ω ) ∈ E :
X −1 (E ) = {ω ∈ Ω : X (ω ) ∈ E}
X −1 (E ) designa-se por imagem inversa de E por X.
X (ω ) assume valores de um subconjunto E ⊂ ℜ quando e só quando ω

pertence à imagem inversa de E
X (ω ) ∈ E ⇔ ω ∈ X −1 ( E )
Por isso, justifica-se definir a probabilidade da variável X (ω ) assumir um

valor do conjunto E ⊂ ℜ como sendo a probabilidade de se realizar o
acontecimento X −1 (E )
[
P [ X (ω ) ∈ E ] = P X −1
(E ) ]
3.2 Variáveis aleatórias discretas

3.2.1 Definição
Uma variável aleatória diz-se discreta se o conjunto de valores que pode

assumir, R X , é um conjunto discreto (aqui, discreto, tem o mesmo
significado que discreto no caso de um espaço de resultados).
Sendo assim, as probabilidades associadas a uma v.a. discreta podem ser

especificadas bastando apenas definir P[X = x ] para todos os x ∈ RX . Daqui
surge o conceito de função de probabilidade.
21
3.2.2 Função de probabilidade, função de distribuição e suas propriedades
A função de probabilidade de uma v.a. discreta X é definida da seguinte

forma:
f ( x ) = P[ X = x ] , x ∈ RX
A função de probabilidade de uma v.a. discreta obtém-se a partir das

probabilidades dos acontecimentos definidos em Ω. Desde que se conheça
P( A) , ∀ A ⊂ Ω é fácil obter f (x) :
[ ]
f ( x) = P[X = x ] = P X −1 ({x }) , x ∈ RX
com X −1 ({x }) = {ω ∈ Ω : X (ω ) = x}.
Note-se que para x ∉ R X , X −1({x }) = ∅ e, portanto, f ( x ) = P (∅ ) = 0 .
Geralmente, define-se f (x) só para os x : f ( x) > 0 , subentendendo-se que

f ( x) = 0 para os outros x (ou seja, para aqueles que não pertencem a R X ).
A função de probabilidade, f ( x) , verifica as seguintes propriedades:
1) f ( x ) ≥ 0 , ∀x ∈ ℜ
2) f ( x ) = 1 com R X = { x : f ( x ) > 0}
x∈ R x
3) P[X ∈ E ] = f ( x) , E ⊂ ℜ
x ∈E ∩ R X
22
Exemplo – Calcule a função de probabilidade da variável aleatória
X [( x1, x2 )] = x1 + x2 definida no caso da experiência que consiste em lançar um
dado duas vezes sucessivamente.
A função de distribuição de uma v.a. X, designada por F (x) , dá-nos o

valor da probabilidade de X assumir valores inferiores ou iguais a x, para
∀x ∈ ℜ , ou seja,
F ( x) = P[X ≤ x ], x ∈ ℜ
Esta função também pode ser designada por função de probabilidade

acumulada pois acumula probabilidade até x. A definição de função de
distribuição é válida tanto para v.a. discretas como para v.a. contínuas. A sua
forma de cálculo é que é diferente quer se trate de um caso ou de outro. No
caso de X ser uma v.a. discreta tem-se:
F ( x) = f (t )
t ≤ x ; t ∈R X
Exemplo – Considere uma v.a. X com a seguinte função de probabilidade:
x 1 2 3 4
1 1 1 1
f (x)
4 4 4 4
Calcule a função de distribuição de X.
23
A função de distribuição, F (x) , verifica as seguintes propriedades (quer
X seja uma v.a. discreta, quer seja uma v.a. contínua):
1) 0 ≤ F ( x) ≤ 1
2) F (x) é não decrescente, ou seja,
∆x > 0 F ( x) ≤ F ( x + ∆ x)
3) lim F ( x) = 0 ; lim F ( x ) = 1
x → −∞ x → +∞
4) x2 > x1 : P[x1 < X ≤ x2 ] = F ( x2 ) − F ( x1 ) , ∀ x1, x2
5) F ( x) é contínua à direita, ou seja,

lim F ( x ) = F ( a + 0) = F ( a )
x→a +
6) P[X = a ] = F (a ) − F (a − 0) com F ( a − 0) = lim− F ( x)

x→a
Note-se que, no caso de X ser uma v.a. discreta, a propriedade 6 diz-nos que
f ( x) = P[ X = x ] com x ∈ R X é igual ao salto que F ( x) dá nesse ponto.
Através das propriedades enunciadas acima é possível determinar, em

termos de F (x) , a probabilidade da v.a. X assumir valores em determinados
tipos de intervalos:
1) P[X < x] = P[ X ≤ x ] − P[ X = x ] = F ( x) − [F ( x) − F ( x − 0)] = F ( x − 0)
2) P[X > x] = 1 − P[X ≤ x ] = 1 − F ( x)
3) P[X ≥ x ] = 1 − P[ X < x ] = 1 − F ( x − 0)
24
4) P[x1 < X < x2 ] = P[x1 < X ≤ x2 ] − P[X = x2 ] =
F ( x2 ) − F ( x1) − [F ( x2 ) − F ( x2 − 0)] = F ( x2 − 0) − F ( x1)
5) P[x1 ≤ X < x2 ] = P[x1 < X ≤ x2 ] − P[X = x2 ] + P[X = x1 ] = F ( x2 − 0) − F ( x1 − 0)
6) P[x1 ≤ X ≤ x2 ] = P[x1 < X ≤ x2 ] + P[ X = x1 ] = F ( x2 ) − F ( x1 − 0)
Deve notar-se que só faz sentido usar as igualdades apresentadas acima

quando se está a trabalhar com v.a. discretas.
3.2.3 Funções de uma variável aleatória
Se tivermos a função de probabilidade de uma v.a. discreta X, f (x) , é

possível determinar, a partir desta, a função de probabilidade de uma v.a. Y
que seja função de X, Y = g ( X ) .
Seja X uma v.a. discreta com função de probabilidade, f x (x ) , e conjunto de

valores que pode assumir, R X . Seja também Y = g ( X ) , uma outra v.a.
função de X. Verifica-se que Y também é uma v.a. discreta com
RY = {y : y = g ( x ) , x ∈ Rx } e a sua função de probabilidade, fY ( y ) , pode ser
obtida da seguinte forma:
fY ( y ) = f X ( x) , y ∈ RY com B y = {x : x ∈ R X ; g ( x ) = y}
x∈B y
25
Exemplo – Considere uma v.a. X com a seguinte função de distribuição:
0 , x < −10
14 , − 10 ≤ x < 0
F ( x) =
3/ 4 , 0 ≤ x < 10
1 , x ≥ 10
Determine a função de probabilidade e a função de distribuição de

Y = 7 X − 50.
Exercícios
1 – O número de automóveis encomendados, mensalmente num stand, é uma

v.a. X com a seguinte função de probabilidade:
x: 0 1 2 3 4
f(x) : 0.3 0.3 0.2 0.1 0.1
a) Calcule a função de distribuição da variável X.

b) Quantos automóveis deve o stand ter num mês para que a
probabilidade de satisfazer todas as encomendas não seja inferior a
0.75?
c) Num mês, em que apenas haja 3 automóveis em stock no stand, qual a
distribuição da v.a. que representa a diferença, em valor absoluto, entre
a procura e o stock.
26
2 – Numa loja da especialidade a procura diária de rádios para automóvel
(de certo modelo) é uma v.a. X com função de probabilidade:
x: 0 1 2 3 4
f(x) : 0.2 p1 p2 0.2 0.1
Sabe-se que em metade dos dias em que se verifica procura superior a

1, o número de rádios solicitados é de 2.
a) Calcule p1 e p2 , justificando.
b) No início de certo dia existem apenas 2 rádios do modelo referido.
Calcule a probabilidade de serem vendidos (admita que a procura
coincide com a venda sempre que existe o produto procurado).
c) Em relação à alínea anterior, obtenha a distribuição da v.a.: “número
de rádios vendidos”.
3.2.4 Valor esperado de uma variável aleatória discreta
O valor esperado ou média de uma v.a. X (discreta ou contínua) é um

parâmetro de localização da distribuição. Representa o ponto em torno do
qual mais se concentram as probabilidades ou densidades de probabilidade.
Representa-se por E [X ] ou µ X .
No caso de X ser uma v.a. discreta com função de probabilidade f (x ) , o

valor esperado ou média de X é dada por
27
E [X ] = x f ( x)
x∈R X
quando
| x | f ( x) < ∞
x∈R X
ou seja, quando a série indicada acima for absolutamente convergente.
Note-se que neste caso E[X ] é a média ponderada dos valores x ∈ RX . Cada
valor x é ponderado pela probabilidade de X assumir esse valor, ou seja, por
f (x ) .
Seja G ( X ) uma função da v.a. X discreta referida acima. O valor esperado

de G ( X ) é dado por
E [G ( X )] = G( x) f ( x)
x ∈R X
desde que a série seja absolutamente convergente.
Teorema (válido para v.a. discretas e contínuas) – Se X é uma v.a. então
a) E [c ] = c , com c uma constante qualquer
b) E [c H ( X )] = c E [H ( X )] , com c uma constante qualquer
c) E [H ( X ) + J ( X )] = E [H ( X )] + E [J ( X )]
desde que os valores esperados existam.
28
Em particular, verifica-se (com Y uma outra v.a.):
a) E [c X ] = c E [X ]
b) E [X + Y ] = E [X ] + E [Y ]
A variância de uma v.a. X (discreta ou contínua) é definida da seguinte

forma:
[
V [X ] = E ( X − µ X ) 2 ]
Também pode ser designada por σ X2 . A variância de X é uma medida de

dispersão dos valores observados de X em torno do seu valor esperado. Ao
valor positivo da raíz quadrada de σ X2 dá-se o nome de desvio padrão da
v.a. X e designa-se por σ X . Enquanto σ X2 é medida nas unidades de X ao

quadrado, σ X é medido nas mesmas unidades de X.
No caso de X ser uma v.a. discreta, V [X ] calcula-se da seguinte forma:
V [X ] = ( x − µ X ) 2 f ( x)
x∈R X
Uma fórmula alternativa para o cálculo de V [X ] é a seguinte:
[ ]
V [X ] = E X 2 − {E [X ] }
2
29
Tarefa: provar que V [X ] também se pode calcular usando a fórmula
alternativa.
Pode provar-se que (seja X uma v.a. discreta ou contínua):
a) V [c ] = 0 , com c uma constante qualquer
b) V [c X ] = c 2 V [X ], com c uma constante qualquer
c) V [X + c ] = V [X ], com c uma constante qualquer
Tarefa: provar as 3 propriedades anteriores de V [X ] .
Exercícios
1 – Um determinado artigo é objecto de procura diária aleatória, cuja lei de

probabilidade é dada pela seguinte tabela:
x: 0 1 2 3 4 5 6
f(x) : 0.1 0.15 0.2 0.25 0.15 0.1 0.05
Calcule:
a) A função de distribuição de X.
b) A probabilidade da procura diária exceder 4.
c) A probabilidade da procura diária ser inferior a 2.
d) P[2 ≤ X ≤ 5] .
e) O conjunto A = {x ∈ ℜ : P[ X < x ] = 0.7}.
30
2 – Uma v.a. X, discreta, tem função de probabilidade
x: 0 1 2 3 4
f(x) : 0.2 0.2 0.1 0.3 0.2
a) Calcule E[X ] e V [X ] .
b) Sendo Y = X − 2 , determine E[Y ] e V [Y ] .
1
c) Faça Z = e calcule a média e a variância de Z.
X +1
3.3 Variáveis aleatórias contínuas

3.3.1 Definição
Se X é uma v.a. cuja função de distribuição, F(x), é uma função contínua

para − ∞ < x < +∞ , então X diz-se uma v.a. contínua.
Exemplos:
0 , x<0
1) F ( x) = x , 0 ≤ x ≤ 1
1 , x >1
0 , x<0
2) G ( x) = −x
1− e , x≥0
31
Note-se que nas v.a. contínuas, uma vez que F (x) é uma função contínua em
∀a ∈ ℜ , tem-se que:
F (a ) = F (a − 0) com F (a − 0) = lim F ( x)
x →a −
e, portanto, usando a propriedade 6 das funções de distribuição tem-se:
P[X = a] = 0 , ∀ a ∈ ℜ .
Sendo assim, ao contrário do que acontece com as v.a. discretas, tem-se que:
P[a ≤ X ≤ b ] = P[a ≤ X < b ] = P[a < X ≤ b ] = P[a < X < b ] = F (b) − F ( a )
3.3.2 Função densidade de probabilidade, função de distribuição e suas

propriedades
Seja X uma v.a. contínua com função de distribuição F (x) . A função

densidade de probabilidade da v.a. X é definida da seguinte forma:
dF ( x )
f ( x) = = F ′( x )
dx
O conjunto de valores que a v.a. contínua X pode assumir é:

R X = {x : f ( x ) > 0}.
32
A função de distribuição de uma v.a. contínua verifica:
x
F ( x ) = P[ X ≤ x ] = f (t ) dt , − ∞ < x < +∞
−∞
Note-se que, tendo f (x) é possível obter F (x) , como se acabou de ver. Por
outro lado, tendo F (x) é possível obter f (x) : f ( x ) = F ′( x ) . Note-se

também que neste caso P[X = x ] = 0 , ∀x ∈ ℜ .
No caso de uma v.a. discreta, a função de probabilidade no ponto x é uma

probabilidade, f ( x) = P[X = x ] . No caso de uma v.a. contínua, a função
densidade de probabilidade no ponto x é a densidade de probabilidade no
ponto x,
F ( x + ∆ x) − F ( x)
f ( x) = F ' ( x) = lim
∆ x →0 ∆x
nunca a probabilidade de X assumir esse valor, uma vez que P[X = x] = 0 . No

entanto, o acontecimento [X = x] não é impossível, tem é probabilidade nula.
É quase impossível no sentido de que, quando se efectua a experiência
aleatória, é praticamente impossível obter um ponto x ∈ℜ especificado à
priori.
33
A função densidade de probabilidade (f.d.p.) , f (x) , verifica as seguintes
propriedades:
1) f ( x ) ≥ 0 , ∀x ∈ ℜ
+∞
2) f ( x ) dx = 1
−∞
x2
3) f ( x ) dx = F ( x2 ) − F ( x1 ) = P[x1 < X ≤ x2 ], com x2 > x1
x1
Atendendo a que P[X = x1 ] = P[X = x2 ] = 0 , a propriedade 3 também se

pode escrever com qualquer das probabilidades:
P[x1 ≤ X < x2 ], P[x1 ≤ X ≤ x2 ] , P[x1 < X < x2 ].
3.3.3 Funções de uma variável aleatória
Seja uma função real de variável real, y = g (x ) , definida em todos os pontos

d g ( x)
x de um conjunto D. Suponha-se que existe para todos os x ∈ D . Se
dx
para todos os x1 , x2 ∈ D , com x1 < x2 , se tiver g ( x1 ) < g ( x2 ) , a função g(x)
diz-se monótona crescente; no caso de se ter g ( x1 ) > g ( x2 ) para todos os
x1 e x2 a verificarem as mesmas condições, g(x) diz-se monótona
decrescente.
Uma importante propriedade de uma função monótona crescente ou

decrescente é que a função inversa, x = g −1 ( y ) , existe.
34
Teorema – Seja X uma v.a. contínua e seja g(x) uma função contínua,
diferenciável e monótona crescente ou decrescente. Então se Y = g ( X ) , a
função de distribuição da v.a. Y vem
(
FY ( y ) = FX g −1 ( y ) ) se g ( x ) é monótona crescente
(
= 1 − FX g −1 ( y ) ) se g ( x ) é monótona decrescent e
e a f.d.p. de Y vem
d g −1 ( y )
fY ( y ) = f X ( −1
g ( y) )dy
3.3.4 Valor esperado de uma variável aleatória contínua
No caso de X ser uma v.a. contínua com f.d.p. f(x), o valor esperado ou
média de X é dada por
+∞
E [X ] = x f ( x ) dx
−∞
quando o integral é absolutamente convergente.
35
Seja G ( X ) uma função da v.a. X contínua referida acima. O valor esperado
de G ( X ) é dado por
+∞
E [G ( X )] = G ( x ) f ( x ) dx
−∞
desde que o integral seja absolutamente convergente.
Note-se que a variância de uma v.a. contínua é dada pelas mesmas

fórmulas que a variância de uma v.a. discreta. No entanto, as respectivas
formas de cálculo são diferentes.
3.4 Momentos de uma variável aleatória. Parâmetros de ordem.
O momento de ordem k de uma v.a. X é definido da seguinte forma:
[ ]
mk = E X k , k = 1, 2 , ...
desde que o valor esperado exista.
O momento de ordem 1 de uma v.a. X é dado por
m1 = E [ X ] = µ X
O momento de ordem 2 de uma v.a. X é
[ ]
m2 = E X 2 = V [X ] + {E [ X ]}2 = σ X2 + µ X2
36
O conhecimento de m1 e m2 de uma v.a. X permite-nos calcular a média e a
variância de X e, portanto, m1 e m2 dão informação acerca do centro da

distribuição de probabilidade e da variação das observações de X em relação
a esse centro. Os momentos de ordem superior a 2 dão informação acerca
das outras características das distribuições tais como: a assimetria e o
achatamento das distribuições. Mostra-se que o conhecimento de
[ ]
E X k , k = 1, 2 , ... (ou seja, de todos os momentos de X) é suficiente para
especificar completamente a distribuição de probabilidade de X.
Em muitas situações, nomeadamente quando uma distribuição não tem

momentos, recorre-se, para proceder à sua caracterização parcial, em
especial nos aspectos da localização e da dispersão, a outra família de
parâmetros, a dos parâmetros de ordem. Os parâmetros de ordem também
se podem definir para as distribuições discretas. No entanto, estes
parâmetros têm mais interesse do ponto de vista prático no caso das v.a.
contínuas.
Seja X uma v.a. contínua com função de distribuição F (x) . O quantil de

ordem α ou o (100α)-ésimo quantil da v.a X, ξα , é um valor de X que
satisfaz a condição
F (ξα ) = α , 0 < α < 1
O quinquagésimo quantil, ξ 0.5 , também é designado por mediana da v.a. X e

pode representar-se alternativamente por med ( X ) . A mediana corta a área
abaixo da função densidade de probabilidade da v.a. X em duas partes, cada
uma das quais com área igual a 0.5. A mediana é uma medida alternativa do
centro da distribuição da probabilidade.
37
O 25º, 50º e 75º quantis de uma v.a. X também são designados por quartis
da v.a. X. Têm esta designação porque dividem a área abaixo da f.d.p. de X
em 4 partes, cada uma com área igual a 0.25.
A amplitude interquartis de uma v.a. X é dada por
AIQ = ξ0.75 − ξ0.25
Dá-nos a amplitude de um intervalo “centrado” na mediana e que contém

50% da probabilidade. Por vezes, é utilizada como uma medida alternativa
da dispersão dos valores observados de X.
Exercícios
1 - Seja X uma variável aleatória com a seguinte função densidade de

probabilidade:
k x 2 para 0 < x < 3

f ( x) =
0 para outros valores de x
a) Determine k e a função de distribuição da variável X.

b) Calcule P[X < 2.5 X > 1.75].
c) Calcule o valor esperado e a variância de X.
d) Determine a função densidade de probabilidade da variável
Y = 2 X − 1 e o seu valor esperado.
e) Calcule a mediana e a amplitude interquartis de X.
38
2 – Seja X uma v.a. com função densidade de probabilidade:
f ( x) = 2 (1 − x) , 0 < x < 1
a) Represente a f.d.p. graficamente.

b) Calcule F (x) .
c) Calcule as seguintes probabilidades: P[X ≤ 0.8] , P[0.2 < X < 0.6] e
P[ X > 0.5].
d) Calcule E[X ] e V [ X ] .
e) Calcule a mediana e a amplitude interquartis de X.
3 – Um bombardeiro transporta uma bomba para uma missão de

bombardeamento a um caminho de ferro. Se a bomba cair a menos de
40 metros da linha férrea, os estragos serão suficientes para provocar a
interrupção do tráfego ferroviário. Caso contrário, a linha férrea não
será danificada de modo a provocar tal interrupção. Suponha que a
distância, em metros, entre o ponto de impacto da bomba e a linha
férrea é uma variável aleatória X com a seguinte função densidade de
probabilidade:
k−x
f ( x) = , 0≤ x≤k
5000
a) Determine k. Para esse valor de k, calcule a função de distribuição

da variável X.
b) Sabendo que a missão do bombardeiro não foi bem sucedida,
calcule a probabilidade da bomba ter caído a mais de 70 metros da
linha férrea.
39
c) Calcule a média e a mediana da distância entre o ponto de impacto
da bomba e a linha férrea. Calcule ainda a probabilidade de cada
um destes valores ser excedido.
4. ESTUDO DAS DISTRIBUIÇÕES DE PROBABILIDADE

DISCRETAS MAIS UTILIZADAS EM ECONOMIA E EM
GESTÃO
4.1 Distribuições de Bernoulli e Binomial
A distribuição de Bernoulli aparece associada com a experiência aleatória,

designada por prova de Bernoulli, em que se observa a realização ou a não
realização de determinado acontecimento A com probabilidade P ( A) = p . A
realização de A diz-se um “sucesso”, e a sua não realização, que tem
probabilidade P( A ) = 1 − p = q , um “insucesso”. Seja X a v.a. que
caracteriza a experiência descrita. Assim,
1, se o acontecimento A ocorre, isto é, verifica-se um sucesso

X=
0 , se o acontecimento A não ocorre, isto é, verifica-se um insucesso
A função de probabilidade de X vem:
f (1) = p ; f ( 0) = 1 − p = q ; p + q =1
ou, de forma mais compacta,
f ( x ) = p x q1− x , x = 0,1 ; p + q =1
40
Mostra-se facilmente que
E [X ] = p ; V [X ] = p q
Tarefa: mostrar os dois resultados anteriores.
Uma experiência aleatória que consiste numa sucessão de N provas de

Bernoulli independentes, em que a probabilidade de obter um sucesso em
cada prova é p, é chamada uma experiência Binomial com N provas e
parâmetro p.
O espaço de resultados de uma experiência aleatória Binomial vem:
{
Ω= (x1, x2,..., xN ) : xj = s, i , j =1, 2,...,N }
Em cada prova de Bernoulli j (j=1, 2, …, N) temos:
Pj [{s}] = p ; Pj [{}
i ]= q =1− p
Como as provas são independentes temos:
P[{(s , s, s, ..., s )}] = p p p p = pN
P[{(i , i, i, ..., i )}] = q q q q = qN
P[{(s , i, i, ..., i )}] = p q q q = p q N −1
e assim sucessivamente.
41
A v.a. X que representa o nº de sucessos obtidos numa experiência
Binomial com N provas e parâmetro p é designada por v.a. Binomial com
parâmetros N e p. Simbolicamente escreve-se X ∼ B ( N ; p ) .
Teorema – Se X é uma v.a. Binomial com parâmetros N e p a sua função de

probabilidade é dada por:
N
f ( x) = p x q N − x , x = 0, 1, 2, ..., N
x
Note-se que uma v.a. de Bernoulli é um caso particular da v.a. Binomial

(N=1): X ∼ B (1; p ) .
Mostra-se que:
E [X ] = N p ; V [X ] = N p q
Os valores da função de distribuição de uma v.a. Binomial podem obter-se

manualmente. No entanto, em geral, levam a cálculos laboriosos. Torna-se
conveniente obter estes valores através da tabela que existe para esta v.a.
É fácil de ver que uma v.a. Binomial com parâmetros N e p é a soma de N

v.a. de Bernoulli independentes com parâmetro p. O mesmo tipo de
raciocínio leva ao teorema que se segue.
42
Teorema (Aditividade da Binomial) – Se as v.a. X i , i = 1, 2, ..., m , são
m m
independentes e X i ∼ B ( N i ; p ) então Xi ∼ B Ni ; p .
i =1 i =1
Note-se que
X ∼ B( N ; p) N − X ∼ B( N ; 1 − p)
em que (N – X) representa o nº de insucessos numa experiência Binomial

com N provas e parâmetro p. Este resultado é útil quando p > 0.5 , pois estes
valores de p não estão tabelados. Todos os cálculos em relação a X podem
ser feitos com base na v.a. (N – X), para a qual p ≤ 0.5 .
Exercícios
1 – Cinco dados regulares são lançados de uma só vez. Seja X o número de 1

que saem num lançamento. Calcule a média de X, a variância de X, a
P[1 ≤ X < 4] e P[ X ≥ 2] .
2 – Sabe-se que 10% dos vidros produzidos por uma máquina são
defeituosos. Se escolhermos aleatoriamente 10 vidros produzidos por esta
máquina, qual a probabilidade de nenhum deles ser defeituoso? Quantos
vidros podemos esperar que sejam defeituosos no conjunto dos 10?
43
3 – Da produção diária duma máquina retiram-se, para efeito de controlo, 10
peças. Da experiência conclui-se que 80% das peças podem considerar-se
“boas”. Calcule a probabilidade de, nas 10 peças, haver mais de 8 peças
“boas”.
4 – A produção de parafusos em certa unidade fabril é assegurada por duas

máquinas (M1 e M2) de funcionamento independente. Da experiência
pode concluir-se que a proporção de parafusos com defeito, em cada uma
das máquinas, é de 5%. Atendendo à capacidade das máquinas e para
efeitos de controlo de qualidade colhe-se diariamente uma amostra de 4
parafusos da M1 e uma de 8 da M2.
a) Calcule a probabilidade de se encontrar 2 parafusos com defeito no

conjunto das duas amostras.
b) Os parafusos são vendidos em embalagens de 20, garantindo o
fabricante que 90% são de boa qualidade. Calcule a probabilidade
dessa garantia ser violada.
4.2 Distribuição de Poisson
A v.a. de Poisson representa o nº de eventos que ocorrem num período de

tempo com uma determinada duração, desde que esses eventos sejam
gerados segundo determinadas hipóteses. Esta variável pode representar o nº
de doentes que afluem em cada domingo ao banco de um hospital, o nº de
avarias sofridas por uma máquina de tecelagem durante um ano, o nº de
veículos que passam por uma portagem durante um determinado período do
dia, etc.
44
As hipóteses segundo as quais são gerados os eventos associados à
distribuição de Poisson são as hipóteses do processo de Poisson aproximado.
Processo de Poisson Aproximado – Suponha-se que se procede à contagem

do nº de eventos ocorridos ao longo do tempo. Tem-se um processo de
Poisson aproximado com parâmetro λ > 0 quando se verificam as seguintes
condições:
• O nº de eventos que ocorrem em dois intervalos disjuntos são

independentes;
• A probabilidade de ocorrer exactamente um evento em qualquer

intervalo de amplitude ∆t arbitrariamente pequena é
aproximadamente λ ∆t ;
• A probabilidade de ocorrerem dois ou mais eventos em qualquer

intervalo de amplitude ∆t arbitrariamente pequena é
aproximadamente igual a zero.
Uma v.a. X com função de probabilidade
e −λ λ x
f ( x) = , x = 0, 1, 2, ... (λ > 0)
x!
diz-se que tem distribuição de Poisson de parâmetro λ. Simbolicamente,

escreve-se X ∼ P ( λ ) .
45
Mostra-se que
E [X ] = V [X ] = λ
Se os acontecimentos num processo de Poisson ocorrem a uma taxa média

de λ , por unidade de tempo, então o número de ocorrências num intervalo
de amplitude t ( t > 0 ), representado pela v.a. X (t ) , tem distribuição de
Poisson de parâmetro ( λ t ) , ou seja,
e − λ t (λ t ) x
f ( x) = P[ X (t ) = x ] = , x = 0, 1, 2, ... (λ > 0)
x!
Pode, portanto, concluir-se que o número esperado de ocorrências num

intervalo de amplitude t é ( λ t ) .
Exemplos – Se o número de avarias sofridas por uma máquina de tecelagem

segue um processo de Poisson com taxa média de 2 por mês, o número
esperado de avarias num ano é igual a 24. No caso do número de veículos
que passam numa portagem seguir um processo de Poisson com taxa média
de 30 por hora, o número esperado de passagens em meia hora é de 15.
Teorema (Aditividade da Poisson) – Se as v.a. X i , i = 1, 2, ..., m , são

m m
independentes e X i ∼ P(λ i ) então Xi ∼ P λi .
i =1 i =1
46
4.3 Aproximação da Binomial pela Poisson
Teorema (Aproximação da Binomial pela Poisson) – A distribuição

Binomial converge para a de Poisson quando N → ∞ e p → 0 , mantendo-se
constante o produto ( N p ) .
Este resultado significa que, quando N é grande e p pequeno, a v.a. Binomial

com parâmetros N e p pode ser aproximada por uma v.a. de Poisson com
parâmetro ( N p ) . Este resultado é útil pois a tabela da distribuição Binomial
só apresenta valores de N até 20. Muitos autores referem que a aproximação
referida acima é razoavelmente boa quando N ≥ 20 e p ≤ 0.05. A
aproximação é muito boa se N ≥ 100 e ( N p ) ≤ 10.
Exercícios
1 – Observou-se que num certo ponto de uma estrada rural os carros passam
a uma taxa média de 3 por hora. Suponha-se que os momentos em que os
carros passam são independentes e seja X o nº de carros que passam neste
ponto num intervalo de 20 minutos. Calcule P[X = 0] e P[X ≥ 2] .
2 – Numa fábrica os acidentes ocorrem à taxa de 1 em cada 2 meses.

Assumindo que os acidentes ocorrem independentemente uns dos outros,
qual é o nº esperado de acidentes por ano? Qual o desvio padrão do nº de
acidentes por ano? Qual a probabilidade de não haver nenhum acidente
num determinado mês?
47
3 – O número de pessoas que acorrem diariamente a certo serviço de
atendimento ao público é uma v.a. com distribuição de Poisson de média
15. O serviço funciona das 10 às 16 horas e atende no máximo 25 pessoas
por dia.
a) Qual a probabilidade de entre as 10 e as 12 horas chegarem menos de 5

pessoas.
b) Qual a probabilidade de num dia a primeira pessoa chegar depois das
12 horas.
c) Qual a proporção de dias em que ficam pessoas por atender?
4 - Estatísticas médicas revelam que determinada doença, cujo tratamento é

extremamente dispendioso, afecta uma em cada cinco mil pessoas. Uma
seguradora, depois de estudar o assunto, decidiu criar um seguro para
cobertura das despesas de tratamento. Num determinado ano, a
companhia de seguros tem em carteira 3000 apólices desse tipo.
a) Determine a probabilidade de nenhuma das pessoas seguradas contrair

a doença, nesse ano.
b) Sabendo que, no ano em causa, já foi efectuada uma participação à
seguradora, calcule a probabilidade de não se verificar mais de 3
participações até final do ano.
48
5. ESTUDO DAS DISTRIBUIÇÕES DE PROBABILIDADE
CONTÍNUAS MAIS UTILIZADAS EM ECONOMIA E EM
GESTÃO
5.1 Distribuição Uniforme
Teorema – Se X é uma v.a. contínua com distribuição Uniforme no

intervalo ] a, b [ , a sua função densidade de probabilidade vem
1
, a< x<b
b−a
f ( x) =
0 , x ≤ a ou x ≥ b
Simbolicamente, escreve-se: X ∼ U (a, b) .
Note-se que se X ∼ U (a, b) a probabilidade de X tomar valores em qualquer
subintervalo de ] a, b [ é proporcional ao comprimento desse subintervalo.
Mostra-se que, se X ∼ U (a, b) , então
a+b (b − a ) 2 b−a
E[X ] = ; V [X ] = ; σX =
2 12 12
Tarefa: mostrar os resultados anteriores.
49
A função de distribuição de X ∼ U (a, b) vem
0 , x≤a
x−a
F ( x) = , a< x<b
b−a
1 , x≥b
Teorema – Se X é uma v.a. contínua com função de distribuição F (x)

então a v.a. Y = F (X ) tem distribuição Uniforme no intervalo ] 0, 1 [ .
A mudança de variável Y = F (X ) é chamada transformação

uniformizante.
Exercícios
1 - Duma estação de caminho de ferro parte (sem atraso) de 20 em 20

minutos um comboio para uma certa localidade. Um utilizador faz esse
percurso uma vez por dia, desconhecendo, no entanto, o horário. Qual a
probabilidade desse utilizador, que acaba de chegar à estação, esperar no
máximo 5 minutos até à saída do comboio?
2 – Assuma que X tem distribuição Uniforme no intervalo ] 0,10 [ e sejam

a>0 e b>0 constantes tais que a + b ≤ 10 . Calcule
P[ X > a + b | X > a ] .
50
5.2 Distribuição Normal
Se X é uma v.a. contínua com f.d.p.
−( x − µ ) 2
1 2σ 2
f ( x) = e , − ∞ < x < +∞ , − ∞ < µ < +∞ , σ > 0
σ 2π
diz-se que a v.a. X tem distribuição Normal com parâmetros µ e σ.

Simbolicamente, escreve-se: X ∼ N ( µ , σ ) .
Mostra-se que, se X ∼ N ( µ , σ ) , então
E[X ] = µ ; V [X ] = σ 2 ; σ X = σ
Z −µ
Se Z ∼ N ( µ , σ ) então a v.a. X = tem distribuição N (0, 1) , ou seja, X
σ
tem distribuição Normal estandardizada.
Se X ∼ N (0, 1) então a sua f.d.p. vem
x2
1 − 2
φ ( x) = e
2π
e a sua função de distribuição

2
x −µ
1
Φ ( x) = e 2 du
2π −∞
51
Só a Normal estandardizada está tabelada. Há tabelas para φ (x ) e Φ (x) ,
mas usa-se quase sempre a tabela de Φ (x) .
A f.d.p. de uma v.a. X ∼ N ( µ , σ ) tem a forma de sino e é simétrica em

relação à recta x = µ . Como se pode constatar pelo gráfico da f.d.p. de
X ∼ N ( µ , σ ) , tem-se f ( µ − x) = f ( µ + x) . No caso de X ∼ N (0, 1) tem-se
também φ ( x) = φ (− x) . Neste caso tem-se também Φ ( x) = 1 − Φ (− x) . Esta

igualdade é importante para o cálculo de probabilidades na aba esquerda da
distribuição X ∼ N (0, 1) (em geral, só se encontram tabelados valores de
x ≥ 0 , devido à simetria da distribuição).
Geralmente, os cálculos de probabilidades em relação a uma v.a.

X ∼ N ( µ , σ ) fazem-se através de Φ (x) :
x1 − µ x0 − µ
P [x0 < X < x1 ] = Φ −Φ
σ σ
x−µ
P[ X < x ] = Φ
σ
x−µ
P[ X > x ] = 1 − Φ
σ
Teorema (Aditividade da Normal) – Se as v.a. X i , i = 1, 2, ..., N , são

N N N
independentes e cada X i ∼ N (µ i , σ i ) então Xi ∼ N µi, σ i2 .
i =1 i =1 i =1
52
Exercícios
1 – A altura que um atleta da modalidade salto em altura consegue saltar é

uma v.a. Normal com média 2 metros e desvio padrão 10 cm.
a) Qual é a altura que o atleta consegue saltar com probabilidade 0.95?

b) Qual é a altura que ele consegue saltar só 10% das vezes?
2 – O montante de depósitos à ordem efectuados diariamente, em certa

agência bancária, é uma v.a. com distribuição Normal de média 120 u.m.
e variância 64.
a) Determine a percentagem de dias em que o montante de depósitos à

ordem se situa entre 105 e 135 u.m..
b) Determine a probabilidade do montante de depósitos ser superior à
média nos dias em que esse montante é inferior a 125 u.m..
c) Determine a média e a variância do montante de depósitos à ordem
efectuados semanalmente (5 dias).
3 – Os eixos produzidos por uma máquina consideram-se não defeituosos se

o valor absoluto do desvio do diâmetro do eixo para as dimensões
projectadas não é maior do que 2 mm. Os desvios aleatórios do diâmetro
dos eixos obedecem a uma distribuição Normal de média nula e desvio
padrão 1.6 mm. Qual é a percentagem de eixos não defeituosos
produzidos?
53
5.3 Aproximações da Binomial e da Poisson pela Normal. Teorema do
Limite Central.
Teorema do Limite Central – Dada a sucessão de v.a. independentes e

identicamente distribuídas, X 1 , X 2 , ..., X N , ... , com média µ e variância σ 2 ,
então, quando N → +∞ , a função de distribuição da v.a.
N
X i − Nµ
i =1
ZN =
Nσ
tende para uma função de distribuição N(0,1), ou seja, a distribuição

assimptótica de Z N é N(0,1). Simbolicamente,
Z N ∼ N ( 0 ,1 )
Os teoremas seguintes podem ser considerados corolários do teorema do

limite central.
Teorema (Aproximação da Binomial pela Normal) – Dada a sucessão de

v.a. independentes e identicamente distribuídas, X 1 , X 2 , ..., X N , ... , com
distribuição de Bernoulli com média E[X i ] = p e, portanto,

V [X i ] = p (1 − p ) ,
N
Xi − N p
i =1
∼ N(0,1)
N p (1 − p)
54
N
Note-se que no teorema anterior X = X i ∼ B( N ; p ) . Assim, quando N é
i =1
grande, as probabilidades da Binomial, que, em geral, exigem cálculos

laboriosos, podem obter-se rapidamente de forma aproximada recorrendo à
N(0,1).
Teorema (Aproximação da Poisson pela Normal) – Se X é uma v.a. com

distribuição de Poisson, X ∼ P (λ ) , então
X −λ
lim P λ ≤ x = Φ( x) .
λ → +∞
Alternativamente, pode dizer-se que, quando λ → +∞ , tem-se
X −λ
∼ N ( 0 ,1 )
λ
Também os cálculos de probabilidades com a distribuição de Poisson podem

tornar-se laboriosos. Com λ grande, também estas probabilidades se podem
obter de forma aproximada recorrendo à N(0,1).
55
Exercícios
1 – Numa fábrica produz-se o artigo A à razão de 100 unidades por dia. A

quantidade da matéria-prima B, incorporada em cada artigo, é uma v.a.
de média 75 grs e variância 225.
a) Determine a percentagem de dias em que o consumo de matéria-prima

não excede 7.6 kgs.
b) Os artigos são vendidos em lotes de 200. Supondo que o custo da
matéria-prima é de 0.25 euros/grama, qual deve ser o valor a
considerar na formação do preço de venda do lote, de modo a cobrir o
custo da matéria-prima em 95% das situações?
2 – O número de acessos, por dia, a um certo site da internet é uma v.a. com
distribuição de Poisson de parâmetro =30.
a) Calcule P[X > 40] .

b) Qual a probabilidade do número de acessos de uma semana (7 dias) se
situar entre 200 e 220?
c) Determine a probabilidade de, num mês (30 dias), se observarem, no
máximo, cinco dias com mais de 40 acessos.
56

Aulas2 IAG

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aulas2 IAG

Enviado por

Direitos autorais:

Formatos disponíveis

2.

Como vimos no ponto 1.1, a Teoria da Probabilidade, na qual se

O início da Teoria da Probabilidade esteve ligado aos chamados “jogos de

2.2 Experiências aleatórias. Espaço de resultados.

O objecto da Teoria da Probabilidade é o estudo de certos fenómenos

Uma experiência aleatória é qualquer processo que conduz a resultados

O espaço de resultados (ou espaço-amostra) associado a uma experiência

Exemplos de espaços de resultados:

1) Lançamento de uma moeda

3) Lançamento de uma moeda seguido do lançamento de um dado

Ω = { ( F ,1) , ( F ,2) , ..., ( F ,6) , (C,1) , (C,2) ,..., (C,6) }

A observação da duração de um determinado tipo de componente electrónica,

1. Diga qual o espaço de resultados associado à experiência que consiste em

2. Diga qual o espaço de resultados associado à experiência que consiste em

3. Diga qual o espaço de resultados associado à experiência que consiste em

Um acontecimento é qualquer subconjunto do espaço de resultados. Os

Ao efectuar a experiência associada com Ω diz-se que o acontecimento A ,

1) Na experiência do lançamento de um dado são acontecimentos:

A = { 1, 3, 5} (“saída de um nº de pontos ímpar”)

2) Na experiência do lançamento de uma moeda seguido do lançamento de

A = { ( F ,1), (C,1) } (“saída de um nº de pontos igual a 1 no

B = { (C ,1) , (C , 2) , (C, 3) , (C, 4) , (C , 5) , (C , 6)} (“saída de uma

1) Implicação de acontecimentos – a realização do acontecimento A

2) Identidade de acontecimentos – A e B são acontecimentos idênticos se e

3) União de acontecimentos – a união de dois acontecimentos A e B é o

4) Intersecção de acontecimentos – a intersecção de dois acontecimentos A

6) Para contornar a impossibilidade de efectuar a intersecção de dois

7) Diferença de acontecimentos – a diferença entre os acontecimentos A e

8) Quando B ⊂ A , A − B diz-se o acontecimento complementar de B em

por A . Tem-se, evidentemente, que A ∩ A = ∅ e A ∪ A = Ω . Note-se

2.4 Interpretações do conceito de probabilidade

A primeira interpretação de probabilidade a surgir foi a interpretação

Considere-se um Ω finito composto por n acontecimentos elementares

A probabilidade de qualquer acontecimento A ( A ⊂ Ω) pode ser obtida à

Atendendo a que os acontecimentos elementares são incompatíveis, tem-se

P( A) = P({ωi1}) + P({ωi 2 }) + ... + P({ωim })

sendo m o número de acontecimentos elementares contidos em A e n o

A interpretação frequencista vigorou durante a primeira metade do século

Segundo esta interpretação, tomar P( A) como a probabilidade do

com f N ( A) a frequência relativa do acontecimento A em N provas (ou seja,

Constata-se que as frequências relativas verificam as seguintes propriedades:

3) Se A e B são acontecimentos incompatíveis, A ∩ B = ∅ , ao fim de N

Segundo a interpretação subjectiva ou personalista, as probabilidades são

As pessoas podem exprimir os graus de credibilidade que atribuem aos

Desde que os indivíduos sejam coerentes ao atribuírem os graus de

2.5 Definição axiomática de probabilidade. Primeiros teoremas.

A probabilidade é uma medida do grau de incerteza que se atribui à

Os teoremas que vamos apresentar de seguida dizem-se teoremas

Teorema 1 – Sendo ∅ o acontecimento impossível, P(∅ ) = 0 .

Teorema 2 – Para qualquer acontecimento A, P(A ) = 1 − P( A) .

Teorema 3 – Sendo A e B acontecimentos quaisquer,

Teorema 4 – Sendo A e B acontecimentos quaisquer,

Corolário 1 – Para qualquer acontecimento A, P( A) ≤ 1 .

Note-se que o teorema 4 se pode generalizar para 3 ou mais acontecimentos.

P( A ∪ B ∪ C ) = P( A) + P(B ) + P(C ) − P( A ∩ B ) − P( A ∩ C ) − P(B ∩ C ) + P( A ∩ B ∩ C )

Tarefa: ver as demonstrações dos teoremas anteriores que não foram

1. Sejam A e B dois acontecimentos definidos num mesmo espaço de

a) Ter pelo menos um dos tipos de máquinas.

a) Probabilidade de no próximo ano a taxa de inflação ser superior a 5%.

- 22% dos habitantes lêem S1;

Calcule a probabilidade de um habitante da cidade, escolhido ao acaso:

a) Ler pelo menos um semanário;

Dados dois acontecimentos, A e B, a probabilidade de A se realizar sabendo-