TextosPE 26 Outubro2023

i
Notas de
Probabilidades e Estatı́stica
Licenciatura em Engenharia Eletrotécnica e de Computadores
Maria da Graça Santos Temido Neves Mendes
Departamento de Matemática
FCTUC
2023 – 2024
Versão em construção
A educação é a arma mais poderosa que podemos

escolher para mudar o mundo.
Nelson Mandela
ii
Grande parte dos exercı́cios presentes nestes textos de apoio foram recolhidos de folhas
práticas e de outros textos de apoio elaboradas ao longo dos anos pelos docentes do grupo
de Probabilidades e Estatı́stica do Departamento de Matemática da FCTUC. Em especial,
agradeço à Professora Esmeralda Gonçalves e à Professora Cristina Martins os conteúdos dis-
ponibilizados recentemente.
♣♦♠♥
Todos devem aprender a ler, escrever e contar.
Todos devem aprender a pensar, a ler, escrever .... e a decifrar números!
O que é a Estatı́stica ? O que é uma população? O que é uma amostra?

Uma população é um conjunto de indivı́duos com caracterı́sticas comuns
que interessa estudar. Uma amostra é um subconjunto de elementos
extraı́dos da população com metodologia estatı́stica apropriada.
E a Estatı́stica, o que é?
• A Estatı́stica ocupa-se das metodologias de planeamentro de experiências,

obtenção de dados, sua organização para posteriormente
interpretar e tirar conclusões com base nos dados disponı́veis.
• A Estatı́stica ocupa-se das propriedades das populações, principalmente

as que são susceptı́veis de representação numérica como resultado de
medições ou contagens.
•A Estatı́stica é a tomada de decisões num contexto de incerteza.
Então
a estatı́stica é a arte de tirar conclusões
a partir de um conjunto de dados!!
Conteúdo
1 Teoria das Probabilidades 3

1.1 Diferentes conceitos de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Condicionamento e independência estocástica de acontecimentos . . . . . . . . 8
1.3 Variáveis aleatórias e distribuições . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.1 Variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.2 Distribuições discretas e distribuições contı́nuas . . . . . . . . . . . . . . 16
1.3.3 Momentos simples e centrados de variáveis aleatórias . . . . . . . . . . 20
1.3.4 Vetores aleatórios reais . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.3.5 Distribuições mais usadas em Estatı́stica . . . . . . . . . . . . . . . . . . 29
1.4 Teorema Limite Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2 Análise exploratória de dados 51

2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.2 Variáveis estatı́sticas quantitativas unidimensionais . . . . . . . . . . . . . . . 53
2.2.1 Variáveis discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.2.2 Variáveis contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.2.3 Variáveis estatı́sticas qualitativas unidimensionais . . . . . . . . . . . . 64
2.3 Variáveis estatı́sticas bidimensionais . . . . . . . . . . . . . . . . . . . . . . . . 64
2.3.1 Variáveis qualitativas versus qualitativas . . . . . . . . . . . . . . . . . 64
2.3.2 Variáveis qualitativas versus quantitativas . . . . . . . . . . . . . . . . 66
2.3.3 Variáveis quantitativas versus quantitativas . . . . . . . . . . . . . . . . 66
1
2 Conteúdo
Capı́tulo 1
Teoria das Probabilidades
Wembley, 1986. Manchester United e Benfica disputam a final da Taça dos Campeões
Europeus. A minutos do fim, com resultado 1-1, um passe longo lança Eusébeio. O Pantera
Negra corre como um felino entre dois defesas, domina a bola à entrada da área e mal a
pisa remata em potência com o pé esquerdo. Uma bomba. Parecia golo certo, mas a bola
teimosamente deixou-se abraçar pelas mãos e pelo corpo do guarda-redes Alexander Stepney.
Alı́vio para uns. Desespero para outros – o Benfica via esfumar-se uma oportunidade de ouro
para conquistar o troféu. Para Eusébio, o protagonista, apenas surpresa e reconhecimento. Não
ergueu as mãos ao céu, nem maldisse a sua sorte. Limitou-se a cumprimentar o adversário pelo
que acabara de fazer, primeiro com uma festa na cabeça, depois de braço esticado à procura
de um aperto de mão que nunca aconteceu. (...) A diferença esteve na grandeza humana de
Eusébio. O seu gesto é um hino ao desporto, uma ode ao respeito, uma lição de vida.
Texto incluı́do num artigo da resvista Sábado de Janeiro de 2014
1.1 Diferentes conceitos de Probabilidade
De um modo geral, a teoria das probabilidades tem por objectivo encontrar modelos mate-
máticos que descrevam certos fenómenos naturais em que se supõe intervir o acaso, isto é,
fenómenos para os quais não é possı́vel, a partir do passado, prever deterministicamente o
futuro. A estes fenómenos chamamos fenómenos aleatórios.
Neste contexto surge também a noção de experiência aleatória que aqui definimos como
um processo ou conjunto de circunstâncias sujeitos a factores casuais capaz de produzir efeitos
observáveis mas incertos.
Exemplo 1.1.1. Lançamento de um dado; lançamento de uma moeda; lançamento de

três dados; observação e registo de temperatura; avaliação e registo de um caudal; contagem
do número de veı́culos que passam numa portagem de auto-estrada; contagem do número
de lançamentos de um dado até obter pela terceira vez a face 2; contagem do número de
alunos que chegam atrasados a uma aula.
3
4 Capı́tulo 1. Teoria das Probabilidades
Dada uma experiência aleatória chamamos:

• espaço fundamental, que representamos por Ω, ao conjunto de todos os resultados possı́veis
de obter ao realizar a experiência
• acontecimento a qualquer subconjunto de Ω
• acontecimento elementar a qualquer subconjunto de Ω que contenha apenas um elemento
de Ω
• acontecimento certo a Ω
• acontecimento impossı́vel ao conjunto vazio φ
• acontecimento contrário de A, que representamos por A, ao complementar de A (em Ω)
• acontecimento união de A com B ao conjunto A ∪ B
• acontecimento intersecção de A com B ao conjunto A ∩ B
• acontecimento diferença entre A e B a A − B = A ∩ B.
+∞
[
• acontecimento união numerável dos acontecimentos A1 , A2 , A3 , ..., An , ... a An
n=1
+∞
\
• acontecimento intersecção numerável dos acontecimentos A1 , A2 , A3 , ..., An , ... a An
n=1
Mais, dizemos que:
• o acontecimento A se realiza ou ocorre se ao realizar a experiência o resultado obtido
pertencer a A (Ω realiza-se sempre e φ nunca se realiza);
• dois acontecimentos A e B são incompatı́veis, disjuntos ou mutuamente exclusivos se
A ∩ B = φ.
Exemplo 1.1.2. Consideremos a experiência aleatória que consiste na contagem do

número de peças defeituosas fabricadas por uma máquina no perı́odo de uma hora, sendo
n ≥ 10 o número máximo de peças que a máquina é capaz de produzir durante esse perı́odo.
Tem-se Ω = {0, 1, ..., n}. Os acontecimentos A = {0, 1, 2} e B = {4, 5} são incom-
patı́veis e C = {3, 4, ..., n} é o complementar de A.
A questão que se coloca agora é a de saber como calcular as probabilidades de aconteci-

mentos e como evoluiu o conceito de probabilidade.
As experiências aleatórias que estiveram na origem da teoria das Probabilidades apresen-
tavam um número finito de resultados e a equipossibilidade de todos os resultados.
Definição 1.1.1. Definição clássica ou de Laplace de probabilidade.

Dada uma experiência aleatória, se Ω é finito e todos os seus elementos são equi-
possı́veis, então a probabilidade de A é o quociente entre o número de casos favoráveis à
ocorrência de A e o número de casos possı́veis de obter ao realizar a experiência, isto é
#A
P (A) = .
#Ω
1.1. Diferentes conceitos de Probabilidade 5
Exemplo 1.1.3. Ao lançarmos um dado equilibrado duas vezes consideremos os acon-

tecimentos A=“saı́da de um número par e de um número ı́mpar”e B=“ saı́da de um número
par seguida de um número ı́mpar”, ou seja, B = {(i, j) : i ∈ {2, 4, 6}, j ∈ {1, 3, 5}} e
A = B ∪ {(i, j) : i ∈ {1, 3, 5}, j ∈ {2, 4, 6}}.
Sabemos que #Ω = 6 × 6 = 36 e que todos os acontecimentos elementares têm a mesma
possibilidade de ocorrência. É então válido o conceito clássico de Laplace de probabilidade,
tendo-se P (A) = #A 2×3×3 1 #B
#Ω = 6×6 = 2 e P (B) = #Ω = 6×6 = 4 .
3×3 1
Exemplo 1.1.4. Consideremos a experiência aleatória associada ao Totoloto, isto é, a

experiência que consiste na extração aleatória de 6 bolas de uma urna que contém 49 bolas
numeradas de 1 a 49. Consideremos os acontecimentos A=“ saı́da de uma determinada
chave fixa”e B=“ saı́da de uma chave com seis números pares”. Podemos, mais uma vez,
C 24
usar o conceito clássico de Laplace para obter P (A) = C149 e P (B) = C649 .
6 6
Suponhamos agora que lançamos uma moeda equilibrada com as faces representadas por C
e K. Sendo a moeda equilibrada, sabemos que P (C) = P (K) = 1/2. No entanto se lançarmos
a moeda um número reduzido de vezes, a frequência relativa de C dificilmente será igual a 1/2.
Mas, sabemos também que se prolongarmos a realização da experiência “indefinidamente”, a
frequência relativa de C vai estabilizando em torno de 1/2. Este exemplo, aqui apresentado
com um ponto de vista meramente académico, motiva uma outra definição de probabilidade
que assenta essencialmente na regularidade estatı́stica associada a certos fenómenos aleatórios
e que permite definir a probabilidade como limite de uma frequência relativa.
Definição 1.1.2. Definição frequencista de probabilidade (Bernoulli). Consideremos

uma experiência aleatória e um acontecimento A que lhe está associado. Representemos
por fn (A) a frequência relativa do acontecimento A em n realizações da experiência, sempre
nas mesmas circunstâncias. Tem-se
P (A) = lim fn (A).

n−→+∞
Devemos observar que, mesmo realizando um número grande de vezes a experiência aleatória,
a atribuição de probabilidade a um acontecimento que advém da definição frequencista não é
mais do que tomar a frequência relativa desse acontecimento como aproximação da sua verda-
deira probabilidade.
Perante a indecisão de saber qual das duas definições deveremos usar e em que circunstâncias,
coloca-se a questão de saber se não se poderá definir a probabilidade de uma forma unificadora
e que, portanto, abranja as duas anteriores. Ora, a resposta a esta questão é dada pela de-
finição de probabilidade que se deve a um trabalho publicado em 1933 pelo matemático russo
Kolmogorov. Antes porém há que apresentar a definição de tribo sobre Ω.
Definição 1.1.3. Seja Ω o espaço fundamental associado a uma experiência aleatória.

Uma tribo sobre Ω é um conjunto de subconjuntos de Ω, que representamos por T , tal que
• Ω pertence a T ;
• se A pertence a T , então A também lhe pertence,
• se A1 , A2 , . . . , An , . . . pertencem a T , então +∞
S
i=1 Ai também lhe pertence.
Definição 1.1.4. Definição axiomática de probabilidade. Seja Ω o espaço fundamental

associado a uma experiência aleatória e T uma tribo sobre Ω. Uma probabilidade é uma
aplicação P : T −→ [0, 1], que verifica
i) P (Ω) = 1
ii) Para qualquer sucessão de acontecimentos A1 , A2 , ..., An , ..., dois a dois incompatı́veis,
+∞
[ +∞
X
tem-se P ( Ai ) = P (Ai ).
i=1 i=1
Proposição 1.1.1. Propriedades da probabilidade.
1. P (∅) = 0.
2. (Aditividade) Se A e B são acontecimentos incompatı́veis então P (A ∪ B) = P (A) +

P (B).
3. Se A e B são dois acontecimentos tais que A ⊆ B, então P (A) ≤ P (B).

Prova. Se A ⊆ B, então B é igual à união disjunta entre A e B ∩ A. Assim
P (B) = P (A) + P (B ∩ A), pelo que se tem P (A) ≤ P (B).
4. Se A e B são dois acontecimentos quaisquer então
(a) P (A) = 1 − P (A);

(b) P (A − B) = P (A) − P (A ∩ B);
(c) P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Provas.
(a) Como Ω = A ∪ A o resultado decorre imediatamente.
(b) Sendo A = (A − B) ∪ (A ∩ B) e (A − B) ∩ (A ∩ B) = ∅, pela propriedade 2.
obtemos
P (A) = P (A − B) + P (A ∩ B)
do que resulta o pretendido.
Notemos que se B ⊆ A, então tem-se P (A − B) = P (A) − P (B).
1.1. Diferentes conceitos de Probabilidade 7
(c) Ora, uma vez que A ∪ B = (A ∩ B) ∪ (A ∩ B) ∪ (A ∩ B) e A ∩ B, A ∩ B e

A ∩ B são disjuntos dois a dois, obtemos
P (A ∪ B) = P (A ∩ B) + P (A ∩ B) + P (A ∩ B)
= P (A) − P (A ∩ B) + P (B) − P (A ∩ B) + P (A ∩ B)
= P (A) + P (B) − P (A ∩ B).
5. Desigualdade de Boole: Se A1 , A2 , ..., An são acontecimentos quaisquer então

n
[ n
X
P( Ai ) ≤ P (Ai )
i=1 i=1
Exercı́cio 1.1.1. Um atirador efectua três disparos consecutivos sobre o mesmo alvo. Um
disparo é considerado bem sucedido se o projéctil atinge o alvo e mal sucedido no caso contrário.
Considere a experiência aleatória que consiste em observar os resultados dos sucessivos dispa-
ros.
1. Construa o correspondente espaço de resultados.
2. Considere os seguintes acontecimentos: A = “o alvo foi atingido apenas no terceiro

disparo”, B = “o alvo não foi atingido no segundo disparo”, C = “o alvo foi atin-
gido” (alguma vez), D = “o alvo foi atingido pelo menos duas vezes”.
(a) Defina extensivamente os seguintes acontecimentos:
D, B ∪ D, B ∩ C, B ∪ D, D\B, B ∩ D, A ∪ B ∪ D, A ∩ B ∩ C.
(b) Dos acontecimentos A, B, C e D, quais são os pares de acontecimentos que são

incompatı́veis?
Exercı́cio 1.1.2. Num lançamento de um dado viciado, a probabilidade de ocorrer cada

número ı́mpar é o dobro da probabilidade de ocorrer cada número par.
1. Indique o espaço fundamental associado a esta experiência aleatória e calcule a probabi-

lidade de cada acontecimento elementar.
2. Calcule a probabilidade de que o número de pontos obtido no lançamento do dado seja

superior a 3.
3. Calcule a probabilidade de que o número de pontos obtidos no lançamento do dado seja

um quadrado perfeito.
Exercı́cio 1.1.3. Uma roleta tem 20 sectores equiprováveis numerados de 1 a 20. Roda-se
e regista-se o número em que esta se imobilizou. Considere os acontecimentos : A=“Sai um
número menor ou igual que 10”e B=“Sai um número superior a k”. Sabendo que P (A∪B) = 1
e que P (A ∩ B) = 0.1, determine o valor de k.
Exercı́cio 1.1.4. Sejam A e B acontecimentos tais que P (A) + P (B) = x e P (A ∩ B) = y.

Determine, em função de x e de y, a probabilidade de
1. se realizar pelo menos um dos dois acontecimentos;
2. não se realizar nenhum dos dois acontecimentos;
3. se realizar um e um só dos dois acontecimentos;
4. se realizar quando muito um único acontecimento.
Exercı́cio 1.1.5. Considere os três acontecimentos A, B e C tais que A ∪ B ∪ C = Ω,

P( A)=0.3, P (B) = 0.7, P(C)=0.5 e A ∩ B = C ∩ B = ∅. Calcule P (A ∩ C).
Exercı́cio 1.1.6. Sejam A e B dois acontecimentos de um determinado espaço de proba-

bilidade tais que P (A) = 0.7, P (B) = 0.6 e P (A ∪ B) − P (A ∩ B) = 0.3.
Calcule P (B), P (A ∪ B), P (A ∩ B) e P (A\B).
Exercı́cio 1.1.7. Os atletas A, B, C e D são os únicos participantes de uma prova

desportiva. Sabe-se que a probabilidade de A ganhar a prova é o dobro da probabilidade de
B ganhar, e esta é o dobro da de C ganhar. Sabe-se ainda que os atletas C e D têm igual
probabilidade de ganhar a prova. Qual é a probabilidade de cada um dos atletas ganhar a prova?
Exercı́cio 1.1.8. Uma colecção de 100 programas de computador foi examinada para
detectar erros de “sintaxe”, “input/output”e de “outro tipo”diferente dos anteriores. Desses
100 programas, 20 tinham erros de “sintaxe”, 10 tinham erros de “input/output”e 5 tinham
erros de “outro tipo”, 6 tinham erros de “sintaxe” e de “input/output”, 3 tinham erros de
“sintaxe” e de “outro tipo”, 3 tinham erros de “input/output” e de “outro tipo” e 2 tinham
os três tipos de erros considerados. Um programa é seleccionado ao acaso desta colecção.
Determine a probabilidade de que o programa seleccionado tenha
1. exclusivamente erros de “sintaxe”;
2. pelo menos um dos três tipos de erros.
1.2 Condicionamento e independência estocástica de aconteci-

mentos
Suponhamos que para uma experiência aleatória conhecemos o espaço fundamental e que
temos definida uma probabilidade P .
Sejam A e B dois acontecimentos tais que P (B) 6= 0. Se depois de realizada a experiência
soubermos que se realizou B, de que modo essa informação parcial sobre o resultado da ex-
periência irá modificar a probabilidade de A? É o caso, por exemplo, em que ao realizarmos uma
experiência para determinar o tempo de vida de uma lâmpada e sabendo, num determinado
instante, que a lâmpada já durou pelo menos 100 horas, querermos saber qual a probabili-
dade de a lâmpada durar pelo menos mais 50 horas. Surge assim o conceito de probabilidade
condicionada.
1.2. Condicionamento e independência estocástica de acontecimentos 9
Definição 1.2.1. Dado um acontecimento B tal que P (B) 6= 0, chamamos probabili-

dade condicional de A dado B, ou probabilidade de A condicionada por B a
P (A ∩ B)
P (A|B) = .
P (B)
Observação 1.2.1. Notamos que, para qualquer acontecimento B tal que P (B) 6= 0, a
aplicação P (·|B) ( também denotada por PB (·)) que a um acontecimento A faz corresponder
P (A|B) é uma probabilidade.
Exemplo 1.2.1. Um dado perfeito, com as faces numeradas de 1 a 6, foi lançado

duas vezes. Sabendo que a soma das duas faces foi 6 qual é agora a probabilidade de que
no primeiro lançamento tenha saı́do a face 1?
Se definirmos B = “soma dos resultados ser 6” e A = “no primeiro lançamento sair 1”
teremos P (A|B) = 1/5. Com efeito, B = {(1, 5), (2, 4), (4, 2), (3, 3), (5, 1)} e A ∩ B =
{(1, 5)} e portanto P (A|B) = P P(A∩B) 1
(B) = 5 .
Exemplo 1.2.2. Consideremos a experiência aleatória que consiste na extracção de

uma carta de um baralho, não viciado, com 52 cartas. Consideremos os acontecimentos
A=“saı́da de ás”, B=“saı́da de dama”e C=“saı́da de espada”. Uma vez que se pode apli-
4 4 13
car o conceito clássico de Laplace, tem-se P (A) = 52 , P (B) = 52 e P (C) = 52 . Supondo
agora que se observou o acontecimento D=“saı́da de uma figura”a probabilidade dos acon-
4
tecimentos A, B e C será condicionada. De facto, tem-se P (A|D) = 0, P (B|D) = 12 = 13
3
e P (C|D) = 12 = 14 .
Proposição 1.2.1. (Teorema da Probabilidade Total) Sejam B1 , B2 , ..., Bn aconte-

cimentos do mesmo espaço, disjuntos dois a dois e com probabilidade não nula. Para
qualquer outro acontecimento A contido em ∪ni=1 Bi , tem-se
n
X
P (A) = P (A|Bi )P (Bi ).
i=1
Exemplo 1.2.3. Dos três fornecedores de um produto para um armazém (em partes de
30%, 50% e 20% respectivamente) todos fornecem o produto em lotes que por vezes estão em
condições indesejadas (atraso, peso insuficiente, impurezas, falta de especificidade, etc),
sendo a percentagem de lotes em condições indesejadas sobre o total fornecido por cada
um dos fornecedores de 0.7%, 0.5% e 0.4%, respectivamente.
Ao escolher aleatoriamente um lote desse produto e verificado que se encontrava em
condições indesejadas, qual o seu fornecedor mais provável?
Consideremos os acontecimentos A=“ o lote é fornecido pelo fornecedor A”, B=“ o
lote é fornecido pelo fornecedor B”e C=“ o lote é fornecido pelo fornecedor C”e I=“ o lote
é fornecido em condições indevidas”.
Tem-se P (A) = 0.3, P (B) = 0.5, P (C) = 0.2, P (I|A) = 0.007, P (I|B) = 0.005 e
P (I|C) = 0.004.
P (I ∩ A) P (I|A)P (A)
Por outro lado P (A|I) = = onde
P (I) P (I)
P (I) = P (I|A)P (A) + P (I|B)P (B) + P (I|C)P (C)

= 0.007 × 0.3 + 0.005 × 0.5 + 0.004 × 0.2
= 0.0054.
0.007 × 0.3
Então P (A|I) = ' 0.389.
0.0054
Também se tem
P (I ∩ B) P (I|B)P (B) 0.005 × 0.50
P (B|I) = = = ' 0.463
P (I) P (I) 0.0054
e
P (C|I) = 1 − P (A|I) − P (B|I) = 1 − 0.389 − 0.463 = 0.148.
Concluı́mos que o fornecedor mais provável é B.
Calculemos também a probabilidade de um determinado lote, escolhido ao acaso, ter
vindo do primeiro fornecedor e se apresentar em condições indesejadas. Esta probabilidade
é P (A ∩ I) = P (A|I)P (I) = 0.389 × 0.0054 ' 0.0021.
Exemplo 1.2.4. Num determinado material podem encontrar-se impurezas de vários

tipos. Em ensaios laboratoriais é possı́vel identificar impurezas de tipo A usando um pro-
duto que infelizmente não é totalmente eficaz. Com efeito, se as impurezas são de tipo
A o material adquire um tom azulado de certeza e, em caso contrário, a probabilidade de
o material ficar azulado é de 5%. A realização de vários ensaios permitiu concluir que a
probabilidade de o material adquirir o tom azul é de 35%.
Vamos calcular a probabilidade de haver impurezas de tipo A neste material.
Consideremos os acontecimentos A=“As impurezas são de tipo A”e B=“O material
adquire um tom azulado”.
Sabemos que P (B) = 0.35 e que P (B|Ā) = 0.05. Além disso A ∩ B = A, pois A ⊂ B,
donde P (A ∩ B) = P (A) e P (B|A) = 1.
Uma vez que P (B) = P (B|A) × P (A) + P (B|Ā)P (Ā) é equivalente a 0.35 = 1P (A) +
0.05(1 − P (A)), concluı́mos que P (A) = 0.3/0.95 ' 0.316.
Exemplo 1.2.5. Um grupo de alunos por vezes, em vez de ir às aulas, fica na residen-
cial a jogar dois jogos, sendo igualmente provável optarem por um ou por outro. Os jogos
consistem em adivinhar o número de pintas obtidas no lançamento de dados. No primeiro
jogo joga-se apenas com um dado e no segundo com dois dados. Sabendo que o resultado
foi 2 qual a probabilidade de estarem a jogar o primeiro jogo?

Sejam A=“Os alunos jogam o primeiro jogo”e B =“O resultado foi 2”. Tem-se
P (A ∩ B) P (B|A)P (A) 6
P (A|B) = = = .
P (B) P (B|A)P (A) + P (B|A)P (A) 7
Pode acontecer que a informação sobre a ocorrência de um certo acontecimento B não

modifique a probabilidade inicial de um outro acontecimento A. Basta pensar, por exemplo,
na experiência aleatória que consiste em lançar um dado e uma moeda ao mesmo tempo: a
ocorrência de um certo número no dado em nada altera a saı́da de cara ou de coroa na moeda.
Assim, surge a definição seguinte.
Definição 1.2.2. Dizemos que dois acontecimentos do mesmo espaço, A e B, são

independentes se P (A ∩ B) = P (A)P (B).
Note-se que, na definição anterior, no caso em que A e B têm probabilidade não nula, a
igualdade P (A∩B) = P (A)P (B) é equivalente a P (A|B) = P (A) bem como a P (B|A) = P (B).
Observamos ainda que qualquer acontecimento com probabilidade nula é independente de
qualquer outro do mesmo espaço e que qualquer acontecimento é independente do aconteci-
mento certo e do acontecimento impossı́vel. Mais ainda, dois acontecimentos disjuntos só são
independentes se pelo menos um deles tiver probabilidade nula.
Exemplo 1.2.6. Suponhamos que dispomos de um saco com 20 bolas de tamanho e

textura iguais, numeradas de 1 a 20, sendo as primeiras 10 azuis e as restantes amarelas.
Consideremos a experiência aleatória que consiste na extracção ao acaso de uma bola do
saco e registo do número que lhe foi atribuı́do. Representemos por A o acontecimento
“saı́da de bola azul”e por B o acontecimento “saı́da de bola com múltiplo de 4”. Por
extenso temos Ω = {1, 2, . . . , 20}, A = {1, 2, . . . , 10} e B = {4, 8, . . . 20}.
Usando a definição clássica de probabilidade, obtemos P (A) = 1/2 e P (B) = 1/4.
Suponhamos agora que dispomos da informação de que se realizou o acontecimento C=
“saı́da de bola com número par”. Nestas circunstâncias, temos P (A|C) = 21 = P (A) e
5
P (B|C) = 10 = 12 6= P (B). Concluı́mos assim que A e C são independentes mas que B e
C são dependentes.
Proposição 1.2.2. Se A e B são independentes também o são A e B, A e B, bem

como A e B.
Prova. Ora, se A e B são independentes tem-se P (A ∩ B) = P (A)P (B). Assim
P (A ∩ B) = P (A − B) = P (A) − P (A ∩ B)
= P (A) − P (A)P (B) = P (A)(1 − P (B)) = P (A)P (B).

Similarmente se prova que A e B são independentes. Por outro lado, também se tem
P (A ∩ B) = P (A ∪ B) = 1 − P (A ∪ B) = 1 − P (A) − P (B) + P (A ∩ B)
= P (A) − P (B) + P (A)P (B) = P (A) − P (B)(1 − P (A))
= P (A)(1 − P (B)) = P (A)P (B).
Genericamente, dado um conjunto de acontecimentos A1 , A2 , ..., An , dizemos que são mu-

tuamente independentes se, para qualquer conjunto de ı́ndices {i, j, ..., k} ⊆ {1, 2, ..., n} se
tem P (Ai ∩ Aj ∩ ... ∩ Ak ) = P (Ai )P (Aj )...P (Ak ). Evidentemente que se A1 , A2 , ..., An são
mutuamente independentes então são dois a dois independentes, três a três independentes etc.
Exercı́cio 1.2.1. São efetuados dois lançamentos sucessivos de um dado equilibrado com
as faces numeradas de 1 até 6, registando-se o número da face que fica voltada para cima em
cada lançamento.
1. Construa o espaço de resultados associado a esta experiência aleatória.
2. Considere os acontecimentos: A = “A soma dos dois números obtidos é 9 ”; B =

“Os números obtidos são 3 e 6”; C = “A diferença absoluta dos dois números obtidos é
1”, D = “Os números obtidos são iguais”; E = “O maior dos números obtidos é 4
ou 6. Determine P (A), P (A/B), P (A/C), P (A/C), P (A/D) e P (A/E).
Exercı́cio 1.2.2. Sabe-se que existe petróleo numa certa região com probabilidade 0.8 e
que, caso haja petróleo, a probabilidade de sair petróleo na primeira perfuração é de 0.5. Qual
é a probabilidade de sair petróleo na primeira perfuração?
Exercı́cio 1.2.3. Uma empresa produz peças de determinado tipo para o mercado naci-
onal e para exportação, sendo a produção para o mercado nacional metade da que se destina
à exportação. Um controlo de qualidade permitiu afirmar que 5% das peças lançadas no mer-
cado interno apresentam deficiências, sendo essa percentagem de 2% na produção destinada ao
mercado externo. Qual a percentagem de peças defeituosas na produção total da empresa?
Exercı́cio 1.2.4. O funcionamento de um satélite depende apenas do funcionamento de

três sistemas principais, designados A, B e C. Considera-se que o satélite está operacional
desde que pelo menos dois destes sistemas funcionem. Relativamente ao comportamento dos
sistemas A, B e C, sabe-se que:
• B e C funcionam independentemente e que se B falhar, então A também falha;
• A e B falham com probabilidades, respectivamente, 0.1 e 0.05;
• C falha com probabilidade 0.3 se A falhar; no caso de A funcionar, a probabilidade de C

falhar é 0.2.
1. Mostre que a probabilidade de C falhar é 0.21.
2. Calcule a probabilidade do satélite estar operacional.

Exercı́cio 1.2.5. Um fornecedor de aparelhos para detecção de água no subsolo argu-

menta que estes são de elevada confiança uma vez que P (A|B) = P (A|B) = 0.95, onde os
acontecimentos A e B são definidos da forma seguinte: A = “o aparelho indica a existência
de água”e B = “existe água na região do subsolo analisada”. Pretende-se utilizar o aparelho
para construir um depósito de água num lote de terreno onde a probabilidade de existir água é
igual a 0.05. Determine
1. P(A);
2. a probabilidade de existir água no lote, sabendo que o aparelho indica a existência de água
nesse lote.
Exercı́cio 1.2.6. Numa experiência laboratorial pretende-se ensinar um rato a virar à

direita num labirinto. Para tal, coloca-se o rato num compartimento com duas saı́das à escolha:
uma à direita e outra à esquerda. Em cada tentativa, se o rato sai pela direita é recompensado
com um cubo de queijo e se sai pela esquerda é castigado com um leve choque eléctrico. Admita
que o rato se move de acordo com o seguinte:
• na primeira tentativa escolhe aleatoriamente a saı́da;
• se em determinada tentativa foi recompensado, sai pela direita na tentativa seguinte com
probabilidade 0.6;
• se em determinada tentativa foi castigado, sai pela direita na tentativa seguinte com
probabilidade 0.8.
1. Qual a probabilidade de o rato sair pela direita na 2ª tentativa?
2. Sabendo que na 2ª tentativa o rato saiu pela direita, qual a probabilidade de ter saı́do pela
esquerda na 1ª?
Exercı́cio 1.2.7. Para saber se uma porta está aberta, um robot emite um feixe radiante
na sua direcção e mede a intensidade I do feixe reflectido, embora se saiba que I é também
afectada por outros factores. Concretamente, o robot é programado para considerar a porta
aberta quando I < I0 , tendo-se apurado, na fase de treino do robot, que P(I < I0 /Porta
aberta)=0.6 e P(I < I0 /Porta fechada)=0.3. Suponha que, na fase de trabalho autónomo do
robot, este se encontra diante de uma porta e obtém uma medição I inferior a I0 . Sabendo
que a probabilidade de a porta estar aberta é 0.5, determine a probabilidade do robot embater
contra uma porta fechada.
Exercı́cio 1.2.8. Uma empresa de telecomunicações elaborou um estudo sobre o tipo de

chamadas efetuadas pelos clientes da sua rede móvel, tendo constatado que:
• 40% das chamadas duraram mais de um minuto;
• 70% das chamadas com mais de um minuto foram feitas dentro da mesma rede;
• 40% das chamadas foram feitas para a rede fixa e 20% para outras redes móveis;
• 80% das chamadas que foram feitas para outras redes móveis duraram quando muito um
minuto.
Dos registos relativos ao referido estudo escolheu-se, ao acaso, uma chamada.

1. Mostre que a probabilidade de essa chamada ter sido feita para a rede fixa e ter durado
mais de um minuto é 0.08.
2. Qual é a probabilidade de a chamada durar mais de um minuto se não tiver sido feita
dentro da mesma rede?
Exercı́cio 1.2.9. Sejam A e B dois acontecimentos do mesmo espaço.
1. Mostre que, se A e B são independentes, então P (A) × P (B) = P (A ∪ B) − P (A).
2. Sabendo que A e B são independentes, P (A) = 1/3 e P (B) = 2/5, determine P (A ∪ B).
Exercı́cio 1.2.10. Sejam A e B acontecimentos com probabilidade não nula. Mostre que
se P (B|A) = P (B|A), então A e B são independentes.
Exercı́cio 1.2.11. Um sistema é constituı́do apenas por duas componentes, C1 e C2 , que
funcionam em paralelo. Admita que as componentes falham independentemente uma da outra
e que a probabilidade de cada componente falhar é 0.05.
1. Determine a probabilidade de o sistema funcionar.
2. Qual é a probabilidade de que apenas uma das componentes funcione?
3. É acrescentada uma componente ao sistema, C3 , à qual se recorre apenas quando nenhu-
ma das componentes C1 e C2 funciona. Sabe-se que quando C1 e C2 não funcionam a
probabilidade de C3 funcionar é 0.2.
(a) Qual é, agora, a probabilidade de o sistema funcionar?

(b) Será que as componentes C1 e C3 funcionam independentemente uma da outra?
1.3 Variáveis aleatórias e distribuições

1.3.1 Variáveis aleatórias
Em muitas das aplicações probabilı́sticas os elementos de um espaço fundamental, Ω, são,
logo à partida, números reais ou vectores de números reais, como a medida de determinado
comprimento ou o número de lançamentos de um dado necessários até obter a face 2 pela
primeira vez. Contudo, quando cada elemento do espaço fundamental não é um número real
ou um vector real, podendo ser, por exemplo, uma molécula de um gás ou um ser humano, só
podemos proceder a tais aplicações atribuindo um valor real ou um vector de valores reais a
cada elemento de Ω.
Grosso modo, em geral, não são os próprios elementos do espaço fundamental que são alvo
de estudo mas sim valores numéricos que lhes estão associados. Mais concretamente, é de todo
o interesse trabalhar com funções que associem a cada resultado de uma experiência aleatória
um valor numérico e posteriormente avaliar a probabilidade de tais valores pertencerem a
determinados conjuntos de números reais ou de vectores reais.
Por exemplo, ao pretendermos estudar a obesidade de uma certa população de indivı́duos, Ω,
definimos o coeficiente de obesidade de cada elemento ω pertencente a Ω, que representamos por
X(ω), como sendo o quociente entre o peso de ω e o quadrado da altura de ω (ı́ndice de massa
corporal). Posteriormente será de todo o interesse saber, por exemplo, qual a probabilidade
deste coeficiente ser superior a 25.
1.3. Variáveis aleatórias e distribuições 15
Definição 1.3.1. Seja Ω o espaço fundamental associado a uma experiência aleatória.

Damos o nome de variável aleatória real a uma função
X : Ω −→ IR
ω −→ X(ω)
para a qual é sempre possı́vel calcular P (X ≤ x) = P ({ω : X(ω) ≤ x}), para qualquer x
real.
A palavra variável é utilizada para enfatizar o facto de se tratar de uma função que tem
como domı́nio o espaço fundamental de uma experiência aleatória.
Refira-se que habitualmente se designa a variável aleatória por letra maiúscula enquanto que
os valores particulares que esta assume são representados pela letra minúscula correspondente.
Se X1 , X2 , ..., Xn são variáveis aleatórias e f é uma função real de n variáveis reais contı́nua,
então f (X1 , X2 , ..., Xn ) é uma variável aleatória. Um caso particular muito importante é o da
variável aleatória
X n : Ω −→ IR
n
1X
ω −→ X n (ω) = Xi (ω)
n
i=1
que será abreviadamente representada por X.

Realçamos agora o facto de que, em muitas aplicações, é necessário associar a cada elemento
de Ω vários valores numéricos. Um exemplo consiste em associar a cada elemento de uma
população de pessoas a idade, o peso, um determinado indice sérico e o tempo relacionado com
o desenvolvimento de certa patologia. Surge então o conceito de vector aleatório.
Definição 1.3.2. Chamamos vector aleatório a qualquer função

X : Ω −→ IRn
ω −→ (X1 (ω), X2 (ω), ..., Xn (ω)) para a qual é possı́vel calcular P (X1 ≤
x1 , X2 ≤ x2 , ..., Xn ≤ xn ), para qualquer x = (x1 , x2 , ..., xn ) em IRn .
A definição de variável aleatória e de vector aleatório que acabamos de apresentar conduz

imediatamente à definição da função de distribuição de uma variável aleatória e de um vector
aleatório.
Definição 1.3.3. 1. Damos o nome de função de distribuição da variável aleatória X

à função
F : IR −→ [0, 1]
x −→ P (X ≤ x). .
2. Damos o nome de função de distribuição do vector aleatório X à função

F : IRn −→ [0, 1]
(x1 , x2 , ..., xn ) −→ P (X1 ≤ x1 , X2 ≤ x2 , ..., Xn ≤ xn ).
A grande importância da função de distribuição de uma variável aleatória X advém do facto

de que esta resume toda a informação relevante do ponto de vista do cálculo das probabilidades
relativa a uma variável aleatória. Isto é, a partir da função de distribuição de X podemos
calcular as probabilidades de qualquer tipo de conjuntos, por exemplo P (a < X ≤ b) =
F (b) − F (a) ou P (X > a) = 1 − F (a).
Por outro lado, em presença de uma variável aleatória, como um ı́ndice sérico relevante para
um determinado estudo, o que de facto é importante é a forma como se distribuem os valores
deste ı́ndice ao longo de um intervalo de números e não quais são os indivı́duos da população
que os geraram. Doutro modo, interessa-nos saber como se distribuem os valores de X(ω) para
todos os ω ∈ Ω, sem que nos interesse identificar cada ω. Evidentemente que a associação de
cada indivı́duo ao valor correspondente da variável aleatória (por exemplo um ı́ndice sérico) é
uma questão de relevo do ponto de vista clı́nico, mas não neste contexto.
Proposição 1.3.1. Propriedades da função de distribuição de uma variável aleatória

real.
1. F é crescente.
Prova. Sejam x e y números reais tais que x ≤ y. Basta observar que F (x) = P (X ≤
x) = P (X ∈] − ∞, x]) ≤ P (X ∈] − ∞, y]) = F (y).
2. F é limitada.
Prova. Tratando-se de uma probabilidade tem-se F (x) = P (X ≤ x) ∈ [0, 1], sendo
portanto uma função limitada.
3. F é contı́nua à direita;
4. lim F (x) = 0 e lim F (x) = 1;

x→−∞ x→+∞
5. P (a < X ≤ b) = F (b) − F (a).

Prova. Atendendo a que ] − ∞, b] =] − ∞, a] ∪ ]a, b], tem-se
P (a < X ≤ b) = P (X ∈]a, b]) = P (X ∈] − ∞, b]) − P (X ∈] − ∞, a] = F (b) − F (a).
6. F é contı́nua no ponto a se e só se P (X = a) = 0.
Da Propriedade 6 decorre que P (X = a) é a medida da amplitude do salto de F no ponto

a.
1.3.2 Distribuições discretas e distribuições contı́nuas

Ao estudarmos uma variável aleatória a primeira questão que se coloca é a de saber quais
os valores que esta assume, para que, posteriormente possamos estudar a forma como estes se
distribuem. Esta questão dá lugar à definição de suporte de uma variável aleatória, que, em
muitos casos, coincide exactamente com o conjunto dos valores que a variável pode assumir.
Observemos que a variável aleatória que representa o número de clientes que, diariamente,
entram num armazém entre as 9 e as 10 horas e a variável aleatória que representa o tempo
que cada cliente espera até ser atendido são duas variáveis que assumem valores em conjuntos
com caracterı́sticas diferentes. Na verdade, a primeira toma valores num conjunto de números
naturais e a segunda toma valores num intervalo real. Esta diferença condiciona o tipo de
distribuição (ou lei) das variáveis aleatórias, as quais, do ponto de vista das aplicações relevantes
em Estatı́stica, se dividem em discretas e contı́nuas.
Definição 1.3.4. Uma variável aleatória X diz-se discreta (ou que tem distribuição
discreta) se assume valores num conjunto finito ou infinito numerável S, tendo-se portanto
P (X ∈ S) = 1.
Definição 1.3.5. Dada uma variável aleatória real discreta X, chamamos suporte de
X (ou da distribuição de X) ao menor dos conjuntos S que verificam P (X ∈ S) = 1.
O suporte da variável aleatória X será denotado por SX . De acordo com as definições

anteriores, uma variável aleatória real X diz-se discreta se e só se assume valores num con-
junto finito ou infinito numerável. Devemos notar que o conjunto de valores que uma variável
aleatória discreta assume pode não ser exactamente igual ao seu suporte. Contudo, este con-
junto contém sempre SX . Mais concretamente, tem-se sempre P (X = a) > 0, para qualquer a
pertencente a SX . Esta afirmação sugere a noção de função de probabilidade de uma variável
aleatória discreta.
Definição 1.3.6. Dada uma variável aleatória real discreta X, damos o nome de
função de probabilidade à aplicação
f : R −→ [0, 1]
x −→ P (X = x)
Para uma variável aleatória discreta de suporte SX = {..., xi , xi+1 , ...}, a função de distri-
buição é dada por X
F (x) ≡ P (X ≤ x) = P (X = xi )
xi ≤x
sendo consequentemente uma função constante em cada intervalo [xi , xi+1 [, apresentando des-
continuidades (saltos) apenas nos pontos do suporte. Podemos mesmo afirmar que o suporte
de uma variável aleatória discreta coincide com o conjunto dos pontos de descontinuidade da
sua função de distribuição. Em conclusão, uma variável aleatória real tem distribuição (ou lei)
discreta se e só se a sua função de distribuição é uma função em escada com um número finito
ou infinito numerável de pontos de descontinuidade.
São exemplos de variáveis aleatórias discretas: o número de caras obtidas ao lançar três
moedas equilibradas ou não, o número de embalagens que é preciso retirar de um lote até
encontrar duas em condições indevidas, o número de falhas mensais de uma máquina, o número
de dias por ano em que a temperatura de determinado local excede um valor previamenmte
fixado, etc.
Exemplo 1.3.1. Seja X a variável aleatória real que representa o número de caras
obtidas ao efectuar dois lançamentos sucessivos de uma moeda equilibrada.
Temos Ω = {(c, c), (c, k), (k, c), (k, k)}, SX = {0, 1, 2} e a função de distribuição é
definida por 

 0 se x<0
0.25 se 0≤x<1

F (x) = P (X ≤ x) = ,
 0.75
 se 1≤x<2
1 se x≥2

cujo esboço do gráfico é apresentado na figura seguinte:
F
1
0.75
0.25
0 1 2
Partindo do exemplo anterior, podemos agora ilustrar as propriedades 6 e 7 da função de

distribuição. Com efeito, a função de distribuição apresenta descontinuidades apenas nos pontos
do conjunto {0, 1, 2} e as amplitudes de salto 0.25, 0.5 e 0.25 correspondem às probabilidades
P (X = 0), P (X = 1) e P (X = 2), respectivamente.
Passemos agora ao segundo tipo de variáveis aleatórias.
Definição 1.3.7. Uma variável aleatória real X diz-se contı́nua se P (X = x) = 0,

para qualquer número real x.
Do ponto de vista das aplicações estatı́sticas, no conjunto das variáveis contı́nuas interessa-
nos um subconjunto especial que designamos variáveis aleatórias absolutamente contı́nuas ou
variáveis aleatórias com distribuição absolutamente contı́nua. Devemos mesmo afirmar que,
no contexto de tais aplicações e no âmbito em que se insere este texto, as variáveis que são
contı́nuas mas não absolutamente contı́nuas perdem a sua importância teórica.
São exemplos de variáveis aleatórias absolutamente contı́nuas todas as que representam
medidas; nomeadamente a velocidade, o tempo, a temperatura, as medidas de capacidade, o
comprimento e massa (peso), as medidas de áreas e volumes, os preços, os lucros, as resistências,
as tensões, etc.
No sentido de definir variável aleatória absolutamente contı́nua é necessário definir função
densidade.
Definição 1.3.8. Damos o nome de função densidade sobre R a uma função real de
variável real f que seja não negativa e que verifique
Z +∞
f (t)dt = 1.
−∞
Depois disto definimos uma variável aleatória X como absolutamente contı́nua como se
segue.
Definição 1.3.9. Uma variável aleatória real X diz-se absolutamente contı́nua se existe
uma densidade sobre R tal que a função de distribuição de X se escreve na forma
Z x
F (x) = f (t)dt, x ∈ IR.
−∞
Da definição de variável aleatória absolutamente contı́nua decorre que a função de distri-

buição é contı́nua e verifica
i) f (x) = F 0 (x) nos pontos onde a derivada existe;
ii) P (X ∈ [a, b]) = P (X ∈]a, b]) = P (X ∈ [a, b[) = P (X ∈]a, b[) =

Z b
= F (b) − F (a) = f (t)dt.
a
Em consequência desta última propriedade podemos afirmar que, se X for uma variável
aleatória absolutamente contı́nua, a probabilidade de X pertencer ao intervalo [a, b] é a medida
da área limitada inferiormente pela recta de equação y = 0, superiormente pelo gráfico de f e
lateralmente pelas rectas de equação x = a e x = b. Este facto é ilustrado na figura seguinte,
onde a medida da área a tracejado representa a referida probabilidade.
a b
Observação 1.3.1. Uma vez que, no âmbito das aplicações estatı́sticas, as variáveis que
são contı́nuas mas não absolutamente contı́nuas não têm relevância, no que se segue usamos
a designação contı́nua para significar absolutamente contı́nua.
Exemplo 1.3.2. Seja X uma variável aleatória contı́nua com densidade definida pela
expressão analı́tica

 0 se x<a
1
f (x) = b−a se a≤x≤b .
0 se x>b

Provamos facilmente que a função de distribuição de X é dada por


 0 se x < a
x−a
F (x) = se a ≤ x ≤ b .
 b−a
1 se x > b.
Apresentamos de seguida o esboço dos gráficos de f e de F , respectivamente.
1 F
b−a 1
f
a b a b
Neste caso dizemos que X segue a lei uniforme no intervalo [a, b] e escrevemos
X ∼ U([a, b]).
A independência de variáveis aleatórias é um conceito de importância primordial em muitas

das aplicações mais usuais da teoria das probabilidades.
Definição 1.3.10. Duas variáveis aleatórias reais X e Y dizem-se independentes se
P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y),
para quaisquer x e y reais. De igual modo, as variáveis aleatórias reais X1 , X2 , ..., Xn

definem-se como independentes se
P (X1 ≤ x1 , X2 ≤ x2 , · · · , Xn ≤ xn ) = P (X1 ≤ x1 )P (X2 ≤ x2 ) · · · P (Xn ≤ xn ),
para quaisquer x1 , x2 , · · · , xn reais .
Notamos que no caso em que as variáveis aleatórias X1 , X2 , ..., Xn são discretas, uma
condição necessária e suficiente para que sejam independentes é que se verifique
P (X1 = x1 , X2 = x2 , · · · , Xn = xn ) = P (X1 = x1 )P (X2 = x2 ) · · · P (Xn = xn ),
para x1 ∈ SX1 , x2 ∈ SX2 , · · · , xn ∈ SXn .
1.3.3 Momentos simples e centrados de variáveis aleatórias

Como veremos adiante, quando se pretende conhecer a distribuição de uma variável aleatória
associada a um fenómeno aleatório, há que encontrar inicialmente o tipo de distribuição entre
todas as contı́nuas e discretas de que dispomos. A tarefa seguinte será a de conhecer os seus
parâmetros desconhecidos, os quais nos permitem especificar caracterı́sticas tão importantes
como a localização e a dispersão dos valores que tal variável assume.
Neste contexto, surgem as noções de média e de variância de uma variável que são particu-
larizações dos momentos simples e centrados de uma variável aleatória, noção com a qual nos
ocupamos de seguida.
Definição 1.3.11.
X
1. Seja X uma variável aleatória real discreta. Se |x|P (X = x) < +∞, então
x∈SX
existe esperança matemática ou média de X que é definida por
X
E(X) = xP (X = x).
x∈SX
Z +∞
2. Seja X uma variável aleatória contı́nua. Se |x|f (x)dx for convergente, então
−∞
existe esperança matemática ou média de X que é dada por
Z +∞
E(X) = xf (x)dx.
−∞
A esperança matemática ou média de uma variável aleatória é um parâmetro de localização,

tendo o papel de ponto de equilı́brio da sua distribuição.
Notamos também que a esperança matemática de uma variável aleatória não é necessari-
amente um dos valores que esta assume. Basta considerar a variável X que representa um
número escolhido ao acaso no conjunto {1, 2, 3, 4} para a qual se tem E(X) = 2.5.
Exemplo 1.3.3. Consideremos a variável aleatória X discreta com suporte SX =

{0, 1, 2, 3} e tal que P (X = 0) = P (X = 1) = 1/8 e P (X = 2) = 2P (X = 3). Calculemos
E(X). X
Ora, atendendo a que P (X = k) = 1 obtemos P (X = 2) = 1/2 e P (X = 3) = 1/4.
k∈SX
Assim E(X) = 0 × 1/8 + 1 × 1/8 + 2 × 1/2 + 3 × 1/4 = 15/8.
Exemplo 1.3.4. Seja X uma variável aleatória contı́nua com função densidade defi-
nida por
αe−αx se x ≥ 0

f (x) = ,
0 se x < 0
onde α é um número real positivo. Tem-se
Z +∞ Z +∞
|x|f (x) dx = xαe−αx dx.
−∞ 0
Ora, integrando por partes, obtemos

Z Z
−αx −αx 1
xαe dx = −e x − −e−αx dx = −e−αx x − e−αx + C
α
e então t
Z +∞
−αx −αx 1 1
xαe = lim −e x − e−αx = .
0 t→+∞ α 0 α
Concluı́mos assim que o integral impróprio é convergente e portanto E(X) existe, tendo-se
Z +∞ Z 0 Z +∞
1
E(X) = xf (x) dx = 0 dx + xαe−αx dx = .
−∞ −∞ 0 α
Exemplo 1.3.5. Seja X uma variável aleatória seguindo a distribuição de Cauchy

1 1
reduzida, isto é, a lei de densidade f (x) = , x ∈ R.
π 1 + x2
A esperança matemática de X não existe porque
Z +∞ Z 0 Z +∞
|x|f (x) dx = −x f (x) dx + x f (x)dx
−∞ −∞ 0
0 +∞
−x
Z Z
x
= dx + dx
−∞ π(1 + x2 ) 0 π(1 + x2 )
1 1
= lim log(1 + a2 ) + lim log(1 + b2 ) = +∞.
2π a→−∞ 2π b→+∞
Proposição 1.3.2. (Propriedades da esperança matemática) Sejam X e Y duas variáveis

aleatórias definidas sobre o mesmo espaço e tais que E(X) e E(Y ) existem. Tem-se
i) se P (X ≥ 0) = 1 então E(X) ≥ 0;
ii) E(X + Y ) = E(X) + E(Y );
iii) E(aX + bY ) = aE(X) + bE(Y ), ∀a, b ∈ IR;
iv) se X e Y são independentes, então E(XY ) = E(X)E(Y );
v) |E(X)| ≤ E(|X|).
As propriedades ii), iii) e iv) são facilmente generalizáveis a um número finito de variáveis
aleatórias. Concretamente, tem-se
•E(a1 X1 + a2 X2 + ... + an Xn ) = a1 E(X1 ) + a2 E(X2 ) + ... + an E(Xn ), ∀a1 , ..., an ∈ IR;
•se X1 , X2 , ..., Xn são independentes, então E(X1 X2 · · · Xn ) = E(X1 )E(X2 ) · · · E(Xn ).
Apresentamos de seguida a noção de esperança matemática de uma função real de uma
variável aleatória.
Definição 1.3.12. Seja h : IR −→ IR uma função tal que h(X) é ainda uma variável
aleatória real.
X
1. Se X é uma variável aleatória discreta tal que |h(x)|P (X = x) é convergente,
x∈SX
então existe esperança matemática de h(X), tendo-se
X
E(h(X)) = h(x)P (X = x).
x∈SX
Z +∞
2. Se X é uma variável aleatória contı́nua tal que o integral |h(x)|f (x)dx é con-
−∞
vergente, então existe esperança matemática de h(X) tendo-se
Z +∞
E(h(X)) = h(x)f (x)dx.
−∞
Exemplo 1.3.6. Seja h uma função de domı́nio IR e de expressão analı́tica h(x) = x2

e consideremos a variável aleatória do exemplo 1.3.2, isto é X ∼ U[a, b]. Então
b
b3 − a3
Z
1
E(h(X)) = E(X 2 ) = x2 dx = .
a b−a 3(b − a)
Damos o nome de momento simples de ordem k de X a mk (X) = E(X k ) e de momento

centrado de ordem k de X a µk (X) = E((X − E(X))k ) (no caso de existirem). A µ2 (X) dá-se
o nome de variância de X e representa-se por V ar(X). Por outras palavras tem-se
V ar(X) = E((X − E(X))2 ).

p
O desvio padrão de X é definido por V ar(X).
Devemos observar que quando não há dúvidas relativamente a que variável aleatória nos
referimos, também denotamos a sua média por m e a variância e o desvio padrão por σ 2 e σ,
respectivamente.
Proposição 1.3.3. A variância de uma v.a. X verifica as seguintes propriedades:
i) Var(aX + b) = a2 Var(X), ∀a, b ∈ R;
ii) Se X e Y são independentes, então Var(X + Y ) =Var(X)+Var(Y );
iii) Var(X) = E(X 2 ) − (E(X))2 (Fórmula de Koenig);
iv) Var(X) = 0 ⇔ ∃a ∈ R : P (X = a) = 1.
Notamos que da primeira propriedade se conclui que

• V ar(aX) = a2 V ar(X), ∀a ∈ R
• V ar(−X) = V ar(X)
• V ar(X + b) = V ar(X), ∀b ∈ R.
Além disso a propriedade ii) é generalizável a qualquer número finito de variáveis aleatórias.
Os quantis de uma distribuição, que passamos a definir, são parâmetros que permitem
estudar em simultâneo a localização e a concentração dos valores assumidos por uma variável
aleatória.
Definição 1.3.13. Seja p ∈ ]0, 1[. Dada uma variável aleatória X, chamamos quantil
de probabilidade p da distribuição de X a um número Q(p) que verifica lim F (x) ≤ p
x→Q(p)−
e lim F (x) ≡ F (Q(p)) ≥ p .
x→Q(p)+
Observamos que no caso em que existe um intervalo de valores x que verificam F (x) = p
qualquer um dos valores deste intervalo satisfaz a definição anterior. Existem na literatura
várias convenções adoptadas por diferentes autores no sentido de determinar Q(p) de forma
única. Neste curso consideramos Q(p) igual ao ponto médio de tal intervalo. Um caso particular
interessante é o dos três quartis da distribuição de X e que correspondem aos casos em que
p toma os valores 1/4, 1/2 e 3/4. Os três quartis são denotados por Q1 , Q2 e Q3 e verificam
lim F (x) ≤ i/4 e F (Qi ) ≥ i/4, para i ∈ {1, 2, 3}.
x→Q−
i
Exemplo 1.3.7. Retomemos a variável aleatória do exemplo 1.3.1. Neste caso como
F (0) = lim F (x) = 0.25

x→1−
qualquer valor do intervalo [0, 1[ serve para primeiro quartil. Assim, de acordo com a
convenção referida acima consideramos Q1 = 0.5.
Similarmente, como
F (1) = lim F (x) = 0.75,
x→2−
qualquer valor do intervalo [1, 2[ serve para terceiro quartil pelo que consideramos Q3 = 1.5.
Mais, uma vez que lim F (x) = 0.25 < 0.5 e lim F (x) = F (1) = 0.75 > 0.5, concluı́mos
x→1− x→1+
que o segundo quartil da distribuição de X é igual a 1.
O segundo quartil é usualmente designado mediana de X ou da distribuição de X, sendo

também denotado por M ed. A mediana de uma distribuição é assim uma medida de localização
que, ao contrário da esperança matemática, existe sempre.
Observamos o facto, inconveniente para o leitor, dos três quartis possuirem duas notações,
nomeadamente Q(1/4), Q(1/2), Q(3/4) e Q1 , Q2 , Q3 , respectivamente. Acrescenta-se ainda que
a mediana é denotada por Q(1/2), Q2 e M ed.
Exercı́cio 1.3.1. Um circuito elétrico é constituı́do por duas componentes, A e B, que

funcionam independentemente uma da outra e em paralelo. A componente A avaria com proba-
bilidade 0.1 e a componente B avaria com probabilidade 0.05. Obtenha a função de probabilidade
da v.a. Z que representa o número de componentes em funcionamento no circuito.
Exercı́cio 1.3.2. Uma empresa possui 20 computadores, estando 3 deles infetados com
um vı́rus informático. A empresa decide doar a uma instituição 4 dos seus computadores,
selecionados aleatoriamente. Determine a função de probabilidade da v.a. X que representa o
número de computadores doados que se encontram infetados pelo vı́rus.
Exercı́cio 1.3.3. A função de distribuição de uma variável aleatória discreta X é


 0 se x < 0
 0.5 se 0 ≤ x < 1



0.6 se 1 ≤ x < 2

F (x) =

 0.8 se 2 ≤ x < 3
0.9 se 3 ≤ x < 3.5




1 se x ≥ 3.5

Construa a função de probabilidade de X.

Exercı́cio 1.3.4. Considere o seguinte esboço do gráfico de uma função de distribuição.
1
6 q
0.8 q b
0.4 q b
0.25 q b
c -
1 1.5 2 3
1. Justifique que se trata de uma função de distribuição correspondente a uma variável
aleatória X discreta.
2. Determine P (X > 2), P (1 < X ≤ 3) e P (1 < X ≤ 3|X ≤ 2).
3. Calcule E(X), V ar(X), E(2 + X), V ar(3 − X) e V ar( 1+X

2 ).
Exercı́cio 1.3.5. Considere a variável aleatória discreta X para a qual se tem

αx, x = 1, 2, 3
P (X = x) = ,
0, caso contrário
sendo α uma constante real.

1. Determine α.
2. Determine a função de distribuição de X.
3. Calcule o valor esperado e a variância de X.

(
1
6 , −2 ≤ x ≤ 4
Exercı́cio 1.3.6. Seja f : IR −→ IR a função definida por f (x) = .
0 , x < −2 ∨ x > 4
1. Prove que f é uma função densidade de probabilidade sobre IR.
2. Seja X uma v.a. contı́nua de densidade f .
(a) Construa a função de distribuição de X e represente-a graficamente.

(b) Calcule P (X ≥ 1), P (0 < X < 2.5) e P (X > 0 / − 0.5 ≤ X ≤ 2.5).
Exercı́cio 1.3.7. Uma variável aleatória X tem densidade f (x) = c(2x − x2 )1I[0,2] (x).
Calcule o valor de c e P (0.5 < X < 1.5). Calcule E(X).
Exercı́cio 1.3.8. O número de acidentes de trabalho por semana num laboratório é re-
presentado por uma variável aleatória X com distribuição caracterizada por P (X = 0) =
0.97, P (X = 1) = 0.02, P (X = 2) = 0.01. A variável aleatória que representa o número de
acidentes de trabalho durante uma quinzena é Y = X1 + X2 , onde as variáveis X1 e X2 têm a
mesma distribuição que X e são independentes. Qual a distribuição de Y ?
Exercı́cio 1.3.9. Duas pessoas, A e B, jogam determinado jogo, composto por várias
partidas independentes entre si. Sabe-se que cada partida admite sempre um vencedor e que a
probabilidade de A vencer uma partida é o dobro da de B. Suponha que ambos iniciam o jogo
com um capital de três euros. Em cada partida, o jogador que perde dá um euro ao que vence.
O jogo termina quando qualquer um dos jogadores fica sem dinheiro.
1. Determine a lei de probabilidade da variável aleatória real, X, que representa o capital

do jogador A ao fim da terceira partida.
2. Calcule P (X ≥ 3 / 0 < X < 6).
3. Qual a probabilidade do jogo terminar ao fim de 3 partidas?
Exercı́cio 1.3.10. O número de horas de funcionamento de certo tipo de componente

electrónica é descrito por uma variável aleatória X, contı́nua, com densidade

 0
 x ≤ 100
f (x) =
 100

x > 100
x2
1. Qual a probabilidade de a componente não funcionar mais do que 200 horas?
2. Mostre que X não admite esperança matemática.
Exercı́cio 1.3.11. O tempo de CPU, expresso em horas, usado semanalmente por um

gabinete de contabilidade é bem modelado por uma variável aleatória real contı́nua, X, com
função densidade dada por

 3 x2 (4 − x) , 0 < x < 4

f (x) = 64 .

 0, x≤0∨x≥4
1. Calcule a média e a variância do tempo de CPU usado semanalmente pelo gabinete.

2. Qual é a probabilidade de o gabinete usar, numa semana, mais do que 1 hora de CPU?
3. O tempo de CPU custa 250 euros por hora. Além disso, o gabinete paga, semanalmente,
uma taxa fixa de 50 euros pela utilização deste recurso informático. Considere a variável
aleatória Y que representa a quantia gasta semanalmente pelo gabinete com a utilização
da CPU.
(a) Obtenha a média e a variância de Y .

(b) Calcule a probabilidade de o gabinete gastar entre 300 e 550 euros, por semana, com
a utilização da CPU.
(c) Admitindo que o primeiro quartil de X é 1.825 horas, determine o primeiro quartil
de Y e interprete o resultado obtido.
1.3.4 Vetores aleatórios reais

CONTEÚDO EM PREPARAÇÃO – SOBRE ELEMENTOS TEÓRICOS CONSULTAR
SLIDES AULAS TEÓRICAS
Exercı́cio 1.3.12. Considere o vector aleatório real (X, Y ), em que X e Y denotam,

respectivamente, o número de dispositivos electrónicos vendidos por uma loja no perı́odo da
manhã e no perı́odo da tarde de cada dia. No quadro que se segue apresenta-se um resumo da
função de probabilidade de (X, Y ).
Y =0 Y =1 Y =2 Y =3
X=0 0.1 0.1 0.05 0.1
X=1 0.1 0.05 0.15 0.1
X=2 0.1 0.05 0.1 0
1. Obtenha as funções de probabilidade marginais do vector (X, Y ) e verifique que X e Y

não são independentes.
2. Calcule a probabilidade de, em determinado dia,
(a) se venderem quando muito um dispositivo no perı́odo da manhã e mais de dois

dispositivos no perı́odo da tarde;
(b) se vender mais um dispositivo no perı́odo da tarde do que no perı́odo da manhã;
(c) se venderem mais de três dispositivos.
3. Mostre que E(X) = 0.9, E(Y ) = 1.4, E(XY ) = 1.15 e calcule Cov(X, Y ).
Exercı́cio 1.3.13. Numa prova de um concurso de tiro, uma equipa de dois participantes,
A e B, atira sobre o mesmo alvo. Cada participante efectua duas tentativas, sendo o seu
objectivo acertar no alvo o maior número de vezes.
Considere o vector aleatório real (X, Y ), em que X e Y denotam, respectivamente, o número
de tiros que os jogadores A e B acertam no alvo naquela prova. No quadro que se segue
apresenta-se um resumo da função de probabilidade de (X, Y ).
Y =0 Y =1 Y =2
X=0 0.01 0.03 0.06
X=1 0.04 0.12 0.24
X=2 0.05 0.15 0.3
1. Obtenha a função de probabilidade de X.
2. Mostre que X e Y são independentes.
3. Calcule a probabilidade de
(a) A e B acertarem no alvo pelo menos uma vez cada um;

(b) A acertar no alvo mais vezes do que B;
(c) A e B acertarem no alvo conjuntamente quando muito 3 vezes.
4. Construa a matriz de variâncias-covariâncias de (X, Y ).
Exercı́cio 1.3.14. O rendimento mensal, expresso em milhares de Euros, dos casais que
habitam em determinada região é bem modelado pelo vector aleatório contı́nuo (X, Y ), em que
X e Y representam, respectivamente, os rendimentos mensais da esposa e do marido. Admita
que a função densidade de (X, Y ) é dada por
1
f (x, y) = 2, 0 < x ≤ y ≤ 2 .
0, caso contrário
1. Obtenha as funções densidade marginais do vector (X, Y ).
2. Determine o valor da função de distribuição de (X, Y ) no ponto (1.5, 1.5) e interprete tal
valor.
3. Calcule a probabilidade de
(a) o rendimento mensal do marido exceder o da esposa em mais de 1000 Euros;

(b) o rendimento mensal total do casal não exceder 2000 Euros.
2 4
4. Verifique que E(X) = 3 , E(Y ) = 3 , E(XY ) = 1 e deduza o valor de Cov(X, Y ).
5. Que pode afirmar sobre a independência de X e Y ?
6. Qual a média e a variância do rendimento mensal total do casal?
Exercı́cio 1.3.15. Numa experiência sobre resistência de materiais, aplica-se um esforço

sobre uma determinada estrutura e observam-se os danos nela causados. Sendo X e Y as
variáveis aleatórias reais que representam, respectivamente, a intensidade do esforço aplicado
e a resistência da estrutura, sabe-se que (X, Y ) é um vector aleatório contı́nuo com função
densidade dada por

x + y, se 0 < x < 1 e 0 < y < 1
f (x, y) = .
0, caso contrário
1. Verifique que X e Y são identicamente distribuı́das.
2. Sempre que a intensidade do esforço aplicado é superior à resistência da estrutura, esta

sofre danos. Calcule a probabilidade da estrutura sofrer danos.
4. Serão a resistência da estrutura e a intensidade do esforço que lhe é aplicado indepen-

dentes?
Exercı́cio 1.3.16. Seja (X, Y ) um vector aleatório real com função densidade dada por

kxy, se 0 < x < 1 e 0 < y < 2
f (x, y) = ,
0, caso contrário
onde k é um número real positivo.
1. Mostre que k = 1.
2. Obtenha as funções densidade marginais de (X, Y ) e prove que as variáveis X e Y são

independentes.
3. Determine o valor da função de distribuição de (X, Y ) no ponto (0.5, 1).
4. Calcule P (X ≥ 0.5, Y < 1) e P (X < Y ).

Y
6. Determine a variância da variável aleatória real Z = −3X + 2 − 1.
Exercı́cio 1.3.17. Sejam X e Y variáveis aleatórias reais independentes com funções

densidade dadas por
1
2 (1 − x) se −1 < x < 1 1 se 0 < y < 1
fX (x) = e fY (y) = .
0 caso contrário 0 caso contrário
1. Obtenha a função densidade do vector (X, Y ).
2. Calcule P (X < 0, Y ≥ 0.5) e P (Y ≥ |X|).
4. Determine a esperança e a variância da variável aleatória real Z = 2X − 3Y + 1.
1.3.5 Distribuições mais usadas em Estatı́stica
I- Distribuição de Bernoulli
As variáveis aleatórias com distribuição ou lei de Bernoulli estão quase sempre relaciona-
das com experiências dicotómicas, sendo por isso variáveis que assumem apenas dois valores.
Formalmente convencionamos que tais valores são 0 e 1.
Concretamente, dizemos que uma variável aleatória X tem distribuição de Bernoulli ou que
segue a lei de Bernoulli de parâmetro p , e escreve-se X ∼ B(p), se X assume apenas os dois
valores 0 e 1, com P (X = 1) = p. Tem-se E(X) = p e V ar(X) = p(1 − p).
Nas aplicações mais comuns, dada uma experiência aleatória e um acontecimento A cuja
probabilidade p = P (A) conhecemos, definimos a variável aleatória X que assume o valor 1 se,
ao realizar a experiência, A ocorre e que assume o valor 0 em caso contrário.
Exemplo 1.3.8. Consideremos a experiência aleatória que consiste no lançamento

de um dado equilibrado, com as faces numeradas de 1 a 6, e A o acontecimento “saı́da de
face 2”. A variável aleatória que assume o valor 1 se A ocorre e 0 se A não ocorre tem
distribuição de Bernoulli. Uma vez que P (X = 1) = P (A) = 1/6, obtemos E(X) = 1/6 e
V ar(X) = 5/36.
Às experiências que apresentam apenas dois resultados possı́veis damos o nome de ex-
periências de Bernoulli.
II- Distribuição Binomial

Consideremos de novo uma experiência aleatória e um acontecimento A que lhe está asso-
ciado, com p = P (A) conhecido.
Suponhamos que realizamos a experiência r vezes e que estas realizações diferentes são
independentes umas das outras.
Denotemos por X a variável aleatória que representa o número de vezes que o acontecimento
A ocorre nas r realizações da experiência. Nestas condições, dizemos que X tem distribuição
Binomial de parâmetros r e p, escreve-se X ∼ B(r, p) e tem-se SX = {0, 1, 2, ..., r} e P (X =
k) = Ckr pk (1 − p)r−k , para k ∈ SX .
Proposição 1.3.4. Se X1 , X2 , ..., Xr são variáveis aleatórias independentes com dis-

tribuição de Bernoulli de parâmetro p, então X1 + X2 + ... + Xr ∼ B(r, p).
As propriedades da esperança matemática e da variância já apresentadas e esta última

proposição, permitem-nos concluir que E(X) = rp e que V ar(X) = rp(1 − p).
Exemplo 1.3.9. O número de caras obtidas ao lançar uma moeda equilibrada dez
vezes é uma variável aleatória com distribuição B(10, 1/2).
Exemplo 1.3.10. Uma companhia aérea observou que a probabilidade de um passa-

geiro com bilhete não comparecer ao vôo é igual a 0.05. Consequentemente decidiu passar
a vender 52 bilhetes para cada avião com 50 lugares. Qual a probabilidade de, num dado
avião, haver lugar para todos os passageiros que se apresentarem ao vôo?
Seja X a variável aleatória que representa o número de passageiros que não comparecem
ao vôo de entre os 52 que possuem bilhete. Nestas condições X ∼ B(52, 0.05) e SX =
{0, 1, 2, ..., 52}.
Atendendo a que “haver lugar para todos” significa que “no mı́nimo não comparecerem
duas pessoas”, vamos calcular P (X ≥ 2). Ora
P (X ≥ 2) = 1 − P (X < 2) = 1 − (P (X = 0) + P (X = 1))
= 1 − C052 × 0.050 × 0.9552 + C152 × 0.051 × 0.9551

' 1 − (0.069 + 0.190) = 0.741.
III- Distribuição Geométrica

Seja A um acontecimento associado a uma experiência aleatória, com p = P (A) conhecido.
Suponhamos que é possı́vel realizar a experiência “indefinidamente” sendo estas realizações
independentes umas das outras.
A variável aleatória X que representa o número de vezes que é preciso realizar a experiência
até que o acontecimento A ocorra pela primeira vez tem distribuição Geométrica de parâmetro
p. Escreve-se X ∼ G(p).
Neste caso, tem-se SX = IN e P (X = k) = (1 − p)k−1 p, para k ∈ IN.
Tem-se ainda E(X) = 1/p e V ar(X) = 1−p p2
.
Exemplo 1.3.11. Num armazém são vendidas torneiras de várias marcas incluindo a
sua própria marca A. Seja Y a variável aleatória que representa o número de clientes que
compram torneiras até surgir o primeiro (inclusivé) que opte por uma torneira da marca
A. Sabendo que a probabilidade de um cliente que compra torneiras escolher a marca A é
0.05, calculemos P (Y ≥ 3).
A variável aleatória Y tem distribuição geométrica de parâmetro p = 0.05. Assim
P (Y ≥ 3) = 1 − P (Y ≤ 2)
= 1 − (P (Y = 1) + P (Y = 2))
= 1 − (0.05 + 0.95 × 0.05) = 0.9025.
Exemplo 1.3.12. Uma máquina produz peças que são defeituosas com probabilidade
0.02. Qual o número médio de peças sem defeito que serão produzidas consecutivamente?
Seja X a variável aleatória que representa o número de peças que a máquina produz
consecutivamente sem defeito. A variável X + 1 tem distribuição (ou lei) Geométrica de
parâmetro 0.02, tendo-se, consequentemente, E(X + 1) = 1/0.02 = 50. Assim E(X) = 49.
IV- Distribuição uniforme discreta

Uma variável aleatória X tem distribuição ou lei uniforme sobre {x1 , x2 , ..., xn } se SX =
{x1 , x2 , ..., xn } e P (X = xi ) = n1 , ∀xi ∈ SX . Esta lei é denotada por U({x1 , · · · , xn }).
Tem-se
n n
1X 1X 2
E(X) = xi e V ar(X) = xi − (E(X))2 .
n n
i=1 i=1
Exemplo 1.3.13. Consideremos a experiência aleatória que consiste no lançamento

de um dado equilibrado, com as faces numeradas de 1 a 6. Seja X a variável aleatória que
representa o valor da face que fica voltada para cima. Nestas circunstâncias X tem distri-
buição uniforme discreta sobre {1, 2, · · · , 6} com P (X = k) = 1/6, para k ∈ {1, 2, · · · , 6}.
V- Distribuição de Poisson
As variáveis aleatórias com distribuição de Poisson (ou variáveis aleatórias de Poisson)
surgem em muitas aplicações como, por exemplo, nos estudos de filas de espera quando se
pretende modelar o número de chegadas num dado intervalo de tempo, previamente fixado. Este
tipo de variáveis aleatórias surge também nas situações em que se pretende estudar o número
de ocorrências de um acontecimento raro, quando não limitamos o número de realizações da
experiência.
Assim, com alguma regularidade, encontramos variáveis aleatórias com distribuição de Pois-
son em estudos sobre a emissão de partı́culas por um corpo radioactivo num dado perı́odo de
tempo, em estatı́sticas de acidentes ou mesmo quando se estuda o número de “errus de dacti-
lugrafia”por página de um texto.
Podemos também afirmar que o número de bactérias encontradas numa dada cultura, o
número de leituras erradas da pluviosidade, o número de clientes de um armazém que se mos-
tram insatisfeitos com determinado produto são, em muitas circunstâncias, variáveis aleatórias
com distribuição ou lei de Poisson.
Dizemos que uma variável aleatória X tem distribuição ou lei de Poisson de parâmetro λ,
com λ > 0, e escreve-se X ∼ P(λ), se SX = IN0 e
λk
P (X = k) = e−λ ,
k!
para k ∈ IN0 . Prova-se que E(X) = V ar(X) = λ.
Exemplo 1.3.14. O número de partı́culas emitidas, num perı́odo de 20 segundos, por

determinada fonte radioactiva é uma variável aleatória real X com lei de Poisson. Sabendo
que E(X 2 ) = 6 determinemos P (1 < X ≤ 3).
Ora, como para qualquer variável se tem V ar(X) = E(X 2 ) − (E(X))2 e para uma
variável aleatória de Poisson V ar(X) = E(X) = λ, obtemos
V ar(X) = E(X 2 ) − (E(X))2 ⇐⇒ λ = 6 − λ2 ⇐⇒ λ = 2 ∨ λ = −3.
Como λ > 0 concluı́mos que λ = 2. Então
22 23
P (1 < X ≤ 3) = P (X = 2) + P (X = 3) = e−2 + e−2 = 0.4511.
2! 3!
Suponhamos agora que a emissão de partı́culas em diferentes perı́odos de 20 segundos
ocorre de forma independente. Sabendo que foi observada a emissão de partı́culas durante 5
perı́odos de 20 segundos, calculemos a probabilidade de em pelo menos um desses 5 perı́odos
serem emitidas exactamente duas partı́culas.
Neste caso, temos 5 experiências de Bernoulli onde o sucesso corresponde ao aconte-

cimento que ocorre quando, num perı́odo de 20 segundos, são emitidas exactamente duas
partı́culas. O sucesso associado a estas experiências tem probabilidade p = P (X = 2) =
2
e−2 22! = 0.2706. Mais, atendendo à independência referida acima, a variável aleatória Y
que conta o número de perı́odos de 20 segundos, nestes 5, em que são emitidas exactamente
2 partı́culas (em que ocorre sucesso), tem distribuição B(5, 0.2706). Então há que calcular
P (Y ≥ 1) = 1 − P (Y = 0) = 1 − C05 × 0.27060 × (1 − 0.2706)5

= 1 − (1 − 0.2706)5 = 0.7935
Consideremos ainda neste exemplo a variável aleatória W que representa o número de

perı́odos consecutivos de 20 segundos até que ocorra um em que sejam emitidas exactamente
2 partı́culas (até que ocorra sucesso). Calculemos P (W ≥ 3). Atendendo a que W tem
distribuição geométrica de parâmetro 0.2706, tem-se
P (W ≥ 3) = 1 − P (W ≤ 2) = 1 − (P (W = 1) + P (W = 2))
= 1 − 0.2706 − 0.7294 × 0.2706 = 0.5320.
Proposição 1.3.5. (Estabilidade da distribuição de Poisson) Se X1 , X2 , · · · , Xn são

variáveis aleatórias de Poisson, independentes, de parâmetros λ1 , λ2 , · · · , λn , respectiva-
mente, então
X1 + X2 + · · · + Xn ∼ P(λ1 + λ2 + · · · + λn ).
Exemplo 1.3.15. Seja X a variável aleatória que representa o número de bactérias

Escherichia Coli existentes num cm3 de água. Suponha que X tem distribuição de Poisson
e que a probabilidade de não haver bactérias num cm3 de água é igual a 0.05.
Calculemos a probabilidade de existirem pelo menos duas bactérias num cm3 de água.
Uma vez que X ∼ P(λ) e P (X = 0) = 0.05 = e−λ concluı́mos que −λ = ln 0.05 o que
equivale a dizer que λ = ln 0.05−1 ' 3. Assim
P (X ≥ 2) = 1 − P (X< 2) = 1
− P (X = 0) − P (X = 1)
30 31
= 1 − 0.05 + = 1 − 0.2 = 0.8.
0! 1!
Calculemos agora a probabilidade de que numa amostra de dois cm3 de água existam
quando muito 3 bactérias.
Sejam X1 e X2 as variáveis aleatórias que representam o número de bactérias em cada
um dos cm3 de água e Y = X1 + X2 a variável aleatória que representa, obviamente, o
número de bactérias em dois cm3 de água.
Supondo X1 e X2 independentes, podemos afirmar que Y ∼ P(3 + 3). Então
P (Y ≤ 3) = P (Y = 0) + P (Y = 1) + P (Y = 2) + P (Y = 3) = e−6 × 61 ' 0.151.

VI - Distribuição uniforme contı́nua

Como já foi dito no exemplo 1.3.2 uma variável aleatória tem distribuição ou lei uniforme
sobre [a, b], escrevendo-se X ∼ U([a, b]), se tem densidade dada por

 0 se x < a
1
f (x) = se a ≤ x ≤ b
 b−a
0 se x > b
e, consequentemente, função de distribuição com expressão analı́tica


 0 se x < a
x−a
F (x) = se a ≤ x ≤ b .
 b−a
1 se x > b.
a+b (b−a)2
Prova-se que E(X) = 2 e V ar(X) = 12 .
Notemos que a intervalos contidos em [a, b] com amplitudes iguais correspondem probabi-
lidades iguais.
Um exemplo de uma variável aleatória com distribuição uniforme é a que representa um

número real escolhido ao acaso num intervalo limitado [a, b].
VII - Distribuição exponencial
Em estudos de filas de espera surge a necessidade de considerar a variável aleatória que

representa a amplitude do intervalo de tempo que decorre entre duas chegadas consecutivas.
Em muitas das aplicações mais comuns, sob algumas restrições, esta variável aleatória segue
uma distribuição ou lei exponencial.
Nos estudos de fiabilidade de máquinas, quando se avalia o tempo de funcionamento sem
falhas, ou em análise de sobrevivência, quando se pretende avaliar o tempo de sobrevivência
de um doente sujeito a determinado tratamento, com alguma regularidade e sob circunstâncias
muito especiais, surgem também variáveis aleatórias com lei exponencial.
Uma variável aleatória X tem distribuição ou lei exponencial de parâmetros α > 0 e β ∈ IR,
e escreve-se X ∼ E(α, β), se a sua densidade é dada por
αe−α(x−β) se x ≥ β

f (x) = .
0 se x < β
O esboço do gráfico de f é apresentado de seguida.

A função de distribuição de X é definida por

 0 se x < β
F (x) =
1 − e−α(x−β) se x ≥ β

cujo esboço do gráfico apresentamos de seguida.

Observemos que se X ∼ E(α, β) então X − β ∼ E(α, 0). Por outro lado no exemplo 1.3.4
provámos que uma variável aleatória com distribuição E(α, 0) tem média igual a α1 . Assim,
para X ∼ E(α, β), tem-se
1
E(X) = E(X) − β + β = E(X − β) + β = + β.
α
Mais, prova-se que V ar(X) = 1/α2 .
Exemplo 1.3.16. Seja X uma variável aleatória com distribuição E(2, 0). Vamos
calcular P (X > 3.5). Tem-se
Z +∞
t
2e−2x dx = lim −e−2x 3.5 = e−7 .

P (X > 3.5) =
3.5 t→+∞
VIII - Distribuição normal
A distribuição normal, de Gauss ou gaussiana, é talvez a mais importante distribuição

contı́nua. De facto, inúmeras são as variáveis aleatórias que obedecem a esta lei e que são
usadas na criação de modelos que descrevem exacta ou aproximadamente fenómenos fı́sicos e
biométricos.
Do ponto de vista das aplicações, tem-se provado que muitos atributos observáveis de certas
populações podem ser bem representados por variáveis com distribuição de Gauss. Por exemplo,
esta distribuição pode constituir uma boa aproximação para as distribuições das alturas e dos
pesos de populações razoavelmente homogéneas, bem como para a distribuição dos erros de
medida de determinadas grandezas fı́sicas.
Do ponto de vista teórico, justifica-se a importância da distribuição normal pelo facto de
ser uma boa aproximação para a lei da soma de variáveis independentes e ainda pelas suas
excelentes propriedades que lhe conferem uma enorme tratabilidade matemática.
Uma variável aleatória X tem distribuição ou lei normal de parâmetros m e σ 2 , escreve-se

X ∼ N (m, σ 2 ), se a sua densidade é da forma
1 − 1 x−m 2
f (x) = √ e 2 ( σ ) , x ∈ IR.
2πσ
Apresentamos de seguida o esboço do gráfico da densidade de uma lei N (0, 1).
-3 3
Proposição 1.3.6. Propriedades da distribuição normal.

X−m
1. Se X ∼ N (m, σ 2 ) então Z = σ ∼ N (0, 1).
2. Se Z ∼ N (0, 1) então X = σZ + m ∼ N (m, σ 2 ).
3. Se Z ∼ N (0, 1) então
(a) FZ (x) = 1 − FZ (−x), ∀x ∈ IR,

(b) P (−x ≤ Z ≤ 0) = P (0 ≤ Z ≤ x), ∀x ∈ IR,
4. (Estabilidade da lei normal) Se X1 , X2 , · · · , Xn são variáveis aleatórias independen-

tes com distribuição normal de médias m1 , m2 , · · · , mn e variâncias σ12 , σ22 , · · · , σn2 ,
respectivamente, então X1 + X2 + · · · + Xn também tem uma distribuição normal
com média igual à soma das médias e variância igual à soma das variâncias.
Da estabilidade da lei normal e das propriedades da média e da variância decorre imedia-

tamente que se X1 , X2 , · · · , Xn são variáveis aleatórias independentes com distribuição normal
de médias m1 , m2 , · · · , mn e variâncias σ12 , σ22 , · · · , σn2 , respectivamente, então, para quaisquer
reais b, a1 , a2 , ..., an , a variável aleatória
b + a1 X1 + a2 X2 + · · · + an Xn
também tem uma distribuição normal com média b + a1 m1 + a2 m2 + · · · + an mn e variância
igual a a21 σ12 + a22 σ22 + · · · + a2n σn2 . Na notação usual escrevemos
n n n
!
X X X
ai Xi ∼ N ai mi , a2i σi2 .
i=1 i=1 i=1
Observação 1.3.2. Denotando por FX e por FZ as funções de distribuição de X e de Z,

respectivamente, observamos que da primeira propriedade decorre

X −m x−m x−m
FX (x) = P (X ≤ x) = P ≤ = FZ .
σ σ σ
As propriedades que acabámos de apresentar, para além de tornarem a lei normal bastante
atraente para estudos teóricos, como já dissemos e confirmamos adiante, são obviamente úteis
em qualquer aplicação prática. Com efeito, sempre que dispomos de uma variável aleatória com
distribuição simétrica ou aproximadamente simétrica, devido à simplicidade deste modelo, é
usual começar por ajustar uma distribuição normal. No caso da média não ser 0 ou da variância
não ser igual a 1 podemos sempre usar a transformação apresentada na observação 1.3.2 e
determinar probabilidades ou quantis usando sempre uma tabela de probabilidades associadas
à lei N (0, 1). Apresentamos seguidamente uma das versões possı́veis para a referida tabela.
Trata-se da tabela da função de distribuição da lei N (0, 1).
Tabela da função de distribuição da lei N (0, 1)
P (Z ≤ z(p)) = p
z(p)
z(p) = a + b
a↓ b→ 0,0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586
0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535
0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409
0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173
0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793
0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240
0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490
0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524
0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327
0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891
1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214
1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298
1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147
1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91309 0,91466 0,91621 0,91774
1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189
1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408
1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449
1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327
1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062
1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670
2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643
2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736
2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861
3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900
Exemplo 1.3.17. Uma ponte foi projectada para suportar uma sobrecarga total de
1530 KN. Estudos estatı́sticos permitiram concluir que a variável aleatória que representa
o peso de automóveis ligeiros tem distribuição normal de média 15 KN e desvio padrão 1.5
KN. Se, em determinado momento, estão sobre a ponte 100 automóveis ligeiros, determi-
nemos a probabilidade de serem causados danos na sua estrutura, isto é, do peso total dos
automóveis exceder a sobrecarga de 1530 KN.
Denotemos por Xi a variável aleatória que representa o peso do automóvel i, para
100
X
i = 1, ..., 100. Como a variável aleatória Xi representa o peso total dos 100 automóveis,
i=1
100
X
serão causados danos na estrutura da ponte se ocorrer o acontecimento { Xi > 1530}.
i=1
Ora, usando a estabilidade da lei normal, sabemos que
100
X
Xi ∼ N 100 × 15, 100 × 1.52

i=1
100 100
!
X X
1
ou seja Xi ∼ N (1500, 225) o que equivale a Z = 15 Xi − 1500 ∼ N (0, 1).
i=1 i=1
Então
100 100
! ! !
X X
1 1530−1500
P Xi > 1530 = P 15 Xi − 1500 > 15
i=1 i=1
= P (Z > 2) = 1 − P (Z ≤ 2) = 1 − 0.97725 = 0.02275.
No que se segue denotamos por z(p) o quantil de probabilidade p da lei N (0, 1). Por outras
palavras, denotamos por z(p) o número real que verifica P (Z ≤ z(p)) = p, onde Z ∼ N (0, 1).
Devemos observar que a função INV.NORM do EXCEL(1 ) permite determinar o inverso
da função de distribuição de uma variável aleatória com lei N (m, σ 2 ), para quaisquer m e σ 2 .
Concretamente, o valor real x onde a função de distribuição assume o valor p é determinado
por x=INV.NORM(p; m; σ).(2 ) Por exemplo, para X ∼ N (3, 4) o valor de x onde a função de
distribuição é igual a 0.7 é determinado por x=INV.NORM(0.7;3;2)=4.0488.
Deste modo, o valor de z(p), para qualquer valor de p, pode ser encontrado usando a função
INV.NORM do Excel, pois z(p) é o número real para o qual a função de distribuição da lei
N (0, 1) é igual a p. Concretamente, tem-se z(p) =INV.NORM(p; 0; 1). Por exemplo z0.975 =
INV.NORM(0.975; 0; 1) = 1.959.
Exercı́cio 1.3.18. Uma determinada praga atacou uma unidade agrı́cola tendo contami-
nado três quartos da sua produção de maçã. Considere 4 maçãs escolhidas ao acaso. Deter-
mine:
1
Ou NORM.INV em algumas versões do EXCEL.
2
É de notar que se colocam média seguida do desvio padrão e não variância como na notação usual da lei
normal.
1. a probabilidade de todas elas terem sido contaminadas;

2. a probabilidade de nenhuma delas ter sido contaminada;
3. a probabilidade de terem sido contaminadas menos de 3 maçãs.
Exercı́cio 1.3.19. Num armazém, sabe-se que o número de clientes atendidos em deter-
minado intervalo de tempo é uma v.a. X à qual se pode ajustar uma distribuição de Poisson
de parâmetro λ. Sabendo que P (X ≥ 1) = 0.3, determine λ e calcule P (X ≥ 2).
Exercı́cio 1.3.20. Numa empresa sabe-se que o número de peças com defeito produzidas
diariamente é uma variável aleatória X com distribuição de Poisson. Sabendo que P (X =
2) = 2P (X = 0), determine P (X ≥ 3).
Exercı́cio 1.3.21. Se chegar à paragem do autocarro às 10h e souber que a v.a. que
descreve a hora de chegada deste é uniforme entre as 10h e as 10h30, qual a probabilidade de
ter de esperar mais do que 12 minutos?
Exercı́cio 1.3.22. O número de milhares de quilómetros que um automóvel de determinado
modelo percorre antes de ser retirado da circulação pode ser representado por uma variável
aleatória com distribuição exponencial com parâmetro α = 0.002, isto é, com densidade f (x) =
0.002 e−0.002x 1I[0,+∞) (x), x ∈ IR.
Se adquirir um automóvel daquele modelo em segunda mão com pelo menos 50 000 quilómetros,
qual a probabilidade de poder utilizá-lo durante pelo menos mais 100 000 quilómetros?
Exercı́cio 1.3.23. 1. Seja Z uma variável aleatória com distribuição N (0, 1). Sabendo
que P (0 ≤ Z ≤ 2.5) = 0.4938 e P (0 ≤ Z ≤ 0.8) = 0.2881 calcule i)P (−2.5 ≤ Z ≤ 0),
ii)P (−0.8 ≤ Z ≤ 0.8), iii)P (−0.8 ≤ Z ≤ 2.5) e iv) P (0.8 ≤ Z ≤ 2.5).
2. Sendo X uma variável aleatória com distribuição N (5, 4), calcule i)P (0 ≤ X ≤ 5),
ii)P (1 ≤ X ≤ 9) e iii)P (9 ≤ X ≤ 10);
3. Sendo X uma variável aleatória com distribuição N (4, 9), calcule o valor de t tal que
i)P (X ≤ t) = 0.2033, ii)P (X > t) = 0.648, iii)P (X ≥ t) = 0.0025, e iv)P (|X − 4| ≤
3t) = 0.27366.
Exercı́cio 1.3.24. Seja X uma variável aleatória com distribuição normal de valor esperado
10 e variância 4, que representa o comprimento de uma barra de ferro. Suponha que a barra é
considerada não defeituosa se X assumir valores no intervalo [8,12] e defeituosa caso contrário.
Qual a probabilidade de que uma barra não seja defeituosa?
Exercı́cio 1.3.25. O comprimento das peças produzidas por uma máquina é uma variável
aleatória normal com valor esperado m (em mm) e variância σ 2 (em mm2 ). Uma peça é
defeituosa se o seu comprimento diferir do valor esperado mais do que σ. Sabe-se que 50%
das peças produzidas têm comprimento inferior a 2.5 mm e 47.5% das peças produzidas têm
comprimento entre 2.5 mm e 3.42 mm.
Determine m e σ e determine a probabilidade de que uma peça seja não defeituosa.
Exercı́cio 1.3.26. Um grupo de adolescentes, constituı́do por 12 raparigas e 6 rapazes,
entra num elevador com uma carga máxima de 900 kg. Suponha que os pesos (expressos em
quilogramas, kg) dos adolescentes podem ser representados por variáveis aleatórias reais inde-
pendentes e gaussianas, de média 50 kg e de desvio padrão 5 kg no caso das raparigas, e de
média 60 kg e de desvio padrão 10 kg no caso dos rapazes.
1. Mostre que o peso total do referido grupo é uma variável aleatória real gaussiana de média
960 kg e de desvio padrão 30 kg.
2. Calcule a probabilidade de, nestas condições, ser excedida a carga máxima do elevador.
Exercı́cio 1.3.27. Uma empresa comercializa computadores, impressoras e mobiliário de
escritório. Sabe-se que as variáveis aleatórias que representam o lucro mensal (em milhares de
euros) da venda de computadores, impressoras e mobiliário são independentes e que possuem
leis N (10, 16), N (8, 8) e N (3, 1), respetivamente. Calcule a probabildade de o lucro mensal em
mobiliário e impressoras exceder o de computadores.
Exercı́cio 1.3.28. Os tempos de funcionamento de determinado tipo de dispositivos (ex-
presso em anos) produzidos por dois fabricantes A e B são considerados independentes e nor-
malmente distribuı́dos. Estas duas variáveis aleatórias têm, respetivamente, média 6 e desvio
padrão 1 e, média 6.5 e desvio padrão 2. Determine a probabilidade de que o tempo de funcio-
namento de um dispositivo do fabricante A exceda o tempo de funcionamento de um dispositivo
do fabricante B.
IX - Distribuição do qui-quadrado
Consideremos k variáveis aleatórias independentes X1 ,..., Xk , todas com lei N (0, 1).
A variável aleatória
Xk
Uk = Xi2
i=1
segue a distribuição ou lei do qui-quadrado com k graus de liberdade, denotada por Xk2 . Nestas
condições escrevemos Uk ∼ Xk2 .
A distribuição Xk2 é contı́nua e uma variável aleatória com distribuição Xk2 assume apenas
valores positivos. Para esta variável aleatória tem-se
E(Uk ) = k e Var(Uk ) = 2k.
Na figura seguinte apresentamos alguns esboços de gráficos da função densidade da lei do
qui-quadrado para diferentes graus de liberdade.
5 10 15 20
O quantil de probabilidade p da lei χ2k será denotado por χk (p) e, para alguns valores
particulares de p e de k pode ser consultado na tabela que apresentamos de seguida.
O valor do quantil χk (p), para qualquer valor de k e de p, pode ser encontrado usando a
função INV.CHI do Excel(3 ). Concretamente, tem-se χk (p) = IN V.CHI(1−p; k). Por exemplo
χ9 (0, 97) = IN V.CHI(0, 03; 9) = 18.4796.
3
Ou CHI.INV em algumas versões do EXCEL.
Tabela de quantis da lei χ2k
χk (p)
V ∼ χ2k P (V ≤ χk (p)) = p
p
k↓ 0,999 0,995 0,99 0,98 0,975 0,95 0,05 0,025 0,02 0,01
1 10,82756 7,87944 6,63489 5,41189 5,02388 3,84146 0,00393 0,000982 0,00062 0,00016
2 13,81551 10,59663 9,21034 7,82404 7,37776 5,99146 0,10258 0,05063 0,04041 0,02010
3 16,26623 12,83815 11,34486 9,83741 9,34840 7,81472 0,35184 0,21579 0,18483 0,11483
4 18,46682 14,86025 13,27670 11,66784 11,14328 9,48773 0,71072 0,48441 0,42939 0,29711
5 20,51500 16,74960 15,08627 13,38822 12,83250 11,07049 1,14548 0,83121 0,75188 0,55429
6 22,45774 18,54758 16,81189 15,03321 14,44937 12,59158 1,63538 1,23734 1,13442 0,87209
7 24,32188 20,27774 18,47531 16,62242 16,01276 14,06714 2,16735 1,68987 1,56429 1,23904
8 26,12448 21,95495 20,09023 18,16823 17,53455 15,50731 2,73264 2,17973 2,03247 1,64649
9 27,87716 23,58935 21,66599 19,67902 19,02276 16,91897 3,32511 2,70038 2,53237 2,08790
10 29,58829 25,18818 23,20925 21,16076 20,48317 18,30703 3,94029 3,24697 3,05905 2,55821
11 31,26413 26,75685 24,72497 22,61794 21,92004 19,67513 4,57481 3,81575 3,60868 3,05348
12 32,90949 28,29951 26,21696 24,05395 23,33666 21,02607 5,22602 4,40379 4,17828 3,57057
13 34,52817 29,81947 27,68824 25,47150 24,73560 22,36203 5,89186 5,00875 4,76545 4,10692
14 36,12327 31,31935 29,14124 26,87276 26,11895 23,68479 6,57063 5,62873 5,36819 4,66043
15 37,69729 32,80132 30,57791 28,25949 27,48839 24,99579 7,26094 6,26214 5,98492 5,22935
16 39,25235 34,26719 31,99992 29,63317 28,84535 26,29622 7,96164 6,90766 6,61424 5,81221
17 40,79022 35,71847 33,40866 30,99505 30,19101 27,58711 8,67176 7,56418 7,25500 6,40776
18 42,31239 37,15645 34,80531 32,34616 31,52638 28,86929 9,39045 8,23075 7,90622 7,01491
19 43,82019 38,58226 36,19087 33,68742 32,85232 30,14352 10,11701 8,90652 8,56703 7,63272
20 45,31474 39,99685 37,56625 35,01963 34,16961 31,41043 10,85081 9,59077 9,23669 8,26039
21 46,79704 41,40106 38,93217 36,34344 35,47887 32,67057 11,59131 10,28289 9,91456 8,89719
22 48,26794 42,79565 40,28936 37,65949 36,78071 33,92444 12,33801 10,98232 10,60003 9,54249
23 49,72823 44,18127 41,63839 38,96831 38,07563 35,17246 13,09051 11,68855 11,29260 10,19571
24 51,17859 45,55851 42,97982 40,27036 39,36407 36,41503 13,84842 12,40115 11,99182 10,85636
25 52,61965 46,92789 44,31410 41,56607 40,64647 37,65249 14,61140 13,11972 12,69727 11,52397
26 54,05196 48,28988 45,64168 42,85583 41,92317 38,88513 15,37915 13,84391 13,40858 12,19814
27 55,47602 49,64491 46,96294 44,13999 43,19451 40,11327 16,15139 14,57338 14,12542 12,87850
28 56,89228 50,99337 48,27823 45,41884 44,46079 41,33713 16,92787 15,30786 14,84748 13,56470
29 58,30117 52,33562 49,58788 46,69269 45,72228 42,55697 17,70836 16,04707 15,57448 14,25645
30 59,70306 53,67196 50,89218 47,96180 46,97924 43,77297 18,49266 16,79077 16,30617 14,95345
31 61,09831 55,00270 52,19139 49,22639 48,23188 44,98534 19,28056 17,53873 17,04232 15,65545
32 62,48722 56,32811 53,48577 50,48670 49,48043 46,19425 20,07191 18,29076 17,78271 16,36221
33 63,87009 57,64844 54,77553 51,74292 50,72508 47,39988 20,86653 19,04666 18,52714 17,07351
34 65,24722 58,96392 56,06090 52,99524 51,96599 48,60236 21,66428 19,80625 19,27543 17,78915
35 66,61883 60,27477 57,34207 54,24383 53,20335 49,80185 22,46502 20,56938 20,02743 18,50893
p
k↓ 0,999 0,995 0,99 0,98 0,975 0,95 0,05 0,025 0,02 0,01
36 67,98517 61,58118 58,61921 55,48886 54,43729 50,99846 23,26861 21,33588 20,78295 19,23268
37 69,34645 62,88334 59,89250 56,73047 55,66797 52,19232 24,07494 22,10563 21,54185 19,96023
38 70,70289 64,18141 61,16209 57,96880 56,89552 53,38354 24,88390 22,87848 22,30401 20,69144
39 72,05466 65,47557 62,42812 59,20398 58,12006 54,57223 25,69539 23,65432 23,06929 21,42616
40 73,40196 66,76596 63,69074 60,43613 59,34171 55,75848 26,50930 24,43304 23,83757 22,16426
41 74,74494 68,05273 64,95007 61,66538 60,56057 56,94239 27,32555 25,21452 24,60875 22,90561
42 76,08376 69,33600 66,20624 62,89181 61,77676 58,12404 28,14405 25,99866 25,38271 23,65009
43 77,41858 70,61590 67,45935 64,11554 62,99036 59,30351 28,96472 26,78537 26,15935 24,39760
44 78,74952 71,89255 68,70951 65,33667 64,20146 60,48089 29,78748 27,57457 26,93859 25,14803
45 80,07673 73,16606 69,95683 66,55527 65,41016 61,65623 30,61226 28,36615 27,72034 25,90127
46 81,40033 74,43654 71,20140 67,77143 66,61653 62,82962 31,43900 29,16005 28,50450 26,65724
47 82,72042 75,70407 72,44331 68,98524 67,82065 64,00111 32,26762 29,95620 29,29101 27,41585
48 84,03713 76,96877 73,68264 70,19676 69,02259 65,17077 33,09808 30,75451 30,07979 28,17701
49 85,35056 78,23071 74,91947 71,40608 70,22241 66,33865 33,93031 31,55492 30,87076 28,94065
50 86,66082 79,48998 76,15389 72,61325 71,42020 67,50481 34,76425 32,35736 31,66386 29,70668
55 93,16753 85,74895 82,29212 78,61914 77,38047 73,31149 38,95803 36,39811 35,65921 33,57048
60 99,60723 91,95170 88,37942 84,57995 83,29768 79,08194 43,18796 40,48175 39,69942 37,48485
65 105,98814 98,10514 94,42208 90,50124 89,17715 84,82065 47,44958 44,60299 43,77900 41,44361
70 112,31693 104,21490 100,42518 96,38754 95,02318 90,53123 51,73928 48,75757 47,89345 45,44172
75 118,59909 110,28558 106,39292 102,24253 100,83934 96,21667 56,05407 52,94194 52,03909 49,47503
80 124,83922 116,32106 112,32879 108,06934 106,62857 101,87947 60,39148 57,15317 56,21285 53,54008
85 131,04120 122,32458 118,23575 113,87057 112,39337 107,52174 64,74940 61,38878 60,41211 57,63393
90 137,20835 128,29894 124,11632 119,64846 118,13589 113,14527 69,12603 65,64662 64,63466 61,75408
95 143,34354 134,24655 129,97268 125,40493 123,85797 118,75161 73,51984 69,92487 68,87857 65,89836
100 149,44925 140,16949 135,80672 131,14168 129,56120 124,34211 77,92947 74,22193 73,14218 70,06490
X - Distribuição de Student
Sejam U e V duas variáveis aleatórias independentes tais que U ∼ N (0, 1) e V ∼ Xk2 .
U
A variável aleatória T = p segue uma lei ou distribuição de Student com k graus de
V /k
liberdade que se denota por tm . Escreve-se T ∼ tk . A lei tk é contı́nua e simétrica em
relação à origem, para qualquer valor de k ∈ N. Na figura seguinte apresentamos o esboço
do gráfico da densidade de uma distribuição t30 . O quantil de probabilidade p da lei tk será
-2 -1 1 2
denotado por tk (p) e, para alguns valores particulares de p e de k pode ser consultado na
tabela seguinte. O valor do quantil tk (p), para quaisquer k e p, pode ser encontrado usando
a função INVT do Excel. Concretamente, tem-se tk (p) = IN V T (2(1 − p); m). Por exemplo,
t52 (0, 975) = IN V T (0, 05; 52) = 2.0066.
Tabela de quantis da lei tk
tk (p)
T ∼ tk P (T ≤ tk (p)) = p
p
k↓ 0,75 0,80 0,85 0,90 0,95 0,975 0,99 0,995 0,999
1 1,00000 1,37638 1,96261 3,07768 6,31374 12,70615 31,82096 63,65589 318,2888

2 0,81649 1,06065 1,38620 1,88561 2,91998 4,30265 6,96454 9,92498 22,32845
3 0,76489 0,97847 1,24977 1,63774 2,35333 3,18244 4,54070 5,84084 10,21428
4 0,74069 0,94096 1,18956 1,53320 2,13184 2,77645 3,74693 4,60408 7,17293
5 0,72668 0,91954 1,15576 1,47588 2,01504 2,57057 3,36493 4,03211 5,89352
6 0,71755 0,90570 1,13415 1,43975 1,94318 2,44691 3,14266 3,70742 5,20754
7 0,71114 0,89602 1,11915 1,41492 1,89457 2,36464 2,99796 3,49948 4,78525
8 0,70638 0,88889 1,10814 1,39681 1,85955 2,30600 2,89646 3,35538 4,50076
9 0,70272 0,88340 1,09971 1,38302 1,83311 2,26215 2,82143 3,24984 4,29688
10 0,69981 0,87905 1,09305 1,37218 1,81246 2,22813 2,76377 3,16926 4,14365
11 0,69744 0,87557 1,08766 1,36343 1,79588 2,20098 2,71807 3,10581 4,02476
12 0,69548 0,87260 1,08321 1,35621 1,78228 2,17881 2,68099 3,05453 3,92959
13 0,69382 0,87015 1,07946 1,35017 1,77093 2,16036 2,65030 3,01228 3,85203
14 0,69241 0,86805 1,07628 1,34503 1,76130 2,14478 2,62449 2,97684 3,78742
15 0,69119 0,86624 1,07353 1,34060 1,75305 2,13145 2,60248 2,94672 3,73285
16 0,69013 0,86466 1,07113 1,33675 1,74588 2,11990 2,58349 2,92078 3,68614
17 0,68919 0,86327 1,06903 1,33337 1,73960 2,10981 2,56693 2,89823 3,64576
18 0,68836 0,86204 1,06716 1,33038 1,73406 2,10092 2,55237 2,87844 3,61047
19 0,68762 0,86095 1,06550 1,32772 1,72913 2,09302 2,53948 2,86094 3,57933
20 0,68699 0,85996 1,06401 1,32534 1,72471 2,08596 2,52797 2,84533 3,55183
21 0,68637 0,85907 1,06266 1,32318 1,72074 2,07961 2,51764 2,83136 3,52709
22 0,68580 0,85826 1,06144 1,32123 1,71714 2,07387 2,50832 2,81876 3,50497
23 0,68530 0,85752 1,06033 1,31946 1,71387 2,06865 2,49987 2,80733 3,48496
24 0,68483 0,85685 1,05931 1,31783 1,71088 2,06389 2,49216 2,79695 3,46677
25 0,68443 0,85623 1,05838 1,31634 1,70814 2,05953 2,48510 2,78743 3,45018
26 0,68404 0,85566 1,05752 1,31497 1,70561 2,05553 2,47862 2,77872 3,43497
27 0,68368 0,85513 1,05672 1,31370 1,70328 2,05182 2,47266 2,77068 3,42100
28 0,68335 0,85464 1,05598 1,31255 1,70113 2,04840 2,46714 2,76326 3,40820
29 0,68304 0,8541 1,05530 1,31143 1,69912 2,04523 2,46202 2,75638 3,39627
30 0,68275 0,85376 1,05466 1,31041 1,69726 2,04227 2,45726 2,74998 3,38521
p
k↓ 0,75 0,80 0,85 0,90 0,95 0,975 0,99 0,995 0,999
31 0,68248 0,85336 1,05406 1,30946 1,69551 2,03951 2,45282 2,74403 3,37488

32 0,68223 0,85299 1,05350 1,30857 1,69388 2,03693 2,44867 2,73848 3,36527
33 0,68199 0,85264 1,05297 1,30773 1,69236 2,03451 2,44479 2,73328 3,35632
34 0,68177 0,85232 1,05248 1,30695 1,69092 2,03224 2,44114 2,72839 3,34795
35 0,68156 0,85201 1,05201 1,30621 1,68957 2,03011 2,43771 2,72380 3,34002
36 0,68136 0,85172 1,05158 1,30551 1,68829 2,02809 2,43449 2,71948 3,33260
37 0,68117 0,85144 1,05116 1,30485 1,68709 2,02619 2,43144 2,71540 3,32562
38 0,68100 0,85118 1,05077 1,30423 1,68595 2,02439 2,42856 2,71156 3,31900
39 0,68083 0,85093 1,05039 1,30363 1,68487 2,02268 2,42584 2,70791 3,31274
40 0,68067 0,85067 1,05004 1,30307 1,68385 2,02107 2,42325 2,70445 3,30692
41 0,68052 0,85047 1,04970 1,30254 1,68287 2,01957 2,42080 2,70118 3,30124
42 0,68037 0,85024 1,04938 1,30203 1,68195 2,01808 2,41847 2,69807 3,29593
43 0,68023 0,85006 1,04908 1,30155 1,68107 2,01669 2,41625 2,69510 3,29091
44 0,68010 0,84986 1,04879 1,30109 1,68023 2,01536 2,41413 2,69228 3,28611
45 0,67998 0,84968 1,04851 1,30065 1,67942 2,01410 2,41211 2,68959 3,28145
46 0,67986 0,84950 1,04824 1,30022 1,67865 2,01289 2,41018 2,68701 3,27709
47 0,67974 0,84933 1,04799 1,29982 1,67792 2,01173 2,40834 2,68455 3,27287
48 0,67963 0,84917 1,04775 1,29943 1,67722 2,01063 2,40657 2,68220 3,26894
49 0,67953 0,84907 1,04751 1,29906 1,67655 2,00957 2,40488 2,67995 3,26508
50 0,67942 0,84886 1,04729 1,29872 1,67590 2,00855 2,40323 2,67778 3,26137
55 0,67897 0,84820 1,04629 1,29713 1,67303 2,00404 2,39608 2,66822 3,24514
60 0,67860 0,84765 1,04546 1,29582 1,67064 2,00029 2,39011 2,66027 3,23168
65 0,67828 0,84718 1,04476 1,29471 1,66863 1,99713 2,38509 2,65361 3,22041
70 0,67801 0,84678 1,04416 1,29376 1,66691 1,99443 2,38080 2,64790 3,21080
75 0,67777 0,84644 1,04364 1,29294 1,66542 1,99210 2,37710 2,64299 3,20243
80 0,67756 0,84613 1,04319 1,29225 1,66412 1,99006 2,37387 2,63869 3,19523
85 0,67738 0,84587 1,04279 1,29159 1,66297 1,98826 2,37101 2,63491 3,18890
90 0,67722 0,84563 1,04244 1,29102 1,66196 1,98667 2,36849 2,63158 3,18323
95 0,67708 0,84542 1,04212 1,29052 1,66105 1,98524 2,36624 2,62858 3,17828
100 0,67695 0,84523 1,04183 1,29007 1,66023 1,98397 2,36421 2,62589 3,17377
1.4 Teorema Limite Central

Considere a variável aleatória que representa o intervalo de tempo entre duas falhas con-
secutivas de uma máquina. A distribuição desta variável aleatória pode ser conhecida ou não.
Suponha agora que, para um grupo de 50 falhas consecutivas, estamos interessados em conhecer
a probabilidade de que o tempo total que decorre entre a primeira e a quinquagésima falhas
seja superior a determinado valor t0 (valor de referência para o problema em estudo). Para
abordar este problema há que considerar as variáveis aleatórias X1 , X2 , · · · , X49 sendo Xi a
variável aleatória que representa a amplitude de tempo
P que decorre entre as falhas i e i + 1.
Uma vez que o referido tempo total é definido por 49 i=1 Xi pretendemos calcular
49
!
X
P Xi > t0 .
i=1
No caso em que aquelas variáveis aleatórias seguem uma lei normal e são independentes, a
estabilidade da lei normal dá resposta a esta questão. Por outro lado, não tendo as variáveis
X1 , X2 , · · · , X49 distribuição normal, ou no caso em que tal distribuição é desconhecida, um
resultado teórico que nos permita obter uma distribuição aproximada para a soma de variáveis
aleatórias será bastante útil.
Consideremos agora um exemplo mais “académico”. Se realizarmos 100 lançamentos de um
dado equilibrado com as faces numeradas de 1 a 6, qual a probabilidade de que a proporção de
faces 2 seja superior a 0.3? Para responder a esta pergunta consideramos, para cada lançamento,
uma variável aleatória de Bernoulli de parâmetro 1/6. Temos assim 100 variáveis aleatórias
independentes e estamos interessados em calcular
100 100
! !
1 X X
P Xi > 0.3 = P Xi > 30 .
100
i=1 i=1
Mais uma vez teremos de conhecer P100a distribuição da soma de variáveis aleatórias independentes.
1
Embora neste caso particular i=1 Xi ∼ B(100, 6 ) os cálculos são bastante extensos. É mais
uma vez desejável obter uma aproximação para a distribuição da soma de variáveis aleatórias
independentes.
O Teorema Limite Central, que expomos de seguida, dá resposta a esta questão desde que
as variáveis intervenientes na soma, para além de independentes, tenham a mesma distribuição
de variância finita, seja tal distribuição conhecida ou não.
Teorema 1.4.1. ( Teorema Limite Central ) Sejam X1 , X2 , ..., Xn variáveis alea-

tórias independentes e todas com a mesma distribuição. Se E(X1 ) = m e V ar(X1 ) = σ 2
então Pn
Xi − nm
i=1√
lim P ≤ x = P (Z ≤ x), ∀x ∈ IR,
n→+∞ nσ
onde Z ∼ N (0, 1).
Pn
Xi − nm ·
i=1√
Observação 1.4.1. Nas condições do teorema escrevemos ∼ N (0, 1) ou,
nσ
Pn · ·
equivalentemente, i=1 Xi ∼ N (nm, nσ 2 ), onde o sı́mbolo ∼ se lê “segue assintoticamente a
distribuição”.
1.4. Teorema Limite Central 47
De acordo com o teorema anterior, podemos concluir que a soma de variáveis aleatórias
independentes e igualmente distribuı́das admitindo variância finita σ 2 e média m tem uma
função de distribuição que, para um número de parcelas suficientemente grande, pode ser
aproximada pela função de distribuição da lei N (nm, nσ 2 ).
Exemplo 1.4.1. Uma ponte foi projectada para suportar uma sobrecarga total de
1500 KN. Suponhamos que a variável aleatória que representa o peso de um automóvel
tem média 15 KN e desvio padrão 1.5 KN. Pretendemos determinar o número máximo de
automóveis que a ponte poderá suportar de modo que a probabilidade de serem causados
danos na sua estrutura não exceda 0.01.
Ora, considerando as variáveis X1 , X2 , · · · , Xn que representam o peso dos diferentes
n automóveis que a ponte pode suportar naquelas condições, e admitindo que estas podem
ser consideradas independentes, pelo Teorema Limite Central, podemos afirmar que
Pn
i=1 X√i − 15n ·
∼ N (0, 1).
1.5 n
De acordoPcom o que foi exposto pretendemos determinar o maior valor de n para o qual
se tem P ( ni=1 Xi > 1500) ≤ 0.01.
Uma vez que
n
! Pn
i − 15n
i=1 X√ 1500 − 15n
X
P Xi > 1500 = P > √ ,
1.5 n 1.5 n
i=1
usando a aproximação decorrente

do Teorema
Limite Central, vamos determinar o maior
1500−15n
valor de n que verifica P Z > 1.5√n ≤ 0, 01, onde Z ∼ N (0, 1). Consultando a tabela
da lei normal apresentada acima concluı́mos que 1500−15n
√
1.5 n
≥ 2.33 o que equivale a n ≤ 97.
Assim, para um número de automóveis sobre a ponte superior a 97, o risco desta sofrer
danos estruturais é superior a 1%.
Exemplo 1.4.2. Numa praça de determinada cidade estão habitualmente estacionados

automóveis em transgressão. Todos os dias a polı́cia multa automóveis estacionados em
transgressão, deixando uma notificação no pára-brisas. A probabilidade de um automóvel
estacionado em trangressão ser multado é de 0.9. O número de pessoas que, por dia, se
apresenta na esquadra para pagar a multa é uma variável aleatória de média e variância
iguais a 10. Se cada multa for de 20 euros e a esquadra estiver aberta 225 dias por ano,
qual a probabilidade de a receita anual com multas daquele tipo ultrapassar 47 mil euros?
Para responder a esta questão há que calcular a probabilidade de que o número total de
multas pagas em 225 dias seja superior a 2350. Para tal, consideremos as v.a’s
Xi = número de multas pagas no dia i
para i ∈ {1, 2, ..., 225}. Sabemos que E(Xi ) = 10, V ar(Xi ) = 10 e obviamente, que a v.a.
225
X
T = Xi representa o total de multas pagas em 225 dias. Admitindo a independência
i=1
daquelas 225 v.a’s, podemos afirmar, usando o Teorema Limite Central, que
P225
i=1√Xi − 2250 ·
∼ N (0, 1).(a )
2250
Assim
225
! P225 !
X
i=1√X i − 2250 2350 − 2250
P (T > 2350) = P Xi > 2350 =P > √
i=1
2250 2250

' P Z> √100 ' P (Z > 2.11) = 1 − FZ (2.11) = 0.01743,
2250
onde Z ∼ N (0, 1).

a ·
Depois de fixar o valor de n, como acontece neste exemplo, o sı́mbolo ∼ não se lê “segue assintoticamente
a distribuição”, mas sim “segue aproximadamente a distribuição”. Entendemos que, neste contexto, não
se justifica o uso de dois sı́mbolos distintos.
Relativamente à soma de variáveis aleatórias independentes já estudámos quatro casos

distintos. A saber:
• a soma de n variáveis aleatórias independentes com distribuição B(p) tem distribuição
B(n, p);
• a soma de n variáveis aleatórias independentes com distribuição de Poisson tem também
distribuição de Poisson com média igual à soma das médias (estabilidade da distribuição de
Poisson);
• a soma de n variáveis aleatórias normais independentes tem distribuição normal com
média igual à soma das médias e variância igual à soma das variâncias (estabilidade da distri-
buição normal);
• a soma de n variáveis aleatórias independentes com a mesma distribuição, de variância
finita σ 2 e média m, tem distribuição aproximadamente normal com média igual a nm e
variância igual a nσ 2 (Teorema Limite Central).
Observemos agora que, conciliando a primeira e a quarta destas conclusões podemos afirmar
que
• a função de distribuição da lei B(r, p), para r suficientemente grande, pode ser apro-
ximada pela função de distribuição da lei N (rp, rp(1 − p)).
Muitos autores afirmam que esta aproximação deve ser considerada apenas para p perten-
cente ao intervalo ]0.1, 0.9[.
Analogamente, uma vez que a soma de n variáveis aleatórias independentes com distribuição
P(λ) segue a lei P(nλ), concluı́mos, usando de novo o Teorema Limite Central, que
• a função de distribuição da lei P(nλ) pode ser aproximada, para n suficientemente
grande, pela função de distribuição da lei N (nλ, nλ).
1.4. Teorema Limite Central 49
Exemplo 1.4.3. O número de acessos, por dia, a um determinado site de internet

é uma v.a. real N com distribuição de Poisson de média 9.5. Suponha que os acessos ao
site se processam de forma independente. Comecemos por calcular a probabilidade de o
número total de acessos em 950 dias ser superior a 8900.
Consideremos 950 réplicas de N , ou seja, para i ∈ {1, 2, ..., 950}, consideremos a v.a
Ni que representa o número de acessos ao site no dia i. Sabemos que Ni ∼ P(9.5). Ora,
950
X
a v.a. Ni representa o número total de acessos ao site em 950 dias. Uma vez que as
i=1
v.a’s N1 , N2 , ..., N950 são independentes e identicamente distribuı́das, pelo Teorema Limite
Central, podemos concluir que
950
X
Ni − 950 × 9.5
i=1 ·
√ ∼ N (0, 1),
950 × 9.5
950
·
X
ou, escrito de outra forma, Ni ∼ N (9025, 9025). Então
i=1
950 950
! ! !
X X
1 8900−9025
P Ni > 8900 = P 95 Ni − 9025 > 95
i=1 i=1
' P (Z > −1.32) = P (Z ≤ 1.32) = 0.90658,
onde Z ∼ N (0, 1).

Sabendo que P (N > 12) = 0.164, calculemos agora a probabilidade de, em 320 dias,
se observarem pelo menos 85 dias com mais de 12 acessos. Denotemos por Y a v.a. que
representa o número de dias, em 320, em que se registaram mais de 12 acessos ao site.
Uma vez que os acessos se processam de forma independente, temos 320 experiências de
Bernoulli em que o sucesso é o acontecimento {N > 12}. Como se tem P (N > 12) = 0.164,
320
X
concluı́mos que Y ∼ B(320, 0.164). Por outro lado, Y = Yi , onde Yi segue uma lei de
i=1
Bernoulli de parâmetro 0.164. Então, pelo Teorema Limite Central, podemos afirmar que
320
X
Yi − 320 × 0.164
·
√i=1 ∼ N (0, 1),
320 × 0.164 × 0.836
onde Z ∼ N (0, 1). Assim

 320 
X
 Yi − 320 × 0.164 
 i=1
√ 85−320×0.164 

P (Y ≥ 85) = P 
 √320×0.164×0.836 ≥ 320×0.164×0.836 
 
' P (Z ≥ 2.2) = 1 − P (Z < 2.2) = 1 − 0.9861 = 0.0139.
Exercı́cio 1.4.1. Os registos dos jogos do campeonato europeu de futebol, desde 1984,
permitiram concluir que a variável aleatória que representa o número de golos por jogo (em
tempo regulamentar) tem média 1.8 e desvio padrão 1.1. Admitindo a independência entre o
número de golos em jogos diferentes, determine a probabilidade de se marcarem pelo menos 50
golos em 51 jogos do Euro 2024.
Exercı́cio 1.4.2. Uma refinaria de petróleo possui, num dos parques de abastecimento, um
equipamento recentemente renovado que lhe permite encher, por mês, uma média de 280 tanques
com um desvio padrão de 18 tanques. Admitindo a independência entre os abastecimentos
mensais, calcule uma aproximação para a probabilidade de, em três anos, este equipamento
encher menos de 10400 tanques.
Exercı́cio 1.4.3. As quantidades mensais (em toneladas) de matéria recolhida para reci-
clar, em determinada região, são representadas por variáveis aleatórias que podem ser consi-
deradas independentes e identicamente distribuı́das de média 10 e desvio padrão 2. Determine
uma aproximação para a probabilidade de que o total de matéria recolhida, em três anos, seja
superior a 380 toneladas.
Exercı́cio 1.4.4. O serviço de manutenção de um prédio é obrigado a substituir uma

lâmpada num dispositivo de iluminação. O tempo que dura cada lâmpada é em média de 2
semanas apresentando um desvio padrão de 3 dias. Se se adquirirem 40 lâmpadas, qual a
probabilidade de esse stock durar mais de 2 anos?
Exercı́cio 1.4.5. Um posto de transformação permite uma carga total de 2800 KW.
Sabe-se que este posto de transformação alimenta uma fábrica com um consumo permanente
de 2500 KW. Por outro lado, alimenta 100 consumidores domésticos. Em electrodomésticos,
cada um gasta em média 2KW com desvio padrão de 0.5KW e, em iluminação, gasta em
média 0.5KW com desvio padrão de 0.25KW. Admitindo a independência destes dois tipos de
consumo, calcule a probabilidade de o transformador disparar por excesso de carga.
Exercı́cio 1.4.6. O tempo de reparação, em horas, de determinado tipo de dispositivos

eletrónicos é uma variável aleatória de valor médio 1 e desvio padrão 0.4. Calcule a proba-
bilidade de o tempo total de reparação de 54 das referidas avarias, com tempos de reparação
independentes, ser inferior a 48 horas.
Capı́tulo 2
Análise exploratória de dados
Se temos tudo sob controlo,

significa que não estamos a caminhar suficientemente rápido.
2.1 Introdução
Perante uma amostra como a que apresentamos a seguir:
0.367, 2.169, 2.268, 1.649, 2.347, 2.335, 1.546, 0.378, 1.608, 0.121, 1.875, 0.212, 0.367, 1.162,
1.328, 1.053, 1.578, 0.613, 2.340, 2.119, 0.928, 1.750, 1.266, 1.799, 0.710, 0.354, 1.459, 2.224,
2.036, 1.333, 2.197, 2.293, 0.601, 0.522, 2.167, 1.874, 2.042, 0.677, 0.448, 0.073, 0.969, 0.840,
0.615, 0.579, 0.135, 1.389, 1.621, 0.413, 1.857, 2.075,
podemos colocar as questões seguintes.
• Como tratar um conjunto de dados como estes?
• O que “confessam” estes dados?
• Qual a distribuição da variável aleatória que lhes está subjacente?
♣♦♥♠
Ao longo deste capı́tulo apresentamos os conceitos fundamentais da Estatı́stica Descritiva,

que é um ramo da Estatı́stica que contém os métodos adequados para organizar, resumir e
interpretar a informação contida na amostra.
Já definimos atrás população como um conjunto de indivı́duos com caracterı́sticas comuns
que interessa estudar e amostra como um subconjunto de elementos extraı́dos da população.
Por outro lado, também sabemos que qualquer estudo estatı́stico envolve a análise de um
conjunto de dados estatı́sticos usando para tal metodologias matemáticas adequadas a cada tipo
de variável e, em muitos casos, à dimensão da amostra. O que designamos por indivı́duo de uma
população pode ser uma pessoa, um objecto, um animal, um edifı́cio, uma empresa, um valor
51
52 Capı́tulo 2. Análise exploratória de dados
da temperatura em determinado local, um agregado familiar, etc. Sobre os indivı́duos de uma

dada população, podemos observar um ou mais atributos ou caracterı́sticas, os quais, por sua
vez, apresentam várias modalidades mutuamente exclusivas. Por exemplo, se considerarmos
a população dos estudantes da Universidade de Coimbra são atributos com interesse para
certos estudos estatı́sticos, a idade, o estado civil, o sexo, o número de irmãos, o número de
disciplinas em que já obtiveram aprovação, a média das classificações obtidas em tais disciplinas,
o gasto médio mensal com os estudos, etc. Enquanto as modalidades do atributo idade são os
números reais de um certo intervalo, as modalidades do atributo sexo são apenas masculino e
feminino. A mensurabilidade associada ou não a um dado atributo conduz à sua classificação
em quantitativos e qualitativos, respectivamente. Na verdade, são atributos quantitativos
aqueles que assumem valores numéricos com os quais faz sentido efectuar operações aritméticas.
Em contrapartida, são atributos qualitativos aqueles cujas modalidades são categorias não
mensuráveis. No exemplo acima, são atributos quantitativos a idade, o número de irmãos,
o número de disciplinas em que já obtiveram aprovação, a média de tais disciplinas, o gasto
médio mensal com os estudos e são atributos qualitativos o estado civil e o sexo.
Acrescenta-se que os atributos qualitativos se dividem ainda em nominais e ordinais. No-
minais são os exemplos acima e ordinais são os que se podem ordenar, embora numa escala
não numérica; como por exemplo as classificações numa prova: Bom, muito bom e medı́ocre.
Em muitas situações estamos interessados em estudar vários atributos em simultâneo, sendo

relevante o grau de depedência ou associação entre eles.
Neste curso analisamos atributos populacionais unidimensionais e bidimensionais.
Uma observação mais cuidada dos exemplos acima permite-nos concluir que os atributos
quantitativos não são todos do mesmo tipo. Por exemplo, a idade de um aluno assume valo-
res num intervalo e o número de irmãos assume valores num conjunto finito. À semelhança
da distinção que apresentámos entre variável aleatória discreta e variável aleatória contı́nua,
também definimos como atributo discreto aquele cujas modalidades pertencem a um conjunto
finito ou infinito numerável e como atributo contı́nuo aquele cujas modalidades pertencem a
um intervalo.
Damos o nome de variável estatı́stica, que denotamos por X ∗ , à função que a cada elemento
da amostra faz corresponder a modalidade do atributo que estamos a estudar. Naturalmente,
uma variável estatı́stica quantitativa diz-se discreta ou contı́nua se o atributo que lhe está
associado é discreto ou contı́nuo, respectivamente.
Em qualquer estudo estatı́stico, os métodos de recolha de dados (ou técnicas de amostragem)

devem ser muito bem especificadas e bem conhecidas pelo investigador, uma vez que estas
condicionam as decisões estatı́sticas finais. Para proceder à recolha de dados existem métodos
probabilistas e métodos não probabilistas.
Nos métodos probabilistas qualquer elemento da população pode ser incluı́do na amostra e
é conhecida a probabilidade de tal acontecer. Por outro lado, nos métodos não probabilistas a
amostra é selecionada em função da disponibilidade e acessibilidade dos elementos da população
ou da opinião de um conjunto de conhecedores das caracterı́sticas da população. Por exemplo,
quando se estuda a aceitação de um produto que se encontra à venda no mercado. Neste
caso a amostra é constituı́da pelos indivı́duos que aceitaram responder, não sendo, por isso,
completamente aleatória. Assim sendo a representatividade desta amostra é colocada em causa.
2.2. Variáveis estatı́sticas quantitativas unidimensionais 53
Voltemos aos métodos probabilistas. Estes incluem várias formas de amostragem, entre
as quais destacamos a amostragem aleatória e a amostragem estratificada. Na amostragem
aleatória todos os elementos da população têm a mesma probabilidade de ser incluı́dos na
amostra, sendo cada um resultado de uma selecção aleatória sem reposição. Na amostragem
estratificada começamos por dividir a população em estratos disjuntos e homogéneos, seleci-
onando depois, em cada estrato, uma amostra aleatória simples de dimensão proporcional à
dimensão do estrato. A amostra completa resulta da união de todas estas sub-amostras.
2.2 Variáveis estatı́sticas quantitativas unidimensionais

2.2.1 Variáveis discretas
Dada uma amostra de dimensão n extraı́da de uma população representemos por x1 , x2 , ..., xn
os valores correspondentes assumidos pela variável estatı́stica X ∗ em estudo.
Observação 2.2.1. No contexto em que estes textos se inserem passaremos a chamar

amostra observada (ou apenas amostra) ao vector (x1 , x2 , ..., xn ).
Atendendo a que uma variável estatı́stica X ∗ tem associada uma variável aleatória X,
uma amostra observada (x1 , x2 , ..., xn ) não é mais que um valor observado de um vector
(X1 , X2 , ..., Xn ), constituı́do por variáveis independentes e todas com a lei de X, a que chama-
remos adiante amostra aleatória de X.
Suponhamos que x∗1 , x∗2 , ..., x∗k são os k elementos distintos da amostra observada inicial
(x1 , x2 , ..., xn ), com k ≤ n, tendo-se
x∗1 < x∗2 < · · · < x∗k .
k
X
Representemos por ni a frequência absoluta do valor x∗i , para a qual se tem ni = n, e
i=1
Xk
ni
representemos por fi = n a frequência relativa simples de x∗i , para o que se tem fi = 1.
i=1
Na presença de uma variável estatı́stica discreta começamos o seu tratamento estatı́stico
pela construção de um gráfico a que damos o nome de diagrama de barras. Trata-se de um
gráfico de barras verticais que unem os pontos de coordenadas (x∗i , 0) e (x∗i , fi ), para i =
1, · · · , k, como o que apresentamos a seguir.
f3
fk
f2
f1
x∗1 x∗2 x∗3 ··· x∗k−1 x∗k

Damos o nome de função cumulativa ou função de frequências acumuladas à função

F ∗ : IR −→ X[0, 1]
x −→ fi
x∗i ≤x
A F ∗ (x∗j )
= f1 + f2 + · · · + fj , que também denotamos por Fj , chamamos frequência relativa
acumulada de x∗j .
Passamos a apresentar o esboço do gráfico da função cumulativa.
F∗
1
0
x∗1 x∗2 x∗3 ··· x∗k−1 x∗k
Com o objectivo de proceder à inferência dos parâmetros desconhecidos da distribuição da

variável aleatória em estudo vamos estudar as caracterı́sticas numéricas relativas à variável es-
tatı́stica associada. Neste contexto podemos falar genericamente de caracterı́sticas ou medidas
de localização e de dispersão.
A média da amostra que se denota por x e define por
n k
1X X
x= xi = fi x∗i
n
i=1 i=1
é uma medida de localização e de tendência central da amostra observada.
A moda da amostra é outra caracterı́stica de localização dos dados que se define como sendo
um valor da variável estatı́stica onde a frequência (relativa ou absoluta) atinge um máximo
local. Doutro modo, o valor x∗i é uma moda da amostra se fi ≥ fi−1 e fi ≥ fi+1 , onde
se considera f0 = 0 e fk+1 = 0. As variáveis estatı́sticas podem ser unimodais, bimodais,
trimodais, etc. Sempre que apresentem mais que duas modas são designadas multimodais.
A outra medida de localização que, à semelhança da média, é uma medida de tendência
central é a mediana. A mediana de uma variável estatı́stica (ou da amostra) é o valor real (não
necessariamente um dos elementos da amostra) que divide a amostra em “duas partes iguais”.
Concretamente, a mediana é um valor real que denotamos por med e que verifica
1 1
lim F ∗ (x) ≤ e lim F ∗ (x) ≡ F (med) ≥ .
x→med− 2 x→med+ 2
Retomemos a amostra inicial e denotemos por xi:n o i-ésimo elemento da amostra ordenada,
tendo-se assim
x1:n ≤ · · · ≤ xi:n ≤ · · · xn:n
No caso em que a dimensão da amostra é par, qualquer elemento do intervalo [x n2 :n , x n2 +1:n ]

verifica as desigualdades anteriores que definem a mediana. Assim sendo, neste caso, considera-
se que a mediana da amostra é o ponto médio entre os dois extremos deste intervalo. Em resumo
x :n + x n2 +1:n
 n
 2 se n par


2
med = .

 x n+1

se n ı́mpar
2
:n
A média, a moda e a mediana são medidas de localização.

Notemos que a simetria estrita é uma caracterı́stica rara de obter numa amostra, podendo
acontecer, contudo, que a moda, a média e a mediana apresentem valores muito próximos.
A média de uma amostra, apesar de ser quase sempre o primeiro valor a determinar, é muito
“sensı́vel” à presença de valores muito elevados ou de valores muito reduzidos em relação aos
valores tı́picos dessa amostra. Por exemplo, a amostra
(1, 2, 2, 2, 3, 3, 4, 4, 4, 5, 6, 18)
tem média igual a 4.5 enquanto a média dos valores 1, 2, 2, 2, 3, 3, 4, 4, 4, 5, 6 é exactamente

3.2727(27). Esta falta de robustez da média amostral é de certa forma contornada com o
cálculo da mediana que é, de acordo com a sua definição, um parâmetro amostral de tendência
central bastante robusto à existência de valores muito distintos dos restantes.
Outras medidas de localização da amostra que nos interessa estudar são os quantis de ordem
p da amostra, com p ∈ ]0, 1[. Perante uma amostra, damos o nome de quantil de ordem p,
com p ∈ ]0, 1[, ao valor real, não necessariamente pertencente à amostra, que denotamos por
q(p) e que verifica
lim F ∗ (x) ≤ p e lim F ∗ (x) = F ∗ (q(p)) ≥ p.

x→q(p)− x→q(p)+
Em particular obtemos os três quartis da amostra, que denotamos por q1 , q2 e q3 , fazendo

p = 1/4, p = 1/2 e p = 3/4. Assim, os três quartis dividem a amostra em “quatro partes
iguais”, ou seja, são números reais caracterizados pelo facto de 25%, 50% e 75% das observações,
respectivamente, serem menores ou iguais a eles. De acordo com a definição que já conhecemos
para a mediana concluı́mos imediatamente que a mediana coincide com o segundo quartil.
Na prática, atendendo a que o primeiro e o terceiro quartil são, grosso modo, a mediana da
“primeira”e da “segunda”“metade”da amostra, respectivamente, para determinar estes quartis
há que considerar isoladamente a primeira e a segunda “metade”da amostra ordenada e calcular
a mediana de cada uma delas. Concretamente, se a dimensão da amostra inicial é par esta
divisão é trivial e no caso em que tal dimensão é ı́mpar incluı́mos a mediana (mais precisamente
a observação x n+1 :n ) em cada uma das sub-amostras consideradas.
2
Exemplo 2.2.1. Relativamente à amostra observada (2, 2, 3, 4, 5, 5, 5, 5, 6) tem-se q1 =

3, med = 5 e q3 = 5. Relativamente à amostra (1, 2, 2, 3, 4, 4, 5, 6, 6, 6, 7, 7) tem-se q1 = 2.5,
med = 4.5 e q3 = 6.
Observação 2.2.2. Realçamos aqui o facto, de certa forma incómodo para o leitor, de
que estamos a usar várias notações diferentes para a mesma entidade. Por exemplo a mediana
da amostra é denotada por q(1/2), med e q2 .
Seguindo outros autores, apresentamos a seguir uma fórmula de cálculo simples e alternativa
ao que expusémos acima para q1 e q3 :

 x 3n se 3n/4 inteiro

 x n4 :n se n/4 inteiro 
4
:n
q1 = q3 = .
x[ n4 +1]:n se não  x 3n se não
 
[ +1]:n
4
De uso bastante generalizado são os percentis Pi = qi/100 , i ∈ {1, 2, ..., 99}, os quais dividem
a distribuição da amostra em 100 partes iguais (ou pelo menos com sensivelmente o mesmo
número de observações), desde que o número de observações seja suficiente para tornar este
conceito possı́vel.
À semelhança do que foi exposto para as variáveis aleatórias, iremos apresentar algumas
medidas de dispersão dos dados que constituem a amostra. Na verdade, a moda, a média e a
mediana, quando observadas isoladamente, não nos permitem tirar conclusões precisas acerca
da concentração dos valores que constituem a amostra. Todavia, a posição dos três quartis
em relação ao máximo e ao mı́nimo amostrais e a amplitude entre o primeiro e o terceiro
quartis, onde se concentram 50% dos dados, fornecem-nos indicação bastante completa sobre
a dispersão dos valores amostrais.
As medidas de dispersão que consideramos são a amplitude amostral An = xn:n − x1:n ,
a amplitude interquartis AIQ = q3 − q1 e a variância e o desvio padrão amostrais que
definiremos adiante.
O diagrama de extremos e quartis (ou caixa com bigodes) é um gráfico com o qual se
pretende ilustrar a variabilidade dos elementos da amostra em torno da mediana. Este diagrama
é naturalmente utilizado para evidenciar tendências assimétricas na distribuição dos dados. Por
exemplo, se a mediana, o terceiro quartil e o máximo estão relativamente próximos, quando
comparados com as amplitudes entre a mediana e o primeiro quartil e entre este e o mı́nimo
amostral, teremos uma amostra que evidencia assimetria negativa.
Na figura seguinte apresentamos um esboço de um diagrama de extremos e quartis.
max
q3
med
q1
min
Uma outra forma de estudar a variabilidade dos elementos amostrais consiste em avaliar a
dispersão com que estes se situam em relação à média da amostra. Este propósito consegue-se
considerando inicialmente o quadrado dos desvios entre a média e cada um dos valores da
amostra e calculando posteriormente a média de tais quadrados. A variância da amostra é

uma versão modificada de tal média de quadrados que se define por
n n
1 X 1 X 2 n
s2n
= (xi − x)2 = xi − (x)2 .
n−1 n−1 n−1
i=1 i=1
p
Chamamos desvio padrão da amostra a sn = s2n .
Em algumas aplicações poderemos usar as seguintes aproximações para o desvio padrão:
xn:n − x1:n q3 − q1
sn ∼ e sn ∼
4 1.349
Uma medida que permite caracterizar a assimetria (ou a simetria) de uma amostra é o
coeficiente de assimetria definido por:
n
1 X
g= 3 (xi − x)3 .
nsn
i=1
O valor g = 0 corresponde à simetria da distribuição da amostra, sendo que os valores g < 0

e g > 0 correspondem a assimetria negativa e positiva respetivamente, isto é, concentração de
observações em posições mais elevadas (menos elevadas).
Mais, x ' med, x < med e x > med dão evidência a simetria, assimetria negativa e
assimetria positiva, respetivamente.
Por fim, para variáveis positivas, definimos o coeficiente de variação relativa CV = sn /x.
Por exemplo, CV = 0.1 significa que os desvios das observações em relação à média atingem
10% do valor desta.
Muitas distribuições amostrais apresentam valores muito superiores ou muito inferiores

quando comparados com a concentração dos restantes. São, por isso, designados valores
aberrantes ou outliers. Uma observação x é um outlier se verificar
x < q1 − 1.5 × AIQ ou x > q3 + 1.5 × AIQ.
Se a discrepância for ainda maior verficando-se
x < q1 − 3 × AIQ ou x > q3 + 3 × AIQ
ou outlier diz-se severo, ficando para os restantes a designação de outlier moderado.
2.2.2 Variáveis contı́nuas

Suponhamos que a variável estatı́stica X ∗ assume valores no intervalo [a0 , ak ], isto é, todos
os elementos da amostra estão compreendidos entre a0 e ak , e admitamos que
A1 := [a0 , a1 ], A2 :=]a1 , a2 ], · · · , Ak :=]ak−1 , ak ]
é uma partição adequada daquele intervalo. Devemos observar que a escolha desta partição,
incluindo a amplitude de cada uma destas classes, está muitas vezes relacionada com a natureza
do fenómeno que se está a estudar. Por exemplo, é comum considerar classes de amplitudes
diferentes em estudos de hierarquias profissionais, rendimentos percapita ou mesmo distribuições

de idades.
Para cada uma das classes A1 , · · · , Ak também se definem as frequências relativa e absoluta,
similarmente ao que foi exposto para variáveis estatı́sticas discretas. Concretamente, damos
o nome de frequência absoluta da classe Ai , que denotamos por ni , ao número de elementos
Xk
da amostra que pertencem a Ai , para i = 1, · · · , k. Tem-se obviamente ni = n, onde n
i=1
representa mais uma vez a dimensão da amostra. A frequência relativa simples da classe Ai é
i
X
definida por fi = nni e a frequência relativa acumulada por Fi = fj .
j=1
Depois de conhecermos os valores das frequências de cada uma das classes, há que obter re-
presentações gráficas que nos permitam inferir sobre a distribuição de probabilidade da variável
aleatória subjacente aos dados de que dispomos. As representações gráficas a que nos referimos
são usualmente designadas em Estatı́stica histograma e polı́gono de frequências.
Para construir um histograma respeitante a uma determinada amostra de dimensão n,
começamos por dividir os elementos desta amostra em classes (intervalos reais) disjuntas e
que constituam uma partição do intervalo inicial onde se situa a amostra. Este procedimento
permite gerar uma variável estatı́stica contı́nua.
No presente curso consideramos apenas classes de igual amplitude dada por
3.5 sn
hn ∼ 1/3 .
n
Esta restrição conduz quase sempre a um número de classes cuja união tem uma amplitude
superior à amplitude total da amostra, o que significa que o extremo inferior da primeira classe
pode não ser o mı́nimo amostral, assim como o extremo superior da última classe pode ser ou
não o máximo amostral. Representemos tais classes por
A1 := [a0 , a1 ], A2 :=]a1 , a2 ], · · · , Ak :=]ak−1 , ak ].
Seguidamente marcamos os valores a0 , a1 , a2 · · · , ak−1 , ak no eixo das abcissas de um sistema
de eixos coordenados e marcamos os valores hfni (ou apenas fi ) no eixo das ordenadas, para
i = 1, 2, · · · , k. O histograma consiste no conjunto dos k rectângulos justapostos de base hn e
alturas hfn1 , · · · , hfkn .
O polı́gono de frequências é uma linha poligonal que se constrói unindo os pontos de coor-
denadas ( ai +a2 i−1 , hfni ), para i = 1, · · · , k. Podemos acrescentar o segmento que une os pontos
(a0 − h2n , 0) e (a0 + h2n , f1 ) e o segmento que une os pontos (ak − h2n , fk ) e (ak + h2n , 0).
Apresentamos de seguida um exemplo de um histograma associado ao respectivo polı́gono
de frequências.
9
40
7
40
4
40
2
40
0 1 2 3 4 5 6 7 8
De acordo com a definição que apresentámos de função densidade de probabilidade e aten-

dendo à definição de integral definido, podemos concluir que, quando a “a dimensão da amostra
tende para a dimensão da população”e, concomitantemente, a amplitude de cada classe tende
para zero, o polı́gono de frequências “dá lugar”ao gráfico de uma densidade. Por outras pala-
vras, podemos afirmar que quando a dimensão da amostra é suficientemente grande o polı́gono
de frequências é uma “boa aproximação”da densidade de probabilidade da variável aleatória
contı́nua subjacente à referida amostra.
Nos casos em que temos histogramas como o apresentado acima evidenciando simetria e
com um polı́gono de frequências associado com uma “configuração relativamente próxima”
da densidade da lei normal, podemos começar por ajustar uma distribuição normal à variável
aleatória em estudo. Ainda assim, podemos vir a rejeitar tal hipótese como veremos no capı́tulo
três.
Se, por outro lado, a amostra da variável aleatória em estudo gerar um histograma como o
que apresentamos a seguir, será razoável começar por ajustar uma distribuição uniforme sobre
um certo intervalo a tal variável aleatória.
Nas circunstâncias em que dispomos de uma amostra a partir da qual construı́mos um

histograma como o que apresentamos seguidamente, deveremos começar por ajustar uma dis-
tribuição exponencial à variável aleatória subjacente a esses dados.
2 4 6 8 10 14
Um outro exemplo que apresentamos é o do histograma seguinte.

0 1
Face a um conjunto de dados a partir do qual foi possı́vel construir o histograma acima
podemos começar por admitir que a função densidade da variável aleatória em estudo é da
forma: θ−1
θt se t ∈ [0, 1]
f (t) = ,
0 se t 6∈ [0, 1]
onde θ é um parâmetro real superior a 1, desconhecido.
A função cumulativa associada a uma variável estatı́stica contı́nua é uma função real de
variável real F ∗ : IR → [0, 1] com expressão analı́tica:


 0 se x < a0



x−a0

 f1 a1 −a0 se a0 ≤ x < a1







x−a1
se a1 ≤ x < a2

 F1 + f2 a2 −a1


∗
F (x) =
... ...







 x−a
Fk−1 + fk ak −ak−1 se ak−1 ≤ x < ak



k−1






se x ≥ ak

1
Ao seu gráfico damos o nome de curva cumulativa. Apresentamos seguidamente um exemplo

de uma curva cumulativa.
F∗
1
7/8
5/8
7/16
3/8
1/8
−1 0 1 2 3 4 5 6
O “papel”que a função cumulativa desempenha perante os dados, em relação à função de

distribuição da variável aleatória subjacente, é exactamente o mesmo “papel”que desempenha
o polı́gono de frequências relativamente à função densidade.
Nas circunstâncias em que estamos na presença de uma variável estatı́stica contı́nua, defi-
nimos quantil de ordem p, para p ∈ ]0, 1[, à custa da função cumulativa, como aliás fizemos no
caso em que a variável era discreta. Concretamente, o quantil de ordem p é o número real q(p)
que verifica
F ∗ (q(p)) = p, p ∈]0, 1[.
Relativamente à questão da presença de assimetrias são válidas as desigualdades que as

definem no caso em que dispomos de uma variável estatı́stica discreta. É também válida a
interpretação que fazemos do gráfico de extremos e quartis.
Na situação particular em que dispomos de uma variável contı́nua, tendo sido já ”perdida”a
amostra inicial (só dispomos das classes e das respectivas frequências), para determinar apro-
ximações para a média e para a variância, entre outros parâmetros, usamos a variável das
marcas que denotamos por X 0 . Esta variável estatı́stica é discreta e assume exactamente os
valores correspondentes aos pontos médios das classes. Seguidamente consideram-se as apro-
ximações
x ' x0 e sn ' s0n
Para finalizar este capı́tulo, observamos que no caso do histograma dar alguma evidência à
normalidade da distribuição da variável aleatória em estudo, podemos afirmar que:
• O intervalo (x − sn , x + sn ) contém aproximadamente 68% dos valores amostrais;
• O intervalo (x − 2sn , x + 2sn ) contém aproximadamente 95% dos valores amostrais;
• O intervalo (x − 3sn , x + 3sn ) contém aproximadamente 100% dos valores amostrais.
Exercı́cio 2.2.1. Fez-se um estudo acerca da idade em que é diagnosticada uma certa
doença, obtendo-se os seguintes registos: 18, 18, 25, 19, 23, 20, 42, 18, 21, 18, 18, 20, 18, 18,
20, 18, 19, 28, 17, 18. Calcule a média, o desvio padrão e os quartis da amostra. Construa o
diagrama de extremos e quartis. Nota-se alguma concentração especial dos valores?
Exercı́cio 2.2.2. As notas de 50 alunos num exame foram

8.6 12.1 13.6 14.4 15.8 10.2 12.4 13.8 14.6 15.8
10.6 12.6 13.8 14.6 16.1 11.0 12.8 13.8 14.8 16.4
11.4 13.0 13.8 14.8 16.4 11.6 13.0 14.0 15.0 17.0
11.6 13.2 14.0 15.2 17.4 11.8 13.2 14.0 15.2 17.8
12.2 13.4 14.2 15.4 18.2 12.2 13.6 14.2 15.6 19.2
1. Determine a média, a variância e os quartis desta amostra.
2. Construa um histograma de frequências relativas e o gráfico de extremos e quartis.

3. Por que motivo podemos começar por ajustar uma distribuição normal à variável X?
Exercı́cio 2.2.3. Considere a seguinte amostra observada de uma variável aleatória X.
-17,53 -12,07 -9,72 -8,46 -7,00 -6,74 -6,44 -6,25 -6,03 -4,83
-4,73 -3,92 -3,85 -3,02 -2,06 -1,98 -,37 -,05 -,03 ,94
1,13 1,14 1,15 1,17 1,48 1,60 2,07 2,32 3,00 3,70
3,87 3,97 4,13 4,24 4,54 4,59 5,14 6,77 7,60 7,66
7,68 8,32 9,26 10,26 10,62 11,15 11,44 12,72 13,12 13,52
13,54 13,68 14,24 14,33 16,19 16,27 16,85 17,65 19,85 25,1
1. Determine estimativas para a média e para a variância de X.
2. Determine os quartis desta amostra.
3. Construa um histograma e o gráfico de extremos e quartis.
4. Por que motivo podemos começar por ajustar uma distribuição normal à variável X?
Exercı́cio 2.2.4. Considere a seguinte amostra observada de uma variável aleatória Y .
0,02 0,03 0,05 0,07 0,08 0,21 0,23 0,26 0,26 0,29
0,30 0,33 0,34 0,35 0,35 0,43 0,47 0,49 0,49 0,52
0,60 0,81 0,84 0,87 0,90 0,92 0,96 0,98 0,99 1,05
1,08 1,09 1,19 1,26 1,29 1,54 1,65 1,76 1,84 1,84
2,04 2,19 2,20 2,21 2,27 2,30 2,32 2,38 2,43 2,50
2,81 3,34 3,44 3,82 3,96 4,39 4,45 4,88 5,63 6,01
2. Construa um histograma e o gráfico de extremos e quartis. Qual a distribuição que se

pode começar por ajustar à v.a. Y ?
Exercı́cio 2.2.5. Considere a seguinte amostra observada de uma variável aleatória W .
4,02 4,04 4,10 4,10 4,12 4,12 4,14 4,16 4,19 4,21
4,23 4,23 4,24 4,26 4,28 4,34 4,35 4,38 4,38 4,41
4,46 4,47 4,48 4,59 4,59 4,60 4,68 4,72 4,73 4,75
4,78 4,78 5,11 5,14 5,30 5,41 5,45 5,46 5,49 5,58
5,74 5,78 5,79 5,88 5,92 6,06 6,10 6,17 6,24 6,30
6,33 6,36 6,41 6,44 6,55 6,70 6,80 8,36 9,44 9,73

pode começar por ajustar à v.a. W ?
Exercı́cio 2.2.6. Considere a seguinte amostra observada de uma variável aleatória U .

0,11 0,13 0,16 0,16 0,18 0,20 0,29 0,30 0,30 0,31
0,36 0,38 0,42 0,42 0,46 0,47 0,56 0,62 0,66 0,68
0,71 0,79 0,85 0,87 0,95 0,98 1,02 1,04 1,04 1,05
1,22 1,29 1,34 1,49 1,52 1,57 1,58 1,61 1,68 1,73
1,83 1,84 1,87 1,99 2,03 2,08 2,10 2,11 2,15 2,17
2,20 2,22 2,30 2,32 2,60 2,76 2,78 2,81 2,86 2,95
pode começar por ajustar à v.a. U ?
Exercı́cio 2.2.7. Considere a seguinte amostra observada de uma variável aleatória V .
-1,99 -1,98 -1,96 -1,94 -1,89 -1,86 -1,78 -1,61 -1,45 -1,42
-1,33 -1,25 -1,23 -1,14 -1,12 -1,06 -1,02 -00,98 -0,96 -0,93
-0,64 -0,50 -0,41 -0,33 -0,30 -0,25 -0,23 -0,21 -0,13 -0,09
-0,08 0,07 0,08 0,12 0,14 0,16 0,23 0,29 0,41 0,51
0,61 0,70 0,82 0,92 1,01 1,07 1,11 1,26 1,30 1,31
1,40 1,46 1,49 1,71 1,72 1,74 1,76 1,79 1,80 1,89
1. Determine estimativas para a média e para a variância de V .
2. Determine os quartis desta amostra.
pode começar por ajustar à v.a. V ?
Exercı́cio 2.2.8. Considere a seguinte amostra observada de uma variável aleatória dis-
creta T .
0 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4
4 4 4 4 4 4 4 4 5 5 5 5 6 6 6 6 6 8 8 8
A partir dos valores da média e da variância desta amostra poderemos negar que T tem uma
distribuição de Poisson?
Exercı́cio 2.2.9. O histograma seguinte foi construı́do a partir de uma amostra de nı́veis
obtidos num teste classificado de 0 a 100.
0.5
0.4
0.3
0.2
0.1
0
20 40 60 80 100
1. Entre os nı́veis 20 e 40 houve 10% dos alunos. Determine uma aproximação para a
percentagem de alunos que obteve nı́vel entre 60 e 80. Determine uma aproximação para
a percentagem de alunos com nı́vel pelo menos 60.
2. Calcule aproximações para a média, para a mediana e para os quartis da referida amostra.
2.2.3 Variáveis estatı́sticas qualitativas unidimensionais

Para descrever uma amostra de variáveis qualitativas, temos um número muito restrito de
ferramentas, quando comparado com o caso das variáveis quantitativas. Com efeito, o cálculo
descritivo das frequências absolutas ou relativas de cada uma das modalidades não pode ser
acompanhado de mediadas de localização nem de dispersão, as quais, neste caso, não têm
qualquer significado (mesmo que adaptássemos os dados a uma escala numérica). O resumo
gráfico da amostra pode realizado com um gráfico circular ou com um gráfico de barras como
os que a seguir se incluem.
Figura 2.1: Gráfico circular com percentagens incluı́das.
Figura 2.2: Gráfico de barras com percentagens incluı́das.
2.3 Variáveis estatı́sticas bidimensionais

Para proceder ao estudo simultâneo de duas caracterı́sticas em cada elemento de uma
população há que dispor, naturalmente, de amostras bidimensionais (ou bivariadas). Passemos
à análise dos três casos possı́veis.
2.3.1 Variáveis qualitativas versus qualitativas

O resumo gráfico deste tipo de variáveis é usualmente realizado à custa de uma tabela
de contingência. Com esta tabela organizamos as frequências absolutas das observações que
dizem respeito à ocorrência simultânea das modalidades das duas variáveis em estudo. Sejam
A1 , A2 , · · · , Ar e B1 , B2 , · · · , Br as modalidades distintas das duas variáveis X e Y .
2.3. Variáveis estatı́sticas bidimensionais 65
A distribuição dos n elementos da amostra por cada uma das células (Ai , Bj ) dá lugar a
uma tabela de dupla entrada, designada tabela de contingência r × s, como a que se segue
B1 ... Bs Totais
A1 n11 ... n1s n1·
.. .. .. .. ..
. . . . .
Ar nr1 ... nrs nr·
Totais n·1 ... n·s n
s
X
onde nij representa a frequência absoluta observada da célula (Ai , Bj ), ni· = nij para
j=1
r
X
i = 1, 2, ..., r e n·j = nij para j = 1, 2, ..., s.
i=1
Em alternativa à tabela de contingência podemos connstruir um gráfico de barras agrupadas
(ou empilhadas) como o que se inclui a seguir.
Figura 2.3: Gráfico de barras agrupadas com percentagens incluı́das.
Com o objectivo de medir o grau de associação entre duas variáveis X e Y , recorremos a

várias funções da amostra (estatı́sticas) a que chamamos medidas de associação.
1. Dados nominais versus dados nominais ou ordinais
Seja
s
r X
X (nij − eij )2
χ2 = ,
eij
i=1 j=1
ni· n·j
onde eij = para i ∈ {1, ..., r} e j ∈ {1, ..., s}.
n
q 2
O coeficiente de contingência de Pearson é definido por CP = χ2χ+n e o coefici-
q
χ2
ente de contingência V de Cramer é definido por CV = n×min{r,s} .
Ambos tomam valores entre 0 e 1. O valor 0 corresponde a ausência de associação.
Valores destes coeficientes muito próximos de 0 indicam fraca associação entre as variáveis
e valores muito próximos de 1 indicam forte associação.
2. Dados ordinais versus dados ordinais q

O coeficiente de contingência tau-b de Kendall é definido por τb = C−D C+D onde
C representa o número de pares concordantes na amostra ( tais que Ai < Aj e Bi < Bj
ou Ai > Aj e Bi > Bj ) e D representa o número de pares discordantes na amostra ( tais
que Ai < Aj e Bi > Bj ou Ai > Aj e Bi < Bj ).
q 2
6(d1 +···+d2n )
O coeficiente de contingência de Spearman é definido por ρS = 1 − n3 −n
onde d1 , ·, dn são as diferenças entre as ordens das modalidades A1 , A2 , · · · , Ar e B1 , B2 , · · · , Br
depois de serem ordenadas ascendentemente.
Ambos assumen valores entre −1 e 1. Valores destes coeficientes muito próximos de
0 indicam fraca associação entre as variáveis e valores muito próximos de 1 ou de −1
indicam forte associação. Se o sinal é positivo as duas variáveis têm a mesma monotonia
e se o sinal é negativo X e Y têm monotonias contrárias.
2.3.2 Variáveis qualitativas versus quantitativas

Podemos resumir a amostra construindo uma tabela de contingência (já definida atrás) ou
um diagrama de extremos e quartis paralelos como o que se ilustra a seguir.
Figura 2.4: Diagrama de extremos e quartis paralelos
O coeficiente de associação usado neste caso é o Coeficiente Eta. Para o cálculo deste
coeficiente, a variável qualitativa deve ser codificada numericamente. Eta pode tomar valores
entre 0 e 1. Valores próximos de 1 indicam forte associação e valores próximos de 0 indicam
fraca associação. Como habitualmente, o valor 0 indica total ausência de associação.
2.3.3 Variáveis quantitativas versus quantitativas

Depois de colecionada uma amostra de cada uma das variáveis, representamos o conjunto
de pares obtidos num referencial. O conjunto de pontos resultante é denominado diagrama
de dispersão e é a partir dele que postulamos a existência ou a ausência de uma relação linear
entre X e Y .
Na figura seguinte apresentamos um exemplo de diagrama de dispersão.
2.3. Variáveis estatı́sticas bidimensionais 67
...................................................................................................................................................................................................................................................................................................................................................................................................
...
..
... • • ..
...
...
....
• ••• • • ...
• ••
... ...
• • ••• • •• ••
... ...
... ...
... ...
...
...
... • • •• • •• • ...
...
...
• ...
...
...
..
................................................................................................................................................................................................................................................................................................................................................................................................
O coeficiente de correlação de Pearson é a medida de associação usada neste caso.

Sendo
n
X
sxy = (xi − x)(yi − y)
i=1
a covariância da amostra bivariada e sX e sY o desvio padrão amostral de X e de Y , o coeficiente

de correlação de Pearson define-se por
sxy
R= .
sx sy
Este coeficiente mede a intensidade e o sentido de uma relação linear entre as observações
de X e de Y , assumindo-se que estas variáveis são normalmente distribuı́das. R pode tomar
valores entre −1 e 1. A relação entre as variáveis está tão mais próxima da linear quanto mais
próximo de 1 ou de −1 estiver o valor do coeficiente de correlação. Se o sinal é positivo, então
o crescimento dos valores de uma das variáveis é acompanhado do crescimento dos valores da
outra; se o sinal é negativo, então o crescimento dos valores de uma das variáveis é acompanhado
do decrescimento dos valores da outra. Se o coeficiente de correlação R está próximo de 0 é de
excluir a existência de uma relação linear entre as variáveis. Contudo R próximo de zero tanto
pode indicar ausência de associação entre as variáveis como a presença de relações não lineares
nas quais pode existir forte associação entre as variáveis.

TextosPE 26 Outubro2023

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TextosPE 26 Outubro2023

Enviado por

Direitos autorais:

Formatos disponíveis

i

Licenciatura em Engenharia Eletrotécnica e de Computadores

Maria da Graça Santos Temido Neves Mendes

A educação é a arma mais poderosa que podemos

Todos devem aprender a ler, escrever e contar.

Todos devem aprender a pensar, a ler, escrever .... e a decifrar números!

O que é a Estatı́stica ? O que é uma população? O que é uma amostra?

E a Estatı́stica, o que é?

• A Estatı́stica ocupa-se das metodologias de planeamentro de experiências,

• A Estatı́stica ocupa-se das propriedades das populações, principalmente

•A Estatı́stica é a tomada de decisões num contexto de incerteza.

1 Teoria das Probabilidades 3

2 Análise exploratória de dados 51

Teoria das Probabilidades

Texto incluı́do num artigo da resvista Sábado de Janeiro de 2014

1.1 Diferentes conceitos de Probabilidade

Exemplo 1.1.1. Lançamento de um dado; lançamento de uma moeda; lançamento de

Dada uma experiência aleatória chamamos:

Exemplo 1.1.2. Consideremos a experiência aleatória que consiste na contagem do

A questão que se coloca agora é a de saber como calcular as probabilidades de aconteci-

Definição 1.1.1. Definição clássica ou de Laplace de probabilidade.

Exemplo 1.1.3. Ao lançarmos um dado equilibrado duas vezes consideremos os acon-

Exemplo 1.1.4. Consideremos a experiência aleatória associada ao Totoloto, isto é, a

Definição 1.1.2. Definição frequencista de probabilidade (Bernoulli). Consideremos

P (A) = lim fn (A).

Definição 1.1.3. Seja Ω o espaço fundamental associado a uma experiência aleatória.

Definição 1.1.4. Definição axiomática de probabilidade. Seja Ω o espaço fundamental

Proposição 1.1.1. Propriedades da probabilidade.

2. (Aditividade) Se A e B são acontecimentos incompatı́veis então P (A ∪ B) = P (A) +

3. Se A e B são dois acontecimentos tais que A ⊆ B, então P (A) ≤ P (B).

4. Se A e B são dois acontecimentos quaisquer então

(a) P (A) = 1 − P (A);

(c) Ora, uma vez que A ∪ B = (A ∩ B) ∪ (A ∩ B) ∪ (A ∩ B) e A ∩ B, A ∩ B e

= P (A) + P (B) − P (A ∩ B).

5. Desigualdade de Boole: Se A1 , A2 , ..., An são acontecimentos quaisquer então

1. Construa o correspondente espaço de resultados.

2. Considere os seguintes acontecimentos: A = “o alvo foi atingido apenas no terceiro

(a) Defina extensivamente os seguintes acontecimentos:

(b) Dos acontecimentos A, B, C e D, quais são os pares de acontecimentos que são

Exercı́cio 1.1.2. Num lançamento de um dado viciado, a probabilidade de ocorrer cada

1. Indique o espaço fundamental associado a esta experiência aleatória e calcule a probabi-

2. Calcule a probabilidade de que o número de pontos obtido no lançamento do dado seja

3. Calcule a probabilidade de que o número de pontos obtidos no lançamento do dado seja

Exercı́cio 1.1.4. Sejam A e B acontecimentos tais que P (A) + P (B) = x e P (A ∩ B) = y.

1. se realizar pelo menos um dos dois acontecimentos;

2. não se realizar nenhum dos dois acontecimentos;

3. se realizar um e um só dos dois acontecimentos;

4. se realizar quando muito um único acontecimento.

Exercı́cio 1.1.5. Considere os três acontecimentos A, B e C tais que A ∪ B ∪ C = Ω,

Exercı́cio 1.1.6. Sejam A e B dois acontecimentos de um determinado espaço de proba-

Exercı́cio 1.1.7. Os atletas A, B, C e D são os únicos participantes de uma prova

1. exclusivamente erros de “sintaxe”;

2. pelo menos um dos três tipos de erros.

1.2 Condicionamento e independência estocástica de aconteci-

Definição 1.2.1. Dado um acontecimento B tal que P (B) 6= 0, chamamos probabili-

Exemplo 1.2.1. Um dado perfeito, com as faces numeradas de 1 a 6, foi lançado

Exemplo 1.2.2. Consideremos a experiência aleatória que consiste na extracção de

Proposição 1.2.1. (Teorema da Probabilidade Total) Sejam B1 , B2 , ..., Bn aconte-

P (I) = P (I|A)P (A) + P (I|B)P (B) + P (I|C)P (C)

Exemplo 1.2.4. Num determinado material podem encontrar-se impurezas de vários

foi 2 qual a probabilidade de estarem a jogar o primeiro jogo?

Pode acontecer que a informação sobre a ocorrência de um certo acontecimento B não