Você está na página 1de 69

i

Notas de

Probabilidades e Estatı́stica

Licenciatura em Engenharia Eletrotécnica e de Computadores

Maria da Graça Santos Temido Neves Mendes

Departamento de Matemática

FCTUC

2023 – 2024
Versão em construção

A educação é a arma mais poderosa que podemos


escolher para mudar o mundo.
Nelson Mandela
ii

Grande parte dos exercı́cios presentes nestes textos de apoio foram recolhidos de folhas
práticas e de outros textos de apoio elaboradas ao longo dos anos pelos docentes do grupo
de Probabilidades e Estatı́stica do Departamento de Matemática da FCTUC. Em especial,
agradeço à Professora Esmeralda Gonçalves e à Professora Cristina Martins os conteúdos dis-
ponibilizados recentemente.

♣♦♠♥

Todos devem aprender a ler, escrever e contar.

Todos devem aprender a pensar, a ler, escrever .... e a decifrar números!

O que é a Estatı́stica ? O que é uma população? O que é uma amostra?


Uma população é um conjunto de indivı́duos com caracterı́sticas comuns
que interessa estudar. Uma amostra é um subconjunto de elementos
extraı́dos da população com metodologia estatı́stica apropriada.

E a Estatı́stica, o que é?

• A Estatı́stica ocupa-se das metodologias de planeamentro de experiências,


obtenção de dados, sua organização para posteriormente
interpretar e tirar conclusões com base nos dados disponı́veis.

• A Estatı́stica ocupa-se das propriedades das populações, principalmente


as que são susceptı́veis de representação numérica como resultado de
medições ou contagens.

•A Estatı́stica é a tomada de decisões num contexto de incerteza.

Então
a estatı́stica é a arte de tirar conclusões
a partir de um conjunto de dados!!
Conteúdo

1 Teoria das Probabilidades 3


1.1 Diferentes conceitos de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Condicionamento e independência estocástica de acontecimentos . . . . . . . . 8
1.3 Variáveis aleatórias e distribuições . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.1 Variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.2 Distribuições discretas e distribuições contı́nuas . . . . . . . . . . . . . . 16
1.3.3 Momentos simples e centrados de variáveis aleatórias . . . . . . . . . . 20
1.3.4 Vetores aleatórios reais . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.3.5 Distribuições mais usadas em Estatı́stica . . . . . . . . . . . . . . . . . . 29
1.4 Teorema Limite Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

2 Análise exploratória de dados 51


2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.2 Variáveis estatı́sticas quantitativas unidimensionais . . . . . . . . . . . . . . . 53
2.2.1 Variáveis discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.2.2 Variáveis contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.2.3 Variáveis estatı́sticas qualitativas unidimensionais . . . . . . . . . . . . 64
2.3 Variáveis estatı́sticas bidimensionais . . . . . . . . . . . . . . . . . . . . . . . . 64
2.3.1 Variáveis qualitativas versus qualitativas . . . . . . . . . . . . . . . . . 64
2.3.2 Variáveis qualitativas versus quantitativas . . . . . . . . . . . . . . . . 66
2.3.3 Variáveis quantitativas versus quantitativas . . . . . . . . . . . . . . . . 66

1
2 Conteúdo
Capı́tulo 1

Teoria das Probabilidades

Wembley, 1986. Manchester United e Benfica disputam a final da Taça dos Campeões
Europeus. A minutos do fim, com resultado 1-1, um passe longo lança Eusébeio. O Pantera
Negra corre como um felino entre dois defesas, domina a bola à entrada da área e mal a
pisa remata em potência com o pé esquerdo. Uma bomba. Parecia golo certo, mas a bola
teimosamente deixou-se abraçar pelas mãos e pelo corpo do guarda-redes Alexander Stepney.
Alı́vio para uns. Desespero para outros – o Benfica via esfumar-se uma oportunidade de ouro
para conquistar o troféu. Para Eusébio, o protagonista, apenas surpresa e reconhecimento. Não
ergueu as mãos ao céu, nem maldisse a sua sorte. Limitou-se a cumprimentar o adversário pelo
que acabara de fazer, primeiro com uma festa na cabeça, depois de braço esticado à procura
de um aperto de mão que nunca aconteceu. (...) A diferença esteve na grandeza humana de
Eusébio. O seu gesto é um hino ao desporto, uma ode ao respeito, uma lição de vida.

Texto incluı́do num artigo da resvista Sábado de Janeiro de 2014

1.1 Diferentes conceitos de Probabilidade

De um modo geral, a teoria das probabilidades tem por objectivo encontrar modelos mate-
máticos que descrevam certos fenómenos naturais em que se supõe intervir o acaso, isto é,
fenómenos para os quais não é possı́vel, a partir do passado, prever deterministicamente o
futuro. A estes fenómenos chamamos fenómenos aleatórios.
Neste contexto surge também a noção de experiência aleatória que aqui definimos como
um processo ou conjunto de circunstâncias sujeitos a factores casuais capaz de produzir efeitos
observáveis mas incertos.

Exemplo 1.1.1. Lançamento de um dado; lançamento de uma moeda; lançamento de


três dados; observação e registo de temperatura; avaliação e registo de um caudal; contagem
do número de veı́culos que passam numa portagem de auto-estrada; contagem do número
de lançamentos de um dado até obter pela terceira vez a face 2; contagem do número de
alunos que chegam atrasados a uma aula.

3
4 Capı́tulo 1. Teoria das Probabilidades

Dada uma experiência aleatória chamamos:


• espaço fundamental, que representamos por Ω, ao conjunto de todos os resultados possı́veis
de obter ao realizar a experiência
• acontecimento a qualquer subconjunto de Ω
• acontecimento elementar a qualquer subconjunto de Ω que contenha apenas um elemento
de Ω
• acontecimento certo a Ω
• acontecimento impossı́vel ao conjunto vazio φ
• acontecimento contrário de A, que representamos por A, ao complementar de A (em Ω)
• acontecimento união de A com B ao conjunto A ∪ B
• acontecimento intersecção de A com B ao conjunto A ∩ B
• acontecimento diferença entre A e B a A − B = A ∩ B.
+∞
[
• acontecimento união numerável dos acontecimentos A1 , A2 , A3 , ..., An , ... a An
n=1
+∞
\
• acontecimento intersecção numerável dos acontecimentos A1 , A2 , A3 , ..., An , ... a An
n=1
Mais, dizemos que:
• o acontecimento A se realiza ou ocorre se ao realizar a experiência o resultado obtido
pertencer a A (Ω realiza-se sempre e φ nunca se realiza);
• dois acontecimentos A e B são incompatı́veis, disjuntos ou mutuamente exclusivos se
A ∩ B = φ.

Exemplo 1.1.2. Consideremos a experiência aleatória que consiste na contagem do


número de peças defeituosas fabricadas por uma máquina no perı́odo de uma hora, sendo
n ≥ 10 o número máximo de peças que a máquina é capaz de produzir durante esse perı́odo.
Tem-se Ω = {0, 1, ..., n}. Os acontecimentos A = {0, 1, 2} e B = {4, 5} são incom-
patı́veis e C = {3, 4, ..., n} é o complementar de A.

A questão que se coloca agora é a de saber como calcular as probabilidades de aconteci-


mentos e como evoluiu o conceito de probabilidade.
As experiências aleatórias que estiveram na origem da teoria das Probabilidades apresen-
tavam um número finito de resultados e a equipossibilidade de todos os resultados.

Definição 1.1.1. Definição clássica ou de Laplace de probabilidade.


Dada uma experiência aleatória, se Ω é finito e todos os seus elementos são equi-
possı́veis, então a probabilidade de A é o quociente entre o número de casos favoráveis à
ocorrência de A e o número de casos possı́veis de obter ao realizar a experiência, isto é

#A
P (A) = .
#Ω
1.1. Diferentes conceitos de Probabilidade 5

Exemplo 1.1.3. Ao lançarmos um dado equilibrado duas vezes consideremos os acon-


tecimentos A=“saı́da de um número par e de um número ı́mpar”e B=“ saı́da de um número
par seguida de um número ı́mpar”, ou seja, B = {(i, j) : i ∈ {2, 4, 6}, j ∈ {1, 3, 5}} e
A = B ∪ {(i, j) : i ∈ {1, 3, 5}, j ∈ {2, 4, 6}}.
Sabemos que #Ω = 6 × 6 = 36 e que todos os acontecimentos elementares têm a mesma
possibilidade de ocorrência. É então válido o conceito clássico de Laplace de probabilidade,
tendo-se P (A) = #A 2×3×3 1 #B
#Ω = 6×6 = 2 e P (B) = #Ω = 6×6 = 4 .
3×3 1

Exemplo 1.1.4. Consideremos a experiência aleatória associada ao Totoloto, isto é, a


experiência que consiste na extração aleatória de 6 bolas de uma urna que contém 49 bolas
numeradas de 1 a 49. Consideremos os acontecimentos A=“ saı́da de uma determinada
chave fixa”e B=“ saı́da de uma chave com seis números pares”. Podemos, mais uma vez,
C 24
usar o conceito clássico de Laplace para obter P (A) = C149 e P (B) = C649 .
6 6

Suponhamos agora que lançamos uma moeda equilibrada com as faces representadas por C
e K. Sendo a moeda equilibrada, sabemos que P (C) = P (K) = 1/2. No entanto se lançarmos
a moeda um número reduzido de vezes, a frequência relativa de C dificilmente será igual a 1/2.
Mas, sabemos também que se prolongarmos a realização da experiência “indefinidamente”, a
frequência relativa de C vai estabilizando em torno de 1/2. Este exemplo, aqui apresentado
com um ponto de vista meramente académico, motiva uma outra definição de probabilidade
que assenta essencialmente na regularidade estatı́stica associada a certos fenómenos aleatórios
e que permite definir a probabilidade como limite de uma frequência relativa.

Definição 1.1.2. Definição frequencista de probabilidade (Bernoulli). Consideremos


uma experiência aleatória e um acontecimento A que lhe está associado. Representemos
por fn (A) a frequência relativa do acontecimento A em n realizações da experiência, sempre
nas mesmas circunstâncias. Tem-se

P (A) = lim fn (A).


n−→+∞

Devemos observar que, mesmo realizando um número grande de vezes a experiência aleatória,
a atribuição de probabilidade a um acontecimento que advém da definição frequencista não é
mais do que tomar a frequência relativa desse acontecimento como aproximação da sua verda-
deira probabilidade.
Perante a indecisão de saber qual das duas definições deveremos usar e em que circunstâncias,
coloca-se a questão de saber se não se poderá definir a probabilidade de uma forma unificadora
e que, portanto, abranja as duas anteriores. Ora, a resposta a esta questão é dada pela de-
finição de probabilidade que se deve a um trabalho publicado em 1933 pelo matemático russo
Kolmogorov. Antes porém há que apresentar a definição de tribo sobre Ω.
6 Capı́tulo 1. Teoria das Probabilidades

Definição 1.1.3. Seja Ω o espaço fundamental associado a uma experiência aleatória.


Uma tribo sobre Ω é um conjunto de subconjuntos de Ω, que representamos por T , tal que
• Ω pertence a T ;
• se A pertence a T , então A também lhe pertence,
• se A1 , A2 , . . . , An , . . . pertencem a T , então +∞
S
i=1 Ai também lhe pertence.

Definição 1.1.4. Definição axiomática de probabilidade. Seja Ω o espaço fundamental


associado a uma experiência aleatória e T uma tribo sobre Ω. Uma probabilidade é uma
aplicação P : T −→ [0, 1], que verifica

i) P (Ω) = 1

ii) Para qualquer sucessão de acontecimentos A1 , A2 , ..., An , ..., dois a dois incompatı́veis,
+∞
[ +∞
X
tem-se P ( Ai ) = P (Ai ).
i=1 i=1

Proposição 1.1.1. Propriedades da probabilidade.

1. P (∅) = 0.

2. (Aditividade) Se A e B são acontecimentos incompatı́veis então P (A ∪ B) = P (A) +


P (B).

3. Se A e B são dois acontecimentos tais que A ⊆ B, então P (A) ≤ P (B).


Prova. Se A ⊆ B, então B é igual à união disjunta entre A e B ∩ A. Assim
P (B) = P (A) + P (B ∩ A), pelo que se tem P (A) ≤ P (B).

4. Se A e B são dois acontecimentos quaisquer então

(a) P (A) = 1 − P (A);


(b) P (A − B) = P (A) − P (A ∩ B);
(c) P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Provas.
(a) Como Ω = A ∪ A o resultado decorre imediatamente.
(b) Sendo A = (A − B) ∪ (A ∩ B) e (A − B) ∩ (A ∩ B) = ∅, pela propriedade 2.
obtemos
P (A) = P (A − B) + P (A ∩ B)
do que resulta o pretendido.
Notemos que se B ⊆ A, então tem-se P (A − B) = P (A) − P (B).
1.1. Diferentes conceitos de Probabilidade 7

(c) Ora, uma vez que A ∪ B = (A ∩ B) ∪ (A ∩ B) ∪ (A ∩ B) e A ∩ B, A ∩ B e


A ∩ B são disjuntos dois a dois, obtemos

P (A ∪ B) = P (A ∩ B) + P (A ∩ B) + P (A ∩ B)

= P (A) − P (A ∩ B) + P (B) − P (A ∩ B) + P (A ∩ B)

= P (A) + P (B) − P (A ∩ B).

5. Desigualdade de Boole: Se A1 , A2 , ..., An são acontecimentos quaisquer então


n
[ n
X
P( Ai ) ≤ P (Ai )
i=1 i=1

Exercı́cio 1.1.1. Um atirador efectua três disparos consecutivos sobre o mesmo alvo. Um
disparo é considerado bem sucedido se o projéctil atinge o alvo e mal sucedido no caso contrário.
Considere a experiência aleatória que consiste em observar os resultados dos sucessivos dispa-
ros.

1. Construa o correspondente espaço de resultados.

2. Considere os seguintes acontecimentos: A = “o alvo foi atingido apenas no terceiro


disparo”, B = “o alvo não foi atingido no segundo disparo”, C = “o alvo foi atin-
gido” (alguma vez), D = “o alvo foi atingido pelo menos duas vezes”.

(a) Defina extensivamente os seguintes acontecimentos:

D, B ∪ D, B ∩ C, B ∪ D, D\B, B ∩ D, A ∪ B ∪ D, A ∩ B ∩ C.

(b) Dos acontecimentos A, B, C e D, quais são os pares de acontecimentos que são


incompatı́veis?

Exercı́cio 1.1.2. Num lançamento de um dado viciado, a probabilidade de ocorrer cada


número ı́mpar é o dobro da probabilidade de ocorrer cada número par.

1. Indique o espaço fundamental associado a esta experiência aleatória e calcule a probabi-


lidade de cada acontecimento elementar.

2. Calcule a probabilidade de que o número de pontos obtido no lançamento do dado seja


superior a 3.

3. Calcule a probabilidade de que o número de pontos obtidos no lançamento do dado seja


um quadrado perfeito.

Exercı́cio 1.1.3. Uma roleta tem 20 sectores equiprováveis numerados de 1 a 20. Roda-se
e regista-se o número em que esta se imobilizou. Considere os acontecimentos : A=“Sai um
número menor ou igual que 10”e B=“Sai um número superior a k”. Sabendo que P (A∪B) = 1
e que P (A ∩ B) = 0.1, determine o valor de k.
8 Capı́tulo 1. Teoria das Probabilidades

Exercı́cio 1.1.4. Sejam A e B acontecimentos tais que P (A) + P (B) = x e P (A ∩ B) = y.


Determine, em função de x e de y, a probabilidade de

1. se realizar pelo menos um dos dois acontecimentos;

2. não se realizar nenhum dos dois acontecimentos;

3. se realizar um e um só dos dois acontecimentos;

4. se realizar quando muito um único acontecimento.

Exercı́cio 1.1.5. Considere os três acontecimentos A, B e C tais que A ∪ B ∪ C = Ω,


P( A)=0.3, P (B) = 0.7, P(C)=0.5 e A ∩ B = C ∩ B = ∅. Calcule P (A ∩ C).

Exercı́cio 1.1.6. Sejam A e B dois acontecimentos de um determinado espaço de proba-


bilidade tais que P (A) = 0.7, P (B) = 0.6 e P (A ∪ B) − P (A ∩ B) = 0.3.
Calcule P (B), P (A ∪ B), P (A ∩ B) e P (A\B).

Exercı́cio 1.1.7. Os atletas A, B, C e D são os únicos participantes de uma prova


desportiva. Sabe-se que a probabilidade de A ganhar a prova é o dobro da probabilidade de
B ganhar, e esta é o dobro da de C ganhar. Sabe-se ainda que os atletas C e D têm igual
probabilidade de ganhar a prova. Qual é a probabilidade de cada um dos atletas ganhar a prova?

Exercı́cio 1.1.8. Uma colecção de 100 programas de computador foi examinada para
detectar erros de “sintaxe”, “input/output”e de “outro tipo”diferente dos anteriores. Desses
100 programas, 20 tinham erros de “sintaxe”, 10 tinham erros de “input/output”e 5 tinham
erros de “outro tipo”, 6 tinham erros de “sintaxe” e de “input/output”, 3 tinham erros de
“sintaxe” e de “outro tipo”, 3 tinham erros de “input/output” e de “outro tipo” e 2 tinham
os três tipos de erros considerados. Um programa é seleccionado ao acaso desta colecção.
Determine a probabilidade de que o programa seleccionado tenha

1. exclusivamente erros de “sintaxe”;

2. pelo menos um dos três tipos de erros.

1.2 Condicionamento e independência estocástica de aconteci-


mentos
Suponhamos que para uma experiência aleatória conhecemos o espaço fundamental e que
temos definida uma probabilidade P .
Sejam A e B dois acontecimentos tais que P (B) 6= 0. Se depois de realizada a experiência
soubermos que se realizou B, de que modo essa informação parcial sobre o resultado da ex-
periência irá modificar a probabilidade de A? É o caso, por exemplo, em que ao realizarmos uma
experiência para determinar o tempo de vida de uma lâmpada e sabendo, num determinado
instante, que a lâmpada já durou pelo menos 100 horas, querermos saber qual a probabili-
dade de a lâmpada durar pelo menos mais 50 horas. Surge assim o conceito de probabilidade
condicionada.
1.2. Condicionamento e independência estocástica de acontecimentos 9

Definição 1.2.1. Dado um acontecimento B tal que P (B) 6= 0, chamamos probabili-


dade condicional de A dado B, ou probabilidade de A condicionada por B a

P (A ∩ B)
P (A|B) = .
P (B)

Observação 1.2.1. Notamos que, para qualquer acontecimento B tal que P (B) 6= 0, a
aplicação P (·|B) ( também denotada por PB (·)) que a um acontecimento A faz corresponder
P (A|B) é uma probabilidade.

Exemplo 1.2.1. Um dado perfeito, com as faces numeradas de 1 a 6, foi lançado


duas vezes. Sabendo que a soma das duas faces foi 6 qual é agora a probabilidade de que
no primeiro lançamento tenha saı́do a face 1?
Se definirmos B = “soma dos resultados ser 6” e A = “no primeiro lançamento sair 1”
teremos P (A|B) = 1/5. Com efeito, B = {(1, 5), (2, 4), (4, 2), (3, 3), (5, 1)} e A ∩ B =
{(1, 5)} e portanto P (A|B) = P P(A∩B) 1
(B) = 5 .

Exemplo 1.2.2. Consideremos a experiência aleatória que consiste na extracção de


uma carta de um baralho, não viciado, com 52 cartas. Consideremos os acontecimentos
A=“saı́da de ás”, B=“saı́da de dama”e C=“saı́da de espada”. Uma vez que se pode apli-
4 4 13
car o conceito clássico de Laplace, tem-se P (A) = 52 , P (B) = 52 e P (C) = 52 . Supondo
agora que se observou o acontecimento D=“saı́da de uma figura”a probabilidade dos acon-
4
tecimentos A, B e C será condicionada. De facto, tem-se P (A|D) = 0, P (B|D) = 12 = 13
3
e P (C|D) = 12 = 14 .

Proposição 1.2.1. (Teorema da Probabilidade Total) Sejam B1 , B2 , ..., Bn aconte-


cimentos do mesmo espaço, disjuntos dois a dois e com probabilidade não nula. Para
qualquer outro acontecimento A contido em ∪ni=1 Bi , tem-se
n
X
P (A) = P (A|Bi )P (Bi ).
i=1

Exemplo 1.2.3. Dos três fornecedores de um produto para um armazém (em partes de
30%, 50% e 20% respectivamente) todos fornecem o produto em lotes que por vezes estão em
condições indesejadas (atraso, peso insuficiente, impurezas, falta de especificidade, etc),
sendo a percentagem de lotes em condições indesejadas sobre o total fornecido por cada
um dos fornecedores de 0.7%, 0.5% e 0.4%, respectivamente.
Ao escolher aleatoriamente um lote desse produto e verificado que se encontrava em
condições indesejadas, qual o seu fornecedor mais provável?
Consideremos os acontecimentos A=“ o lote é fornecido pelo fornecedor A”, B=“ o
10 Capı́tulo 1. Teoria das Probabilidades

lote é fornecido pelo fornecedor B”e C=“ o lote é fornecido pelo fornecedor C”e I=“ o lote
é fornecido em condições indevidas”.
Tem-se P (A) = 0.3, P (B) = 0.5, P (C) = 0.2, P (I|A) = 0.007, P (I|B) = 0.005 e
P (I|C) = 0.004.
P (I ∩ A) P (I|A)P (A)
Por outro lado P (A|I) = = onde
P (I) P (I)

P (I) = P (I|A)P (A) + P (I|B)P (B) + P (I|C)P (C)


= 0.007 × 0.3 + 0.005 × 0.5 + 0.004 × 0.2
= 0.0054.

0.007 × 0.3
Então P (A|I) = ' 0.389.
0.0054
Também se tem
P (I ∩ B) P (I|B)P (B) 0.005 × 0.50
P (B|I) = = = ' 0.463
P (I) P (I) 0.0054
e
P (C|I) = 1 − P (A|I) − P (B|I) = 1 − 0.389 − 0.463 = 0.148.
Concluı́mos que o fornecedor mais provável é B.
Calculemos também a probabilidade de um determinado lote, escolhido ao acaso, ter
vindo do primeiro fornecedor e se apresentar em condições indesejadas. Esta probabilidade
é P (A ∩ I) = P (A|I)P (I) = 0.389 × 0.0054 ' 0.0021.

Exemplo 1.2.4. Num determinado material podem encontrar-se impurezas de vários


tipos. Em ensaios laboratoriais é possı́vel identificar impurezas de tipo A usando um pro-
duto que infelizmente não é totalmente eficaz. Com efeito, se as impurezas são de tipo
A o material adquire um tom azulado de certeza e, em caso contrário, a probabilidade de
o material ficar azulado é de 5%. A realização de vários ensaios permitiu concluir que a
probabilidade de o material adquirir o tom azul é de 35%.
Vamos calcular a probabilidade de haver impurezas de tipo A neste material.
Consideremos os acontecimentos A=“As impurezas são de tipo A”e B=“O material
adquire um tom azulado”.
Sabemos que P (B) = 0.35 e que P (B|Ā) = 0.05. Além disso A ∩ B = A, pois A ⊂ B,
donde P (A ∩ B) = P (A) e P (B|A) = 1.
Uma vez que P (B) = P (B|A) × P (A) + P (B|Ā)P (Ā) é equivalente a 0.35 = 1P (A) +
0.05(1 − P (A)), concluı́mos que P (A) = 0.3/0.95 ' 0.316.

Exemplo 1.2.5. Um grupo de alunos por vezes, em vez de ir às aulas, fica na residen-
cial a jogar dois jogos, sendo igualmente provável optarem por um ou por outro. Os jogos
consistem em adivinhar o número de pintas obtidas no lançamento de dados. No primeiro
jogo joga-se apenas com um dado e no segundo com dois dados. Sabendo que o resultado
1.2. Condicionamento e independência estocástica de acontecimentos 11

foi 2 qual a probabilidade de estarem a jogar o primeiro jogo?


Sejam A=“Os alunos jogam o primeiro jogo”e B =“O resultado foi 2”. Tem-se

P (A ∩ B) P (B|A)P (A) 6
P (A|B) = = = .
P (B) P (B|A)P (A) + P (B|A)P (A) 7

Pode acontecer que a informação sobre a ocorrência de um certo acontecimento B não


modifique a probabilidade inicial de um outro acontecimento A. Basta pensar, por exemplo,
na experiência aleatória que consiste em lançar um dado e uma moeda ao mesmo tempo: a
ocorrência de um certo número no dado em nada altera a saı́da de cara ou de coroa na moeda.
Assim, surge a definição seguinte.

Definição 1.2.2. Dizemos que dois acontecimentos do mesmo espaço, A e B, são


independentes se P (A ∩ B) = P (A)P (B).

Note-se que, na definição anterior, no caso em que A e B têm probabilidade não nula, a
igualdade P (A∩B) = P (A)P (B) é equivalente a P (A|B) = P (A) bem como a P (B|A) = P (B).
Observamos ainda que qualquer acontecimento com probabilidade nula é independente de
qualquer outro do mesmo espaço e que qualquer acontecimento é independente do aconteci-
mento certo e do acontecimento impossı́vel. Mais ainda, dois acontecimentos disjuntos só são
independentes se pelo menos um deles tiver probabilidade nula.

Exemplo 1.2.6. Suponhamos que dispomos de um saco com 20 bolas de tamanho e


textura iguais, numeradas de 1 a 20, sendo as primeiras 10 azuis e as restantes amarelas.
Consideremos a experiência aleatória que consiste na extracção ao acaso de uma bola do
saco e registo do número que lhe foi atribuı́do. Representemos por A o acontecimento
“saı́da de bola azul”e por B o acontecimento “saı́da de bola com múltiplo de 4”. Por
extenso temos Ω = {1, 2, . . . , 20}, A = {1, 2, . . . , 10} e B = {4, 8, . . . 20}.
Usando a definição clássica de probabilidade, obtemos P (A) = 1/2 e P (B) = 1/4.
Suponhamos agora que dispomos da informação de que se realizou o acontecimento C=
“saı́da de bola com número par”. Nestas circunstâncias, temos P (A|C) = 21 = P (A) e
5
P (B|C) = 10 = 12 6= P (B). Concluı́mos assim que A e C são independentes mas que B e
C são dependentes.

Proposição 1.2.2. Se A e B são independentes também o são A e B, A e B, bem


como A e B.

Prova. Ora, se A e B são independentes tem-se P (A ∩ B) = P (A)P (B). Assim

P (A ∩ B) = P (A − B) = P (A) − P (A ∩ B)

= P (A) − P (A)P (B) = P (A)(1 − P (B)) = P (A)P (B).


12 Capı́tulo 1. Teoria das Probabilidades

Similarmente se prova que A e B são independentes. Por outro lado, também se tem

P (A ∩ B) = P (A ∪ B) = 1 − P (A ∪ B) = 1 − P (A) − P (B) + P (A ∩ B)

= P (A) − P (B) + P (A)P (B) = P (A) − P (B)(1 − P (A))

= P (A)(1 − P (B)) = P (A)P (B).

Genericamente, dado um conjunto de acontecimentos A1 , A2 , ..., An , dizemos que são mu-


tuamente independentes se, para qualquer conjunto de ı́ndices {i, j, ..., k} ⊆ {1, 2, ..., n} se
tem P (Ai ∩ Aj ∩ ... ∩ Ak ) = P (Ai )P (Aj )...P (Ak ). Evidentemente que se A1 , A2 , ..., An são
mutuamente independentes então são dois a dois independentes, três a três independentes etc.

Exercı́cio 1.2.1. São efetuados dois lançamentos sucessivos de um dado equilibrado com
as faces numeradas de 1 até 6, registando-se o número da face que fica voltada para cima em
cada lançamento.

1. Construa o espaço de resultados associado a esta experiência aleatória.

2. Considere os acontecimentos: A = “A soma dos dois números obtidos é 9 ”; B =


“Os números obtidos são 3 e 6”; C = “A diferença absoluta dos dois números obtidos é
1”, D = “Os números obtidos são iguais”; E = “O maior dos números obtidos é 4
ou 6. Determine P (A), P (A/B), P (A/C), P (A/C), P (A/D) e P (A/E).

Exercı́cio 1.2.2. Sabe-se que existe petróleo numa certa região com probabilidade 0.8 e
que, caso haja petróleo, a probabilidade de sair petróleo na primeira perfuração é de 0.5. Qual
é a probabilidade de sair petróleo na primeira perfuração?

Exercı́cio 1.2.3. Uma empresa produz peças de determinado tipo para o mercado naci-
onal e para exportação, sendo a produção para o mercado nacional metade da que se destina
à exportação. Um controlo de qualidade permitiu afirmar que 5% das peças lançadas no mer-
cado interno apresentam deficiências, sendo essa percentagem de 2% na produção destinada ao
mercado externo. Qual a percentagem de peças defeituosas na produção total da empresa?

Exercı́cio 1.2.4. O funcionamento de um satélite depende apenas do funcionamento de


três sistemas principais, designados A, B e C. Considera-se que o satélite está operacional
desde que pelo menos dois destes sistemas funcionem. Relativamente ao comportamento dos
sistemas A, B e C, sabe-se que:

• B e C funcionam independentemente e que se B falhar, então A também falha;

• A e B falham com probabilidades, respectivamente, 0.1 e 0.05;

• C falha com probabilidade 0.3 se A falhar; no caso de A funcionar, a probabilidade de C


falhar é 0.2.

1. Mostre que a probabilidade de C falhar é 0.21.

2. Calcule a probabilidade do satélite estar operacional.


1.2. Condicionamento e independência estocástica de acontecimentos 13

Exercı́cio 1.2.5. Um fornecedor de aparelhos para detecção de água no subsolo argu-


menta que estes são de elevada confiança uma vez que P (A|B) = P (A|B) = 0.95, onde os
acontecimentos A e B são definidos da forma seguinte: A = “o aparelho indica a existência
de água”e B = “existe água na região do subsolo analisada”. Pretende-se utilizar o aparelho
para construir um depósito de água num lote de terreno onde a probabilidade de existir água é
igual a 0.05. Determine

1. P(A);

2. a probabilidade de existir água no lote, sabendo que o aparelho indica a existência de água
nesse lote.

Exercı́cio 1.2.6. Numa experiência laboratorial pretende-se ensinar um rato a virar à


direita num labirinto. Para tal, coloca-se o rato num compartimento com duas saı́das à escolha:
uma à direita e outra à esquerda. Em cada tentativa, se o rato sai pela direita é recompensado
com um cubo de queijo e se sai pela esquerda é castigado com um leve choque eléctrico. Admita
que o rato se move de acordo com o seguinte:
• na primeira tentativa escolhe aleatoriamente a saı́da;
• se em determinada tentativa foi recompensado, sai pela direita na tentativa seguinte com
probabilidade 0.6;
• se em determinada tentativa foi castigado, sai pela direita na tentativa seguinte com
probabilidade 0.8.

1. Qual a probabilidade de o rato sair pela direita na 2ª tentativa?

2. Sabendo que na 2ª tentativa o rato saiu pela direita, qual a probabilidade de ter saı́do pela
esquerda na 1ª?

Exercı́cio 1.2.7. Para saber se uma porta está aberta, um robot emite um feixe radiante
na sua direcção e mede a intensidade I do feixe reflectido, embora se saiba que I é também
afectada por outros factores. Concretamente, o robot é programado para considerar a porta
aberta quando I < I0 , tendo-se apurado, na fase de treino do robot, que P(I < I0 /Porta
aberta)=0.6 e P(I < I0 /Porta fechada)=0.3. Suponha que, na fase de trabalho autónomo do
robot, este se encontra diante de uma porta e obtém uma medição I inferior a I0 . Sabendo
que a probabilidade de a porta estar aberta é 0.5, determine a probabilidade do robot embater
contra uma porta fechada.

Exercı́cio 1.2.8. Uma empresa de telecomunicações elaborou um estudo sobre o tipo de


chamadas efetuadas pelos clientes da sua rede móvel, tendo constatado que:

• 40% das chamadas duraram mais de um minuto;

• 70% das chamadas com mais de um minuto foram feitas dentro da mesma rede;

• 40% das chamadas foram feitas para a rede fixa e 20% para outras redes móveis;

• 80% das chamadas que foram feitas para outras redes móveis duraram quando muito um
minuto.

Dos registos relativos ao referido estudo escolheu-se, ao acaso, uma chamada.


14 Capı́tulo 1. Teoria das Probabilidades

1. Mostre que a probabilidade de essa chamada ter sido feita para a rede fixa e ter durado
mais de um minuto é 0.08.
2. Qual é a probabilidade de a chamada durar mais de um minuto se não tiver sido feita
dentro da mesma rede?
Exercı́cio 1.2.9. Sejam A e B dois acontecimentos do mesmo espaço.
1. Mostre que, se A e B são independentes, então P (A) × P (B) = P (A ∪ B) − P (A).
2. Sabendo que A e B são independentes, P (A) = 1/3 e P (B) = 2/5, determine P (A ∪ B).
Exercı́cio 1.2.10. Sejam A e B acontecimentos com probabilidade não nula. Mostre que
se P (B|A) = P (B|A), então A e B são independentes.
Exercı́cio 1.2.11. Um sistema é constituı́do apenas por duas componentes, C1 e C2 , que
funcionam em paralelo. Admita que as componentes falham independentemente uma da outra
e que a probabilidade de cada componente falhar é 0.05.
1. Determine a probabilidade de o sistema funcionar.
2. Qual é a probabilidade de que apenas uma das componentes funcione?
3. É acrescentada uma componente ao sistema, C3 , à qual se recorre apenas quando nenhu-
ma das componentes C1 e C2 funciona. Sabe-se que quando C1 e C2 não funcionam a
probabilidade de C3 funcionar é 0.2.

(a) Qual é, agora, a probabilidade de o sistema funcionar?


(b) Será que as componentes C1 e C3 funcionam independentemente uma da outra?

1.3 Variáveis aleatórias e distribuições


1.3.1 Variáveis aleatórias
Em muitas das aplicações probabilı́sticas os elementos de um espaço fundamental, Ω, são,
logo à partida, números reais ou vectores de números reais, como a medida de determinado
comprimento ou o número de lançamentos de um dado necessários até obter a face 2 pela
primeira vez. Contudo, quando cada elemento do espaço fundamental não é um número real
ou um vector real, podendo ser, por exemplo, uma molécula de um gás ou um ser humano, só
podemos proceder a tais aplicações atribuindo um valor real ou um vector de valores reais a
cada elemento de Ω.
Grosso modo, em geral, não são os próprios elementos do espaço fundamental que são alvo
de estudo mas sim valores numéricos que lhes estão associados. Mais concretamente, é de todo
o interesse trabalhar com funções que associem a cada resultado de uma experiência aleatória
um valor numérico e posteriormente avaliar a probabilidade de tais valores pertencerem a
determinados conjuntos de números reais ou de vectores reais.
Por exemplo, ao pretendermos estudar a obesidade de uma certa população de indivı́duos, Ω,
definimos o coeficiente de obesidade de cada elemento ω pertencente a Ω, que representamos por
X(ω), como sendo o quociente entre o peso de ω e o quadrado da altura de ω (ı́ndice de massa
corporal). Posteriormente será de todo o interesse saber, por exemplo, qual a probabilidade
deste coeficiente ser superior a 25.
1.3. Variáveis aleatórias e distribuições 15

Definição 1.3.1. Seja Ω o espaço fundamental associado a uma experiência aleatória.


Damos o nome de variável aleatória real a uma função
X : Ω −→ IR
ω −→ X(ω)
para a qual é sempre possı́vel calcular P (X ≤ x) = P ({ω : X(ω) ≤ x}), para qualquer x
real.

A palavra variável é utilizada para enfatizar o facto de se tratar de uma função que tem
como domı́nio o espaço fundamental de uma experiência aleatória.
Refira-se que habitualmente se designa a variável aleatória por letra maiúscula enquanto que
os valores particulares que esta assume são representados pela letra minúscula correspondente.

Se X1 , X2 , ..., Xn são variáveis aleatórias e f é uma função real de n variáveis reais contı́nua,
então f (X1 , X2 , ..., Xn ) é uma variável aleatória. Um caso particular muito importante é o da
variável aleatória

X n : Ω −→ IR
n
1X
ω −→ X n (ω) = Xi (ω)
n
i=1

que será abreviadamente representada por X.


Realçamos agora o facto de que, em muitas aplicações, é necessário associar a cada elemento
de Ω vários valores numéricos. Um exemplo consiste em associar a cada elemento de uma
população de pessoas a idade, o peso, um determinado indice sérico e o tempo relacionado com
o desenvolvimento de certa patologia. Surge então o conceito de vector aleatório.

Definição 1.3.2. Chamamos vector aleatório a qualquer função


X : Ω −→ IRn
ω −→ (X1 (ω), X2 (ω), ..., Xn (ω)) para a qual é possı́vel calcular P (X1 ≤
x1 , X2 ≤ x2 , ..., Xn ≤ xn ), para qualquer x = (x1 , x2 , ..., xn ) em IRn .

A definição de variável aleatória e de vector aleatório que acabamos de apresentar conduz


imediatamente à definição da função de distribuição de uma variável aleatória e de um vector
aleatório.

Definição 1.3.3. 1. Damos o nome de função de distribuição da variável aleatória X


à função
F : IR −→ [0, 1]
x −→ P (X ≤ x). .

2. Damos o nome de função de distribuição do vector aleatório X à função


F : IRn −→ [0, 1]
16 Capı́tulo 1. Teoria das Probabilidades

(x1 , x2 , ..., xn ) −→ P (X1 ≤ x1 , X2 ≤ x2 , ..., Xn ≤ xn ).

A grande importância da função de distribuição de uma variável aleatória X advém do facto


de que esta resume toda a informação relevante do ponto de vista do cálculo das probabilidades
relativa a uma variável aleatória. Isto é, a partir da função de distribuição de X podemos
calcular as probabilidades de qualquer tipo de conjuntos, por exemplo P (a < X ≤ b) =
F (b) − F (a) ou P (X > a) = 1 − F (a).
Por outro lado, em presença de uma variável aleatória, como um ı́ndice sérico relevante para
um determinado estudo, o que de facto é importante é a forma como se distribuem os valores
deste ı́ndice ao longo de um intervalo de números e não quais são os indivı́duos da população
que os geraram. Doutro modo, interessa-nos saber como se distribuem os valores de X(ω) para
todos os ω ∈ Ω, sem que nos interesse identificar cada ω. Evidentemente que a associação de
cada indivı́duo ao valor correspondente da variável aleatória (por exemplo um ı́ndice sérico) é
uma questão de relevo do ponto de vista clı́nico, mas não neste contexto.

Proposição 1.3.1. Propriedades da função de distribuição de uma variável aleatória


real.

1. F é crescente.
Prova. Sejam x e y números reais tais que x ≤ y. Basta observar que F (x) = P (X ≤
x) = P (X ∈] − ∞, x]) ≤ P (X ∈] − ∞, y]) = F (y).

2. F é limitada.
Prova. Tratando-se de uma probabilidade tem-se F (x) = P (X ≤ x) ∈ [0, 1], sendo
portanto uma função limitada.

3. F é contı́nua à direita;

4. lim F (x) = 0 e lim F (x) = 1;


x→−∞ x→+∞

5. P (a < X ≤ b) = F (b) − F (a).


Prova. Atendendo a que ] − ∞, b] =] − ∞, a] ∪ ]a, b], tem-se

P (a < X ≤ b) = P (X ∈]a, b]) = P (X ∈] − ∞, b]) − P (X ∈] − ∞, a] = F (b) − F (a).

6. F é contı́nua no ponto a se e só se P (X = a) = 0.

Da Propriedade 6 decorre que P (X = a) é a medida da amplitude do salto de F no ponto


a.

1.3.2 Distribuições discretas e distribuições contı́nuas


Ao estudarmos uma variável aleatória a primeira questão que se coloca é a de saber quais
os valores que esta assume, para que, posteriormente possamos estudar a forma como estes se
distribuem. Esta questão dá lugar à definição de suporte de uma variável aleatória, que, em
muitos casos, coincide exactamente com o conjunto dos valores que a variável pode assumir.
1.3. Variáveis aleatórias e distribuições 17

Observemos que a variável aleatória que representa o número de clientes que, diariamente,
entram num armazém entre as 9 e as 10 horas e a variável aleatória que representa o tempo
que cada cliente espera até ser atendido são duas variáveis que assumem valores em conjuntos
com caracterı́sticas diferentes. Na verdade, a primeira toma valores num conjunto de números
naturais e a segunda toma valores num intervalo real. Esta diferença condiciona o tipo de
distribuição (ou lei) das variáveis aleatórias, as quais, do ponto de vista das aplicações relevantes
em Estatı́stica, se dividem em discretas e contı́nuas.

Definição 1.3.4. Uma variável aleatória X diz-se discreta (ou que tem distribuição
discreta) se assume valores num conjunto finito ou infinito numerável S, tendo-se portanto
P (X ∈ S) = 1.

Definição 1.3.5. Dada uma variável aleatória real discreta X, chamamos suporte de
X (ou da distribuição de X) ao menor dos conjuntos S que verificam P (X ∈ S) = 1.

O suporte da variável aleatória X será denotado por SX . De acordo com as definições


anteriores, uma variável aleatória real X diz-se discreta se e só se assume valores num con-
junto finito ou infinito numerável. Devemos notar que o conjunto de valores que uma variável
aleatória discreta assume pode não ser exactamente igual ao seu suporte. Contudo, este con-
junto contém sempre SX . Mais concretamente, tem-se sempre P (X = a) > 0, para qualquer a
pertencente a SX . Esta afirmação sugere a noção de função de probabilidade de uma variável
aleatória discreta.

Definição 1.3.6. Dada uma variável aleatória real discreta X, damos o nome de
função de probabilidade à aplicação

f : R −→ [0, 1]

x −→ P (X = x)

Para uma variável aleatória discreta de suporte SX = {..., xi , xi+1 , ...}, a função de distri-
buição é dada por X
F (x) ≡ P (X ≤ x) = P (X = xi )
xi ≤x

sendo consequentemente uma função constante em cada intervalo [xi , xi+1 [, apresentando des-
continuidades (saltos) apenas nos pontos do suporte. Podemos mesmo afirmar que o suporte
de uma variável aleatória discreta coincide com o conjunto dos pontos de descontinuidade da
sua função de distribuição. Em conclusão, uma variável aleatória real tem distribuição (ou lei)
discreta se e só se a sua função de distribuição é uma função em escada com um número finito
ou infinito numerável de pontos de descontinuidade.

São exemplos de variáveis aleatórias discretas: o número de caras obtidas ao lançar três
moedas equilibradas ou não, o número de embalagens que é preciso retirar de um lote até
18 Capı́tulo 1. Teoria das Probabilidades

encontrar duas em condições indevidas, o número de falhas mensais de uma máquina, o número
de dias por ano em que a temperatura de determinado local excede um valor previamenmte
fixado, etc.

Exemplo 1.3.1. Seja X a variável aleatória real que representa o número de caras
obtidas ao efectuar dois lançamentos sucessivos de uma moeda equilibrada.
Temos Ω = {(c, c), (c, k), (k, c), (k, k)}, SX = {0, 1, 2} e a função de distribuição é
definida por 

 0 se x<0
0.25 se 0≤x<1

F (x) = P (X ≤ x) = ,
 0.75
 se 1≤x<2
1 se x≥2

cujo esboço do gráfico é apresentado na figura seguinte:

F
1
0.75

0.25
0 1 2

Partindo do exemplo anterior, podemos agora ilustrar as propriedades 6 e 7 da função de


distribuição. Com efeito, a função de distribuição apresenta descontinuidades apenas nos pontos
do conjunto {0, 1, 2} e as amplitudes de salto 0.25, 0.5 e 0.25 correspondem às probabilidades
P (X = 0), P (X = 1) e P (X = 2), respectivamente.
Passemos agora ao segundo tipo de variáveis aleatórias.

Definição 1.3.7. Uma variável aleatória real X diz-se contı́nua se P (X = x) = 0,


para qualquer número real x.

Do ponto de vista das aplicações estatı́sticas, no conjunto das variáveis contı́nuas interessa-
nos um subconjunto especial que designamos variáveis aleatórias absolutamente contı́nuas ou
variáveis aleatórias com distribuição absolutamente contı́nua. Devemos mesmo afirmar que,
no contexto de tais aplicações e no âmbito em que se insere este texto, as variáveis que são
contı́nuas mas não absolutamente contı́nuas perdem a sua importância teórica.
São exemplos de variáveis aleatórias absolutamente contı́nuas todas as que representam
medidas; nomeadamente a velocidade, o tempo, a temperatura, as medidas de capacidade, o
comprimento e massa (peso), as medidas de áreas e volumes, os preços, os lucros, as resistências,
as tensões, etc.
No sentido de definir variável aleatória absolutamente contı́nua é necessário definir função
densidade.
1.3. Variáveis aleatórias e distribuições 19

Definição 1.3.8. Damos o nome de função densidade sobre R a uma função real de
variável real f que seja não negativa e que verifique
Z +∞
f (t)dt = 1.
−∞

Depois disto definimos uma variável aleatória X como absolutamente contı́nua como se
segue.

Definição 1.3.9. Uma variável aleatória real X diz-se absolutamente contı́nua se existe
uma densidade sobre R tal que a função de distribuição de X se escreve na forma
Z x
F (x) = f (t)dt, x ∈ IR.
−∞

Da definição de variável aleatória absolutamente contı́nua decorre que a função de distri-


buição é contı́nua e verifica
i) f (x) = F 0 (x) nos pontos onde a derivada existe;

ii) P (X ∈ [a, b]) = P (X ∈]a, b]) = P (X ∈ [a, b[) = P (X ∈]a, b[) =


Z b
= F (b) − F (a) = f (t)dt.
a

Em consequência desta última propriedade podemos afirmar que, se X for uma variável
aleatória absolutamente contı́nua, a probabilidade de X pertencer ao intervalo [a, b] é a medida
da área limitada inferiormente pela recta de equação y = 0, superiormente pelo gráfico de f e
lateralmente pelas rectas de equação x = a e x = b. Este facto é ilustrado na figura seguinte,
onde a medida da área a tracejado representa a referida probabilidade.

a b

Observação 1.3.1. Uma vez que, no âmbito das aplicações estatı́sticas, as variáveis que
são contı́nuas mas não absolutamente contı́nuas não têm relevância, no que se segue usamos
a designação contı́nua para significar absolutamente contı́nua.

Exemplo 1.3.2. Seja X uma variável aleatória contı́nua com densidade definida pela
expressão analı́tica
20 Capı́tulo 1. Teoria das Probabilidades


 0 se x<a
1
f (x) = b−a se a≤x≤b .
0 se x>b

Provamos facilmente que a função de distribuição de X é dada por



 0 se x < a
x−a
F (x) = se a ≤ x ≤ b .
 b−a
1 se x > b.

Apresentamos de seguida o esboço dos gráficos de f e de F , respectivamente.

1 F
b−a 1

f
a b a b

Neste caso dizemos que X segue a lei uniforme no intervalo [a, b] e escrevemos
X ∼ U([a, b]).

A independência de variáveis aleatórias é um conceito de importância primordial em muitas


das aplicações mais usuais da teoria das probabilidades.

Definição 1.3.10. Duas variáveis aleatórias reais X e Y dizem-se independentes se

P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y),

para quaisquer x e y reais. De igual modo, as variáveis aleatórias reais X1 , X2 , ..., Xn


definem-se como independentes se

P (X1 ≤ x1 , X2 ≤ x2 , · · · , Xn ≤ xn ) = P (X1 ≤ x1 )P (X2 ≤ x2 ) · · · P (Xn ≤ xn ),

para quaisquer x1 , x2 , · · · , xn reais .

Notamos que no caso em que as variáveis aleatórias X1 , X2 , ..., Xn são discretas, uma
condição necessária e suficiente para que sejam independentes é que se verifique
P (X1 = x1 , X2 = x2 , · · · , Xn = xn ) = P (X1 = x1 )P (X2 = x2 ) · · · P (Xn = xn ),
para x1 ∈ SX1 , x2 ∈ SX2 , · · · , xn ∈ SXn .

1.3.3 Momentos simples e centrados de variáveis aleatórias


Como veremos adiante, quando se pretende conhecer a distribuição de uma variável aleatória
associada a um fenómeno aleatório, há que encontrar inicialmente o tipo de distribuição entre
1.3. Variáveis aleatórias e distribuições 21

todas as contı́nuas e discretas de que dispomos. A tarefa seguinte será a de conhecer os seus
parâmetros desconhecidos, os quais nos permitem especificar caracterı́sticas tão importantes
como a localização e a dispersão dos valores que tal variável assume.
Neste contexto, surgem as noções de média e de variância de uma variável que são particu-
larizações dos momentos simples e centrados de uma variável aleatória, noção com a qual nos
ocupamos de seguida.

Definição 1.3.11.
X
1. Seja X uma variável aleatória real discreta. Se |x|P (X = x) < +∞, então
x∈SX
existe esperança matemática ou média de X que é definida por
X
E(X) = xP (X = x).
x∈SX

Z +∞
2. Seja X uma variável aleatória contı́nua. Se |x|f (x)dx for convergente, então
−∞
existe esperança matemática ou média de X que é dada por
Z +∞
E(X) = xf (x)dx.
−∞

A esperança matemática ou média de uma variável aleatória é um parâmetro de localização,


tendo o papel de ponto de equilı́brio da sua distribuição.
Notamos também que a esperança matemática de uma variável aleatória não é necessari-
amente um dos valores que esta assume. Basta considerar a variável X que representa um
número escolhido ao acaso no conjunto {1, 2, 3, 4} para a qual se tem E(X) = 2.5.

Exemplo 1.3.3. Consideremos a variável aleatória X discreta com suporte SX =


{0, 1, 2, 3} e tal que P (X = 0) = P (X = 1) = 1/8 e P (X = 2) = 2P (X = 3). Calculemos
E(X). X
Ora, atendendo a que P (X = k) = 1 obtemos P (X = 2) = 1/2 e P (X = 3) = 1/4.
k∈SX
Assim E(X) = 0 × 1/8 + 1 × 1/8 + 2 × 1/2 + 3 × 1/4 = 15/8.

Exemplo 1.3.4. Seja X uma variável aleatória contı́nua com função densidade defi-
nida por
αe−αx se x ≥ 0

f (x) = ,
0 se x < 0
onde α é um número real positivo. Tem-se
Z +∞ Z +∞
|x|f (x) dx = xαe−αx dx.
−∞ 0
22 Capı́tulo 1. Teoria das Probabilidades

Ora, integrando por partes, obtemos


Z Z
−αx −αx 1
xαe dx = −e x − −e−αx dx = −e−αx x − e−αx + C
α
e então t
Z +∞ 
−αx −αx 1 1
xαe = lim −e x − e−αx = .
0 t→+∞ α 0 α
Concluı́mos assim que o integral impróprio é convergente e portanto E(X) existe, tendo-se
Z +∞ Z 0 Z +∞
1
E(X) = xf (x) dx = 0 dx + xαe−αx dx = .
−∞ −∞ 0 α

Exemplo 1.3.5. Seja X uma variável aleatória seguindo a distribuição de Cauchy


1 1
reduzida, isto é, a lei de densidade f (x) = , x ∈ R.
π 1 + x2
A esperança matemática de X não existe porque
Z +∞ Z 0 Z +∞
|x|f (x) dx = −x f (x) dx + x f (x)dx
−∞ −∞ 0
0 +∞
−x
Z Z
x
= dx + dx
−∞ π(1 + x2 ) 0 π(1 + x2 )
1 1
= lim log(1 + a2 ) + lim log(1 + b2 ) = +∞.
2π a→−∞ 2π b→+∞

Proposição 1.3.2. (Propriedades da esperança matemática) Sejam X e Y duas variáveis


aleatórias definidas sobre o mesmo espaço e tais que E(X) e E(Y ) existem. Tem-se

i) se P (X ≥ 0) = 1 então E(X) ≥ 0;

ii) E(X + Y ) = E(X) + E(Y );

iii) E(aX + bY ) = aE(X) + bE(Y ), ∀a, b ∈ IR;

iv) se X e Y são independentes, então E(XY ) = E(X)E(Y );

v) |E(X)| ≤ E(|X|).

As propriedades ii), iii) e iv) são facilmente generalizáveis a um número finito de variáveis
aleatórias. Concretamente, tem-se
•E(a1 X1 + a2 X2 + ... + an Xn ) = a1 E(X1 ) + a2 E(X2 ) + ... + an E(Xn ), ∀a1 , ..., an ∈ IR;
•se X1 , X2 , ..., Xn são independentes, então E(X1 X2 · · · Xn ) = E(X1 )E(X2 ) · · · E(Xn ).
Apresentamos de seguida a noção de esperança matemática de uma função real de uma
variável aleatória.
1.3. Variáveis aleatórias e distribuições 23

Definição 1.3.12. Seja h : IR −→ IR uma função tal que h(X) é ainda uma variável
aleatória real.
X
1. Se X é uma variável aleatória discreta tal que |h(x)|P (X = x) é convergente,
x∈SX
então existe esperança matemática de h(X), tendo-se
X
E(h(X)) = h(x)P (X = x).
x∈SX

Z +∞
2. Se X é uma variável aleatória contı́nua tal que o integral |h(x)|f (x)dx é con-
−∞
vergente, então existe esperança matemática de h(X) tendo-se
Z +∞
E(h(X)) = h(x)f (x)dx.
−∞

Exemplo 1.3.6. Seja h uma função de domı́nio IR e de expressão analı́tica h(x) = x2


e consideremos a variável aleatória do exemplo 1.3.2, isto é X ∼ U[a, b]. Então
b
b3 − a3
Z
1
E(h(X)) = E(X 2 ) = x2 dx = .
a b−a 3(b − a)

Damos o nome de momento simples de ordem k de X a mk (X) = E(X k ) e de momento


centrado de ordem k de X a µk (X) = E((X − E(X))k ) (no caso de existirem). A µ2 (X) dá-se
o nome de variância de X e representa-se por V ar(X). Por outras palavras tem-se

V ar(X) = E((X − E(X))2 ).


p
O desvio padrão de X é definido por V ar(X).
Devemos observar que quando não há dúvidas relativamente a que variável aleatória nos
referimos, também denotamos a sua média por m e a variância e o desvio padrão por σ 2 e σ,
respectivamente.

Proposição 1.3.3. A variância de uma v.a. X verifica as seguintes propriedades:

i) Var(aX + b) = a2 Var(X), ∀a, b ∈ R;

ii) Se X e Y são independentes, então Var(X + Y ) =Var(X)+Var(Y );

iii) Var(X) = E(X 2 ) − (E(X))2 (Fórmula de Koenig);

iv) Var(X) = 0 ⇔ ∃a ∈ R : P (X = a) = 1.

Notamos que da primeira propriedade se conclui que


24 Capı́tulo 1. Teoria das Probabilidades

• V ar(aX) = a2 V ar(X), ∀a ∈ R

• V ar(−X) = V ar(X)

• V ar(X + b) = V ar(X), ∀b ∈ R.

Além disso a propriedade ii) é generalizável a qualquer número finito de variáveis aleatórias.

Os quantis de uma distribuição, que passamos a definir, são parâmetros que permitem
estudar em simultâneo a localização e a concentração dos valores assumidos por uma variável
aleatória.

Definição 1.3.13. Seja p ∈ ]0, 1[. Dada uma variável aleatória X, chamamos quantil
de probabilidade p da distribuição de X a um número Q(p) que verifica lim F (x) ≤ p
x→Q(p)−
e lim F (x) ≡ F (Q(p)) ≥ p .
x→Q(p)+

Observamos que no caso em que existe um intervalo de valores x que verificam F (x) = p
qualquer um dos valores deste intervalo satisfaz a definição anterior. Existem na literatura
várias convenções adoptadas por diferentes autores no sentido de determinar Q(p) de forma
única. Neste curso consideramos Q(p) igual ao ponto médio de tal intervalo. Um caso particular
interessante é o dos três quartis da distribuição de X e que correspondem aos casos em que
p toma os valores 1/4, 1/2 e 3/4. Os três quartis são denotados por Q1 , Q2 e Q3 e verificam
lim F (x) ≤ i/4 e F (Qi ) ≥ i/4, para i ∈ {1, 2, 3}.
x→Q−
i

Exemplo 1.3.7. Retomemos a variável aleatória do exemplo 1.3.1. Neste caso como

F (0) = lim F (x) = 0.25


x→1−

qualquer valor do intervalo [0, 1[ serve para primeiro quartil. Assim, de acordo com a
convenção referida acima consideramos Q1 = 0.5.
Similarmente, como
F (1) = lim F (x) = 0.75,
x→2−

qualquer valor do intervalo [1, 2[ serve para terceiro quartil pelo que consideramos Q3 = 1.5.
Mais, uma vez que lim F (x) = 0.25 < 0.5 e lim F (x) = F (1) = 0.75 > 0.5, concluı́mos
x→1− x→1+
que o segundo quartil da distribuição de X é igual a 1.

O segundo quartil é usualmente designado mediana de X ou da distribuição de X, sendo


também denotado por M ed. A mediana de uma distribuição é assim uma medida de localização
que, ao contrário da esperança matemática, existe sempre.
Observamos o facto, inconveniente para o leitor, dos três quartis possuirem duas notações,
nomeadamente Q(1/4), Q(1/2), Q(3/4) e Q1 , Q2 , Q3 , respectivamente. Acrescenta-se ainda que
a mediana é denotada por Q(1/2), Q2 e M ed.
1.3. Variáveis aleatórias e distribuições 25

Exercı́cio 1.3.1. Um circuito elétrico é constituı́do por duas componentes, A e B, que


funcionam independentemente uma da outra e em paralelo. A componente A avaria com proba-
bilidade 0.1 e a componente B avaria com probabilidade 0.05. Obtenha a função de probabilidade
da v.a. Z que representa o número de componentes em funcionamento no circuito.
Exercı́cio 1.3.2. Uma empresa possui 20 computadores, estando 3 deles infetados com
um vı́rus informático. A empresa decide doar a uma instituição 4 dos seus computadores,
selecionados aleatoriamente. Determine a função de probabilidade da v.a. X que representa o
número de computadores doados que se encontram infetados pelo vı́rus.
Exercı́cio 1.3.3. A função de distribuição de uma variável aleatória discreta X é


 0 se x < 0
 0.5 se 0 ≤ x < 1



0.6 se 1 ≤ x < 2

F (x) =

 0.8 se 2 ≤ x < 3
0.9 se 3 ≤ x < 3.5




1 se x ≥ 3.5

Construa a função de probabilidade de X.


Exercı́cio 1.3.4. Considere o seguinte esboço do gráfico de uma função de distribuição.

1
6 q
0.8 q b

0.4 q b
0.25 q b
c -
1 1.5 2 3
1. Justifique que se trata de uma função de distribuição correspondente a uma variável
aleatória X discreta.

2. Determine P (X > 2), P (1 < X ≤ 3) e P (1 < X ≤ 3|X ≤ 2).

3. Calcule E(X), V ar(X), E(2 + X), V ar(3 − X) e V ar( 1+X


2 ).

Exercı́cio 1.3.5. Considere a variável aleatória discreta X para a qual se tem



αx, x = 1, 2, 3
P (X = x) = ,
0, caso contrário

sendo α uma constante real.


1. Determine α.

2. Determine a função de distribuição de X.

3. Calcule o valor esperado e a variância de X.


(
1
6 , −2 ≤ x ≤ 4
Exercı́cio 1.3.6. Seja f : IR −→ IR a função definida por f (x) = .
0 , x < −2 ∨ x > 4
26 Capı́tulo 1. Teoria das Probabilidades

1. Prove que f é uma função densidade de probabilidade sobre IR.

2. Seja X uma v.a. contı́nua de densidade f .

(a) Construa a função de distribuição de X e represente-a graficamente.


(b) Calcule P (X ≥ 1), P (0 < X < 2.5) e P (X > 0 / − 0.5 ≤ X ≤ 2.5).

Exercı́cio 1.3.7. Uma variável aleatória X tem densidade f (x) = c(2x − x2 )1I[0,2] (x).
Calcule o valor de c e P (0.5 < X < 1.5). Calcule E(X).

Exercı́cio 1.3.8. O número de acidentes de trabalho por semana num laboratório é re-
presentado por uma variável aleatória X com distribuição caracterizada por P (X = 0) =
0.97, P (X = 1) = 0.02, P (X = 2) = 0.01. A variável aleatória que representa o número de
acidentes de trabalho durante uma quinzena é Y = X1 + X2 , onde as variáveis X1 e X2 têm a
mesma distribuição que X e são independentes. Qual a distribuição de Y ?

Exercı́cio 1.3.9. Duas pessoas, A e B, jogam determinado jogo, composto por várias
partidas independentes entre si. Sabe-se que cada partida admite sempre um vencedor e que a
probabilidade de A vencer uma partida é o dobro da de B. Suponha que ambos iniciam o jogo
com um capital de três euros. Em cada partida, o jogador que perde dá um euro ao que vence.
O jogo termina quando qualquer um dos jogadores fica sem dinheiro.

1. Determine a lei de probabilidade da variável aleatória real, X, que representa o capital


do jogador A ao fim da terceira partida.

2. Calcule P (X ≥ 3 / 0 < X < 6).

3. Qual a probabilidade do jogo terminar ao fim de 3 partidas?

Exercı́cio 1.3.10. O número de horas de funcionamento de certo tipo de componente


electrónica é descrito por uma variável aleatória X, contı́nua, com densidade

 0
 x ≤ 100
f (x) =
 100

x > 100
x2
1. Qual a probabilidade de a componente não funcionar mais do que 200 horas?

2. Mostre que X não admite esperança matemática.

Exercı́cio 1.3.11. O tempo de CPU, expresso em horas, usado semanalmente por um


gabinete de contabilidade é bem modelado por uma variável aleatória real contı́nua, X, com
função densidade dada por

 3 x2 (4 − x) , 0 < x < 4

f (x) = 64 .

 0, x≤0∨x≥4

1. Calcule a média e a variância do tempo de CPU usado semanalmente pelo gabinete.


1.3. Variáveis aleatórias e distribuições 27

2. Qual é a probabilidade de o gabinete usar, numa semana, mais do que 1 hora de CPU?

3. O tempo de CPU custa 250 euros por hora. Além disso, o gabinete paga, semanalmente,
uma taxa fixa de 50 euros pela utilização deste recurso informático. Considere a variável
aleatória Y que representa a quantia gasta semanalmente pelo gabinete com a utilização
da CPU.

(a) Obtenha a média e a variância de Y .


(b) Calcule a probabilidade de o gabinete gastar entre 300 e 550 euros, por semana, com
a utilização da CPU.
(c) Admitindo que o primeiro quartil de X é 1.825 horas, determine o primeiro quartil
de Y e interprete o resultado obtido.

1.3.4 Vetores aleatórios reais


CONTEÚDO EM PREPARAÇÃO – SOBRE ELEMENTOS TEÓRICOS CONSULTAR
SLIDES AULAS TEÓRICAS

Exercı́cio 1.3.12. Considere o vector aleatório real (X, Y ), em que X e Y denotam,


respectivamente, o número de dispositivos electrónicos vendidos por uma loja no perı́odo da
manhã e no perı́odo da tarde de cada dia. No quadro que se segue apresenta-se um resumo da
função de probabilidade de (X, Y ).
Y =0 Y =1 Y =2 Y =3
X=0 0.1 0.1 0.05 0.1
X=1 0.1 0.05 0.15 0.1
X=2 0.1 0.05 0.1 0

1. Obtenha as funções de probabilidade marginais do vector (X, Y ) e verifique que X e Y


não são independentes.

2. Calcule a probabilidade de, em determinado dia,

(a) se venderem quando muito um dispositivo no perı́odo da manhã e mais de dois


dispositivos no perı́odo da tarde;
(b) se vender mais um dispositivo no perı́odo da tarde do que no perı́odo da manhã;
(c) se venderem mais de três dispositivos.

3. Mostre que E(X) = 0.9, E(Y ) = 1.4, E(XY ) = 1.15 e calcule Cov(X, Y ).

Exercı́cio 1.3.13. Numa prova de um concurso de tiro, uma equipa de dois participantes,
A e B, atira sobre o mesmo alvo. Cada participante efectua duas tentativas, sendo o seu
objectivo acertar no alvo o maior número de vezes.
Considere o vector aleatório real (X, Y ), em que X e Y denotam, respectivamente, o número
de tiros que os jogadores A e B acertam no alvo naquela prova. No quadro que se segue
apresenta-se um resumo da função de probabilidade de (X, Y ).
28 Capı́tulo 1. Teoria das Probabilidades

Y =0 Y =1 Y =2
X=0 0.01 0.03 0.06
X=1 0.04 0.12 0.24
X=2 0.05 0.15 0.3

1. Obtenha a função de probabilidade de X.

2. Mostre que X e Y são independentes.

3. Calcule a probabilidade de

(a) A e B acertarem no alvo pelo menos uma vez cada um;


(b) A acertar no alvo mais vezes do que B;
(c) A e B acertarem no alvo conjuntamente quando muito 3 vezes.

4. Construa a matriz de variâncias-covariâncias de (X, Y ).

Exercı́cio 1.3.14. O rendimento mensal, expresso em milhares de Euros, dos casais que
habitam em determinada região é bem modelado pelo vector aleatório contı́nuo (X, Y ), em que
X e Y representam, respectivamente, os rendimentos mensais da esposa e do marido. Admita
que a função densidade de (X, Y ) é dada por
 1
f (x, y) = 2, 0 < x ≤ y ≤ 2 .
0, caso contrário

1. Obtenha as funções densidade marginais do vector (X, Y ).

2. Determine o valor da função de distribuição de (X, Y ) no ponto (1.5, 1.5) e interprete tal
valor.

3. Calcule a probabilidade de

(a) o rendimento mensal do marido exceder o da esposa em mais de 1000 Euros;


(b) o rendimento mensal total do casal não exceder 2000 Euros.
2 4
4. Verifique que E(X) = 3 , E(Y ) = 3 , E(XY ) = 1 e deduza o valor de Cov(X, Y ).

5. Que pode afirmar sobre a independência de X e Y ?

6. Qual a média e a variância do rendimento mensal total do casal?

Exercı́cio 1.3.15. Numa experiência sobre resistência de materiais, aplica-se um esforço


sobre uma determinada estrutura e observam-se os danos nela causados. Sendo X e Y as
variáveis aleatórias reais que representam, respectivamente, a intensidade do esforço aplicado
e a resistência da estrutura, sabe-se que (X, Y ) é um vector aleatório contı́nuo com função
densidade dada por

x + y, se 0 < x < 1 e 0 < y < 1
f (x, y) = .
0, caso contrário
1.3. Variáveis aleatórias e distribuições 29

1. Verifique que X e Y são identicamente distribuı́das.

2. Sempre que a intensidade do esforço aplicado é superior à resistência da estrutura, esta


sofre danos. Calcule a probabilidade da estrutura sofrer danos.

3. Construa a matriz de variâncias-covariâncias de (X, Y ).

4. Serão a resistência da estrutura e a intensidade do esforço que lhe é aplicado indepen-


dentes?

Exercı́cio 1.3.16. Seja (X, Y ) um vector aleatório real com função densidade dada por

kxy, se 0 < x < 1 e 0 < y < 2
f (x, y) = ,
0, caso contrário

onde k é um número real positivo.

1. Mostre que k = 1.

2. Obtenha as funções densidade marginais de (X, Y ) e prove que as variáveis X e Y são


independentes.

3. Determine o valor da função de distribuição de (X, Y ) no ponto (0.5, 1).

4. Calcule P (X ≥ 0.5, Y < 1) e P (X < Y ).

5. Construa a matriz de variâncias-covariâncias de (X, Y ).


Y
6. Determine a variância da variável aleatória real Z = −3X + 2 − 1.

Exercı́cio 1.3.17. Sejam X e Y variáveis aleatórias reais independentes com funções


densidade dadas por
 1 
2 (1 − x) se −1 < x < 1 1 se 0 < y < 1
fX (x) = e fY (y) = .
0 caso contrário 0 caso contrário

1. Obtenha a função densidade do vector (X, Y ).

2. Calcule P (X < 0, Y ≥ 0.5) e P (Y ≥ |X|).

3. Construa a matriz de variâncias-covariâncias de (X, Y ).

4. Determine a esperança e a variância da variável aleatória real Z = 2X − 3Y + 1.

1.3.5 Distribuições mais usadas em Estatı́stica

I- Distribuição de Bernoulli
As variáveis aleatórias com distribuição ou lei de Bernoulli estão quase sempre relaciona-
das com experiências dicotómicas, sendo por isso variáveis que assumem apenas dois valores.
Formalmente convencionamos que tais valores são 0 e 1.
30 Capı́tulo 1. Teoria das Probabilidades

Concretamente, dizemos que uma variável aleatória X tem distribuição de Bernoulli ou que
segue a lei de Bernoulli de parâmetro p , e escreve-se X ∼ B(p), se X assume apenas os dois
valores 0 e 1, com P (X = 1) = p. Tem-se E(X) = p e V ar(X) = p(1 − p).
Nas aplicações mais comuns, dada uma experiência aleatória e um acontecimento A cuja
probabilidade p = P (A) conhecemos, definimos a variável aleatória X que assume o valor 1 se,
ao realizar a experiência, A ocorre e que assume o valor 0 em caso contrário.

Exemplo 1.3.8. Consideremos a experiência aleatória que consiste no lançamento


de um dado equilibrado, com as faces numeradas de 1 a 6, e A o acontecimento “saı́da de
face 2”. A variável aleatória que assume o valor 1 se A ocorre e 0 se A não ocorre tem
distribuição de Bernoulli. Uma vez que P (X = 1) = P (A) = 1/6, obtemos E(X) = 1/6 e
V ar(X) = 5/36.

Às experiências que apresentam apenas dois resultados possı́veis damos o nome de ex-
periências de Bernoulli.

II- Distribuição Binomial


Consideremos de novo uma experiência aleatória e um acontecimento A que lhe está asso-
ciado, com p = P (A) conhecido.
Suponhamos que realizamos a experiência r vezes e que estas realizações diferentes são
independentes umas das outras.
Denotemos por X a variável aleatória que representa o número de vezes que o acontecimento
A ocorre nas r realizações da experiência. Nestas condições, dizemos que X tem distribuição
Binomial de parâmetros r e p, escreve-se X ∼ B(r, p) e tem-se SX = {0, 1, 2, ..., r} e P (X =
k) = Ckr pk (1 − p)r−k , para k ∈ SX .

Proposição 1.3.4. Se X1 , X2 , ..., Xr são variáveis aleatórias independentes com dis-


tribuição de Bernoulli de parâmetro p, então X1 + X2 + ... + Xr ∼ B(r, p).

As propriedades da esperança matemática e da variância já apresentadas e esta última


proposição, permitem-nos concluir que E(X) = rp e que V ar(X) = rp(1 − p).

Exemplo 1.3.9. O número de caras obtidas ao lançar uma moeda equilibrada dez
vezes é uma variável aleatória com distribuição B(10, 1/2).

Exemplo 1.3.10. Uma companhia aérea observou que a probabilidade de um passa-


geiro com bilhete não comparecer ao vôo é igual a 0.05. Consequentemente decidiu passar
a vender 52 bilhetes para cada avião com 50 lugares. Qual a probabilidade de, num dado
avião, haver lugar para todos os passageiros que se apresentarem ao vôo?
Seja X a variável aleatória que representa o número de passageiros que não comparecem
ao vôo de entre os 52 que possuem bilhete. Nestas condições X ∼ B(52, 0.05) e SX =
{0, 1, 2, ..., 52}.
1.3. Variáveis aleatórias e distribuições 31

Atendendo a que “haver lugar para todos” significa que “no mı́nimo não comparecerem
duas pessoas”, vamos calcular P (X ≥ 2). Ora

P (X ≥ 2) = 1 − P (X < 2) = 1 − (P (X = 0) + P (X = 1))
= 1 − C052 × 0.050 × 0.9552 + C152 × 0.051 × 0.9551


' 1 − (0.069 + 0.190) = 0.741.

III- Distribuição Geométrica


Seja A um acontecimento associado a uma experiência aleatória, com p = P (A) conhecido.
Suponhamos que é possı́vel realizar a experiência “indefinidamente” sendo estas realizações
independentes umas das outras.
A variável aleatória X que representa o número de vezes que é preciso realizar a experiência
até que o acontecimento A ocorra pela primeira vez tem distribuição Geométrica de parâmetro
p. Escreve-se X ∼ G(p).
Neste caso, tem-se SX = IN e P (X = k) = (1 − p)k−1 p, para k ∈ IN.
Tem-se ainda E(X) = 1/p e V ar(X) = 1−p p2
.

Exemplo 1.3.11. Num armazém são vendidas torneiras de várias marcas incluindo a
sua própria marca A. Seja Y a variável aleatória que representa o número de clientes que
compram torneiras até surgir o primeiro (inclusivé) que opte por uma torneira da marca
A. Sabendo que a probabilidade de um cliente que compra torneiras escolher a marca A é
0.05, calculemos P (Y ≥ 3).
A variável aleatória Y tem distribuição geométrica de parâmetro p = 0.05. Assim

P (Y ≥ 3) = 1 − P (Y ≤ 2)
= 1 − (P (Y = 1) + P (Y = 2))
= 1 − (0.05 + 0.95 × 0.05) = 0.9025.

Exemplo 1.3.12. Uma máquina produz peças que são defeituosas com probabilidade
0.02. Qual o número médio de peças sem defeito que serão produzidas consecutivamente?
Seja X a variável aleatória que representa o número de peças que a máquina produz
consecutivamente sem defeito. A variável X + 1 tem distribuição (ou lei) Geométrica de
parâmetro 0.02, tendo-se, consequentemente, E(X + 1) = 1/0.02 = 50. Assim E(X) = 49.

IV- Distribuição uniforme discreta


Uma variável aleatória X tem distribuição ou lei uniforme sobre {x1 , x2 , ..., xn } se SX =
{x1 , x2 , ..., xn } e P (X = xi ) = n1 , ∀xi ∈ SX . Esta lei é denotada por U({x1 , · · · , xn }).
Tem-se
n n
1X 1X 2
E(X) = xi e V ar(X) = xi − (E(X))2 .
n n
i=1 i=1
32 Capı́tulo 1. Teoria das Probabilidades

Exemplo 1.3.13. Consideremos a experiência aleatória que consiste no lançamento


de um dado equilibrado, com as faces numeradas de 1 a 6. Seja X a variável aleatória que
representa o valor da face que fica voltada para cima. Nestas circunstâncias X tem distri-
buição uniforme discreta sobre {1, 2, · · · , 6} com P (X = k) = 1/6, para k ∈ {1, 2, · · · , 6}.

V- Distribuição de Poisson
As variáveis aleatórias com distribuição de Poisson (ou variáveis aleatórias de Poisson)
surgem em muitas aplicações como, por exemplo, nos estudos de filas de espera quando se
pretende modelar o número de chegadas num dado intervalo de tempo, previamente fixado. Este
tipo de variáveis aleatórias surge também nas situações em que se pretende estudar o número
de ocorrências de um acontecimento raro, quando não limitamos o número de realizações da
experiência.
Assim, com alguma regularidade, encontramos variáveis aleatórias com distribuição de Pois-
son em estudos sobre a emissão de partı́culas por um corpo radioactivo num dado perı́odo de
tempo, em estatı́sticas de acidentes ou mesmo quando se estuda o número de “errus de dacti-
lugrafia”por página de um texto.
Podemos também afirmar que o número de bactérias encontradas numa dada cultura, o
número de leituras erradas da pluviosidade, o número de clientes de um armazém que se mos-
tram insatisfeitos com determinado produto são, em muitas circunstâncias, variáveis aleatórias
com distribuição ou lei de Poisson.
Dizemos que uma variável aleatória X tem distribuição ou lei de Poisson de parâmetro λ,
com λ > 0, e escreve-se X ∼ P(λ), se SX = IN0 e

λk
P (X = k) = e−λ ,
k!
para k ∈ IN0 . Prova-se que E(X) = V ar(X) = λ.

Exemplo 1.3.14. O número de partı́culas emitidas, num perı́odo de 20 segundos, por


determinada fonte radioactiva é uma variável aleatória real X com lei de Poisson. Sabendo
que E(X 2 ) = 6 determinemos P (1 < X ≤ 3).
Ora, como para qualquer variável se tem V ar(X) = E(X 2 ) − (E(X))2 e para uma
variável aleatória de Poisson V ar(X) = E(X) = λ, obtemos

V ar(X) = E(X 2 ) − (E(X))2 ⇐⇒ λ = 6 − λ2 ⇐⇒ λ = 2 ∨ λ = −3.

Como λ > 0 concluı́mos que λ = 2. Então

22 23
P (1 < X ≤ 3) = P (X = 2) + P (X = 3) = e−2 + e−2 = 0.4511.
2! 3!
Suponhamos agora que a emissão de partı́culas em diferentes perı́odos de 20 segundos
ocorre de forma independente. Sabendo que foi observada a emissão de partı́culas durante 5
perı́odos de 20 segundos, calculemos a probabilidade de em pelo menos um desses 5 perı́odos
serem emitidas exactamente duas partı́culas.
1.3. Variáveis aleatórias e distribuições 33

Neste caso, temos 5 experiências de Bernoulli onde o sucesso corresponde ao aconte-


cimento que ocorre quando, num perı́odo de 20 segundos, são emitidas exactamente duas
partı́culas. O sucesso associado a estas experiências tem probabilidade p = P (X = 2) =
2
e−2 22! = 0.2706. Mais, atendendo à independência referida acima, a variável aleatória Y
que conta o número de perı́odos de 20 segundos, nestes 5, em que são emitidas exactamente
2 partı́culas (em que ocorre sucesso), tem distribuição B(5, 0.2706). Então há que calcular

P (Y ≥ 1) = 1 − P (Y = 0) = 1 − C05 × 0.27060 × (1 − 0.2706)5


= 1 − (1 − 0.2706)5 = 0.7935

Consideremos ainda neste exemplo a variável aleatória W que representa o número de


perı́odos consecutivos de 20 segundos até que ocorra um em que sejam emitidas exactamente
2 partı́culas (até que ocorra sucesso). Calculemos P (W ≥ 3). Atendendo a que W tem
distribuição geométrica de parâmetro 0.2706, tem-se

P (W ≥ 3) = 1 − P (W ≤ 2) = 1 − (P (W = 1) + P (W = 2))
= 1 − 0.2706 − 0.7294 × 0.2706 = 0.5320.

Proposição 1.3.5. (Estabilidade da distribuição de Poisson) Se X1 , X2 , · · · , Xn são


variáveis aleatórias de Poisson, independentes, de parâmetros λ1 , λ2 , · · · , λn , respectiva-
mente, então
X1 + X2 + · · · + Xn ∼ P(λ1 + λ2 + · · · + λn ).

Exemplo 1.3.15. Seja X a variável aleatória que representa o número de bactérias


Escherichia Coli existentes num cm3 de água. Suponha que X tem distribuição de Poisson
e que a probabilidade de não haver bactérias num cm3 de água é igual a 0.05.
Calculemos a probabilidade de existirem pelo menos duas bactérias num cm3 de água.
Uma vez que X ∼ P(λ) e P (X = 0) = 0.05 = e−λ concluı́mos que −λ = ln 0.05 o que
equivale a dizer que λ = ln 0.05−1 ' 3. Assim

P (X ≥ 2) = 1 − P (X< 2) = 1 
− P (X = 0) − P (X = 1)
30 31
= 1 − 0.05 + = 1 − 0.2 = 0.8.
0! 1!

Calculemos agora a probabilidade de que numa amostra de dois cm3 de água existam
quando muito 3 bactérias.
Sejam X1 e X2 as variáveis aleatórias que representam o número de bactérias em cada
um dos cm3 de água e Y = X1 + X2 a variável aleatória que representa, obviamente, o
número de bactérias em dois cm3 de água.
Supondo X1 e X2 independentes, podemos afirmar que Y ∼ P(3 + 3). Então

P (Y ≤ 3) = P (Y = 0) + P (Y = 1) + P (Y = 2) + P (Y = 3) = e−6 × 61 ' 0.151.


34 Capı́tulo 1. Teoria das Probabilidades

VI - Distribuição uniforme contı́nua


Como já foi dito no exemplo 1.3.2 uma variável aleatória tem distribuição ou lei uniforme
sobre [a, b], escrevendo-se X ∼ U([a, b]), se tem densidade dada por

 0 se x < a
1
f (x) = se a ≤ x ≤ b
 b−a
0 se x > b

e, consequentemente, função de distribuição com expressão analı́tica



 0 se x < a
x−a
F (x) = se a ≤ x ≤ b .
 b−a
1 se x > b.

a+b (b−a)2
Prova-se que E(X) = 2 e V ar(X) = 12 .

Notemos que a intervalos contidos em [a, b] com amplitudes iguais correspondem probabi-
lidades iguais.

Um exemplo de uma variável aleatória com distribuição uniforme é a que representa um


número real escolhido ao acaso num intervalo limitado [a, b].

VII - Distribuição exponencial

Em estudos de filas de espera surge a necessidade de considerar a variável aleatória que


representa a amplitude do intervalo de tempo que decorre entre duas chegadas consecutivas.
Em muitas das aplicações mais comuns, sob algumas restrições, esta variável aleatória segue
uma distribuição ou lei exponencial.
Nos estudos de fiabilidade de máquinas, quando se avalia o tempo de funcionamento sem
falhas, ou em análise de sobrevivência, quando se pretende avaliar o tempo de sobrevivência
de um doente sujeito a determinado tratamento, com alguma regularidade e sob circunstâncias
muito especiais, surgem também variáveis aleatórias com lei exponencial.

Uma variável aleatória X tem distribuição ou lei exponencial de parâmetros α > 0 e β ∈ IR,
e escreve-se X ∼ E(α, β), se a sua densidade é dada por

αe−α(x−β) se x ≥ β

f (x) = .
0 se x < β

O esboço do gráfico de f é apresentado de seguida.


A função de distribuição de X é definida por

 0 se x < β
F (x) =
1 − e−α(x−β) se x ≥ β

cujo esboço do gráfico apresentamos de seguida.


1.3. Variáveis aleatórias e distribuições 35

Observemos que se X ∼ E(α, β) então X − β ∼ E(α, 0). Por outro lado no exemplo 1.3.4
provámos que uma variável aleatória com distribuição E(α, 0) tem média igual a α1 . Assim,
para X ∼ E(α, β), tem-se
1
E(X) = E(X) − β + β = E(X − β) + β = + β.
α
Mais, prova-se que V ar(X) = 1/α2 .

Exemplo 1.3.16. Seja X uma variável aleatória com distribuição E(2, 0). Vamos
calcular P (X > 3.5). Tem-se
Z +∞
t
2e−2x dx = lim −e−2x 3.5 = e−7 .

P (X > 3.5) =
3.5 t→+∞

VIII - Distribuição normal

A distribuição normal, de Gauss ou gaussiana, é talvez a mais importante distribuição


contı́nua. De facto, inúmeras são as variáveis aleatórias que obedecem a esta lei e que são
usadas na criação de modelos que descrevem exacta ou aproximadamente fenómenos fı́sicos e
biométricos.
Do ponto de vista das aplicações, tem-se provado que muitos atributos observáveis de certas
populações podem ser bem representados por variáveis com distribuição de Gauss. Por exemplo,
esta distribuição pode constituir uma boa aproximação para as distribuições das alturas e dos
pesos de populações razoavelmente homogéneas, bem como para a distribuição dos erros de
medida de determinadas grandezas fı́sicas.
Do ponto de vista teórico, justifica-se a importância da distribuição normal pelo facto de
ser uma boa aproximação para a lei da soma de variáveis independentes e ainda pelas suas
excelentes propriedades que lhe conferem uma enorme tratabilidade matemática.

Uma variável aleatória X tem distribuição ou lei normal de parâmetros m e σ 2 , escreve-se


X ∼ N (m, σ 2 ), se a sua densidade é da forma
36 Capı́tulo 1. Teoria das Probabilidades

1 − 1 x−m 2
f (x) = √ e 2 ( σ ) , x ∈ IR.
2πσ

Apresentamos de seguida o esboço do gráfico da densidade de uma lei N (0, 1).

-3 3

Proposição 1.3.6. Propriedades da distribuição normal.


X−m
1. Se X ∼ N (m, σ 2 ) então Z = σ ∼ N (0, 1).

2. Se Z ∼ N (0, 1) então X = σZ + m ∼ N (m, σ 2 ).

3. Se Z ∼ N (0, 1) então

(a) FZ (x) = 1 − FZ (−x), ∀x ∈ IR,


(b) P (−x ≤ Z ≤ 0) = P (0 ≤ Z ≤ x), ∀x ∈ IR,

4. (Estabilidade da lei normal) Se X1 , X2 , · · · , Xn são variáveis aleatórias independen-


tes com distribuição normal de médias m1 , m2 , · · · , mn e variâncias σ12 , σ22 , · · · , σn2 ,
respectivamente, então X1 + X2 + · · · + Xn também tem uma distribuição normal
com média igual à soma das médias e variância igual à soma das variâncias.

Da estabilidade da lei normal e das propriedades da média e da variância decorre imedia-


tamente que se X1 , X2 , · · · , Xn são variáveis aleatórias independentes com distribuição normal
de médias m1 , m2 , · · · , mn e variâncias σ12 , σ22 , · · · , σn2 , respectivamente, então, para quaisquer
reais b, a1 , a2 , ..., an , a variável aleatória
b + a1 X1 + a2 X2 + · · · + an Xn
também tem uma distribuição normal com média b + a1 m1 + a2 m2 + · · · + an mn e variância
igual a a21 σ12 + a22 σ22 + · · · + a2n σn2 . Na notação usual escrevemos
n n n
!
X X X
ai Xi ∼ N ai mi , a2i σi2 .
i=1 i=1 i=1

Observação 1.3.2. Denotando por FX e por FZ as funções de distribuição de X e de Z,


respectivamente, observamos que da primeira propriedade decorre
   
X −m x−m x−m
FX (x) = P (X ≤ x) = P ≤ = FZ .
σ σ σ
1.3. Variáveis aleatórias e distribuições 37

As propriedades que acabámos de apresentar, para além de tornarem a lei normal bastante
atraente para estudos teóricos, como já dissemos e confirmamos adiante, são obviamente úteis
em qualquer aplicação prática. Com efeito, sempre que dispomos de uma variável aleatória com
distribuição simétrica ou aproximadamente simétrica, devido à simplicidade deste modelo, é
usual começar por ajustar uma distribuição normal. No caso da média não ser 0 ou da variância
não ser igual a 1 podemos sempre usar a transformação apresentada na observação 1.3.2 e
determinar probabilidades ou quantis usando sempre uma tabela de probabilidades associadas
à lei N (0, 1). Apresentamos seguidamente uma das versões possı́veis para a referida tabela.
Trata-se da tabela da função de distribuição da lei N (0, 1).
38 Capı́tulo 1. Teoria das Probabilidades

Tabela da função de distribuição da lei N (0, 1)

P (Z ≤ z(p)) = p

z(p)

z(p) = a + b
a↓ b→ 0,0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586
0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535
0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409
0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173
0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793
0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240
0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490
0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524
0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327
0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891
1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214
1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298
1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147
1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91309 0,91466 0,91621 0,91774
1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189
1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408
1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449
1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327
1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062
1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670
2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643
2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736
2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861
3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900
1.3. Variáveis aleatórias e distribuições 39

Exemplo 1.3.17. Uma ponte foi projectada para suportar uma sobrecarga total de
1530 KN. Estudos estatı́sticos permitiram concluir que a variável aleatória que representa
o peso de automóveis ligeiros tem distribuição normal de média 15 KN e desvio padrão 1.5
KN. Se, em determinado momento, estão sobre a ponte 100 automóveis ligeiros, determi-
nemos a probabilidade de serem causados danos na sua estrutura, isto é, do peso total dos
automóveis exceder a sobrecarga de 1530 KN.
Denotemos por Xi a variável aleatória que representa o peso do automóvel i, para
100
X
i = 1, ..., 100. Como a variável aleatória Xi representa o peso total dos 100 automóveis,
i=1
100
X
serão causados danos na estrutura da ponte se ocorrer o acontecimento { Xi > 1530}.
i=1
Ora, usando a estabilidade da lei normal, sabemos que
100
X
Xi ∼ N 100 × 15, 100 × 1.52


i=1

100 100
!
X X
1
ou seja Xi ∼ N (1500, 225) o que equivale a Z = 15 Xi − 1500 ∼ N (0, 1).
i=1 i=1
Então
100 100
! ! !
X X
1 1530−1500
P Xi > 1530 = P 15 Xi − 1500 > 15
i=1 i=1
= P (Z > 2) = 1 − P (Z ≤ 2) = 1 − 0.97725 = 0.02275.

No que se segue denotamos por z(p) o quantil de probabilidade p da lei N (0, 1). Por outras
palavras, denotamos por z(p) o número real que verifica P (Z ≤ z(p)) = p, onde Z ∼ N (0, 1).
Devemos observar que a função INV.NORM do EXCEL(1 ) permite determinar o inverso
da função de distribuição de uma variável aleatória com lei N (m, σ 2 ), para quaisquer m e σ 2 .
Concretamente, o valor real x onde a função de distribuição assume o valor p é determinado
por x=INV.NORM(p; m; σ).(2 ) Por exemplo, para X ∼ N (3, 4) o valor de x onde a função de
distribuição é igual a 0.7 é determinado por x=INV.NORM(0.7;3;2)=4.0488.
Deste modo, o valor de z(p), para qualquer valor de p, pode ser encontrado usando a função
INV.NORM do Excel, pois z(p) é o número real para o qual a função de distribuição da lei
N (0, 1) é igual a p. Concretamente, tem-se z(p) =INV.NORM(p; 0; 1). Por exemplo z0.975 =
INV.NORM(0.975; 0; 1) = 1.959.

Exercı́cio 1.3.18. Uma determinada praga atacou uma unidade agrı́cola tendo contami-
nado três quartos da sua produção de maçã. Considere 4 maçãs escolhidas ao acaso. Deter-
mine:
1
Ou NORM.INV em algumas versões do EXCEL.
2
É de notar que se colocam média seguida do desvio padrão e não variância como na notação usual da lei
normal.
40 Capı́tulo 1. Teoria das Probabilidades

1. a probabilidade de todas elas terem sido contaminadas;


2. a probabilidade de nenhuma delas ter sido contaminada;
3. a probabilidade de terem sido contaminadas menos de 3 maçãs.
Exercı́cio 1.3.19. Num armazém, sabe-se que o número de clientes atendidos em deter-
minado intervalo de tempo é uma v.a. X à qual se pode ajustar uma distribuição de Poisson
de parâmetro λ. Sabendo que P (X ≥ 1) = 0.3, determine λ e calcule P (X ≥ 2).
Exercı́cio 1.3.20. Numa empresa sabe-se que o número de peças com defeito produzidas
diariamente é uma variável aleatória X com distribuição de Poisson. Sabendo que P (X =
2) = 2P (X = 0), determine P (X ≥ 3).
Exercı́cio 1.3.21. Se chegar à paragem do autocarro às 10h e souber que a v.a. que
descreve a hora de chegada deste é uniforme entre as 10h e as 10h30, qual a probabilidade de
ter de esperar mais do que 12 minutos?
Exercı́cio 1.3.22. O número de milhares de quilómetros que um automóvel de determinado
modelo percorre antes de ser retirado da circulação pode ser representado por uma variável
aleatória com distribuição exponencial com parâmetro α = 0.002, isto é, com densidade f (x) =
0.002 e−0.002x 1I[0,+∞) (x), x ∈ IR.
Se adquirir um automóvel daquele modelo em segunda mão com pelo menos 50 000 quilómetros,
qual a probabilidade de poder utilizá-lo durante pelo menos mais 100 000 quilómetros?
Exercı́cio 1.3.23. 1. Seja Z uma variável aleatória com distribuição N (0, 1). Sabendo
que P (0 ≤ Z ≤ 2.5) = 0.4938 e P (0 ≤ Z ≤ 0.8) = 0.2881 calcule i)P (−2.5 ≤ Z ≤ 0),
ii)P (−0.8 ≤ Z ≤ 0.8), iii)P (−0.8 ≤ Z ≤ 2.5) e iv) P (0.8 ≤ Z ≤ 2.5).
2. Sendo X uma variável aleatória com distribuição N (5, 4), calcule i)P (0 ≤ X ≤ 5),
ii)P (1 ≤ X ≤ 9) e iii)P (9 ≤ X ≤ 10);
3. Sendo X uma variável aleatória com distribuição N (4, 9), calcule o valor de t tal que
i)P (X ≤ t) = 0.2033, ii)P (X > t) = 0.648, iii)P (X ≥ t) = 0.0025, e iv)P (|X − 4| ≤
3t) = 0.27366.
Exercı́cio 1.3.24. Seja X uma variável aleatória com distribuição normal de valor esperado
10 e variância 4, que representa o comprimento de uma barra de ferro. Suponha que a barra é
considerada não defeituosa se X assumir valores no intervalo [8,12] e defeituosa caso contrário.
Qual a probabilidade de que uma barra não seja defeituosa?
Exercı́cio 1.3.25. O comprimento das peças produzidas por uma máquina é uma variável
aleatória normal com valor esperado m (em mm) e variância σ 2 (em mm2 ). Uma peça é
defeituosa se o seu comprimento diferir do valor esperado mais do que σ. Sabe-se que 50%
das peças produzidas têm comprimento inferior a 2.5 mm e 47.5% das peças produzidas têm
comprimento entre 2.5 mm e 3.42 mm.
Determine m e σ e determine a probabilidade de que uma peça seja não defeituosa.
Exercı́cio 1.3.26. Um grupo de adolescentes, constituı́do por 12 raparigas e 6 rapazes,
entra num elevador com uma carga máxima de 900 kg. Suponha que os pesos (expressos em
quilogramas, kg) dos adolescentes podem ser representados por variáveis aleatórias reais inde-
pendentes e gaussianas, de média 50 kg e de desvio padrão 5 kg no caso das raparigas, e de
média 60 kg e de desvio padrão 10 kg no caso dos rapazes.
1.3. Variáveis aleatórias e distribuições 41

1. Mostre que o peso total do referido grupo é uma variável aleatória real gaussiana de média
960 kg e de desvio padrão 30 kg.
2. Calcule a probabilidade de, nestas condições, ser excedida a carga máxima do elevador.
Exercı́cio 1.3.27. Uma empresa comercializa computadores, impressoras e mobiliário de
escritório. Sabe-se que as variáveis aleatórias que representam o lucro mensal (em milhares de
euros) da venda de computadores, impressoras e mobiliário são independentes e que possuem
leis N (10, 16), N (8, 8) e N (3, 1), respetivamente. Calcule a probabildade de o lucro mensal em
mobiliário e impressoras exceder o de computadores.
Exercı́cio 1.3.28. Os tempos de funcionamento de determinado tipo de dispositivos (ex-
presso em anos) produzidos por dois fabricantes A e B são considerados independentes e nor-
malmente distribuı́dos. Estas duas variáveis aleatórias têm, respetivamente, média 6 e desvio
padrão 1 e, média 6.5 e desvio padrão 2. Determine a probabilidade de que o tempo de funcio-
namento de um dispositivo do fabricante A exceda o tempo de funcionamento de um dispositivo
do fabricante B.

IX - Distribuição do qui-quadrado
Consideremos k variáveis aleatórias independentes X1 ,..., Xk , todas com lei N (0, 1).
A variável aleatória
Xk
Uk = Xi2
i=1
segue a distribuição ou lei do qui-quadrado com k graus de liberdade, denotada por Xk2 . Nestas
condições escrevemos Uk ∼ Xk2 .
A distribuição Xk2 é contı́nua e uma variável aleatória com distribuição Xk2 assume apenas
valores positivos. Para esta variável aleatória tem-se
E(Uk ) = k e Var(Uk ) = 2k.
Na figura seguinte apresentamos alguns esboços de gráficos da função densidade da lei do
qui-quadrado para diferentes graus de liberdade.

5 10 15 20

O quantil de probabilidade p da lei χ2k será denotado por χk (p) e, para alguns valores
particulares de p e de k pode ser consultado na tabela que apresentamos de seguida.
O valor do quantil χk (p), para qualquer valor de k e de p, pode ser encontrado usando a
função INV.CHI do Excel(3 ). Concretamente, tem-se χk (p) = IN V.CHI(1−p; k). Por exemplo
χ9 (0, 97) = IN V.CHI(0, 03; 9) = 18.4796.
3
Ou CHI.INV em algumas versões do EXCEL.
42 Capı́tulo 1. Teoria das Probabilidades

Tabela de quantis da lei χ2k

χk (p)

V ∼ χ2k P (V ≤ χk (p)) = p

p
k↓ 0,999 0,995 0,99 0,98 0,975 0,95 0,05 0,025 0,02 0,01

1 10,82756 7,87944 6,63489 5,41189 5,02388 3,84146 0,00393 0,000982 0,00062 0,00016
2 13,81551 10,59663 9,21034 7,82404 7,37776 5,99146 0,10258 0,05063 0,04041 0,02010
3 16,26623 12,83815 11,34486 9,83741 9,34840 7,81472 0,35184 0,21579 0,18483 0,11483
4 18,46682 14,86025 13,27670 11,66784 11,14328 9,48773 0,71072 0,48441 0,42939 0,29711
5 20,51500 16,74960 15,08627 13,38822 12,83250 11,07049 1,14548 0,83121 0,75188 0,55429
6 22,45774 18,54758 16,81189 15,03321 14,44937 12,59158 1,63538 1,23734 1,13442 0,87209
7 24,32188 20,27774 18,47531 16,62242 16,01276 14,06714 2,16735 1,68987 1,56429 1,23904
8 26,12448 21,95495 20,09023 18,16823 17,53455 15,50731 2,73264 2,17973 2,03247 1,64649
9 27,87716 23,58935 21,66599 19,67902 19,02276 16,91897 3,32511 2,70038 2,53237 2,08790
10 29,58829 25,18818 23,20925 21,16076 20,48317 18,30703 3,94029 3,24697 3,05905 2,55821
11 31,26413 26,75685 24,72497 22,61794 21,92004 19,67513 4,57481 3,81575 3,60868 3,05348
12 32,90949 28,29951 26,21696 24,05395 23,33666 21,02607 5,22602 4,40379 4,17828 3,57057
13 34,52817 29,81947 27,68824 25,47150 24,73560 22,36203 5,89186 5,00875 4,76545 4,10692
14 36,12327 31,31935 29,14124 26,87276 26,11895 23,68479 6,57063 5,62873 5,36819 4,66043
15 37,69729 32,80132 30,57791 28,25949 27,48839 24,99579 7,26094 6,26214 5,98492 5,22935
16 39,25235 34,26719 31,99992 29,63317 28,84535 26,29622 7,96164 6,90766 6,61424 5,81221
17 40,79022 35,71847 33,40866 30,99505 30,19101 27,58711 8,67176 7,56418 7,25500 6,40776
18 42,31239 37,15645 34,80531 32,34616 31,52638 28,86929 9,39045 8,23075 7,90622 7,01491
19 43,82019 38,58226 36,19087 33,68742 32,85232 30,14352 10,11701 8,90652 8,56703 7,63272
20 45,31474 39,99685 37,56625 35,01963 34,16961 31,41043 10,85081 9,59077 9,23669 8,26039
21 46,79704 41,40106 38,93217 36,34344 35,47887 32,67057 11,59131 10,28289 9,91456 8,89719
22 48,26794 42,79565 40,28936 37,65949 36,78071 33,92444 12,33801 10,98232 10,60003 9,54249
23 49,72823 44,18127 41,63839 38,96831 38,07563 35,17246 13,09051 11,68855 11,29260 10,19571
24 51,17859 45,55851 42,97982 40,27036 39,36407 36,41503 13,84842 12,40115 11,99182 10,85636
25 52,61965 46,92789 44,31410 41,56607 40,64647 37,65249 14,61140 13,11972 12,69727 11,52397
26 54,05196 48,28988 45,64168 42,85583 41,92317 38,88513 15,37915 13,84391 13,40858 12,19814
27 55,47602 49,64491 46,96294 44,13999 43,19451 40,11327 16,15139 14,57338 14,12542 12,87850
28 56,89228 50,99337 48,27823 45,41884 44,46079 41,33713 16,92787 15,30786 14,84748 13,56470
29 58,30117 52,33562 49,58788 46,69269 45,72228 42,55697 17,70836 16,04707 15,57448 14,25645
30 59,70306 53,67196 50,89218 47,96180 46,97924 43,77297 18,49266 16,79077 16,30617 14,95345
31 61,09831 55,00270 52,19139 49,22639 48,23188 44,98534 19,28056 17,53873 17,04232 15,65545
32 62,48722 56,32811 53,48577 50,48670 49,48043 46,19425 20,07191 18,29076 17,78271 16,36221
33 63,87009 57,64844 54,77553 51,74292 50,72508 47,39988 20,86653 19,04666 18,52714 17,07351
34 65,24722 58,96392 56,06090 52,99524 51,96599 48,60236 21,66428 19,80625 19,27543 17,78915
35 66,61883 60,27477 57,34207 54,24383 53,20335 49,80185 22,46502 20,56938 20,02743 18,50893
1.3. Variáveis aleatórias e distribuições 43

p
k↓ 0,999 0,995 0,99 0,98 0,975 0,95 0,05 0,025 0,02 0,01

36 67,98517 61,58118 58,61921 55,48886 54,43729 50,99846 23,26861 21,33588 20,78295 19,23268
37 69,34645 62,88334 59,89250 56,73047 55,66797 52,19232 24,07494 22,10563 21,54185 19,96023
38 70,70289 64,18141 61,16209 57,96880 56,89552 53,38354 24,88390 22,87848 22,30401 20,69144
39 72,05466 65,47557 62,42812 59,20398 58,12006 54,57223 25,69539 23,65432 23,06929 21,42616
40 73,40196 66,76596 63,69074 60,43613 59,34171 55,75848 26,50930 24,43304 23,83757 22,16426
41 74,74494 68,05273 64,95007 61,66538 60,56057 56,94239 27,32555 25,21452 24,60875 22,90561
42 76,08376 69,33600 66,20624 62,89181 61,77676 58,12404 28,14405 25,99866 25,38271 23,65009
43 77,41858 70,61590 67,45935 64,11554 62,99036 59,30351 28,96472 26,78537 26,15935 24,39760
44 78,74952 71,89255 68,70951 65,33667 64,20146 60,48089 29,78748 27,57457 26,93859 25,14803
45 80,07673 73,16606 69,95683 66,55527 65,41016 61,65623 30,61226 28,36615 27,72034 25,90127
46 81,40033 74,43654 71,20140 67,77143 66,61653 62,82962 31,43900 29,16005 28,50450 26,65724
47 82,72042 75,70407 72,44331 68,98524 67,82065 64,00111 32,26762 29,95620 29,29101 27,41585
48 84,03713 76,96877 73,68264 70,19676 69,02259 65,17077 33,09808 30,75451 30,07979 28,17701
49 85,35056 78,23071 74,91947 71,40608 70,22241 66,33865 33,93031 31,55492 30,87076 28,94065
50 86,66082 79,48998 76,15389 72,61325 71,42020 67,50481 34,76425 32,35736 31,66386 29,70668
55 93,16753 85,74895 82,29212 78,61914 77,38047 73,31149 38,95803 36,39811 35,65921 33,57048
60 99,60723 91,95170 88,37942 84,57995 83,29768 79,08194 43,18796 40,48175 39,69942 37,48485
65 105,98814 98,10514 94,42208 90,50124 89,17715 84,82065 47,44958 44,60299 43,77900 41,44361
70 112,31693 104,21490 100,42518 96,38754 95,02318 90,53123 51,73928 48,75757 47,89345 45,44172
75 118,59909 110,28558 106,39292 102,24253 100,83934 96,21667 56,05407 52,94194 52,03909 49,47503
80 124,83922 116,32106 112,32879 108,06934 106,62857 101,87947 60,39148 57,15317 56,21285 53,54008
85 131,04120 122,32458 118,23575 113,87057 112,39337 107,52174 64,74940 61,38878 60,41211 57,63393
90 137,20835 128,29894 124,11632 119,64846 118,13589 113,14527 69,12603 65,64662 64,63466 61,75408
95 143,34354 134,24655 129,97268 125,40493 123,85797 118,75161 73,51984 69,92487 68,87857 65,89836
100 149,44925 140,16949 135,80672 131,14168 129,56120 124,34211 77,92947 74,22193 73,14218 70,06490

X - Distribuição de Student
Sejam U e V duas variáveis aleatórias independentes tais que U ∼ N (0, 1) e V ∼ Xk2 .
U
A variável aleatória T = p segue uma lei ou distribuição de Student com k graus de
V /k
liberdade que se denota por tm . Escreve-se T ∼ tk . A lei tk é contı́nua e simétrica em
relação à origem, para qualquer valor de k ∈ N. Na figura seguinte apresentamos o esboço
do gráfico da densidade de uma distribuição t30 . O quantil de probabilidade p da lei tk será

-2 -1 1 2

denotado por tk (p) e, para alguns valores particulares de p e de k pode ser consultado na
tabela seguinte. O valor do quantil tk (p), para quaisquer k e p, pode ser encontrado usando
a função INVT do Excel. Concretamente, tem-se tk (p) = IN V T (2(1 − p); m). Por exemplo,
t52 (0, 975) = IN V T (0, 05; 52) = 2.0066.
44 Capı́tulo 1. Teoria das Probabilidades

Tabela de quantis da lei tk

tk (p)

T ∼ tk P (T ≤ tk (p)) = p

p
k↓ 0,75 0,80 0,85 0,90 0,95 0,975 0,99 0,995 0,999

1 1,00000 1,37638 1,96261 3,07768 6,31374 12,70615 31,82096 63,65589 318,2888


2 0,81649 1,06065 1,38620 1,88561 2,91998 4,30265 6,96454 9,92498 22,32845
3 0,76489 0,97847 1,24977 1,63774 2,35333 3,18244 4,54070 5,84084 10,21428
4 0,74069 0,94096 1,18956 1,53320 2,13184 2,77645 3,74693 4,60408 7,17293
5 0,72668 0,91954 1,15576 1,47588 2,01504 2,57057 3,36493 4,03211 5,89352
6 0,71755 0,90570 1,13415 1,43975 1,94318 2,44691 3,14266 3,70742 5,20754
7 0,71114 0,89602 1,11915 1,41492 1,89457 2,36464 2,99796 3,49948 4,78525
8 0,70638 0,88889 1,10814 1,39681 1,85955 2,30600 2,89646 3,35538 4,50076
9 0,70272 0,88340 1,09971 1,38302 1,83311 2,26215 2,82143 3,24984 4,29688
10 0,69981 0,87905 1,09305 1,37218 1,81246 2,22813 2,76377 3,16926 4,14365
11 0,69744 0,87557 1,08766 1,36343 1,79588 2,20098 2,71807 3,10581 4,02476
12 0,69548 0,87260 1,08321 1,35621 1,78228 2,17881 2,68099 3,05453 3,92959
13 0,69382 0,87015 1,07946 1,35017 1,77093 2,16036 2,65030 3,01228 3,85203
14 0,69241 0,86805 1,07628 1,34503 1,76130 2,14478 2,62449 2,97684 3,78742
15 0,69119 0,86624 1,07353 1,34060 1,75305 2,13145 2,60248 2,94672 3,73285
16 0,69013 0,86466 1,07113 1,33675 1,74588 2,11990 2,58349 2,92078 3,68614
17 0,68919 0,86327 1,06903 1,33337 1,73960 2,10981 2,56693 2,89823 3,64576
18 0,68836 0,86204 1,06716 1,33038 1,73406 2,10092 2,55237 2,87844 3,61047
19 0,68762 0,86095 1,06550 1,32772 1,72913 2,09302 2,53948 2,86094 3,57933
20 0,68699 0,85996 1,06401 1,32534 1,72471 2,08596 2,52797 2,84533 3,55183
21 0,68637 0,85907 1,06266 1,32318 1,72074 2,07961 2,51764 2,83136 3,52709
22 0,68580 0,85826 1,06144 1,32123 1,71714 2,07387 2,50832 2,81876 3,50497
23 0,68530 0,85752 1,06033 1,31946 1,71387 2,06865 2,49987 2,80733 3,48496
24 0,68483 0,85685 1,05931 1,31783 1,71088 2,06389 2,49216 2,79695 3,46677
25 0,68443 0,85623 1,05838 1,31634 1,70814 2,05953 2,48510 2,78743 3,45018
26 0,68404 0,85566 1,05752 1,31497 1,70561 2,05553 2,47862 2,77872 3,43497
27 0,68368 0,85513 1,05672 1,31370 1,70328 2,05182 2,47266 2,77068 3,42100
28 0,68335 0,85464 1,05598 1,31255 1,70113 2,04840 2,46714 2,76326 3,40820
29 0,68304 0,8541 1,05530 1,31143 1,69912 2,04523 2,46202 2,75638 3,39627
30 0,68275 0,85376 1,05466 1,31041 1,69726 2,04227 2,45726 2,74998 3,38521
1.3. Variáveis aleatórias e distribuições 45

p
k↓ 0,75 0,80 0,85 0,90 0,95 0,975 0,99 0,995 0,999

31 0,68248 0,85336 1,05406 1,30946 1,69551 2,03951 2,45282 2,74403 3,37488


32 0,68223 0,85299 1,05350 1,30857 1,69388 2,03693 2,44867 2,73848 3,36527
33 0,68199 0,85264 1,05297 1,30773 1,69236 2,03451 2,44479 2,73328 3,35632
34 0,68177 0,85232 1,05248 1,30695 1,69092 2,03224 2,44114 2,72839 3,34795
35 0,68156 0,85201 1,05201 1,30621 1,68957 2,03011 2,43771 2,72380 3,34002
36 0,68136 0,85172 1,05158 1,30551 1,68829 2,02809 2,43449 2,71948 3,33260
37 0,68117 0,85144 1,05116 1,30485 1,68709 2,02619 2,43144 2,71540 3,32562
38 0,68100 0,85118 1,05077 1,30423 1,68595 2,02439 2,42856 2,71156 3,31900
39 0,68083 0,85093 1,05039 1,30363 1,68487 2,02268 2,42584 2,70791 3,31274
40 0,68067 0,85067 1,05004 1,30307 1,68385 2,02107 2,42325 2,70445 3,30692
41 0,68052 0,85047 1,04970 1,30254 1,68287 2,01957 2,42080 2,70118 3,30124
42 0,68037 0,85024 1,04938 1,30203 1,68195 2,01808 2,41847 2,69807 3,29593
43 0,68023 0,85006 1,04908 1,30155 1,68107 2,01669 2,41625 2,69510 3,29091
44 0,68010 0,84986 1,04879 1,30109 1,68023 2,01536 2,41413 2,69228 3,28611
45 0,67998 0,84968 1,04851 1,30065 1,67942 2,01410 2,41211 2,68959 3,28145
46 0,67986 0,84950 1,04824 1,30022 1,67865 2,01289 2,41018 2,68701 3,27709
47 0,67974 0,84933 1,04799 1,29982 1,67792 2,01173 2,40834 2,68455 3,27287
48 0,67963 0,84917 1,04775 1,29943 1,67722 2,01063 2,40657 2,68220 3,26894
49 0,67953 0,84907 1,04751 1,29906 1,67655 2,00957 2,40488 2,67995 3,26508
50 0,67942 0,84886 1,04729 1,29872 1,67590 2,00855 2,40323 2,67778 3,26137
55 0,67897 0,84820 1,04629 1,29713 1,67303 2,00404 2,39608 2,66822 3,24514
60 0,67860 0,84765 1,04546 1,29582 1,67064 2,00029 2,39011 2,66027 3,23168
65 0,67828 0,84718 1,04476 1,29471 1,66863 1,99713 2,38509 2,65361 3,22041
70 0,67801 0,84678 1,04416 1,29376 1,66691 1,99443 2,38080 2,64790 3,21080
75 0,67777 0,84644 1,04364 1,29294 1,66542 1,99210 2,37710 2,64299 3,20243
80 0,67756 0,84613 1,04319 1,29225 1,66412 1,99006 2,37387 2,63869 3,19523
85 0,67738 0,84587 1,04279 1,29159 1,66297 1,98826 2,37101 2,63491 3,18890
90 0,67722 0,84563 1,04244 1,29102 1,66196 1,98667 2,36849 2,63158 3,18323
95 0,67708 0,84542 1,04212 1,29052 1,66105 1,98524 2,36624 2,62858 3,17828
100 0,67695 0,84523 1,04183 1,29007 1,66023 1,98397 2,36421 2,62589 3,17377
46 Capı́tulo 1. Teoria das Probabilidades

1.4 Teorema Limite Central


Considere a variável aleatória que representa o intervalo de tempo entre duas falhas con-
secutivas de uma máquina. A distribuição desta variável aleatória pode ser conhecida ou não.
Suponha agora que, para um grupo de 50 falhas consecutivas, estamos interessados em conhecer
a probabilidade de que o tempo total que decorre entre a primeira e a quinquagésima falhas
seja superior a determinado valor t0 (valor de referência para o problema em estudo). Para
abordar este problema há que considerar as variáveis aleatórias X1 , X2 , · · · , X49 sendo Xi a
variável aleatória que representa a amplitude de tempo
P que decorre entre as falhas i e i + 1.
Uma vez que o referido tempo total é definido por 49 i=1 Xi pretendemos calcular
49
!
X
P Xi > t0 .
i=1

No caso em que aquelas variáveis aleatórias seguem uma lei normal e são independentes, a
estabilidade da lei normal dá resposta a esta questão. Por outro lado, não tendo as variáveis
X1 , X2 , · · · , X49 distribuição normal, ou no caso em que tal distribuição é desconhecida, um
resultado teórico que nos permita obter uma distribuição aproximada para a soma de variáveis
aleatórias será bastante útil.
Consideremos agora um exemplo mais “académico”. Se realizarmos 100 lançamentos de um
dado equilibrado com as faces numeradas de 1 a 6, qual a probabilidade de que a proporção de
faces 2 seja superior a 0.3? Para responder a esta pergunta consideramos, para cada lançamento,
uma variável aleatória de Bernoulli de parâmetro 1/6. Temos assim 100 variáveis aleatórias
independentes e estamos interessados em calcular
100 100
! !
1 X X
P Xi > 0.3 = P Xi > 30 .
100
i=1 i=1

Mais uma vez teremos de conhecer P100a distribuição da soma de variáveis aleatórias independentes.
1
Embora neste caso particular i=1 Xi ∼ B(100, 6 ) os cálculos são bastante extensos. É mais
uma vez desejável obter uma aproximação para a distribuição da soma de variáveis aleatórias
independentes.
O Teorema Limite Central, que expomos de seguida, dá resposta a esta questão desde que
as variáveis intervenientes na soma, para além de independentes, tenham a mesma distribuição
de variância finita, seja tal distribuição conhecida ou não.

Teorema 1.4.1. ( Teorema Limite Central ) Sejam X1 , X2 , ..., Xn variáveis alea-


tórias independentes e todas com a mesma distribuição. Se E(X1 ) = m e V ar(X1 ) = σ 2
então  Pn 
Xi − nm
i=1√
lim P ≤ x = P (Z ≤ x), ∀x ∈ IR,
n→+∞ nσ
onde Z ∼ N (0, 1).
Pn
Xi − nm ·
i=1√
Observação 1.4.1. Nas condições do teorema escrevemos ∼ N (0, 1) ou,

Pn · ·
equivalentemente, i=1 Xi ∼ N (nm, nσ 2 ), onde o sı́mbolo ∼ se lê “segue assintoticamente a
distribuição”.
1.4. Teorema Limite Central 47

De acordo com o teorema anterior, podemos concluir que a soma de variáveis aleatórias
independentes e igualmente distribuı́das admitindo variância finita σ 2 e média m tem uma
função de distribuição que, para um número de parcelas suficientemente grande, pode ser
aproximada pela função de distribuição da lei N (nm, nσ 2 ).

Exemplo 1.4.1. Uma ponte foi projectada para suportar uma sobrecarga total de
1500 KN. Suponhamos que a variável aleatória que representa o peso de um automóvel
tem média 15 KN e desvio padrão 1.5 KN. Pretendemos determinar o número máximo de
automóveis que a ponte poderá suportar de modo que a probabilidade de serem causados
danos na sua estrutura não exceda 0.01.
Ora, considerando as variáveis X1 , X2 , · · · , Xn que representam o peso dos diferentes
n automóveis que a ponte pode suportar naquelas condições, e admitindo que estas podem
ser consideradas independentes, pelo Teorema Limite Central, podemos afirmar que
Pn
i=1 X√i − 15n ·
∼ N (0, 1).
1.5 n

De acordoPcom o que foi exposto pretendemos determinar o maior valor de n para o qual
se tem P ( ni=1 Xi > 1500) ≤ 0.01.
Uma vez que
n
!  Pn 
i − 15n
i=1 X√ 1500 − 15n
X
P Xi > 1500 = P > √ ,
1.5 n 1.5 n
i=1

usando a aproximação decorrente


 do Teorema
 Limite Central, vamos determinar o maior
1500−15n
valor de n que verifica P Z > 1.5√n ≤ 0, 01, onde Z ∼ N (0, 1). Consultando a tabela
da lei normal apresentada acima concluı́mos que 1500−15n

1.5 n
≥ 2.33 o que equivale a n ≤ 97.
Assim, para um número de automóveis sobre a ponte superior a 97, o risco desta sofrer
danos estruturais é superior a 1%.

Exemplo 1.4.2. Numa praça de determinada cidade estão habitualmente estacionados


automóveis em transgressão. Todos os dias a polı́cia multa automóveis estacionados em
transgressão, deixando uma notificação no pára-brisas. A probabilidade de um automóvel
estacionado em trangressão ser multado é de 0.9. O número de pessoas que, por dia, se
apresenta na esquadra para pagar a multa é uma variável aleatória de média e variância
iguais a 10. Se cada multa for de 20 euros e a esquadra estiver aberta 225 dias por ano,
qual a probabilidade de a receita anual com multas daquele tipo ultrapassar 47 mil euros?
Para responder a esta questão há que calcular a probabilidade de que o número total de
multas pagas em 225 dias seja superior a 2350. Para tal, consideremos as v.a’s

Xi = número de multas pagas no dia i

para i ∈ {1, 2, ..., 225}. Sabemos que E(Xi ) = 10, V ar(Xi ) = 10 e obviamente, que a v.a.
48 Capı́tulo 1. Teoria das Probabilidades

225
X
T = Xi representa o total de multas pagas em 225 dias. Admitindo a independência
i=1
daquelas 225 v.a’s, podemos afirmar, usando o Teorema Limite Central, que
P225
i=1√Xi − 2250 ·
∼ N (0, 1).(a )
2250
Assim
225
! P225 !
X
i=1√X i − 2250 2350 − 2250
P (T > 2350) = P Xi > 2350 =P > √
i=1
2250 2250
 
' P Z> √100 ' P (Z > 2.11) = 1 − FZ (2.11) = 0.01743,
2250

onde Z ∼ N (0, 1).


a ·
Depois de fixar o valor de n, como acontece neste exemplo, o sı́mbolo ∼ não se lê “segue assintoticamente
a distribuição”, mas sim “segue aproximadamente a distribuição”. Entendemos que, neste contexto, não
se justifica o uso de dois sı́mbolos distintos.

Relativamente à soma de variáveis aleatórias independentes já estudámos quatro casos


distintos. A saber:
• a soma de n variáveis aleatórias independentes com distribuição B(p) tem distribuição
B(n, p);
• a soma de n variáveis aleatórias independentes com distribuição de Poisson tem também
distribuição de Poisson com média igual à soma das médias (estabilidade da distribuição de
Poisson);
• a soma de n variáveis aleatórias normais independentes tem distribuição normal com
média igual à soma das médias e variância igual à soma das variâncias (estabilidade da distri-
buição normal);
• a soma de n variáveis aleatórias independentes com a mesma distribuição, de variância
finita σ 2 e média m, tem distribuição aproximadamente normal com média igual a nm e
variância igual a nσ 2 (Teorema Limite Central).

Observemos agora que, conciliando a primeira e a quarta destas conclusões podemos afirmar
que
• a função de distribuição da lei B(r, p), para r suficientemente grande, pode ser apro-
ximada pela função de distribuição da lei N (rp, rp(1 − p)).
Muitos autores afirmam que esta aproximação deve ser considerada apenas para p perten-
cente ao intervalo ]0.1, 0.9[.

Analogamente, uma vez que a soma de n variáveis aleatórias independentes com distribuição
P(λ) segue a lei P(nλ), concluı́mos, usando de novo o Teorema Limite Central, que
• a função de distribuição da lei P(nλ) pode ser aproximada, para n suficientemente
grande, pela função de distribuição da lei N (nλ, nλ).
1.4. Teorema Limite Central 49

Exemplo 1.4.3. O número de acessos, por dia, a um determinado site de internet


é uma v.a. real N com distribuição de Poisson de média 9.5. Suponha que os acessos ao
site se processam de forma independente. Comecemos por calcular a probabilidade de o
número total de acessos em 950 dias ser superior a 8900.
Consideremos 950 réplicas de N , ou seja, para i ∈ {1, 2, ..., 950}, consideremos a v.a
Ni que representa o número de acessos ao site no dia i. Sabemos que Ni ∼ P(9.5). Ora,
950
X
a v.a. Ni representa o número total de acessos ao site em 950 dias. Uma vez que as
i=1
v.a’s N1 , N2 , ..., N950 são independentes e identicamente distribuı́das, pelo Teorema Limite
Central, podemos concluir que
950
X
Ni − 950 × 9.5
i=1 ·
√ ∼ N (0, 1),
950 × 9.5
950
·
X
ou, escrito de outra forma, Ni ∼ N (9025, 9025). Então
i=1

950 950
! ! !
X X
1 8900−9025
P Ni > 8900 = P 95 Ni − 9025 > 95
i=1 i=1
' P (Z > −1.32) = P (Z ≤ 1.32) = 0.90658,

onde Z ∼ N (0, 1).


Sabendo que P (N > 12) = 0.164, calculemos agora a probabilidade de, em 320 dias,
se observarem pelo menos 85 dias com mais de 12 acessos. Denotemos por Y a v.a. que
representa o número de dias, em 320, em que se registaram mais de 12 acessos ao site.
Uma vez que os acessos se processam de forma independente, temos 320 experiências de
Bernoulli em que o sucesso é o acontecimento {N > 12}. Como se tem P (N > 12) = 0.164,
320
X
concluı́mos que Y ∼ B(320, 0.164). Por outro lado, Y = Yi , onde Yi segue uma lei de
i=1
Bernoulli de parâmetro 0.164. Então, pelo Teorema Limite Central, podemos afirmar que
320
X
Yi − 320 × 0.164
·
√i=1 ∼ N (0, 1),
320 × 0.164 × 0.836
50 Capı́tulo 1. Teoria das Probabilidades

onde Z ∼ N (0, 1). Assim


 320 
X
 Yi − 320 × 0.164 
 i=1
√ 85−320×0.164 

P (Y ≥ 85) = P 
 √320×0.164×0.836 ≥ 320×0.164×0.836 
 

' P (Z ≥ 2.2) = 1 − P (Z < 2.2) = 1 − 0.9861 = 0.0139.

Exercı́cio 1.4.1. Os registos dos jogos do campeonato europeu de futebol, desde 1984,
permitiram concluir que a variável aleatória que representa o número de golos por jogo (em
tempo regulamentar) tem média 1.8 e desvio padrão 1.1. Admitindo a independência entre o
número de golos em jogos diferentes, determine a probabilidade de se marcarem pelo menos 50
golos em 51 jogos do Euro 2024.

Exercı́cio 1.4.2. Uma refinaria de petróleo possui, num dos parques de abastecimento, um
equipamento recentemente renovado que lhe permite encher, por mês, uma média de 280 tanques
com um desvio padrão de 18 tanques. Admitindo a independência entre os abastecimentos
mensais, calcule uma aproximação para a probabilidade de, em três anos, este equipamento
encher menos de 10400 tanques.

Exercı́cio 1.4.3. As quantidades mensais (em toneladas) de matéria recolhida para reci-
clar, em determinada região, são representadas por variáveis aleatórias que podem ser consi-
deradas independentes e identicamente distribuı́das de média 10 e desvio padrão 2. Determine
uma aproximação para a probabilidade de que o total de matéria recolhida, em três anos, seja
superior a 380 toneladas.

Exercı́cio 1.4.4. O serviço de manutenção de um prédio é obrigado a substituir uma


lâmpada num dispositivo de iluminação. O tempo que dura cada lâmpada é em média de 2
semanas apresentando um desvio padrão de 3 dias. Se se adquirirem 40 lâmpadas, qual a
probabilidade de esse stock durar mais de 2 anos?

Exercı́cio 1.4.5. Um posto de transformação permite uma carga total de 2800 KW.
Sabe-se que este posto de transformação alimenta uma fábrica com um consumo permanente
de 2500 KW. Por outro lado, alimenta 100 consumidores domésticos. Em electrodomésticos,
cada um gasta em média 2KW com desvio padrão de 0.5KW e, em iluminação, gasta em
média 0.5KW com desvio padrão de 0.25KW. Admitindo a independência destes dois tipos de
consumo, calcule a probabilidade de o transformador disparar por excesso de carga.

Exercı́cio 1.4.6. O tempo de reparação, em horas, de determinado tipo de dispositivos


eletrónicos é uma variável aleatória de valor médio 1 e desvio padrão 0.4. Calcule a proba-
bilidade de o tempo total de reparação de 54 das referidas avarias, com tempos de reparação
independentes, ser inferior a 48 horas.
Capı́tulo 2

Análise exploratória de dados

Se temos tudo sob controlo,


significa que não estamos a caminhar suficientemente rápido.

2.1 Introdução
Perante uma amostra como a que apresentamos a seguir:

0.367, 2.169, 2.268, 1.649, 2.347, 2.335, 1.546, 0.378, 1.608, 0.121, 1.875, 0.212, 0.367, 1.162,
1.328, 1.053, 1.578, 0.613, 2.340, 2.119, 0.928, 1.750, 1.266, 1.799, 0.710, 0.354, 1.459, 2.224,
2.036, 1.333, 2.197, 2.293, 0.601, 0.522, 2.167, 1.874, 2.042, 0.677, 0.448, 0.073, 0.969, 0.840,
0.615, 0.579, 0.135, 1.389, 1.621, 0.413, 1.857, 2.075,

podemos colocar as questões seguintes.

• Como tratar um conjunto de dados como estes?

• O que “confessam” estes dados?

• Qual a distribuição da variável aleatória que lhes está subjacente?

♣♦♥♠

Ao longo deste capı́tulo apresentamos os conceitos fundamentais da Estatı́stica Descritiva,


que é um ramo da Estatı́stica que contém os métodos adequados para organizar, resumir e
interpretar a informação contida na amostra.
Já definimos atrás população como um conjunto de indivı́duos com caracterı́sticas comuns
que interessa estudar e amostra como um subconjunto de elementos extraı́dos da população.
Por outro lado, também sabemos que qualquer estudo estatı́stico envolve a análise de um
conjunto de dados estatı́sticos usando para tal metodologias matemáticas adequadas a cada tipo
de variável e, em muitos casos, à dimensão da amostra. O que designamos por indivı́duo de uma
população pode ser uma pessoa, um objecto, um animal, um edifı́cio, uma empresa, um valor

51
52 Capı́tulo 2. Análise exploratória de dados

da temperatura em determinado local, um agregado familiar, etc. Sobre os indivı́duos de uma


dada população, podemos observar um ou mais atributos ou caracterı́sticas, os quais, por sua
vez, apresentam várias modalidades mutuamente exclusivas. Por exemplo, se considerarmos
a população dos estudantes da Universidade de Coimbra são atributos com interesse para
certos estudos estatı́sticos, a idade, o estado civil, o sexo, o número de irmãos, o número de
disciplinas em que já obtiveram aprovação, a média das classificações obtidas em tais disciplinas,
o gasto médio mensal com os estudos, etc. Enquanto as modalidades do atributo idade são os
números reais de um certo intervalo, as modalidades do atributo sexo são apenas masculino e
feminino. A mensurabilidade associada ou não a um dado atributo conduz à sua classificação
em quantitativos e qualitativos, respectivamente. Na verdade, são atributos quantitativos
aqueles que assumem valores numéricos com os quais faz sentido efectuar operações aritméticas.
Em contrapartida, são atributos qualitativos aqueles cujas modalidades são categorias não
mensuráveis. No exemplo acima, são atributos quantitativos a idade, o número de irmãos,
o número de disciplinas em que já obtiveram aprovação, a média de tais disciplinas, o gasto
médio mensal com os estudos e são atributos qualitativos o estado civil e o sexo.
Acrescenta-se que os atributos qualitativos se dividem ainda em nominais e ordinais. No-
minais são os exemplos acima e ordinais são os que se podem ordenar, embora numa escala
não numérica; como por exemplo as classificações numa prova: Bom, muito bom e medı́ocre.

Em muitas situações estamos interessados em estudar vários atributos em simultâneo, sendo


relevante o grau de depedência ou associação entre eles.
Neste curso analisamos atributos populacionais unidimensionais e bidimensionais.

Uma observação mais cuidada dos exemplos acima permite-nos concluir que os atributos
quantitativos não são todos do mesmo tipo. Por exemplo, a idade de um aluno assume valo-
res num intervalo e o número de irmãos assume valores num conjunto finito. À semelhança
da distinção que apresentámos entre variável aleatória discreta e variável aleatória contı́nua,
também definimos como atributo discreto aquele cujas modalidades pertencem a um conjunto
finito ou infinito numerável e como atributo contı́nuo aquele cujas modalidades pertencem a
um intervalo.
Damos o nome de variável estatı́stica, que denotamos por X ∗ , à função que a cada elemento
da amostra faz corresponder a modalidade do atributo que estamos a estudar. Naturalmente,
uma variável estatı́stica quantitativa diz-se discreta ou contı́nua se o atributo que lhe está
associado é discreto ou contı́nuo, respectivamente.

Em qualquer estudo estatı́stico, os métodos de recolha de dados (ou técnicas de amostragem)


devem ser muito bem especificadas e bem conhecidas pelo investigador, uma vez que estas
condicionam as decisões estatı́sticas finais. Para proceder à recolha de dados existem métodos
probabilistas e métodos não probabilistas.
Nos métodos probabilistas qualquer elemento da população pode ser incluı́do na amostra e
é conhecida a probabilidade de tal acontecer. Por outro lado, nos métodos não probabilistas a
amostra é selecionada em função da disponibilidade e acessibilidade dos elementos da população
ou da opinião de um conjunto de conhecedores das caracterı́sticas da população. Por exemplo,
quando se estuda a aceitação de um produto que se encontra à venda no mercado. Neste
caso a amostra é constituı́da pelos indivı́duos que aceitaram responder, não sendo, por isso,
completamente aleatória. Assim sendo a representatividade desta amostra é colocada em causa.
2.2. Variáveis estatı́sticas quantitativas unidimensionais 53

Voltemos aos métodos probabilistas. Estes incluem várias formas de amostragem, entre
as quais destacamos a amostragem aleatória e a amostragem estratificada. Na amostragem
aleatória todos os elementos da população têm a mesma probabilidade de ser incluı́dos na
amostra, sendo cada um resultado de uma selecção aleatória sem reposição. Na amostragem
estratificada começamos por dividir a população em estratos disjuntos e homogéneos, seleci-
onando depois, em cada estrato, uma amostra aleatória simples de dimensão proporcional à
dimensão do estrato. A amostra completa resulta da união de todas estas sub-amostras.

2.2 Variáveis estatı́sticas quantitativas unidimensionais


2.2.1 Variáveis discretas
Dada uma amostra de dimensão n extraı́da de uma população representemos por x1 , x2 , ..., xn
os valores correspondentes assumidos pela variável estatı́stica X ∗ em estudo.

Observação 2.2.1. No contexto em que estes textos se inserem passaremos a chamar


amostra observada (ou apenas amostra) ao vector (x1 , x2 , ..., xn ).

Atendendo a que uma variável estatı́stica X ∗ tem associada uma variável aleatória X,
uma amostra observada (x1 , x2 , ..., xn ) não é mais que um valor observado de um vector
(X1 , X2 , ..., Xn ), constituı́do por variáveis independentes e todas com a lei de X, a que chama-
remos adiante amostra aleatória de X.
Suponhamos que x∗1 , x∗2 , ..., x∗k são os k elementos distintos da amostra observada inicial
(x1 , x2 , ..., xn ), com k ≤ n, tendo-se

x∗1 < x∗2 < · · · < x∗k .

k
X
Representemos por ni a frequência absoluta do valor x∗i , para a qual se tem ni = n, e
i=1
Xk
ni
representemos por fi = n a frequência relativa simples de x∗i , para o que se tem fi = 1.
i=1
Na presença de uma variável estatı́stica discreta começamos o seu tratamento estatı́stico
pela construção de um gráfico a que damos o nome de diagrama de barras. Trata-se de um
gráfico de barras verticais que unem os pontos de coordenadas (x∗i , 0) e (x∗i , fi ), para i =
1, · · · , k, como o que apresentamos a seguir.

f3

fk
f2
f1

x∗1 x∗2 x∗3 ··· x∗k−1 x∗k


54 Capı́tulo 2. Análise exploratória de dados

Damos o nome de função cumulativa ou função de frequências acumuladas à função


F ∗ : IR −→ X[0, 1]
x −→ fi
x∗i ≤x
A F ∗ (x∗j )
= f1 + f2 + · · · + fj , que também denotamos por Fj , chamamos frequência relativa
acumulada de x∗j .
Passamos a apresentar o esboço do gráfico da função cumulativa.

F∗
1

0
x∗1 x∗2 x∗3 ··· x∗k−1 x∗k

Com o objectivo de proceder à inferência dos parâmetros desconhecidos da distribuição da


variável aleatória em estudo vamos estudar as caracterı́sticas numéricas relativas à variável es-
tatı́stica associada. Neste contexto podemos falar genericamente de caracterı́sticas ou medidas
de localização e de dispersão.
A média da amostra que se denota por x e define por
n k
1X X
x= xi = fi x∗i
n
i=1 i=1
é uma medida de localização e de tendência central da amostra observada.
A moda da amostra é outra caracterı́stica de localização dos dados que se define como sendo
um valor da variável estatı́stica onde a frequência (relativa ou absoluta) atinge um máximo
local. Doutro modo, o valor x∗i é uma moda da amostra se fi ≥ fi−1 e fi ≥ fi+1 , onde
se considera f0 = 0 e fk+1 = 0. As variáveis estatı́sticas podem ser unimodais, bimodais,
trimodais, etc. Sempre que apresentem mais que duas modas são designadas multimodais.
A outra medida de localização que, à semelhança da média, é uma medida de tendência
central é a mediana. A mediana de uma variável estatı́stica (ou da amostra) é o valor real (não
necessariamente um dos elementos da amostra) que divide a amostra em “duas partes iguais”.
Concretamente, a mediana é um valor real que denotamos por med e que verifica
1 1
lim F ∗ (x) ≤ e lim F ∗ (x) ≡ F (med) ≥ .
x→med− 2 x→med+ 2
Retomemos a amostra inicial e denotemos por xi:n o i-ésimo elemento da amostra ordenada,
tendo-se assim
x1:n ≤ · · · ≤ xi:n ≤ · · · xn:n
2.2. Variáveis estatı́sticas quantitativas unidimensionais 55

No caso em que a dimensão da amostra é par, qualquer elemento do intervalo [x n2 :n , x n2 +1:n ]


verifica as desigualdades anteriores que definem a mediana. Assim sendo, neste caso, considera-
se que a mediana da amostra é o ponto médio entre os dois extremos deste intervalo. Em resumo
x :n + x n2 +1:n
 n
 2 se n par


2
med = .

 x n+1

se n ı́mpar
2
:n

A média, a moda e a mediana são medidas de localização.


Notemos que a simetria estrita é uma caracterı́stica rara de obter numa amostra, podendo
acontecer, contudo, que a moda, a média e a mediana apresentem valores muito próximos.
A média de uma amostra, apesar de ser quase sempre o primeiro valor a determinar, é muito
“sensı́vel” à presença de valores muito elevados ou de valores muito reduzidos em relação aos
valores tı́picos dessa amostra. Por exemplo, a amostra

(1, 2, 2, 2, 3, 3, 4, 4, 4, 5, 6, 18)

tem média igual a 4.5 enquanto a média dos valores 1, 2, 2, 2, 3, 3, 4, 4, 4, 5, 6 é exactamente


3.2727(27). Esta falta de robustez da média amostral é de certa forma contornada com o
cálculo da mediana que é, de acordo com a sua definição, um parâmetro amostral de tendência
central bastante robusto à existência de valores muito distintos dos restantes.

Outras medidas de localização da amostra que nos interessa estudar são os quantis de ordem
p da amostra, com p ∈ ]0, 1[. Perante uma amostra, damos o nome de quantil de ordem p,
com p ∈ ]0, 1[, ao valor real, não necessariamente pertencente à amostra, que denotamos por
q(p) e que verifica

lim F ∗ (x) ≤ p e lim F ∗ (x) = F ∗ (q(p)) ≥ p.


x→q(p)− x→q(p)+

Em particular obtemos os três quartis da amostra, que denotamos por q1 , q2 e q3 , fazendo


p = 1/4, p = 1/2 e p = 3/4. Assim, os três quartis dividem a amostra em “quatro partes
iguais”, ou seja, são números reais caracterizados pelo facto de 25%, 50% e 75% das observações,
respectivamente, serem menores ou iguais a eles. De acordo com a definição que já conhecemos
para a mediana concluı́mos imediatamente que a mediana coincide com o segundo quartil.
Na prática, atendendo a que o primeiro e o terceiro quartil são, grosso modo, a mediana da
“primeira”e da “segunda”“metade”da amostra, respectivamente, para determinar estes quartis
há que considerar isoladamente a primeira e a segunda “metade”da amostra ordenada e calcular
a mediana de cada uma delas. Concretamente, se a dimensão da amostra inicial é par esta
divisão é trivial e no caso em que tal dimensão é ı́mpar incluı́mos a mediana (mais precisamente
a observação x n+1 :n ) em cada uma das sub-amostras consideradas.
2

Exemplo 2.2.1. Relativamente à amostra observada (2, 2, 3, 4, 5, 5, 5, 5, 6) tem-se q1 =


3, med = 5 e q3 = 5. Relativamente à amostra (1, 2, 2, 3, 4, 4, 5, 6, 6, 6, 7, 7) tem-se q1 = 2.5,
med = 4.5 e q3 = 6.
56 Capı́tulo 2. Análise exploratória de dados

Observação 2.2.2. Realçamos aqui o facto, de certa forma incómodo para o leitor, de
que estamos a usar várias notações diferentes para a mesma entidade. Por exemplo a mediana
da amostra é denotada por q(1/2), med e q2 .

Seguindo outros autores, apresentamos a seguir uma fórmula de cálculo simples e alternativa
ao que expusémos acima para q1 e q3 :


 x 3n se 3n/4 inteiro

 x n4 :n se n/4 inteiro 
4
:n
q1 = q3 = .
x[ n4 +1]:n se não  x 3n se não
 
[ +1]:n
4

De uso bastante generalizado são os percentis Pi = qi/100 , i ∈ {1, 2, ..., 99}, os quais dividem
a distribuição da amostra em 100 partes iguais (ou pelo menos com sensivelmente o mesmo
número de observações), desde que o número de observações seja suficiente para tornar este
conceito possı́vel.
À semelhança do que foi exposto para as variáveis aleatórias, iremos apresentar algumas
medidas de dispersão dos dados que constituem a amostra. Na verdade, a moda, a média e a
mediana, quando observadas isoladamente, não nos permitem tirar conclusões precisas acerca
da concentração dos valores que constituem a amostra. Todavia, a posição dos três quartis
em relação ao máximo e ao mı́nimo amostrais e a amplitude entre o primeiro e o terceiro
quartis, onde se concentram 50% dos dados, fornecem-nos indicação bastante completa sobre
a dispersão dos valores amostrais.
As medidas de dispersão que consideramos são a amplitude amostral An = xn:n − x1:n ,
a amplitude interquartis AIQ = q3 − q1 e a variância e o desvio padrão amostrais que
definiremos adiante.
O diagrama de extremos e quartis (ou caixa com bigodes) é um gráfico com o qual se
pretende ilustrar a variabilidade dos elementos da amostra em torno da mediana. Este diagrama
é naturalmente utilizado para evidenciar tendências assimétricas na distribuição dos dados. Por
exemplo, se a mediana, o terceiro quartil e o máximo estão relativamente próximos, quando
comparados com as amplitudes entre a mediana e o primeiro quartil e entre este e o mı́nimo
amostral, teremos uma amostra que evidencia assimetria negativa.
Na figura seguinte apresentamos um esboço de um diagrama de extremos e quartis.

max
q3
med

q1

min

Uma outra forma de estudar a variabilidade dos elementos amostrais consiste em avaliar a
dispersão com que estes se situam em relação à média da amostra. Este propósito consegue-se
considerando inicialmente o quadrado dos desvios entre a média e cada um dos valores da
2.2. Variáveis estatı́sticas quantitativas unidimensionais 57

amostra e calculando posteriormente a média de tais quadrados. A variância da amostra é


uma versão modificada de tal média de quadrados que se define por
n n
1 X 1 X 2 n
s2n
= (xi − x)2 = xi − (x)2 .
n−1 n−1 n−1
i=1 i=1
p
Chamamos desvio padrão da amostra a sn = s2n .
Em algumas aplicações poderemos usar as seguintes aproximações para o desvio padrão:
xn:n − x1:n q3 − q1
sn ∼ e sn ∼
4 1.349
Uma medida que permite caracterizar a assimetria (ou a simetria) de uma amostra é o
coeficiente de assimetria definido por:
n
1 X
g= 3 (xi − x)3 .
nsn
i=1

O valor g = 0 corresponde à simetria da distribuição da amostra, sendo que os valores g < 0


e g > 0 correspondem a assimetria negativa e positiva respetivamente, isto é, concentração de
observações em posições mais elevadas (menos elevadas).
Mais, x ' med, x < med e x > med dão evidência a simetria, assimetria negativa e
assimetria positiva, respetivamente.
Por fim, para variáveis positivas, definimos o coeficiente de variação relativa CV = sn /x.
Por exemplo, CV = 0.1 significa que os desvios das observações em relação à média atingem
10% do valor desta.

Muitas distribuições amostrais apresentam valores muito superiores ou muito inferiores


quando comparados com a concentração dos restantes. São, por isso, designados valores
aberrantes ou outliers. Uma observação x é um outlier se verificar

x < q1 − 1.5 × AIQ ou x > q3 + 1.5 × AIQ.

Se a discrepância for ainda maior verficando-se

x < q1 − 3 × AIQ ou x > q3 + 3 × AIQ

ou outlier diz-se severo, ficando para os restantes a designação de outlier moderado.

2.2.2 Variáveis contı́nuas


Suponhamos que a variável estatı́stica X ∗ assume valores no intervalo [a0 , ak ], isto é, todos
os elementos da amostra estão compreendidos entre a0 e ak , e admitamos que

A1 := [a0 , a1 ], A2 :=]a1 , a2 ], · · · , Ak :=]ak−1 , ak ]

é uma partição adequada daquele intervalo. Devemos observar que a escolha desta partição,
incluindo a amplitude de cada uma destas classes, está muitas vezes relacionada com a natureza
do fenómeno que se está a estudar. Por exemplo, é comum considerar classes de amplitudes
58 Capı́tulo 2. Análise exploratória de dados

diferentes em estudos de hierarquias profissionais, rendimentos percapita ou mesmo distribuições


de idades.
Para cada uma das classes A1 , · · · , Ak também se definem as frequências relativa e absoluta,
similarmente ao que foi exposto para variáveis estatı́sticas discretas. Concretamente, damos
o nome de frequência absoluta da classe Ai , que denotamos por ni , ao número de elementos
Xk
da amostra que pertencem a Ai , para i = 1, · · · , k. Tem-se obviamente ni = n, onde n
i=1
representa mais uma vez a dimensão da amostra. A frequência relativa simples da classe Ai é
i
X
definida por fi = nni e a frequência relativa acumulada por Fi = fj .
j=1
Depois de conhecermos os valores das frequências de cada uma das classes, há que obter re-
presentações gráficas que nos permitam inferir sobre a distribuição de probabilidade da variável
aleatória subjacente aos dados de que dispomos. As representações gráficas a que nos referimos
são usualmente designadas em Estatı́stica histograma e polı́gono de frequências.
Para construir um histograma respeitante a uma determinada amostra de dimensão n,
começamos por dividir os elementos desta amostra em classes (intervalos reais) disjuntas e
que constituam uma partição do intervalo inicial onde se situa a amostra. Este procedimento
permite gerar uma variável estatı́stica contı́nua.
No presente curso consideramos apenas classes de igual amplitude dada por
3.5 sn
hn ∼ 1/3 .
n
Esta restrição conduz quase sempre a um número de classes cuja união tem uma amplitude
superior à amplitude total da amostra, o que significa que o extremo inferior da primeira classe
pode não ser o mı́nimo amostral, assim como o extremo superior da última classe pode ser ou
não o máximo amostral. Representemos tais classes por
A1 := [a0 , a1 ], A2 :=]a1 , a2 ], · · · , Ak :=]ak−1 , ak ].
Seguidamente marcamos os valores a0 , a1 , a2 · · · , ak−1 , ak no eixo das abcissas de um sistema
de eixos coordenados e marcamos os valores hfni (ou apenas fi ) no eixo das ordenadas, para
i = 1, 2, · · · , k. O histograma consiste no conjunto dos k rectângulos justapostos de base hn e
alturas hfn1 , · · · , hfkn .
O polı́gono de frequências é uma linha poligonal que se constrói unindo os pontos de coor-
denadas ( ai +a2 i−1 , hfni ), para i = 1, · · · , k. Podemos acrescentar o segmento que une os pontos
(a0 − h2n , 0) e (a0 + h2n , f1 ) e o segmento que une os pontos (ak − h2n , fk ) e (ak + h2n , 0).
Apresentamos de seguida um exemplo de um histograma associado ao respectivo polı́gono
de frequências.
9
40
7
40

4
40
2
40

0 1 2 3 4 5 6 7 8
2.2. Variáveis estatı́sticas quantitativas unidimensionais 59

De acordo com a definição que apresentámos de função densidade de probabilidade e aten-


dendo à definição de integral definido, podemos concluir que, quando a “a dimensão da amostra
tende para a dimensão da população”e, concomitantemente, a amplitude de cada classe tende
para zero, o polı́gono de frequências “dá lugar”ao gráfico de uma densidade. Por outras pala-
vras, podemos afirmar que quando a dimensão da amostra é suficientemente grande o polı́gono
de frequências é uma “boa aproximação”da densidade de probabilidade da variável aleatória
contı́nua subjacente à referida amostra.
Nos casos em que temos histogramas como o apresentado acima evidenciando simetria e
com um polı́gono de frequências associado com uma “configuração relativamente próxima”
da densidade da lei normal, podemos começar por ajustar uma distribuição normal à variável
aleatória em estudo. Ainda assim, podemos vir a rejeitar tal hipótese como veremos no capı́tulo
três.
Se, por outro lado, a amostra da variável aleatória em estudo gerar um histograma como o
que apresentamos a seguir, será razoável começar por ajustar uma distribuição uniforme sobre
um certo intervalo a tal variável aleatória.

Nas circunstâncias em que dispomos de uma amostra a partir da qual construı́mos um


histograma como o que apresentamos seguidamente, deveremos começar por ajustar uma dis-
tribuição exponencial à variável aleatória subjacente a esses dados.

2 4 6 8 10 14

Um outro exemplo que apresentamos é o do histograma seguinte.


60 Capı́tulo 2. Análise exploratória de dados

0 1

Face a um conjunto de dados a partir do qual foi possı́vel construir o histograma acima
podemos começar por admitir que a função densidade da variável aleatória em estudo é da
forma:  θ−1
θt se t ∈ [0, 1]
f (t) = ,
0 se t 6∈ [0, 1]
onde θ é um parâmetro real superior a 1, desconhecido.
A função cumulativa associada a uma variável estatı́stica contı́nua é uma função real de
variável real F ∗ : IR → [0, 1] com expressão analı́tica:


 0 se x < a0



x−a0

 f1 a1 −a0 se a0 ≤ x < a1







x−a1
se a1 ≤ x < a2

 F1 + f2 a2 −a1



F (x) =
... ...







 x−a
Fk−1 + fk ak −ak−1 se ak−1 ≤ x < ak



k−1






se x ≥ ak

1

Ao seu gráfico damos o nome de curva cumulativa. Apresentamos seguidamente um exemplo


de uma curva cumulativa.

F∗
1
7/8

5/8

7/16
3/8

1/8

−1 0 1 2 3 4 5 6
2.2. Variáveis estatı́sticas quantitativas unidimensionais 61

O “papel”que a função cumulativa desempenha perante os dados, em relação à função de


distribuição da variável aleatória subjacente, é exactamente o mesmo “papel”que desempenha
o polı́gono de frequências relativamente à função densidade.

Nas circunstâncias em que estamos na presença de uma variável estatı́stica contı́nua, defi-
nimos quantil de ordem p, para p ∈ ]0, 1[, à custa da função cumulativa, como aliás fizemos no
caso em que a variável era discreta. Concretamente, o quantil de ordem p é o número real q(p)
que verifica
F ∗ (q(p)) = p, p ∈]0, 1[.

Relativamente à questão da presença de assimetrias são válidas as desigualdades que as


definem no caso em que dispomos de uma variável estatı́stica discreta. É também válida a
interpretação que fazemos do gráfico de extremos e quartis.
Na situação particular em que dispomos de uma variável contı́nua, tendo sido já ”perdida”a
amostra inicial (só dispomos das classes e das respectivas frequências), para determinar apro-
ximações para a média e para a variância, entre outros parâmetros, usamos a variável das
marcas que denotamos por X 0 . Esta variável estatı́stica é discreta e assume exactamente os
valores correspondentes aos pontos médios das classes. Seguidamente consideram-se as apro-
ximações
x ' x0 e sn ' s0n

Para finalizar este capı́tulo, observamos que no caso do histograma dar alguma evidência à
normalidade da distribuição da variável aleatória em estudo, podemos afirmar que:

• O intervalo (x − sn , x + sn ) contém aproximadamente 68% dos valores amostrais;

• O intervalo (x − 2sn , x + 2sn ) contém aproximadamente 95% dos valores amostrais;

• O intervalo (x − 3sn , x + 3sn ) contém aproximadamente 100% dos valores amostrais.

Exercı́cio 2.2.1. Fez-se um estudo acerca da idade em que é diagnosticada uma certa
doença, obtendo-se os seguintes registos: 18, 18, 25, 19, 23, 20, 42, 18, 21, 18, 18, 20, 18, 18,
20, 18, 19, 28, 17, 18. Calcule a média, o desvio padrão e os quartis da amostra. Construa o
diagrama de extremos e quartis. Nota-se alguma concentração especial dos valores?

Exercı́cio 2.2.2. As notas de 50 alunos num exame foram


8.6 12.1 13.6 14.4 15.8 10.2 12.4 13.8 14.6 15.8
10.6 12.6 13.8 14.6 16.1 11.0 12.8 13.8 14.8 16.4
11.4 13.0 13.8 14.8 16.4 11.6 13.0 14.0 15.0 17.0
11.6 13.2 14.0 15.2 17.4 11.8 13.2 14.0 15.2 17.8
12.2 13.4 14.2 15.4 18.2 12.2 13.6 14.2 15.6 19.2

1. Determine a média, a variância e os quartis desta amostra.

2. Construa um histograma de frequências relativas e o gráfico de extremos e quartis.


62 Capı́tulo 2. Análise exploratória de dados

3. Por que motivo podemos começar por ajustar uma distribuição normal à variável X?

Exercı́cio 2.2.3. Considere a seguinte amostra observada de uma variável aleatória X.

-17,53 -12,07 -9,72 -8,46 -7,00 -6,74 -6,44 -6,25 -6,03 -4,83
-4,73 -3,92 -3,85 -3,02 -2,06 -1,98 -,37 -,05 -,03 ,94
1,13 1,14 1,15 1,17 1,48 1,60 2,07 2,32 3,00 3,70
3,87 3,97 4,13 4,24 4,54 4,59 5,14 6,77 7,60 7,66
7,68 8,32 9,26 10,26 10,62 11,15 11,44 12,72 13,12 13,52
13,54 13,68 14,24 14,33 16,19 16,27 16,85 17,65 19,85 25,1

1. Determine estimativas para a média e para a variância de X.

2. Determine os quartis desta amostra.

3. Construa um histograma e o gráfico de extremos e quartis.

4. Por que motivo podemos começar por ajustar uma distribuição normal à variável X?

Exercı́cio 2.2.4. Considere a seguinte amostra observada de uma variável aleatória Y .

0,02 0,03 0,05 0,07 0,08 0,21 0,23 0,26 0,26 0,29
0,30 0,33 0,34 0,35 0,35 0,43 0,47 0,49 0,49 0,52
0,60 0,81 0,84 0,87 0,90 0,92 0,96 0,98 0,99 1,05
1,08 1,09 1,19 1,26 1,29 1,54 1,65 1,76 1,84 1,84
2,04 2,19 2,20 2,21 2,27 2,30 2,32 2,38 2,43 2,50
2,81 3,34 3,44 3,82 3,96 4,39 4,45 4,88 5,63 6,01

1. Determine a média, a variância e os quartis desta amostra.

2. Construa um histograma e o gráfico de extremos e quartis. Qual a distribuição que se


pode começar por ajustar à v.a. Y ?

Exercı́cio 2.2.5. Considere a seguinte amostra observada de uma variável aleatória W .

4,02 4,04 4,10 4,10 4,12 4,12 4,14 4,16 4,19 4,21
4,23 4,23 4,24 4,26 4,28 4,34 4,35 4,38 4,38 4,41
4,46 4,47 4,48 4,59 4,59 4,60 4,68 4,72 4,73 4,75
4,78 4,78 5,11 5,14 5,30 5,41 5,45 5,46 5,49 5,58
5,74 5,78 5,79 5,88 5,92 6,06 6,10 6,17 6,24 6,30
6,33 6,36 6,41 6,44 6,55 6,70 6,80 8,36 9,44 9,73

1. Determine a média, a variância e os quartis desta amostra.

2. Construa um histograma e o gráfico de extremos e quartis. Qual a distribuição que se


pode começar por ajustar à v.a. W ?

Exercı́cio 2.2.6. Considere a seguinte amostra observada de uma variável aleatória U .


2.2. Variáveis estatı́sticas quantitativas unidimensionais 63

0,11 0,13 0,16 0,16 0,18 0,20 0,29 0,30 0,30 0,31
0,36 0,38 0,42 0,42 0,46 0,47 0,56 0,62 0,66 0,68
0,71 0,79 0,85 0,87 0,95 0,98 1,02 1,04 1,04 1,05
1,22 1,29 1,34 1,49 1,52 1,57 1,58 1,61 1,68 1,73
1,83 1,84 1,87 1,99 2,03 2,08 2,10 2,11 2,15 2,17
2,20 2,22 2,30 2,32 2,60 2,76 2,78 2,81 2,86 2,95
1. Determine a média, a variância e os quartis desta amostra.
2. Construa um histograma e o gráfico de extremos e quartis. Qual a distribuição que se
pode começar por ajustar à v.a. U ?
Exercı́cio 2.2.7. Considere a seguinte amostra observada de uma variável aleatória V .
-1,99 -1,98 -1,96 -1,94 -1,89 -1,86 -1,78 -1,61 -1,45 -1,42
-1,33 -1,25 -1,23 -1,14 -1,12 -1,06 -1,02 -00,98 -0,96 -0,93
-0,64 -0,50 -0,41 -0,33 -0,30 -0,25 -0,23 -0,21 -0,13 -0,09
-0,08 0,07 0,08 0,12 0,14 0,16 0,23 0,29 0,41 0,51
0,61 0,70 0,82 0,92 1,01 1,07 1,11 1,26 1,30 1,31
1,40 1,46 1,49 1,71 1,72 1,74 1,76 1,79 1,80 1,89
1. Determine estimativas para a média e para a variância de V .
2. Determine os quartis desta amostra.
3. Construa um histograma e o gráfico de extremos e quartis. Qual a distribuição que se
pode começar por ajustar à v.a. V ?
Exercı́cio 2.2.8. Considere a seguinte amostra observada de uma variável aleatória dis-
creta T .
0 0 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4
4 4 4 4 4 4 4 4 5 5 5 5 6 6 6 6 6 8 8 8
A partir dos valores da média e da variância desta amostra poderemos negar que T tem uma
distribuição de Poisson?
Exercı́cio 2.2.9. O histograma seguinte foi construı́do a partir de uma amostra de nı́veis
obtidos num teste classificado de 0 a 100.

0.5
0.4
0.3
0.2
0.1
0
20 40 60 80 100

1. Entre os nı́veis 20 e 40 houve 10% dos alunos. Determine uma aproximação para a
percentagem de alunos que obteve nı́vel entre 60 e 80. Determine uma aproximação para
a percentagem de alunos com nı́vel pelo menos 60.
2. Calcule aproximações para a média, para a mediana e para os quartis da referida amostra.
64 Capı́tulo 2. Análise exploratória de dados

2.2.3 Variáveis estatı́sticas qualitativas unidimensionais


Para descrever uma amostra de variáveis qualitativas, temos um número muito restrito de
ferramentas, quando comparado com o caso das variáveis quantitativas. Com efeito, o cálculo
descritivo das frequências absolutas ou relativas de cada uma das modalidades não pode ser
acompanhado de mediadas de localização nem de dispersão, as quais, neste caso, não têm
qualquer significado (mesmo que adaptássemos os dados a uma escala numérica). O resumo
gráfico da amostra pode realizado com um gráfico circular ou com um gráfico de barras como
os que a seguir se incluem.

Figura 2.1: Gráfico circular com percentagens incluı́das.

Figura 2.2: Gráfico de barras com percentagens incluı́das.

2.3 Variáveis estatı́sticas bidimensionais


Para proceder ao estudo simultâneo de duas caracterı́sticas em cada elemento de uma
população há que dispor, naturalmente, de amostras bidimensionais (ou bivariadas). Passemos
à análise dos três casos possı́veis.

2.3.1 Variáveis qualitativas versus qualitativas


O resumo gráfico deste tipo de variáveis é usualmente realizado à custa de uma tabela
de contingência. Com esta tabela organizamos as frequências absolutas das observações que
dizem respeito à ocorrência simultânea das modalidades das duas variáveis em estudo. Sejam
A1 , A2 , · · · , Ar e B1 , B2 , · · · , Br as modalidades distintas das duas variáveis X e Y .
2.3. Variáveis estatı́sticas bidimensionais 65

A distribuição dos n elementos da amostra por cada uma das células (Ai , Bj ) dá lugar a
uma tabela de dupla entrada, designada tabela de contingência r × s, como a que se segue
B1 ... Bs Totais
A1 n11 ... n1s n1·
.. .. .. .. ..
. . . . .
Ar nr1 ... nrs nr·
Totais n·1 ... n·s n
s
X
onde nij representa a frequência absoluta observada da célula (Ai , Bj ), ni· = nij para
j=1
r
X
i = 1, 2, ..., r e n·j = nij para j = 1, 2, ..., s.
i=1
Em alternativa à tabela de contingência podemos connstruir um gráfico de barras agrupadas
(ou empilhadas) como o que se inclui a seguir.

Figura 2.3: Gráfico de barras agrupadas com percentagens incluı́das.

Com o objectivo de medir o grau de associação entre duas variáveis X e Y , recorremos a


várias funções da amostra (estatı́sticas) a que chamamos medidas de associação.
1. Dados nominais versus dados nominais ou ordinais
Seja
s
r X
X (nij − eij )2
χ2 = ,
eij
i=1 j=1
ni· n·j
onde eij = para i ∈ {1, ..., r} e j ∈ {1, ..., s}.
n
q 2
O coeficiente de contingência de Pearson é definido por CP = χ2χ+n e o coefici-
q
χ2
ente de contingência V de Cramer é definido por CV = n×min{r,s} .
Ambos tomam valores entre 0 e 1. O valor 0 corresponde a ausência de associação.
Valores destes coeficientes muito próximos de 0 indicam fraca associação entre as variáveis
e valores muito próximos de 1 indicam forte associação.
66 Capı́tulo 2. Análise exploratória de dados

2. Dados ordinais versus dados ordinais q


O coeficiente de contingência tau-b de Kendall é definido por τb = C−D C+D onde
C representa o número de pares concordantes na amostra ( tais que Ai < Aj e Bi < Bj
ou Ai > Aj e Bi > Bj ) e D representa o número de pares discordantes na amostra ( tais
que Ai < Aj e Bi > Bj ou Ai > Aj e Bi < Bj ).
q 2
6(d1 +···+d2n )
O coeficiente de contingência de Spearman é definido por ρS = 1 − n3 −n
onde d1 , ·, dn são as diferenças entre as ordens das modalidades A1 , A2 , · · · , Ar e B1 , B2 , · · · , Br
depois de serem ordenadas ascendentemente.
Ambos assumen valores entre −1 e 1. Valores destes coeficientes muito próximos de
0 indicam fraca associação entre as variáveis e valores muito próximos de 1 ou de −1
indicam forte associação. Se o sinal é positivo as duas variáveis têm a mesma monotonia
e se o sinal é negativo X e Y têm monotonias contrárias.

2.3.2 Variáveis qualitativas versus quantitativas


Podemos resumir a amostra construindo uma tabela de contingência (já definida atrás) ou
um diagrama de extremos e quartis paralelos como o que se ilustra a seguir.

Figura 2.4: Diagrama de extremos e quartis paralelos

O coeficiente de associação usado neste caso é o Coeficiente Eta. Para o cálculo deste
coeficiente, a variável qualitativa deve ser codificada numericamente. Eta pode tomar valores
entre 0 e 1. Valores próximos de 1 indicam forte associação e valores próximos de 0 indicam
fraca associação. Como habitualmente, o valor 0 indica total ausência de associação.

2.3.3 Variáveis quantitativas versus quantitativas


Depois de colecionada uma amostra de cada uma das variáveis, representamos o conjunto
de pares obtidos num referencial. O conjunto de pontos resultante é denominado diagrama
de dispersão e é a partir dele que postulamos a existência ou a ausência de uma relação linear
entre X e Y .
Na figura seguinte apresentamos um exemplo de diagrama de dispersão.
2.3. Variáveis estatı́sticas bidimensionais 67

...................................................................................................................................................................................................................................................................................................................................................................................................
...
..
... • • ..
...
...
....
• ••• • • ...

• ••
... ...

• • ••• • •• ••
... ...
... ...
... ...
...
...
... • • •• • •• • ...
...
...
• ...
...
...
..
................................................................................................................................................................................................................................................................................................................................................................................................

O coeficiente de correlação de Pearson é a medida de associação usada neste caso.


Sendo
n
X
sxy = (xi − x)(yi − y)
i=1

a covariância da amostra bivariada e sX e sY o desvio padrão amostral de X e de Y , o coeficiente


de correlação de Pearson define-se por
sxy
R= .
sx sy

Este coeficiente mede a intensidade e o sentido de uma relação linear entre as observações
de X e de Y , assumindo-se que estas variáveis são normalmente distribuı́das. R pode tomar
valores entre −1 e 1. A relação entre as variáveis está tão mais próxima da linear quanto mais
próximo de 1 ou de −1 estiver o valor do coeficiente de correlação. Se o sinal é positivo, então
o crescimento dos valores de uma das variáveis é acompanhado do crescimento dos valores da
outra; se o sinal é negativo, então o crescimento dos valores de uma das variáveis é acompanhado
do decrescimento dos valores da outra. Se o coeficiente de correlação R está próximo de 0 é de
excluir a existência de uma relação linear entre as variáveis. Contudo R próximo de zero tanto
pode indicar ausência de associação entre as variáveis como a presença de relações não lineares
nas quais pode existir forte associação entre as variáveis.

Você também pode gostar