SebentaPE 200910 PDF

Probabilidade e Estatística
Frederico Caeiro
2009/10
Observação:
Estas folhas servem de apoio às aulas de Probabilidades e Estatística. Para uma melhor compreen-
são dos assuntos abordados, aconselha-se a leitura de alguns dos livros indicados nas referências
bibliográficas.
Conteúdo
1 Introdução à Teoria da Probabilidade 1

1.1 Espaço de Resultados e Acontecimentos . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Cálculo Combinatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Probabilidade Condicional e Independência . . . . . . . . . . . . . . . . . . . . . 6
2 Variáveis aleatórias 9
2.1 Variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Função de distribuição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Classificação das variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5 Outros parâmetros relevantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6 Funções de uma variável aleatória . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Vectores aleatórios 17
3.1 Par aleatório discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 Par aleatório contínuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Momentos de vectores aleatórios . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4 Principais Distribuições 23
4.1 Distribuições discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.1.1 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.1.2 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.3 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.4 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1.5 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1.6 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Distribuições Contínuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2.1 Distribuição Uniforme Contínua . . . . . . . . . . . . . . . . . . . . . . . 31
4.2.2 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2.3 Distribuição Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2.4 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.5 Distribuição do Qui Quadrado . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.6 Distribuição t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5 Teorema Limite Central 39
i
6 Estimação Pontual 41
6.1 Alguns conceitos importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.2 Propriedades dos estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6.3 Método dos Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.4 Método da máxima verosimilhança . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.5 Distribuições por Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.5.1 Distribuição por amostragem da média amostral, X . . . . . . . . . . . . 47
6.5.2 Distribuição por amostragem da diferença de médias amostrais, X 1 − X 2 49
6.5.3 Distribuição por amostragem da variância amostral, S 2 . . . . . . . . . . 49
6.5.4 Distribuição por amostragem da proporção, P̂ . . . . . . . . . . . . . . . 49
7 Estimação por Intervalo de Confiança 51

7.1 Intervalo de Confiança para a média da população, µ . . . . . . . . . . . . . . . 52
7.1.1 População Normal com variância conhecida . . . . . . . . . . . . . . . . 52
7.1.2 População Normal com variância desconhecida . . . . . . . . . . . . . . 55
7.1.3 População não-Normal com variância conhecida e n > 30 . . . . . . . . . 56
7.1.4 População não-Normal com variância desconhecida e n > 30 . . . . . . . 56
7.2 Intervalo de Confiança para a variância populacional, σ 2 , e para o desvio padrão
populacional, σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.3 Intervalo de Confiança para proporção populacional, p . . . . . . . . . . . . . . . 60
8 Teste de Hipóteses 63
8.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
8.2 Teste de Hipóteses para a média da população . . . . . . . . . . . . . . . . . . . 65
8.2.1 Teste bilateral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
8.2.2 Teste unilateral direito . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
8.2.3 Teste unilateral esquerdo . . . . . . . . . . . . . . . . . . . . . . . . . . 68
8.3 Teste de Hipóteses para a variância, σ 2 , de uma população Normal . . . . . . . . 69
8.4 Teste de Hipóteses para a proporção p de uma população . . . . . . . . . . . . . 70
8.5 Teste das sequências ascendentes e descendentes . . . . . . . . . . . . . . . . . 71
8.6 Teste de ajustamento do Qui Quadrado . . . . . . . . . . . . . . . . . . . . . . 72
9 Regressão Linear 77
9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.2 Estimadores dos Mínimos Quadrados de β0 e β1 . . . . . . . . . . . . . . . . . . 78
9.3 Estimação de σ 2 e Qualidade do Ajuste . . . . . . . . . . . . . . . . . . . . . . 79
9.4 Propriedades dos estimadores dos mínimos quadrados . . . . . . . . . . . . . . . 79
9.4.1 Distribuição por amostragem de σ̂ 2 . . . . . . . . . . . . . . . . . . . . . 79
9.4.2 Distribuição por amostragem de β̂0 e β̂1 . . . . . . . . . . . . . . . . . . 80
9.5 Inferência sobre os parâmetros do Modelo de Regressão . . . . . . . . . . . . . . 81
9.5.1 Intervalo de Confiança e Teste de Hipóteses para β1 . . . . . . . . . . . 81
9.5.2 Intervalo de Confiança e Teste de Hipóteses para β0 . . . . . . . . . . . 82
9.5.3 Intervalo de Confiança e Teste de Hipóteses para σ 2 . . . . . . . . . . . 83
9.6 Estimação do valor esperado de Y para uma observação x0 da variável controlada 84
9.7 Previsão do valor da variável resposta Y para um novo valor x0 da variável controlada 84
10 Exercícios 85
10.1 Introdução à Teoria da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . 85
10.2 Variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
10.3 Vectores Aleatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
10.4 Principais distribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
10.5 Teorema Limite Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10.6 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
10.7 Estimação por Intervalo de Confiança . . . . . . . . . . . . . . . . . . . . . . . 104
10.8 Teste de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
10.9 Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
11 Tabelas 111
Capítulo 1
Introdução à Teoria da Probabilidade
1.1 Espaço de Resultados e Acontecimentos
Definição 1.1 (Experiência aleatória). Uma experiência aleatória é uma experiência cujo re-
sultado é desconhecido (antes da sua realização), apesar de se conhecerem todos os possíveis
resultados.
Exemplo 1.2 (Experiência aleatória). Considere os seguintes exemplos:
• E1 : Lançamento de uma moeda e observação da face voltada para cima;
• E2 : Lançamento de um dado e observação da face voltada para cima;
• E3 : Tempo de “vida” de uma lâmpada.
Definição 1.3 (Espaço de resultados ou universo). Chamamos espaço de resultados ou uni-

verso, e representamos por Ω, ao conjunto de todos os possíveis resultados de uma experiência
aleatória.
Observação: Diz-se que o espaço de resultados, Ω, é discreto se tem um número finito ou infinito
numerável de elementos. Se Ω contém um intervalo (finito ou infinito) de números reais, então
o espaço de resultados é contínuo.
Exemplo 1.4 (Espaço de resultados). Considere novamente as experiências aleatórias do Ex-

emplo 1.2. Temos:
• E1 : Ω = {Cara, Coroa};
• E2 : Ω = {1, 2, 3, 4, 5, 6};
• E3 : Ω = R+ .
1
2 CAPÍTULO 1. INTRODUÇÃO À TEORIA DA PROBABILIDADE
Exemplo 1.5 (Espaço de resultados). Na experiência aleatória que consiste em lançar um dado,
numerado de 1 a 6, e observar a face voltada para cima, Ω = {1, 2, 3, 4, 5, 6}. Se forem lançados
dois dados, o espaço de resultados é,
Ω = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), . . . , (6, 5), (6, 6)},
ou seja, Ω = {(i, j) : i = 1, . . . , 6; j = 1, . . . , 6}.
Definição 1.6 (Acontecimento e Acontecimento elementar). Um acontecimento é um sub-

conjunto do espaço de resultados, Ω. Cada acontecimento formado por apenas um ponto amostral
é designado por acontecimento elementar ou simples.
Observação: Ao conjunto ∅ chamamos acontecimento impossível e a Ω acontecimento certo.
Definição 1.7 (Sub-acontecimento). A é sub-acontecimento de B, e escreve-se A ⊂ B, se e

só se a realização de A implica a realização de B.
Observação: Podemos aplicar as operações usuais sobre conjuntos de modo a obter outros
acontecimentos de interesse. As operações mais usuais são:
• A união de dois acontecimentos A e B, e representa-se por A ∪ B;
• A intersecção de dois acontecimentos A e B, e representa-se por A ∩ B;
• O complementar do acontecimento A e representa-se por A;
• A diferença dos acontecimentos A e B e representa-se por A − B (= A ∩ B);
Algumas propriedades importantes:
1. Distributiva: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) e A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C);
2. Leis de De Morgan: A ∩ B = A ∪ B e A ∪ B = A ∩ B.
Definição 1.8 (Acontecimentos disjuntos ou mutuamente exclusivos). Dois acontecimentos

A e B dizem-se disjuntos se não têm elementos em comum, ou seja, se A ∩ B = ∅.
1.2. PROBABILIDADE 3
1.2 Probabilidade
Em muitas experiência aleatórias estamos interessados em medir a possibilidade de ocorrer um
determinado acontecimento ocorrer. A probabilidade permite-nos quantificar essa possibilidade.
Definição 1.9 (Definição Clássica ou de Laplace de Probabilidade). Se uma experiência

aleatória tem a si associado um número finito N de resultados, mutuamente exclusivos e igual-
mente prováveis, então a probabilidade de qualquer acontecimento A, P (A), é dada por:
NA no de resultados favoráveis a A
P (A) = = .
N no de resultados possíveis
Exemplo 1.10. A probabilidade de sair face ímpar, num lançamento de um dado equilibrado é
3
P (“Sair face ímpar”) = 6 = 21 .
Definição 1.11 (Definição Frequencista de Probabilidade). A probabilidade de um aconteci-

mento A é dada pelo limite da frequência relativa com que se observou A, isto é,
nA
P (A) = lim ,
n→∞ n
onde nA representa o número de observações de A, e n o número de realizações da experiência

nA
aleatória. Para valores elevados de n, podemos assumir que P (A) ≈ .
n
Definição 1.12 (Definição Axiomática de Probabilidade). A Probabilidade é uma função,

que a cada acontecimento A faz corresponder um valor real, P (A), e que verifica as seguintes
condições ou axiomas:
1. P (A) ≥ 0, qualquer que seja o acontecimento A;
2. P (Ω) = 1;
3. Se A e B são acontecimentos disjuntos, P (A ∪ B) = P (A) + P (B).
Esta axiomática não contempla situações com uma infinidade numerável de acontecimentos. É
assim usual substituir o 3o axioma, por:
S∞ P∞
3. Se A1 , A2 , . . . são acontecimentos disjuntos dois a dois, então P i=1 Ai = i=1 P (Ai ).
Proposição 1.13. Sejam A e B dois acontecimentos. Os seguintes resultados são consequência

imediata dos axiomas da definição 1.12:
1. P (∅) = 0;
2. Se A ⊆ B então P (A) ≤ P (B);

3. P (Ā) = 1 − P (A);
4. P (A) ∈ [0, 1];
5. P (A − B) = P (A ∩ B) = P (A) − P (A ∩ B);
6. P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Demonstração.
1. Como ∅ e Ω são acontecimentos disjuntos e P (∅ ∪ Ω) = P (Ω) = 1, resulta pelo 3o axioma

que P (∅ ∪ Ω) = P (∅) + P (Ω), ou seja, P (∅) = 0.
2. Sejam A e B dois acontecimentos tais que A ⊆ B. Então B = B ∩ (A ∪ A) = (B ∩ A) ∪

(B ∩ A) = A ∪ (B ∩ A). Como A e B ∩ A são acontecimentos disjuntos, podemos utilizar
o 3o axioma, resultando,
P (B) = P (A ∪ (B ∩ A)) = P (A) + P (B ∩ A).
Usando o 1o axioma, podemos garantir que P (B∩A) ≥ 0 e consequentemente P (B) ≥ P (A).
3. Como A e A são acontecimentos disjuntos, podemos utilizar o 3o axioma. Assim,
1 = P (Ω) = P (A ∪ A) = P (A) + P (A),
ou seja, P (Ā) = 1 − P (A).
4. Pelo 1o axioma, para qualquer acontecimento A, P (A) ≥ 0. Logo, basta apenas demonstrar
que P (A) ≤ 1. Como A ⊆ Ω, resulta que P (A) ≤ P (Ω) = 1.
5. Como A = (A∩B)∪(A∩B) = (A−B)∪(A∩B), e (A−B) e (A∩B) são acontecimentos

disjuntos, então podemos utilizar o 3o axioma. Assim,
P (A) = P (A − B) + P (A ∩ B) ⇔ P (A − B) = P (A) − P (A ∩ B).
6. Como A ∪ B = (A − B) ∪ (B − A) ∪ (A ∩ B) e (A − B), (B − A) e (A ∩ B) são

acontecimentos disjuntos dois a dois, podemos utilizar o resultado do 3o axioma, obtendo:
P (A ∪ B) = P (A − B) + P (B − A) + P (A ∩ B) =
= P (A) − P (A ∩ B) + P (B) − P (A ∩ B) + P (A ∩ B) =
= P (A) + P (B) − P (A ∩ B).
Observação: O último resultado da Proposição 1.13 pode ser generalizado para a união de n
acontecimentos (n ≥ 2). Assim, dados os acontecimentos Ai , i = 1, . . . , n,
n
P (Ai ∩ Aj ∩ Ak )−. . .+(−1)n−1 P (∩ni=1 Ai ) ;
X X X
P (∪ni=1 Ai ) = P (Ai )− P (Ai ∩ Aj )+
i=1 i6=j i6=j6=k
1.3. CÁLCULO COMBINATÓRIO 5
Para n = 3 obtemos o caso particular:
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C).
Definição 1.14 (Acontecimentos incompatíveis). Dois acontecimentos A e B dizem-se in-

compatíveis se P (A ∩ B) = 0.
1.3 Cálculo Combinatório
O cálculo de uma probabilidade, através da definição clássica, depende da contagem do número

de casos favoráveis e do número de casos possíveis. Em muitas situações este cálculo pode não
ser imediato. O cálculo combinatório é uma ferramenta que nos poderá auxiliar em muitas dessas
situações.
Definição 1.15 (Produto Cartesiano). Seja A = {a1 , . . . , an } um conjunto com n elementos e

B = {b1 , . . . , bm } um conjunto com m elementos. Designa-se por produto cartesiano o conjunto
de pares (ai , bj ) em que o primeiro provém de A e o segundo de B e representa-se por A × B. O
número de elementos de A × B é dados por #(A × B) = n × m.
Considere agora que temos n elementos distintos, e pretendemos seleccionar k. De quantas

maneiras distintas é possível seleccionar os k elementos? Como existem várias formas distintas
de escolher os k elementos, a resposta à questão anterior é dada pela seguinte tabela:
Interessa Há Número de maneiras distintas de

Designação
a ordem? repetição? escolher os k elementos
nA n!
Sim Não Arranjos k =(n−k)! , k≤n
Sim Sim Arranjos com repetição n A0 = nk
k
nC n n!
Não Não Combinações k = k = (n−k)!k! , k≤ n
Não Sim Combinações com repetição n C 0 = (n+k−1)!
k (n−1)!k!
Observações:
• “!” representa a função factorial (por convenção 0! = 1);
• No caso particular em que interessa a ordem, não há repetição e estamos a seleccionar todos
os elementos disponíveis (k = n), é mais usual designarmos Permutações de n elementos,
Pn , em vez de n An . É obvio que n An = Pn = n!.
1.4 Probabilidade Condicional e Independência

Vamos começar por um exemplo que irá introduzir a noção de probabilidade condicional.
Exemplo 1.16. Uma empresa farmacêutica realizou um ensaio clínico para comparar a eficácia de
um novo medicamento (medicamento experimental). Escolheram-se ao acaso 200 doentes com a
doença que se pretende curar. Metade desses doentes foram tratados com o novo medicamento e
os restantes com um medicamento convencional. Ao fim de 5 dias, os resultados são os seguintes:
Melhorou (M ) Não melhorou (M ) Total

Medicamento Experimental E 69 31 100
Medicamento Convencional (E) 58 42 100
Total 127 73 200
1. Qual a probabilidade, de um doente escolhido ao acaso,
(a) tomar o medicamento experimental?

100
Resposta: Usando a regra de Laplace, P (E) = 200 = 12 .
(b) tomar o medicamento experimental e melhorar?
69
Resposta: Usando a regra de Laplace, P (E ∩ M ) = 200 .
2. Qual a probabilidade de um doente, que melhorou, ter tomado o medicamento experimental?

69
Resposta: 127 .
P (E∩M )
Observação: A solução da pergunta 2, do exemplo anterior, é igual a P (M ) .
Definição 1.17 (Probabilidade Condicional). Sejam A e B dois acontecimentos. A probabili-

dade condicional de A dado B é
P (A ∩ B)
P (A|B) = , se P (B) > 0.
P (B)
Teorema 1.18 (Teorema da Probabilidade Composta). Sejam A e B dois acontecimentos

tais que P (B) > 0. Então, resulta da definição de Probabilidade Condicional,
P (A ∩ B) = P (A |B ) P (B) .
Observação: Nalguns casos, a probabilidade condicional P (A|B) pode ser igual a P (A), ou seja,
o conhecimento da ocorrência de B não afecta a probabilidade de A ocorrer.
Definição 1.19 (Acontecimentos Independentes). Dois acontecimentos A e B dizem-se inde-

pendentes se e só se,
P (A ∩ B) = P (A) P (B) .
1.4. PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA 7
Definição 1.20 (Partição do espaço de resultados). Dizemos que {E1 , . . . , En } é uma partição
do espaço de resultados Ω quando
Ei ∩ Ej = ∅ (i 6= j) e ∪ni=1 Ei = Ω.
Teorema 1.21 (Teorema da Probabilidade Total). Seja {E1 , . . . , En } uma partição do espaço
de resultados Ω, com P (Ei ) > 0, ∀i. Dado um qualquer acontecimento A, tem-se,
P (A) = P (A |E1 ) P (E1 ) + . . . + P (A |En ) P (En ) .
Teorema 1.22 (Teorema de Bayes). Seja {E1 , . . . , En } uma partição do espaço de resultados
Ω, com P (Ei ) > 0, ∀i. Dado um qualquer acontecimento A, com P (A) > 0, tem-se
P (A |Ei ) P (Ei )
P (Ei |A ) = P
n .
P (A |Ei ) P (Ei )
i=1
Demonstração. Aplicando a definição 1.17, de Probabilidade Condicional, depois o Teorema 1.18

da Probabilidade Composta e o Teorema 1.21 da Probabilidade Total,
P (Ei ∩ A) P (A |Ei ) P (Ei )

P (Ei |A ) = = P
n .
P (A) P (A |Ei ) P (Ei )
i=1
Exemplo 1.23 (Teste de P.E. D - 2007/08). Diga, justificando, se a seguinte afirmação é ver-
dadeira ou falsa:
Três máquinas A, B e C produzem botões, respectivamente, 15%, 25% e 60% da produção total.
As percentagens de botões defeituosos fabricados por estas máquinas são respectivamente 5%, 7%
e 4%. Se ao acaso, da produção total de botões, for encontrado um defeituoso, a probabilidade
de ele ter sido produzido pela máquina B é de cerca de 36%.
Resolução:
Sejam A, B, C e D os seguintes acontecimentos:
A - O Botão é produzido pela máquina A;
B - O Botão é produzido pela máquina B;
C - O Botão é produzido pela máquina C;
D - O Botão tem defeito;
De acordo com o enunciado, temos as seguintes probabilidades: P (A) = 0.15, P (B) = 0.25,
P (C) = 0.6, P (D|A) = 0.05, P (D|B) = 0.07 e P (D|C) = 0.04.
Pretende-se determinar P (B|D). Usando o Teorema de Bayes, obtemos:
P (D|B)P (B) 175

P (B|D) = = ' 36%.
P (D|A)P (A) + P (D|B)P (B) + P (D|C)P (C) 490
Logo a afirmação está correcta, isto é, a probabilidade de um botão defeituoso ter sido produzido
pela máquina B é de cerca de 36%.
Capítulo 2
Variáveis aleatórias
2.1 Variáveis aleatórias
Definição 2.1 (Variável aleatória). Uma variável aleatória (v.a.), X : Ω → R, é uma função real
e finita, tal que a imagem inversa de ] − ∞; x] é um acontecimento, isto é, Ax = X −1 (−∞; x] =
{ω ∈ Ω : X (ω) ≤ x} com x ∈ R é um acontecimento.
Observação: É fácil de verificar que se X é uma variável aleatória e g : R → R uma função,

então Y = g(X) é também uma variável aleatória.
Exemplo 2.2 (Variável aleatória). Considere a experiência aleatória que consiste no lançamento
de 2 moedas equilibradas, e registo da face voltada para cima. O espaço de resultados é
Ω = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)}.
Podemos, por exemplo, atribuir a cada um dos acontecimentos elementares de Ω, os seguinte

valores:
ω (Ca,Ca) (Ca,Co) (Co,Ca) (Co,Co)
X(ω) 2 1 1 0
Repare que


 ∅, x<0

 {(Co, Co)} 0 ≤ x<1
Ax = X −1 ](∞; x]) =
 {(Co, Co), (Ca, Co), (Co, Ca)} 1 ≤ x < 2



Ω x≥2
Como todas as imagens inversas, X −1 (] − ∞; x]), são acontecimentos de Ω, então de acordo com
a definição 2.1, X é uma variável aleatória.
Observação: Relativamente ao Exemplo 2.2, X é a aplicação que atribui a cada acontecimento

de Ω o número de caras.
9
10 CAPÍTULO 2. VARIÁVEIS ALEATÓRIAS
2.2 Função de distribuição
Definição 2.3 (Função de distribuição). A função de distribuição da v.a. X é:
FX (x) = P (X ≤ x) = P ({ω : X(ω) ≤ x}), ∀x ∈ R.
Exemplo 2.4. Considere novamente o Exemplo 2.2. A função de distribuição desta v.a. é:



 0, x<0

 1, 0 ≤ x < 1

FX (x) = P (X ≤ x) = 4
3
4, 1 ≤ x < 2




1, x≥2


Observação: Como FX (x) = P (X ≤ x), conclui-se que a função de distribuição existe sem-
pre. Quando não existir mais do que uma v.a., pode-se representar a função de distribuição
simplesmente por F .
Propriedades da função de distribuição:
1. lim F (x) = 0 e lim F (x) = 1;

x→−∞ x→+∞
2. F é contínua à direita, isto é, lim F (x) = F (a);

x→a+
3. F é não decrescente, isto é, se x < y, então F (x) ≤ F (y).
Teorema 2.5. Qualquer função F é uma função de distribuição se e só se verificar as três

propriedades anteriores.
Proposição 2.6. Seja X uma v.a. com função de distribuição F . Tem-se:
P (X = x) = P (X ≤ x) − P (X < x) = F (x) − F (x− ), ∀x ∈ R,
onde F (x− ) = lim F (t).

t→x−
Definição 2.7 (Variáveis aleatórias identicamente distribuídas). Duas variáveis aleatórias

X e Y dizem-se identicamente distribuídas, se têm a mesma função de distribuição, isto é, se
FX (x) = FY (x), ∀x ∈ R.
2.3. CLASSIFICAÇÃO DAS VARIÁVEIS ALEATÓRIAS 11
2.3 Classificação das variáveis aleatórias

A função de distribuição não é necessariamente contínua em todos os valores x ∈ R. Podemos
por isso classificar as variáveis aleatórias em função da continuidade da respectiva função de
distribuição. Considere o conjunto de pontos de descontinuidade da função de distribuição F ,
D = {a ∈ R : P (X = a) > 0} . (2.1)
Definição 2.8 (Variável aleatória discreta). Uma v.a. X diz-se do tipo discreto ou simples-
mente discreta se o conjunto D é quanto muito numerável, e se P (X ∈ D) = 1.
Definição 2.9 (Função de probabilidade). Seja X uma v.a. discreta. Chama-se função de
probabilidade (f.p.), ou função massa de probabilidade, de X à função definida pelo conjunto dos
valores de D e pelas respectivas probabilidades, isto é, por (xi , pi ) onde xi ∈ D e pi = P (X = xi ).
Uma representação usual para a função de probabilidade da v.a. X, é:
(
x1 x2 ... xi ...
X=
P (X = x1 ) P (X = x2 ) . . . P (X = xi ) . . .
Propriedades da função de probabilidade:
1. P (X = xi ) = f (xi ) = pi ≥ 0;
P∞
2. i=1 pi = 1.
Observação: Para qualquer subconjunto real I, P (X ∈ I) =

P
xi ∈I∩D P (X = xi ).
Exemplo 2.10. Considere novamente o Exemplo 2.2. O conjunto de pontos de descontinuidade

da função de distribuição é D = {0, 1, 2}. Como P (X ∈ D) = 1, conclui-se que X é uma v.a.
discreta com função de probabilidade,
(
0 1 2
X 1 1 1
4 2 4
Definição 2.11 (Variável aleatória contínua). Uma v.a. X diz-se do tipo contínuo ou simples-
mente contínua se D = ∅ e se existe uma função não negativa, f , tal que para I ⊆ R,
Z
P (X ∈ I) = f (x)dx.
I
À função f chamamos função densidade probabilidade ou função densidade.

Propriedades da função densidade probabilidade:
1. f (x) ≥ 0, ∀x ∈ R;
R +∞
2. −∞ f (x) dx = 1.
R
Observação: Como I f (x)dx é um integral de uma função não negativa e é sempre convergente,
então a P (X ∈ I), corresponde ao valor da área entre o eixo das abcissas e o gráfico da função
f no intervalo I considerado. Consequentemente P (X = x) = 0, ∀x ∈ R e
P (x1 ≤ X ≤ x2 ) = P (x1 < X ≤ x2 ) = P (x1 ≤ X < x2 ) = P (x1 < X < x2 ), ∀ x1 ≤ x2 .
Observação: Por definição, F 0 (x) = f (x), nos pontos onde existe derivada. Se não existir
derivada, f (x) = 0.
2.4 Momentos
Qualquer variável aleatória possui algumas características numéricas importantes. As mais conhe-
cidas são o valor médio e a variância. Nesta secção vamos estudar outras características mais
gerais: os Momentos.
Definição 2.12 (Valor médio). O valor médio, valor esperado ou simplesmente média da v.a.
X é dado por,
∞
 P


 xi P (X = xi ) se X é uma v.a. discreta;
i=1
µ = E(X) = +∞
R
xf (x)dx se X é uma v.a. contínua;



−∞
desde que a série/integral seja absolutamente convergente.
Definição 2.13 (Valor médio de uma função de uma variável aleatória). Seja X uma v.a. e
g uma função real de variável real contínua com quanto muito um conjunto numerável de pontos
de descontinuidade. Então o valor médio de Y = g(X) é dado por:
∞
 P


 g(xi )P (X = xi ) se X é uma v.a. discreta;
i=1
E(g(X)) = +∞
R
g(x)f (x)dx se X é uma v.a. contínua;



−∞
desde que a série/integral seja absolutamente convergente.
Exemplo 2.14. Considere a variável aleatória introduzida no Exemplo 2.2. Os valores médios de
X e g(X) = X 2 , são respectivamente:
1 1 1
E(X) = 0 × 4 + 1× 2 +2× 4 = 1,
E(g(X)) = E(X ) = 02 × 2 1
4
2
+1 × 1
2 + 22 × 1
4 = 32 .
2.4. MOMENTOS 13
Propriedades do valor esperado:
1. Se a é uma constante, E(a) = a;
2. Se a e b são constantes, E(aX + b) = aE(X) + b.
3. Se existirem E(g1 (X)) e E(g2 (X)), então
E(g1 (X) + g2 (X)) = E(g1 (X)) + E(g2 (X)).
Definição 2.15 (Momentos de ordem k). Seja X uma variável aleatória. Definem-se momentos
de ordem k em torno da origem por:
mk = E(X k ),
e os momentos centrais de ordem k de X por:
µk = E((X − µ)k ),
desde que os valores esperados existam.
Definição 2.16 (Variância e desvio padrão). A variância da v.a. X, σ 2 ou V (X), é o momento

central de ordem dois, isto é,
σ 2 = V (X) = E((X − µ)2 ),
desde que exista o valor esperado de (X − µ)2 . À sua raiz quadrada positiva, σ =
p
V (X),
chamamos desvio padrão da v.a. X.
Proposição 2.17. Se X é uma v.a., para a qual existe variância, V (X) = E X 2 −E 2 (X).

Propriedades da Variância:
1. Se a é uma constante, V (a) = 0;
2. Se a e b são constantes, V (aX + b) = a2 V (X).
Exemplo 2.18. Considere a variável aleatória introduzida no Exemplo 2.2. A variância de X é:
V (X) = E((X − 1)2 ) = (0 − 1)2 × 1

4 + (1 − 1)2 × 1
2 + (2 − 1)2 × 1
4 = 12 .
Nota: A variância também podia ser calculada através do resultado da Proposição 2.17.
Teorema 2.19 (Desigualdade de Chebychev). Se X é uma v.a. para a qual existe variância
σ 2 e c > 0 é uma constante real positiva, então
1 1
P (|X − µ| ≥ cσ) ≤ ⇔ P (|X − µ| < cσ) ≥ 1 − .
c2 c2
Exemplo 2.20 (Desigualdade de Chebychev). Para c = 2, podemos dizer que a probabilidade

da v.a. X assumir valores no intervalo ]µ − 2σ, µ + 2σ[ é superior a 1 − 1/4 = 0.75.
Observação: A generalidade da Desigualdade de Chebychev impede-a de ser muito precisa.
2.5 Outros parâmetros relevantes

Definição 2.21 (Coeficiente de variação). Seja X uma v.a. com suporte não negativo. O
Coeficiente de variação de X é,
σ
CV = × 100%.
µ
Definição 2.22 (Coeficiente de Simetria). O Coeficiente de simetria, de uma v.a. X, é definido

por
µ3
β1 = .
σ3
Definição 2.23 (Coeficiente de achatamento ou Kurtosis). Define-se o coeficiente de achata-

mento ou kurtosis como
µ4
β2 = − 3.
σ4
Definição 2.24 (Quantil). O quantil de ordem p, χp , da v.a. X é a solução da equação:
F (χp ) = p, 0 < p < 1.
Se X é uma v.a. discreta, a equação F (χp ) = p pode não ter solução exacta. Neste caso
considera-se χp = min{x : F (x) ≥ p}.
Definição 2.25 (Mediana). Trata-se do quantil de ordem p = 1/2. Costuma-se representar a

mediana, da v.a. X, por med(X).
Definição 2.26 (Moda). A Moda, representada por mo, é o valor que maximiza a função de
probabilidade ou a função densidade probabilidade, desde que seja único.
2.6. FUNÇÕES DE UMA VARIÁVEL ALEATÓRIA 15
2.6 Funções de uma variável aleatória

Existem muitas formas de criar novas variáveis aleatórias, a partir de outras já conhecidas. Muitas
destas variáveis aparecem de forma natural com a resolução de problemas. Assim, sejam X e Y
variáveis aleatórias tais que Y é função de X (Y = g(X)). Interessa-nos saber como conhecer a
distribuição de Y . Para isso basta conhecer a sua função de distribuição, FY . Independentemente
de X ser uma v.a. discreta ou contínua, podemos sempre obter a sua função de distribuição do
seguinte modo:
FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P (Ay ),
onde Ay = {x ∈ Dx : g(x) ≤ y}. Geralmente consegue-se calcular P (Ay ), a partir da função de

distribuição de X, FX .
Exemplo 2.27. Considere a v.a. X com função de distribuição,



 0, x≤0
FX (x) = 5x4 − 4x3 , 0<x<1
x≥1

 1,
Estamos interessados em conhecer a distribuição das v.a.’s Y = 2X − 1 e W = X 2 . Comecemos

por determinar a f.d. da v.a. Y :
y+1
FY (y) = P (Y ≤ y) = P (2X − 1 ≤ y) = P (X ≤ 2 ) = FX ( y+1
2 )=
y+1


 0, 2 ≤0
y+1 4 y+1 3 y+1
= 5 2 −4 2 , 0< 2 <1
 y+1
1, ≥1

2


 0, y ≤ −1
y+1 4 y+1 3
= 5 2 −4 2 , −1 < y < 1


1, y≥1
Determinemos agora a função de distribuição de W . É obvio que se w < 0, FW (w) = 0. Se

w ≥ 0,
√ √ √ √ √
FW (w) = P (W ≤ w) = P (− w ≤ X ≤ w) = FX ( w) − FX (− w) = FX ( w) =
( √ √ 3 √
4
5 w −4 w , 0≤ w <1
= √
1, w≥1
(
5w2 − 4w3/2 , 0 ≤ w < 1
=
1, w≥1
A procedimento, acima indicado, é válido quer X seja uma v.a. contínua ou uma v.a. discreta.
Contudo no caso de X ser uma v.a. discreta, Y = g(X) é também uma v.a. discreta. Nesta
situação podemos também conhecer de distribuição de Y a partir da sua função de probabilidade.
Assim, seja Dx o suporte de X, isto é, o conjunto dos valores de X com probabilidade positiva.
Então,
P (Y = y) = P (g(X) = y) = P (X ∈ Ay ),
onde Ay = {x ∈ Dx : g(x) = y}.
Exemplo 2.28. Considere novamente a variável aleatória introduzida no Exemplo 2.2 e a nova
variável aleatória Y = (X − 1)2 . Sendo X uma v.a. discreta, concluímos que Y é também uma
v.a. discreta. Como X tem como suporte os valores 0, 1,e 2, o suporte de Y é o conjunto dos
valores 0 e 1. Resulta que
P (Y = 0) = P ((X − 1)2 = 0) = P (X = 1) = 21 ,
P (Y = 1) = P ((X − 1)2 = 1) = P (X − 1 = −1 ∨ X − 1 = 1) =
1
= P (X = 0) + P (X = 2) = 4 + 41 .
Então a função de probabilidade de Y é

(
0 1
Y 1 1
2 2
Capítulo 3
Vectores aleatórios
Sejam X1 , X2 , . . . , Xm m variáveis aleatórias. Então X = (X1 , X2 , . . . , Xm ) é um vector

aleatório de dimensão m. Vamos restringir-nos apenas aos pares aleatórios (X, Y ) = (X1 , X2 ),
isto é, aos vectores aleatórios com m = 2. Estes podem ser do tipo discreto, contínuo ou misto,
conforme X e Y são v.a. de tipo discreto, contínuo ou uma discreta e a outra contínua.
Definição 3.1 (Função de distribuição conjunta). Seja (X, Y ) um par aleatório. A função de
de distribuição de (X, Y ) é:
FX,Y (x, y) = P (X ≤ x, Y ≤ y), ∀(x, y) ∈ R2 .
3.1 Par aleatório discreto
Definição 3.2 (Par aleatório discreto). Diz-se que (X, Y ) é um par aleatório discreto se e só
se X e Y são variáveis aleatórias discretas.
Definição 3.3 (Função de probabilidade conjunta). Seja (X, Y ) um par aleatório discreto
tomando valores no conjunto D = {(xi , yj ) ∈ R2 : P (X = xi , Y = yj ) > 0}. Chamamos função
de probabilidade conjunta (f.p.c.) de (X, Y ) à função:
pij = P (X = xi , Y = yj ), i = 1, 2, . . . , j = 1, 2, . . .
Propriedades da função de probabilidade conjunta:
1. 0 ≤ pij ≤ 1, ∀(xi , yj ) ∈ D;
XX
2. pij = 1
i j
Observação: Quando o conjunto D é finito e pequeno é costume representar a f.p.c. numa

tabela, idêntica à que a seguir se apresenta:
17
18 CAPÍTULO 3. VECTORES ALEATÓRIOS
X\Y y1 y2 ... yn
x1 p11 p12 ... p1n p1•
x2 p21 p22 ... p2n p2•
.. .. .. .. .. ..
. . . . . .
xm pm1 pm2 ... pmn pm•
p•1 p•2 ... p•m 1
Definição 3.4 (Função de probabilidade marginal). Define-se função de probabilidade marginal

de X e função de probabilidade marginal de Y como:
∞
X ∞
X
pi• = P (X = xi ) = P (X = xi , Y = yj ) = pij , i = 1, 2, . . .
j=1 j=1
∞
X ∞
X
p•j = P (Y = yj ) = P (X = xi , Y = yj ) = pij , j = 1, 2, . . .
i=1 i=1
Definição 3.5 (Função de probabilidade condicional). Seja (X, Y ) um par aleatório discreto.
Define-se probabilidade condicional de X dado Y = yj como,
P (X = xi , Y = yj ) pij
P (X = xi |Y = yj ) = = , se P (Y = yj ) > 0,
P (Y = yj ) p•j
e probabilidade condicional de Y dado X = xi como
P (X = xi , Y = yj ) pij
P (Y = Yj |X = Xi ) = = , se P (X = xi ) > 0.
P (X = xi ) pi•
Definição 3.6 (Independência entre variáveis aleatórias discretas). As v.a.’s X e Y dizem-se

independentes se, e só se, pij = pi• p•j , ∀i, j.
Exemplo 3.7. Seja (X, Y ) um par aleatório discreto com a seguinte f.p.c.:
X \ Y 0 1 2
0 1/4 1/8 0 3/8
1 1/8 1/8 1/8 3/8
2 0 0 1/4 1/4
3/8 1/4 3/8
(a) Qual a probabilidade de X ser maior que Y ? (Solução: 1/8)
(b) Calcule P (X ≤ 1; Y > 0). (Solução: 3/8)
(c) X e Y são v.a.’s independentes? (Solução: X e Y não são independentes)
(d) Determine a função de probabilidade de X|Y = 2 e calcule E(X|Y = 2).

3.2. PAR ALEATÓRIO CONTÍNUO 19
3.2 Par aleatório contínuo
Definição 3.8 (Par aleatório contínuo). Um par aleatório (X, Y ) diz-se contínuo se existe uma
função não negativa fX,Y tal que, tal que, para qualquer região I ⊂ R2 ,
Z Z
P ((X, Y ) ∈ I) = fX,Y (u, v)dudv.
I
A fX,Y chamamos função densidade probabilidade conjunta ou função densidade conjunta.
Propriedades da função densidade probabilidade conjunta:
1. fX,Y (x, y) ≥ 0, ∀(x, y) ∈ R2 ;

R +∞ R +∞
2. −∞ −∞ fX,Y (x, y)dxdy = 1.
Definição 3.9 (Função densidade de probabilidade marginal). Define-se a função densidade

de probabilidade marginal de X, como:
Z +∞
fX (x) = f(X,Y ) (x, y) dy, ∀x ∈ R
−∞
De modo análogo obtêm-se a função densidade de probabilidade marginal de Y ,

Z +∞
fY (y) = f(X,Y ) (x, y) dx, ∀y ∈ R
−∞
Definição 3.10 (Função densidade condicional). Em todos os pontos (x, y) onde fX,Y é
contínua, fY (y) > 0 e é contínua, a função densidade condicional de X, dado Y = y, existe e
calcula-se como:
fX,Y (x, y)
fX|Y (x|y) = .
fY (y)
De modo análogo, em todos os pontos (x, y) onde fX,Y é contínua, fX (x) > 0 e é contínua, a
função densidade condicional de Y , dado X = x, existe e calcula-se como:
fX,Y (x, y)
fY |X (y|x) = .
fX (x)
Definição 3.11 (Independência entre variáveis aleatórias contínuas). Seja (X, Y ) um par
aleatório contínuo. As variáveis X e Y dizem-se independentes se e só se
fX,Y (x, y) = fX (x)fY (y), ∀ (x, y) ∈ R2

Exemplo 3.12. Os tempos de vida, em centenas de horas, das duas componentes principais de
um sistema de controlo são v.a.’s (X, Y ) com função densidade conjunta
(
cx2 y 0 < x < 3, 0 < y < 2
fX,Y (x, y) =
0 outros valores de (x, y) ∈ R2
(a) Qual o valor de c?
fX,Y (x, y) ≥ 0, ∀ (x, y) ∈ R2 ⇒ c ≥ 0

Z +∞ Z +∞ Z 2 Z 3
1

fX,Y (x, y) dxdy = 1 ⇔ cx2 y dx dy = 1 ⇔ c =
−∞ −∞ 0 0 18
(b) Qual a probabilidade de cada uma das componentes durar mais de 100 horas?
Z 2Z 3
1 13
P (X > 1, Y > 1) = x2 y dxdy =
1 1 18 18
(c) Qual a probabilidade da 1a componente durar mais de 100 horas?

R +∞ R21 2 x2
Como fX (x) = −∞
f(X,Y ) (x, y) dy = 0 18
x y dy = 9 , 0 < x < 3, resulta que:
3 3
x2
Z Z
26
P (X > 1) = fX dx = dx =
1 1 9 27
(d) Os tempos de vida das componentes são independentes?

Como
x2 /9

y/2 0<y<2 0<x<3
fY (y) = fX (x) =
0 o. v. de y 0 o. v. de x
1 2

f (x, y) = 18 x y 0 < x < 3, 0 < y < 2
= fX (x) fY (y)
0 o. v. (x, y)
Conclui-se que X e Y são v.a.’s independentes.
3.3 Momentos de vectores aleatórios

Definição 3.13 (Valor médio). Seja (X, Y ) um par aleatório e g : R2 → R uma função real.
Define-se valor médio ou valor esperado ou média de g(X, Y ) como:
 ∞ ∞
P P
g(xi , yj )pij se X e Y são v.a.’s discretas;




i=1 j=1
E(g(X, Y )) = +∞
R +∞R
g(x, y)fX,Y (x, y)dxdy se X e Y são v.a.’s contínuas.




−∞ −∞
Nota: Uma das funções mais utilizadas é g(x, y) = xy, obtendo-se:

 ∞ ∞
P P
xi yj pij se X e Y são v.a.’s discretas;




i=1 j=1
E(XY ) = +∞
R +∞R
xyfX,Y (x, y)dxdy se X e Y são v.a.’s contínuas.




−∞ −∞
3.3. MOMENTOS DE VECTORES ALEATÓRIOS 21
Definição 3.14 (Covariância). Sendo µX = E(X) e µY = E(Y ), define-se covariância entre

as v.a.’s X e Y por:
Cov (X, Y ) = E [(X − µX ) (Y − µY )] .
Proposição 3.15. Caso exista a covariância entre X e Y , esta pode ser calculada através da
fórmula:
Cov (X, Y ) = E (XY ) − E (X) E (Y ) .
Outras propriedades do valor médio e variância:
1. E(X ± Y ) = E(X) ± E(Y );
2. V (X ± Y ) = V (X) + V (Y ) ± 2 Cov(X, Y ).
Proposição 3.16. Se X e Y são independentes, então E(XY ) = E(X)E(Y ), e consequente-

mente Cov(X, Y ) = 0.
Propriedades da Covariância: Sejam X, Y , e Z v.a.’s, a, b e c constantes

reais. Então:
1. Cov(X, Y ) = Cov(Y, X);
2. Cov(X, X) = V (X);
3. Cov (a + bX, c + dY ) = bd Cov (X, Y );
4. Cov (aX + bY, cZ) = ac Cov (X, Z) + bc Cov (Y, Z).
Definição 3.17 (Coeficiente de correlação). Define-se coeficiente de correlação de (X, Y ) por
Cov (X, Y )
ρ (X, Y ) = p .
V (X) V (Y )
Propriedades do coeficiente de correlação:
1. −1 ≤ ρ (X, Y ) ≤ 1;
2. Se X e Y são v.a.’s independentes, então ρ (X, Y ) = 0.

Capítulo 4
Principais Distribuições
4.1 Distribuições discretas

4.1.1 Distribuição Uniforme
Definição 4.1 (Distribuição Uniforme Discreta). Dizemos que a variável aleatória X segue uma
distribuição Uniforme Discreta de parâmetro n e escrevemos X ∼ U nif (n), ou abreviadamente,
X ∼ U (n), se a função de probabilidade de X é dada por:
(
1 2 ... n 1
X 1 1 ou P (X = x) = , x = 1, . . . , n.
n n . . . n1 n
A respectiva função de distribuição é:






0, x<1
F (x) = k
 n, k ≤ x < k + 1, k = 1, . . . , n − 1 .

 1, x≥n

Proposição 4.2 (Valor médio e Variância). Considere a v.a. X ∼ U nif (n). Então,
n+1 n2 − 1
E(X) = e V (X) = .
2 12
Demonstração. 1
n n
X 1 1X 1 n(n + 1) n+1
E(X) = x = x= × = .
x=1
n n x=1 n 2 2
Para calcular a variância, é mais fácil utilizar o resultado V (X) = E(X 2 ) − E 2 (X). Assim,
n n
2
X 1X 21 1 n(n + 1)(2n + 1) (n + 1)(2n + 1)
E(X ) = x = x2 = × = .
x=1
n n x=1
n 6 6
2
(n+1)(2n+1) n+1 n2 −1
Logo V (X) = 6 − 2 = 12 .
1 n(n+1) n(n+1)(2n+1)
Utilizam-se aqui os resultados, 1 + 2 + 3 + . . . + n = 2
e 12 + 22 + 32 + . . . + n2 = 6
, n ∈ N,
que se podem confirmar por Indução Matemática.
23
24 CAPÍTULO 4. PRINCIPAIS DISTRIBUIÇÕES
4.1.2 Distribuição de Bernoulli
Definição 4.3 (Prova de Bernoulli). Trata-se de um experiência aleatória com apenas dois
resultados possíveis (que se costumam designar por “Sucesso” ou “Insucesso”).
Definição 4.4 (Distribuição de Bernoulli). É sempre possível definir uma variável aleatória X
que toma o valor 1 se o resultado da experiência é “Sucesso” e 0 se é “Insucesso”. Denotando
p = P (“Sucesso”) > 0, então a função de probabilidade de X é dada por:
(
0 1
X ou P (X = x) = px (1 − p)1−x , x = 0, 1, 0 < p < 1.
1−p p
Dizemos que a v.a. X segue uma distribuição de Bernoulli, de parâmetro p, e escrevemos

X ∼ Ber(p).
Proposição 4.5. Seja a v.a. X ∼ Ber(p). Então
E(X) = p e V (X) = p(1 − p).
4.1.3 Distribuição Binomial
Definição 4.6 (Distribuição Binomial). Considere-se uma sucessão de provas de Bernoulli in-
dependentes, onde em cada prova a probabilidade de “sucesso”, p, é constante. A v.a. X=
“número de sucessos em n provas de Bernoulli” segue uma distribuição Binomial de parâmetros
n e p, e escrevemos X ∼ Bin(n, p). A função de probabilidade é:
!
n
P (X = x) = px (1 − p)n−x , x = 0, 1, . . . , n, 0 < p < 1.
x
Bin(n=4 , p=0.25) Bin(n=4 , p=0.5) Bin(n=4 , p=0.75)

0.5
0.5
0.5
0.4
0.4
0.4
0.3
0.3
0.3
P(X=k)
P(X=k)
P(X=k)
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
0 1 2 3 4 0 1 2 3 4 0 1 2 3 4
x x x
Figura 4.1: Gráficos da função de probabilidade de uma v.a. Bin(4, p), para alguns valores de p.
4.1. DISTRIBUIÇÕES DISCRETAS 25
Observação: Pela definição anterior, temos que X = I1 + I2 + . . . + In , onde Ii , i = 1, . . . , n

são v.a.’s independentes com distribuição Ber(p).
Proposição 4.7. Seja X uma variável aleatória com distribuição Bin(n, p). Então a nova v.a.
Y = n − X tem distribuição Bin(n, 1 − p).
Proposição 4.8 (Valor médio e Variância). Considere a v.a. X ∼ Bin(n, p). Então,
E(X) = np e V (X) = np(1 − p).
Demonstração. A demonstração torna-se mais simples se usarmos a representação X = I1 + I2 +

. . . + In , introduzida na última observação. Assim,
E(X) = E(I1 + I2 + . . . + In ) = E(I1 ) + E(I2 ) + . . . + E(In ) = p + p + . . . + p = np.
Atendendo à independência das variáveis Ii ,
V (X) = V (I1 + I2 + . . . + In ) = V (I1 ) + V (I2 ) + . . . + V (In ) = np(1 − p).
Exemplo 4.9 (Exame de P.E. D - 2007/08). Num concurso de televisão o apresentador propõe ao
concorrente o seguinte jogo: atiram-se ao ar 3 moedas, em simultâneo, e se todos os lançamentos
resultarem em caras o apresentador dá 10 e ao concorrente; Se todos os lançamentos resultarem
em coroas o apresentador dá igualmente ao concorrente 10 e. Mas se os lançamentos resultarem
em 2 caras e 1 coroa ou em 2 coroas e 1 cara, o concorrente tem de dar ao apresentador 5 e.
(a) Represente X a quantidade de dinheiro ganha pelo concorrente. Determine a sua função
de probabilidade.
(b) Baseado no valor esperado de X, diga se o concorrente deve aceitar jogar este jogo.
Resolução:
(a) Considere a v.a. Y: “número de caras obtidas em 3 lançamentos de uma moeda (equili-
brada)”. Então como em cada lançamento o resultado é cara (sucesso) ou coroa (insucesso)
e os resultados dos lançamentos são mutuamente independentes, Y ∼ Bin(3, 1/2).
Como P (X = −5) = P (Y = 1) + P (Y = 2) = 3/4 e P (X = 10) = P (Y = 0) + P (Y =
3) = 1/4, resulta a seguinte função de probabilidade:

−5 10
X
3/4 1/4
(b) Como E(X) = −5/4 < 0, o concorrente não deve jogar.

Proposição 4.10 (Aditividade). Sejam Xi , i = 1, . . . , m, m v.a.’s independentes tais que

Xi ∼ Bin(ni , p). Então a sua soma tem também distribuição Binomial, isto é,
m
X
Sm = Xi ∼ Bin(n1 + . . . + nm , p).
i=1
4.1.4 Distribuição Geométrica
Definição 4.11 (Distribuição Geométrica). Considere-se uma sucessão de provas de Bernoulli

independentes, onde em cada prova a probabilidade de “sucesso”, p, é constante. A v.a. X=
“número de provas necessárias até ocorrer o primeiro sucesso” segue uma distribuição Geométrica
de parâmetro p, e escrevemos X ∼ G(p). A função de probabilidade é:
P (X = x) = p(1 − p)x−1 , x = 1, 2, . . . , 0 < p < 1.
Observação: O nome desta distribuição deve-se ao facto da sucessão das probabilidades ser uma
progressão geométrica de razão 1 − p.
G(0.25) G(0.5)
0.5
0.5
0.4
0.4
0.3
0.3
P(X=k)
P(X=k)
0.2
0.2
0.1
0.1
0.0
0.0
0 5 10 15 20 0 5 10 15 20
x x
Figura 4.2: Gráficos da função de probabilidade de uma v.a. G(p), para alguns valores de p.
Proposição 4.12 (Valor médio e Variância). Considere a v.a. X ∼ G(p). Então,

1 1−p
E(X) = e V (X) =
p p2
Demonstração. O cálculo do valor médio e da variância é mais fácil se usarmos alguns dos re-
P∞ k
sultados das séries de funções: Assim seja S(r) = k=0 r uma série geométrica de razão r.
Resulta que:
∞
1
rk = 1−r |r| < 1;
P
1. S(r) = ,
k=0
∞
2. S 0 (r) = krk−1 = 1
|r| < 1;
P
(1−r)2
,
k=1
∞
3. S 00 (r) = k(k − 1)rk−2 = 2
|r| < 1.
P
(1−r)3
,
k=2
Assim,
∞
x p(1 − p)x−1 = p S 0 (1 − p) = p p12 = p1 .
X
E(X) =
x=1
Para se conseguir calcular a variância, de um modo mais fácil, usa-se mais uma vez o resultado
V (X) = E(X 2 ) − E 2 (X). Tem-se,
∞
X ∞
X
E(X 2 ) = x2 p(1 − p)x−1 = x(x − 1 + 1) p(1 − p)x−1 =
x=1 x=1
X∞ ∞
X
x−1
= x(x − 1) p(1 − p) + x p(1 − p)x−1 =
x=1 x=1
∞
x(x − 1) (1 − p)x−2 + E(X) = p(1 − p)S 00 (1 − p) + E(X) =
X
= p(1 − p)
x=2
2(1−p)+p 2−p
= p(1 − p) p23 + 1
p = p2
= p2
Então,
2−p 1 1−p
V (X) = p2
− p2
= p2
.
Proposição 4.13. Temos que F (x) = P (X ≤ x) = 1 − (1 − p)[x] , x ≥ 1, onde [x] representa a

parte inteira de x;
Como as provas de Bernoulli são independentes, a contagem do número de provas necessárias

até ao proximo sucesso pode ser recomeçada em qualquer prova, sem que isso altere a distribuição
da variável aleatória.
Proposição 4.14 (Propriedade da falta de memória da distribuição Geométrica). Seja

X ∼ G(p). Sendo x e y inteiros positivos,
P (X > x + y|X > y) = P (X > x).
4.1.5 Distribuição Hipergeométrica
Definição 4.15 (Distribuição Hipergeométrica). Considere-se uma população de N elemen-

tos, dos quais M possuem determinada característica e os restantes (N − M ) não a possuem
(dicotomia). Considere-se a experiência aleatória que consiste em seleccionar ao acaso e sem
reposição n elementos (amostra). Associada a esta experiência aleatória, defina-se a v.a. X - no
de elementos com a característica, entre os seleccionados sem reposição. Esta v.a. X tem uma
função de probabilidade,
M N −M
x n−x
P (X = x) = N
, max(0, M + n − N ) ≤ x ≤ min(M, n),
n
e diz-se ter distribuição Hipergeométrica de parâmetros (N, M, n) (pode ser escrito abreviada-
mente X ∼ H(N, M, n)).
Proposição 4.16 (Valor médio e Variância). Seja a v.a. X ∼ H(N, M, n). Então:
E(X) = n M
N e M
V (X) = n N 2 (N −1)
(N − M )(N − n).
Exemplo 4.17. Num aquário existem 9 peixes, dos quais 5 estão saudáveis (S) e os restantes 4
estão doentes (D). Considere-se a experiência aleatória: extracção ao acaso e sem reposição de
3 peixes e registo do seu estado de saúde. Associada a esta experiência, considere-se a v.a. X -
número de peixes saudáveis na amostra extraída de 3 peixes. Quantos peixes saudáveis esperamos
encontrar em cada extracção?
Resposta: Como X ∼ H(9, 5, 3), o número de peixes saudáveis, que esperamos encontrar em
cada extracção de 3 peixes, é E(X) = 5/3.
Nota: Em situações em que se conhece totalmente a composição da população e há apenas dois

resultados possíveis, a distribuição Binomial caracteriza extracções com reposição. Se não houver
reposição, a distribuição adequada é a Hipergeométrica. Quando n é pequeno, relativamente
ao valor de N , a probabilidade de sucesso em cada tiragem sem reposição varia muito pouco
de prova para prova (na distribuição Binomial este valor é constante). Este argumento permite-
nos aproximar o(s) valor(es) da(s) probabilidade(s) pela distribuição Hipergeométrica, pelo(s)
valor(es) da(s) probabilidade(s) pela distribuição Binomial.
Aproximação da distribuição Hipergeométrica pela distribuição Binomial:
n
Seja X uma v.a. tal que X ∼ H(N, M, n). Então, caso N ≤ 0.1, isto é, caso
o tamanho da amostra seja muito pequeno em relação ao tamanho da população,
podemos aproximar a distribuição de X pela distribuição Bin(n, p), com p = MN,
ou seja,
!
(M )(N −M ) n
P (X = x) = x Nn−x ≈ (M/N )x (1 − M/N )n−x .
(n) x
4.1.6 Distribuição de Poisson
Definição 4.18 (Processo de Poisson). Suponha que estamos interessados em estudar a variável
aleatória X que conta o número de ocorrências de um acontecimento num dado intervalo de
tempo2 de duração t (por exemplo, o número de acidentes rodoviários ocorridos num dia ou o
número de clientes que entram numa loja durante 1 hora). Temos um processo de Poisson de
parâmetro λ > 0, quando se verificam as seguintes condições:
1. A probabilidade p de ocorrer exactamente um acontecimento num intervalo de amplitude

arbitrariamente pequena d é proporcional à sua duração, isto é, p = λd;
2. A probabilidade de ocorrer mais do que um acontecimento num intervalo de amplitude

arbitrariamente pequena é aproximadamente igual a zero;
3. O número de acontecimentos que ocorrem em dois intervalos disjuntos são independentes.
4. O número de ocorrências em dois intervalos com a mesma duração, têm a mesma dis-
tribuição.
Para deduzir a função de probabilidade, vamos considerar um intervalo unitário (t = 1),

dividido em n sub-intervalos, todos com amplitude d = 1/n, com n suficientemente
grande. Nas condições acima indicadas, o número de ocorrências em cada sub-intervalo
é bem aproximado por uma v.a. Ber(p), com p = λ/n. Então X tem aproximadamente
distribuição Bin(n, λ/n), isto é,
!
n λ x
λ n−x

P (X = x) ≈ n 1− n , x = 0, 1, . . . , n.
x
Se n → ∞,
!
n λ x
λ n−x
e−λ λx
P (X = x) = lim n 1− n = x = 0, 1, . . . , n.
n→∞ x x!
Definição 4.19 (Distribuição de Poisson). Dizemos que a variável aleatória X segue uma
distribuição de Poisson de parâmetro λ, e escrevemos X ∼ P (λ), se a função de probabilidade
de X é:
e−λ λx
P (X = x) = , x = 0, 1, 2, . . . , λ > 0.
x!
Observação: Se num processo de Poisson, os acontecimentos acorrem a uma taxa média λ,

por unidade de tempo, então o número de ocorrências num intervalo de amplitude t > 0 tem
distribuição de Poisson de parâmetro λt.
2
Note que podemos também considerar uma área, um volume, etc.
Por exemplo, se durante a hora de almoço (das 12 às 14 horas) a chegada de automóveis a um

parque se processa a uma taxa de 180 automóveis por hora e tem distribuição de Poisson, então
a distribuição do número de automóveis que chegam em 15 minutos é Poisson com parâmetro
1
λt = 180 × 4 = 45. A distribuição do número de automóveis que chegam durante a hora do
almoço é Poisson de parâmetro λt = 180 × 2 = 360.
P(2) P(10)
0.00 0.05 0.10 0.15 0.20 0.25 0.30
0.00 0.05 0.10 0.15 0.20 0.25 0.30

P(X=k)
P(X=k)
0 5 10 15 20 0 5 10 15 20
x x
Figura 4.3: Função de probabilidade de uma v.a. P (λ), para alguns valores de λ.
Proposição 4.20 (Valor médio e Variância). Seja X uma v.a. com distribuição P (λ). Então,
E(X) = λ e V (X) = λ.
Aproximação da distribuição Binomial pela distribuição de Poisson
Seja X uma v.a. tal que X ∼ Bin(n, p). É possível de verificar que
!
n x λx
lim p (1 − p)(n−x) = e−λ , x = 0, 1, 2, . . .
n→∞
np→λ
x x!
Então, caso n ≥ 50 e np ≤ 5, pode-se aproximar a distribuição de Binomial pela

distribuição de Poisson com λ = np.
Teorema 4.21 (Aditividade). Sejam X1 , X2 , . . . , Xm variáveis aleatórias independentes com

Xi ∼ P (λi ), i = 1, . . . , m. Então,
m
X
Sm = Xi ∼ P (λ1 + . . . + λm ).
i=1
4.2. DISTRIBUIÇÕES CONTÍNUAS 31
4.2 Distribuições Contínuas
4.2.1 Distribuição Uniforme Contínua
Definição 4.22 (Distribuição Uniforme Contínua). Dizemos que a variável aleatória X segue
uma distribuição Uniforme (contínua) no intervalo [a, b], −∞ < a < b < +∞, e escrevemos
X ∼ U nif (a, b), ou X ∼ U (a, b), se a função densidade probabilidade de X é dada por:
(
1
b−a , a≤x≤b
f (x) =
0, c.c.
A respectiva função de distribuição é dada por,




 0, x<a
x−a
F (x) = b−a , a≤x<b

x≥b

 1,
f (x)
6
F (x)
6
1
b−a
1

-
-
a b x a b x
Figura 4.4: Função densidade (esquerda) e função de distribuição (direita) de uma v.a. U (a, b).
Proposição 4.23 (Valor médio e Variância). Seja a v.a. X ∼ U (a, b). Então:
a+b (b − a)2
E(X) = e V (X) = .
2 12
Demonstração.
" #a
x2 b2 − a2
Z +∞ Z b
x a+b
E(X) = xf (x)dx = dx = = =
−∞ a b−a 2(b − a) b
2(b − a) 2
Como,
" #a
x2 x3 b2 + ab + a2
Z +∞ Z b
2 2
E(X ) = x f (x)dx = dx = = ,
−∞ a b−a 3(b − a) b
3
resulta que a variância é
b2 + ab + a2 (a + b)2 b2 + a2 − 2ab (b − a)2

V (X) = E(X 2 ) − E 2 (X) = − = = .
3 4 12 12
O caso particular da distribuição Uniforme com a = 0 e b = 1 é o que apresenta mais interesse,

devido ao seguinte teorema:
Teorema 4.24 (Teorema da Transformação Uniformizante). Seja X uma variável aleatória

contínua, com função de distribuição FX (x). Então a variável aleatória Y = FX (X) tem dis-
tribuição U (0, 1).
4.2.2 Distribuição Exponencial
Começamos por introduzir a função Gama, presente em muitos livros de Análise Matemática.
A função Gama corresponde ao integral:

Z ∞
Γ(a) = xa−1 e−x dx, a>0 (4.1)
0
Propriedades da função Gama:
1. Γ(α + 1) = αΓ(α);
2. Γ(n) = (n − 1)!, n∈N

√
3. Γ(1/2) = π
R ∞ α−1 −βx
4. 0 x e dx = Γ(α)
βα .
Definição 4.25 (Distribuição Exponencial). Uma variável aleatória X diz-se seguir uma dis-
tribuição Exponencial de parâmetro λ, e escrevemos X ∼ Exp(λ), se a sua função densidade
probabilidade for dada por:
(
0, x ≤ 0;
f (x) = −λx λ > 0.
λe , x > 0;
A sua função de distribuição é dada por:

(
0, x≤0
F (x) =
1 − e−λx , x > 0
Função densidade Exponencial Função de distribuição Exponencial
1.0
1.0
λ=1 λ=1
λ=2 λ=2
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
0 1 2 3 4 0 1 2 3 4
x x
Figura 4.5: Função densidade (esquerda) e função de distribuição (direita) de uma v.a. Exp(λ).
Proposição 4.26 (Valor médio e Variância). Considere a v.a. X ∼ Exp(λ). Então,

1 1
E(X) = e V (X) = .
λ λ2
Demonstração. Vamos utilizar as propriedades da função Gama para calcular o valor médio.
Assim,
Z +∞ Z ∞ Z ∞
−λx Γ(2) 1
E(X) = xf (x)dx = xλ e dx = λ x2−1 e−λx dx = λ 2
= .
−∞ 0 0 λ λ
1
De modo análogo se calcula E(X 2 ) e se verifica que V (X) = λ2
.
Proposição 4.27 (Relação entre a distribuição Exponencial e Poisson). Considere um acon-

tecimento que ocorre de acordo com um Processo de Poisson de parâmetro λ, por unidade de
tempo. Então, o tempo até à primeira ocorrência e o tempo entre duas ocorrências consecutivas
tem distribuição Exp(λ).
Exemplo 4.28. Admita que o número de avarias de uma fotocopiadora é um processo de Poisson
com taxa λ =5/ano. Calcule a probabilidade do tempo entre avarias consecutivas ser inferior a
um mês.
Resolução: O tempo X entre avarias consecutivas tem distribuição Exp(5). Assim, a probabili-
dade pedida é:
P (X < 1/12) = FX (1/12) = 1 − e−λ/12 = 1 − e−5/12 = 0.3408.
Teorema 4.29 (Falta de memória da distribuição exponencial). Seja X ∼ Exp(λ). Então:
P (X ≥ x + y|X ≥ y) = P (X ≥ x).
4.2.3 Distribuição Gama
A distribuição Gama é uma generalização da distribuição Exponencial.
Definição 4.30 (Distribuição Gama). Uma variável aleatória X tem distribuição Gama de
parâmetros α > 0 e λ > 0, e escrevemos X ∼ G(α, λ), se a sua função densidade probabilidade
for dada por:
(
0, x ≤ 0;
f (x) = 1 α α−1
Γ(α) λ x e−λx , x > 0;
e a sua função de distribuição é dada por:

(
0, x≤0
F (x) = Rx 1 α α−1
0 Γ(α) λ t e−λt dt, x > 0
Proposição 4.31 (Valor médio e Variância). Considere a v.a. X ∼ G(α, λ). Então,
α α
E(X) = e V (X) = .
λ λ2
Só é possível determinar a função de distribuição se α ∈ N. Considere a v.a. X ∼ G(α, λ),

com α ∈ N (neste caso particular a distribuição é também conhecida por distribuição de Erlang).
Então a a sua função densidade probabilidade é:
(
0, x ≤ 0;
f (x) = 1 α α−1
(α−1)! λ x e−λx , x > 0;
e a sua função de distribuição é dada por:



 0, x≤0
F (x) = α−1
−λx (λx)i
 1−e
P

i! , x>0
i=0
Proposição 4.32 (Distribuição da soma de Exponenciais i.i.d.). Sejam Xi , i = 1, 2, . . . , n

variáveis aleatórias independentes com distribuição Exp(λ), então,
n
X
Sn = Xi ∼ G(n, λ).
i=1
Exemplo 4.33. Admita que o número de avarias de uma fotocopiadora é um processo de Poisson
com taxa λ =5/ano. O tempo Y que decorre até à segunda avaria é uma variável aleatória
G(2, 5). A probabilidade da segunda avaria ocorrer após 6 meses é
1
(5/2)i
P (Y > 1/2) = 1 − P (Y ≤ 1/2) = 1 − 1 − e−5/2 = e−5/2 ×
X
7
2 = 0.2873
i=0
i!
4.2.4 Distribuição Normal
Definição 4.34 (Distribuição Normal). Uma variável aleatória X diz-se seguir uma distribuição
Normal de parâmetros µ e σ 2 , e escrevemos X ∼ N (µ, σ 2 ), se a sua função densidade probabili-
dade for dada por:
1 (x−µ)2
f (x) = √ e− 2σ2 , x ∈ R, µ ∈ R, σ > 0.
2πσ
A função de distribuição é dada pelo integral:
Z x (t−µ)2
1
F (x) = √ e− 2σ2 dt,
−∞ 2πσ
para o qual não existe solução analítica. É assim necessário recorrer a métodos numéricos para
obter os valores desta função.
Função densidade normal Função de distribuição normal

0.4
1.0
µ=0, σ=1 µ=0, σ=1
µ=0, σ=1.5 µ=0, σ=1.5
0.8
0.3
0.6
0.2
0.4
0.1
0.2
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4
x x
Figura 4.6: Função densidade (esquerda) e função de distribuição (direita) de uma v.a. N (µ, σ).
Observações:
• Esta distribuição é também conhecida pelo nome de Gaussiana ou distribuição de Gauss.
• Quando µ = 0 e σ = 1, a v.a. toma o nome de Normal reduzida. Neste caso é costume

representar por φ e Φ , respectivamente, a função densidade e função de distribuição.
• A distribuição Normal é simétrica em torno de µ.
Proposição 4.35 (Valor médio e Variância). Seja a v.a. X ∼ N (µ, σ 2 ). Então
E(X) = µ e V (X) = σ 2 .
Teorema 4.36. Seja X ∼ N (µ, σ 2 ). Resulta que,

X −µ
Z= ∼ N (0, 1).
σ
Teorema 4.37. Se X ∼ N (µ, σ 2 ) e a, b são constantes reais, com a 6= 0, então
Y = aX + b ∼ N (aµ + b, a2 σ 2 ).
Teorema 4.38. Sejam X1 , X2 , . . . , Xn , n variáveis aleatórias independentes com distribuições

Xi ∼ N µi , σi2 , i = 1, 2, . . . , n. Considerando as constantes reais a1 , a2 , . . . , an , com algum

ai 6= 0, temos que:
Y = a1 X1 + . . . + an Xn ∼ N a1 µ1 + . . . + an µn , a21 σ12 + . . . + a2n σn2 .

| {z } | {z }
=µY 2
=σY
Note que:
n
X n
X n
X

µY = E(Y ) = E ai Xi = ai E (Xi ) = a i µi
i=1 i=1 i=1
Xn Xn Xn
σY2 a2i V (Xi ) = a2i σi2

= V (Y ) = V ai Xi =
i=1 i=1 i=1
4.2.5 Distribuição do Qui Quadrado
Definição 4.39 (Distribuição do Qui Quadrado). Uma variável aleatória X diz-se seguir uma
distribuição Qui-quadrado com n graus de liberdade, e escrevemos X ∼ χ2n , se a sua função
densidade probabilidade for dada por:

 1
Γ(n/2)2n/2
e−x/2 xn/2−1 , x>0
f (x) = ,
 0, x≤0
onde Γ representa a função Gama, introduzida em (4.1).
Função densidade do Qui Quadrado Função de distribuição do Qui Quadrado

1.0
1.0
n=1 n=1
n=3 n=3
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
0 1 2 3 4 0 1 2 3 4
x x
Figura 4.7: Função densidade (esquerda) e função de distribuição (direita) de uma v.a. χ2n .
Proposição 4.40. Considere a v.a. X ∼ χ2n . Então,
E(X) = n, e V (X) = 2n.
Teorema 4.41. Sejam X1 , X2 , . . . , Xn v.a.’s independentes com distribuição Normal Reduzida.

Então,
Xi2 ∼ χ21 ,
Y = X12 + X22 + . . . + Xn2 ∼ χ2n .
4.2.6 Distribuição t de Student
Definição 4.42 (Distribuição t de Student). Uma v.a. T diz-se ter distribuição t de Student
com n graus de liberdade, e escreve-se T ∼ tn , se a sua função densidade probabilidade é dada
por:

n+1
Γ 2 (n+1)
t2 −

f (t) = n
√ 1+ n
2
, t ∈ R.
Γ 2 nπ
Função densidade Função de distribuição

0.4
1.0
n=1 n=1
n=3 n=3
0.8
0.3
0.6
0.2
0.4
0.1
0.2
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4
x x
Figura 4.8: Função densidade (esquerda) e função de distribuição (direita) de uma v.a. tn .
Proposição 4.43 (Valor médio e Variância). Seja X ∼ tn . Então,

n
E(X) = 0, n > 1, e V (X) = , n > 2.
n−2
Teorema 4.44. Sejam X ∼ N (0, 1) e Y ∼ χ2n , com X e Y independentes. Então a variável

aleatória,
X
T =p ,
Y /n
tem distribuição t de Student com n graus de liberdade.
Capítulo 5
Teorema Limite Central
Apresentamos neste capítulo, um dos mais importantes resultados da teoria das probabilidades e
da estatística, o Teorema Limite Central. Este teorema dá-nos a distribuição aproximada da soma
de n variáveis aleatórias independentes e identicamente distribuídas.
Teorema 5.1 (Teorema Limite Central). Seja X1 , X2 . . . , uma sucessão de variáveis aleatórias
independentes e identicamente distribuídas (i.i.d.), com valor médio µ e variância σ 2 6= 0, finitos.
Pn
Considere as variáveis aleatórias Sn e Zn , definidas por Sn = i=1 Xi e,
Sn − nµ
Zn = √ . (5.1)
nσ
Então a distribuição de Zn converge para uma distribuição Normal reduzida, quando n → +∞,
isto é,
Sn − nµ a
Zn = √ ∼ N (0, 1).
nσ
Observação: Se no quociente da equação (5.1), que define Zn , dividirmos tanto o numerador

como o denominador por n, obtemos
√ Xn − µ
Zn = n ,
σ
onde X n representa a média Sn /n. O Teorema Limite Central pode assim também ser enunciado
em relação à média das variáveis aleatórias Xi , em vez da soma, Sn .
Observação: O Teorema Limite Central não indica nada sobre a velocidade de convergência de
Zn para a distribuição N (0, 1). Essa velocidade de convergência depende da distribuição das
v.a.’s Xi . Na prática, este teorema usa-se muitas vezes quando n ≥ 30 (embora este valor nem
sempre garanta uma boa aproximação).
Exemplo 5.2. Num estudo sobre vendas num hipermercado, concluiu-se que a procura diária de
arroz (em Kg) é uma v.a. com valor médio 40Kg e desvio-padrão 5Kg. Tendo sido encomendado
14.500Kg de arroz para venda venda no próximo ano, qual a probabilidade deste stock cobrir a
procura de arroz nesse período? (Considere-se um ano com 364 dias).
39
40 CAPÍTULO 5. TEOREMA LIMITE CENTRAL
Resolução: Seja Xi = procura de arroz no dia i, i = 1, 2, . . . , 364 e admitamos que estas v.a.’s
são i.i.d.. Sabemos que:
E (Xi ) = 40Kg, V (Xi ) = 25Kg 2 , i = 1, 2, . . . , 364.

364
X
A procura de arroz durante um ano será S364 = Xi e queremos calcular P (S364 ≤ 14.500).
i=1
Ignoramos qual a distribuição de S364 , mas como se trata de uma soma de um grande número de
v.a.’s i.i.d. (364 > 30), então pelo T.L.C.,
S364 − 364 × 40 S364 − 14.560 a

√ = √ ∼ N (0, 1).
364 × 5 364 × 5
Assim,
S364 − 14.560 14.500 − 14.560

P (S364 ≤ 14.500) = P √ ≤ √ ≈
364 × 5 364 × 5
≈ P (Z ≤ −0.63) = Φ (−0.63) = 1 − Φ (0.63) = 1 − 0.7357 = 0.2643.
Conclusão: “É recomendável comprar mais arroz!”
Corolário 5.3. Seja X uma v.a. com distribuição Binomial de parâmetros n e p. Se n ≥ 30 e p

tal que np > 5 e n(1 − p) > 5, então:
a
X ∼ N (np, np(1 − p)).
Exemplo 5.4. Considere-se a v.a. X ∼ Bin (100, 0.1). Calculemos P (X = 10) Como n =
100 ≥ 30, np = 100 × 0.1 = 10 > 5 e n(1 − p) = 100 × 0.9 = 90,
10−10 9−10

P (X = 10) = P (X ≤ 10) − P (X ≤ 9) ≈ Φ 3 −Φ 3 = Φ(0) − Φ(−0.33) =
= 0.5 − 0.3707 = 0.1293.
100 10 90
Nota: O valor exacto é P (X = 10) = 10 0.1 0.9 = 0.1319.
Corolário 5.5. Seja X uma v.a. com distribuição Poisson de parâmetro λ. Se λ > 5, então:
a
X ∼ N (λ, λ).
Exemplo 5.6. Considere X ∼ P (230). Calculemos um valor aproximado de P (X = 241).

241−230 240−230
P (X = 241) = P (X ≤ 241) − P (X ≤ 240) ≈ P Z ≤ √
230
−P Z ≤ √
230
=
= Φ(0.73) − Φ(0.66) = 0.7673 − 0.7454 = 0.0219
241
Nota: O valor exacto é P (X = 241) = e−230 . 230
241! = 0.0198.
Capítulo 6
Estimação Pontual
6.1 Alguns conceitos importantes
Definição 6.1 (População). Uma população consiste em todas as possíveis observações de um

dado fenómeno.
Definição 6.2 (Amostra). Uma amostra é um subconjunto da população.
Observação: Nos métodos estatísticos, que iremos estudar, a amostra recolhida deve ser repre-
sentativa da população. Caso isso não aconteça, podemos retirar conclusões erradas. É assim
conveniente escolher os elementos da amostra de forma aleatória, ou seja, trabalhar com uma
amostra aleatória.
Definição 6.3 (Amostra aleatória). Vamos admitir que cada valor observado xi é a realização
da variável aleatória Xi , com função de distribuição F . O vector (X1 , X2 , . . . , Xn ) constitui uma
amostra aleatória se e só se as n variáveis aleatórias são independentes e têm todas a mesma
distribuição. Os valores que se obtêm por concretização da amostra aleatória são representados
por (x1 , x2 , . . . , xn ).
Definição 6.4 (Estatística). Uma estatística é uma qualquer função da amostra aleatória,
(X1 , X2 , . . . , Xn ), que não depende de qualquer parâmetro desconhecido.
Observação: Da definição anterior, conclui-se que uma estatística é uma variável aleatória. Logo
qualquer estatística tem função de distribuição. A essa função de distribuição dá-se o nome de
distribuição por amostragem da estatística.
Exemplo 6.5 (Estatística). Dada uma amostra aleatória (X1 , X2 , . . . , Xn ), de dimensão n, são
estatísticas: A média amostral (X), a variância amostral (S 2 ), o mínimo da amostra, o máximo
da amostra, a mediana, os quartis ou a própria amostra.
41
42 CAPÍTULO 6. ESTIMAÇÃO PONTUAL
Definição 6.6 (Estimador pontual e estimativa pontual). Seja (X1 , X2 , . . . , Xn ) uma amostra
aleatória de dimensão n duma população com função de distribuição F (x|θ), com parâmetro
desconhecido θ. A estatística Θ̂ = h(X1 , X2 , . . . , Xn ) é um estimador pontual de θ. Depois da
amostra ter sido recolhida, o valor particular de θ̂ = h(x1 , x2 , . . . , xn ), é designado estimativa
pontual de θ.
Tabela 6.1: Alguns dos parâmetros populacionais que interessam estimar e respectivos estimadores
pontuais.
Parâmetro Populacional Estimador Pontual

Média populacional Média amostral
n
1 P
µ X= n Xi
i=1
Variância populacional Variância amostral
n
1
σ2 S2 = (Xi − X)2
P
n−1
i=1
Desvio padrão populacional Desvio padrão amostral
s
n
1
(Xi − X)2
P
σ S= n−1
i=1
Proporção populacional Proporção amostral
p P̂ = Xn
6.2 Propriedades dos estimadores
Um dos principais objectivos da Estatística é a estimação de parâmetros desconhecidos, como

por exemplo a média da população, a partir de uma amostra. Como muitas vezes temos vários
estimadores para o mesmo parâmetro, qual devemos utilizar? É aconselhável a escolha do es-
timador que melhor satisfaça um critério de eficiência. Para definir o critério de eficiência que
iremos utilizar, precisamos das seguintes definições:
Definição 6.7 (Estimador centrado e assintoticamente centrado). Um estimador pontual,

Θ̂, diz-se centrado para o parâmetro θ se e só se
E(Θ̂) = θ.
Caso E(Θ̂) 6= θ, o estimador diz-se enviesado. A diferença b(Θ̂) = E(Θ̂) − θ corresponde ao

valor do enviesamento ou viés de Θ̂. Se E(Θ̂) 6= θ, e limn→∞ E(Θ̂) = θ, diz-se que o estimador
é assintoticamente centrado.
6.2. PROPRIEDADES DOS ESTIMADORES 43
Definição 6.8 (Erro Padrão de um estimador). Dado um estimador pontual Θ̂, centrado,
define-se o seu erro padrão, SEΘ̂ , por
q
SEΘ̂ = V (Θ̂).
Caso o erro padrão envolva parâmetros desconhecidos, que possam ser estimados a partir dos
valores da amostra, a substituição destes valores estimados no erro padrão produz o chamado
d .
erro padrão estimado, denotado por SE Θ̂
Definição 6.9 (Eficiência). Sejam Θ̂1 e Θ̂2 dois estimador pontuais, centrados para θ. Diz-se
que Θ̂1 é mais eficiente que Θ̂2 , se e só se, SEΘ̂1 ≤ SEΘ̂2 .
Exemplo 6.10 (Cálculo do erro padrão do estimador da média da população - µ). Seja
(X1 , X2 , . . . , Xn ) uma amostra aleatória de uma população com valor médio µ e variância σ 2 .
Como,
n
1 X n n
1X 1X 1
E(X) = E Xi = E(Xi ) = µ = nµ = µ,
n i=1
n i=1 n i=1 n
concluímos que X é estimador centrado do valor médio da população, µ. Temos ainda,

n n
! !
1X 1
(Xi v.a.0 s independentes)
X
V (X) = V Xi = 2V Xi =
n i=1 n i=1
n n
1 X 1 X 1 σ2
= V (Xi ) = σ2 = nσ 2
= ,
n2 i=1
n2 i=1
n2 n
σ
q
ou seja, SEX = V (X) = √ .
n
O próximo resultado é importante porque indica-nos o limite inferior da variância de um

estimador centrado. Um estimador com variância igual ao valor mínimo é mais eficiente do que
qualquer outro estimador centrado.
Definição 6.11 (Limite inferior de Cramér-Rao). Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória
retirada de uma população com função densidade f (x|θ) (ou função de probabilidade P (X|θ)),
satisfazendo as condições de regularidade (f duas vezes diferenciável e com suporte independente
de θ). Dado um estimador pontual Θ̂, centrado para θ,
1
V (Θ̂) ≥ ,
nI(θ)
∂ 2 ln f (X|θ)

com I(θ) = −E ∂θ2
.
Exemplo 6.12 (Limite inferior de Cramér-Rao do modelo Poisson). Seja (X1 , X2 , . . . , Xn )

uma amostra aleatória retirada de uma população com distribuição Poisson de parâmetro λ. Como
ln[P (X|λ)] = −λ + X ln λ − ln(X!), resulta que
∂ ln P (X|λ) X ∂ 2 ln P (X|λ) 1
= −1 + ; e 2
= − 2.
∂λ λ ∂λ λ
Logo,
∂ 2 ln P (X|λ) 1
I(λ) = −E = .
∂λ2 λ2
Conclui-se assim que, V (λ̂) ≥ 1
nI(λ) = nλ , para qualquer estimador λ̂, centrado para λ.
Definição 6.13 (Estimador consistente). Um estimador pontual Θ̂, centrado para θ, diz-se
consistente se
lim V (Θ̂) = 0.
n→∞
Exemplo 6.14 (Consistência da Média amostral). Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória
de uma população com valor médio µ e variância σ 2 . Sabemos que X é estimador centrado do
σ2
valor médio da população, µ e V (X) = n . Como ,
σ2
lim V (Θ̂) = = 0,
n→∞ n
concluímos que X é consistente para µ.
6.3 Método dos Momentos

Definição 6.15 (Método dos Momentos). Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória, reti-
rada de uma população cuja distribuição depende de k parâmetros desconhecidos, θ1 , θ2 , . . . , θk .
O método dos momentos consiste em utilizar os momentos da amostra para estimar os respectivos
momentos da população, e consequentemente os parâmetros desconhecidos. Os estimadores de
momentos, θ̂1 , θ̂2 , . . . , θ̂k , são os que resultam da resolução do sistema de k equações a k incóg-
nitas,



 m1 = M1
mj = E(X j ) (m1 = E(X))

m2 = M2





m3 = M3 onde
n

 .. Mj = 1 P
Xij (M1 = X)
.

n




 i=1
 m = Mk
k
Observação: Caso alguma das k equações não contenha qualquer informação sobre os parâmet-
ros, essa equação deve ser substituída pela equação µj = Mj , com j > k.
6.3. MÉTODO DOS MOMENTOS 45
Inconvenientes:
1. Por vezes não existe uma escolha unívoca;
2. Por vezes a solução é inadmissível;
Exemplo 6.16 (Estimador dos momentos do parâmetro λ, do modelo Poisson). Considere

uma população com distribuição P (λ). O estimador dos momentos de λ é a solução da equação:
E(X) = X ⇔ λ = X.
O estimador dos momentos de λ é, λ̂ = X.
Exemplo 6.17 (Estimador dos momentos de σ 2 do modelo N (0, σ 2 )). Seja (X1 , X2 , . . . , Xn )
uma amostra aleatória, retirada de uma população com distribuição Normal de valor médio 0
(conhecido) e variância σ 2 (desconhecida). A solução da primeira equação é:
E(X) = X ⇔ 0 = X.
Contudo, como esta primeira equação não contém o parâmetro que interessa estimar, devemos
considerar a segunda equação:
E(X 2 ) = M2 ⇔ E(X 2 ) = V (X) + E 2 (X) = M2 ⇔ σ 2 = M2 .
n X2
O estimador dos momentos de σ 2 é, σ̂ 2 =
P i
n .
i=1
Exemplo 6.18 (Estimadores dos momentos dos parâmetro a e b, do modelo Uniforme).

Considere uma população com distribuição U (a, b). Os estimadores dos momentos de a e b são
os que resultam da resolução do sistema de equações:
  q
a+b  a = X − 3(M − X 2 )
(
E(X) = X 
2 =X 2
⇔ 2
2 ⇔ q ,
m2 = M2  (b−a) + a+b = M2 2
12 2

b=X+ 3(M2 − X )
ou seja os estimadores dos momentos de a e b são,

q q
2 2
â = X − 3(M2 − X ) e b̂ = X + 3(M2 − X );
6.4 Método da máxima verosimilhança

Este método é um pouco mais complicado que o anterior. Contudo, os estimadores obtidos por
este método têm melhores propriedades teóricas. O método é apresentado apenas para populações
cuja distribuição tem apenas um parâmetro desconhecido.
Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória, isto é, um conjunto de n v.a.’s i.i.d. com função
densidade comum f (x|θ) onde θ é um parâmetro desconhecido. A função densidade conjunta da
amostra aleatória é
n
Y
f (x1 , x2 , . . . , xn |θ) = f (xi |θ).
i=1
Observação: Caso a população tenha distribuição discreta, devemos substituir a função densi-
dade pela função de probabilidade.
Definição 6.19 (Função de verosimilhança e log-verosimilhança). Depois da amostra ser

observada, os valores x1 , x2 , . . . , xn são conhecidos e podemos considerar que a função anterior
depende apenas de θ. Esta função é designada função de verosimilhança e costuma representar-se
por:
n
Y
L(θ) = L(θ|x1 , x2 , . . . , xn ) = f (xi |θ).
i=1
É geralmente mais fácil trabalhar com a função log-verosimilhança, isto é, com o logaritmo da
função verosimilhança:
n
X
l(θ) = ln L(θ) = ln f (xi |θ).
i=1
Exemplo 6.20 (Função log-verosimilhança do modelo de Poisson(λ)). Considere uma popu-

lação com distribuição Poisson com parâmetro desconhecido λ. Então, observada a amostra
(x1 , x2 , . . . , xn ), e admitindo que xi ∈ N0 , i = 1, 2 . . . , n, a função log-verosimilhança é:
n n n
!
xi
−λ λ
X X X
l(λ) = ln L(λ) = ln e = −nλ + xi ln λ − ln(xi !).
i=1
xi ! i=1 i=1
Definição 6.21 (Método da máxima verosimilhança:). O estimador de máxima verosimilhança

de θ é obtido por maximização da função verosimilhança, ou equivalentemente da função log-
verosimilhança, com respeito a θ. O estimador de máxima verosimilhança é denotado por θ̂M LE ,
mas para simplificação da notação representa-se apenas por θ̂. Então:
max l(θ) = l(θ̂)

θ
6.5. DISTRIBUIÇÕES POR AMOSTRAGEM 47
Se L(θ), ou equivalentemente l(θ), é regular (duas vezes diferenciável e com suporte inde-
pendente de θ) o máximo é obtido por derivação, isto é, é obtido através da resolução de:
∂ l(θ) ∂ 2 l(θ)
= 0, e < 0.
∂θ ∂θ2
Exemplo 6.22 (Estimador de máxima verosimilhança do parâmetro do modelo de Poisson).

Considere a função log-verosimilhança do exemplo 6.20. Como l(λ) é regular, o estimador de
máxima verosimilhança é a solução da equação
n n
∂l(λ) 1X X
=0 ⇔ −n + xi = 0 ⇔ λ= xi /n,
∂λ λ i=1 i=1
isto é, o estimador de máxima verosimilhança de λ é λ̂ = X.
Propriedades dos estimadores de máxima verosimilhança
1. Os estimadores de máxima verosimilhança são assintoticamente centrados, isto é,

lim E(θ̂) = θ;
n→∞
2. Os estimadores de máxima verosimilhança são consistentes;
3. Em condições gerais de regularidade, o estimador de máxima verosimilhança de θ

1
tem distribuição assintoticamente normal de valor médio θ e variância nI(θ) ;
4. A propriedade da invariância é válida para qualquer estimador de máxima verosim-

ilhança, isto é, se θ̂ é um estimador de máxima verosimilhança de θ e se β = g(θ)
é uma função biunívoca de θ, então o estimador de máxima verosimilhança de β
é β̂ = g(θ̂);
6.5 Distribuições por Amostragem
Nesta secção vamos estudar a distribuição por amostragem dos estimadores pontuais da Tabela
6.1.
6.5.1 Distribuição por amostragem da média amostral, X
Suponhamos que foi seleccionada uma amostra aleatória de dimensão n, (X1 , X2 , . . . , Xn ), de

uma população de média µ e variância σ 2 . A distribuição por amostragem de X pode ser obtida
sob diversas condições:
1. Suponhamos a população tem distribuição Normal e que o valor da variância da pop-

ulação é conhecido. Consequentemente, tendo em conta as propriedades da distribuição
normal, X ∼ N (µ, σ 2 /n), ou seja,
X −µ
Z= √ ∼ N (0, 1). (6.1)
σ/ n
2. Suponhamos a população tem distribuição Normal e que o valor da variância da

população é desconhecido. Vamos aqui usar S 2 para estimar σ 2 . Nestas condições,
X −µ (n − 1)S 2
Z= √ ∼ N (0, 1) e ∼ χ2n−1 .
σ/ n σ2
Como a população tem distribuição Normal, podemos assegurar que Z e S 2 são v.a. inde-
pendentes (demonstração fora do âmbito desta disciplina). Pelo Teorema 4.44,
√ X−µ
X −µ σ/ n
T = √ =r ∼ tn−1 . (6.2)
S/ n (n−1)S 2 /σ 2
(n−1)
3. Suponhamos que a população tem distribuição não-Normal e que o valor da variância

da população é conhecida, mas a dimensão da amostra, n, é superior ou igual a 30.
Neste caso, a distribuição por amostragem da média amostral pode ser aproximada pela
distribuição Normal reduzida, justificado através do Teorema Limite Central:
X −µ a
Z= √ ∼ N (0, 1). (6.3)
σ/ n
4. Finalmente, consideremos que seleccionámos uma amostra aleatória de uma população

com distribuição não-Normal, com variância da população desconhecida e que temos
um tamanho de amostra n superior ou igual a 30. Tal como no caso anterior,
X −µ a
Z= √ ∼ N (0, 1).
σ/ n
Como σ 2 não é conhecido, mas a dimensão da amostra é grande então S ' σ, e podemos
substituir, na expressão anterior, σ por S (desvio padrão), isto é,
X −µ a
Z= √ ∼ N (0, 1). (6.4)
S/ n
Observação: Os resultados das equações (6.3) e (6.4) são válidos para qualquer
população. Contudo, o modelo Normal é excluído porque conhecemos a distribuição
exacta da média amostral: equações (6.1) e (6.2).
6.5. DISTRIBUIÇÕES POR AMOSTRAGEM 49
6.5.2 Distribuição por amostragem da diferença de médias amostrais, X 1 − X 2
Aqui consideramos apenas um de muitos casos possíveis. Supondo que foram seleccionadas, de
forma independente, duas amostras aleatórias de dimensões n1 e n2 , respectivamente, de duas
populações Normais independentes com variâncias conhecidas dadas, respectivamente, por σ12 e
σ22 . Sejam X 1 e X 2 as médias das duas amostras aleatórias. Neste contexto, a distribuição por
amostragem de X 1 − X 2 é ainda Normal, por ser a combinação linear de variáveis aleatórias
normais independentes:
(X 1 − X 2 ) − (µ1 − µ2 )
Z= r ∼ N (0, 1).
σ12 σ22
n1 + n2
6.5.3 Distribuição por amostragem da variância amostral, S 2
Suponhamos que foi seleccionada uma amostra aleatória de dimensão n, (X1 , X2 , . . . , Xn ), de

uma população Normal de média µ, desconhecida, e variância σ 2 . Neste contexto, a dis-
Pn 2
1
tribuição por amostragem de S 2 = n−1 i=1 Xi − X é dada por:
(n − 1)S 2
X2 = ∼ χ2n−1 .
σ2
6.5.4 Distribuição por amostragem da proporção, P̂
Admita que os elementos de determinada população possuem uma dada característica, com uma
certa probabilidade p desconhecida, independentemente uns dos outros. Suponhamos que se
selecciona uma amostra aleatória de n elementos desta população. Se X denotar o número
de elementos da amostra aleatória que possuem a referida característica, sabemos que X ∼
Bin(n, p). Se o tamanho da amostra for suficientemente grande, o Teorema Limite Central
justifica que:
X − np a
Z=p ∼ N (0, 1).
np(1 − p)
Como p pode ser estimado pontualmente pela proporção de elementos da amostra possuem a
X
referida característica, P̂ = n, a distribuição por amostragem aproximada de P̂ é
P̂ − p a
Z=p ∼ N (0, 1).
p(1 − p)/n
Tabela 6.2: Distribuições por amostragem
Estimador População Distribuição
X−µ
σ 2 conhecida Z= √
σ/ n
∼ N (0, 1)
Normal de média µ
X−µ
σ 2 desconhecida T = √
S/ n
∼ tn−1
X
Pop. não-Normal X−µ a
σ 2 conhecida Z= √ ∼
σ/ n
N (0, 1)
X−µ a
de média µ e n ≥ 30 σ 2 desconhecida Z= √ ∼
S/ n
N (0, 1)
2 Populações independentes, (X 1−X

Z= q 2 )−(µ1−µ2 )
σ2 σ2
1+ 2
n1 n2
X 1 −X 2 N (µ1 , σ12 ) e N (µ2 , σ22 ),
com σ12 e σ22 conhecidas ∼ N (0, 1)
P̂ −p a
P̂ Qualquer população e n grande Z=√ ∼ N (0, 1)
p(1−p)/n
(n−1)S 2
S2 Normal de média µ desconhecida X2 = σ2
∼ χ2n−1
Capítulo 7
Estimação por Intervalo de Confiança
A indicação de um único valor como estimativa, de um parâmetro θ, não nos dá informação

sobre a precisão desse valor. Por isso, em muitas situações, interessa-nos dar uma medida desse
erro. Assim, em vez de se indicar a sua estimativa pontual, é preferível indicar que o parâmetro a
estimar estará provavelmente no intervalo ]t1 , t2 [, onde os extremos t1 e t2 dependem do valor
da estimativa pontual desse parâmetro.
Definição 7.1 (Intervalo Aleatório). Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória de uma
população com função de distribuição F . Considere as estatísticas
T1 (X1 , X2 , . . . , Xn ) e T2 = (X1 , X2 , . . . , Xn ),
tais que P (T1 < θ < T2 ) = 1 − α, onde α ∈]0, 1[ não depende de θ. Então ]T1 , T2 [ é um
intervalo aleatório para θ.
Definição 7.2 (Intervalo de Confiança). Seja (x1 , x2 , . . . , xn ) uma realização da amostra

aleatória e sejam
t1 = T1 (x1 , x2 , . . . , xn ) e t2 = T2 (x1 , x2 , . . . , xn ),
os valores das estatísticas T1 e T2 (introduzidas na Definição 7.1). Ao intervalo ]t1 , t2 [ chamamos

intervalo de confiança (1 − α) × 100% para θ. O valor (1 − α) representa o nível (ou coeficiente)
de confiança do intervalo e α o nível de significância. Normalmente são usados níveis de confiança
superiores a 90%.
Observações:
• Diferentes amostras produzirão eventuais valores distintos θ̂ e consequentemente diferentes

extremos t1 e t2 .
• Os valores t1 e t2 são denominados limites de confiança inferior e superior, respectivamente.
51
52 CAPÍTULO 7. ESTIMAÇÃO POR INTERVALO DE CONFIANÇA
• A amplitude de um intervalo de confiança, t2 − t1 , é uma importante medida da qualidade

da informação fornecida através da amostra.
Definição 7.3 (Variável Pivot ou Fulcral). Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória, reti-
rada de uma população com função de distribuição F de parâmetro θ. A função T (X1 , X2 , . . . , Xn )
é uma variável pivot, ou fulcral, se a sua distribuição for independente de θ.
Observação: As variáveis aleatórias Z, T e X 2 , apresentadas na Tabela 6.2, são variáveis Pivot.
Definição 7.4 (Método de determinação de um Intervalo de Confiança a partir de uma

variável Pivot). Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória, retirada de uma população com
função de distribuição F , com parâmetro θ, e seja T uma variável Pivot.
• Dado o nível de confiança (1 − α), é necessário determinar os valores c1 e c2 tais que
P (c1 < T < c2 ) = 1 − α.
• Caso se verifique,
c1 < T < c2 ⇔ T1 (X1 , X2 , . . . , Xn ) < θ < T2 (X1 , X2 , . . . , Xn ),
então também se pode garantir que
P (T1 (X1 , X2 , . . . , Xn ) < θ < T2 (X1 , X2 , . . . , Xn )) = 1 − α.
Logo, o intervalo aleatório para θ é ]T1 (X1 , X2 , . . . , Xn ), T2 (X1 , X2 , . . . , Xn )[ = ]T1 , T2 [.
• Observada a amostra (x1 , x2 , . . . , xn ), o intervalo de confiança para θ é dado por ]t1 , t2 [,

onde t1 = T1 (x1 , x2 , . . . , xn ) e t2 = T2 (x1 , x2 , . . . , xn ).
7.1 Intervalo de Confiança para a média da população, µ

7.1.1 População Normal com variância conhecida
Suponhamos que seleccionámos uma amostra aleatória (X1 , X2 , . . . , Xn ) de uma população Nor-
mal, de variância σ 2 conhecida, com a qual pretendemos construir um intervalo de confiança
(1 − α) × 100% para µ.
• Escolha da estatística pivot:
X −µ
Z= √ ∼ N (0, 1);
σ/ n
7.1. INTERVALO DE CONFIANÇA PARA A MÉDIA DA POPULAÇÃO, µ 53
• Determinação de c1 e c2 : Seja za um valor tal que P (Z > za ) = a. Escolhemos c1 =

z1−α/2 = −zα/2 e c2 = zα/2 , como indicado na Figura 7.1. Esta escolha não é casual.
Quando c1 = −c2 obtemos o intervalo de menor amplitude. O valor zα/2 é obtido através
da resolução da equação:

P −zα/2 < Z < zα/2 = 1 − α ⇔ P (Z < zα/2 ) − P (Z ≤ −zα/2 ) = 1 − α ⇔
(7.1)
Φ(zα/2 ) − Φ(−zα/2 ) = 1 − α ⇔ Φ(zα/2 ) = 1 − α/2 ⇔ zα/2 = Φ−1 (1 − α/2)
0.4
0.3
0.2
1−α
0.1
0.0
− zα 2 0 zα 2
Figura 7.1: Intervalo aleatório da variável pivot Z.
• Determinação dos extremos do intervalo aleatório:
X −µ σ σ
− zα/2 < √ < zα/2 ⇔ −zα/2 √ < X − µ < zα/2 √
σ/ n n n
σ σ σ σ
⇔ − zα/2 √ − X < −µ < zα/2 √ − X ⇔ X − zα/2 √ < µ < X + zα/2 √
n n n n
Logo,
σ σ
P − zα/2 < Z < zα/2 = P X − zα/2 √ < µ < X + zα/2 √ = 1 − α.
n n
• Assim, tendo uma amostra concreta (x1 , x2 , . . . , xn ), o intervalo de confiança (1 − α) × 100

para µ é:
i σ σ h
IC(1−α)×100% (µ) ≡ x − zα/2 √ ; x + zα/2 √ .
n n
Exemplo 7.5. Considere a população do peso das formigas Solenopsis, medido em décimas de
grama, que sabemos ter distribuição Normal com média µ e variância σ 2 = 22 , X ∼ N (µ, 22 ).
Desta população observámos a amostra de 4 pesos, (8, 13, 9, 8.5), a qual usámos para obter uma
estimativa de µ, x = 9.625dg. Queremos agora determinar limites inferior e superior de um

intervalo de confiança a 95% para µ.
Resolução: Seja X a média amostral da amostra de dimensão 4, (X1 , X2 , X3 , X4 ). Como a

população tem distribuição Normal, e a variância é conhecida, vamos considerar a estatística pivot
X−µ
Z= √ ,
σ/ n
cuja distribuição por amostragem foi obtida no capítulo anterior:
X −µ X −µ
Z= √ = √ ∼ N (0, 1).
σ/ n 2/ 4
Seja z0.025 um valor tal que P (−z0.025 < Z < z0.025 ) = 0.95, conforme a Figura 7.2 ilustra. Para
0.4
0.3
0.2
0.95
0.1
0.0
− z0.025 0 z0.025
determinar o valor de z0.025 , é necessário efectuar os seguintes cálculos:
P (−z0.025 < Z < z0.025 ) = 0.95 ⇔ P (Z < z0.025 ) − P (Z ≤ −z0.025 ) = 0.95 ⇔

Φ(z0.025 ) − Φ(−z0.025 ) = 0.95 ⇔ Φ(z0.025 ) = 0.975 ⇔ z0.025 = Φ−1 (0.975) ≈ 1.96
Assim,
!
X −µ
P (−1.96 < Z < 1.96) = 0.95 ⇔ P −1.96 < √ < 1.96 = 0.95 ⇔
2/ 4

P −1.96 × 1 < X − µ < 1.96 × 1 = 0.95 ⇔

P −X − 1.96 < −µ < −X + 1.96 = 0.95 ⇔

P X − 1.96 < µ < X + 1.96 = 0.95
i h
Logo, o intervalo aleatório, para µ, com 95% de confiança é X − 1.96; X + 1.96 . Concretizando
este intervalo para a amostra observada, (x1 , x2 , x3 , x4 ) = (8, 13, 9, 8.5), obtemos o intervalo de
confiança a 95% para µ:
IC95% (µ) = ]x − 1.96 ; x + 1.96[ = ]9.625 − 1.96 ; 9.625 + 1.96[ =]7.665 ; 11.585[.
Observação: Vejamos agora o que sucede aumentando a confiança do intervalo para 99%. Como
Z0.005 ≈ 2.58,

X−µ
P (−Z0.005 < Z < Z0.005 ) = 0.99 ⇔ P −2.58 < 2/√ < 2.58 = 0.99 ⇔
4
√ √
P X − 2.58 × 2/ 4 < µ < X + 2.58 × 2/ 4 = 0.99
Assim, IC99% (µ) = ]x − 2.58; x + 2.58[=]9.625 − 2.58; 9.625 + 2.58 =]7.045; 12.205[.
Concluímos que quando aumentamos o nível de confiança, também aumentamos a sua amplitude!
7.1.2 População Normal com variância desconhecida
Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória de uma população Normal(µ, σ 2 ), de variância σ 2

desconhecida, com a qual pretendemos construir um intervalo de confiança (1 − α) × 100% para
µ:
X −µ
T = √ ∼ tn−1 .
S/ n
• Para um nível de confiança de (1−α)×100%, escolhemos de c1 = −tn−1,α/2 e c2 = tn−1,α/2 ,

como indicado na Figura 7.3.
1−α
0.0
− tn−−1::α 2 0 tn−−1::α 2
Figura 7.3: Intervalo aleatório da variável pivot T .


X −µ
− tn−1,α/2 < √ < tn−1,α/2 ⇔
S/ n
S S
⇔ − tn−1,α/2 √ < X − µ < tn−1,α/2 √ ⇔
n n
S S
⇔ − tn−1,α/2 √ − X < −µ < tn−1,α/2 √ − X ⇔
n n
S S
⇔ X − tn−1,α/2 √ < µ < X + tn−1,α/2 √
n n
• Assim, obtemos o seguinte intervalo de confiança (1 − α) × 100% para µ:

i s s h
IC(1−α)×100% (µ) ≡ x − tn−1,α/2 √ ; x + tn−1,α/2 √ .
n n
7.1.3 População não-Normal com variância conhecida e n > 30
Supondo que seleccionámos uma amostra aleatória de dimensão n > 30, (X1 , X2 , . . . , Xn ), de
uma população não-normal com média µ e variância conhecida σ 2 , e com a qual pretendemos
construir um intervalo de confiança (1 − α) × 100% para µ:
X−µ a
• Escolha da estatística pivot: Z = √
σ/ n
∼ N (0, 1).
• Determinação de c1 e c2 : De modo análogo, ao efectuado na página 53, escolhemos:
c1 = −zα/2 e c2 = zα/2 , com zα/2 = Φ−1 (1 − α/2).
• Repetido as contas efectuadas na sub-secção 7.1.1, obtemos:

σ σ
P − zα/2 < Z < zα/2 = P X − zα/2 √ < µ < X + zα/2 √ = 1 − α.
n n
• Assim, observada a amostra (x1 , x2 , . . . , xn ), obtemos o seguinte intervalo de confiança

(1 − α) × 100% para µ:
i σ σ h
IC(1−α)×100% (µ) ≡ x − zα/2 √ ; x + zα/2 √ .
n n
7.1.4 População não-Normal com variância desconhecida e n > 30
Admitindo que seleccionámos uma amostra aleatória de dimensão n > 30, (X1 , X2 , . . . , Xn ), de
uma população com distribuição não-normal, com média µ e variância σ 2 , ambos desconhecidos.
Pretendemos um intervalo de confiança (1 − α) × 100% para µ. Como usamos a estatística pivot:
X −µ a
Z= √ ∼ N (0, 1),
S/ n
a determinação do intervalo de confiança para µ é feita de forma análoga ao caso anterior (subs-
tituindo σ por S).
Obtemos assim, o seguinte intervalo de confiança (aproximado) (1 − α) × 100% para µ:
i s s h
IC(1−α)×100% (µ) ≡ x − zα/2 √ ; x + zα/2 √ .
n n
Exemplo 7.6 (Exame de P.E. D - 2005/06). Queremos estudar há quanto tempo residem nas
suas moradas actuais as pessoas de certa cidade na província. Uma amostra aleatória de 41
famílias revelou uma média de 35 meses de residência e um desvio padrão de 6.3 meses.
a) Qual a sua melhor estimativa do tempo médio de residência da população desta cidade?
b) Deduza um intervalo de confiança a 98% para o verdadeiro tempo médio de residência.

Justifique o seu procedimento.
Resolução:
a) Para estimar a média da população vamos usar o estimador média da amostra, X. Trata-se
do estimador da média que possui duas propriedades importantes: é centrado para µ e
consistente. Neste exercício, a estimativa do tempo médio de residência da população é
x = 35 meses.
b) Para deduzir o intervalo de confiança, vamos admitir que (X1 , X2 . . . , Xn ) é uma amostra
X−µ
aleatória com n > 30. Vamos considerar a estatística pivot Z = √ ,
S/ n
cuja distribuição foi
deduzida no capítulo anterior, isto é,
X −µ a
Z= √ ∼ N (0, 1).
S/ n
0.4
0.3
0.2
0.98
0.1
0.0
− 2.32 0 2.32

Como P (−z0.01 < Z < z0.01 ) = 0.98, onde z0.01 ≈ 2.32, como indicado na Figura 7.4, e
X−µ
− z0.01 < Z < z0.01 ⇔ 2.32 < √
S/ n
< 2.32 ⇔ 2.32 √Sn < X − µ < 2.32 √Sn ⇔
S S
⇔ X − 2.32 √ < µ < X + 2.32 √ ,
n n
resulta que
S S
P X − 2.32 √ < µ < X + 2.32 √ = 0.98.
n n
Logo o intervalo com 98% de confiança para o valor médio da população é

i s s h
IC98% (µ) ≡ x − 2.32 √ ; x + 2.32 √ .
n n
Como da amostra recolhida resultou x = 35 e s = 6.3, o intervalo com 98% de confiança

para o valor médio da população é
i 6.3 6.3 h
IC98% (µ) ≡ 35 − 2.32 √ ; 35 + 2.32 √ = ]32.72 , 37.28[.
41 41
7.2 Intervalo de Confiança para a variância populacional, σ 2 , e

para o desvio padrão populacional, σ
Nesta secção, vamos deduzir um intervalo de confiança (1 − α) × 100% para a variância da

população. Consideramos o caso em que temos uma amostra aleatória (X1 , X2 , . . . , Xn ) de uma
população com distribuição Normal(µ, σ 2 ), com valor médio µ desconhecido.
• Vamos usar a estatística pivot cuja distribuição por amostragem foi apresentada no capítulo
(n−1)S 2
anterior, isto é, a estatística pivot: X 2 = σ2
∼ χ2n−1 ;
• Para um nível de confiança de (1 − α) × 100%, escolha de c1 e c2 : A escolha dos extremos

do intervalo aleatório, c1 = χ2n−1,1−α/2 e c2 = χ2n−1,α/2 , é feita de acordo com a Figura
7.5.
Para determinar estes valores é necessário efectuar as operações:
α α
P (X 2 < c1 ) = ⇔ c1 = Fχ−1
2 ,
2 n−1 2
α α α

2 2 −1
P (X > c2 ) = ⇔ P (X ≤ c2 ) = 1 − ⇔ c2 = Fχ2 1− ,
2 2 n−1 2
onde Fχ−1 α
e Fχ−1 α

2 2 2 1− 2 podem ser obtidos numa tabela de quantis da distribuição
n−1 n−1
Qui Quadrado.
7.2. INTERVALO DE CONFIANÇA PARA A VARIÂNCIA POPULACIONAL, σ 2 , E PARA O DESVIO
PADRÃO POPULACIONAL, σ 59
1−α
α 2
α 2
0.0
0 χ2n−−1::1−−α 2 χ2n−−1::α 2
Figura 7.5: Intervalo aleatório da variável pivot X 2 .
• Determinação dos extremos do intervalo de confiança: Como,
χ2n−1,1−α/2 1 χ2n−1,α/2
χ2n−1,1−α/2 <X <2
χ2n−1,α/2 ⇔ < 2 < ⇔
(n − 1)S 2 σ (n − 1)S 2
(n − 1)S 2 2 (n − 1)S 2
< σ < ,
χ2n−1,α/2 χ2n−1,1−α/2
concluímos que
(n − 1)S 2 (n − 1)S 2
P χ2n−1,1−α/2 < X 2 < χ2n−1,α/2 = P < σ2 < = 1 − α.
χ2n−1,α/2 χ2n−1,1−α/2
• Assim, observada a amostra (x1 , x2 , . . . , xn ), e calculada a respectiva variância amostral,

s2 , o intervalo de confiança para σ 2 é:
# "
2 (n − 1)s2 (n − 1)s2
IC(1−α)×100% (σ ) = ; .
χ2n−1,α/2 χ2n−1,1−α/2
Observação: Como
v v
(n − 1)S 2 (n − 1)S 2 u (n − 1)S 2 u (n − 1)S 2
u u
P < σ2 < 2 =P t 2 <σ<t 2 = 1 − α.
χ2n−1,α/2 χn−1,1−α/2 χn−1,α/2 χn−1,1−α/2
podemos assim apresentar o seguinte intervalo de confiança para σ:
v v 
u (n − 1)s2 u (n − 1)s2
u u
IC(1−α)×100% (σ) ≡ t 2
 ; t
2
.
χn−1,α/2 χn−1,1−α/2
7.3 Intervalo de Confiança para proporção populacional, p

Vamos deduzir nesta secção um intervalo de confiança (1 − α) × 100% para a proporção pop-
ulacional p. Consideramos a situação em que estamos interessados em estimar a proporção dos
elementos que, na população, possuem determinada característica, através da correspondente pro-
porção amostral P̂ , referente a uma amostra de dimensão suficientemente grande. Podemos assim
usar a seguinte estatística pivot, cuja distribuição por amostragem foi considerada no capítulo
anterior:
P̂ − p a
Z=p ∼ N (0, 1);
p(1 − p)/n
• Para um nível de confiança de (1 − α) × 100%, escolhemos c1 = −zα/2 e c2 = zα/2 tais

que P (−zα/2 < Z < zα/2 ) = 1 − α. De acordo com os cálculos apresentados na página
53, z1−α/2 = Φ−1 (1 − α/2).
P̂ − p
−zα/2 < Z < zα/2 ⇔ −zα/2 < p < zα/2 (7.2)
p(1 − p)/n
A resolução das inequações anteriores, em ordem
q a p, torna-se muito mais simples se
p
substituirmos p(1 − p)/n, pela sua estimativa, P̂ (1 − P̂ )/n. Se a dimensão da amostra
for elevada esta substituição não deverá afectar muito a precisão do intervalo. Assim,
efectuando a substituição,
P̂ −p
− zα/2 < √ < zα/2 ⇔
P̂ (1−P̂ )/n
q q
− zα/2 P̂ (1 − P̂ )/n < P̂ − p < zα/2 P̂ (1 − P̂ )/n ⇔
q q
− zα/2 P̂ (1 − P̂ )/n − P̂ < −p < zα/2 P̂ (1 − P̂ )/n − P̂ ⇔
q q
P̂ − zα/2 P̂ (1 − P̂ )/n < p < P̂ + zα/2 P̂ (1 − P̂ )/n
Então,
!
P̂ − p
P −zα/2 <p < zα/2 '
p(1 − p)/n
q q
P P̂ − zα/2 P̂ (1 − P̂ )/n < p < P̂ + zα/2 P̂ (1 − P̂ )/n ' 1 − α
• Assim, observada a amostra e calculada a respectiva proporção p̂, obtemos o seguinte

intervalo de confiança aproximado:
q q
IC(1−α)×100% (p) = p̂ − zα/2 p̂(1 − p̂)/n ; p̂ + zα/2 p̂(1 − p̂)/n .
7.3. INTERVALO DE CONFIANÇA PARA PROPORÇÃO POPULACIONAL, P 61
Exemplo 7.7. Num inquérito destinado a estimar a proporção p da população que tem TV por
cabo, foram inquiridas 200 pessoas, das quais 78 afirmaram ter este serviço. Temos a estimativa
pontual da proporção da população com TV por cabo p̂ = 0.39. Como n = 200 > 30 e
z0.05 = 1.96, o intervalo de 95% de confiança para a proporção p é:
q q
0.39 − 1.96 0.39(1 − 0.39)/200 ; 0.39 + 1.96 0.39(1 − 0.39)/200 =]0.322 , 0.458[.
Observação: Tal como já foi referido, também é possível resolverqas inequações em (7.2) em or-
p
dem a p sem a substituição de p(1 − p)/n, pela sua estimativa, P̂ (1 − P̂ )/n. Esta resolução,
embora tenha muito mais cálculos, conduz-nos à inequação:
2
zα/2 2
zα/2
1+ p2 − 2P̂ + p + P̂ 2 < 0,
n n
Os extremos Inferior e superior do intervalo de confiança são, respectivamente:
q q
2 2 /(4n2 ) 2 2 /(4n2 )
P̂ + zα/2 /n − zα/2 P̂ (1 − P̂ )/n + zα/2 P̂ + zα/2 /n + zα/2 P̂ (1 − P̂ )/n + zα/2
2 /n , 2 /n .
1 + zα/2 1 + zα/2
Como ilustração, apresentamos o intervalo de confiança a 95% para a a proporção p, do Exemplo

7.7: IC95% (p) =]0.325 , 0.459[.
Capítulo 8
Teste de Hipóteses
8.1 Introdução
Vamos começar por introduzir alguns conceitos importantes e alguma notação.
Definição 8.1 (Hipótese Estatística). Uma hipótese estatística é uma conjectura acerca da
distribuição de uma ou mais variáveis aleatórias. Para cada hipótese que se faça, designada por
hipótese nula e denotada por H0 , há sempre outra hipótese, designada por hipótese alternativa
e denotada por H1 . Se a hipótese estatística H0 especifica completamente a distribuição é
chamada de hipótese simples. Caso contrário é chamada de hipótese composta.
Uma hipótese estatística pode ser, ou não ser, verdadeira. A verdade ou falsidade nunca pode
ser confirmada, a menos que observássemos toda a população, o que nalguns casos é impraticável
(quando a população é muito grande) ou até mesmo impossível (no caso de populações infinitas,
ou quando característica em estudo leva à destruição dos elementos observados).
Exemplo 8.2 (Hipótese Estatística). Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória da popu-
lação dos pesos das formigas Solenopsis anteriormente considerada. A hipótese estatística de que
o peso médio desta população toma o valor 8dg denota-se por:
H0 : µ = 8 versus H1 : µ 6= 8 (Hipótese simples)
É usual abreviar a palavra “versus” para “vs”:
H0 : µ = 8 vs H1 : µ 6= 8
A hipótese estatística de que o peso médio desta população é menor ou igual a 8dg denota-se
por:
H0 : µ ≤ 8 vs H1 : µ > 8 (Hipótese composta).
63
64 CAPÍTULO 8. TESTE DE HIPÓTESES
Ao testarmos uma hipótese nula contra uma hipótese alternativa, a nossa atitude deverá ser
admitir H0 como verdadeira até que os dados fornecidos pela amostra “testemunhem” fortemente
contra ela; nesse caso, H0 deverá ser rejeitada a favor de H1 .
Definição 8.3 (Teste de Hipóteses). Um teste de hipóteses é uma regra que nos permite
decidir se devemos, ou não, rejeitar H0 . Esta regra é baseada no valor que a estatística de teste
W assume. Assim se,
• W (x1 , x2 , . . . , xn ) ∈ R, rejeita-se H0 (e aceita-se H1 como verdadeira);
• W (x1 , x2 , . . . , xn ) ∈
/ R, não se rejeita H0 .
O conjunto R representa a região crítica ou região de rejeição.
Definição 8.4 (Erros de tipo I e de tipo II). Quando realizamos um Teste de Hipóteses
podemos cometer um dos seguintes erros:
• A rejeição de H0 quando ela é verdadeira (erro de tipo I);
• A não rejeição de H0 quando esta é falsa (erro de tipo II).
Representamos por α e β, respectivamente, a probabilidade de ocorrer um erro de tipo I ou II,

isto é,
• α = P (erro de tipo I) = P (rejeitar H0 |H0 é verdadeira);
• β = P (erro de tipo II) = P (não rejeitar H0 |H0 é falsa).
Chamamos ainda nível de significância a α e potência do teste a 1−β. Os níveis de significância

mais usuais são α = 0.01, α = 0.05 ou α = 0.1.
Observação: O teste ideal é aquele em que estas as probabilidades α e β têm valor mínimo.
Contudo, é impossível minimizá-las simultaneamente. De facto, quando α diminui, β aumenta e
vice-versa. O procedimento usual consiste em fixar o nível de significância α e escolher a região
de rejeição que minimiza β, isto é, que maximize a potência do teste.
Exemplo 8.5. Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória da população dos pesos das formigas
Solenopsis, isto é, da população X ∼ N (µ, 22 ). Um teste possível para testar:
H0 : µ ≤ 8 vs H1 : µ > 8,
X−8
é rejeitar H0 se √
2/ n
> 1.64.
8.2. TESTE DE HIPÓTESES PARA A MÉDIA DA POPULAÇÃO 65
Definição 8.6 (Valor-p ou “p-value”). De um modo informal, podemos definir o valor-p ou

“p-value” como o mais pequeno nível de significância que leva à rejeição de H0 . Assim,
• um valor-p pequeno é desfavorável a H0 .
• um valor-p elevado indica que as observações são consistentes com H0 .
Nota: Geralmente o software estatístico apenas apresenta o valor-p do teste. Cabe ao utilizador
tomar a decisão ao nível de significância α. Quanto menor for o valor-p, menor é a consistência
entre os dados e H0 . Assim, se valor-p < α, devemos rejeitar H0 , ao nível de significância α.
Regra de cálculo do valor-p:

Seja (x1 , x2 , . . . , xn ) a concretização da amostra aleatória e
wobs = W (x1 , x2 , . . . , xn ),
o valor observado da estatística de teste W . O valor-p corresponde à probabilidade de

se observar um valor igual ou mais “extremo” do que o observado, wobs , se a hipótese
nula é verdadeira. O cálculo desta probabilidade depende do tipo de região de rejeição
da hipótese H0 , conforme indicado na seguinte tabela:
Região de rejeição valor-p

] − ∞, −c [ ∪ ] c, +∞[

ou 2 × min P (W < wobs | H0 ), P (W > wobs | H0 )
] 0, b [ ∪ ] c, +∞[
] − ∞, c [
ou P (W < wobs | H0 )
] 0, c [
] c, +∞[ P (W > wobs | H0 )
8.2 Teste de Hipóteses para a média da população

De modo análogo, ao efectuado no capítulo anterior, a dedução do teste de hipóteses para o valor
médio da população será feito admitindo um dos seguintes pressupostos:
1. População Normal e Variância conhecida;
2. População Normal e Variância desconhecida;
3. População não-Normal e Variância conhecida;
4. População não-Normal e Variância desconhecida.

8.2.1 Teste bilateral
• Vamos admitir que (X1 , X2 , . . . , Xn ) representa uma amostra aleatória de uma população
Normal com variância conhecida e que pretendemos testar
H0 : µ = µ0 vs H1 : µ 6= µ0 (teste bilateral)
√ X−µ
• Já sabemos que X é um estimador centrado de µ. Também já se verificou que n σ ∼
N (0, 1), embora o valor médio, µ, seja desconhecido. Assim, vamos considerar a seguinte
estatística de teste:
X − µ0
Z= √ ∼ N (0, 1).
σ/ n sob H0
• Considere o nível de significância α. Estamos interessados em rejeitar H0 quando os

valores observados não estiverem de acordo com esta hipótese, isto é, quando a dife-
rença entre X e µ0 for grande. Assim, vamos considerar a região de rejeição Rα =
] − ∞, −zα/2 [ ∪ ]zα/2 , +∞[, indicada na Figura 8.1.
Rα Rα
1−α
0.0
− zα 2 0 zα 2
Figura 8.1: Região de rejeição para o teste bilateral para o valor médio.
x−µ
• A regra de decisão do teste consiste em rejeitar H0 se zobs = √0
σ/ n
∈ Rα , ou seja, se
|zobs | > zα/2 .
Exemplo 8.7. Considere novamente o exemplo da população dos pesos das formigas Solenop-
sis, isto é, a população X ∼ N (µ, 22 ), da qual observámos a amostra aleatória de 4 pesos
(8, 13, 9, 8.5). Com base nesta amostra vamos testar, a um nível de significância 5%, a hipótese
de que o peso médio populacional µ é igual a 9dg, ou seja vamos testar: H0 : µ = 9 vs H1 : µ 6= 9.
• Como a população é normal com variância conhecida, a estatística de teste é:

X−9
Z= √ ∼
2/ 4 sob H0
N (0, 1).
8.2. TESTE DE HIPÓTESES PARA A MÉDIA DA POPULAÇÃO 67
• Região de rejeição para α = 0.05: Rα =] − ∞, −1.96[ ∪ ]1.96, +∞[.

x−9
• Regra de decisão do teste: Rejeitar H0 ao nível de significância 5% se zobs = √
2/ 4
∈ R0.05 .
9.625−9
• Decisão: Como zobs = √
2/ 4
= 0.625 ∈
/ R0.05 , não rejeitamos H0 ao nível de significância
5%, significando que os dados não vão contra o pressuposto de que o peso médio das
formigas é 9dg..
Exemplo 8.8 (Cálculo do valor-p do teste do Exemplo 8.7). Como Zobs ' 0.63,

valor-p = 2 min P (Z < 0.63 | H0 ), P (Z > 0.63 | H0 ) = 2P (Z > 0.63 | H0 ) =
= 2(1 − P (Z ≤ 0.63 | H0 )) = 2(1 − Φ(0.63)) = 0.5286.
Outros testes de hipóteses bilaterais para o valor médio

O teste de hipóteses bilateral, apresentado nesta secção, baseou-se no pressuposto da população
ter distribuição Normal e da variância ser conhecida. Noutras condições o teste faz-se de forma
análoga, podendo ser necessário alterar a estatística de teste e respectiva região de rejeição,
conforme indicado na seguinte tabela:
População Variância Rejeitar H0 se

X−µ
σ 2 conhecida σ/√n0 > zα/2

Pop. Normal de média µ
X−µ
σ 2 desconhecida S/√n0 > tn−1,α/2

X−µ
σ 2 conhecida σ/√n0 > zα/2

Pop. não-Normal de média µ
X−µ
(n ≥ 30) σ 2 desconhecida S/√n0 > zα/2

8.2.2 Teste unilateral direito
• Vamos admitir que (X1 , X2 , . . . , Xn ) representa uma amostra aleatória de uma população
Normal com variância conhecida e pretendemos testar
H0 : µ ≤ µ0 vs H1 : µ > µ0 (teste unilateral direito)
• De modo análogo, ao apresentado no teste bilateral, vamos considerar a seguinte estatística

de teste:
X − µ0
Z= √ ∼ N (0, 1).
σ/ n sob H0
• Vamos considerar a região de rejeição Rα =]zα , +∞[, indicada na Figura 8.2.
• Regra de decisão: Rejeitar H0 , ao nível de significância α se zobs ∈ Rα .

Rα
1−α
α
0.0
0 zα
Figura 8.2: Região de rejeição para o teste unilateral direito para o valor médio.
Outros testes de hipóteses unilaterais direitos para o valor médio

A estatística de teste e a região de rejeição podem mudar ligeiramente, consoante a população
tem, ou não, distribuição Normal e a variância é, ou não é, conhecida. A próxima tabela apresenta,
de forma resumida, as alterações que se devem fazer no teste de hipóteses anteriormente deduzido:

X−µ
σ 2 conhecida √ 0 > zα
σ/ n
X−µ
σ 2 desconhecida √ 0 > tn−1,α
S/ n
X−µ
σ 2 conhecida √ 0 > zα
σ/ n
X−µ
(n ≥ 30) σ 2 desconhecida √0
S/ n
> zα
8.2.3 Teste unilateral esquerdo
O procedimento que deduz o teste unilateral esquerdo, para o valor médio,
H0 : µ ≥ µ0 vs H1 : µ < µ0 (teste unilateral esquerdo),
é análogo ao do teste unilateral direito. Por esta razão apenas se apresentamos a seguinte tabela
resumo:

X−µ
σ 2 conhecida √ 0 < −zα
σ/ n
X−µ
σ 2 desconhecida √ 0 < −tn−1,α
S/ n
X−µ
σ 2 conhecida √ 0 < −zα
σ/ n
X−µ
(n ≥ 30) σ 2 desconhecida √ 0 < −zα
S/ n
8.3. TESTE DE HIPÓTESES PARA A VARIÂNCIA, σ 2 , DE UMA POPULAÇÃO NORMAL 69
8.3 Teste de Hipóteses para a variância, σ 2 , de uma população

Normal
Suponha que observamos uma amostra aleatória (X1 , X2 , . . . , Xn ) de uma população X ∼
N (µ, σ 2 ), em que µ é desconhecido. Vamos nesta secção considerar apresentar alguns testes
de hipóteses, relativos ao valor da variância da população, σ 2 .
• Testamos uma das três seguintes hipóteses (nula e alternativa):
1. H0 : σ 2 = σ02 vs H1 : σ 2 6= σ02 (teste bilateral);

2. H0 : σ 2 ≤ σ02 vs H1 : σ 2 > σ02 (teste unilateral direito);
3. H0 : σ 2 ≥ σ02 vs H1 : σ 2 < σ02 (teste unilateral esquerdo).
• Vamos escolher a estatística de teste com base no estimador de σ 2 , S 2 , variância amostral:
(n − 1)S 2
X2 = ∼ χ2n−1 .
σ02 sob H0
• Definamos a região de rejeição do teste: Para um nível de significância α, pré-especificado,

as regiões de rejeição dos três tipos de hipóteses são, respectivamente, indicadas nas
seguintes figuras:
Rα Rα Rα Rα
α
α 2 1−α 1−α 1−α
α 2 α
0.0
0.0
0.0
0 χ2n−−1::1−−α 2 χ2n−−1::α 2
0 χ2n−−1::α 0 χ2n−−1::1−−α
Figura 8.3: Esquerda: Região de rejeição para o teste bilateral. Centro: Região de rejeição para
o teste unilateral direito. Direita: Região de rejeição para o teste unilateral esquerdo.
Ou seja, a região de rejeição do teste, para um nível de significância α pré-especificado é,

respectivamente:
1. Rα = ]0, χ2n−1,1−α/2 [ ∪ ]χ2n−1,α/2 , +∞[ (teste bilateral);

2. Rα = ]χ2n−1,α , +∞[ (teste unilateral direito);
3. Rα = ]0, χ2n−1,1−α [ (teste unilateral esquerdo);
2 ∈R .
• Rejeitamos H0 se Xobs α
8.4 Teste de Hipóteses para a proporção p de uma população
Admita que temos uma amostra aleatória de dimensão n de uma população, em que determinada
proporção desconhecida p dos seus elementos possui certa característica.
• Admita que pretendemos testar uma das seguintes hipóteses (nula e alternativa):
1. H0 : p = p0 vs H1 : p 6= p0 (teste bilateral);
2. H0 : p ≤ p0 vs H1 : p > p0 (teste unilateral direito);
3. H0 : p ≥ p0 vs H1 : p < p0 (teste unilateral esquerdo);
• Estatística de teste:
P̂ − p0 a
Z=p ∼ N (0, 1)
p0 (1 − p0 )/n sob H0
• Definamos a região de rejeição do teste: Para um nível de significância α, pré-especificado,

as regiões de rejeição dos três tipos de hipóteses são, respectivamente, indicadas nas
seguintes figuras:
Rα Rα Rα Rα
1−α 1−α 1−α
α α
0.0
0.0
0.0
− zα 2 0 zα 2 0 zα − zα 0
Figura 8.4: Esquerda: Região de rejeição para o teste bilateral. Centro: Região de rejeição para
o teste unilateral direito. Direita: Região de rejeição para o teste unilateral esquerdo.
Região de rejeição do teste, para um nível de significância α pré-especificado:
1. Rα = ] − ∞, −zα/2 [ ∪ ]zα/2 , +∞[ (teste bilateral);

2. Rα = ]zα , +∞[ (teste unilateral direito);
3. Rα = ] − ∞, −zα [ (teste unilateral esquerdo);
• Regra de decisão do teste: Rejeitar H0 ao nível de significância α se

p̂obs − p0
zobs = p ∈ Rα .
p0 (1 − p0 )/n
8.5. TESTE DAS SEQUÊNCIAS ASCENDENTES E DESCENDENTES 71
8.5 Teste das sequências ascendentes e descendentes

O teste a seguir apresentado permite-nos testar a hipótese de aleatoriedade, uma condição essen-
cial nos diversos métodos estatísticos já estudados. Considere as hipóteses:
H0 : A amostra é aleatória vs. H1 : A amostra não é aleatória
• Seja (X1 , X2 , . . . , Xn ) uma amostra da população X. Vamos substituir pelo símbolo “+”
cada observação precedida por uma de valor inferior, e pelo símbolo “-” cada observação
que é precedida por outra de valor superior. As observações precedidas por outras de valor
igual são desprezadas (e corrige-se a dimensão da amostra, n).
• A estatística de teste é:
2n−1
V − 3 a
Z= q ∼ N (0, 1).
16n−29 sob H0
90
com V = número de sequências de sinais “+” e “-”. Na prática considera-se que a dis-
tribuição de Z é razoável se n ≥ 25.
• Região de rejeição para o nível de significância α.
Rα = ] − ∞, −zα/2 [ ∪ ]zα/2 , +∞[
Rejeitamos H0 , ao nível de significância α, sempre que zobs ∈ Rα .
Nota: O teste também pode ser aplicado em amostras de pequena dimensão (n < 25). Nesse caso
utiliza-se a estatística de teste V . Para mais detalhes consulte a bibliografia aconselhada.
Exemplo 8.9 (Exame de P.E. - 2008/09). Considere a seguinte amostra, de dimensão n = 30,
do número de clientes atendidos por hora em certo posto de venda:
41 30 28 40 28 26 28 41 30 34 40 36 30 20 43
35 36 20 42 43 42 40 32 26 28 41 34 24 42 40
Podemos considerar a amostra aleatória? (considere um nível de significância de 5%)
Resposta: Pretendemos testar
H0 : A amostra é aleatória vs H1 : A amostra não é aleatória
A estatística de teste é
2n−1
V − 3
Z= q ∼ N (0, 1).
16n−29 Sob H0
90
Para a amostra indicada, vobs = 17 e zobs = −1.19.

A região de rejeição do teste é: R0.05 =] − ∞; −1.96[ ∪ ]1.96; +∞[ Como o valor observado da
estatística de teste não pertence à região de rejeição, não rejeitamos a hipótese H0 ao nível de
significância 5%.
8.6 Teste de ajustamento do Qui Quadrado

Em muitas situações a distribuição da população é desconhecida, e podemos estar interessados em
testar se determinada v.a. ou população tem distribuição F , isto é, podemos estar interessados
em testar:
H0 : X ∼ F vs H1 : X F (8.1)
Existem vários testes de hipóteses que nos permitem testar estas hipóteses. Nesta disciplina
iremos apenas abordar um dos mais conhecidos: O teste de ajustamento do Qui-Quadrado.
Trata-se de um teste que apresenta a vantagem de poder ser aplicado para qualquer distribuição,
desde que a amostra recolhida não seja muito pequena. Existem outros testes de hipóteses que
permitem testar as hipóteses em (8.1), como por exemplo:
1. Teste de Kolmogorov-Smirnov (válido para distribuições contínuas);
2. Teste de Shapiro-Wilk (válido para a distribuição Normal).
Teste do Qui Quadrado:
• Os dados observados (a amostra) são divididos em k classes, A1 , A2 , . . . , Ak . Em cada

classe Ai consideramos o número de observações que lhe correspondem (a frequência ab-
soluta de cada classe), denotando esse número por Oi . Consideramos ainda o número de
observações que esperaríamos observar em cada uma das classes, se a hipótese nula fosse
verdadeira, denotando-o por Ei . Este número é determinado por Ei = n × pi , em que pi é a
probabilidade de uma observação pertencer à classe i, caso a hipótese nula seja verdadeira,
isto é,
pi = P (X ∈ Ai |H0 verdadeira), i = 1, 2, . . . , k.
• A estatística de teste usada é:

k
X (Oi − Ei )2 a
X2 = ∼ χ2k−p−1 ,
i=1
Ei sob H0
onde k é o número de classes e p o número de parâmetros estimados (do modelo considerado

na hipótese nula), pelo método da máxima verosimilhança.
• Região de rejeição do teste, para um nível de significância α, pré-especificado:
Rα =]χ2k−p−1,α , +∞[
2 ∈R .
Rejeitamos H0 , ao nível de significância α, sempre que Xobs α
8.6. TESTE DE AJUSTAMENTO DO QUI QUADRADO 73
Observações:
1. Caso exista algum Ei < 5, tipicamente correspondendo às classes dos extremos, essa(s)
classe(s) deve(m) ser agrupada(s) até o correspondente novo número esperado Ei (dado
pelas somas dos correspondentes antigos Ei0 s) ultrapassar 5. Os correspondentes Oi ’s devem
nesse caso ser também somados, diminuindo naturalmente o valor do número de classes k.
Pk Pk
2. Como i=1 Oi = i=1 Ei = n, a estatística de teste X 2 é igual a:
k
X Oi2
X2 = − n.
i=1
Ei
Exemplo 8.10. Geneticistas pensam que, em determinada população, a distribuição de probabil-

idade dos grupos sanguíneos é a seguinte:
(
MM MN NN
0.3 0.5 0.2
Uma amostra de 200 indivíduos desta população, classificados de acordo com estes grupos san-
guíneos, revelou 64 indivíduos do grupo MM, 96 do grupo MN e os restantes do grupo NN.
(a) Estes dados fornecem evidência estatística para pôr em causa o pressuposto dos geneticistas?
(b) Determine, um valor aproximado, do valor-p do teste.
Resolução:
(a) Usando o teste do Qui Quadrado, pretendemos testar:
H0 : P (M M ) = 0.3, P (M N ) = 0.5, P (N N ) = 0.2 vs

H0 : P (M M ) 6= 0.3, ou P (M N ) 6= 0.5, ou P (N N ) 6= 0.2
Temos 3 classes e os seguintes valores:

A1 = M M O1 = 64 E1 = 60
A2 = M N O2 = 96 E2 = 100
A3 = N N O3 = 40 E3 = 40
Pk (Oi −Ei )2 a
Usando a estatística de teste X 2 = i=1 Ei ∼ χ2k−p−1 , obtemos:
sob H0
2 642 962 402

Xobs = 60 + 100 + 40 − 200 = 0.427
Considerando α = 0.05, a região de rejeição é R0.05 =]χ22,0.05 , +∞[=]5.99, +∞[. Como

2 ∈
Xobs / R0.05 , não rejeitamos H0 , ao nível de significância 5%.
(b) Valor-p = P (X 2 > 0.427) ' P (X 2 > 0.446) = 0.8.

Exemplo 8.11 (Teste de ajustamento para o modelo Poisson). Pensa-se que o número de
defeitos encontrados em circuitos eléctricos tem distribuição Poisson. Recolheu-se uma amostra
aleatória de n = 60 circuitos e observaram-se os seguintes números de defeitos:
número de defeitos número de circuitos

0 32
1 15
2 9
3 4
Resolução: Como λ é desconhecido, terá de ser estimado. Assim, λ̂ = x = 0.75. Pretende-se

testar:
H0 : X ∼ P (0.75) vs H0 : X P (0.75)
A tabela anterior já inclui as observações agrupadas em classes. Assim, vamos considerar as

classes: A1 = {0}, A2 = {1}, A3 = {2}, A4 = {3, 4, . . .}. Como E4 < 5 é necessário juntar a
classe A4 à classe A3 (ver as seguintes tabelas).
no de defeitos pi Ei
0 0.472 28.32
1 0.354 21.24
2 0.133 7.98
3 (ou mais) 0.041 2.46
no de defeitos Oi pi Ei
0 32 0.472 28.32
1 15 0.354 21.24
2 (ou mais) 13 0.174 10.44
O valor observado de estatística de teste é:

(32 − 28.32)2 (15 − 21.24)2 (13 − 10.44)2
χ2obs = + + = 2.94
28.32 21.24 10.44
Considerando α = 0.05, a região de rejeição é R0.05 =]χ21,0.05 , +∞[=]3.84, +∞[. Como
χ2obs = 2.94 < χ21;0.05 = 3.84,
não rejeitamos a hipótese H0 de que a distribuição da população é P (0.75).

8.6. TESTE DE AJUSTAMENTO DO QUI QUADRADO 75
Exemplo 8.12 (Teste de ajustamento para o modelo Normal). Os artigos produzidos em

determinada fábrica são sujeitos a um controle de qualidade, resultando num índice de qualidade,
X. De forma a avaliar essa qualidade recolheu-se uma amostra aleatória de 46 artigos da produção,
tendo-se medido os valores seguintes do referido índice:
100, 110, 122, 132, 99, 96, 88, 75, 45, 154, 153, 161, 142, 99, 111, 105, 133, 142, 150, 153, 121, 126, 117, 97,
105, 117, 125, 105, 94, 90, 80, 50, 55, 102, 122, 136, 75, 104, 109, 108, 134, 135, 111, 78, 89, 154
Vamos usar estes dados para testar, ao nível de significância 5%,
H0 : X ∼ N (µ, σ 2 ) vs H1 : X N (µ, σ 2 )
Como não conhecemos os valores populacionais de µ e σ 2 , vamos estimá-los a partir da amostra.

Assim,
46 46
!
1 X 2 2 1 X
µ̂ = x = xi = 111.0652; σ̂ = s = x2 − 46 × x2 = 785.3068
46 i=1 46 − 1 i=1 i
Pela regra de Sturges, o número de classes a considerar é dado por: k ≈ 1+ log(n) log(46)
log(2) = 1+ log(2) ≈
6.523562
L 161−45
Consideramos k = 7. A amplitude de cada classe é aproximadamente 7 = 7 ≈ 16.6. Vamos
aproximar este valor a 20, ou seja, considerar as classes:
] − ∞; 60] ]60; 80] ]80; 100] ]100; 120] ]120; 140] ]140; 160] ]160; +∞[
Devemos contar quantas observações caiem em cada um dos intervalos anteriores, para obter
os valores de Oi , e devemos determinar os valores de Ei = n × pi = 46 × pi .
i Classe Oi pi Ei
1 ] − ∞; 60] 3 0.0344 1.5824 i Classe Oi pi Ei
2 ]60; 80] 4 0.0991 4.5586 1 ] − ∞; 80] 7 0.1335 6.141
3 ]80; 100] 9 0.2148 9.8808 2 ]80; 100] 9 0.2148 9.8808
4 ]100; 120] 12 0.2772 12.7512 3 ]100; 120] 12 0.2772 12.7512
5 ]120; 140] 10 0.223 10.258 4 ]120; 140] 10 0.223 10.258
6 ]140; 160] 7 0.1114 5.1244 5 ]140; +∞[ 8 0.1515 6.969
7 ]160; +∞[ 1 0.0401 1.8446
Então, como k = 5 classes e foram estimados p = 2 parâmetros (µ e σ 2 ),
k sob H0
2
X (Oi − Ei )2
X = ∼ χ2k−p−1 ≡ χ25−2−1 ≡ χ22
i=1
Ei
Regra de decisão do teste: Rejeitar H0 ao nível de significância 5% se x2obs ∈ R0.05 ≡]5.99, +∞[.
Como x2obs = 0.4019 não rejeitamos, ao nível de significância de 5% a hipótese nula de que a
distribuição da população é Normal.
Capítulo 9
Regressão Linear
9.1 Introdução
A regressão é uma técnica estatística que permite estudar a relação entre uma ou mais variáveis
resposta (também designadas por variáveis dependentes) e uma ou mais variáveis explicativas
(também designadas por variáveis independentes). Ao modelo matemático que relaciona as
variáveis dá-se o nome de equação de regressão.
Estamos apenas interessados no caso em que temos uma variável dependente Y , uma variável
independente x e a equação de regressão é linear, isto é,
Y = β0 + β1 x + ε, ε ∼ N (0, σ 2 ).
O termo β0 +β1 x é a componente determinística do modelo e ε é o erro aleatório que se pressupõe

ter distribuição normal de valor médio nulo e variância σ 2 . Os parâmetros β0 e β1 terão de ser
estimados a partir dos dados. A este modelo dá-se o nome de equação de regressão linear
simples. Podemos também usar esta técnica considerando modelos mais complexos como a
regressão linear múltipla ou a regressão não linear.
Observações:
1. Y também é uma variável aleatória porque, Y = β0 +β1 x+ε e ε ∼ N (0, σ 2 ) é uma variável
aleatória. Como
E(Y |x) = E(β0 + β1 x + ε|x) = β0 + β1 x + 0 = β0 + β1 x,
V (Y |x) = V (β0 + β1 x + ε|x) = V (ε) = σ 2 ,
isto é,
Y |x ∼ N (β0 + β1 x, σ 2 ).
2. O modelo possui o parâmetro adicional, σ 2 , que também terá de ser estimado.
77
78 CAPÍTULO 9. REGRESSÃO LINEAR
9.2 Estimadores dos Mínimos Quadrados de β0 e β1
Suponha que se observam um conjunto de n observações da variável independente e da variável

resposta - (x1 , Y1 ), (x2 , Y2 ) . . . , (xn , Yn ) - e que se pretendem usar estes valores para estimar
os parâmetros de regressão de um modelo de regressão linear simples. Assumimos que os er-
ros aleatórios εi , para cada elemento amostral Yi , são independentes seguindo todos a mesma
distribuição N (0, σ 2 ), isto é:
Yi = β0 + β1 xi + εi , com εi ∼ N (0, σ 2 ) independentes.
Assim deveremos encontrar estimadores β̂0 e β̂1 , dos coeficientes da recta de regressão β0 e
β1 , respectivamente, para obtermos a recta estimada,
Ŷ = β̂0 + β̂1 x.
As estimativas pontuais da recta de regressão para as observações x1 , x2 , . . . , xn serão Ŷi =

β̂0 + β̂1 xi , i = 1, 2, . . . , n.
Definição 9.1 (Resíduo). Embora a variável residual ε não seja observável, é possível calcular os
desvios das n observações da amostra.
εi = Yi − Ŷi = Yi − β̂0 − β̂1 xi , i = 1, 2, . . . , n.
A estes desvios damos o nome de resíduos.
De entre diversos métodos que existem para a dedução dos estimadores, vamos aqui abordar
o método dos mínimos quadrados. Neste método, os estimadores β̂0 e β̂1 devem ser obtidos de
modo a minimizar a soma do quadrado dos resíduos,
n
X n
X
SQR = (Yi − Ŷi )2 = (Yi − β̂0 − β̂1 xi )2 .
i=1 i=1
Esta minimização é conseguida resolvendo, em ordem a β0 e β1 , o sistema de equações,

∂ SQ 
 ∂ β̂0 = 0  −2 (Yi − β̂0 − β̂1 xi ) = 0
 P
 
⇔ ⇔
 ∂ SQ = 0
 
−2 xi (Yi − β̂0 − β̂1 xi ) = 0
  P
∂ β̂1

β̂ = Y − β̂1 x
 P P

 Yi = nβ̂0 + β̂1 xi  0


⇔ P
 β̂1 = Pxi Y2i −nxY

 P P P 2 
xi Yi = β̂0 xi + β̂1 x 
i 2 xi −nx
9.3. ESTIMAÇÃO DE σ 2 E QUALIDADE DO AJUSTE 79
Observação 1: Para simplificar a notação, podemos escrever:

SxY
β̂1 = β̂0 = Y − β̂1 x,
Sxx
com
n
X n
X
Sxx = (xi − x)2 = x2i − nx2 ;
i=1 i=1
Xn n
X n
X
SxY = (Yi − Y )(xi − x) = Yi (xi − x) = xi Yi − nxY .
i=1 i=1 i=1
Observação 2: A soma dos quadrados dos desvios pode ainda ser escrita da seguinte forma
n 2
X SxY
SQR = (Yi − Ŷi )2 = SY Y − = SY Y − β̂12 Sxx ,
i=1
Sxx
com
n n
X X 2
SY Y = (Yi − Y )2 = Yi2 − nY .
i=1 i=1
9.3 Estimação de σ 2 e Qualidade do Ajuste

Definição 9.2 (Estimador de σ 2 ). O estimador de σ 2 é:
SQR
σ̂ 2 =
n−2
Definição 9.3 (Coeficiente de Determinação).
SQR 2
2 Sxx SxY
R 2 = 1 − Pn 2
= β̂ 1 =
i=1 (Yi − Y ) SY Y Sxx SY Y
Esta medida compara a soma de quadrados dos resíduos (SQR ) do modelo de regressão linear
simples com a SQR do modelo de regressão linear simples com β1 = 0. A quantidade R2 varia
entre 0 e 1. Na prática, consideramos que o ajustamento é razoável se R2 ≥ 0.8.
9.4 Propriedades dos estimadores dos mínimos quadrados

9.4.1 Distribuição por amostragem de σ̂ 2
Proposição 9.4 (Propriedades de σ̂ 2 ). No modelo de regressão linear simples,
σ̂ 2 SQR
(n − 2) 2
= ∼ χ2n−2 .
σ σ2
9.4.2 Distribuição por amostragem de β̂0 e β̂1
Proposição 9.5 (Distribuição por amostragem de β̂0 e β̂1 ). No modelo de regressão linear simples,
!
σ2 n

2
β̂1 ∼ N β1 , β̂0 ∼ N β0 , nSσ xx 2
P
, e xi .
Sxx i=1
Demonstração. Note-se que

Pn
SxY i=1 (xi − x)Yi
β̂1 = = ,
Sxx Sxx
isto é, β̂1 é uma combinação linear de v.a.’s Yi independentes, com distribuição Normal. Logo β̂1
também tem distribuição Normal. E ainda necessário conhecer os seus parâmetros. O seu valor
médio é
Pn n
− x)E(Yi ) (xi − x)(β0 + β1 xi )
P
i=1 (xi
E(β̂1 ) = = i=1 =
Sxx Sxx
β0 ni=1 (xi − x) + β1
Pn
i=1 (xi − x)xi
P
β1 Sxx
= = = β1
Sxx Sxx
e a variância,
Pn Pn Pn
i=1 (xi − x)Yi i=1 (xi − x)2 V (Yi ) i=1 (xi − x)2 σ 2

V (β̂1 ) = V = 2
= 2
Sxx Yi0 s indep. Sxx Sxx
Sxx 2 σ2
= 2
σ = .
Sxx Sxx
Relativamente β̂0 , recordemos que β̂0 = Y − β̂1 x. Como Y e β̂1 têm distribuição Normal,
então β̂0 também tem distribuição normal. O valor médio é
E(β̂0 ) = E(Y ) − E(β̂1 )x = β0 + β1 x − β1 x = β0 ,
e a variância,
!
σ2 σ2 σ2 nx2
V (β̂0 ) = V (Y ) + x2 V (β̂1 ) − 2x Cov(Y , β̂1 ) = + x2 −0= 1+
n Sxx n Sxx
n
!
σ2 σ2 X
= Sxx − nx2 = x2i .
nSxx nSxx i=1
Nota: No cálculo de V (β̂0 ), usou-se o resultado:

 
n n
SxY 1 1X X
Cov(Y , β̂1 ) = Cov(Y , )= Cov  Yi , (xj − x)Yj 
Sxx Sxx n i=1 j=1
n n
1 X σ2 X
= (xi − x)V (Yi ) = (xi − x) = 0
nSxx i=1 nSxx i=1
9.5. INFERÊNCIA SOBRE OS PARÂMETROS DO MODELO DE REGRESSÃO 81
Observação: A partir do resultado anterior conclui-se que β̂0 e β̂1 são estimadores centrados de
β0 e β1 , respectivamente.
Consequentemente, querendo fazer inferência sobre os parâmetros β0 ou β1 , não podemos usar

a distribuições de β̂0 e β̂1 , já que elas dependem de σ 2 (geralmente é desconhecido). Como
SQR
σ̂ 2 = n−2 . teremos de usar os seguintes resultados:
β̂1 − β1 p β̂1 − β1
T = q 2 = Sxx ∼ tn−2 ,
σ̂ σ̂
Sxx
s
β̂0 − β0 nSxx β̂0 − β0
T =q = Pn 2 ∼ tn−2 .
σ̂ 2 Pn 2 i=1 xi σ̂
nSxx i=1 xi
9.5 Inferência sobre os parâmetros do Modelo de Regressão
9.5.1 Intervalo de Confiança e Teste de Hipóteses para β1
O parâmetro β1 é o declive da recta de regressão e, como tal mede o grau de crescimento de Y

relativamente a x.
Intervalo de confiança a (1 − α)100% para β1
• Vamos utilizar a seguinte variável pivot:
β̂1 − β1
T = q 2 ∼ tn−2
σ̂
Sxx
• Para um nível de confiança de (1 − α) × 100%, escolha de c1 e c2 - escolhemos c1 = −c e

c2 = c, tal que P (−c < T < c) = 1 − α. É fácil de verificar que c = tn−2,α/2 .
• Determinação dos extremos do intervalo:

q q
σ̂ 2 σ̂ 2
− c < T < c ⇔ −tα/2 < T < tα/2 − c Sxx < β̂1 − β1 < c Sxx ⇔
q q
σ̂ 2 σ̂ 2
−c Sxx − β̂1 < −β1 < c Sxx − β̂1 ⇔
q q
σ̂ 2 σ̂ 2
β̂1 − tn−2,α/2 Sxx < β1 < β̂1 + tn−2,α/2 Sxx
• Assim, obtemos o seguinte intervalo de confiança:
i q q h
σ̂ 2 σ̂ 2
IC(1−α)×100% (β1 ) = β̂1 − tn−2;α/2 Sxx , β̂1 + tn−2;α/2 Sxx .
Teste de Hipóteses para β1

Podemos também realizar um teste de hipóteses sobre o valor do parâmetro β1 . Embora o teste
tanto possa ser bilateral, como unilateral, a primeira opção é a mais frequente. Por isso apenas
apresentamos o teste bilateral, embora este possa ser adaptado para o caso unilateral.
• Hipóteses:
H0 : β1 = a vs H1 : β1 6= a
• Estatística de teste:
p β̂1 − a
T = Sxx ∼ tn−2
σ̂ Sob H0
• Região de rejeição do teste:
Rα =] − ∞; −tn−2,α/2 [ ∪ ]tn−2,α/2 ; +∞[
• Regra de decisão do teste: Rejeitar H0 ao nível de significância α se
tobs ∈ Rα , ou seja, se |tobs | > tn−2;α/2 .
9.5.2 Intervalo de Confiança e Teste de Hipóteses para β0
O parâmetro β0 corresponde ao ponto de intersecção da recta com o eixo das abcissas. A inferência
sobre este parâmetro não tem a mesma importância que tem a inferência sobre o declive β1 da
recta de regressão.
Intervalo de Confiança a (1 − α) × 100% para β0

De modo análogo, ao que foi feito para β1 , mas agora utilizando a variável pivot,
s
β̂0 − β0 nSxx β̂0 − β0
T =q = Pn 2 ∼ tn−2 ,
σ̂ 2 Pn 2 i=1 xi σ̂
nSxx i=1 xi
obtemos o intervalo de confiança (1 − α) × 100% para β0 :
r Pn r Pn
x2 x2
i h
IC(1−α)×100% (β0 ) ≡ β̂0 − tn−2;α/2 σ̂ 2 i=1 i
nSxx ; β̂0 + tn−2;α/2 σ̂ 2 i=1 i
nSxx .
Testes de hipóteses para β0

Os testes de hipóteses sobre o parâmetro β0 podem ser tanto bilaterais como unilaterais, sendo
9.5. INFERÊNCIA SOBRE OS PARÂMETROS DO MODELO DE REGRESSÃO 83
sempre baseados na distribuição por amostragem anteriormente apresentada para β̂0 . Vamos
considerar apenas o teste bilateral para β0 , ou seja, as hipóteses:
H0 : β0 = a vs H1 : β0 6= a
O teste realiza-se de modo análogo ao apresentado para β1 , mudando apenas a estatística de

teste que é dada por
β̂0 − a
T =q ∼ tn−2
σ̂ 2 Pn 2 Sob H0
nSxx i=1 xi
9.5.3 Intervalo de Confiança e Teste de Hipóteses para σ 2

SQR SQR
Como σ̂ 2 = n−2 é estimador centrado de σ 2 e σ2
∼ χ2n−2 , podemos deduzir um intervalo
de confiança (1 − α) para a variância σ 2 e para o desvio padrão σ. Seguindo o procedimento
adoptado, na secção 7.2, obtemos
# "
(n − 2)σ̂ 2 (n − 2)σ̂ 2
2
IC(1−α)×100% (σ ) ≡ ; ,
χ2n−2;α/2 χ2n−2;1−α/2
e
v v 
u (n − 2)σ̂ 2 u (n − 2)σ̂ 2
u u
IC(1−α)×100% (σ) ≡ t 2
 ; t
2
.
χn−2;α/2 χn−2;1−α/2
De modo análogo ao apresentado na secção 8.3, podemos também realizar testes de hipótese
(bilaterais e unilaterais) para σ 2 recorrendo à distribuição de σ̂ 2 .
Exemplo 9.6 (Exame de Probabilidades e Estatística C 2005/06). Pretende-se, se possível, mod-

elar através de uma recta de regressão simples o consumo de combustível, Y , de um automóvel
em função da sua velocidade de circulação, x. Para tal registaram-se os valores de consumo de
combustível para um mesmo percurso de 100Km, percorrido a diferentes velocidades:
xi 50 60 70 80 90 100 110 120
yi 5.22 6.25 6.85 8.36 8.09 10.16 11.17 11.57
X X X
x = 85, Y = 8.46, x2i = 62000, Yi2 = 610.43, Yi xi = 6145.5, SQR = 1.15
(a) Ajuste um modelo de regressão linear simples aos dados. Que pode dizer sobre a qualidade
do ajuste?
(b) Diga por suas palavras como interpreta o valor estimado do declive da recta acima consid-
erada. O sinal desta estimativa está de acordo com as suas expectativas? Porquê?
(c) Determine um intervalo de confiança a 95% para o verdadeiro declive da recta de regressão.
Comente o resultado face à qualidade do ajuste concluída na alínea (a).
9.6 Estimação do valor esperado de Y para uma observação x0 da

variável controlada
O valor esperado de Y para uma observação x0 da variável controlada é
µY |x0 = E(Y |x0 ) = β0 + β1 x0 .
que pode ser estimado por
µ̂Y |x0 = β̂0 + β̂1 x0 .
Caso a variância do erro, σ 2 , não seja conhecida, a distribuição de amostragem de µ̂Y |x0 é
µ̂Y |x0 − µY |x0
T =r ∼ tn−2 ,
(x0 −x)2

1
σ̂ 2 n + Sxx
o que permite deduzir o intervalo de confiança (1 − α) para µY |x0 ,
r r
(x0 −x)2 (x0 −x)2
i h
1 1
µ̂Y |x0 − tn−2;α/2 σ̂ 2 n + Sxx , µ̂Y |x0 + tn−2;α/2 σ̂ 2 n + Sxx .
Nota: Só devemos fazer estimação de µY |x0 para valores x0 que estejam dentro do intervalo das
observações obtidas para x.
9.7 Previsão do valor da variável resposta Y para um novo valor

x0 da variável controlada
Dada um valor x0 da variável controlada x, a variável resposta é
Y0 = Y (x0 ) = β0 + β1 x0 + ε,
onde ε ∼ N (0, σ 2 ). O estimador de Y , para um valor x0 , é Yb0 = Yb (x0 ) = β̂0 + β̂1 x0

O erro de predição, εp = Y0 − Yb0 , é uma v.a. Normal de valor médio 0. Como Y0 (observação
futura) é independente de Yb0 , a variância de εp é de dada por
!
1 (x0 − x)2
V (εp ) = V (Y0 − Yb0 ) = σ 2 1+ + .
n Sxx
Y0 − Y
Se σ 2 for estimado por σ̂ 2 , então T =r ∼ tn−2 .
b0
1 (x0 −x)2
σ̂ 2 1+ n + Sxx
O intervalo de confiança (1 − α) para Y0 é,

r r
(x0 −x)2 (x0 −x)2
i h
1 1
Yb0 − t
n−2;α/2 σ̂ 2 1+ n + Sxx ; Yb0 + tn−2;α/2 σ̂ 2 1 + n + Sxx .
Capítulo 10
Exercícios
10.1 Introdução à Teoria da Probabilidade

1.1 Vinte e cinco membros de uma sociedade devem eleger um presidente, um secretário e um tesoureiro.
Supondo que qualquer dos vinte e cinco membros é elegível para qualquer dos cargos, quantas são
as hipóteses de um resultado final?
1.2 Considere o problema anterior. Suponha que não há diferenciação dos cargos. De quantas maneiras
distintas se podia formar uma comissão, com três elementos escolhidos entre os vinte e cinco ele-
mentos?
1.3 Quantas palavras diferentes, com ou sem significado, se podem formar com as letras da palavra
ROMA?
1.4 Quatro livros de Matemática, seis de Física e dois de Química, todos diferentes, devem ser arrumados
numa prateleira. Quantas arrumações diferentes são possíveis se:
(a) os livros de cada matéria ficarem todos juntos?
(b) apenas os livros de matemática devem ficar juntos?
1.5 Numa sala de cinema, de quantas maneiras diferentes se podem sentar numa fila de 12 lugares, 7
amigos?
1.6 De quantas maneiras 10 pessoas podem sentar-se num banco, se houver apenas 4 lugares?
1.7 De quantas formas diferentes se podem sentar 12 pessoas numa mesa redonda?
1.8 Um homem tem 3 camisas e 2 gravatas. De quantas maneiras pode vestir-se (com uma camisa e
uma gravata)?
1.9 Num conjunto de 10 lâmpadas para árvore de natal, 2 são defeituosas. Quantas amostras de 6
lâmpadas podem ser escolhidas, de entre aquelas 10, de modo que:
(a) as 6 lâmpadas escolhidas sejam todas boas?
(b) entre a 6 escolhidas haja uma, e uma só defeituosa?
1.10 Dados 12 pontos num plano, não havendo 3 deles sobre a mesma recta,
(a) quantas rectas são determinadas pelos pontos?
(b) quantas dessas rectas passam pelo ponto A?
(c) quantos triângulos são determinados pelos pontos?
(d) Quantos desses triângulos contêm o ponto A como vértice?
85
86 CAPÍTULO 10. EXERCÍCIOS
(e) Quantos desses triângulos contêm o lado AB?
1.11 De um baralho de 52 cartas são retiradas 10 cartas. Em quantos casos aparecem:

(a) exactamente um ás?
(b) pelo menos um ás?
(c) exactamente dois ases?
(d) pelo menos dois ases?
(e) Um ás ou um ouro?
1.12 Determine o valor n que seja solução de:

(a) n−2

2 =6
n+1
− n−1 = n2 − 1

(b) 2 2
(c) 5 × n3 = n+2

4
1.13 Os atletas A, B, e C vão participar numa corrida e todos estão preparados para a ganhar. O sistema
de cronometragem é suficientemente preciso de modo que não se admitem empates.
(a) Qual a probabilidade de A terminar a corrida à frente de C?
(b) Qual a probabilidade de A ganhar a corrida?
1.14 Por engano misturaram-se quatro pilhas novas com três usadas. Escolhendo, ao acaso e sem
reposição, duas dessas pilhas, determine a probabilidade de:
(a) Ambas serem novas
(b) Nenhuma ser nova
(c) Pelo menos uma ser nova
1.15 Num grupo de 20 congressistas, 8 só falam inglês, 5 só falam francês e 7 falam os dois idiomas.
Qual a probabilidade de dois congressistas, escolhidos ao acaso, poderem conversar sem auxílio de
um intérprete?
1.16 Uma urna contém quatro bolas amarelas, cinco bolas verdes, três bolas brancas e cinco bolas pretas.
Extraem-se sucessivamente, ao acaso e sem reposição, quatro bolas. Qual a probabilidade de:
(a) Obter na primeira extracção uma bola amarela, na segunda uma verde, depois uma branca e
finalmente uma preta?
(b) Obter o mesmo conjunto de cores independentemente da sua ordem?
1.17 (Teste de P.E. 2006/07) Considere os acontecimentos A e B de um espaço de resultados tais que
P (A ∪ B) = 0.8, e P (A − B) = 0.3. Qual o valor da P (B)?
1.18 Sejam A, B e C acontecimentos tais que P (A) = P (B) = P (C) = 41 , P (A ∩ B) = P (B ∩ C) = 0

e P (A ∩ C) = 18 . Qual a probabilidade de se verificar pelo menos um dos 3 acontecimentos?
1.19 Sabendo que A e B são acontecimentos tais que P (A) = 23 , P (B) = 1

2 e P (A ∩ B) = 13 , determine
P (A − B), P (A ∪ B), P (Ā ∪ B̄), P (Ā ∩ B) e P (A ∪ B̄).
1.20 De 100 agricultores, 50 produzem vinho, 30 produzem milho e 10 produzem vinho e milho. Escol-
hendo um deste agricultores ao acaso qual a probabilidade de:
(a) Ele produza vinho ou milho?
(b) Ele não produza vinho nem milho?
10.1. INTRODUÇÃO À TEORIA DA PROBABILIDADE 87
1.21 A probabilidade de um homem estar vivo daqui a 25 anos é 35 e a probabilidade da sua mulher ainda
viver na mesma ocasião é de 23 . Determine a probabilidade de daqui a 25 anos:
(a) Ambos estarem vivos.

(b) Apenas o homem estar vivo.
(c) Apenas a mulher estar viva.
(d) Apenas um estar vivo.
1.22 Em determinada gelataria 40% dos clientes escolhem o sabor chocolate, 30% escolhem o sabor limão
e 15% escolhem os dois. Seleccionou-se ao acaso um cliente dessa gelataria.
(a) Se escolheu o sabor limão, qual a probabilidade de ter escolhido também o sabor chocolate?
E vice-versa?
(b) Qual a probabilidade de escolher limão ou chocolate?
1.23 Suponha que 10% da população de certo país sofre de problemas cardíacos e que, de entre estes,
70% são fumadores. De entre os que não sofrem de problemas cardíacos 45% fumam. Seleccionada
ao acaso uma pessoa desta população:
(a) Qual a probabilidade de ser fumadora?

(b) Se for fumadora, qual a probabilidade de sofrer de problemas cardíacos?
1.24 Num clube de futebol treinam regularmente 30 jogadores, dos quais 8 são atacantes, 12 são médios e
os restantes são defesas. Independentemente dos resultados dos restantes jogadores, cada atacante
tem uma probabilidade de 3/4 de marcar golo de penalty, cada médio tem uma probabilidade de
1/2 de marcar golo por penalty e cada defesa consegue-o com probabilidade 1/5.
(a) Qual a probabilidade de que um jogador, escolhido ao acaso, marque golo devido a penalty?
(b) Dado que, num jogo, um qualquer jogador marcou um golo de penalty, qual a probabilidade
de esse jogador ser médio?
1.25 Sejam A e B acontecimentos independentes. Mostre que A e B são também acontecimentos

independentes.
1.26 Um aluno conhece bem 60% da matéria dada. Num exame com cinco perguntas, sorteadas ao acaso,
sobre toda a matéria, qual a probabilidade de vir a responder correctamente a duas perguntas?
1.27 Numa certa rua existem duas caixas Multibanco - A e B. A probabilidade de as máquinas avariarem
é, independentemente uma da outra, de 0.05 para a A e 0.01 para a B. Determine a probabilidade
de, num dia qualquer:
(a) Ambas as máquinas estarem avariadas.

(b) Apenas a máquina A estar avariada.
(c) Pelo menos uma das máquinas estar avariada.
1.28 (Teste de P.E. 2006/07) Uma urna tem oito moedas, seis honestas e duas viciadas. O resultado do
lançamento de uma moeda viciada é sempre “cara”.
(a) Escolhendo duas das oito moedas disponíveis, ao acaso e sem reposição, qual a probabilidade
de seleccionar as duas moedas viciadas.
(b) Escolhendo uma moeda ao acaso, qual a probabilidade de obter três caras em três lançamentos
sucessivos dessa moeda?
(c) Se em três lançamentos, da mesma moeda, o resultado foi sempre “cara”, qual a probabilidade
de ter escolhido a moeda viciada?
1.29 (Exame de de P.E. D - 2008/09) Um laboratório farmacêutico produz um kit, que identifica rap-
idamente o tipo de sangue de uma pessoa, entre os 4 possíveis: A, B, O e AB. O ensaio clínico
efectuado antes da comercialização do kit indica que 2%, 3%, 5% e 10% das pessoas com sangue
de tipo A, B, O e AB, respectivamente, são incorrectamente classificadas. Sabendo que 40% da
população tem sangue do tipo A, 10% tem sangue de tipo B, 45% tem sangue de tipo O e os
restantes têm sangue de tipo AB, calcule:
(a) A probabilidade de uma pessoa, que usou o kit, ser incorrectamente classificada.
(b) A probabilidade de uma pessoa, que usou o kit e foi incorrectamente classificada, ter sangue
de tipo AB.
10.2. VARIÁVEIS ALEATÓRIAS 89
10.2 Variáveis aleatórias

2.1 A variável aleatória (v.a.) X representa o número de doentes com gripe que procuram, por dia, o
Dr. Remédios. Em 50% dos dias, pelo menos 2 pacientes com gripe procuram o Dr. Remédios. A
sua função de probabilidade é dada por:

0 1 2 3
X
p 0.2 q 0.3
(a) Determine p e q.
(b) Determine a função de distribuição da v.a. X e esboce o seu gráfico. Comente-o.
(c) Determine a função de probabilidade das v.a.’s Y = 40X e W = max(X, 1).
2.2 A v.a. X representa o número de pontos que saem no lançamento de um determinado dado. A sua
função de distribuição segue-se:


 0, x<1
1/6, 1 ≤ x<2




1/4, 2 ≤ x < 4

F (x) =

 1/2, 4 ≤ x < 5
7/12, 5≤x<6




1, x≥6

(a) Calcule as seguintes probabilidades, usando a função de distribuição:

i) A probabilidade de o número de pontos saídos ser no máximo 3.
ii) P (1 < X ≤ 2).
iii) P (2 ≤ X < 6).
iv) A probabilidade de o número de pontos saídos não distar de 2 pontos por mais de 1 ponto.
(b) Determine a função de probabilidade de X e confirme os resultados acima obtidos.
(c) Pode afirmar que o dado é equilibrado? Justifique.
(d) Sabendo que o número de pontos saído é pelo menos 4, calcule a probabilidade de saírem 6
pontos.
2.3 O Sr. Matias possui um café nas vizinhanças de um estádio de futebol. Da sua experiência, o Sr.
Matias sabe que, em dias de futebol, costuma vender ou 50, ou 100, ou 150 ou 200 sandes, com
probabilidades 0.2, 0.4, 0.3 e 0.1, respectivamente.
O Sr. Matias costuma fazer 100 sandes e quando estas se esgotam recorre a um fornecedor da terra
que lhe garante o envio atempado de mais sandes.
(a) Qual a probabilidade de as sandes preparadas pelo Sr. Matias serem insuficientes para satisfazer
a procura?
(b) Calcule a probabilidade de vender 200 sandes, num dia em que as sandes por ele feitas não
satisfazem a procura.
2.4 Seja X uma v.a. com a seguinte função densidade probabilidade:


 k + x, −1 ≤ x < 0
f (x) = k − x, 0 ≤ x < 1
0, c.c.

(a) Determine o valor da constante k.

(b) Determine a função de distribuição de X e esboce o seu gráfico.
(c) Determine P (X > 0).
(d) Determine P (X > 0.5|X > 0).
2.5 Considere funções densidade de probabilidade, representadas nos seguintes gráficos.

(a) Determine o valor das constantes a e b.
f (x) 6 f (x) 6
c a c 1
2 c
J

J
J

J

J

J
cb` cb` b`

J
- -
−1 0 1 x −2b 0 b x
(b) Qual a relação entre a e b?

f (x) 6
b
T

T

T
T

T -
−a 0 a b x
2.6 Seja X uma v.a. com a seguinte função densidade probabilidade:

4x, 0 < x < k
f (x) =
0, c.c.
(a) Esboce o gráfico da função densidade e determine o valor da constante k.

(b) Determine a função de distribuição da v.a. X.
(c) Calcule P (1/4 ≤ X ≤ 1/3), a mediana e o quantil de ordem 0.95.
(d) Identifique através da função de distribuição ou da função densidade, a distribuição das v.a.’s
Y = X − 1 e T = X 3.
2.7 A quantidade de tempo, em horas, que um computador funciona até avariar é uma v.a. com a
seguinte função densidade probabilidade:
x
k e− 100 , x ≥ 0

f (x) =
0, x<0
(a) Qual a probabilidade de o computador trabalhar entre 50 e 150 horas antes de avariar?
(b) Qual a probabilidade de o computador funcionar menos de 100 horas até avariar? E exacta-
mente 100 horas?
(c) Qual a probabilidade de o computador avariar após 200 horas de funcionamento, sabendo que
já funcionou mais de 100 horas?
2.8 (Exame de P.E. 2006/07) Seja X uma variável aleatória com função densidade

 c(1 + x), −1 < x ≤ 0;
f (x) = c(1 − x2 ), 0 < x < 2;
0, outros valores de x;

(a) Mostre que c = 2/3 e determine a função de distribuição.

(b) Calcule P (X ≤ 0|X ≤ 1).
10.2. VARIÁVEIS ALEATÓRIAS 91
2.9 Determine o valor médio e a variância da variável aleatória discreta X com função de probabilidade:
P (X = 0) = 81 P (X = 1) = 38 f (2) = 83 P (X = 3) = 18 . Calcule ainda:

E(g(X)), com g(X) = X 3 , E 1+X 1
e E(X 2 ).
2.10 Seja X uma v.a. tal que P (X = 0) = 41 , P (X = 1) = p2 , P (X = 2) = 5

8 − p
2 e P (X = 3) = 18 ,
com 0 ≤ p ≤ 21 . Determine p de forma a que V (X) seja mínima.
2.11 Numa lotaria foram emitidos 10000 bilhetes. Sorteia-se 1 prémio de 25000 unidades monetárias
(u.m.) e 10 prémios de 2500 u.m.. Seja X a v.a. que representa o valor do prémio de um bilhete
qualquer.
(a) Determine a função de probabilidade de X.

(b) Qual a probabilidade de um bilhete não ter qualquer prémio?
(c) Qual a probabilidade de um bilhete ter pelo menos 2500 u.m.?
(d) Determine o E(X), V (X) e CV (X).
2.12 Uma comissão de alunos está a organizar uma festa da faculdade. Os alunos vão comprar 200 litros
de cerveja. Um fornecedor deste líquido (A) cobra 1 unidade monetária (u.m.) por litro permitindo
a devolução da cerveja que sobrar (e que não tem de ser paga) e um outro fornecedor (B) cobra
0.5 u.m. por litro, não admitindo devoluções. Os alunos, independentemente de quanto lhes custe
a cerveja, cobram 1.5 u.m. por litro.
Sabendo que, se estiver bom tempo - o que acontecerá com probabilidade 0.8 - os alunos conseguem
vender os 200 litros de cerveja, mas se estiver mau tempo só vendem metade, a quem devem comprar?
2.13 Seja X uma v.a. com a seguinte função de distribuição:

0, x<0
F (x) =
1 − (x + 1)e−x , x ≥ 0
(a) Determine a função densidade probabilidade de X.

(b) Determine E(X) e V (X).
2.14 Determine E(X), E(X − 1), V (X), E(X(X − 1)), E(eX ), a mediana e o coeficiente de variação
da v.a. X, que tem a seguinte função densidade probabilidade:

x


 2, 0≤x≤1

 1,

1<x≤2
2
f (x) =
3−x


 2 , 2<x≤3


 0, x<0 ∨ x>3
2.15 A v.a. X tem a seguinte função densidade probabilidade:

(
k sin(x), 0 ≤ x ≤ π
f (x) =
0, c.c.
(a) Determine o valor da constante k.

(b) Determine E(X) e E(cos(X)).
π2
(c) Sabendo que V (X) = 4 − 2, determine E(X 2 ).
(d) Determine V (5X − 4).
2.16 (Teste de P.E. D - 2008/09) Uma empresa de produtos químicos fabrica um composto que vende
em doses unitárias de 1 litro. Suponha que a fracção de álcool numa dose unitária do composto é
uma variável aleatória X, com função densidade de probabilidade dada por:
kx3 (1 − x),

0 ≤ x ≤ 1;
f (x) =
0, outros valores de x;
(a) Mostre que k = 20.

(b) Determine a função de distribuição.
(c) Sabendo que E(X 2 ) = 10/21, calcule V (5X − 1).
(d) Sabe-se que o custo de produção de uma dose de composto é sempre 0.8e/l, mas o seu preço
de venda em e/l, V , depende do valor de X que lhe corresponde, sendo definido da seguinte
forma:

1.2, 1/3 ≤ X ≤ 2/3;
V =
1.0, outros valores de X;
Obtenha a função de probabilidade da variável aleatória, L = V − 0.8, o lucro obtido por cada
dose daquele composto.
10.3. VECTORES ALEATÓRIOS 93
10.3 Vectores Aleatórios

3.1 (Teste de P.E. 2006/07) Numa empresa de construção, o número Y de novos trabalhadores por
semana, é uma variável aleatória de valor médio 3815 . O número de acidentes de trabalho que
ocorrem por semana na mesma empresa, X, é também uma variável aleatória. O quadro que se
segue tem a função de probabilidade conjunta de (X, Y ).
X\Y 0 2 a
0 c 2c 3c
1 2c 3c 4c
(a) Complete a função de probabilidade conjunta e calcule E(Y (Y − 1)) e P (X + Y ≥ 3).

(b) Qual a probabilidade de ocorrer um acidente de trabalho, numa semana onde foram admitidos
dois novos trabalhadores?
(c) Determine a covariância entre as variáveis X e Y . Comente o resultado.
3.2 Numa empresa de aluguer de aviões informam-nos de que a procura diária de aviões de passageiros,
X, e a procura diária de aviões de transporte rápido de correio, Y , constituem um par aleatório
(X, Y ), cuja função de probabilidade conjunta é dada por:
X\Y 0 1 2
0 0 0.25
1 0.05 0.35
2 0.1 0.1 p + 0.2
3 0 0.1 p
0.2 0.5
(a) Qual a probabilidade de, num dia, a procura de aviões de passageiros ser inferior à procura de
aviões de transporte rápido de correio?
(b) Determine a função de probabilidade de X|Y = 1 e calcule E(X|Y = 1).
(c) Para um dia em que foi pedido um avião de transporte rápido de correio, qual a probabilidade
de terem sido procurados 1 ou 2 aviões de passageiros?
(d) Qual a procura diária média de aviões de passageiros?
(e) Deduza a função de probabilidade da procura total diária de aviões de aluguer.
(f) Determine a procura diária total média de aviões de aluguer.
(g) Sabendo que V (X) = 0.8875, determine Cov(X, Y ), V (X − 2Y ) e ρ(X, Y ).
3.3 (Exame de P.E. 2006/07) Seja (X, Y ) um par aleatório, onde X representa o número diário de
imóveis vendidos numa agência imobiliária e Y a v.a. definida por:
(
0, se a agência imobiliária não fecha durante o horário de almoço;
Y =
1, se a agência imobiliária fecha durante o horário de almoço;
Sabe-se que:
• X tem distribuição B(2, 0.6) e os valores da v.a. Y ocorrem com a mesma probabilidade.
• Os acontecimentos {X = 1} e {Y = 0} são independentes.
• P (X = 2, Y = 1) = 0.12.
(a) Construa a tabela da função de probabilidade conjunta e marginais associada ao par aleatório
(X, Y ).
(b) As variáveis X e Y são independentes? Justifique.

(c) Calcule V (Y − 2X).
(d) Qual a probabilidade de venderem 2 imóveis, nos dias em que a agência não fecha durante o
período de almoço?
3.4 Numa fábrica produzem-se ratos de computador, que podem sofrer de dois tipos diferentes de
defeitos - digamos A e B. Para cada rato produzido definem-se duas variáveis aleatórias, X e Y ,
representando, respectivamente, o número de defeitos do tipo A e do tipo B a si associados:

0, rato sem defeito do tipo A 0, rato sem defeito do tipo B
X= Y =
1, rato com defeito do tipo A 1, rato com defeito do tipo B
Sabendo que P (Y = 0) = 0.80, P (X = 1|Y = 1) = 0.7 e P (X = 1|Y = 0) = 0.1:
(a) Determine a função de probabilidade conjunta do par aleatório (X, Y ).

(b) Justifique se para cada rato o número de defeitos do tipo A é independente do número de
defeitos do tipo B.
(c) Calcule a P (X < Y ).
(d) Qual a probabilidade de o número total de defeitos num qualquer rato da produção ser inferior
a 2?
3.5 Suponhamos que M1 e M2 são duas máquinas que funcionam independentemente e sejam X e Y
variáveis aleatórias que representam, respectivamente, no diário de avarias de M1 e o no diário de
avarias de M2 . Sabendo que:
• A máquina M1 nunca avaria mais do que uma vez por dia e, que a máquina M2 avaria, no
máximo, duas vezes por dia;
• A probabilidade de M1 não avariar é de 0.7;
• A probabilidade de M2 não avariar é 0.5 e a de avariar duas vezes é 0.3,
Construa a tabela da função de probabilidade conjunta e marginais associada ao par aleatório (X, Y ).
3.6 Sejam X e Y duas v.a.’s tais que V (X) = σ 2 e V (Y ) = 2σ 2 . Considere novas v.a.’s, T = 2X + Y
e W = X − Y . Sabendo que V (W ) = σ 2 , calcule:
(a) O coeficiente de correlação entre X e Y .

(b) V (T ).
(c) Cov(W, T ).
3.7 Seja (X, Y ) um par aleatório para o qual V (X) = V (Y ) = σ 2 e coeficiente de correlação ρ. Sejam
as novas v.a.’s U = X + Y e W = X − Y . Mostre que V (W ) = 2σ 2 (1 − ρ) e Cov(U, W ) = 0.
3.8 Seja (X, Y ) um par aleatório com a seguinte função densidade probabilidade conjunta:
(
k(x + 2y), 0 < x < 1, 0 < y < 1
f (x, y) =
0, c.c.
(a) Determine k.
(b) Determine as funções densidade marginais de X e Y .
(c) As variáveis X e Y são independentes?
10.3. VECTORES ALEATÓRIOS 95
(d) Calcule P ( 15 < X < 25 ), e P (X < Y ).

(e) Calcule P ( 15 < X < 25 |Y > 12 ).
3.9 Seja (X, Y ) um par aleatório com a seguinte função densidade probabilidade conjunta:

k, x > 0, y < 0, y > x − 2
f (x, y) =
0, restantes valores de (x, y)
(a) Determine k.
(b) As variáveis X e Y são independentes?
10.4 Principais distribuições

4.1 Um consumidor queixou-se às autoridades que no supermercado do Sr. Manuel se vendiam latas de
cogumelos com o prazo de validade ultrapassado. No seguimento desta denúncia um inspector das
actividades económicas dirigiu-se ao referido supermercado e seleccionou, ao acaso e sem reposição,
6 latas - do total de 50 que o Sr. Manuel ainda tinha para vender.
Como na realidade ainda restavam 7 latas com o prazo de validade ultrapassado, qual a probabilidade
de o Sr. Manuel ser multado (isto é, de o inspector descobrir pelo menos uma lata com o prazo
ultrapassado)?
4.2 De forma a proceder a uma classificação geral do estado das praias Portuguesas, uma comissão
Europeia vai inspeccionar 10 praias, seleccionadas ao acaso de entre as 100 existentes. A comissão
atribui a classificação de Bom se pelo menos 8 das 10 praias inspeccionadas estiverem em bom
estado. Sabendo que, da totalidade das 100 praias, 15 não apresentam boas condições, qual a
probabilidade de Portugal:
(a) Obter uma classificação de Suficiente, pelo facto da comissão só ter encontrado 7 praias em
bom estado?
(b) Obter uma boa classificação?
(c) Se a comissão só inspeccionasse 5 praias, qual a probabilidade de não encontrar nenhuma em
mau estado?
(d) Nas praias inspeccionadas quantas se esperam que estejam em bom estado?
4.3 O senhor Sousa tem uma empresa que compra e vende selos e outros artigos de coleccionismo. Ele
guarda 20 selos dentro de uma bolsa preta, estando ainda cada um deles metido num envelope
opaco. 6 destes selos valem 100 euros cada um e os restantes nada valem. O senhor Sousa, para
promover a venda, cobra 20 euros por cada selo, mas não permitindo que o cliente veja o conteúdo
do envelope. Suponha que um cliente compra 5 selos.
(a) Qual a probabilidade dos cinco selos nada valerem?

(b) Qual a probabilidade do cliente não perder nem ganhar dinheiro com a compra?
4.4 Num determinado percurso de avião, a probabilidade de uma pessoa qualquer que aí viaje pedir uma
refeição vegetariana é de 0.2. Supondo que em determinado dia viajam 10 pessoas no avião, calcule
a probabilidade de:
(a) Ninguém pedir refeição vegetariana.

(b) Todos pedirem refeição vegetariana.
(c) Pelo menos uma pedir refeição vegetariana.
4.5 Determinado exame é constituído por 5 questões de escolha múltipla, em que cada questão tem 4
opções de resposta possíveis - apenas uma sendo a correcta. Supondo que um aluno que vai fazer
o exame responde a tudo ao acaso, qual é a probabilidade de ele acertar a mais de metade das
questões? Qual é o número médio de respostas correctas? E o seu desvio padrão?
4.6 Sabe-se que 5% dos copos produzidos em determinada fábrica apresentam pequenos defeitos.
Seleccionando-se da produção da fábrica, ao acaso, 50 copos, qual a probabilidade de:
(a) Nenhum ser defeituoso?

(b) Um ser defeituoso?
(c) No máximo 1 ser defeituoso?
(d) Calcule o número médio de copos defeituosos nesta amostra e o seu desvio padrão.
10.4. PRINCIPAIS DISTRIBUIÇÕES 97
4.7 Na sala de aula de uma escola, 2 meninos lançam ao ar moedas equilibradas. O João faz 10
lançamentos e o Pedro 15. Qual a probabilidade de, no total dos lançamentos, saírem exactamente
12 caras?
4.8 Verifica-se que, relativamente a um determinado dado, quando ele é lançado, a probabilidade de sair
um número par é duas vezes superior à probabilidade de sair um número ímpar.
(a) Se X representar a v.a. que conta o número de vezes que sai um número par em 4 lançamentos
deste dado, determine a sua função de probabilidade.
(b) Considere a v.a. Y = “número de lançamentos necessários até obter um número ímpar”.
i. Qual o valor médio, coeficiente de variação e moda de Y ?
ii. Qual a probabilidade de ser necessário lançar 4 vezes o dado, para obter um número
ímpar?
iii. Qual a probabilidade de ser necessário lançar pelo menos 2 vezes o dado, para obter um
número ímpar?
4.9 Numa prisão existem 1500 presos, dos quais 4% cometeram homicídio por envenenamento. Seleccio-
nando-se aleatoriamente 8 presos para executarem os trabalhos na cozinha da prisão, qual a proba-
bilidade de que 2 deles sejam deste tipo de homicidas?
4.10 Uma lista de clientes de uma empresa é constituída por 1000 endereços de clientes. Destes, 300
compraram nos últimos 3 meses, pelo menos um produto da empresa. Com o objectivo de avaliar
da aceitação de um novo produto, 25 clientes daquela lista foram escolhidos ao acaso e sondados
acerca do novo produto. Qual a probabilidade de no máximo 2 dos 25 clientes escolhidos, fazerem
parte do grupo dos que realizaram alguma compra durante os últimos 3 meses?
4.11 O número de chamadas de emergência que um serviço de ambulâncias recebe por dia é uma v.a. de
Poisson. Sabendo que a probabilidade de não haver nenhuma chamada num dia é de 0.15, calcule:
(a) a probabilidade de haver apenas uma chamada num dia.

(b) a probabilidade de haver 2 chamadas num dia.
(c) a probabilidade de haver no máximo 3 chamadas num dia.
(d) a probabilidade de haver pelo menos 4 chamadas num dia.
(e) o número médio de chamadas por dia, o seu desvio padrão e coeficiente de variação.
2
4.12 Suponha que X é uma v.a. com distribuição de Poisson. Se P (X = 2) = 3 P (X = 1), calcule
P (X = 0) e P (X = 3).
4.13 Suponha que, o número de pessoas que utilizam uma caixa multibanco é um processo de Poisson
de taxa λ = 10/hora. Calcule;
(a) a probabilidade de não ir ninguém à caixa multibanco durante 1 hora.
(b) a probabilidade de irem 20 pessoas à referida caixa durante 4 horas.
(c) O número médio de visitas à caixa multibanco durante 4 horas e o seu coeficiente de variação.
4.14 Na portagem da ponte 25 de Abril o número de veículos automóveis que passa em cada cabine de
pagamento da portagem, por minuto, segue uma distribuição de Poisson com valor médio 1 veículo.
Supondo que em determinado minuto estão abertas 10 cabines, qual a probabilidade de serem, no
total, atendidos 11 condutores nesse minuto?
4.15 Suponha que num livro de 500 páginas existem 300 erros tipográficos, distribuídos aleatoriamente
por todo o livro. Assumindo que o número de erros segue uma distribuição de Poisson, determine a
probabilidade de uma dada página conter:
(a) 2 erros tipográficos.

(b) Pelo menos 2 erros tipográficos
4.16 Um grande armazém de venda de material de vidro de laboratório emprega 100 pessoas. Tem-se
verificado que o número de peças quebradas, por empregado e por mês, segue uma distribuição de
Poisson de valor médio 1.5. Cada peça partida representa um prejuízo de 40 cêntimos, pelo que o
armazém só arca com a despesa de um máximo de 3 peças por mês e por empregado. A partir deste
valor é no salário do empregado que se desconta a despesa.
(a) Qual a probabilidade de um empregado escolhido ao acaso ter de pagar do seu bolso algum
prejuízo num qualquer mês?
(b) Considere agora a variável aleatória que representa o prejuízo do armazém, por mês e por
empregado. Determine a sua função de probabilidade, qual é esse prejuízo médio e o seu
desvio padrão.
4.17 Em determinada empresa 2% das chamadas telefónicas recebidas são enganos. Qual a probabilidade
aproximada de, em 200 telefonemas, haver pelo menos 2 enganos? Qual o número médio de enganos?
4.18 Numa feira popular a probabilidade de uma pessoa contrair uma intoxicação alimentar é de 0.0005.
Determine a probabilidade de, em 300 pessoas, 2 ficarem intoxicadas.
4.19 Determinado jogo consiste em acertar com um dardo num segmento de recta de comprimento 1
metro, colocado na posição horizontal. Admitindo que se acerta apenas sobre o segmento de recta
(e não fora dele) e que se tem igual probabilidade de acertar em qualquer ponto:
(a) Identifique a função densidade probabilidade da v.a. X que representa a distância, em metros,
do ponto onde se acertou ao extremo esquerdo do segmento.
(b) Calcule P (0.4 < X < 0.6).
(c) Qual o valor médio do ponto onde se acerta? E o seu coeficiente de variação?
(d) Calcule P (0.4 < X < 0.6|X > 0.5).
(e) Seja A =]0.4, 0.6[, a região central do segmento de recta compreendida entre os 4cm e os
6cm. Qual a probabilidade de, em 5 lançamentos do dardo, acertar 3 vezes em A?
4.20 Num posto dos correios o tempo (minutos) que a D. Hermínia demora a atender cada um dos seus
clientes é uma v.a. exponencial de valor médio 3 minutos. Determine:
(a) A função de distribuição de X.
(b) A probabilidade de um cliente demorar mais de 5 minutos a ser atendido.
(c) A probabilidade de um cliente demorar mais de 3 minutos a ser atendido.
(d) A probabilidade de um cliente demorar mais de 5 minutos a ser atendido, sabendo que já está
a ser atendido há pelo menos 2 minutos. Compare com a probabilidade anterior e comente.
(e) O coeficiente de variação do tempo de atendimento.
4.21 Admita que os clientes chegam a uma loja de acordo com um processo de Poisson de média λ =
2/minuto. Calcule a probabilidade:
(a) do tempo entre chegadas consecutivas ser superior a um minuto.
(b) do tempo entre chegadas consecutivas ser inferior a quatro minutos.
(c) do tempo entre chegadas consecutivas estar entre um e dois minutos.
(d) do tempo de espera pelo terceiro cliente ser superior a 5 minutos.
4.22 Demonstre o Teorema 4.29.
4.23 Seja X uma v.a. com distribuição N (100, 202 ). Calcule:

(a) P (X < 125).
10.4. PRINCIPAIS DISTRIBUIÇÕES 99
(b) P (X > 115).

(c) P (60 < X < 140).
4.24 Seja X uma v.a. normal com média 12 e variância 2. Determine c tal que:
(a) P (X < c) = 0.1.

(b) P (X > c) = 0.25.
(c) P (12 − c < X < 12 + c) = 0.95.
4.25 Admita que o Q.I. das pessoas de determinado país é uma v.a. X com distribuição normal de média
90 e desvio padrão 12. Determine:
(a) A percentagem da população com Q.I. entre 85 e 95.

(b) A percentagem da população com Q.I. entre 78 e 102.
(c) O valor c > 0 tal que a percentagem da população com Q.I. entre 90 − c e 90 + c seja de 95%.
(d) 10000 pessoas desta população concorreram ao selecto clube SMART, que apenas admite
indivíduos com Q.I. superior a 120. Quantas destas pessoas espera o clube vir a admitir?
4.26 A altura (metros) a que crescem os pinheiros é uma v.a. X normalmente distribuída com desvio
padrão igual a 1 metro. Supondo que 90% dos pinheiros atingem uma altura de pelo menos 16
metros, qual a altura média dos pinheiros?
4.27 Numa fábrica de embalar arroz este trabalho é executado por uma máquina. A quantidade de arroz
(Kg) que entra nos pacotes é uma v.a. X seguindo uma distribuição normal de valor médio µ e
desvio padrão σ.
(a) Determine σ sabendo que a quantidade embalada difere da sua média por menos de 100g, em
95 % dos casos.
(b) Supondo que µ = 1Kg, determine a probabilidade de, em 10 pacotes de arroz embalados por
esta máquina, 2 terem menos de 0.9Kg.
4.28 Considere X uma v.a. Normal de valor médio 2 e variância 9. Seja I um intervalo do tipo [4 − a, a].
Determine o valor de a de modo a que P (X ∈ I) = 0.90.
4.29 A altura (metros) a que um atleta salta é uma v.a. Normal de média 1.8m e desvio padrão 20cm.
Sabendo que 20% das vezes o atleta consegue saltar acima de h, determine h.
4.30 Num jardim zoológico existem um leão e um tigre que consomem, independentemente um do outro,
o mesmo tipo de alimentação - carne de 2a . A quantidade de carne (Kg) que cada um deles come
por dia são variáveis aleatórias, representadas por X1 para o leão e X2 para o tigre, respectivamente,
normalmente distribuídas com média 4Kg e desvio padrão 0.5Kg. Determine a probabilidade de,
num determinado dia:
(a) Ambos os animais comerem menos de 3Kg de carne cada.

(b) O leão comer mais do que o tigre.
3
(c) Metade do que o leão come juntamente com 4 do que o tigre come, exceder os 4Kg.
4.31 Um restaurante vende comida a peso e constatou que a quantidade de comida vendida (Kg) tem
distribuição Normal, dependendo os seus parâmetros de o cliente ser homem ou mulher - caso seja
mulher a média é de 0.4 Kg e o desvio padrão 0.1 Kg e caso seja homem a média é de 0.5 Kg e
o desvio padrão é de 0.2 Kg. Sabendo que os clientes são 55% mulheres e 45% homens, e que a
quantidade de comida consumida é independentes entre clientes:
(a) Determine a probabilidade de um cliente qualquer consumir menos de 0.5 Kg de comida.

(b) Sabendo que um cliente consumiu mais de 0.6 Kg de comida, qual a probabilidade de ser
homem?
(c) Num grupo de 4 mulheres e 6 homens qual a probabilidade de se consumir menos de 5 Kg de
comida?
4.32 (Teste de PE 2006/07) Um elevador está preparado para suportar uma carga até 450 kg. Sempre
que este valor é ultrapassado o elevador não funciona. Um estudo recente indica que o peso, das
pessoas que utilizam esse elevador, é uma variável aleatória com distribuição Normal de valor médio
70 kg.
(a) Sabendo que a probabilidade de uma pessoa (que utiliza o elevador) pesar menos de 60 kg é
0.0228, determine o desvio padrão desta variável aleatória.
(b) Se entrarem 6 pessoas no elevador, qual a probabilidade de o elevador não funcionar devido
ao excesso de peso?
4.33 (Teste de P.E. D 2005/06) Um foguete espacial é constituído por 3 partes distintas, cápsula, corpo
e depósitos. Representem as v.a.’s X, Y e W o peso da cápsula, o peso do corpo do foguete e o
peso dos depósitos, respectivamente, em toneladas. Sabe-se que X ∼ N (5, 1), Y ∼ N (10, 22 ) e
W ∼ N (7, 22 ), sendo as três variáveis independentes entre si.
(a) Qual a probabilidade de o peso da cápsula estar compreendido entre 3 e 7 toneladas?

(b) Qual o peso h que o corpo do foguete ultrapassa em 2.5% das vezes?
(c) Qual a probabilidade de o peso da cápsula mais o peso dos depósitos excederem o peso do
corpo do foguete?
4.34 Admita que X é uma v.a. com distribuição t com 14 graus de liberdade, X ∼ t14 . Determine o
valor de c, tal que:
(a) P (X ≤ c) = 0.75;
(b) P (X ≤ c) = 0.05;
(c) P (|X| > c) = 0.4.
4.35 Suponha que X é uma v.a. com distribuição χ2 com 10 graus de liberdade, X ∼ χ210 . Determine
o valor de c, tal que:
(a) P (X ≤ c) = 0.95;
(b) P (X ≤ c) = 0.05.
10.5. TEOREMA LIMITE CENTRAL 101
10.5 Teorema Limite Central

5.1 Numa loja de conveniência cada pessoa gasta, em média, 10e, com um desvio padrão de 3.75e. Qual
a probabilidade de 100 clientes gastarem mais de 1100e, admitindo que os gastos são independentes
de pessoa para pessoa?
5.2 O número de sismos no Japão, por mês, é uma v.a. com média 5 sismos e desvio padrão 2 sismos.
Admitindo que os sismos são independentes entre si, determine a probabilidade de nos próximos 40
anos haver no máximo 2300 sismos.
5.3 Uma empresa vende caixas com biscoitos e, quando lhe é solicitado, envia-as pelo correio. Para
evitar pesar estas caixas, cobra sempre o valor de portes de correio correspondente a admitir que
qualquer caixa pesa 2508g.
Cada caixa leva 100 biscoitos e o peso da embalagem plástica é desprezável.
Se soubermos que o peso de cada biscoito é variável mas que em média pesa 25g com um desvio
padrão de 8g, determine a probabilidade do valor pago em portes de correio com o envio de uma
caixa ser inferior ao valor que pagaria, caso a caixa fosse pesada.
5.4 Ao adicionar números, um computador arredonda cada número para o inteiro mais próximo. Admita
que os erros cometidos são v.a.’s independentes e identicamente distribuídas (i.i.d.) com valor médio
igual a 0 e variância igual a 1/12.
Se 1200 números forem adicionados, qual a probabilidade aproximada de que o erro total cometido
não ultrapasse 15.4?
5.5 Envelopes de avião são empacotados em grupos de 100, sendo depois pesados. Supondo que o
peso de cada envelope é uma v.a. com valor médio igual a 1 grama e desvio padrão de 0.05 g,
independentemente de envelope para envelope, determine:
(a) a probabilidade de que um pacote, com exactamente 100 envelopes, pese mais de 100.5 g.
(b) a probabilidade de que a média dos pesos dos 100 envelopes de um pacote, diste do respectivo
valor médio por uma quantidade superior a 0.01g.
5.6 Numa determinada estufa de produção de tulipas vão-se semear 240 bolbos desta flor. Sabe-se que
em média cada bolbo produz 4 flores, com um desvio padrão de 2 flores. Qual a probabilidade
aproximada de se conseguir obter uma produção final de mais de 1000 tulipas? Justifique.
5.7 Na população das mulheres cerca de 20% estão grávidas. Supondo que se selecciona ao acaso 250
mulheres, qual a probabilidade de que 50 estejam grávidas? E qual a probabilidade de que pelo
menos 50 estejam grávidas?
5.8 Um aviário vende ovos em caixas de 1 dúzia, verificando-se que cerca de 1% dos ovos se partem no
transporte para os seus locais de comercialização. Num contentor com 80 caixas qual a probabilidade
de se encontrarem entre 5 e 15 ovos partidos?
5.9 O número de utentes diários de uma máquina de venda de selos tem uma distribuição de Poisson
com valor médio 20. Determine a probabilidade de num mês de 30 dias:
(a) Usarem a máquina entre 580 e 621 pessoas.

(b) Usarem a máquina 580 pessoas.
5.10 Sabe-se que o número de automóveis que entram numa auto-estrada num período de 10 segundos
é uma v.a. com distribuição de Poisson de valor médio 3.
Qual a probabilidade aproximada de entrarem 20 ou mais automóveis durante 30 segundos?
10.6 Estimação Pontual

6.1 Considere a população formada pelo número de filhos por família (X) num determinado país, em que
X = 0, 1, 2, 3, 4 (não há famílias com mais de 4 filhos). Suponha que se conhece a sua distribuição
de probabilidade:

0 1 2 3 4
X
0.15 0.25 0.30 0.20 0.10
(a) Quais os valores populacionais de µ e σ 2 ?

(b) Desta população recolhe-se uma amostra aleatória constituída por 2 famílias - (X1 , X2 ). Qual
a distribuição de probabilidade de X1 e X2 e os respectivos parâmetros µ e σ 2 ?
(c) Suponha que recolheu a seguinte amostra aleatória de 10 famílias:
(1, 3, 0, 0, 2, 3, 0, 2, 4, 1).
Com base nesta amostra estime pontualmente µ e σ 2 . Estime ainda o erro padrão da estimativa
de µ. Comente.
6.2 Considere que se seleccionou uma amostra aleatória (X1 , X2 , . . . , Xn ) de uma população com valor
médio µ e variância σ 2 .
Pn
Xi
(a) Mostre que X = i=1 é estimador centrado e consistente da média populacional.
n
X1 + Xn 2X1 + 3X2 + 5X3
(b) Mostre que θ̂1 = e θ̂2 = também são estimadores centrados de
2 10
µ. Qual é melhor? São consistentes?
(c) Mostre que (X)2 não é estimador centrado de µ2 .
6.3 Suponha que seleccionou uma amostra aleatória (X1 , X2 , . . . , Xn ) de uma população com dis-
tribuição U (0, θ), isto é, com função densidade:
1
f (x) = θ, 0 ≤ x ≤ θ
0, c.c.
(a) Mostre que 2X é o estimador dos momentos de θ.

(b) Verifique se o estimador da alínea anterior é centrado e consistente.
(c) Dada a amostra (1.215,
P 1.580, 0.726, 2.843, 3.394, 0.612, 2.621, 1.181, 2.930, 0.317), estime
o valor de θ. Nota: xi = 17.42.
6.4 (Teste de P.E. - 2006/07) Seja (X1 , X2 , . . . , Xn ) uma amostra aleatória, extraída de uma população
com distribuição Geométrica.
(a) Determine o estimador de p usando o método dos momentos e o método da máxima verosi-
milhança.
(b) Determine o estimador de máxima verosimilhança do valor médio de X. Verifique se o esti-
mador é consistente para a estimação do valor médio.
6.5 Considere a experiência aleatória que consiste em contar o número de vezes que se lança um
dado (eventualmente não equilibrado) até sair um número par. Em 15 realizações da experiên-
cia obtiveram-se os seguintes resultados:
1 9 2 2 1 9 2 3 1 1 4 1 7 2 1
(a) Estime a probabilidade de sair um número par (num lançamento do dado).

(b) Estime a probabilidade de ser necessário lançar mais de 2 vezes o dado para obter um número
par.
10.6. ESTIMAÇÃO PONTUAL 103
6.6 Considere a amostra aleatória (X1 , X2 , . . . , Xn ) de uma população com distribuição Bin(r, p), com
r conhecido.
(a) Determine o estimador dos momentos de p.
(b) Verifique que a função log-verosimilhança é:
n n n
X r X X
l(p) = ln + ln(p) xi + ln(1 − p)(nr − xi ), se xi ∈ {0, 1, . . . , r}.
i=1
xi i=1 i=1
(c) Determine o estimador de máxima verosimilhança de p.

(d) Verifique se os estimadores obtidos, nas alíneas anteriores, são centrados e consistentes.
6.7 Considere a amostra aleatória (X1 , X2 , . . . , Xn ) de uma população com com função densidade,
θ
f (x) = , x>1 (θ > 0).
xθ+1
θ
(a) Sabendo que E(X) = θ−1 , θ > 1, determine o estimador dos momentos de θ.
(b) Verifique que a função log-verosimilhança é dada por:
n
X
l(θ) = n ln(θ) − (θ + 1) ln(xi ), se xi > 1, i = 1, . . . , n.
i=1
(c) Determine o estimador de máxima verosimilhança de θ.

(d) Determine o estimador de máxima verosimilhança de β = 1/θ.
6.8 Sabe-se que a idade de determinada camada do subsolo segue uma distribuição Normal com média
de 0.5 milhões de anos e um desvio padrão de 20000 anos. Seleccionadas ao acaso 10 amostras de
subsolo calcule a probabilidade de a média amostral das suas idades ser superior a 490000 anos.
6.9 Considere uma amostra aleatória de dimensão 25, extraída de uma população Normal de média 100
e desvio padrão 10.
(a) Qual a probabilidade de a média amostral cair no intervalo de E(X) − 1.96 × SE(X) a
E(X) + 1.96 × SE(X)?
(b) Quanto deverá ser o tamanho amostral tal que a amplitude do intervalo definido em (a)
diminua para 2.
6.10 O tempo de espera em pista para a descolagem de cada avião no aeroporto de Lisboa é uma v.a.
com valor médio 4 minutos e desvio padrão 2.5 minutos. Suponha que se selecciona ao acaso 50
aviões, para se registarem os seus correspondentes tempos de espera. Calcule a probabilidade de a
média dos tempos de espera exceder os 5 minutos.
6.11 Assuma que o número de ovos que as tartarugas verdes depositam nas praias, em cada desova, é uma
v.a. de P oisson, com valor médio 15 ovos. Seleccionando ao acaso uma amostra de 100 tartarugas
verdes, qual a probabilidade de que a média do número de ovos destas esteja compreendido entre o
seu valor médio e ± 3 vezes o seu erro padrão.
6.12 Suponha que o tempo de vida de determinada espécie de burros é uma v.a. com distribuição
exponencial, de valor médio 25 anos. Seleccionando ao acaso uma amostra de 40 burros desta
espécie, qual a probabilidade de que a média dos seus tempos de vida seja inferior a 20 anos?
6.13 No país das Maravilhas a proporção de loucos é de 0.45. Suponha que se pretende seleccionar uma
amostra aleatória de 500 habitantes deste país. Qual a probabilidade de a proporção de loucos que
vão calhar na amostra exceder 0.5?
6.14 Numa população Normal de média desconhecida e desvio padrão 5 calcule a probabilidade de a
variância de uma amostra aleatória de dimensão 20 dessa população estar compreendida entre 26 e
58.
10.7 Estimação por Intervalo de Confiança

7.1 Para avaliar o peso médio das maçãs produzidas por um determinado agricultor analisaram-se 20
maçãs seleccionadas ao acaso da produção. Estas resultaram num peso médio de x̄ = 320g. Assuma
que os pesos das maçãs têm distribuição Normal com desvio padrão σ = 20g.
(a) Construa um intervalo de confiança a 90% para a média do peso.

(b) Qual deve ser o tamanho da amostra de forma a que a amplitude do correspondente intervalo
de confiança a 90% para a média seja de 1g? E 5g? Comente.
7.2 A quantidade de combustível dispendido num percurso de Lisboa a Faro (em litros) é uma variável
aleatória normal.
(a) Assuma que em 8 viagens Lisboa-Faro seleccionadas ao acaso se verificou um gasto médio de
combustível de 36 litros e um desvio padrão de 10 litros. Construa intervalos de confiança
para a média a 90% e a 95% e compare-os.
(b) Assuma agora que foi em 50 viagens Lisboa-Faro, seleccionadas ao acaso, que se verificou um
gasto médio de combustível de 36 litros e um desvio padrão de 10 litros. Construa intervalos
de confiança para a média a 90% e a 95% e compare com os anteriores. Comente.
7.3 O nível de poluição do ar de determinada cidade (medido em concentração de monóxido de carbono

no ar) distribui-se normalmente. Recolheram-se os seguintes valores da referida concentração em
10 dias diferentes (em ppm): 0.09, 0.33, 0.01, 0.25, 0.20, 0.05, 0.03, 0.18, 0.13, 0.24. Com base
nesta amostra determine um intervalo de confiança a 99% para a concentração média de monóxido
de carbono na atmosfera.
7.4 A quantidade de gordura em 100g de carne de determinado tipo de vacas, medido em gramas, tem
desvio padrão 8g. Qual deve ser o tamanho de uma amostra aleatória a seleccionar de forma a que a
amplitude de um intervalo de confiança a 95% para a gordura média por 100g de carne seja inferior
a 2.5g? Refira eventuais pressupostos que teve de fazer.
7.5 Construa um intervalo de confiança a 95% para a temperatura média de uma determinada sala de
espera, com base numa amostra de temperaturas recolhidas em 35 dias diferentes que resultaram
nos valores x̄ = 22.1o C e s = 3.2o C.
7.6 A tensão (MegaPascal) suportada por uma determinada barra de aço é uma variável aleatória com
desvio padrão igual a 30 P MPa. Com base numa amostra aleatória de n tensões observadas, para
as quais se verificou que xi = 10000MPa, construiu-se um intervalo de confiança a 95% para a
tensão média suportada, cujo extremo superior era de 208.3MPa. Determine o extremo inferior do
referido intervalo e diga quanto vale o n, assumindo que n > 30.
7.7 (Exame de P.E. D - 2008/09) A população das estaturas dos alunos da FCT, em metros, segue
uma distribuição Normal. Recolheu-se a seguinte amostra aleatória de estaturas de 40 alunos desta
faculdade:
1.79 1.80 1.72 1.82 1.57 1.78 1.78 1.66 1.78 1.80
1.75 1.74 1.60 1.77 1.82 1.82 1.75 1.66 1.84 1.77
1.78 1.78 1.69 1.78 1.52 1.72 1.84 1.65 1.71 1.79
1.76 1.70 1.63 1.71 1.70 1.64 1.59 1.63 1.74 1.71
correspondendo a uma média amostral de 1.73 e a um desvio padrão amostral de 0.08.

(a) Indique uma estimativa pontual, com base nesta amostra, para a verdadeira estatura média
populacional.
(b) Deduza e calcule um intervalo de confiança a 92% para a estatura média populacional.
7.8 O tempo médio (segundos) de reacção de uma determinada raça de cães a um certo estímulo tem
interesse para um determinado
Ptreinador.2 Assim ele2 resolveu testar 32 cães escolhidos aleatoriamente
tendo observado x̄ = 1.2s e (xi − x̄) = 15.5s .
10.7. ESTIMAÇÃO POR INTERVALO DE CONFIANÇA 105
(a) Construa um intervalo de confiança a 95% para o tempo médio de reacção dos cães.
(b) Suponha que só se conseguiu obter uma amostra de 15 cães, tendo resultado em x̄ = 1.1s
(xi − x̄)2 = 15.9s2 . Construa, para este caso, um intervalo de confiança a 95% para o
P
e
tempo médio de reacção dos cães, referindo eventuais pressupostos que tenha tido de fazer.
7.9 Numa fábrica de embalagem de queijo em fatias seleccionaram-se aleatoriamente 100 embalagens,
das quais se verificaram que 18 tinham peso inferior ao suposto - sendo por isso inadequadas.
Construa um intervalo de confiança a 98%para a verdadeira proporção de pacotes inadequados na
produção total.
7.10 De 200 casos de pessoas com cancro do cólon, aleatoriamente detectadas, 12 morreram após 5 anos
da detecção.
(a) Estime pontualmente a probabilidade de uma pessoa que contraia o cancro do cólon morrer
após 5 anos da sua detecção.
(b) Quanto deveria aumentar ao tamanho da sua amostra aleatória de forma a que a largura do
intervalo de confiança a 90% para a probabilidade considerada na alínea anterior fosse inferior
a 0.01?
7.11 O tempo (horas) que o Pedro dispende em filas de trânsito, por dia, é uma v.a. Normal. Seleccio-
nando aleatoriamente 15 dias registaram-se os seguintes valores de espera:
1.5 1.0 1.0 2.0 1.5 1.25 1.0 2.0 1.5 1.25 1.75 0.5 1.0 1.5 1.25
Determine um intervalo de confiança a 99% para a variância do tempo de espera.

7.12 Um profissional de bowling jogou 8 partidas num torneio, tendo obtido as seguintes pontuações:
117.0 220.2 199.5 237.2 249.5 179.8 259.2 248.5
Admitindo a normalidade das pontuações, construa um intervalo de confiança a 95% para a variância
e para o desvio padrão (este último fornece uma medida da consistência da prestação do jogador).
10.8 Teste de Hipóteses

8.1 Uma fábrica de gelados afirma que a procura do gelado de chocolate no verão, por dia e em euros,
é uma v.a. Normalmente distribuída com valor médio e200 e desvio padrão e40. Numa amostra
aleatória constituída por 10 dias seleccionados ao acaso do período de verão verificou-se que x̄ = 216.
(a) Teste, ao nível de significância 5%, se de facto o consumo médio de gelado de chocolate no
verão é de e200 por dia.
(b) Teste, ao ao nível de significância 5%, se de facto o consumo médio de gelado de chocolate
no verão é menor do que e200 por dia.
(c) Qual a potência do teste, da alínea anterior, se µ = 190.
(d) Resolva as duas primeiras alíneas usando o valor-p.
8.2 Um produtor de azeite afirma que a acidez média do seu azeite é de 0.9o . De forma a confirmar tal
facto recolheu-se uma amostra aleatória da sua produção de azeite, tendo-se medido os seguintes
valores de acidez: 0.9 0.8 0.7 1.1 0.9 0.9 1.0 0.7 1.5 1.1. Admitindo a Normalidade
da acidez do azeite:
(a) Teste, ao nível de significância 1%, se o produtor tem razão.
(b) Teste, ao ao nível de significância 1%, se a acidez média é superior a 0.9o .
8.3 Um biólogo pretende demonstrar que o peso médio de uma determinada espécie de coelhos - coelhos
anões - é superior a 250g. Para tal seleccionou aleatoriamente 40 coelhos, tendo obtido uma média
dos pesos de 255.3g e um desvio padrão de 30g. Teste ao nível de significância 10% se o biólogo
está certo, assumindo a Normalidade dos pesos dos coelhos.
8.4 A Inês recebe, para além do seu salário, vencimento correspondente a 2 horas extra que devia fazer
todos os dias. Contudo ela está desconfiada que tem andado a trabalhar, em média, mais do que 2
horas extra. Como a empresa onde trabalha regista sempre a hora de entrada e de saída dos seus
funcionários, ela seleccionou aleatoriamente 12 dias de trabalho passados e registou os seguintes
valores relativos ao horário extra: x̄ = 2.3h e s = 0.5h. Admitindo a Normalidade do tempo extra
de trabalho, teste a um nível de significância de 5%, se as suas suspeitas se confirmam.
8.5 Uma companhia de seguros tem previsto no seu orçamento um total de 5000e/dia para pagar
as indemnizações dos seus segurados. De forma a confirmar se o valor médio das indemnizações
pagas por diaP
está bem previsto seleccionaram-se, de anos anteriores, 100 dias, tendo-se verificado
x̄ = 5625e e (xi − x̄)2 = 6187500e2 . Teste, ao nível de significância 5%, se a previsão se adequa.
8.6 Numa fábrica de massas embalam-se pacotes de esparguete que deveriam ter peso médio de 500g.
O peso dos pacotes é uma v.a. Normal com variância σ 2 = 225g 2 . De forma a confirmar o peso
médio destes pacotes, seleccionaram-se ao acaso 40 embalagens que tinham um peso médio de
495g. Teste, ao nível de significância 1%, se o peso médio das embalagens é menor do que as 500g
indicadas.
8.7 Seja X uma v.a. com distribuição Normal de valor médio µ e desvio padrão σ. A partir de uma
amostra de dimensão 30, retirada da população, obtiveram-se os seguintes resultados:
30
X 30
X
xi = 64.0 (xi − x̄)2 = 84.4
i=1 i=1
(a) Teste, ao nível de significância 1%, as hipóteses H0 : µ = 2 vs H1 : µ > 2.

(b) Suponha que está a testar a hipótese H0 : µ = 2 contra a hipótese H1 : µ = 2.5 e que rejeita
a hipótese nula se X̄30 > 2.3. Calcule as probabilidades dos erros de 1a e 2a espécie do teste,
se σ = 1.
8.8 Numa operação stop da brigada de trânsito, de 120 camiões TIR que foram parados, 42 iam com
excesso de peso. Com base nesta amostra aleatória, teste a hipótese de que a proporção deste tipo
de camiões, que circulam nas nossas estradas em situação ilegal, ultrapassa os 30%. Use um nível
de significância de 10%.
10.8. TESTE DE HIPÓTESES 107
8.9 (Exame de P.E. D - 2008/09) A população das estaturas dos alunos da FCT, em metros, segue
uma distribuição Normal. Recolheu-se a seguinte amostra aleatória de estaturas de 40 alunos desta
faculdade:
1.79 1.80 1.72 1.82 1.57 1.78 1.78 1.66 1.78 1.80
1.75 1.74 1.60 1.77 1.82 1.82 1.75 1.66 1.84 1.77
1.78 1.78 1.69 1.78 1.52 1.72 1.84 1.65 1.71 1.79
1.76 1.70 1.63 1.71 1.70 1.64 1.59 1.63 1.74 1.71
correspondendo a uma média amostral de 1.73 e a um desvio padrão amostral de 0.08. Teste a
hipótese de que a verdadeira proporção de alunos com estatura superior ou igual a 1.82m nesta
população é maior que 0.2. Use um nível de significância de 5%.
8.10 Determinada desordem genética no sangue pode ser prevista com base num teste de sangue muito
simples. De forma a ter uma noção da proporção de pessoas que na população possam vir a ter
esta desordem, testaram-se 100 pessoas, seleccionadas ao acaso, para as quais 14 testes deram
positivo. Efectue um teste de hipóteses, usando um nível de significância 5%, sobre se percentagem
de pessoas com tal desordem é inferior a 10%.
8.11 No fabrico de parafusos admite-se, relativamente aos seus comprimentos, uma variabilidade máxima
de 0.5mm2 . Recolheu-se uma amostra aleatória de 20 parafusos que se verificou terem s2 = 0.3.
Admitindo a Normalidade do comprimento dos parafusos, teste, ao nível de significância de 5% se
a especificação sobre a variabilidade do comprimento dos parafusos está a ser respeitada.
8.12 Com base na amostra aleatória seguinte, teste H0 : σ = 1.3 vs H1 : σ 6= 1.3, a um nível de
significância de 1%: 2.0 3.2 5.0 1.8 3.4 2.6
8.13 A resistência de um determinado metal é dito ter uma variabilidade inferior a 0.01 ohm2 . Teste
esta hipótese, a um nível de significância 10%, usando a seguinte amostra aleatória de resistências
medidas para este metal:
0.14, 0.138, 0.143, 0.142, 0.144, 0.137
8.14 Considere novamente a amostra do exercício 8.9. Podemos considerar a amostra aleatória?
8.15 Considere a seguinte tabela de frequências de uma v.a. X:
Valores 0 1 2 3 4
Frequência 4 21 10 13 2
(a) É a distribuição Binomial com n = 5 e p = 0.25 um modelo apropriado? Teste esta hipótese
ao nível de significância de 5%.
(b) Determine um valor aproximado para o valor-p.
8.16 O gerente de uma loja pretende saber se os tempos entre chegadas de clientes à sua loja se com-
porta probabilisticamente segundo uma distribuição exponencial. Para tal, registou os tempos entre
chegadas consecutivas de clientes numa manhã. Esses tempos (em minutos) foram:
3.6 6.2 12.7 14.2 38.0 3.8 10.8 6.1 8.3

10.1 22.1 4.2 4.6 1.4 3.3 8.2 3.5 0.7
21.2 18.8 7.9 16.8 0.1 3.0 3.1 10.5 4.1
3.8 7.4 1.6 3.0 5.4 14.0 13.9 9.4
(a) Podemos considerar a amostra aleatória?

(b) Teste a conjectura do gerente ao nível de significância 0.1. Nota: Numa distribuição expo-
nencial, o estimador de máxima verosimilhança de λ é dado por λ̂ = X1 .
8.17 Teste a um nível de significância 5% que a seguinte amostra aleatória provêm de uma distribuição
Normal(3, 22 ):
1.14, 3.11, 3.55, 2.81, 6.28, 1.61, 4.36, 0.90, 0.81, −0.18, 2.08, 2.68, 2.12, −0.33, 2.57,
3.55, 1.81, 2.56, 5.56, 2.46, 4.20, 1.63, 4.21, 4.85, 4.24, 3.98, 1.40, 3.00, 2.01, 3.31
8.18 Pensa-se que a altura a que os eucaliptos chegam aos 20 anos é uma v.a. Normal de média 2m. Para
o confirmar seleccionou-se uma amostra aleatória de 30 eucaliptos, tendo observado as seguintes
alturas:
0.2, 0.8, 3.6, 1.0, 0.2, 4.3, 3.1, 0.4, 3.3, 3.1, 3.2, 5.3, 1.7, 0.2, 2.8, 0.4, 0.5, 3.0, 1.2, 4.2, 4.8,
3.4, 2.1, 2.5, 2.4, 2.1, 0.8, 3.5, 1.7, 1.3
Teste, ao nível de significância 1%, a conjectura referida.
8.19 (Teste de P.E. D - 2008/09) Teste a um nível de significância 5% que a seguinte amostra aleatória
provém de uma população com função de distribuição F , definida por:

 0, x<0
2
F (x) = 2x − x , 0 ≤ x<1
1, x≥1

0.10, 0.33, 0.90, 0.43, 0.22, 0.42, 0.46, 0.68, 0.12, 0.51, 0.18, 0.03, 0.48, 0.24, 0.47
0.11, 0.52, 0.47, 0.32, 0.40, 0.01, 0.34, 0.32, 0.57, 0.51, 0.12, 0.06, 0.40, 0.07, 0.40
Para a realização do teste considere as classes ]0; 0.25], ]0.25; 0.5], ]0.5; 0.75] e ]0.75; 1[.
10.9. REGRESSÃO LINEAR 109
10.9 Regressão Linear

9.1 Determinada empresa está interessada em contabilizar o tempo que o ar condicionado está ligado
no verão, por dia, mediante a temperatura exterior (o C). Assim, seleccionaram-se 14 dias ao acaso,
para os quais se mediram as temperaturas (x) e se registarem o número de horas de utilização do
ar condicionado (Y ):
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14
xi 29 28 29 35 26 25 32 31 34 27 33 33 32 28
Yi 10.5 9.0 10.4 18.6 5.5 5.2 11.6 10.4 17.8 9.9 13.7 14.2 12.3 8.7
(a) Disponha os dados em gráfico.
(b) Estime a recta de regressão linear simples. Refira quais os pressupostos efectuados. Desenhe-a
no gráfico anterior.
(c) Comente a qualidade da estimação efectuada, com base no coeficiente de determinação.
(d) Teste a hipótese de o verdadeiro declive da recta de regressão ser nulo. Comente o resultado
à luz da alínea anterior.
(e) Para uma temperatura exterior de 30o C qual o número de horas que estima que o ar condi-
cionado esteja a trabalhar? E para uma temperatura de 40o C?
9.2 Pretende-se modelar a velocidade do vento Y , medida em Km/h, com a altitude x a que se faz
a medição (m). Para tal registaram-se, para 9 valores de altitude, os correspondentes valores da
velocidade do vento:
i 1 2 3 4 5 6 7 8 9
xi 100 250 500 750 1000 1250 1500 1750 2000
Yi 4 9 15 16 20 46 54 59 72
X X X
Yi2 = 14675 Ȳ = 32.78 x2i = 12760000 x̄ = 1011.11 Yi xi = 427900
(a) Ajuste um modelo de regressão linear simples aos dados. O que pode dizer sobre a qualidade
do ajuste?
(b) Determine um intervalo de confiança a 95% para o verdadeiro declive da recta de regressão.
(c) Use o resultado da alínea anterior para testar a hipótese de que o verdadeiro declive da recta
de regressão é nulo.
9.3 (Exame de P.E. D - 2005/06) Pretende-se averiguar se existe uma relação directa entre a proximidade
com campos de futebol da residência de casais e a taxa de divórcio. Assim registaram-se, em 5 locais
seleccionados ao acaso, o correspondente número de estádios de futebol num raio de 50Km (x) e a
respectiva taxa de divórcio por 1000 habitantes registada nessas localidades (Y ):
No de campos de futebol, xi 0 1 2 5 6
Taxa de divórcio (por 1000 habitantes), Yi 2.2 2.5 3.5 4.1 4.8
5
X 5
X 5
X 5
X 5
X
xi = 14; x2i = 66; Yi = 17.1; Yi2 = 63.19; Yi xi = 58.8; SQR = 0.2585075.
i=1 i=1 i=1 i=1 i=1
(a) Ajuste uma recta de regressão linear a estes dados. Que pode dizer da qualidade do ajuste?
(b) Diga por suas palavras como interpreta o valor de β̂1 obtido.
(c) Teste a hipótese do verdadeiro valor declive da recta de regressão, β1 , ser nulo, a um nível de
significância 10%. O resultado está de acordo com a qualidade do ajuste discutida em (a)?
(d) Numa localidade com 3 estádios de futebol na sua proximidade (menos de 50Km) quanto
prevê que valha a correspondente taxa de divórcio?
9.4 (Exame de P.E. - 2006/07) Com o objectivo de estudar a qualidade do ar na região de Lisboa,
pretende-se modelar a quantidade Y de Ozono troposférico (O3 ), com a quantidade x de partículas
em suspensão com diâmetro aerodinâmico inferior a 10 µm (P M10 ). Para tal, registaram-se os
seguintes dados:
xi 60.5 78.8 89.8 80.9 74.8 49.9 97.5 92.5 36.5 18.1 29.6 15.9
yi 124.2 158 177.1 185.6 179.2 145.7 163.7 188.8 122.2 75.4 94.8 80.3
X X X
xi = 724.8; x2i = 53414.92; SY Y = 18620.05; xi yi = 114890.35; σ̂ 2 = 237.44;
(a) Ajuste um modelo de regressão linear simples aos dados. Refira quais os pressupostos do
modelo.
(b) Comente a qualidade do modelo.
(c) Teste, ao nível de significância de 5%, a hipótese de o declive da recta de regressão ser nulo.
(d) Prove que qualquer recta dos mínimos quadrados passa por (x, y).
Capítulo 11
Tabelas
Função de distribuição Normal reduzida
Z z
Φ(z) = P (Z ≤ z) = √1 exp − 12 t2 dt
−∞ 2π
z 0 1 2 3 4 5 6 7 8 9
.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3 .9987 .9990 .9993 .9995 .9997 .9998 .9998 .9999 .9999 1.0000
Nota: Para z ≥ 4, Φ(z) ≈ 1.
111
CAPÍTULO 11. TABELAS
Quantis da distribuição t de Student Quantis da distribuição Qui Quadrado

α α
g.l. .55 .6 .65 .7 .75 .8 .85 .9 .95 .975 .99 .995 .9995 g.l. .005 .01 .025 .05 .1 .2 .3 .5 .7 .8 .9 .95 .975 .99 .995
1 .000 .000 .001 .004 .016 .064 .148 .455 1.07 1.64 2.71 3.84 5.02 6.63 7.88
1 .158 .325 .510 .727 1.00 1.38 1.96 3.08 6.31 12.7 31.8 63.7 637 2 .010 .020 .051 .103 .211 .446 .713 1.39 2.41 3.22 4.61 5.99 7.38 9.21 10.6
2 .142 .289 .445 .617 .816 1.06 1.39 1.89 2.92 4.30 6.96 9.92 31.6 3 .072 .115 .216 .352 .584 1.01 1.42 2.37 3.66 4.64 6.25 7.81 9.35 11.3 12.8
3 .137 .277 .424 .584 .765 .978 1.25 1.64 2.35 3.18 4.54 5.84 12.9 4 .207 .297 .484 .711 1.06 1.65 2.19 3.36 4.88 5.99 7.78 9.49 11.1 13.3 14.9
4 .134 .271 .414 .569 .741 .941 1.19 1.53 2.13 2.78 3.75 4.60 8.61 5 .412 .554 .831 1.15 1.61 2.34 3.00 4.35 6.06 7.29 9.24 11.1 12.8 15.1 16.7
5 .132 .267 .408 .559 .727 .920 1.16 1.48 2.02 2.57 3.36 4.03 6.87 6 .676 .872 1.24 1.64 2.20 3.07 3.83 5.35 7.23 8.56 10.6 12.6 14.4 16.8 18.5
6 .131 .265 .404 .553 .718 .906 1.13 1.44 1.94 2.45 3.14 3.71 5.96 7 .989 1.24 1.69 2.17 2.83 3.82 4.67 6.35 8.38 9.80 12.0 14.1 16.0 18.5 20.3
7 .130 .263 .402 .549 .711 .896 1.12 1.41 1.89 2.36 3.00 3.50 5.41 8 1.34 1.65 2.18 2.73 3.49 4.59 5.53 7.34 9.52 11.0 13.4 15.5 17.5 20.1 22.0
8 .130 .262 .399 .546 .706 .889 1.11 1.40 1.86 2.31 2.90 3.36 5.04 9 1.73 2.09 2.70 3.33 4.17 5.38 6.39 8.34 10.7 12.2 14.7 16.9 19.0 21.7 23.6
9 .129 .261 .398 .543 .703 .883 1.10 1.38 1.83 2.26 2.82 3.25 4.78 10 2.16 2.56 3.25 3.94 4.87 6.18 7.27 9.34 11.8 13.4 16.0 18.3 20.5 23.2 25.2
10 .129 .260 .397 .542 .700 .879 1.09 1.37 1.81 2.23 2.76 3.17 4.59 11 2.60 3.05 3.82 4.57 5.58 6.99 8.15 10.3 12.9 14.6 17.3 19.7 21.9 24.7 26.8
11 .129 .260 .396 .540 .697 .876 1.09 1.36 1.80 2.20 2.72 3.11 4.44 12 3.07 3.57 4.40 5.23 6.30 7.81 9.03 11.3 14.0 15.8 18.5 21.0 23.3 26.2 28.3
12 .128 .259 .395 .539 .695 .873 1.08 1.36 1.78 2.18 2.68 3.05 4.32 13 3.57 4.11 5.01 5.89 7.04 8.63 9.93 12.3 15.1 17.0 19.8 22.4 24.7 27.7 29.8
13 .128 .259 .394 .538 .694 .870 1.08 1.35 1.77 2.16 2.65 3.01 4.22 14 4.07 4.66 5.63 6.57 7.79 9.47 10.8 13.3 16.2 18.2 21.1 23.7 26.1 29.1 31.3
14 .128 .258 .393 .537 .692 .868 1.08 1.35 1.76 2.14 2.62 2.98 4.14 15 4.60 5.23 6.26 7.26 8.55 10.3 11.7 14.3 17.3 19.3 22.3 25.0 27.5 30.6 32.8
15 .128 .258 .393 .536 .691 .866 1.07 1.34 1.75 2.13 2.60 2.95 4.07 16 5.14 5.81 6.91 7.96 9.31 11.2 12.6 15.3 18.4 20.5 23.5 26.3 28.8 32.0 34.3
16 .128 .258 .392 .535 .690 .865 1.07 1.34 1.75 2.12 2.58 2.92 4.01 17 5.70 6.41 7.56 8.67 10.1 12.0 13.5 16.3 19.5 21.6 24.8 27.6 30.2 33.4 35.7
17 .128 .257 .392 .534 .689 .863 1.07 1.33 1.74 2.11 2.57 2.90 3.97 18 6.26 7.01 8.23 9.39 10.9 12.9 14.4 17.3 20.6 22.8 26.0 28.9 31.5 34.8 37.2
18 .127 .257 .392 .534 .688 .862 1.07 1.33 1.73 2.10 2.55 2.88 3.92 19 6.84 7.63 8.91 10.1 11.7 13.7 15.4 18.3 21.7 23.9 27.2 30.1 32.9 36.2 38.6
19 .127 .257 .391 .533 .688 .861 1.07 1.33 1.73 2.09 2.54 2.86 3.88 20 7.43 8.26 9.59 10.9 12.4 14.6 16.3 19.3 22.8 25.0 28.4 31.4 34.2 37.6 40.0
20 .127 .257 .391 .533 .687 .860 1.06 1.33 1.72 2.09 2.53 2.85 3.85 21 8.03 8.90 10.3 11.6 13.2 15.4 17.2 20.3 23.9 26.2 29.6 32.7 35.5 38.9 41.4
21 .127 .257 .391 .532 .686 .859 1.06 1.32 1.72 2.08 2.52 2.83 3.82 22 8.64 9.54 11.0 12.3 14.0 16.3 18.1 21.3 24.9 27.3 30.8 33.9 36.8 40.3 42.8
22 .127 .256 .390 .532 .686 .858 1.06 1.32 1.72 2.07 2.51 2.82 3.79 23 9.26 10.2 11.7 13.1 14.8 17.2 19.0 22.3 26.0 28.4 32.0 35.2 38.1 41.6 44.2
23 .127 .256 .390 .532 .685 .858 1.06 1.32 1.71 2.07 2.50 2.81 3.77 24 9.89 10.9 12.4 13.8 15.7 18.1 19.9 23.3 27.1 29.6 33.2 36.4 39.4 43.0 45.6
24 .127 .256 .390 .531 .685 .857 1.06 1.32 1.71 2.06 2.49 2.80 3.75 25 10.5 11.5 13.1 14.6 16.5 18.9 20.9 24.3 28.2 30.7 34.4 37.7 40.6 44.3 46.9
25 .127 .256 .390 .531 .684 .856 1.06 1.32 1.71 2.06 2.49 2.79 3.73 26 11.2 12.2 13.8 15.4 17.3 19.8 21.8 25.3 29.2 31.8 35.6 38.9 41.9 45.6 48.3
26 .127 .256 .390 .531 .684 .856 1.06 1.31 1.71 2.06 2.48 2.78 3.71 27 11.8 12.9 14.6 16.2 18.1 20.7 22.7 26.3 30.3 32.9 36.7 40.1 43.2 47.0 49.6
27 .127 .256 .389 .531 .684 .855 1.06 1.31 1.70 2.05 2.47 2.77 3.69 28 12.5 13.6 15.3 16.9 18.9 21.6 23.6 27.3 31.4 34.0 37.9 41.3 44.5 48.3 51.0
28 .127 .256 .389 .530 .683 .855 1.06 1.31 1.70 2.05 2.47 2.76 3.67 29 13.1 14.3 16.0 17.7 19.8 22.5 24.6 28.3 32.5 35.1 39.1 42.6 45.7 49.6 52.3
29 .127 .256 .389 .530 .683 .854 1.06 1.31 1.70 2.05 2.46 2.76 3.66 30 13.8 15.0 16.8 18.5 20.6 23.4 25.5 29.3 33.5 36.3 40.3 43.8 47.0 50.9 53.7
30 .127 .256 .389 .530 .683 .854 1.05 1.31 1.70 2.04 2.46 2.75 3.65 40 20.7 22.2 24.4 26.5 29.1 32.3 34.9 39.3 44.2 47.3 51.8 55.8 59.3 63.7 66.8
112 ∞ .126 .253 .385 .524 .674 .842 1.04 1.28 1.64 1.96 2.33 2.58 3.29 50 28.0 29.7 32.4 34.8 37.7 41.4 44.3 49.3 54.7 58.2 63.2 67.5 71.4 76.2 79.5
60 35.5 37.5 40.5 43.2 46.5 50.6 53.8 59.3 65.2 69.0 74.4 79.1 83.3 88.4 92.0
Bibliografia sugerida
• Guimarães e Cabral(1997). Estatística. McGraw-Hill.
• Montgomery e Runger (2002). Applied Statistics and Probability for Engineers. Wiley.
• Mood, Graybill e Boes (1974). Introduction to the Theory of Statistics. McGraw-Hill.
• Murteira, B., Ribeiro, C., Silva, J. e Pimenta, C. (2007). Introdução à Estatística, 2a

edição. McGraw-Hill
• Paulino e Branco (2005). Exercícios de Probabilidade e Estatística. Escolar Editora.
• Pestana, D. e Velosa, S. (2002). Introdução à Probabilidade e à Estatística. Fundação

Calouste Gulbenkian, Lisboa.
• Rohatgi (1976). An Introduction to Probability Theory and Mathematical Statistics. Wiley.
• Sokal e Rohlf (1995). Biometry. Freeman.
• Tiago de Oliveira (1990). Probabilidades e Estatística: Conceitos, Métodos e Aplicações,

vol. I, II. McGraw-Hill.
113

SebentaPE 200910 PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

SebentaPE 200910 PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Probabilidade e Estatística

1 Introdução à Teoria da Probabilidade 1

5 Teorema Limite Central 39

7 Estimação por Intervalo de Confiança 51

Introdução à Teoria da Probabilidade

1.1 Espaço de Resultados e Acontecimentos

Exemplo 1.2 (Experiência aleatória). Considere os seguintes exemplos:

• E1 : Lançamento de uma moeda e observação da face voltada para cima;

• E2 : Lançamento de um dado e observação da face voltada para cima;

• E3 : Tempo de “vida” de uma lâmpada.

Definição 1.3 (Espaço de resultados ou universo). Chamamos espaço de resultados ou uni-

Exemplo 1.4 (Espaço de resultados). Considere novamente as experiências aleatórias do Ex-

ou seja, Ω = {(i, j) : i = 1, . . . , 6; j = 1, . . . , 6}.

Definição 1.6 (Acontecimento e Acontecimento elementar). Um acontecimento é um sub-

Observação: Ao conjunto ∅ chamamos acontecimento impossível e a Ω acontecimento certo.

Definição 1.7 (Sub-acontecimento). A é sub-acontecimento de B, e escreve-se A ⊂ B, se e

• A união de dois acontecimentos A e B, e representa-se por A ∪ B;

• A intersecção de dois acontecimentos A e B, e representa-se por A ∩ B;

• O complementar do acontecimento A e representa-se por A;

• A diferença dos acontecimentos A e B e representa-se por A − B (= A ∩ B);

Algumas propriedades importantes:

Definição 1.8 (Acontecimentos disjuntos ou mutuamente exclusivos). Dois acontecimentos

Definição 1.9 (Definição Clássica ou de Laplace de Probabilidade). Se uma experiência

Definição 1.11 (Definição Frequencista de Probabilidade). A probabilidade de um aconteci-

onde nA representa o número de observações de A, e n o número de realizações da experiência

Definição 1.12 (Definição Axiomática de Probabilidade). A Probabilidade é uma função,

1. P (A) ≥ 0, qualquer que seja o acontecimento A;

3. Se A e B são acontecimentos disjuntos, P (A ∪ B) = P (A) + P (B).

Proposição 1.13. Sejam A e B dois acontecimentos. Os seguintes resultados são consequência

2. Se A ⊆ B então P (A) ≤ P (B);

4. P (A) ∈ [0, 1];

6. P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

1. Como ∅ e Ω são acontecimentos disjuntos e P (∅ ∪ Ω) = P (Ω) = 1, resulta pelo 3o axioma

2. Sejam A e B dois acontecimentos tais que A ⊆ B. Então B = B ∩ (A ∪ A) = (B ∩ A) ∪

P (B) = P (A ∪ (B ∩ A)) = P (A) + P (B ∩ A).

Usando o 1o axioma, podemos garantir que P (B∩A) ≥ 0 e consequentemente P (B) ≥ P (A).

3. Como A e A são acontecimentos disjuntos, podemos utilizar o 3o axioma. Assim,

1 = P (Ω) = P (A ∪ A) = P (A) + P (A),

ou seja, P (Ā) = 1 − P (A).

5. Como A = (A∩B)∪(A∩B) = (A−B)∪(A∩B), e (A−B) e (A∩B) são acontecimentos

P (A) = P (A − B) + P (A ∩ B) ⇔ P (A − B) = P (A) − P (A ∩ B).

6. Como A ∪ B = (A − B) ∪ (B − A) ∪ (A ∩ B) e (A − B), (B − A) e (A ∩ B) são

Para n = 3 obtemos o caso particular:

P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C).

Definição 1.14 (Acontecimentos incompatíveis). Dois acontecimentos A e B dizem-se in-

1.3 Cálculo Combinatório

O cálculo de uma probabilidade, através da definição clássica, depende da contagem do número

Definição 1.15 (Produto Cartesiano). Seja A = {a1 , . . . , an } um conjunto com n elementos e

Considere agora que temos n elementos distintos, e pretendemos seleccionar k. De quantas

Interessa Há Número de maneiras distintas de

• “!” representa a função factorial (por convenção 0! = 1);

1.4 Probabilidade Condicional e Independência

Melhorou (M ) Não melhorou (M ) Total

1. Qual a probabilidade, de um doente escolhido ao acaso,

(a) tomar o medicamento experimental?

2. Qual a probabilidade de um doente, que melhorou, ter tomado o medicamento experimental?

Definição 1.17 (Probabilidade Condicional). Sejam A e B dois acontecimentos. A probabili-

Teorema 1.18 (Teorema da Probabilidade Composta). Sejam A e B dois acontecimentos

Definição 1.19 (Acontecimentos Independentes). Dois acontecimentos A e B dizem-se inde-

P (A) = P (A |E1 ) P (E1 ) + . . . + P (A |En ) P (En ) .

Demonstração. Aplicando a definição 1.17, de Probabilidade Condicional, depois o Teorema 1.18

P (Ei ∩ A) P (A |Ei ) P (Ei )

Pretende-se determinar P (B|D). Usando o Teorema de Bayes, obtemos: