Probabilidades e Estatística: Introdução

PROBABILIDADES E ESTATÍSTICA
ISABEL NATÁRIO
Departmento de Matemática, Faculdade de Ciências e Tecnologia,
Universidade Nova de Lisboa, 2829-516, Caparica, Portugal
Especial agradecimento à Profa Fátima Miguéns por contribuições várias
Notas produzidas no âmbito da disciplina
de Probabilidades e Estatı́stica para os cursos de Engenharia
Qualquer gralha ou incorrecção encontrada agradece-se que seja reportada à autora
icn@fct.unl.pt
2 de Julho de 2012
Conteúdo
1 Estatı́stica Descritiva 4
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Distribuições de frequência e representação gráfica de dados . . . . . . . . . . . . . . . 5
1.3 Medidas descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Medidas de localização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 Medidas de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.3 Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Diagrama de caixa-e-bigodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Exercı́cios Propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Teoria das Probabilidades 16

2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Espaço amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3 Axiomática das probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Técnicas de contagem para espaços amostrais finitos . . . . . . . . . . . . . . . . . . . 22
2.5 Probabilidade condicionada e Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . 23
2.6 Independência entre acontecimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Variáveis aleatórias 34
3.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Função distribuição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 Variáveis aleatórias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Variáveis aleatórias contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4 Momentos e outros parâmetros de uma distribuição de probabilidade 42

4.1 Momentos de uma distribuição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2 Parâmetros descritivos das distribuições . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5 Vectores aleatórios 51
5.1 Par aleatório discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 Par aleatório contı́nuo‡ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3 Independência entre variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.4 Momentos de vectores aleatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
1
Probabilidades e Estatı́stica Isabel Natário 2
6 Distribuições especiais 68
6.1 Algumas distribuições discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.1.1 Distribuição Uniforme Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.1.2 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.1.3 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.1.4 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.1.5 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.1.6 Distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.2 Algumas distribuições contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2.1 Distribuição Uniforme Contı́nua . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2.2 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.2.3 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.2.4 Distribuição Qui-quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.2.5 Distribuição T de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7 Teorema Limite Central 96

7.1 Teorema Limite Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
8 Inferência Estatı́stica. Estimação Pontual. Distribuições por Amostragem. 101

8.1 Populações, amostras aleatórias e estatı́sticas . . . . . . . . . . . . . . . . . . . . . . . 101
8.2 Estimação pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8.3 Métodos de Obtenção de Estimadores‡ . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
8.3.1 Métodos dos Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8.3.2 Método da Máxima Verosimilhança . . . . . . . . . . . . . . . . . . . . . . . . 105
8.4 Algumas Propriedades dos Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.5 Distribuições por amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
8.5.1 Distribuições por amostragem da média amostral, X̄ . . . . . . . . . . . . . . . 111
8.5.2 Distribuição por amostragem para a diferença de médias amostrais, X̄1 − X̄2 . 112
8.5.3 Distribuição por amostragem da proporção, P . . . . . . . . . . . . . . . . . . 112
8.5.4 Distribuição por amostragem da variância amostral, S 2 . . . . . . . . . . . . . 113
9 Intervalos de Confiança 117

9.1 Intervalos de Confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
9.2 Intervalos de Confiança para a média populacional, µ . . . . . . . . . . . . . . . . . . . 120
9.2.1 População Normal com variância conhecida . . . . . . . . . . . . . . . . . . . . 120
9.2.2 População Normal com variância desconhecida . . . . . . . . . . . . . . . . . . 121
9.2.3 População Normal com variância desconhecida e n > 30 . . . . . . . . . . . . . 121
9.2.4 População desconhecida com variância conhecida e n > 30 . . . . . . . . . . . . 122
9.2.5 População desconhecida com variância desconhecida e n > 30 . . . . . . . . . . 123
9.3 Intervalo de Confiança para a diferença de médias populacionais, µ1 − µ2 . . . . . . . 123
9.4 Intervalo de Confiança para proporção populacional, p . . . . . . . . . . . . . . . . . . 124
9.5 Intervalo de Confiança para a variância populacional, σ 2 , e para o desvio padrão pop-
ulacional, σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
10 Testes de Hipóteses 131

10.1 Testes de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
10.2 Testes de hipóteses para a média populacional, µ . . . . . . . . . . . . . . . . . . . . . 133
10.2.1 População Normal(µ, σ 2 ), σ 2 conhecido . . . . . . . . . . . . . . . . . . . . . . 133
10.2.2 População Normal(µ, σ 2 ), σ 2 desconhecido . . . . . . . . . . . . . . . . . . . . . 139
10.2.3 População Normal(µ, σ 2 ), σ 2 desconhecido, n > 30 . . . . . . . . . . . . . . . . 141
10.2.4 População desconhecida com σ 2 conhecido e n > 30 . . . . . . . . . . . . . . . 144
10.2.5 População desconhecida com σ 2 desconhecido e n > 30 . . . . . . . . . . . . . . 146
10.3 Teste de hipóteses para a igualdade entre médias populacionais, µ1 = µ2 , de populações
Normais com variâncias conhecidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
10.4 Testes de hipóteses para a proporção p de uma população . . . . . . . . . . . . . . . . 151
10.5 Testes de hipóteses para a variância σ 2 de uma população Normal com média desconhecida155
10.6 Testes de hipóteses para o pressuposto da normalidade de uma população . . . . . . . 159
11 Regressão Linear Simples 169

11.1 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
11.2 Estimadores dos Mı́nimos Quadrados dos Parâmetros de Regressão . . . . . . . . . . . 170
11.3 Qualidade do Ajuste e Estimação de σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 171
11.4 Distribuição dos Estimadores β̂0 e β̂1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
11.4.1 Distribuição de β̂1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
11.4.2 Distribuição de β̂0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
11.5 Intervalos de Confiança e Testes de Hipóteses para os Parâmetros de Regressão . . . . 174
11.5.1 Intervalos de Confiança e Testes de Hipóteses para β1 . . . . . . . . . . . . . . 175
11.5.2 Intervalos de Confiança e Testes de Hipóteses para β0 . . . . . . . . . . . . . . 176
11.6 Intervalos de Confiança e Testes de Hipóteses para a Recta de Regressão ou Resposta
Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
11.7 Predição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
11.8 Um exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
12 Exercı́cios variados 186
13 Soluções dos exercı́cios propostos 198
14 Formulário 231
15 Tabelas 233
16 Bibliografia sugerida (ordem alfabética) 236

Capı́tulo 1
Estatı́stica Descritiva
1.1 Introdução
Neste capı́tulo começamos por rever conceitos de estatı́stica descritiva. A estatı́stica descritiva tem
por objectivo descrever, resumir e representar a informação contida num conjunto de dados, através da
construção de tabelas e gráficos ou através da determinação de medidas numéricas que adequadamente
sintetizem os dados.
A dificuldade do Homem em interpretar grandes conjuntos de dados é aqui ultrapassada pela
distribuição dos dados em classes e pelo no cálculo de medidas resumo que os descrevam de forma
fiel.
A forma de analisar os dados depende, em primeira instância, da sua natureza. Os dados numéricos
podem ser discretos, quando se referem a contagens ou números inteiros, ou contı́nuos, quando
podem tomar qualquer valor dentro de um determinado intervalo de números.
Para além disso os dados estatı́sticos são ainda classificados de acordo com a sua escala de medição.
Assim temos dados qualitativos e quantitativos. Os primeiros dizem respeito a dados cujos atrib-
utos de interesse são categorias e dividem-se em dados nominais e ordinais.
Os dados nominais não são na verdade dados numéricos, mas apenas etiquetas ou valores atribuı́dos
que designam uma classe, não havendo uma relação de ordem entre as classes. Por exemplo, a situação
em que os dados se referem à cor dos olhos de um conjunto de indivı́duos (1=preto, 2=castanho,
3=azul, 4=verde, 5=cinzento).
Os dados ordinais referem-se a dados do tipo dos nominais, com a diferença que para estes se
estabelece uma relação de ordem entre as classes. Por exemplo, as classificações de cada aluno num
determinado teste dadas por ”Mau”, ”Suficiente”e ”Muito Bom”.
Os dados quantitativos são aqueles em que a sua caracterı́stica de interesse é intrinsecamente
numérica. Dividem-se em dados com escala intervalar ou com escala absoluta, residindo a distinção
no facto de estes últimos terem a si associado uma origem definida. Para decidir se determinado tipo
de dados está em qual das escalas pergunte a si próprio se o dobro do valor do que está a estudar
corresponde ao dobro de intensidade. Por exemplo, 20o C é duas vezes mais quente que 10o C? A
resposta é não e, por isso, dados deste tipo são de escala intervalar. Agora um campo com 4 hectares
é o dobro de outro com 2 hectares? Sim, por isso temos agora dados de escala absoluta. Notamos que
as técnicas estatı́sticas não fazem distinção entre estes dois tipos de dados.
É exclusivamente sobre esta última classe de dados, os quantitativos, que vamos trabalhar.
4
1.2 Distribuições de frequência e representação gráfica de dados

Quando lidamos com grandes conjuntos de dados podemos obter uma boa ideia global dos mesmos
se os agruparmos em classes ou intervalos disjuntos. Ao procedermos assim perdemos informação mas
esta perda é largamente compensada pelo conhecimento que ganhamos acerca da forma dos dados.
Assuma que estamos a tratar com dados contı́nuos. No caso discreto os valores observados definem
eles próprios as classes a considerar.
Para escolher o número de classes k a usar é usual aplicar-se a regra de Sturges:
log n
k ≈1+ log 2 ,
onde n é a dimensão do conjunto de dados.

Sabendo k e a amplitude total do conjunto de dados, L, dada por:
L = máximo{dados} − mı́nimo{dados},
obtém-se a amplitude de cada classe, l, como:
L
l= k.
Podemos então definir os limites de cada classe e contar o número de observações que caiem
dentro de cada uma delas, obtendo assim as frequências absolutas de cada classe - fi para a classe
i, i = 1, . . . , k. Este procedimento vem facilitado se ordenarmos os dados. Notamos que:
Pk
i=1 fi =n
O conjunto das frequências absolutas de todas as classes, eventualmente colocadas numa tabela,
chama-se distribuição de frequências.
Para o conjunto das frequências absolutas obtêm-se as chamadas frequências absolutas acu-
muladas de cada classe, Fi , como a soma das frequências absolutas dessa classe e de todas as outras
que a precedem:
Pi
Fi = j=1 fj
Repare que Fk = n. Ao conjunto das {Fi , i = 1, . . . , k} chama-se distribuição de frequências

absolutas.
Obervamos que é usual identificar cada classe pelo seu ponto médio, calculado como a metade
da soma dos seus extremos, e denotado aqui como P Mi para a classe i, i = 1, . . . , k.
Definem-se ainda as chamadas frequências relativas de cada classe, aqui designadas por fi∗ ,
como:
fi
fi∗ = n
Observe-se que estas frequências se encontram em [0, 1] e que:

Pk ∗
i=1 fi =1
Associadas a fi∗ encontram-se as correspondentes frequências relativas acumuladas:
Pi
Fi∗ = ∗
j=1 fj
Temos que Fk∗ = 1. Ao conjunto das frequências relativas chama-se distribuição de frequências
relativas e ao conjunto das frequências relativas acumuladas chama-se distribuição de frequências
relativas acumuladas.
Nota: Se depois de seleccionadas as classes se verificar que, por existirem observações muito ex-
tremas, surgem ”nas pontas”classes com apenas 1 ou 0 observações, é usual agregá-las, obtendo as
classes abertas ”menor que”e ”maior que”. Essas observações que se destacam por serem muito ex-
tremas, muito distantes das restantes, designam-se por outliers.
Uma vez tendo as distribuições de frequências podemos construir vários dispositivos gráficos para
as representar, já que uma imagem vale 1000 palavras... Assim podemos ter histogramas, polı́gonos
de frequência, polı́gonos de frequências acumuladas representando graficamente a distribuição
de frequência dos dados, ou ainda diagramas de caixa-e-bigodes, que apresentaremos mais tarde
no texto.
O histograma é um gráfico de barras que se constrói escolhendo para abcissas os limites de cada
uma das classes e para ordenadas, resultando na altura de cada uma das barras que o constitui, a
frequência (absoluta ou relativa) dos dados na classe correspondente.
O polı́gono de frequências é obtido unindo os pontos de ordenada correspondente à altura de
cada barra e abcissa dada pelo respectivo ponto médio da classe. Os polı́gonos de frequências são
usualmente melhores que os histogramas para comparar a forma de duas ou mais distribuições de
frequências.
O polı́gono de frequências acumuladas obtém-se unindo os pontos formados por ordenadas
dadas pela altura das barras do histograma e respectivas abcissas que são um dos limites da classe que
lhe corresponde - caso seja o superior fala-se de distribuição acumulada ”acima de”; se for o inferior
temos distribuição acumulada ”abaixo de”. A curva aqui resultante toma o nome de ogiva. É uma
curva importante quando estamos interessados em determinar que percentagem dos dados está abaixo
de um certo valor.
Exemplo 1.1 Seguem-se as percentagens de gordura de manteiga fornecidas por 120 vacas Ayrshire,
de 3 anos de idade, seleccionadas ao acaso de um livro de registos de gado canadiano:
4.32 4.24 4.29 4.00 3.96 4.48 3.89 4.02 3.74 4.42
4.20 3.87 4.10 4.00 4.33 3.81 4.33 4.16 3.88 4.81
4.23 4.67 3.74 4.25 4.28 4.03 4.42 4.09 4.15 4.29
4.27 4.38 4.49 4.05 3.97 4.32 4.67 4.11 4.24 5.00
4.60 4.38 3.72 3.99 4.00 4.46 4.82 3.91 4.71 3.96
3.66 4.10 4.38 4.16 3.77 4.40 4.06 4.08 3.66 4.70
3.97 3.97 4.20 4.41 4.31 3.70 3.83 4.24 4.30 4.17
3.97 4.20 4.51 3.86 4.36 4.18 4.24 4.05 4.05 3.56
3.94 3.89 4.58 3.99 4.17 3.82 3.70 4.33 4.06 3.89
4.07 3.58 3.93 4.20 3.89 4.60 4.38 4.14 4.66 3.97
4.22 3.47 3.92 4.91 3.95 4.38 4.12 4.52 4.35 3.91
4.10 4.09 4.09 4.34 4.09 4.88 4.28 3.98 3.86 4.58
De Sokal & Rohlf (1995).
Olhando para este conjunto de 120 números é difı́cil retirar algo de útil daqui, ao contrário do que
acontece se os dispusermos num gráfico.
Para tal começamos por determinar o número de classes a usar para agrupar os dados, através da
regra de Sturges:
log n log 120
k ≈1+ log 2 =1+ log 2 ≈ 1 + 6.907 = 7.907 ≈ 8 classes.
Notando agora que o máximo do conjunto de dados é 5.00 e o mı́nimo é 3.47, temos que a amplitude
dos dados vale L = 5.00 − 3.47 = 1.53 e, portanto, a amplitude de cada classe deve ser de l = Lk =
1.53
8 = 0.19125 ≈ 0.2. Obtemos então as seguintes distribuições de frequências (absoluta, absoluta
acumulada, relativa e relativa acumulada):
Frequência Freq. absoluta Frequência Freq. relativa

Classe absoluta, acumulada relativa, acumulada
i i fi Fi fi∗ Fi∗
1 ]3.4 ; 3.6] 3 3 0.025 0.025
2 ]3.6 ; 3.8] 8 11 0.067 0.092
3 ]3.8 ; 4.0] 30 41 0.250 0.342
4 ]4.0 ; 4.2] 29 70 0.242 0.583
5 ]4.2 ; 4.4] 28 98 0.233 0.817
6 ]4.4 ; 4.6] 12 110 0.100 0.917
7 ]4.6 ; 4.8] 5 115 0.042 0.958
8 ]4.8 ; 5.0] 5 120 0.042 1.000
Usando agora as frequências absolutas, por exemplo, pode construir-se o seu histograma e desenhar
o correspondente polı́gono de frequências (a vermelho):
30
25
Frequência absoluta, fi
10 155
0 20
3.4 3.6 3.8 4.0 4.2 4.4 4.6 4.8 5.0

Percentagem de manteiga
Daqui facilmente verificamos que a grande maioria destas vacas produz percentagens de manteiga
entre 3.8 e 4.4, havendo aproximadamente o mesmo número de vacas melhores e piores produtoras em
termos de manteiga - simetria na distribuição das frequências.
Repare ainda nos valores das frequências relativas acumuladas de onde se pode verificar que mais
de 50% das observações correspondem a uma percentagem de manteiga inferior a 4.2%.
2
1.3 Medidas descritivas

Anteriormente vimos como resumir um conjunto de dados num gráfico. Adicionalmente pode ser
útil reduzir esses mesmos dados a um ou mais números que os representem, como por exemplo a uma
média. Estes números vão tomar o nome de medidas descritivas.
As medidas descritivas dividem-se em 3 tipos: medidas de localização, medidas de dispersão e
medidas de forma. Servem, respectivamente, para responder a questões do tipo:
1. Onde é o ”meio”dos dados? Que dado ocorre mais vezes? Como se posiciona o meu valor
comparado com todos os outros?
2. Quão ”espalhados”se encontram os dados?
3. São os meus dados simétricos?
1.3.1 Medidas de localização

As medidas de localização servem para determinar o ”meio”dos dados ou o seu valor ”mais tı́pico”ou
ainda para determinar como determinado valor se posiciona em relação aos restantes. As medidas mais
usuais são a média, a mediana, moda, os quartis e os percentis.
Dado um conjunto de dados D = {x1 , . . . , xn } temos as seguintes definições:
Média amostral: Pn
1
x̄ = n i=1 xi
Mediana:
 ésimo
n+1

 2 valor do conjunto D ordenado, n é ı́mpar
Me =

 Média dos 2 valores centrais do conjunto D ordenado, n é par
Moda:
Mo = Valor em D que ocorre mais vezes
Percentil de ordem p:
p ésimo
qp = n × 100 valor do conjunto D ordenado, p ∈ [0, 100]
1o Quartil:
Q1 = d0.25neésimo valor do conjunto D ordenado
3o Quartil:
Q3 = d0.75neésimo valor do conjunto D ordenado
Note-se que os quartis não são mais do que percentis - o 1o quartil é o percentil 25 e o 3o quartil
é o percentil 75. O 2o quartil não é mais do que o percentil 50, que por sua vez não é mais do que a
mediana.
Quando os dados se encontram agrupados, as medidas anteriores não podem assim ser determi-
nadas, tendo de se recorrer a uma interpolação linear. Notamos que a moda deverá encontrar-se
contida na classe com maior frequência absoluta - dita classe modal - e a mediana deverá estar con-
tida na primeira classe cuja correspondente frequência relativa acumulada ultrapasse 0.5 - dita classe
mediana.
Denotando Li e Ls os limites inferior e superior, respectivamente, das classes onde se encontram
as medidas de localização a serem determinadas, P Mi o ponto médio da classe i, me o número da
classe mediana, mo o número da classe modal, mq1 o número da classe do 1o quartil, mq3 o número
da classe do 3o quartil, mpp o número da classe do percentil p e l a amplitude das classes, temos que:
Média amostral:
1 Pk
x̄ = n i=1 fi P Mi
Mediana:
n+1
− Fme−1
Me = Li + 2
Fme+1 −Fme−1 ×l
Moda:
fmo+1
Mo = Li + fmo−1 + fmo+1 ×l
1o Quartil:
n+1
− Fmq1−1
Q1 = Li + 4
Fmq1+1 −Fmq1−1 ×l
3o Quartil:
3(n+1)
− Fmq3−1
Q3 = Li + 4
Fmq3+1 −Fmq3−1 ×l
Percentil de ordem p:
p(n+1)
− Fmpp−1
qp = Li + 100
Fmpp+1 −Fmpp−1 ×l
Notas: Quando tratamos com dados susceptı́veis de conter outliers a mediana verifica-se ser uma
medida de localização melhor que a média, uma vez que é menos sensı́vel a esse tipo de valores
extremos. Notamos ainda que a moda não tem de ser única.
1.3.2 Medidas de dispersão

A dispersão é a tendência dos dados se espalharem em torno da média. As medidas mais habituais
são a amplitude dos dados, a variância, o desvio padrão e o coeficiente de variação, que se passam a
definir, relativamente ao conjunto de dados D = {x1 , . . . , xn }.
Amplitude:
L = max D − min D
Variância amostral:
1 Pn 1 Pn
s2 = − x̄)2 = 2 − nx̄2

n−1 i=1 (xi n−1 i=1 xi
Desvio padrão amostral:

√ q
1 Pn
s= s2 = n−1 i=1 (xi − x̄)2
Coeficiente de variação:
s
cv = x̄ × 100
Note-se que o coeficiente de variação representa a percentagem da média amostral a que corres-
ponde o desvio padrão amostral.
No caso de dados agrupados devemos reformular as nossas definições. Sendo P Mi o ponto médio
da classe i e fi a correspondente frequência absoluta:
Variância amostral:
1 Pk
s2 = n−1 i=1 fi (P Mi − x̄)2
Desvio padrão amostral:

√ q
1 Pk
s= s2 = n−1 i=1 fi (P Mi − x̄)2
1.3.3 Medidas de forma

Servem para estudar a simetria dos dados. Vamos aqui apenas considerar o coeficiente de enviesa-
mento de Pearson:
Coeficiente de enviesamento de Pearson:
3(x̄−M e)
Sk = s
Os valores de Sk variam entre −3 e 3. Se os dados forem perfeitamente simétricos então Sk = 0,

já que a mediana e a média dos dados coincidem. Se Sk > 0 (respectivamente, Sk < 0) tal significa
que a média é maior (respectivamente menor) que a mediana, sendo os dados enviesados para a
direita (respectivamente, enviesados para a esquerda).
Exemplo 1.2 Retomemos o exemplo 1.1. Uma vez que dispomos dos dados desagregados podemos
calcular:
1 Pn 1 Pn
Média amostral: x̄ = n i=1 xi = 120 i=1 xi = 4.166;
Mediana: como n=120 é par, M e=Média dos 2 valores centrais do conjunto ordenado de dados,
{3.47, 3.56, 3.58, 3.66, 3.66, 3.70, 3.70, 3.72, 3.74, 3.74, 3.77, 3.81, 3.82, 3.83, 3.86, 3.86, 3.87, 3.88,
3.89, 3.89, 3.89, 3.89, 3.91, 3.91, 3.92, 3.93, 3.94, 3.95, 3.96, 3.96, 3.97, 3.97, 3.97, 3.97, 3.97, 3.98,
3.99, 3.99, 4.00, 4.00, 4.00, 4.02, 4.03, 4.05, 4.05, 4.05, 4.06, 4.06, 4.07, 4.08, 4.09, 4.09, 4.09, 4.09,
4.10, 4.10, 4.10, 4.11, 4.12, 4.14, 4.15, 4.16, 4.16, 4.17, 4.17, 4.18, 4.20, 4.20, 4.20, 4.20, 4.22, 4.23,
4.24, 4.24, 4.24, 4.24, 4.25, 4.27, 4.28, 4.28, 4.29, 4.29, 4.30, 4.31, 4.32, 4.32, 4.33, 4.33, 4.33, 4.34,
4.35, 4.36, 4.38, 4.38, 4.38, 4.38, 4.38, 4.40, 4.41, 4.42, 4.42, 4.46, 4.48, 4.49, 4.51, 4.52, 4.58, 4.58,
4.60, 4.60, 4.66, 4.67, 4.67, 4.70, 4.71, 4.81, 4.82, 4.88, 4.91, 5.00}
4.14+4.15
Logo, Me = 2 = 4.145.
Moda: Mo = Valor que ocorre mais vezes = 3.97 e 4.38 (aparecem ambos 5 vezes, 2 modas).
1o Quartil: Q1 = d0.25ne = d0.25 × 120e = 30ésimo valor do conjunto de dados ordenado =3.96
3o Quartil: Q3 = d0.75ne = d0.75 × 120e = 90ésimo valor do conjunto dados ordenado =4.34
Amplitude: L=5.00-3.47=1.53
1 Pn
Variância amostral: s2 = n−1 i=1 (xi − x̄)2 = 0.091
q
1 Pn
Desvio padrão amostral: s = n−1 i=1 (xi − x̄)2 = 0.302
s
Coeficiente de variação: cv = x̄ × 100 = 7.258%
3(x̄−M e)
Coeficiente de enviesamento de Pearson: Sk = s = 0.209.
Confirma ligeiro enviesamento direito verificado no histograma. A distribuição é pois apenas

ligeiramente assimétrica, o que é corroborado pelo facto de a média amostral, a mediana e a moda
estarem relativamente próximas.
Apesar de neste exemplo concreto termos os dados desagregados, vamos usar as classes definidas
no exemplo 1.1 para calcular algumas das medidas atrás e comparar resultados. Assim:
1 Pk 3×3.5+8×3.7+...
Média amostral: x̄ = n i=1 fi P Mi = 120 = 4.153;
Mediana: A classe 4, ]4.0; 4.2], é a primeira cuja frequência relativa acumulada ultrapassa os 50%
dos dados, pelo que é esta a classe mediana.
n+1 120+1
− Fme−1 − 41
Me = Li + 2
Fme+1 −Fme−1 × l = 4.0 + 2
98−41 × 0.2 = 4.068
Moda: A classe modal é a classe 3, ]3.8; 4.0], já que é aquela a que corresponde maior frequência
absoluta. Assim:
fmo+1 29
Mo = Li + fmo−1 + fmo+1 × l = 3.8 + 8 + 29 × 0.2 = 3.957
1o Quartil: A classe 3, ]3.8; 4.0], é a primeira cuja frequência relativa acumulada ultrapassa os
25% dos dados, pelo que é esta a classe do 1o quartil:
n+1 120+1
− Fmq1−1 − 11
Q1 = Li + 4
Fmq1+1 −Fmq1−1 × l = 3.8 + 4
70−11 × 0.2 = 3.865
3o Quartil: A classe 5, ]4.2; 4.4], é a primeira cuja frequência relativa acumulada ultrapassa os
75% dos dados, pelo que é esta a classe do 3o quartil:
3(n+1) 3(120+1)
− Fmq3−1 − 70
Q3 = Li + 4
Fmq3+1 −Fmq3−1 × l = 4.2 + 4
110−70 × 0.2 = 4.304
Naturalmente que tanto a mediana, como os quartis e a moda devem estar contidos nas respectivas
classes, o que constitui uma forma de confirmarmos se os nossos cálculos estão correctos.
1 Pk 3×(3.5−4.153)2 +8×(3.7−4.153)2 +...

Variância amostral: s2 = n−1 i=1 fi (P Mi − x̄)2 = 119 = 0.095
√
Desvio padrão amostral: s = s2 = 0.308
s
Coeficiente de variação: cv = x̄ × 100 = 7.406%
Vemos pois que as aproximações obtidas a partir dos dados agrupados estão próximas dos ver-
dadeiros valores. Quanto mais distantes estiverem os verdadeiros valores dos obtidos através dos
dados agrupados, maior é a perda de informação devida ao agrupamento.
2
1.4 Diagrama de caixa-e-bigodes

Apresentamos por último um outro dispositivo gráfico bastante útil, o chamado diagrama de caixa-
e-bigodes.
Para construir este diagrama temos de conhecer quanto valem os máximo e mı́nimo dos dados, a
sua mediana e os 1o e 3o quartis. Com estes desenha-se uma caixa rectangular em que o topo inferior
é dado pelo 1o quartil e o superior pelo 3o quartil. A caixa é dividida em duas partes pelo valor da
mediana dos dados. Acrescentam-se-lhe então 2 bigodes que partem, respectivamente, um do extremo
inferior da caixa até ao mı́nimo dos dados e o outro do extremo superior para o máximo - ver exemplo
1.3.
Este diagrama é muito útil para identificar assimetrias nos dados, caso a caixa esteja partida em
dois pedaços muito diferentes, e para identificar outliers, no caso de os bigodes serem, relativamente
à caixa, muito grandes.
Exemplo 1.3 Construamos o diagrama de caixa-e-bigodes para dos dados do exemplo 1.1, lembrando
que M e = 4.145, Q1 = 3.96, Q3 = 4.34, mı́nimo dos dados é 3.47 e máximo dos dados é 5.00:
3.5 4.0 4.5 5.0
Confirma-se ligeira assimetria direita dos dados.

2
1.5 Exercı́cios Propostos

1.1 No âmbito dos inquéritos que são efectuados por determinado organismo de obtenção de dados,
é importante ter noção dos erros de digitação que os entrevistadores cometem ao anotarem
informaticamente as respostas dos seus entrevistados. Assim, para um inquérito de 50 questões
registaram-se, para 90 entrevistas, os seguintes números de erros:
No de erros Frequência
0 5
1 17
2 29
3 23
4 11
5 5
(a) Determine as frequências relativas e as frequências relativas acumuladas. Coloque-as em

gráfico.
(b) Que percentagem de entrevistas tiveram menos de 3 erros? Que número de erros é mais
comum?
(c) Determine a média do número de erros, o seu desvio padrão e o coeficiente de variação.
1.2 Suponha que os dados seguintes se referem ao número de palavras que constituem o vocabulário
de crianças de 5 anos:
205, 377, 292, 300, 179, 240, 300, 190, 680, 250, 180, 170, 211, 266, 303, 350, 375, 288, 360, 225
(a) Estes dados são de natureza discreta ou contı́nua? Construa uma sua distribuição de
frequências absoluta, absoluta acumulada, relativa e relativa acumulada. Esboce o his-
tograma das frequências relativas e o correspondente polı́gono de frequências. Construa
uma ogiva.
(b) Existe algum outlier presente nos dados?
(c) Determine a média, a mediana, a moda, e os 1o e 3o quartis dos dados. Construa o diagrama
de caixa-e-bigodes dos dados.
(d) Determine o desvio padrão e o coeficiente de variação dos dados.
(e) O que pode dizer quanto à simetria dos dados? Justifique.
1.3 Os chamados movimentos rápidos dos olhos durante o sono (REM - rapid eye movement) estão
associados a perı́odos de sonho. A duração da actividade REM foi registada para 18 indivı́duos
(em segundos):
7.00, 7.75, 9.50, 11.60, 10.55, 7.75, 12.00, 10.75, 12.51, 10.91, 8.30, 9.71, 10.50, 11.60, 6.25, 11.75,
9.75, 10.00
(a) Construa uma distribuição de frequência dos dados usando uma amplitude de classe l de 1
segundo. Represente-a graficamente. Esboce uma ogiva.
(b) Determine a média, a mediana e os 1o e 3o quartis dos dados.
(c) Determine o desvio padrão e o coeficiente de variação dos dados.
1.4 Segue-se a distribuição por faixas etárias da população de uma certa cidade, com idades entre 5
e 40 anos, relativas ao ano de 1987:
Idade Número
[5 − 10[ 30116
[10 − 15[ 14633
[15 − 20[ 29424
[20 − 25[ 40146
[25 − 30[ 29424
[30 − 35[ 44555
[35 − 40] 40100
(a) Construa um histograma de frequências. O que indica a sua forma?

(b) Se o histograma tivesse sido calculado com base nas frequências relativas a sua forma
diferiria do histograma desenhado na alı́nea anterior? Se não tiver a certeza construa-o
para comparação.
(c) Determine duas medidas de localização dos dados e duas medidas de dispersão.
1.5 Os dados que se seguem dizem respeito aos salários mensais lı́quidos (Euro) de um conjunto de
36 pessoas de determinada cidade entrevistadas na rua ao acaso:
1195, 660, 870, 1150, 1225, 2465, 1100, 2480, 1300, 2330, 2020, 1540, 685, 867, 1000, 1470, 1085,
1060, 1790, 2690, 1535, 3995, 1615, 1230, 670, 590, 1100, 1040, 4200, 1030, 1165, 3320, 1260,
1790, 2740, 1490
(a) Construa uma distribuição de frequências relativas e ponha-a em gráfico. Construa ainda
uma ogiva.
(b) Qual a percentagem de pessoas que ganha menos que 1100e lı́quidos?
(c) Determine a média, a mediana, a moda, os 1o e 3o quartis e o desvio padrão dos dados.
(d) Comente a simetria da distribuição com base no coeficiente de enviesamento de Pearson e
com base no diagrama de caixa-e-bigodes.
1.6 Inserido num estudo antropólogo procura-se determinar algumas caracterı́sticas fisiológicas de
uma população. Os números seguintes representam os nı́veis de colesterol no sangue encontrado
em 25 membros de uma tribo Africana, medido em miligramas de colesterol por decilitro de
sangue:
200, 241, 232, 177, 207, 181, 195, 182, 181, 233, 176, 170, 217, 164, 188, 164, 211, 204, 160, 172,
212, 186, 160, 203, 191
(a) Construa as distribuições de frequências absolutas e relativas correspondentes.

(b) Construa o histograma e o polı́gono de frequências das frequências relativas. Comente.
(c) Determine a média, a mediana e a moda dos dados. Comente.
(d) Determine o coeficiente de variação dos dados.
1.7 Um psicólogo desenvolveu uma técnica para ajudar as pessoas a melhorarem a sua memória.
Certo material é dado a 30 pessoas para o memorizarem antes de aprenderem a técnica e semel-
hante material é dado às mesmas pessoas para o memorizarem depois de apreendida a referida
técnica. A diferença de tempo que as pessoas demoraram a memorizar os materiais antes e
depois de aprendida a técnica seguem-se (minutos):
5, 40, 45, 11, 13, 20, 14, 5, 23, 18, 17, 4, 4, 5, 29, 18, 15, 21, 24, 16, 2, 15, 19, 30, 24, 21, 14, 18,
26, 40
(a) Construa uma distribuição de frequências, o seu histograma e o seu polı́gono de frequências.
(b) Tome uma classe e escreva por palavras exactamente o que ela lhe diz.
(c) Calcule 3 medidas de localização dos dados e discuta a simetria da distribuição dos dados,
construindo um diagrama de caixa-e-bigodes.
1.8 ‡Prove que a área total dos rectângulos de um histograma é igual à área limitada pelo polı́gono
de frequência correspondente e pelo eixo dos XX. Considere, para facilitar, o caso concreto de
um histograma constituı́do, por exemplo, por 3 classes da mesma amplitude.
Capı́tulo 2
Teoria das Probabilidades
2.1 Introdução
Apesar da estatı́stica descritiva ser um ramo importante da estatı́stica, muito frequentemente a in-
formação que dispomos existe apenas para um subgrupo de um grande conjunto de items de interesse
(uma amostra), significando a necessidade de generalizações para além dos dados. O objectivo da
inferência estatı́stica prende-se precisamente com estas generalizações.
Neste processo estão sempre presentes incertezas, quer porque a informação não é completa ou
porque é apenas parte de um todo ou ainda porque é de natureza indirecta. Estas incertezas são
quantificadas através da teoria das probabilidades.
A teoria das probabilidades tem assim como objectivo a formulação de modelos de fenómenos
naturais em que intervém o acaso. As suas origens remontam aos chamados jogos de azar, como sendo
a roleta do casino ou os jogos de cartas ou de dados!
Definição 2.1 Uma experiência aleatória é uma experiência na qual:
- todos os possı́veis resultados da experiência são conhecidos à partida;
- para qualquer realização da experiência não se sabe, antes desta ocorrer, qual dos seus possı́veis
resultados vai acontecer;
- a experiência pode sempre ser repetida sob idênticas condições.
Vários são os exemplos do nosso dia-a-dia de experiências aleatórias - lançamento de uma moeda
ao ar (assumindo que não ”aterra”de lado!), lançamento de um dado, a extracção do totoloto, o tempo
de vida de duração de uma lâmpada, o tempo que se demora na fila de espera dos correios, o sorteio
dos turnos práticos de Probabilidades e Estatı́stica!...
O nosso objectivo é então estudar a incerteza associada a estas experiências aleatórias, se possı́vel
quantificá-la. Laplace, em 1812, forneceu a primeira definição de probabilidade, dita definição
clássica de probabilidade ou Lei de Laplace:
Definição 2.2 Se uma experiência aleatória tem a si associado um número finito N de resultados
mutuamente exclusivos e igualmente prováveis e se, desses resultados, NA têm um certo atributo A,
então a probabilidade de A, P (A), é dada por:
16
NA no de resultados favoráveis
P (A) = = o
N n de resultados possı́veis
Esta definição é no entanto restritiva e inadequada em muitas situações, por exemplo se os resul-
tados da experiência aleatória não forem equiprováveis. Surge então o conceito frequencista de
probabilidade:
Definição 2.3 A probabilidade de um acontecimento A é avaliada através de informação existente

sobre A, sendo dada pela proporção de vezes em que se observou o resultado A, nA , num número n
suficientemente grande de realizações da experiência aleatória:
nA
P (A) = lim
n→∞ n
Este é o conceito de probabilidade que trataremos neste curso. Notamos que esta interpretação não
é única. No entanto, a matemática das probabilidades que vamos aprender de seguida é desenvolvida
numa base inteiramente axiomática, independente da referida interpretação. Deve-se a Kolmogorov,
que a apresentou em 1933.
De acordo com o desenvolvimento de Kolmogorov os acontecimentos aleatórios são representados
por conjuntos e a probabilidade é uma medida normada definida sobre estes conjuntos.
2.2 Espaço amostral

Definição 2.4 O espaço amostral de uma experiência aleatória é um par (Ω, S) onde:
1. Ω é o conjunto de todos os possı́veis resultados da experiência (espaço de resultados ou

universo);
2. S é uma σ−álgebra, i.e.:
(i) ∅ ∈ S;
(ii) Se A ∈ S então Ā ∈ S, onde Ā é o conjunto complementar de A;
S∞
(iii) Se A1 , A2 , . . . , An , . . . ∈ S então i=1 Ai ∈ S.
Observações:
1. Os pontos em Ω designam-se por pontos amostrais.
2. Muito frequentemente S é o conjunto de todos os subconjuntos de Ω, S ≡ P(Ω). Este conjunto

é sempre uma σ−álgebra.
3. Qualquer conjunto A ∈ S é chamado um acontecimento. A é um conjunto de pontos amostrais.
4. Qualquer acontecimento A diz-se ter ocorrido se algum ponto de A corresponder ao resultado

de uma experiência aleatória.
5. Cada conjunto formado por apenas um ponto amostral é dito um acontecimento simples ou
elementar.
6. Ao conjunto Ω chamamos acontecimento certo.
7. Ao conjunto ∅ chamamos acontecimento impossı́vel.
8. A álgebra assim construı́da, também designada por álgebra de acontecimentos, é ”pare-

cida” com a álgebra de conjuntos, ”herdando” propriedades desta. Assim salientamos:
(i) A é subacontecimento de B, e escreve-se A ⊂ B, se e só se a realização de A implica a

realização de B;
(ii) Dado o acontecimento A, chama-se acontecimento complementar de A e escreve-se A,
ao acontecimento constituı́do pelos elementos de Ω que não estão em A;
(iii) Dados os acontecimentos A e B, dá-se o nome de união de A com B ao acontecimento
que consiste na realização de pelo menos um deles e representa-se por A ∪ B;
(iv) Intersecção de A com B é o acontecimento que se realiza se e só se realizam em simultâneo
os acontecimentos A e B. Representa-se por A ∩ B;
(v) A união de acontecimentos disjuntos A e B representa-se por A + B.
(vi) Chama-se diferença dos acontecimentos A e B ao acontecimento A − B = A ∩ B, ou
seja, ao acontecimento que se realiza se e só se A se realiza mas não se realiza B.
9. Dois acontecimentos A e B dizem-se mutuamente exclusivos se não têm elementos em comum,

ou seja se A ∩ B = ∅.
10. Se Ω contiver apenas um número finito de elementos dizemos que (Ω, S) é um espaço amostral
finito. Se Ω for no máximo um conjunto numerável de pontos dizemos que (Ω, S) é um espaço
amostral discreto. Se os pontos em Ω não forem contáveis dizemos que (Ω, S) é um espaço
amostral não contável. Em particular, se Ω = Rk , dizemos que temos um espaço amostral
contı́nuo.
Exemplo 2.1 Considere-se a experiência aleatória simples do lançamento ao ar de uma moeda equi-
librada. Representando ”Ca” o resultado ”sair cara” e ”Co” o resultado ”sair coroa”, temos que
Ω = {Ca, Co}. Escolhemos então a seguinte σ−álgebra, S = P(Ω) = {∅, {Ca}, {Co}, {Ca, Co}},
formando o espaço amostral (Ω, S).
Consideremos agora a experiência aleatória do lançamento ao ar de duas moedas equilibradas. Temos

que Ω = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)} e podemos escolher S = P(Ω) = {∅, {(Ca, Ca)},
{(Ca, Co)}, {(Co, Ca)}, {(Co, Co)}, {(Ca, Ca), (Ca, Co)}, {(Ca, Ca), (Co, Ca)}, {(Ca, Ca), (Co, Co)},
{(Ca, Co), (Co, Ca)}, {(Ca, Co), (Co, Co)}, {(Co, Ca), (Co, Co)}, {(Ca, Ca), (Ca, Co), (Co, Ca)},
{(Ca, Ca), (Ca, Co), (Co, Co)}, {(Ca, Ca), (Co, Ca), (Co, Co)}, {(Ca, Co), (Co, Ca), (Co, Co)}, Ω}, for-
mando o espaço amostral (Ω, S).
2
2.3 Axiomática das probabilidades

Definição 2.5 Seja (Ω, S) um espaço amostral. Uma função P : S → [0, 1] diz-se uma probabilidade
se satisfaz as seguintes condições ou axiomas:
1. P (A) ≥ 0, ∀A ∈ S;
2. P (Ω) = 1;
3. Sejam {Ai , i = 1, 2, . . .}, Ai ∈ S, uma sucessão de conjuntos disjuntos (Aj ∩ Ak = ∅, j 6= k).

Então:
∞ ∞
!
[ X
P Ai = P (Ai ) Aditividade contável
i=1 i=1
Nota: Como caso particular do 3o axioma temos a chamada aditividade finita, para Ω finito:
Sejam A, B ∈ S : A ∩ B = ∅. Então P (A ∪ B) = P (A) + P (B).
Definição 2.6 Chama-se espaço de probabilidades ao triplo (Ω, S, P ).
Exemplo 2.2 Relativamente ao exemplo 2.1, onde Ω = {Ca, Co} e S = P(Ω), podemos definir a
função P em S como P (∅) = 0, P ({Ca}) = 21 , P ({Co}) = 21 e P (Ω) = 1. Facilmente se verifica que
esta função satisfaz os axiomas acima sendo, por isso, uma probabilidade.
Já se Ω = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)} e S = P(Ω), podemos definir a função P por:
P (∅) = 0
1
P ({(Ca, Ca)}) = P ({(Ca, Co)}) = P ({(Co, Ca)}) = P ({(Co, Co)} =
4
P ({(Ca, Ca), (Ca, Co)}) = P ({(Ca, Ca), (Co, Ca)}) = P ({(Ca, Ca), (Co, Co)}) =
1
= P ({(Ca, Co), (Co, Ca)}) = P ({(Ca, Co), (Co, Co)}) = P ({(Co, Ca), (Co, Co)}) =
2
P ({(Ca, Ca), (Ca, Co), (Co, Ca)}) = P ({(Ca, Ca), (Ca, Co), (Co, Co)}) =
3
= P ({(Ca, Ca), (Co, Ca), (Co, Co)}) = P ({(Ca, Co), (Co, Ca), (Co, Co)}) =
4
P (Ω) = 1
Também esta função satisfaz os axiomas acima enunciados sendo, por isso, uma probabilidade.
Notemos que em ambas as situações anteriores, ao definirmos os valores que a função P deve tomar
para os acontecimentos elementares, estes necessariamente implicam os valores que P deve assumir
para os restantes acontecimentos, de forma a que P seja de facto uma probabilidade.
2
Passam-se a enumerar de seguida algumas consequências da axiomática das probabilidades acima

definida, esboçando as suas demonstrações, sem grande detalhe.
Proposição 2.1 P (∅) = 0.
Demonstração: ∅ ∩ Ω = ∅. Logo ∅ e Ω são conjuntos disjuntos. Então, pela aditividade e porque

∅ ∪ Ω = Ω,
P (∅ ∪ Ω) = P (∅) + P (Ω) ⇔ P (Ω) = P (∅) + P (Ω) ⇔ (pelo 2o axioma)

1 = P (∅) + 1 ⇔ P (∅) = 0
Teorema 2.1 Se A, B ∈ S e A ⊆ B então:
- P (A) ≤ P (B)
- P (B − A) = P (B) − P (A).
Demonstração: Se A ⊆ B, B = (A ∩ B) ∪ (B − A) = A ∪ (B − A). Assim, sendo A e (B − A) disjuntos,

temos pelo axioma da aditividade que:
P (B) = P (A + (B − A)) = P (A) + P (B − A) ⇔ (2.3.1)

P (B − A) = P (B) − P (A)
Note-se que de (9.5.1), P (B) ≥ P (A), já que P (B − A) ≥ 0, pelo 1o axioma.
Corolário 2.1.1 ∀A ∈ S, 0 ≤ P (A) ≤ 1.
Demonstração: Como ∀A ∈ S, A ⊆ Ω e como, pelo axioma 2, P (Ω) = 1, segue o pretendido como

consequência do primeiro ponto do teorema anterior.
Corolário 2.1.2 ∀A, B ∈ S, P (A − B) = P (A) − P (A ∩ B).
Demonstração:
P (A − B) = P (A − (A ∩ B)) = (Pelo 2o ponto do teorema anterior e porque (A ∩ B) ⊆ A)

= P (A) − P (A ∩ B)
Teorema 2.2 (Regra da adição) Para A, B ∈ S, P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Demonstração:
1. A ∪ B = (A − B) + (B − A) + (A ∩ B);
2. A = (A ∩ B) + (A − B) ⇔ (A − B) = A − (A ∩ B)
3. B = (A ∩ B) + (B − A) ⇔ (B − A) = B − (A ∩ B)
Assim, pelo axioma da aditividade:
P (A ∪ B) = P (A − B) + P (B − A) + P (A ∩ B) =
= P (A − (A ∩ B)) + P (B − (A ∩ B)) + P (A ∩ B) = (Pelo corolário (2.1.2))
= P (A) − P (A ∩ B) + P (B) − P (A ∩ B)) + P (A ∩ B) =
= P (A) + P (B) − P (A ∩ B))
Corolário 2.2.1 ∀A ∈ S, P (Ā) = 1 − P (A).
Demonstração: Tome-se na regra da adição anteriormente enunciada B = Ā:
P (A ∪ Ā) = P (A) + P (Ā) − P (A ∩ Ā) ⇔

P (Ω) = P (A) + P (Ā) + P (∅) ⇔ (Pelo 2o axioma e prop. (2.1))
1 = P (A) + P (Ā) + 0 ⇔
P (Ā) = 1 − P (A)
Corolário 2.2.2
! Para Ai ∈ S, i = 1, . . . , n,
n n n
!
P (Ai ∩ Aj ∩ Ak ) − . . . + (−1)n−1 P
[ X X X \
P Ai = P (Ai ) − P (Ai ∩ Aj ) + Ai
i=1 i=1 i6=j i6=j6=k i=1
Observações:
1. Dois acontecimentos A e B dizem-se incompatı́veis se P (A ∩ B) = 0.
2. Se temos um acontecimento A 6= Ω mas tal que P (A) = 1 dizemos que A é um acontecimento

quase certo.
3. Se temos um acontecimento B 6= ∅ mas tal que P (B) = 0 dizemos que B é um acontecimento

quase impossı́vel.
Exemplo 2.3 Relativamente ao exemplo 2.1, continuado em 2.2, relativamente à experiência aleatória
do lançamento de 2 moedas equilibradas, definamos os seguintes acontecimentos:
A-”Sair pelo menos uma cara”
B-”Sair pelo menos uma coroa”
Temos que:
3
A = {(Ca, Co), (Co, Ca), (Ca, Ca)} P (A) =
4
3
B = {(Ca, Co), (Co, Ca), (Co, Co)} P (B) =
4
A partir daqui consideremos os seguintes acontecimentos:
Ocorrerem os dois acontecimentos simultaneamente:

1
A ∩ B = {(Ca, Co), (Co, Ca)} P (A ∩ B) =
2
Ocorrer A mas não B:

3 1 1
A − B = {(Ca, Ca)} P (A − B) = P (A) − P (A ∩ B) = − =
4 2 4
Ocorrer pelo menos um dos acontecimentos:
3 3 1
A∪B =Ω P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = + − =1
4 4 2
Não ocorrer B:
3 1
B̄ = {(Ca, Ca)} P (B̄) = 1 − P (B) = 1 − =
4 4
2
2.4 Técnicas de contagem para espaços amostrais finitos

Em espaços amostrais finitos é frequente termos situações em que todos os acontecimentos ele-
mentares têm igual probabilidade. Nestes casos a determinação das probabilidades de acontecimentos
reduz-se a problemas de contagem combinatória. Enumeramos seguidamente algumas regras de con-
tagem necessárias a essa determinação.
1. Multiplicação de escolhas: O número de formas diferentes em que podemos escolher um

elemento de cada um de dois grupos - um com n elementos e outro com m - é dado por:
n×m
2. Consideremos um conjunto de n elementos dos quais estamos interessados em extrair p (p ≤ n)

elementos, anotando a ordem pela qual eles saem.
(i) Se a extracção for efectuada sem reposição, no caso de extrairmos todos os n elementos
(p = n), o número de formas diferentes de o fazer é permutações de n,
Pn = n! = n × (n − 1) × . . . × 2 × 1
Recordemos que por convenção 0! = 1.

Caso p < n, o número de conjuntos diferentes de p elementos que podemos formar a partir
dos n elementos à escolha é dado por arranjos de n elementos p a p,
n!
Anp = (n−p)!
(ii) Se a extracção for efectuada com reposição, o número de conjuntos diferentes de p

elementos que podemos formar a partir dos n elementos à escolha é np . A este número
chama-se arranjos com repetição e designa-se por:
0
Anp = np
3. Finalmente podemos estar interessados em determinar quantos subconjuntos de p elementos

conseguimos formar a partir de um conjunto de n elementos, não interessando a ordem pela
qual eles saem. Tal número é dados pelas combinações de n elementos p a p:
n!
Cpn = (n−p)!p!
Repare-se que as combinações são obtidas a partir dos arranjos descontando-lhes as diferentes
ordenações do conjunto formado pelos p elementos. Usamos arranjos quando os elementos que
escolhemos são distinguı́veis entre si e combinações quando não são.
Notamos ainda que as combinações podem também ser denotadas por ( np ) = nC
p = Cpn e que
Cpn = Cn−p
n .
Exemplo 2.4 Consideremos as seguintes situações:
X O número de toilettes possı́veis ao combinar 3 gravatas diferentes com 4 camisas são 3 × 4 = 12.
X Num teste de escolha múltipla de 10 questões com 3 opções cada, o número de diferentes con-
juntos de respostas é 310 .
X Num parque de estacionamento com 10 lugares o número de formas distintas em que se aı́ podem
arrumar 6 carros diferentes é de A10
6 = 151.200.
X No totoloto, onde de 49 números se tenta acertar num conjunto de 6 números sorteados ao

acaso, o número de possı́veis chaves é dado por C649 = 13.983.816!
2.5 Probabilidade condicionada e Teorema de Bayes

O cálculo de probabilidades de acontecimentos associados a uma experiência aleatória pode ser
alterado quando existe informação disponı́vel para além do espaço amostral da experiência em questão.
Vejamos o seguinte exemplo:
Exemplo 2.5 Em determinada aldeia apareceu um surto de cólera, que se pensa estar associado
ao consumo de água de um determinado poço. São conhecidas as seguintes proporções relativas à
quantidade de pessoas que desenvolveram a doença (representando esse acontecimento pela letra D) e
às pessoas que beberam água do referido poço (representando esse acontecimento pela letra B):
B B Total
D 0.18 0.02 0.20
D 0.01 0.79 0.80
Total 0.19 0.81 1.00
Qual a probabilidade de uma pessoa escolhida ao acaso na população da aldeia ter contraı́do cólera?
P (D) = 0.2
De entre as pessoas que beberam água do poço, qual a probabilidade de se escolher ao acaso uma
pessoa que contraiu cólera? Agora só estamos interessados no universo das pessoas que beberam água
do poço, B, pelo que a probabilidade pretendida é:
0.18
' 0.95
0.19
Repare-se que por sabermos que a pessoa bebeu água do poço tal altera o valor da probabilidade
do acontecimento ”contrair cólera”de 0.2 para 0.95! O espaço de resultados foi encolhido de toda
a população da aldeia, Ω, para apenas os que consumiram água do tal poço, B. Isto reflecte-se na
forma como o novo acontecimento ”contrair cólera sabendo (ou condicionado a que) que bebeu água
do poço” passa a ser designado: D|B. A sua probabilidade é dada por:
P (D ∩ B)
P (D|B) =
P (B)
2
Definição 2.7 Seja (Ω, S, P) um espaço de probabilidades e seja B ∈ S : P (B) > 0. Para ∀A ∈ S
definimos a probabilidade condicionada de A dado B por:
P (A ∩ B)
P (A|B) =
P (B)
Exercı́cio 2.1 Provar que se B é um acontecimento tal que P (B) > 0, então P (· |B ) é uma proba-
bilidade sobre Ω.
Teorema 2.3 (Teorema da probabilidade composta) Seja (Ω, S, P) um espaço de probabilidades

e sejam A, B ∈ S : P (A) > 0, P (B) > 0. Então,
P (A ∩ B) = P (A |B ) P (B) = P (B |A ) P (A)
Nota: Este teorema é facilmente generalizável a mais de dois acontecimentos.
Teorema 2.4 (Teorema da probabilidade total) Seja (Ω, S, P) um espaço de probabilidades e

formem {E1 , . . . , En } uma partição do espaço de resultados Ω1 , com P (Ei ) > 0, ∀i. Dado um
qualquer acontecimento A ∈ S, tem-se
P (A) = P (A |E1 ) P (E1 ) + . . . + P (A |En ) P (En )
Demonstração:
Se {E1 . . . , En } é uma partição de Ω, então E1 ∪ . . . ∪ En = Ω e Ei ∩ Ej = ∅, ∀i 6= j.
Por outro lado, A = (A ∩ E1 ) ∪ . . . ∪ (A ∩ En ).
1
Ou seja, E1 ∪ . . . ∪ En = Ω e Ei ∩ Ej = ∅, ∀i 6= j.
Como os acontecimentos (A ∩ E1 ) , . . . (A ∩ En ) são disjuntos, pelo axioma da aditividade,
P (A) = P (A ∩ E1 ) + . . . + P (A ∩ En )
O que se pretende demonstrar sai finalmente notando que, pelo teorema da probabilidade composta,
P (A ∩ Ei ) = P (A |Ei ) P (Ei ) , ∀i = 1, 2, . . . , n.
Teorema 2.5 (Teorema de Bayes) Seja (Ω, S, P) um espaço de probabilidades e {E1 , . . . , En } uma
partição do espaço de resultados Ω, com P (Ei ) > 0, ∀i. Dado um qualquer acontecimento A ∈ S,
com P (A) > 0, tem-se
P (A |Ei ) P (Ei )
P (Ei |A ) = Pn .
i=1 P (A |Ei ) P (Ei )
Demonstração:
Pelos teoremas da probabilidade total e da probabilidade composta e pela definição de probabili-
dade condicional,
P (Ei ∩ A) P (A |Ei ) P (Ei )

P (Ei |A ) = = Pn
P (A) i=1 P (A |Ei ) P (Ei )
Exemplo 2.6 Suponha que existe um teste para diagnosticar uma certa doença, mas que esse teste é
falı́vel. Assim sabe-se que, para um indivı́duo portador da doença (D), a probabilidade de o teste dar
positivo (T ) é de 0.98 e que, para um indivı́duo são (D), a probabilidade de o teste dar negativo (T )
é 0.99. Sabe-se ainda que na população 10% são portadores da doença. Assim:
P (T |D) = 0.98 P (T |D) = 0.99 P (D) = 0.10
A probabilidade de um indivı́duo não ter a doença sabendo que o teste deu positivo é de:
P (T |D)P (D) 0.01 × 0.90

P (D|T ) = = ' 0.084
P (T |D)P (D) + P (T |D)P (D) 0.98 × 0.10 + (1 − 0.99) × (1 − 0.10)
e a probabilidade de um indivı́duo ter a doença se o teste deu negativo é de:
P (T |D)P (D) 0.02 × 0.10

P (D|T ) = = ' 0.002
P (T |D)P (D) + P (T |D)P (D) (1 − 0.98) × 0.10 + 0.99 × (1 − 0.10)
2
2.6 Independência entre acontecimentos

Definição 2.8 Dois acontecimentos A e B dizem-se independentes se e só se
P (A ∩ B) = P (A) P (B)
Teorema 2.6 Se A e B são acontecimentos independentes, então:
P (A|B) = P (A) se P (B) > 0
e
P (B|A) = P (B) se P (A) > 0.
Portanto, se dois acontecimentos são independentes, o conhecimento de um deles em nada influencia

a probabilidade de ocorrência do outro.
Teorema 2.7 Se A e B são acontecimentos independentes, também o são A e B, A e B e ainda A

e B.
Exemplo 2.7 A probabilidade de um atirador acertar no alvo, em cada tiro, é de 0.6, independente-
mente do tiro. Qual a probabilidade de:
a) Serem necessários exactamente 10 tiros para acertar uma vez? 0.49 × 0.6.
b) Em três tiros acertar uma vez? C13 × 0.42 × 0.6.
c) Acertar pela terceira vez ao quinto tiro? C24 × 0.42 × 0.63 .
d) Necessitar de pelo menos 4 tiros para acertar duas vezes? 1 − 0.62 − C13 × 0.41 × 0.62 .

2.1 Considere a experiência aleatória de lançar simultaneamente 2 dados equilibrados de 4 faces
cada, variando estas de 1 a 4 pintas.
(a) Descreva o espaço de resultados e o espaço amostral associados a esta experiência.

(b) Quais são os elementos de S que descrevem, respectivamente, os acontecimentos ”sair um
único 4”, ”sair pelo menos um 4”, ”sair no máximo um 4”?
2.2 Num concurso de escultura participam 15 candidatos. De quantas formas diferentes pode o júri
atribuir os 1o , 2o e 3o lugares?
2.3 Quatro casais compraram 8 lugares para o teatro na mesma fila de cadeiras. De quantas formas
diferentes se podem sentar se:
(a) Os elementos de cada casal se sentarem junto do respectivo par.

(b) Todos os homens se sentarem juntos e as mulheres também.
(c) Todos os homens se sentarem juntos.

(d) Os homens e as mulheres se sentarem alternadamente.
2.4 Seis livros de fı́sica, quatro de matemática e dois de quı́mica devem ser arrumados numa
prateleira. De quantas formas diferentes se pode fazer tal arrumação se:
(a) Os livros de cada matéria ficarem juntos?

(b) Apenas os livros de matemática ficarem juntos?
2.5 Numa determinada pizzeria o cliente pode escolher para a sua pizza 3 ingredientes de 15 à
escolha, não sendo possı́vel repetir ingredientes. Quantas pizzas diferentes se podem fazer?
2.6 Para preencher 6 vagas de trabalho numa determinada firma concorreram 6 homens e 8 mulheres.
De quantas formas diferentes podem ser preenchidas as vagas se:
(a) Qualquer dos candidatos puder ser escolhido?

(b) Tiverem de ser contratados exactamente 3 homens e 3 mulheres, podendo qualquer can-
didato ser escolhido?
(c) Tiverem de ser contratadas (quaisquer) 3 mulheres e 3 homens, dos quais um homem em
particular deve ser escolhido.
(d) Tiverem se ser contratados 2 homens e 4 mulheres e, destas, 2 em particular não devem ser
escolhidas.
n
2.7 Demonstre que Cpn = Cn−p , p ≤ n.
2.8 No lançamento de um dado equilibrado determine a probabilidade de sair:
(a) A face 6.
(b) Um número par de pontos.
(c) A face 2 ou a face 3.
2.9 Extrai-se ao acaso uma carta de um baralho de 40. Determine a probabilidade de essa carta ser:
(a) Um ás.
(b) Um ouro.
(c) O ás de ouros.
(d) Um ás ou um ouro.
2.10 Num jogo de cartas (sueca) distribuem-se 10 cartas por cada jogador. Determine a probabilidade
de sair a um determinado jogador:
(a) Quatro ases e quatro manilhas (7).

(b) Pelo menos um ás.
(c) Quatro cartas do naipe trunfo, entre elas o ás.
(d) Todas as cartas dos mesmo naipe. E do naipe trunfo?
2.11 Num dado não equilibrado a probabilidade de sair um número par de pintas é o dobro de sair
um número ı́mpar. Determine essas probabilidades.
2.12 Por engano misturaram-se 4 pilhas novas com 3 usadas. Escolhendo-se, ao acaso e sem reposição,
2 destas pilhas determine a probabilidade de:
(a) Ambas serem novas.

(b) Nenhuma ser nova.
(c) Pelo menos uma ser nova.
2.13 Para se conseguir entrar na área de trabalho do computador do Sr. Speck-Trum tem de se
introduzir uma palavra-chave de 4 dı́gitos. Qual a probabilidade de se conseguir entrar ao acaso
se:
(a) Na constituição da palavra-chave puderem entrar quaisquer das 26 letras do alfabeto;

(b) Na constituição da palavra-chave puderem entrar quaisquer das 26 letras do alfabeto, sem
repetições de letras;
(c) A palavra-chave é constituı́da por quaisquer duas letras seguidas de quaisquer dois algaris-
mos.
2.14 Três amigos vão ao bar Pentagunus e pedem ao empregado de mesa que lhes sirva três bebidas
diferentes. Este, na hora de servir as referidas bebidas, esquece-se de quem pediu o quê e decide
colocar em frente de cada amigo uma bebida ao acaso. Qual a probabilidade de:
(a) Todos receberem a bebida que efectivamente escolheram;

(b) Ninguém receber a bebida correcta;
(c) Apenas um dos amigos receber a bebida que efectivamente escolheu.
2.15 Sejam A, B e C acontecimentos tais que P (A) = P (B) = P (C) = 14 , P (A ∩ B) = P (B ∩ C) = 0

e P (A ∩ C) = 81 . Qual a probabilidade de se verificar pelo menos um dos 3 acontecimentos?
2.16 Sabendo que A e B são acontecimentos tais que P (A) = 23 , P (B) = 1

2 e P (A∩ B) = 13 , determine
P (A − B), P (A ∪ B), P (Ā ∪ B̄), P (Ā ∩ B) e P (A ∪ B̄).
2.17 De 100 agricultores, 50 produzem vinho, 30 produzem milho e 10 produzem vinho e milho.
Escolhendo um deste agricultores ao acaso qual a probabilidade de:
(a) Ele produza vinho ou milho?

(b) Ele não produza vinho nem milho?
2.18 A probabilidade de um homem estar vivo daqui a 25 anos é 35 e a probabilidade da sua mulher
ainda viver na mesma ocasião é de 32 . Determine a probabilidade de daqui a 25 anos:
(a) Ambos estarem vivos.

(b) Apenas o homem estar vivo.
(c) Apenas a mulher estar viva.
(d) Apenas um estar vivo.
2.19 Em determinada gelataria 40% dos clientes escolhem o sabor chocolate, 30% escolhem o sabor
limão e 15% escolhem os dois. Seleccionou-se ao acaso um cliente dessa gelataria.
(a) Se escolheu o sabor limão, qual a probabilidade de ter escolhido também o sabor chocolate?
E vice-versa?
(b) Qual a probabilidade de escolher limão ou chocolate?
2.20 Suponha que 10% da população de certo paı́s sofre de problemas cardı́acos e que, de entre
estes, 70% são fumadores. De entre os que não sofrem de problemas cardı́acos 45% fumam.
Seleccionada ao acaso uma pessoa desta população:
(a) Qual a probabilidade de ser fumadora?

(b) Se for fumadora, qual a probabilidade de sofrer de problemas cardı́acos?
2.21 Admita que existem 3 tipos de vı́rus diferentes que provocam gripe, sendo as probabilidades de
um indivı́duo ser atacado por cada um deles de 0.3, 0.5 e 0.2, respectivamente, só podendo ser
atacado por um único tipo de vı́rus. Existe uma vacina para esta doença, sendo as probabilidades
de imunização a cada um dos vı́rus atrás mencionados de 0.8, 0.9 e 0.95, respectivamente.
(a) Qual a probabilidade de um indivı́duo vacinado não contrair a gripe (estar, por isso, imune)?
(b) Se um indivı́duo vacinado resistiu ao ataque (um indivı́duo imune), qual a probabilidade
de ter sido atacado por um vı́rus do tipo 2?
2.22 Um detector de mentiras tem uma probabilidade de 0.08 de não detectar um mentiroso e uma
probabilidade de 0.01 de acusar uma pessoa inocente (não mentirosa). Se 2% das pessoas que
passam por este detector de mentiras mentem, qual a probabilidade de:
(a) Uma pessoa acusada pelo detector de mentiras ter de facto mentido?
(b) Uma pessoa não acusada pelo detector ser na verdade inocente.
2.23 Dos registos dos correios sabe-se que 60% das cartas enviadas demoram 1 dia a chegar ao seu
destino, enquanto que as restantes demoram mais tempo do que isso. Quanto a encomendas, 10%
demoram apenas um dia a chegar, 40% dois dias e as restantes mais tempo ainda. O número de
cartas enviadas é superior ao número de encomendas, estando na proporção de 3 para 2. Calcule
a probabilidade de:
(a) Um artigo enviado demore pelo menos dois dias a chegar.

(b) Um artigo enviado, que demorou mais de um dia a chegar, seja uma carta.
2.24 Nas suas deslocações de casa para o emprego a menina Flora pode usar um de três meios
de transporte distintos - metro, autocarro ou automóvel. Sabe-se que a probabilidade de ela
chegar atrasada ao emprego é de 0.24 e as probabilidades de chegar atrasada tendo usado,
respectivamente, o metro ou o autocarro são de 0.1 e 0.7. A probabilidade de chegar a horas
tendo usado o automóvel é de 0.8. Sabendo ainda que a probabilidade de ir de metro ou de
autocarro é a mesma, determine a probabilidade de a menina Flora ir de automóvel.
2.25 Sejam A e B acontecimentos independentes. Mostre que A e B são também acontecimentos

independentes.
2.26 Um aluno conhece bem 60% da matéria dada. Num exame com cinco perguntas, sorteadas
ao acaso, sobre toda a matéria, qual a probabilidade de vir a responder correctamente a duas
perguntas?
2.27 Numa certa rua existem duas caixas Multibanco - A e B. A probabilidade de as máquinas
avariarem é, independentemente uma da outra, de 0.05 para a A e 0.01 para a B. Determine a
probabilidade de, num dia qualquer:
(a) Ambas as máquinas estarem avariadas.

(b) Apenas a máquina A estar avariada.
(c) Pelo menos uma das máquinas estar avariada.
2.28 Diga, justificando, se a seguinte afirmação é verdadeira ou falsa:

Dados 2 acontecimentos A e B pode acontecer que P (A ∪ B) = P (A) + P (B).
2.29 Diga, justificando, se as seguintes afirmações são verdadeiras ou falsas:
(a) Dados 3 acontecimentos A, B e C tais que P (A) > 0, P (B) > 0, P (C) > 0 , com A ⊆ B ⊆
C, então P (A ∪ B ∪ C) = P (C).
(b) Estamos interessados em formar palavras de 5 letras, a partir das 23 constituintes do
alfabeto português (sem repetição de letras), por selecção aleatória das letras. Nestas
5
condições, a probabilidade de formarmos a palavra ”PROVA” é de 23 .
(c) Suponha que A e B são acontecimentos tais que P (A) = 0.6, P (B) = 0.3 e P (A ∩ B) = 0.2.
Então P (B|Ā) = 0.5.
(d) Um estudante sabe que terá 3 exames durante a 1a semana do perı́odo de exames (2a a 6a
3
feira, 5 dias). A probabilidade de que os exames sejam em dias consecutivos é de 10 .
(e) De um conjunto de 25 artigos 8 são defeituosos, 6 tendo apenas pequenos defeitos e 2 tendo
defeitos de considerável gravidade. Então a probabilidade de que um artigo escolhido ao
acaso tenha um defeito considerado grave, sabendo que tem defeitos, é de 14 .
(f) Para um determinado exame de PED, 80% dos alunos estudam e os restantes não. Se um
aluno estudar para o exame, a probabilidade de ele passar é de 0.85. Se o aluno não estudar
certamente que não passa. Se determinado aluno não passou no exame, a probabilidade de
ele não ter estudado para o mesmo é de 0.2.
(g) Sendo A e B dois acontecimentos tais que P (A) + P (B) = x e P (A ∩ B) = y então a
probabilidade de não se realizar qualquer um dos acontecimentos é x − y.
(h) Dois algarismos distintos entre si são escolhidos aleatoriamente de entre os inteiros de 0 a
5 (inclusivamente). A probabilidade de a sua soma ser menor que 3 é de 0.1.
(i) O Sr. Zé compra um bilhete de lotaria para 20 sorteios distintos, em cada um dos quais
1
tem uma probabilidade de 100 de ganhar um prémio. Consequentemente, na globalidade
dos sorteios, a probabilidade de ele ganhar pelo menos um prémio é de 0.182.
(j) Um comerciante tem 3 lojas - L1, L2 e L3 - sendo o volume de vendas de L1 igual ao de
L2 e o volume de vendas de L3 o dobro do volume de vendas de cada uma das outras duas
lojas. Sabe-se que a percentagem de dı́vidas incobráveis nestas lojas é de 6%, 10% e 12%,
respectivamente para as lojas L1, L2 e L3. Então, a probabilidade de não se conseguir
cobrar uma qualquer factura é de 0.5.
(k) De uma lista de 25 doadores de de sangue, 12 têm sangue do tipo A. Escolhidas 5 pessoas
5
ao acaso desta lista a probabilidade de que todas tenham sangue do tipo A é de 12 .
(l) A probabilidade do Joãozinho passar no exame de condução de trotinetes é de 0.6 se não
subornar o examinador e é de 0.8 se subornar o examinador. Estando indeciso quanto a
cometer ou não o suborno, a probabilidade de o fazer é igual à de não o fazer. Então,

sabendo que o Joãozinho conseguiu tirar a carta de trotinetes, a probabilidade de ele ter
subornado o examinador é de 0.7.
(m) A joalharia Dourex permite a devolução de alianças de casamento dentro de um prazo de
um mês após a compra das mesmas. Sabe-se que 10% dos pares de alianças comprados são
devolvidos. Então, a probabilidade de em 10 pares de alianças vendidos no máximo 1 par
ser devolvido é de 0.74.
(n) Em certa casa coabitam 3 periquitos - um amarelo, um verde e um malhado (verde e
amarelo) - e ainda um gato. Sempre que a dona destes animais sai de casa, o gato tenta
comer os periquitos, atacando indiferentemente qualquer um deles. A probabilidade de o
gato comer o periquito amarelo é de 0.3, de comer o periquito verde é 0.2 e o malhado é
0.1. No dia em que a dona chegue a casa e só ouça cantar 2 periquitos (por um deles ter
sido comido), a probabilidade de que o periquito em falta seja o amarelo é de 0.5.
(o) Em determinado paı́s sabe-se que 70% dos contribuintes são profissionais liberais e os
restantes são trabalhadores por conta de outrem. Se um contribuinte é profissional lib-
eral, a probabilidade de ele pagar impostos voluntariamente é de 0.6, enquanto que esta
probabilidade aumenta para 0.9 para os trabalhadores por conta de outrem. Se determi-
nado contribuinte não pagou os seus impostos de forma voluntária, a probabilidade de ele
ser um profissional liberal é de 0.85.
(p) Imagine que recebe uma caixa com 50 doces. Esta caixa contém 5 caramelos, 5 bombons
recheados com cerejas, 5 trufas, 5 chocolates de passas e 30 chocolates de leite. Alguém
selecciona ao acaso 5 doces da caixa para lhe dar e coloca-os num prato. A probabilidade
de que o prato contenha pelo menos um caramelo, pelo menos um bombom recheado com
cerejas, pelo menos uma trufa e pelo menos um chocolate de passas é de 0.3.
(q) Três máquinas A, B e C produzem botões, respectivamente, 15%, 25% e 60% da produção
total. As percentagens de botões defeituosos fabricados por estas máquinas são respec-
tivamente 5%, 7% e 4%. Se ao acaso, da produção total de botões, for encontrado um
defeituoso, a probabilidade de ele ter sido produzido pela máquina B é de cerca de 36%.
(r) A probabilidade do medicamento XOP provocar efeitos secundários numa criança (i.e.
pessoa com menos de 14 anos) é de 0.2, enquanto que para os adultos (restante população)
é de 0.1. Sabemos que percentagem de crianças na população é de 15%. Uma pessoa
queixou-se de ter sofrido de efeitos secundários após a ingestão deste medicamento. A
probabilidade de que essa pessoa seja um adulto é de 0.3.
(s) Se P (A) = 0.5, P (B) = 0.2 e P (A ∩ B) = 0.1 então os acontecimentos A e B são indepen-
dentes mas não incompatı́veis.
(t) O José tem de ir buscar um amigo ao aeroporto. A sua experiência diz-lhe que o avião
se atrasa 60% das vezes quando chove, mas apenas 20% das vezes quando não chove. A
previsão do tempo diz que há uma probabilidade de 0.4 de chover. Então a probabilidade
de que o avião não se atrase é de 0.5.
(u) Num determinado exame, 10 alunos receberam o enunciado A, 15 alunos receberam o
enunciado B e 20 alunos receberam o enunciado C. Seleccionando ao acaso 6 do total destes
alunos, a probabilidade de um deles ter recebido o enunciado A, dois deles terem recebido o
enunciado B e os restantes três terem recebido o enunciado C é de aproximadamente 0.98.
(v) O exame de PE do Zé decorre em simultâneo com um importante jogo de futebol. Não
podendo ver o jogo em directo o Zé programa os seus dois gravadores de vı́deo para o gravar.
Estes gravadores já são velhos, sendo que o seu primeiro gravador grava 70% das vezes que
é programado e o seu segundo gravador apenas grava em 60% das vezes. A probabilidade
de o Zé chegar a casa e não ter nenhum registo do jogo que ele tanto deseja ver é de 0.25.
(w) Sabe-se que 20% dos empregados de certa empresa multinacional são estagiários recrutados
da FCT e que, destes, 75% acabam por aceder a cargos de chefia. Dos outros trabalhadores,
recrutados no âmbito de outros programas, 15% ascende a cargos de chefia. Então a pro-
porção de empregados nesta multinacional sem cargos de chefia é de 0.73 e a probabilidade
de uma pessoa com um cargo de chefia ser ex-estagiário da FCT é de 0.5.
(x) A probabilidade de uma mulher ter um filho do sexo masculino é de 0.5 e a probabilidade
de ter um filho canhoto é de 0.2, havendo independência entre o sexo da criança e o facto
da criança ser canhota. Assim, a probabilidade de um bebé recém nascido ser canhoto,
sabendo que ele é um rapaz, é de 0.4.
(Exercı́cio de exame)
2.30 (a) O Zé pretende telefonar a um amigo mas não tem a certeza de quais são os dois últimos
algarismos do correspondente número de telefone. Supondo que escolhe esses algarismos ao
acaso, qual a probabilidade de acertar no número correcto à primeira tentativa?
(b) Suponha que A e B são acontecimentos tais que P (A) = 0.2, P (B) = 0.6 e P (A∪B) = 0.68.
Podemos dizer que os acontecimentos A e B são independentes? Justifique.
2.31 A industria pirotécnica, de fabrico de foguetes e explosivos, vê todos os anos o seu negócio condi-
cionado pelos fogos florestais. Nos anos considerados ”secos” sabe-se que a probabilidade de esta
indústria ter um prejuı́zo significativo é de 0.5 e para um ano ”muito seco” esta probabilidade
sobe para 0.9. No caso de o ano ser normal a probabilidade de um prejuı́zo significativo é de 0.1.
Sabe-se ainda que a probabilidade de um ano ser considerado ”seco” é de 0.4 e ”muito seco” de
0.2.
(a) Qual a probabilidade da industria pirotécnica ter um prejuı́zo significativo num ano qual-
quer?
(b) Sabendo que em determinado ano a industria pirotécnica teve um prejuı́zo significativo,
qual a probabilidade de esse ano ser um ano normal?
2.32 Num clube de futebol treinam regularmente 30 jogadores, dos quais 8 são atacantes, 12 são
médios e os restantes são defesas. Independentemente dos resultados dos restantes jogadores,
cada atacante tem uma probabilidade de 3/4 de marcar golo de penalty, cada médio tem uma
probabilidade de 1/2 de marcar golo por penalty e cada defesa consegue-o com probabilidade
1/5.
(a) Qual a probabilidade de que um jogador, escolhido ao acaso, marque golo devido a penalty?
(b) Dado que, num jogo, um qualquer jogador marcou um golo de penalty, qual a probabilidade
de esse jogador ser médio?
2.33 O Sr. Macieira recebe diariamente um fornecimento de maçãs que podem ser verdes, amarelas
ou encarnadas, em proporções de 10%, 40% e 50%, respectivamente. As maçãs verdes verificam-
se ser sempre de boa qualidade, enquanto que das maçãs encarnadas metade costumam vir
ligeiramente danificadas e 20% das maçãs amarelas também. Qual a probabilidade de uma maçã
escolhida ao acaso do fornecimento diário do Sr. Macieira, que se verificou estar ligeiramente
danificada, ser amarela?
2.34 Em determinada fábrica pretende-se criar um grupo de operacionais para resolver problemas
inesperados. Devem fazer parte deste grupo 2 operacionais não qualificados e um número, a
decidir, de operacionais qualificados. Os problemas que surjam são atribuı́dos ao acaso a um
qualquer membro da equipa, para que o resolva.
Sabe-se que a probabilidade deste tipo de problemas ser resolvido por um operacional com
qualificação é de 0.96 enquanto que por um operacional sem qualificação desce para 0.78.
(a) Considere que a referida equipa é constituı́da por 6 operacionais no total. Sabendo que
aconteceu um problema que foi prontamente solucionado, qual a probabilidade de ter sido
um operacional com qualificação a resolvê-lo?
(b) Qual deveria ser o número mı́nimo de operacionais qualificados a integrar a equipa de forma
a que a probabilidade de um problema ser prontamente resolvido seja de 0.9?
2.35 A polı́cia de trânsito coloca por vezes, nas principais artérias da cidade, radares, sendo a proba-
bilidade de uma qualquer rua estar equipada com um destes dispositivos, num dia qualquer, de
1
4.
O José, um conhecido acelera, sabe da sua experiência que a probabilidade de ele usar a rua C
num dia em que o radar está colocado é de 21 e que essa probabilidade baixa para 81 nos dias em
que não há radar. Sabe ainda que quando o radar está colocado na artéria D a probabilidade
de ele usar esse caminho é de 41 e quando não há é de 18 . Em cada dia o José só usa um único
caminho.
Calcule a probabilidade de num dia qualquer o José usar a rua C ou a rua D.
Capı́tulo 3
Variáveis aleatórias
3.1 Definição
Já vimos antes que os possı́veis resultados de uma experiência aleatória constituem o espaço de resulta-
dos da experiência. Por vezes apenas se enumeram todos estes resultados mas, muito frequentemente,
é de toda a vantagem associar alguma quantidade numérica a cada um deles. A variável que faz esta
atribuição designa-se por variável aleatória - já que, à partida, não se sabendo qual dos resultados
da experiência vai acontecer, também não se sabe qual o número atribuı́do.
Naturalmente que para o mesmo espaço de resultados se podem definir várias correspondências
numéricas.
Exemplo 3.1 Recupere-se o exemplo 2.2, relativamente à experiência aleatória do lançamento de 2

moedas equilibradas, onde Ω = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)}.
Definamos sobre Ω a aplicação X que dá, para cada acontecimento ω em Ω, o número de caras a
que corresponde:
X((Ca, Ca)) = 2 X((Ca, Co)) = 1 X((Co, Ca)) = 1 X((Co, Co)) = 0
Definamos agora sobre Ω a aplicação Y que dá, para cada acontecimento ω em Ω, o número de
coroas a que corresponde:
Y ((Ca, Ca)) = 0 Y ((Ca, Co)) = 1 Y ((Co, Ca)) = 1 Y ((Co, Co)) = 2
Definamos ainda sobre Ω a aplicação Z que atribui, para cada acontecimento ω em Ω o valor de
1 se este corresponde à saı́da de pelo menos uma cara e 0 caso contrário.
Z((Ca, Ca)) = 1 Z((Ca, Co)) = 1 Z((Co, Ca)) = 1 Z((Co, Co)) = 0
Formalmente, uma variável aleatória é uma aplicação de Ω em R de tal forma que a imagem inversa
de qualquer intervalo da forma (−∞, x] de R corresponde a um acontecimento:
34
Definição 3.1 Seja (Ω, S) um espaço amostral. Uma variável aleatória X (v.a.) é uma função
real e finita, X : Ω → R, tal que para cada x ∈ R:
Ax = {ω ∈ Ω : X (ω) ≤ x} ∈ S, i.e. Ax é um acontecimento.
Observação : Da definição acima, e por S ser uma σ-álgebra, sai que os conjuntos {X = x},
{a < X ≤ b}, {X < x}, {a ≤ X < b}, {a < X < b} e {a ≤ X ≤ b} são todos acontecimentos.
Exemplo 3.2 Recupere-se o exemplo 3.1, relativamente à experiência aleatória do lançamento de 2

moedas equilibradas, onde Ω = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)} e onde definimos a aplicação
X que faz atribuir a cada acontecimento de Ω o número de caras a que corresponde.
Repare-se que:


 ∅, x<0
{(Co, Co)} 0 ≤ x <1

X −1 (−∞; x] =

 {(Co, Co), (Ca, Co), (Co, Ca)} 1 ≤ x < 2
Ω 2≤x

Como todas as imagens inversas por X dos intervalos da forma (−∞; x] de R são acontecimentos
de Ω então X é, na verdade, uma variável aleatória.
2
Proposição 3.1 Se X1 , X2 , . . . , Xm são m variáveis aleatórias e h : Rm → R é uma função contı́nua,

então Y = h (X1 , X2 , . . . , Xm ) é uma v.a..
3.2 Função distribuição

Porque os valores que toma uma variável aleatória são determinados pelos resultado de uma ex-
periência aleatória, podemos atribuir probabilidades a esses valores.
Definição 3.2 Seja X uma v.a. definida no espaço de probabilidade (Ω, S, P ). Define-se função
distribuição da v.a. X como:
F (x) = P ({ω : X(ω) ≤ x}) = P (X ≤ x), ∀x ∈ R.
Proposição 3.2 A função F definida em 3.2 é uma função distribuição pois está definida em R, é
não decrescente, contı́nua à direita e satisfaz F (−∞) = 0 e F (+∞) = 1.
Teorema 3.1 A qualquer v.a. X corresponde uma função distribuição e vice-versa.

Exemplo 3.3 Continue-se o exemplo 3.2, relativamente à experiência aleatória do lançamento de 2

moedas equilibradas, onde a v.a. X conta o número de caras obtidas. Temos que:
1
P (X = 0) = P ({(Co, Co)}) =
4
1
P (X = 1) = P ({(Ca, Co), (Co, Ca)}) =
2
1
P (X = 2) = P ({(Ca, Ca)}) =
4
e


 0, x<0



 14 , 0 ≤ x < 1



F (x) = P (X ≤ x) =
3
4, 1≤x<2








1, x≥2

3.3 Variáveis aleatórias discretas

Definição 3.3 Uma v.a. X definida em (Ω, S, P ) diz-se do tipo discreto ou simplesmente discreta
se existe um conjunto D = {a ∈ R : P (X = a) > 0}, quanto muito numerável, tal que P (X ∈ D) = 1.
Definição 3.4 Seja X uma v.a. discreta. Chama-se função de probabilidade ou função massa
probabilidade da v.a. X à colecção de números {pi } tais que:
(i) P (X = xi ) = pi ≥ 0;
P∞
(ii) i=1 pi = 1.
Nota: Uma representação usual para a função de probabilidade de uma v.a. X é:

x1 x2 ... xi ...
X
P (X = x1 ) P (X = x2 ) . . . P (X = xi ) . . .
Exemplo 3.4 Continuando o exemplo 3.3, relativamente à experiência aleatória do lançamento de 2

moedas equilibradas, onde a v.a. X representa o número de caras obtidas, temos que:

0 1 2
X 1 1 1
4 2 4
3
P (X < 2) = P (X = 0) + P (X = 1) = F (1) =
4
3
P (0.7 ≤ X < 2.6) = P (X = 1) + P (X = 2) =
4
3.4 Variáveis aleatórias contı́nuas

Definição 3.5 Uma v.a. X definida em (Ω, S, P ) diz-se do tipo contı́nuo ou simplesmente contı́nua
se, sendo F a sua função distribuição, F é absolutamente contı́nua, i.e. se existe uma função não nega-
tiva f tal que, ∀x ∈ R: Z x
F (x) = f (t)dt.
−∞
À função f chamamos função densidade probabilidade ou função densidade da v.a. X.
Notas:
1. A função f satisfaz as seguintes propriedades:
(i) f (x) ≥ 0, ∀x ∈ R;
R +∞
(ii) −∞ f (x) dx = 1
2. Dado um qualquer intervalo real I,

Z
P (X ∈ I) = f (t) dt
I
Como se trata do integral de uma função não negativa e é sempre convergente, então a P (X ∈ I)
corresponde ao valor da área entre o eixo das abcissas e o gráfico da função f , no intervalo I
considerado.
3. Se o intervalo I for I = [a, b] ou I = ]a, b] ou I = [a, b[ ou ainda I = ]a, b[, com a < b, o valor da
sua probabilidade é sempre igual, ou seja,
Z b
P (X ∈ I) = f (x) dx
a
4. No caso discreto, P (X = a) representa a probabilidade de X tomar o valor a. No caso contı́nuo,

contudo, f (a) não representa a probabilidade de X tomar o valor a. Mais, se X é uma v.a.
contı́nua, então P (X = a) = 0, ∀a ∈ R.
Exemplo 3.5 Suponhamos que o tempo de vida (em horas) de uma determinada marca de pilhas, X,
é uma v.a. com função densidade de probabilidade:

0 x≤0
f (x) = 2
c/x x > 100
a) c pode ter um valor qualquer?
1. Como f (x) ≥ 0, ∀x ∈ R ⇒ c ≥ 0
Z +∞
2. Como f (t) dt = 1, então
−∞
+∞ +∞ +∞
1 1 c
Z Z
f (t) dt = c 2
dt = c − = = 1 ⇒ c = 100
−∞ 100 t t 100 100
b) Qual a probabilidade de uma destas pilhas durar mais de 500 horas?

+∞ +∞
1 +∞

100
Z Z
P (X > 500) = f (t)dt = dx = 100 − = 0.2
500 500 t2 t 500

3.1 A variável aleatória (v.a.) X representa o número de doentes com gripe que procuram, por dia,
o Dr. Remédios. A sua função de probabilidade é dada por:

0 1 2 3
X
p 0.2 q 0.3
(a) Sabendo que em 50% dos dias pelo menos 2 pacientes procuram o Dr. Remédios com gripe,
determine p e q.
(b) Determine a função distribuição da v.a. X e esboce o seu gráfico. Comente-o.
3.2 A v.a. X representa o número de pontos que saem no lançamento de um determinado dado. A
sua função distribuição segue-se:


 0, x<1



 1/6, 1≤x<2
1/4, 2≤x<4

F (x) =

 1/2, 4≤x<5
7/12, 5≤x<6




1, x≥6

(a) Calcule as seguintes probabilidades, usando a função distribuição dada:

i) A probabilidade de o número de pontos saı́dos ser no máximo 3.
ii) P (1 < X ≤ 2).
iii) P (2 ≤ X < 6).
iv) A probabilidade de o número de pontos saı́dos não distar de 2 pontos por mais de 1
ponto.
(b) Determine a função de probabilidade de X e confirme os resultados acima obtidos.
(c) Pode afirmar que o dado é equilibrado? Justifique.
(d) Sabendo que o número de pontos saı́do é pelo menos 4, calcule a probabilidade de saı́rem
6 pontos.
3.3 O Sr. Matias possui um café nas vizinhanças de um estádio de futebol. Da sua experiência, o
Sr. Matias sabe que, em dias de futebol, costuma vender ou 50, ou 100, ou 150 ou 200 sandes,
com probabilidades 0.2, 0.4, 0.3 e 0.1, respectivamente.
O Sr. Matias costuma fazer 100 sandes e quando estas se esgotam recorre a um fornecedor da
terra que lhe garante o envio atempado de mais sandes.
(a) Qual a probabilidade de as sandes preparadas pelo Sr. Matias serem insuficientes para
satisfazer a procura?
(b) Calcule a probabilidade de vender 200 sandes, num dia em que as sandes por ele feitas não
satisfazem a procura.
3.4 Admita que a v.a. X representa a diferença entre o número de dias estimado para a conclusão de
um projecto e o número efectivo de dias de execução. Sabe-se que esta variável tem a seguinte
função de probabilidade:

−2 −1 0 1 2
X
0.25 0.30 0.25 0.10 0.10
(a) Quando o número de dias estimado é excedido há uma penalização. Essa penalização,
digamos Y , custa 10,000 unidades monetárias (u.m.) por cada dia de atraso, transformando-
se em bónus quando o tempo estimado for superior ao tempo efectivo. Determine a função
de probabilidade da penalização/bónus.
(b) Determine ainda a função de probabilidade da v.a. Z = 5000X + Y .
3.5 O Sr. Speed pretende obter a carta de condução, mas para isso é necessário que seja aprovado
no exame escrito de código. Suponha que a probabilidade de ser aprovado em cada exame que
vier a realizar é constante e igual a 0.4 e que os resultados de cada tentativa são independentes.
Determine a função de probabilidade da v.a. X que indica o número de exames de código a
realizar pelo Sr. Speed, até conseguir a aprovação (incluindo o exame em que é aprovado).
3.6 Seja X uma v.a. com a seguinte função densidade probabilidade:

 k + x, −1 ≤ x < 0
f (x) = k − x, 0 ≤ x < 1
0, c.c.

(a) Determine o valor da constante k.

(b) Determine a função distribuição de X e esboce o seu gráfico.
(c) Determine P (X > 0).
(d) Determine P (X > 0.5|X > 0).
3.7 Seja X uma v.a. com a seguinte função densidade probabilidade:

4x, 0 < x < k
f (x) =
0, c.c.
(a) Esboce o gráfico da função densidade e determine o valor da constante k.

(b) Determine a função distribuição de X.
(c) Calcule P (1/4 ≤ X ≤ 1/3).
3.8 A quantidade de tempo, em horas, que um computador funciona até avariar é uma v.a. com a
seguinte função densidade probabilidade:
x
k e− 100 , x ≥ 0

f (x) =
0, x<0
(a) Qual a probabilidade de o computador trabalhar entre 50 e 150 horas antes de avariar?
(b) Qual a probabilidade de o computador funcionar menos de 100 horas até avariar? E exac-
tamente 100 horas?
(c) Qual a probabilidade de o computador avariar após 200 horas de funcionamento, sabendo
que já funcionou mais de 100 horas?
3.9 Seja X uma v.a. com a seguinte função densidade:
sen(x)

f (x) = 2 , 0≤x≤π
0, c.c.
(a) Determine a função distribuição de X.

(b) Determine o número a tal que P (X ≤ a) = P (X ≥ a). Como se designa a?
(c) Calcule P (X ≤ π/4 | π/6 < X < π/3)
3.10 A proporção de cobre numa liga de ouro e cobre é uma v.a. X com a seguinte função densidade
probabilidade:

6x(1 − x), 0 ≤ x ≤ 1
f (x) =
0, c.c.

(b) O preço de venda ao público, em unidades monetárias por grama (u.m./g), da referida liga
depende do seu conteúdo em cobre:
Conteúdo em cobre Preço por grama (u.m./g)

X ≤ 0.05 12.5
0.05 < X ≤ 0.1 9.5
0.1 < X ≤ 0.5 5.0
X > 0.5 2.5
Sendo o custo de produção da liga cobre-ouro de 1 u.m./g, independentemente das pro-

porções de cada metal, determine a distribuição do lucro por grama.

A função distribuição de uma qualquer variável aleatória é uma função cujo contradomı́nio tem
necessariamente de ser limitado.
Capı́tulo 4
Momentos e outros parâmetros de uma

distribuição de probabilidade
O estudo de distribuições de probabilidade de uma variável aleatória (v.a.) resume-se frequentemente

apenas ao estudo de algumas caracterı́sticas numéricas que as identificam, designadas por parâmetros
da distribuição. Muitos destes parâmetros, que se dizem populacionais, têm um grande paralelismo
com as medidas resumo que aprendemos para analisar conjuntos de dados, no capı́tulo 1.
4.1 Momentos de uma distribuição

Começamos por estudar uma classe de parâmetros designados por momentos de uma distribuição
de probabilidade, baseada no conceito de esperança matemática:
Definição 4.1 Define-se valor médio ou valor esperado ou média de uma v.a. X como:
∞
X
(a) µ = E [X] = xi P (X = xi ) 1 , se X v.a. discreta com f. probabilidade pi = P (X = xi ), ∀i.
i=1
Z +∞
(b) µ = E [X] = xf (x)dx 2 , se X v.a. contı́nua com função densidade f (.).
−∞
Exemplo 4.1 Represente a v.a. X o número de caras em 4 lançamentos de uma moeda equilibrada.
Quantas caras se espera que saiam nos 4 lançamentos? A resposta é imediata e intuitiva - 2 caras.
Confirmemos:

0 1 2 3 4
X
0.0625 0.25 0.375 0.25 0.0625
E [X] = 0 × 0.0625 + 1 × 0.25 + 2 × 0.375 + 3 × 0.25 + 4 × 0.0625 = 2 caras.

1
Caso esta série seja absolutamente convergente, ficando doravante esta nota subjacente a todas as definições deste
tipo.
2
Caso este integral seja absolutamente convergente, ficando doravante esta nota subjacente a todas as definições deste
tipo.
42
Exemplo 4.2 Suponha que o seu médico lhe aconselha que faça uma dieta para emagrecimento, du-
rante 2 semanas. Considerando a sua estrutura fı́sica, pressupõe que o peso (em kg) que vai perder se
situa, com igual probabilidade, entre 2 e 4 kg. Quantos quilos espera perder nas duas semanas?

1/2 2 ≤ x ≤ 4
f (x) =
0 c.c
+∞ 4 2 4
1 x
Z Z
E (X) = xf (x) dx = x × dx = = 3 kg
−∞ 2 2 4 2
2
Teorema 4.1 Seja X uma v.a. e φ uma função real de variável real contı́nua quase em toda a parte
(i.e., se tiver pontos de descontinuidade eles formam quanto muito um conjunto numerável). Então o
valor médio ou valor esperado ou média de φ(X) é dado por:
∞
X
(a) E [φ(X)] = φ(xi )P (X = xi ), se X v.a. discreta com f. probabilidade pi = P (X = xi ), ∀i.
i=1
Z +∞
(b) E [φ(X)] = φ(x)f (x)dx, se X v.a. contı́nua com função densidade f (.).
−∞
desde que os lados direitos das igualdades anteriores convirjam absolutamente.
Corolário 4.1.1 Seja X uma v.a.. Definem-se momentos de ordem k (em torno da origem)
da v.a. X por:
∞
X
k
(a) mk = E [X ] = xki P (X = xi ), se X v.a. discreta com f. probabilidade pi = P (X = xi ), ∀i.
i=1
Z +∞
(b) mk = E [X k ] = xk f (x)dx, se X v.a. contı́nua com função densidade f (.).
−∞
desde que os lados direitos das igualdades anteriores convirjam absolutamente.
Corolário 4.1.2 Seja X uma v.a., a e b constantes reais. Então:
X E (b) = b;
X E (aX + b) = aE (X) + b.
Exemplo 4.3 Relativamente ao exemplo 4.2, em que a v.a. X representa o peso que se perde em
duas semanas de regime, imagine que você tinha vontade de continuar por mais 2 semanas a referida
dieta. No entanto, a conselho médico, a nova dieta não deve ser tão rigorosa como a anterior, sendo
de prever que o que vai abater neste novo perı́odo de regime (traduzido numa nova v.a. Y ) seja apenas
X
metade do que tinha acontecido anteriormente (Y = 2 ). Quanto espera vir a emagrecer nestas outras
duas semanas?
Apetece logo responder 1.5Kg. Confirmemos:
Z +∞ Z 4 2 4
X x x 1 x
E [Y ] = E = f (x) dx = × dx = = 1.5 kg
2 −∞ 2 2 2 2 8 2
ou

X 1 1
E [Y ] = E = × E [X] = × 3 = 1.5 kg
2 2 2
2
Definição 4.2 Seja X uma v.a.. Definem-se momentos centrais de ordem k da v.a. X por:
µk = E [(X − µ)k ], desde que o lado direito da igualdade exista.
O caso k = 2 é especialmente importante:
Definição 4.3 Seja X uma v.a.. Chamamos a µ2 a variância dapv.a. X, e escreve-se σ 2 = V (X) =
E [(X − µ)2 ], desde que o lado direito da igualdade exista. A σ = V (X) chamamos desvio padrão
da v.a. X.
Proposição 4.1 Se X é uma v.a., para a qual existe variância, então
V (X) = E X 2 − E 2 (X)

Exemplo 4.4 Retomemos o exemplo 4.1 da v.a. X que representa o número de caras saı́das em 4
lançamentos de uma moeda equilibrada. Calculemos a variância e o desvio padrão de X, relembrando-
-nos que E [X] = 2:
4
X
2 2
V (X) = E [X ] − E [X] = x2 P (X = x) − 22 = 5 − 4 = 1 caras2
x=0
p
σ = V (X) = 1 caras.
Exemplo 4.5 Retomemos agora o exemplo 4.2 da v.a. X que representa o peso perdido em 2 semanas
de dieta. Calculemos a variância e o desvio padrão de X (E [X] = 3):
+∞ 4 3 4
1 x
Z Z
2 2 2 2 2
V (X) = E [X ] − E [X] = x f (x)dx − 3 = x × dx − 9 = − 9 ' 0.33 Kg2
−∞ 2 2 6 2
p
σ = V (X) ' 0.58 Kg.
2
Proposição 4.2 Seja X uma v.a., a e b constantes reais. Então:
X V (b) = 0;
X V (aX + b) = a2 V (X).
Teorema 4.2 (Desigualdade de Chebychev)

Se X é uma v.a. para a qual existe variância σ 2 e k > 0 é uma constante real positiva, então
1 1
P (|X − µ| ≥ kσ) ≤ ⇔ P (|X − µ| < kσ) ≥ 1 −
k2 k2
Observação: Este teorema permite-nos concluir que a probabilidade da v.a. X assumir valores no
intervalo [µ − 2σ, µ + 2σ] é superior a 1 − 1/4 = 0.75 (caso k = 2). Já se k = 3, podemos afirmar que
a probabilidade da v.a. X assumir valores no intervalo [µ − 3σ, µ + 3σ] é superior a 1 − 1/9 = 0.89.
Estas conclusões são independentes da forma da distribuição da v.a.!
4.2 Parâmetros descritivos das distribuições

Como já se referiu anteriormente muitas distribuições de probabilidade são descritas por modelos
matemáticos que dependem de alguns parâmetros que as identificam.
Considere-se, por exemplo, o caso de duas variáveis aleatórias X e Y contı́nuas, com funções
densidade probabilidade f (x) e g(y), respectivamente, desenhadas na figura abaixo.
0.5
d
0.4 0.3
f (x), g(y)
0.2
f (x) g(y)
0.1
0.0
−4 −2 0 2 4
x, y
As funções densidade apresentam ambas a mesma forma, podendo-se obter uma da outra por uma
simples translação por d. Teria pois interesse termos um coeficiente ou parâmetro que descrevesse a
posição de cada uma das funções, dito parâmetro de localização. Conhecida a forma da curva em
questão estes parâmetros identificam perfeitamente qual a distribuição a que se refere.
Os mais comuns parâmetros de localização de uma distribuição de probabilidade são:
X Média ou valor esperado da v.a. X, µ, definido anteriormente. Existe quase sempre.

X Mediana da v.a. X, designada por me , e definida como o valor que satisfaz as condições
P (X ≤ me ) ≥ 0.5 e P (X ≥ me ) ≥ 0.5. Existe sempre.
X Quantil de ordem p ou 100p percentil da v.a. X, designado por qp , e definido como o valor que
satisfaz as condições P (X ≤ qp ) ≥ p e P (X ≥ qp ) ≥ 1 − p. Existe sempre.
X Moda da v.a. X, designada por mo , e definida como o valor que maximiza a função de proba-
bilidade ou a função densidade probabilidade, dependendo do caso, desde que seja único. Nem
sempre existe.
Considere-se agora outro aspecto relacionado com a forma das distribuições, mais precisamente
com a sua dispersão em torno da média, patente na figura seguinte:
1.0
0.8 0.6
g(y)
f (x), g(y)
0.4 0.2
f (x)
0.0
−4 −2 0 2 4
x, y
Os parâmetros usados para capturar a forma como a distribuição se ”espalha”em torno da média
são chamados parâmetros de dispersão. Os mais usuais são:
X Variância (σ 2 ) e desvio padrão (σ), já anteriormente definidos. Existem quase sempre.
X Coeficiente de variação, definido quando existem a média µ - que tem de ser positiva - e o desvio
padrão σ, por c.v. = µσ × 100.
X Amplitude interquartis. Fixando o 1o quartil (= quantil 0.25) e o 3o quartil (= quantil 0.75)

esta amplitude é dada por q0.75 − q0.25 .
Ainda relacionado com a forma das distribuições definem-se parâmetros que dão uma indicação da
sua simetria e do seu achatamento. O primeiro designa-se por coeficiente de simetria e define-se
como:
µ3
β1 = ,
σ3
onde µ3 é o momento central de ordem 3 da v.a. e σ o seu desvio padrão. Quando este coeficiente é
nulo indica uma distribuição simétrica, como as que aparecem nos gráficos anteriores. Se β1 > 0 fala-se
de uma distribuição assimétrica positiva e se β1 < 0 temos uma distribuição assimétrica negativa.
Relativamente ao achatamento da distribuição, define-se coeficiente de achatamento ou kur-

tosis como:
µ4
β2 = − 3,
σ4
onde µ4 é o momento central de ordem 4 da v.a. e σ o seu desvio padrão. Conforme β2 for menor
ou maior falamos, respectivamente, de uma distribuição mais achatada (conforme a curva a verde da
distribuição do gráfico anterior) ou menos achatada (como a azul).

4.1 A v.a. X representa o número de vezes que o José, estranho personagem, vai ao café por dia.
Este número é determinado pelo seguinte procedimento:
X De manhã o José lança ao ar uma moeda equilibrada. Se sair cara ele vai ao café, caso
contrário não vai.
X À hora de almoço, se ele foi ao café de manhã, só volta a ir se não estiver a chover, o que
acontece com uma probabilidade de 0.2. Se não tiver ido de manhã, volta a lançar moeda
ao ar e, novamente, só vai ao café se sair cara.
(a) Determine a função de probabilidade da v.a. X.

(b) Qual a probabilidade de o José tomar 2 cafés por dia, sabendo que toma pelo menos 1 nesse
dia?
(c) Determine o número médio de cafés que o José toma por dia e a sua variância.
1
4.2 Determine o valor médio e a variância da v.a. discreta X com função de probabilidade: f (0) = 8
f (1) = 38 f (2) = 83 f (3) = 18 . Calcule ainda:

3 1
E [g(X)], com g(X) = X , E e E [X 2 ].
1+X
4.3 Seja X uma v.a. tal que P (X = 0) = 14 , P (X = 1) = 2p , P (X = 2) = 5

8 − p
2 e P (X = 3) = 18 ,
com 0 ≤ p ≤ 12 . Determine p de forma a que V (X) seja mı́nima.
4.4 Numa lotaria foram emitidos 10000 bilhetes. Sorteia-se 1 prémio de 25000 unidades monetárias
(u.m.) e 10 prémios de 2500 u.m.. Seja X a v.a. que representa o valor do prémio de um bilhete
qualquer.
(a) Determine a função de probabilidade de X.

(b) Qual a probabilidade de um bilhete não ter qualquer prémio?
(c) Qual a probabilidade de um bilhete ter pelo menos 2500 u.m.?
(d) Determine o E [X], V (X) e c.v.(X). Comente.
4.5 Uma comissão de alunos está a organizar uma festa da faculdade. Os alunos vão comprar 200
litros de cerveja. Um fornecedor deste lı́quido (A) cobra 1 unidade monetária (u.m.) por litro
permitindo a devolução da cerveja que sobrar (e que não tem de ser paga) e um outro fornecedor
(B) cobra 0.5 u.m. por litro, não admitindo devoluções. Os alunos, independentemente de
quanto lhes custe a cerveja, cobram 1.5 u.m. por litro.
Sabendo que, se estiver bom tempo - o que acontecerá com probabilidade 0.8 - os alunos con-
seguem vender os 200 litros de cerveja, mas se estiver mau tempo só vendem metade, a quem
devem comprar?
4.6 Seja X uma v.a. com a seguinte função distribuição:

0, x<0
F (x) =
1 − (x + 1)e−x , x ≥ 0
(a) Determine a função densidade probabilidade de X.

(b) Determine E [X] e V (X).
4.7 Determine E [X], E [X − 1], V (X), E [X(X − 1)], E [eX ], a mediana e o coeficiente de variação
da v.a. X que tem a seguinte função densidade probabilidade:
 x

 2, 0≤x≤1



1

2, 1<x≤2



f (x) =
3−x
2 , 2<x≤3








0, x<0∨x>3

4.8 A v.a. X tem a seguinte função densidade probabilidade:

k sin(x), 0 ≤ x ≤ π
f (x) =
0, c.c.
(a) Determine o valor da constante k.

(b) Determine E [X].
π2
(c) Sabendo que V (X) = 4 − 2, determine E [X 2 ].
(d) Determine E [cos(X)].
(e) Determine V(5X-4).
4.9 A distribuição com a seguinte função densidade é a chamada distribuição de Cauchy:
1
f (x) = , x∈R
π(1 + x2 )
Mostre que esta distribuição não tem valor médio.

4.10 Numa repartição pública o horário de atendimento é das 10h às 17h e o tempo de espera até ser
atendido (horas) é uma v.a. X com a seguinte função densidade probabilidade (f.d.p.):
−λx
λe , x≥0
f (x) =
0, x<0
O parâmetro λ da f.d.p. depende da hora a que se for à referida repartição, valendo λ = 41 no

perı́odo das 10h às 15h e λ = 16 no perı́odo das 15h às 17h. Sabendo que a probabilidade de
uma pessoa qualquer, que tem de ir à referida repartição, o fazer no 1o perı́odo (10h-15h) é de
0.4, determine:
(a) A probabilidade de uma pessoa que vai à repartição às 11h esperar no máximo 20 minutos.
(b) A probabilidade de uma pessoa que vai à repartição às 16h esperar pelo menos 20 minutos.
(c) O tempo de espera médio, mediano e modal e respectiva variância e coeficiente de variação,
no perı́odo das 10h às 15h.
(d) O tempo de espera médio, mediano e modal e respectiva variância e coeficiente de variação,
no perı́odo das 15h às 17h.
4.11 O tempo (horas) que o técnico Manel demora a compor um aparelho de vı́deo é uma variável
aleatória cuja função densidade é dada por:
1

f (x) = 3, 0<x<3
0, c.c.
(a) Qual a probabilidade de o técnico Manel demorar mais de 2 horas a compor um vı́deo?
(b) Quanto tempo demora, em média, o técnico a compor um aparelho de vı́deo?
(c) O custo da
√ reparação (e) depende do tempo que a mesma demora a executar, sendo igual
a (40 + 3 X). Qual o custo médio de compor um aparelho de vı́deo?
(a) Abaixo encontra-se a função distribuição da v.a. discreta X. Então o seu valor esperado
vale 6.3.


 0.0, x<5
 0.4, 5 ≤ x < 6


F (x) = 0.6, 6 ≤ x < 7
0.9, 7 ≤ x < 10




1.0, x ≥ 10

(b) Em determinado exame de Probabilidades e Estatı́stica verificou-se que a média das notas
foi de 9 valores mas que a sua mediana foi de 4 valores. Esta situação é impossı́vel.
(c) A distribuições de probabilidade assimétricas esquerdas correspondem valores de variância
negativos.
(d) Considere o gráfico seguinte referente a valores observados de duas variáveis aleatórias, X1
e X2 :
10
5
X2
0−10 −5
−10 −5 0 5 10
X1
Então podemos afirmar com base neste gráfico que X1 e X2 têm a mesma média mas que
a variância de X2 é maior do que a de X1 .
4.13 Num concurso de televisão o apresentador propõe ao concorrente o seguinte jogo: atiram-se ao
ar 3 moedas, em simultâneo, e se todos os lançamentos resultarem em caras o apresentador dá
10e ao concorrente; Se todos os lançamentos resultarem em coroas o apresentador dá igualmente
ao concorrente 10e. Mas se os lançamentos resultarem em 2 caras e 1 coroa ou em 2 coroas e 1
cara, o concorrente tem de dar ao apresentador 5e.
(a) Represente X a quantidade de dinheiro ganha pelo concorrente. Determine a sua função
de probabilidade.
(b) Baseado no valor esperado de X diga se o concorrente deve aceitar jogar este jogo.
4.14 Seja X uma variável aleatória com a seguinte função densidade probabilidade:
1

f (x) = 6, −2 ≤ x ≤ 4
0, caso contrário
(a) Determine P (−1 ≤ X ≤ 1|X > 0).

(b) Considere a variável aleatória Y = X 2 . Determine P (Y ≤ 1).
(c) Ainda considerando Y = X 2 , determine a média e a variância de Y .
Capı́tulo 5
Vectores aleatórios
Em muitas experiências aleatórias os resultados são traduzidos não apenas por uma única quantidade
numérica, mas por duas ou mais. Por exemplo, ao estudar a estatura fı́sica das pessoas de uma certa
população é usual registar-se um par de medidas (x, y) em que x representa a altura de uma pessoa e
y o respectivo peso.
Assim, para descrever convenientemente essas experiências temos de estudar vectores de variáveis
aleatórias, ditos vectores aleatórios.
Definição 5.1 Seja (Ω, S) um espaço amostral. Um vector aleatório de dimensão p, X = (X1 , . . . , Xp )
é uma função real e finita, X : Ω → Rp , definida como X(ω) = (X1 (ω), . . . , Xp (ω)), ω ∈ Ω, tal que
para x = (x1 , . . . , xp ) ∈ Rp ,
Ax = {ω ∈ Ω : (X1 (ω) ≤ x1 , X2 (ω) ≤ x2 , . . . , Xp (ω) ≤ xp )} ∈ S,
i.e., Ax é um acontecimento.
Teorema 5.1 Sejam X1 , X2 , . . . , Xp p variáveis aleatórias. Então X = (X1 , . . . , Xp ) é um vector

aleatório de dimensão p.
Aqui vamos restringir-nos apenas aos vectores aleatórios com dois elementos, ditos pares aleatórios,
representados por (X, Y ). Estes podem ser do tipo discreto, contı́nuo ou misto, conforme X e Y são
variáveis de tipo discreto, contı́nuo ou uma discreta e a outra contı́nua.
5.1 Par aleatório discreto

Definição 5.2 Um par aleatório (X, Y ) é dito ser discretose toma valores num conjunto nu-
merável de pares de pontos com probabilidade 1, i.e. se existe D = (xi , yj ) ∈ R2 : P (X = xi , Y = yj ) > 0,
i = 1, 2, . . . , j = 1, 2, . . .}, quanto muito numerável, tal que P ((X, Y ) ∈ D) = 1.
Definição 5.3 Seja (X, Y ) um par aleatório discreto tomando valores no conjunto D = (xi , yj ) ∈ R2 :

P (X = xi , Y = yj ) > 0, i = 1, 2, . . . , j = 1, 2, . . .}. Chamamos função de (massa) probabilidade

conjunta de (X, Y ) a:
51
pij = P (X = xi , Y = yj ), i = 1, 2, . . . , j = 1, 2, . . .
verificando as seguintes condições:
(i) 0 ≤ pij ≤ 1, ∀(xi , yj ) ∈ D;
+∞ X
X +∞
(ii) pij = 1
i=1 j=1
A representação da função de probabilidade conjunta do par aleatório discreto costuma-se fazer

da seguinte forma:
X\Y y1 y2 ... yj ...
P∞
x1 p11 p12 ... p1j ... p1· = j=1 p1j
P∞
x2 p21 p22 ... p2j ... p2· = j=1 p2j
.. .. .. .. .. .. ..
. . . . . . .
P∞
xi pi1 pi2 ... pij ... pi· = j=1 pij
.. .. .. .. .. .. ..
. . . . . . .
P∞ P∞ P∞
p·1 = i=1 pi1 p·2 = i=1 pi2 ... p·j = i=1 pij ... 1
Definição 5.4 Dado um par aleatório discreto (X, Y ) define-se função de probabilidade marginal
de X e função de probabilidade marginal de Y como:
∞
X ∞
X
pi· = P (X = xi ) = P (X = xi , Y = yj ) = pij , i = 1, 2, . . .
j=1 j=1
X∞ X∞
p·j = P (Y = yj ) = P (X = xi , Y = yj ) = pij , j = 1, 2, . . .
i=1 i=1
Estas duas funções são funções de probabilidade de variáveis aleatórias unidimensionais.
Exemplo 5.1 Seja (X, Y ) um par aleatório, representando X o número de batatas que nascem de
uma única semente de batata e Y o número de vezes que se adubou as respectivas batateiras, desde a
sua sementeira até à sua apanha. A função de probabilidade conjunta de (X, Y ) segue-se:
X \Y 1 2 3
2 0.13 0.03 0.04 P(X=2)=0.2
3 0.10 0.12 0.08 P(X=3)=0.3
4 0.07 0.13 0.10 P(X=4)=0.3
5 0.03 0.05 0.12 P(X=5)=0.2
P(Y=1)=0.33 P(Y=2)=0.33 P(Y=3)=0.34 1
Daqui se vê o seguinte:
X A probabilidade de terem nascido 5 batatas de uma batateira apenas adubada 1 vez é:
P (X = 5, Y = 1) = 0.03
X A probabilidade de nascerem menos batatas do que a quantidade de vezes que se adubou a cor-
respondente batateira é:
P (X < Y ) = P (X = 2, Y = 3) = 0.04
X A probabilidade de nascerem 5 batatas é:
P (X = 5) = P (X = 5, Y = 1)+P (X = 5, Y = 2)+P (X = 5, Y = 3) = 0.03+0.05+0.12 = 0.20
X A probabilidade de determinada batateira só ter sido adubada 2 vezes é:
P (Y = 2) = P (X = 2, Y = 2) + P (X = 3, Y = 2) + P (X = 4, Y = 2) + P (X = 5, Y = 2) =
= 0.03 + 0.12 + 0.13 + 0.05 = 0.33
X A função probabilidade marginal de X é:

2 3 4 5
X
0.2 0.3 0.3 0.2
X A função probabilidade marginal de Y é:

1 2 3
Y
0.33 0.33 0.34
Definição 5.5 Seja (X, Y ) um par aleatório discreto. Se P (Y = yj ) > 0, à função
P (X = xi , Y = yj )
P (X = xi |Y = yj ) = ,
P (Y = yj )
para j fixo, chama-se função de probabilidade condicionada de X dado Y = yj .

Definição 5.6 Seja (X, Y ) um par aleatório discreto. Se P (X = xi ) > 0, à função
P (X = xi , Y = yj )
P (Y = yj |X = xi ) = ,
P (X = xi )
para i fixo, chama-se função de probabilidade condicionada de Y dado X = xi .
Exemplo 5.2 Relativamente ao par aleatório (X, Y ) do exemplo 5.1, determinemos a função de
probabilidade condicionada de X dado que apenas se adubou uma vez, i.e. Y = 1:
P (X = 2, Y = 1) 0.13
P (X = 2|Y = 1) = = ' 0.394
P (Y = 1) 0.33
P (X = 3, Y = 1) 0.10
P (X = 3|Y = 1) = = ' 0.303
P (Y = 1) 0.33
P (X = 4, Y = 1) 0.07
P (X = 4|Y = 1) = = ' 0.212
P (Y = 1) 0.33
P (X = 5, Y = 1) 0.03
P (X = 5|Y = 1) = = ' 0.091
P (Y = 1) 0.33
Assim,

2 3 4 5
X|Y = 1
0.394 0.303 0.212 0.091
Determinemos agora a função de probabilidade de Y sabendo que apenas obtivemos 2 batatas,

i.e. X = 2.
P (X = 2, Y = 1) 0.13
P (Y = 1|X = 2) = = = 0.65
P (X = 2) 0.2
P (X = 2, Y = 2) 0.03
P (Y = 2|X = 2) = = ' 0.15
P (X = 2) 0.2
P (X = 2, Y = 3) 0.04
P (Y = 3|X = 2) = = ' 0.20
P (X = 2) 0.2
Então,

1 2 3
Y |X = 2
0.65 0.15 0.20
2
5.2 Par aleatório contı́nuo‡

Definição 5.7 Um par aleatório (X, Y ) diz-se contı́nuo se existe uma função não negativa fX,Y tal
que, ∀(x, y) ∈ R2 ,
Z x Z y
P (X ≤ x, Y ≤ y) = fX,Y (u, v)dudv.
−∞ −∞
À função fX,Y chamamos função densidade probabilidade conjunta ou apenas função densi-
dade conjunta.
Notas:
1. A função fX,Y satisfaz as seguintes condições:
(i) fX,Y (x, y) ≥ 0, ∀(x, y) ∈ R2 ;

R +∞ R +∞
(ii) −∞ −∞ fX,Y (x, y)dxdy = 1.
2. Dado um qualquer intervalo I ⊂ R2 ,

Z Z
P ((X, Y ) ∈ I) = fX,Y (x, y)dxdy
I
Como fX,Y é uma função não negativa então esta probabilidade corresponde ao volume do espaço
delimitado pela fX,Y e pelo intervalo I.
Definição 5.8 Dado um par aleatório contı́nuo (X, Y ) define-se função densidade de probabil-
idade marginal de X e a função densidade de probabilidade marginal de Y , designando-se
respectivamente por fX e fY , como:
Z +∞
fX (x) = f(X,Y ) (x, y) dy, ∀x ∈ R
−∞
Z+∞
fY (y) = f(X,Y ) (x, y) dx, ∀y ∈ R
−∞
Estas duas funções são funções densidade de probabilidade de variáveis aleatórias uni-dimensionais.
Exemplo 5.3 Os tempos de vida, em centenas de horas, das duas componentes principais de um
sistema de controlo são v.a.’s (X, Y ) com função densidade conjunta
2
cx y 0 < x < 3, 0 < y < 2
fX,Y (x, y) =
0 outros valores de (x, y) ∈ R2
a) Qual o valor de c?
fX,Y (x, y) ≥ 0, ∀ (x, y) ∈ R2 ⇒ c ≥ 0

Z +∞ Z +∞ Z 3Z 2
fX,Y (x, y) dxdy = 1 ⇔ cx2 y dxdy = 1 ⇔ c = 1/18
−∞ −∞ 0 0
b) Qual a probabilidade de cada uma das componentes durar mais de 100 horas?
3Z 2
1 2 13
Z
P (X > 1, Y > 1) = x y dxdy =
1 1 18 18
c) Qual a probabilidade da 1a componente durar mais de 100 horas?

Z 3
P (X > 1) = fX dx =?
1
+∞ 2
1 2 x2
Z Z
fX (x) = f(X,Y ) (x, y) dy = x y dy = , 0<x<3
−∞ 0 18 9
3 2
x 26
Z
P (X > 1) = dx =
1 9 27
Proposição 5.1 Seja fX,Y a função densidade conjunta de um par aleatório contı́nuo (X, Y ) e seja
fY a função densidade marginal de Y . Em todos os pontos (x, y) onde fX,Y é contı́nua e fY (y) > 0 e
é contı́nua, a função densidade condicionada de X, dado que Y = y, existe e calcula-se como:
fX,Y (x, y)
fX|Y (x|y) = .
fY (y)
Proposição 5.2 Seja fX,Y a função densidade conjunta de um par aleatório contı́nuo (X, Y ) e seja
fX a função densidade marginal de X. Em todos os pontos (x, y) onde fX,Y é contı́nua e fX (x) > 0
e é contı́nua, a função densidade condicionada de Y , dado que X = x, existe e calcula-se como:
fX,Y (x, y)
fY |X (y|x) = .
fX (x)
5.3 Independência entre variáveis aleatórias

A distribuição conjunta de um vector aleatório determina de forma única as distribuições marginais
de cada uma das suas componentes mas o contrário, em geral, não é verdade. Aprendemos nesta secção
uma classe especial de variáveis para as quais isto acontece.
Definição 5.9 Seja (X, Y ) um par aleatório discreto. As variáveis X e Y dizem-se independentes
se e só se
P (X = xi , Y = yj ) = P (X = xi ) P (Y = yj ) , ∀ (xi , yj ) ∈ D
ou numa notação simplificada,
pij = pi· p·j , i, j = 1, 2 . . .

Definição 5.10 ‡ Seja (X, Y ) um par aleatório contı́nuo. As variáveis X e Y dizem-se indepen-
dentes se e só se
fX,Y (x, y) = fX (x) fY (y) , ∀ (x, y) ∈ R2
Exemplo 5.4 Retomemos o exemplo 5.1, relativamente ao número de batatas por batateira e a quan-
tidade de vezes que esta foi adubada. Como temos, por exemplo, que:
P (X = 2, Y = 1) = 0.13
P (X = 2) = 0.2
P (Y = 1) = 0.33
P (X = 2) × P (Y = 1) = 0.2 × 0.33 = 0.066 6= 0.13 = P (X = 2, Y = 1),
então as variáveis X e Y não são independentes - o número de batatas por batateira depende da
quantidade de adubação. 2
Exemplo 5.5 ‡ Continuemos o exemplo 5.3:

d) Os tempos de vida das componentes são independentes?
+∞ 2
1 2 x2
Z Z
fX (x) = fX,Y (x, y) dy = x y dx = , 0<x<3
−∞ 0 18 9
+∞ 3
1 2 y
Z Z
fY (y) = fX,Y (x, y) dx = x y dx = , 0 < y < 2
−∞ 0 18 2
x2 /9 0 < x < 3

y/2 0 < y < 2
fX (x) = fY (y) =
0 c.c. 0 c.c.
1 2

fX,Y (x, y) = 18 x y 0 < x < 3, 0 < y < 2
= fX (x) fY (y)
0 c.c
Logo as variáveis são independentes.

e) Com a informação da alı́nea anterior, a alı́nea b) no exercı́cio 5.3 poder-se-ia determinar de
outra forma:
26 3 13
P (X > 1, Y > 1) = P (X > 1) P (Y > 1) = × = ,
27 4 18
pois :
3 3
x2 26
Z Z
P (X > 1) = fX (x) dx = dx =
1 1 9 27
2 2
y 3
Z Z
P (Y > 1) = fY (y) dy = dy =
1 1 2 4
2
5.4 Momentos de vectores aleatórios

Definição 5.11 Seja (X, Y ) um par aleatório e g : R2 → R uma função quase-contı́nua. Define-se
valor médio ou valor esperado ou média de g(X, Y ) como:
∞ X
X ∞
(a) E [g(X, Y )] = g(xi , yj )P (X = xi , Y = yj ) 1 , se (X, Y ) for vector aleatório discreto com
i=1 j=1
f. probabilidade conjunta pij = P (X = xi , Y = yj ), ∀i, j.
Z +∞ Z +∞
(b) E [g(X, Y )] = g(x, y)fX,Y (x, y)dxdy 2 , se (X, Y ) vector aleatório contı́nuo com função
−∞ −∞
densidade conjunta fX,Y (., .).
Nota: Em particular estaremos mais interessados no caso g(x, y) = xy, obtendo:

P∞ P∞
X E [XY ] = i=1 j=1 xi yj P (X = xi , Y = y j )
R +∞ R +∞
X E [XY ] = −∞ −∞ xyfX,Y (x, y)dxdy
Definição 5.12 Seja (X, Y ) um par aleatório. Sendo µX = E [X] e µY = E [Y ], define-se co-
variância entre X e Y por:
cov (X, Y ) = E [(X − µX ) (Y − µY )] ,
desde que o lado direito da igualdade exista.
Proposição 5.3 Seja (X, Y ) um par aleatório. Então, caso exista a covariância entre X e Y , esta
pode ser calculada através da fórmula:
cov (X, Y ) = E (XY ) − E (X) E (Y )
A covariância dá uma indicação sobre a forma como as variáveis são relacionadas. Em geral, um
valor positivo de covariância entre X e Y é uma indicação que Y tende a crescer linearmente quando
X cresce e um valor negativo indica que Y tende a decrescer linearmente quando X cresce.
Teorema 5.2 Sejam X e Y variáveis aleatórias independentes tais que os seus valores médios, E [X]
e E [Y ], respectivamente, existem. Então,
E [XY ] = E [X]E [Y ]
Note-se que o teorema anterior é facilmente generalizável a mais de duas variáveis aleatórias.
1
Caso esta série seja absolutamente convergente, ficando doravante esta nota subjacente a todas as definições deste
tipo.
2
Caso este integral seja absolutamente convergente, ficando doravante esta nota subjacente a todas as definições deste
tipo.
Corolário 5.2.1 Se X e Y são variáveis aleatórias independentes, então cov(X, Y ) = 0.
Note-se que o resultado anterior trata-se de uma implicação e não equivalência. Assim, pode haver
variáveis cuja covariância seja nula e elas ainda assim não sejam independentes.
Teorema 5.3 Sejam X e Y variáveis aleatórias tais que existam as suas variâncias, V (X) e V (Y ),
respectivamente. Então,
V (X ± Y ) = V (X) + V (Y ) ± 2cov(X, Y )
Também este teorema é facilmente generalizável a mais de duas variáveis aleatórias.
Corolário 5.3.1 Se X e Y são variáveis aleatórias independentes, então V (X ± Y ) = V (X) + V (Y ).
Exemplo 5.6 Retome-se o exemplo 5.1, da quantidade de batatas obtidas para diferentes esquemas
de adubação. Já vimos que estas variáveis não são independentes, pelo que a sua covariância pode
não ser nula. Vamos calculá-la:
5 X
X 3
E [XY ] = xyP (X = x, Y = y) = 2 × 1 × 0.13 + 2 × 2 × 0.03 + 2 × 3 × 0.04+
x=2 y=1
+ 3 × 1 × 0.10 + . . . = 7.33
5
X
E [X] = xP (X = x) = 2 × 0.2 + 3 × 0.3 + 4 × 0.3 + 5 × 0.2 = 3.5
x=2
X3
E [Y ] = yP (X = y) = 1 × 0.33 + 2 × 0.33 + 3 × 0.34 = 2.01
y=1
cov(X, Y ) = E [XY ] − E [X]E [Y ] = 7.33 − 3.5 × 2.01 = 0.295
Proposição 5.4 Sejam X, Y , W e Z variáveis aleatórias, a, b, c e d constantes reais. Então:
X cov(X, Y ) = cov(Y, X);
X cov(X, X) = V (X);
X cov (a + bX, c + dY ) = bd cov (X, Y );
X cov (aX + bY, cZ + dW ) = ac cov (X, Z) + ad cov (X, W ) + bc cov (Y, Z) + bd cov (Y, W ).
Já dissemos que a covariância entre duas variáveis aleatórias X e Y dá uma indicação da existência
de alguma relação linear entre elas. A força desta relação é medida através de uma quantidade chamada
coeficiente de correlação.
Definição 5.13 Seja (X, Y ) um par aleatório. Define-se coeficiente de correlação entre (X, Y )
como
cov (X, Y )
ρ (X, Y ) = p
V (X) V (Y )
Proposição 5.5 Seja (X, Y ) um par aleatório. Então:
X −1 ≤ ρ (X, Y ) ≤ 1;
X |ρ (X, Y )| = 1 se e só se P (Y = a + bX) = 1, sendo a e b constantes reais;
X Se X e Y são v.a.’s independentes ρ (X, Y ) = 0.
Exemplo 5.7 Relativamente ao exemplo 5.1, calculemos o coeficiente de correlação entre o número
de batatas por batateira (X) e o número de adubagens (Y ).
cov(X, Y ) = 0.295
E [X] = 3.5
E [Y ] = 2.01
5
X
V (X) = E [X 2 ] − E 2 [X] = x2 P (X = x) − 3.52 =
x=2
= 2 × 0.2 + 3 × 0.3 + 4 × 0.3 + 52 × 0.2 − 12.25 = 13.3 − 12.25 = 1.05
2 2 2
3
X
2 2
V (Y ) = E [Y ] − E [Y ] = y 2 P (Y = y) − 2.012 =
y=1
2 2 2
= 1 × 0.33 + 2 × 0.33 + 3 × 0.34 − 4.0401 = 4.71 − 4.0401 = 0.6699
Então:
cov(X, Y ) 0.295
ρ(X, Y ) = p =√ ' 0.35
V (X)V (Y ) 1.05 × 0.6699
Assim concluı́mos que a relação entre X e Y é fraca.

5.1 Considere o vector aleatório (X, Y ) com a seguinte função de probabilidade conjunta:
X \Y 2 4 6
1 3 4
1 8 8 0 8
1 1 3
2 8 0 4 8
1 1 1
3 16 16 0 8
5 7 1
16 16 4 1
(a) Determine as funções de probabilidade marginais de X e de Y .

(b) As variáveis X e Y são independentes?
(c) Calcule P (X + Y ≤ 5) e P (Y − X ≥ 3).
(d) Calcule E [X], E [Y ], V (X), V (Y ), cov(X, Y ) e V (X + Y ).
5.2 Numa empresa de aluguer de aviões informam-nos de que a procura diária de aviões de pas-
sageiros, X, e a procura diária de aviões de transporte rápido de correio, Y , constituiem um par
aleatório (X, Y ), cuja função de probabilidade conjunta é dada por:
X\Y 0 1 2
0 0 0.25
1 0.05 0.35
2 0.1 0.1 p + 0.2
3 0 0.1 p
0.2 0.5
(a) Qual a probabilidade de, num dia, a procura de aviões de passageiros ser inferior à procura
de aviões de transporte rápido de correio?
(b) Deduza a função de probabilidade da procura total de aviões de aluguer.
5.3 O João costuma jogar, todas as semanas, 3 partidas de ténis e 1 partida de xadrez, contra a sua
namorada. Verifica-se que o João ganha a partida de xadrez com probabilidade 0.4. Quanto aos
jogos de ténis, ganha 40% das vezes as 3 partidas, 30% das vezes 2 partidas e 10% das vezes 1
partida.
Considere que os resultados do ténis são independentes dos resultados do xadrez.
Represente X o número de vezes que o João ganha, por semana, a partida de xadrez e Y o
número de vezes que ganha ao ténis.
(a) Determine a função de probabilidade conjunta do vector aleatório (X, Y ) e as funções de

probabilidade marginais de X e de Y .
(b) Determine o número médio de vitórias do João no xadrez e no ténis, por semana, e os
respectivos desvios padrão.
(c) Determine cov(X, Y ).
5.4 Um supermercado tem para venda leite de uma determinada marca, disponı́vel em embalagens de
1 litro e de 1/2 litro. Relativamente ao número de embalagens desta marca vendidas diariamente,
considere as v.a.’s X-no de embalagens de 1 litro e Y -no de embalagens de 1/2 litro. Acerca
destas v.a.’s sabe-se que:
X O domı́nio de X é {0, 1, 2, 3} e Y pode assumir valores 0 ou 1.

X Os valores de Y são igualmente prováveis.
X 20% dos dias não se vendem embalagens de 1 litro e P (X = 1) = P (X = 2).
X Todos os dias se vendem embalagens desta marca de leite.
X P (X = 2; Y = 0) = P (X = 2; Y = 1) = 0.15
X Os dias em que se vendem 3 embalagens de 1 litro e nenhuma de 1/2 litro, ocorrem com
probabilidade 0.15.
(a) Deduza a função de probabilidade conjunta do par aleatório (X, Y ).

(b) Determine a probabilidade de num dia se venderem mais embalagens de 1 litro do que de
1/2 litro.
(c) Num dia em que se registou a venda de 1/2 litro de leite, qual a probabilidade de se ter
vendido mais de que 1 embalagem de 1 litro.
(d) Estude a independência das variáveis aleatórias X e Y .
5.5 Tendo o par aleatório (X, Y ) a seguinte função de probabilidade conjunta:
X\Y −a (a − 6) a 2a
k k
0 2 2 k 0 2k
k k
2 0 2 k 2 2k
k k
2 k 2k 2 1
(a) Determine o valor de k.

(b) Determine o valor de a sabendo que E [Y ] = 2E [X].
(c) Calcule cov(X, Y ).
5.6 Numa fábrica produzem-se ratos de computador, que podem sofrer de dois tipos diferentes de
defeitos - digamos A e B. Para cada rato produzido definem-se duas variáveis aleatórias, X e Y ,
representando, respectivamente, o número de defeitos do tipo A e do tipo B a si associados:

0, rato sem defeito do tipo A 0, rato sem defeito do tipo B
X= Y =
1, rato com defeito do tipo A 1, rato com defeito do tipo B
Sabendo que P (Y = 0) = 0.80, P (X = 1|Y = 1) = 0.7 e P (X = 1|Y = 0) = 0.1:
(a) Determine a função de probabilidade conjunta do par aleatório (X, Y ).

(b) Justifique se para cada rato o número de defeitos do tipo A é independente do número de
defeitos do tipo B.
(c) Calcule a P (X < Y ).
(d) Qual a probabilidade de o número total de defeitos num qualquer rato da produção ser
inferior a 2?
5.7 Considere as famı́lias de determinado paı́s com três filhos. Neste universo representem X e
Y , respectivamente, o número de filhos daltónicos e o número de filhos canhotos, por famı́lia.
Admita que o par aleatório (X, Y ) tem a seguinte função de probabilidade conjunta:
X\Y 0 1
0 0.50
1 0.25
2 0.05 0.05 0.1
0.8 0.2
(a) Sabendo que cov(X, Y ) = 0.09 complete o quadro das probabilidades conjuntas acima.
(b) Qual a proporção de famı́lias que não têm nenhum filho simultaneamente daltónico e can-
hoto? Qual a proporção de famı́lias sem filhos daltónicos? E sem filhos canhotos? O que
é que estes resultados lhe podem dizer quanto à independência entre o número de filhos
daltónicos e o número de filhos canhotos?
(c) Determine ρ(X, Y ). Comente.
5.8 Suponhamos que M1 e M2 são duas máquinas que funcionam independentemente e sejam X e Y
variáveis aleatórias que representam, respectivamente, no diário de avarias de M1 e o no diário
de avarias de M2 . Sabendo que:
X A máquina M1 nunca avaria mais do que uma vez por dia e, que a máquina M2 avaria, no
máximo, duas vezes por dia;
X A probabilidade de M1 não avariar é de 0.7;
X A probabilidade de M2 não avariar é 0.5 e a de avariar duas vezes é 0.3,
Construa a tabela da função de probabilidade conjunta e marginais associada ao par aleatório

(X, Y ).
5.9 Sejam X e Y duas v.a.’s tais que V (X) = σ 2 e V (Y ) = 2σ 2 . Considere novas v.a.’s T = 2X + Y
e W = X − Y . Sabendo que V (W ) = σ 2 , calcule:
(a) O coeficiente de correlação entre X e Y .

(b) V (T ).
(c) cov(W, T ).
5.10 Seja (X, Y ) um par aleatório para o qual V (X) = V (Y ) = σ 2 e coeficiente de correlação ρ. Sejam
as novas v.a.’s U = X + Y e W = X − Y . Mostre que V (W ) = 2σ 2 (1 − ρ) e cov(U, W ) = 0.
5.11 ‡ Seja (X, Y ) um vector aleatório com a seguinte função densidade probabilidade conjunta:

k(x + 2y), 0 < x < 1, 0 < y < 1
f (x, y) =
0, c.c.
(a) Determine k.
(b) Determine as funções densidade marginais de X e Y .
(c) As variáveis X e Y são independentes?
(d) Calcule P ( 51 < X < 25 ).
(e) Calcule P (X < Y ).
(f) Calcule P ( 51 < X < 25 |Y > 21 ),
5.12 ‡ Seja (X, Y ) um vector aleatório com a seguinte função densidade probabilidade conjunta:

k, x > 0, y < 0, y > x − 2
f (x, y) =
0, restantes valores de (x,y)
(a) Determine k.
(a) Sejam X e Y duas variáveis aleatórias. Se cov(X, Y ) = 0 então X e Y são variáveis

independentes.
(b) A covariância entre duas variáveis aleatórias é uma quantidade sempre positiva ou nula.
(a) Seja X uma v.a. tal que E[X] = µ e V (X) = σ 2 . Então cov(X, X) = 0.
(b) Sejam X1 e X2 duas variáveis aleatórias independentes e identicamente distribuı́das, com
valor médio µ e variância σ 2 . À custa desta variáveis definam-se as seguintes outras duas
variáveis aleatórias: Y1 = X1 + X2 e Y2 = 2X1 . Então a cov(Y1 , Y2 ) = 0.
(c) O Francisco e o João costumam encontrar-se todas as semanas. O João chega atrasado a
esses encontros com probabilidade 0.5 e o Francisco chega atrasado com probabilidade 0.2
- assuma independência entre encontros e também entre os atrasos dos dois amigos.
Seja X (respectivamente Y ) a variável aleatória que conta, em 2 semanas quaisquer, quantas
vezes se atrasa o Francisco (respectivamente o João). Então a função de probabilidade da
variável aleatória que conta o número de vezes que o Francisco se atrasa, nessas duas
semanas, sabendo que o número de atrasos do João é 2, é dada por:

 0.64, x = 0
P (X = x|Y = 2) = 0.32, x = 1
0.04, x = 2

(d) A covariância entre duas variáveis aleatórias tem sempre de ser maior do que o correspon-
dente coeficiente de correlação entre as variáveis.
5.15 Nas urgências do hospital de S. Sebastião gasta-se, por cada 1 hora, X sacos de algodão e Y
seringas. No quadro abaixo representa-se a função de probabilidade conjunta deste par aleatório
(X, Y ), que se encontra incompleto:
X\Y 0 1 2
0 1/12 1/12
1 0
1
(a) Complete a função de probabilidade conjunta sabendo que a probabilidade de se gastar 1

seringa é o dobro da probabilidade de se gastarem 2 seringas e que a probabilidade de se
gastarem 0 seringas é o triplo da probabilidade de se gastarem 2 seringas.
(b) Calcule a probabilidade de o número de sacos de algodão gastos numa hora ser superior ao
número de seringas gastas nessa hora.
(c) Determine a função de probabilidade do número de sacos de algodão gastos numa hora, X,
e a sua correspondente função distribuição.
(d) Determine o número médio de sacos de algodão gastos numa hora e o número médio de
seringas gastas nesse mesmo perı́odo.
(e) Determine a covariância entre as variáveis X e Y . Comente este resultado, referindo se o
pode usar para decidir quanto à independência entre as variáveis. Justifique.
5.16 O Sr. Zé e a Sra Maria trabalham na mesma loja. Todas as manhãs pode acontecer que cada um
deles tenha de se ausentar do seu posto de trabalho. Assim, representando a variável aleatória
X o número de vezes que isso acontece ao Sr. Zé, por manhã, e a variável aleatória Y o número
de vezes que tal sucede à Sra Maria, por manhã, conhecemos a função de probabilidade conjunta
destas duas variáveis:
X\Y 0 1 2
0 0.125 0.05 0.075 0.25
1 0.25 0.1 0.15 0.5
2 0.125 0.05 0.075 0.25
0.5 0.2 0.3 1
(a) Deduza a função distribuição do número de vezes X que o Sr. Zé se ausenta do seu posto
de trabalho por manhã.
(b) Determine a probabilidade de, numa determinada manhã, o Sr. Zé se ausentar do seu posto
de trabalho no máximo uma vez.
(c) Determine a probabilidade de, numa manhã de trabalho, o Sr. Zé se ausentar do seu posto
de trabalho no máximo uma vez, sabendo que nessa mesma manhã a Sra Maria ausentou-se
uma única vez. Explique em que sentido é que o resultado obtido lhe permite começar a
tecer considerações sobre a independência das variáveis X e Y .
(d) Determine E [X +2], V(X +2) e V(X +Y ), justificando convenientemente os passos dados.
5.17 Por dia, o número de pacientes com queixas de tensão baixa atendidos em determinado serviço
de urgências hospitalares é uma variável aleatória X com a seguinte função de probabilidade:

1 2 3 4
X
0.4 0.3 0.2 0.1
Sabe-se ainda que o número de pacientes com desmaios, Y , atendidos neste mesmo serviço, por
dia, é sempre dado pelo número de pacientes com queixas de tensão baixa, X, mais 5 pacientes
(com outras queixas): Y = X + 5.
(a) Qual a probabilidade de, num qualquer dia, aparecerem neste serviço de urgências 2 pa-
cientes com queixas de tensão baixa e 7 pacientes com desmaios? E qual a probabilidade
de, num qualquer dia, aparecerem neste serviço de urgências 2 pacientes com queixas de
tensão baixa e 8 pacientes com desmaios?
(b) Determine a função de probabilidade conjunta do par aleatório (X, Y ).

Sugestão: Comece por enumerar quais os valores que a variável Y pode tomar.
(c) Encontre o coeficiente de correlação entre X e Y . Comente o seu valor.
(d) Qual o número médio de pacientes com queixas de tensão baixa neste serviço, por dia? E
qual o seu coeficiente de variação?
5.18 Uma certa máquina de fax está avariada. Assim é frequente enviarem-se faxes que nunca chegam
ao seu destino. Seja X o número de vezes que um fax é enviado e Y o número de vezes que esse
fax é recebido. (X, Y ) é um par aleatório que tem a seguinte função de probabilidade conjunta:
X \Y 0 1 2
1 0.4 0.2 0 0.6
2 0.2 0.15 0.05 0.4
0.6 0.35 0.05 1
(a) Calcule P (Y < X). Comente.

(b) Qual o número médio de faxes enviados e qual o número médio de faxes recebido? Comente.
(c) Sabendo que V (Y ) = 0.3475, calcule o coeficiente de correlação entre X e Y . Comente.
(d) Calcule a probabilidade de receber 2 faxes sabendo que foram enviados 2 faxes.
(e) O que pode dizer quanto à independência entre as variáveis X e Y . Justifique.
5.19 Considere o par aleatório (X, Y ) em que X e Y representam o número de golos marcados pelo
Benfica e pelo Sporting, respectivamente, no clássico derby Benfica-Sporting. Sabe-se que:
• X, Y ∈ {0, 1, 2}.
• A probabilidade do jogo terminar empatado é de 1/3 sendo que as diferentes possibilidades
de empate têm igual probabilidade de ocorrer.
• A vitória de qualquer equipa só pode eocorrer pela diferença de um golo.
• A probabilidade de vitória do Benfica é o dobro da do Sporting, sendo que P (X = 1, Y =
0) = P (X = 2, Y = 1) e P (X = 0, Y = 1) = P (X = 1, Y = 2).
(a) Determine as funções de probabilidade conjunta e marginais.

(c) Qual a probabilidade de vitória do Benfica?
(d) Qual a probabilidade de no total serem marcados três golos?
(e) Calcule cov(X, Y ).
5.20 Seja X a variável aleatória que indica o número de vezes que a electricidade de uma moradia é
“cortada” por falta de pagamento, num ano, e a variável aleatória Y indica o número de vezes
que a água é “cortada” pela mesma razão. Sabe-se que a função de probabilidade conjunta do
par aleatório (X, Y ) é a seguinte
X\Y 0 1 2
0 c1 c2 0.1
1 0.1 0.1 c3
2 0.1 0.0 0.1
(a) Complete a tabela e determine as funções de probabilidade marginais de X e Y sabendo

que E(XY ) = 0.5 e E(Y 2 ) = 1.1.
Se não resolveu a alı́nea a) considere c1 = 0.2, c2 = 0.1 e c3 = 0.2.

(b) Qual a probabilidade da electricidade ser “cortada” num ano em que não houve cortes de
água?
(c) Determine o coeficiente de correlação entre as variáveis X e Y . Comente o valor obtido.
(d) Determine a função de probabilidade do total de cortes num ano.
Capı́tulo 6
Distribuições especiais
Este capı́tulo trata de algumas distribuições de probabilidade que são mais frequentemente usadas
em aplicações práticas, bem como algumas das suas propriedades. Começa por se introduzir primeiro
algumas distribuições discretas seguindo-se com outras do tipo contı́nuo.
6.1 Algumas distribuições discretas
6.1.1 Distribuição Uniforme Discreta

Suponhamos que determinada variável aleatória X pode tomar qualquer valor inteiro de 1 a n,
com igual probabilidade, n1 .
Definição 6.1 Dizemos que a variável aleatória X segue uma distribuição Uniforme Discreta
de parâmetro n e escrevemos X ∼ U nif orme(n) ou, abreviadamente, X ∼ U nif (n), se a função de
probabilidade de X é dada por:

 1 2 ... n
1
X ou P (X = x) = , x = 1, . . . , n.
1 1 1 n
...

n n n
Proposição 6.1 Seja a v.a. X ∼ U nif orme(n). Então:

n+1
X E [X] = 2 ;
2
X V (X) = n 12−1 ;


 0, x<1



 k

X F (x) = n, k ≤ x < k + 1 .

 k = 1, . . . , n − 1




1, x≥n

68
Demonstração:
n n n
X X 1 1X 1 n(n + 1) n+1
E [X] = x P (X = x) = x × = x= =
x=1 x=1
n n x=1 n 2 2
( n ) 2 n
1 (n + 1)2

2 2
X
2 n+1 X
V (X) = E [X ] − E [X] = x P (X = x) − = x2 × − =
2 n 4
x=1 x=1
n
1 X 2 (n + 1)2 1 2n3 + 3n2 + n (n + 1)2 n2 − 1
= x − = · − =
n x=1 4 n 6 4 12
F (x) → Fica como exercı́cio.
Exemplo 6.1 Considere-se a experiência aleatória de lançar um dado de 6 faces equilibrado, e seja X
a v.a. que conta o número de pintas que resultam. Então X ∼ U nif (6), P (X = x) = 61 , x = 1, . . . , 6,
o número esperado de pintas é E [X] = 6+1
2 = 3.5 e a probabilidade de sair 6 pintas é de P (X = 6) = 6 .
1
6.1.2 Distribuição de Bernoulli

Qualquer experiência aleatória pode resultar num determinado acontecimento A ∈ S ou no seu
complementar, Ā ∈ S. Assim, associada a qualquer experiência aleatória é sempre possı́vel definir
uma variável aleatória (v.a.) X que toma o valor 1 se ocorre A e 0 se A não ocorre, traduzindo a
referida dicotomia dos resultados. Chamando p = P (A) > 0 então a função de probabilidade de X
é dada por:

0 1
X , 0<p<1 (6.1.1)
1−p p
Definição 6.2 Dizemos que a variável aleatória X segue uma distribuição de Bernoulli de parâmetro
p e escrevemos X ∼ Bernoulli(p) ou, abreviadamente, X ∼ Ber(p), se a função de probabilidade de
X é dada por (6.1.1).
A p é usual designar-se por probabilidade de sucesso (correspondendo ao sucesso acontecer A).

O acontecimento complementar de A é designado como um insucesso.
Proposição 6.2 Seja a v.a. X ∼ Bernoulli(p). Então:
X E [X] = p;
X V (X) = p(1 − p);


 0 x<0
X F (x) = 1−p 0≤x<1 .
1 x≥1

Demonstração:
E [X] = 0 × (1 − p) + 1 × p = p
V (X) = E [X 2 ] − E 2 [X] = 02 × (1 − p) + 12 × p − p2 = p − p2 = p(1 − p)

Exemplo 6.2 Considere-se a experiência aleatória de lançar ao ar uma moeda equilibrada, e seja X
a v.a. que indica se sai cara, i.e. que vale 1 se sai cara e 0 caso contrário. Então X ∼ Ber 21 .
2
6.1.3 Distribuição Binomial

Suponhamos que associado a certa experiência aleatória pode ocorrer o acontecimento A ∈ S,
com probabilidade p = P (A) > 0, ou não ocorrer A ∈ S, com probabilidade 1 − p = P (Ā) > 0 -
dicotomia. Designo a ocorrência de A como um sucesso e o seu complementar como um insucesso.
Se eu repetir a experiência um número n de vezes, fixo, independentemente entre repetições, posso
definir uma variável aleatória X que conta o número de vezes que A ocorre nas n provas independentes.
A sua função de probabilidade é dada por:
P (X = x) = Cxn px (1 − p)n−x , x = 0, 1, . . . , n 0<p<1 (6.1.2)
Definição 6.3 Dizemos que a variável aleatória X segue uma distribuição Binomial de parâmetros
n e p, e escrevemos X ∼ Binomial(n, p) ou, abreviadamente, X ∼ Bin(n, p), se a função de proba-
bilidade de X é dada por (6.1.2).
Notemos que a distribuição Binomial pode ainda ser encarada como a distribuição da soma de n
variáveis aleatórias independentes e identicamente distribuı́das Bernoulli(p). Notemos também que
no caso particular de n = 1, a distribuição Binomial(1,p) coincide com a distribuição Bernoulli(p).
Proposição 6.3 Seja a v.a. X ∼ Binomial(n, p). Então:
X E [X] = np;
X V (X) = np(1 − p);

Pbxc
X F (x) = k=0 Ckn pk (1 − p)n−k .
Demonstração:
n n n
X X X n!
E [X] = x P (X = x) = x Cxn px (1 − p)n−x = x px (1 − p)n−x =
x=0 x=0 x=1
x!(n − x)!
n n−1
X n! Xn!
= px (1 − p)n−x = px+1 (1 − p)n−x−1 =
x=1
(x − 1)!(n − x)! x=0
x!(n − x − 1)!
n−1 n−1
X n(n − 1)! X (n − 1)!
= px p(1 − p)n−x−1 = np px (1 − p)n−x−1 =
x!(n − x − 1)! x!(n − x − 1)!
x=0 x=0
n−1
X
= np Cxn−1 px (1 − p)n−1−x = (Binómio de Newton (a + b)n−1 , com a = p, b = (1 − p)
x=0
= np (p + (1 − p))n−1 = np
V (X) = E [X 2 ] − E 2 [X] =
n
X n
X
2 2
E [X ] = x P (X = x) = x2 Cxn px (1 − p)n−x =
x=0 x=0
n n−1
X n! X n!
= x px (1 − p)n−x = (x + 1) px+1 (1 − p)n−x−1 =
(x − 1)!(n − x)! x!(n − x − 1)!
x=1 x=0
n−1 n−1
X n! X n!
= x px+1 (1 − p)n−x−1 + px+1 (1 − p)n−x−1 =
x=0
x!(n − x − 1)! x=0
x!(n − x − 1)!
n−1 n−1
X n! X (n − 1)!
= px+1 (1 − p)n−x−1 + np px (1 − p)n−x−1 =
(x − 1)!(n − x − 1)! x!(n − 1 − x)!
x=1 x=0
n−2
X n!
= px+2 (1 − p)n−x−2 + np(p + (1 − p))n−1 =
x!(n − x − 2)!
x=0
n−2
2
X (n − 2)!
= n(n − 1)p px (1 − p)n−x−2 + np =
x!(n − 2 − x)!
x=0
= n(n − 1)p (p + (1 − p))n−2 + np = n(n − 1)p2 + np
2
V (X) = E [X 2 ] − E 2 [X] = n(n − 1)p2 + np − (np)2 = np {(n − 1)p + 1 − np} = np(1 − p)
Exemplo 6.3 Considere-se a experiência aleatória de lançar ao ar dez vezes uma moeda equilibrada,
e seja X a v.a. que conta o número de caras nos 10 lançamentos. Assumo que os lançamentos são
independentes, pelo que estou a contar o número de sucessos (=sair cara) num número fixo (dez) de
provas (lançamentos) independentes. Então X ∼ Bin 10, 21 e a probabilidade de saı́rem 10 caras é
de:
10
1 0

10 1
P (X = 10) = C10 1− ' 0.00098
2 2
2
Exemplo 6.4 Considere a seguinte experiência aleatória: dentro de um saco tenho 21 bolas verdes e
vermelhas, na proporção de 1:2, respectivamente, das quais vou retirar ao acaso e com reposição 6
bolas. Seja X a v.a. que conta o número de bolas verdes obtidas. Como eu reponho cada bola que vou
tirando, as minhas extracções são independentes e a probabilidade de sair uma bola verde não varia
entre extracções. Estou assim a contar o número de sucessos
(=sair bola verde) num número fixo de
6 extracções (provas) independentes. Assim, X ∼ Bin 6, 13 .
A probabilidade de saı́rem 2 bolas verdes é:
2
1 4

1
P (X = 2) = C26 1− ' 0.329
3 3
2
Teorema 6.1 (Propriedade aditiva da distribuição Binomial) Sejam Xi , i = 1, . . . , m, m

variáveis aleatórias independentes com Xi ∼ Binomial(ni , p). Então a sua soma tem também dis-
tribuição Binomial, i.e. :
m
X
Sm = Xi ∼ Binomial(n1 + . . . + nm , p).
i=1
Exemplo 6.5 Um viveiro de trutas é constituı́do por 10 tanques, numerados de 1 a 10, sendo o
número de peixes no tanque i de ni , i = 1, . . . , 10, na tabela abaixo.
n1 n2 n3 n4 n5 n6 n7 n8 n9 n10
150 255 365 236 656 1256 789 879 369 741
Sabe-se que o número de trutas fêmeas de cada tanque é uma v.a. Xi , i = 1, . . . , 10, que segue
uma distribuição Binomial, Xi ∼ Bin(ni , 1/2), i = 1, . . . , 10. P10
Assim sendo, o número total de fêmeas no viveiro, S10 = i=1 Xi , tem também distribuição
Binomial:
10 10
!
X X 1 1
S10 = Xi ∼ Bin ni , ≡ Bin 5696,
2 2
i=1 i=1
2
6.1.4 Distribuição Hipergeométrica

Suponhamos que temos à nossa disposição uma população de N elementos, dos quais M possuem
determinada caracterı́stica e os restantes (N − M ) não a possuem (dicotomia). Da totalidade dos
N elementos seleccionamos ao acaso e sem reposição n elementos (amostra) e estamos interessados
em contabilizar nestes n elementos quantos possuem a referida caracterı́stica. Note-se que aqui não
há independência entre extracções, já que cada uma delas está condicionada pelo que já aconteceu
antes. Definimos assim uma variável aleatória X que representa precisamente esse número. A sua
função de probabilidade muito facilmente se determina e é dada por:
N −M
CxM Cn−x
P (X = x) = , max(0, M + n − N ) ≤ x ≤ min(M, n) (6.1.3)
CnN
Note-se que o número de elementos na amostra que possui a referida caracterı́stica (X) nunca pode
exceder o menor valor entre a dimensão da amostra (n) e o número de elementos que possuem a referida
caracterı́stica na totalidade dos N elementos (M), naturalmente! Noutros termos, X ≤ min(M, n).
Por outro lado o número de elementos que na amostra não possui a dita caracterı́stica, n − X, não
pode exceder o número de elementos que no universo da nossa escolha não possuem a tal caracterı́stica,
N − M . Assim, n − X ≤ N − M ⇔ X ≥ n − N + M . Claro que X terá de ser sempre não negativo,
donde X ≥ min(0, n − N + M ).
Definição 6.4 Dizemos que a variável aleatória X segue uma distribuição Hipergeométrica de
parâmetros N , M e n, e escrevemos X ∼ Hipergeométrica(N, M, n) ou X ∼ Hiperg(N, M, n), abre-
viadamente, se a função de probabilidade de X é dada por (6.1.3).
Por não ter muito interesse para o nosso curso apresentamos sem demonstração o seguinte:
Proposição 6.4 Seja a v.a. X ∼ Hipergeométrica(N, M, n). Então:
X E [X] = n M
N;
M
X V (X) = n N 2 (N −1)
(N − M )(N − n);
Exemplo 6.6 Considere-se a seguinte experiência aleatória: dentro de um saco tenho 21 bolas verdes
e vermelhas, na proporção de 1:2, respectivamente - 7 bolas verdes e 14 vermelhas. Vou retirar, da
totalidade das bolas, ao acaso e sem reposição 6 bolas. Seja X a v.a. que conta o número de
bolas verdes obtidas. Como eu não reponho cada bola que vou tirando, as minhas extracções são
dependentes. Estou assim a contar o número de sucessos (=sair bola verde) num número fixo de 6
extracções (provas) dependentes. Então, X ∼ Hiperg (21, 7, 6).
A probabilidade de saı́rem 2 bolas verdes é:
C27 C414
P (X = 2) = ' 0.387
C621
2
Nota: É importante notar as diferenças entre as distribuições Hipergeométrica e Binomial. A

primeira distribuição surge sempre associada a populações finitas (N !), de onde se fazem extracções
sem reposição, correspondendo a uma situação de sucessivas provas dependentes. Já a distribuição
Binomial está associada a populações infinitas, no sentido que se pode dela amostrar infinitamente,
por haver uma situação de reposição ou independência entre provas.
Regra 6.1 (Aproximação da distribuição Hipergeométrica pela distribuição Binomial)

n
Seja X uma v.a. tal que X ∼ Hipergeomética(N, M, n). Então, caso N ≤ 0.1, i.e. caso o tamanho
da amostra seja muito pequeno em relação ao tamanho da população, então pode aproximar-se a
distribuição de X por uma distribuição Binomial(n, p), onde p = M
N.
Exemplo 6.7 Seja X uma v.a. com distribuição Hipergeométrica(100, 60, 9). Calculemos a seguinte
probabilidade:
C360 C640
P (X = 3) = ' 0.06905 ' 0.07
C9100
n 9
No entanto, como N = 100 = 0.09, podemos aproximar a distribuição Hipergeométrica(100, 60, 9) por
60
uma Binomial(9, 100 ) ≡Binomial(9, 0.6) e voltar a calcular a probabilidade anterior:
P (X = 3) ' C39 0.63 0.46 ' 0.07432 ' 0.07
6.1.5 Distribuição Geométrica

Suponhamos que associado a certa experiência aleatória pode ocorrer o acontecimento A ∈ S, com
probabilidade p = P (A) > 0, ou não ocorrer A ∈ S, com probabilidade 1 − p = P (Ā) > 0 (dicotomia).
Designo a ocorrência de A como um sucesso e o seu complementar como um insucesso. Defino a
variável aleatória X como o número de vezes que é necessário repetir a experiência, independentemente,
até que se verifique a ocorrência de um sucesso. A sua função de probabilidade é dada por:
P (X = x) = p(1 − p)x−1 , x = 1, 2, . . . 0<p<1 (6.1.4)
Definição 6.5 Dizemos que a variável aleatória X segue uma distribuição Geométrica de parâmetro
p, e escrevemos X ∼ Geométrica(p) ou, abreviadamente, X ∼ Geo(p), se a função de probabilidade
de X é dada por (6.1.4).
Proposição 6.5 Seja a v.a. X ∼ Geométrica(p). Então:
X E [X] = 1p ;
1−p
X V (X) = p2 ;

0, x<1
X F (x) = bxc .
1 − (1 − p) , x ≥ 1
Demonstração:
+∞ +∞ +∞+∞
X X
x−1
X X d x−1
E [X] = x P (X = x) = x p(1 − p) =p x (1 − p) =p (−(1 − p)x ) =
x=1 x=1 x=1 x=1
dp
+∞
!
d X d 1−p 1 1
= −p (1 − p)x = −p = −p · − 2 =
dp x=1 dp 1 − (1 − p) p p
V (X) = E [X 2 ] − E 2 [X] =
+∞
X +∞
X +∞
X
2 2 2 x−1
E [X ] = x P (X = x) = x p(1 − p) =p x · (x + 1-1) (1 − p)x−1 =
x=1 x=1 x=1
+∞ +∞ +∞ 2
X X X d
= p (x + 1)x(1 − p)x−1 − p x(1 − p)x−1 = p 2
((1 − p)x ) − E [X] =
x=1 x=1 x=1
dp
+∞
!
d2 d2

X 1 1−p 1
= p (1 − p)x − =p 2 − =
dp2 x=1
p dp 1 − (1 − p) p
2 1 2−p
= p· 3 − =
p p p2
2
2 2 2−p 1 1−p
V (X) = E [X ] − E [X] = − =
p2 p p2
Exemplo 6.8 Considere-se a experiência aleatória de lançar ao ar uma moeda equilibrada e seja X a
v.a. que conta o número de lançamentos necessários até sair uma cara. Assumindo que os lançamentos
são independentes, X ∼ Geo 21 . Consequentemente, a probabilidade de serem necessários 10 lança-

mentos até obtermos uma cara é dada por:
1 9

1
P (X = 10) = × 1− ' 0.00098.
2 2
2
Exemplo 6.9 Considere a seguinte experiência aleatória: dentro de um saco tenho 21 bolas verdes e
vermelhas, na proporção de 1:2, respectivamente, das quais vou retirar ao acaso e com reposição 6
bolas. Seja X a v.a. que conta o número de bolas que tenho de extrair até obter uma bola verde. Como
eu reponho cada bola que vou tirando, as minhas extracções são independentes. Assim, X ∼ Geo 31 .

A probabilidade de serem necessárias 2 extracções até sair uma bola verde é então:
1 1

1
P (X = 2) = × 1 − ' 0.(2)
3 3
2
Teorema 6.2 (Propriedade da falta de memória da distribuição Geométrica) Seja X ∼

Geométrica(p). Então:
P (X > s + t | X > t) = P (X > s).
Demonstração: Fica como exercı́cio (Sugestão: recorra à função distribuição de X).
6.1.6 Distribuição Poisson

Estudámos anteriormente a distribuição Binomial e vimos que é usada quando contamos o número
de sucessos em n provas independentes. Frequentemente, em particular em aplicações médicas, o
número de provas a considerar é muito elevado e a probabilidade de sucesso muito pequena, pelo que
o cálculo de probabilidades se pode tornar muito demorado. Nestas condições é possı́vel considerar
uma outra distribuição, que aproxima razoavelmente bem as probabilidades Binomiais:
Definição 6.6 Dizemos que a variável aleatória X segue uma distribuição de Poisson de parâmetro
λ, e escrevemos X ∼ P oisson(λ) ou, abreviadamente, X ∼ P oi(λ), se a função de probabilidade de
X é dada por:
e−λ λx
P (X = x) = , x = 0, 1, 2, . . . , λ > 0 (6.1.5)
x!
Proposição 6.6 Seja a v.a. X ∼ P oisson(λ). Então:
X E [X] = λ;
X V[X] = λ;
Pbxc e−λ λk
X F (x) = k=0 k!
Demonstração:
+∞ +∞ +∞ +∞ −λ x+1
X e−λ λx
X X e−λ λx X e λ
E [X] = x P (X = x) = x = = =
x=0 x=0
x! x=1
(x − 1)! x=0 x!
+∞ x +∞ x
X λ λ X λ
= e−λ = e−λ · λ = e−λ · λ · eλ = λ
x! x!
x=0 x=0
V (X) = E [X 2 ] − E 2 [X]
+∞ +∞ +∞ +∞
X X e−λ λx X xe−λ λx X (x + 1)e−λ λx+1
E [X 2 ] = x2 P (X = x) = x2 = = =
x! (x − 1)! x!
x=0 x=0 x=1 x=0
+∞ +∞ +∞ +∞ x
X xe−λ λx+1 −λ
X λx λ X e−λ λx −λ
X λ
= +e =λ x +e ·λ =
x! x! x! x!
x=0 x=0 x=0 x=0
= λ E [X] + e−λ · λ · eλ = λ2 + λ
V (X) = (λ2 + λ) − λ2 = λ
Exemplo 6.10 Seja X a v.a. que representa o número de carraças num determinado cão, que segue
uma distribuição Poisson(2). Assim, em média, este cão apresenta E [X] = 2 carraças e a probabili-
dade de ele ter em si pelo menos 3 carraças é dada por:
e−2 20 e−2 21 e−2 22

P (X ≥ 3) = 1−P (X < 3) = 1−P (X = 0)−P (X = 1)−P (X = 2) = 1− − − ' 0.323
0! 1! 2!
2
Teorema 6.3 (Propriedade aditiva da Poisson) Sejam X1 , X2 , . . . , Xn variáveis aleatórias in-

dependentes com distribuição Poisson, Xi ∼ P oisson(λi ), i = 1, . . . , n. Então a sua soma é ainda
Poisson:
n
X
Sn = Xi ∼ P oisson(λ1 + . . . + λn )
i=1
Observação: O parâmetro λ da distribuição Poisson pode ser visto como uma taxa de ocorrência
do fenómeno em estudo por unidade (seja ela de área, de tempo). Assim, se considerarmos muitas
unidades juntas (que não se sobreponham, naturalmente) a variável que conta o número de ocorrências
em todas as unidades tem distribuição de Poisson com parâmetro dado pelo produto de λ pelo número
de unidades.
Exemplo 6.11 Represente a v.a. X o número de pés de milho produzidos por metro quadrado de
terreno. Sabe-se que X ∼ P oi(10). Qual a probabilidade de numa faixa de terreno de 2 m2 nascerem
20 pés?
Considere-se a v.a. Y que representa o número de pés de milho nascidos em 2 m2 de terreno.
Y ∼ P oisson(2 × 10) ≡ P oisson(20). Então:
e−20 2020
P (Y = 20) = ' 0.0888
20!
Observação: A distribuição de Poisson, porque aproxima a distribuição Binomial quando a proba-

bilidade de sucesso é pequena, é também designada distribuição de acontecimentos raros. Na
prática:
Regra 6.2 (Aproximação da distribuição Binomial pela distribuição de Poisson) Seja X

uma v.a. tal que X ∼ Binomial(n, p). Então, caso n ≥ 50 e np ≤ 5, i.e. caso o tamanho da amostra
seja muito grande e o acontecimento que se mede raro, então pode-se aproximar a distribuição de X
por uma distribuição P oisson(λ), onde λ = np.
Exemplo 6.12 A probabilidade de determinada malformação congénita é de 0.05. Qual a probabili-

dade de num conjunto de 50 crianças existir esta malformação em pelo menos 2 delas?
Defina-se a v.a. X como o número de crianças que têm esta malformação em 50. Então X ∼
Binomial(50, 0.05).
P (X ≥ 2) = 1 − P (X < 2) = 1 − P (X = 0) − P (X = 1) =
= 1 − C050 0.050 (1 − 0.05)50 − C150 0.051 (1 − 0.05)49 ' 1 − 0.239 ' 0.761
Alternativamente, como n = 50 ≥ 50 e np = 50×0.05 = 2.5 ≤ 5, podemos aproximar a distribuição

Binomial por uma distribuição de Poisson, X ∼ P oi(50 × 0.05) ≡ P oisson(2.5). Então:
P (X ≥ 2) = 1 − P (X < 2) = 1 − P (X = 0) − P (X = 1) =
e−2.5 2.50 e−2.5 2.51
= 1− − ' 1 − 0.287 ' 0.713
0! 1!
2
6.2 Algumas distribuições contı́nuas
6.2.1 Distribuição Uniforme Contı́nua
Definição 6.7 Dizemos que a variável aleatória X segue uma distribuição Uniforme no intervalo
[a, b], −∞ < a < b < +∞, e escrevemos X ∼ U nif orme [a, b] ou, abreviadamente, X ∼ U nif [a, b],
se a função densidade probabilidade de X é dada por:
1
b−a, a≤x≤b
f (x) =
0, c.c.
Nota: Os extremos a e b podem indiferentemente ser excluı́dos do intervalo [a, b], ambos ou apenas
um deles.
Apresenta-se na figura 6.1 a função densidade de uma v.a. Uniforme[a,b] genérica.
Proposição 6.7 Seja a v.a. X ∼ U nif orme[a, b]. Então:

f (x)
1
b−a
a b x
Figura 6.1: Função densidade de X ∼ U nif orme [a, b].
a+b
X E [X] = 2 ;
2
X V (X) = (b−a)
12 ;

 0, x<a
x−a
X F (x) = , a ≤ x < b .
 b−a
1, x≥b
Demonstração:
+∞ b a
x2 b2 − a 2

1 a+b
Z Z
E [X] = xf (x)dx = x·
dx = = =
−∞ a b − a 2(b − a) b 2(b − a) 2
a+b 2
Z +∞ Z b
(a + b)2

2 2 2 1
V (X) = E [X ] − E [X] = x f (x)dx − = x2 · dx − =
−∞ 2 a b−a 4
a
x3 (a + b)2 b3 − a 3 (a + b)2

= − = − =
3(b − a) b 4 3(b − a) 4
(b − a)(b2 + ab + a2 ) a2 + 2ab + b2 b2 + a2 − 2ab (b − a)2
= − = =
3(b − a) 4 12 12
Exemplo 6.13 Represente a v.a. X o tempo (em minutos) entre partidas sucessivas de comboios da
estação de Sete Rios, com destino ao Pragal. Sabe-se que este tempo se distribui uniformemente no
intervalo de 0 a 15 minutos, i.e. X ∼ U nif orme[0, 15].
O tempo médio entre partidas é pois de 0+15
2 = 7.5 minutos e a probabilidade de ter de se esperar
mais de 10 minutos por um comboio que nos leve ao Pragal é de:
+∞ 15
1 1
Z Z
P (X > 10) = f (x)dx = dx =
10 10 15 − 0 3
2
6.2.2 Distribuição Exponencial
Definição 6.8 Uma variável aleatória X diz-se seguir uma distribuição Exponencial de parâmetro
λ, e escrevemos X ∼ Exponencial(λ) ou, abreviadamente, X ∼ Exp(λ), se a sua função densidade
probabilidade for dada por:
λ e−λx , x > 0

f (x) = λ>0
0, x≤0
Apresenta-se na figura 6.2 a função densidade de uma v.a. Exponencial(λ) genérica.
f (x)
Figura 6.2: Função densidade de X ∼ Exponencial(λ).
Proposição 6.8 Seja a v.a. X ∼ Exponencial(λ). Então:
X E [X] = λ1 ;
X V (X) = λ12 ;

0, x<0
X F (x) = .
1 − e−λx , x ≥ 0
Demonstração: Temos de fazer aqui integração por partes:

Z +∞ Z +∞ h iR Z R
−λx −λx −λx
E [X] = xf (x)dx = x · λe dx = lim −x e + e dx =
−∞ 0 R→+∞ 0 0
( R )
e−λx e−λR − 1

0−1 1
= lim −R e−λR + 0 + = 0 + lim = =
R→+∞ −λ 0 R→+∞ −λ −λ λ
Z +∞ 2 Z +∞
2 2 12 1
V (X) = E [X ] − E [X] = x f (x)dx − = x2 · λe−λx dx − 2 =
−∞ λ 0 λ
h iR Z R
1
= lim −x2 e−λx + 2x · e−λx dx − 2 =
R→+∞ 0 0 λ
R
( )
R
e−λx 2 e−λx

1
Z
2 −λR
= lim −R e + 0 + 2x · + − 2
R→+∞ −λ 0 0 λ λ
R
( )
2R e−λR 2e−λx

1
= 0 + lim − +0+ 2
− 2 =
R→+∞ λ −λ 0 λ
2 e−λR

2 1 2 1 1
= 0 + lim − + 2 − 2 =0+ 2 − 2 = 2
R→+∞ λ2 λ λ λ λ λ
Nota: A distribuição exponencial é frequentemente usada para modelar tempos de vida, particular-
mente para aquelas situações em que o tempo de vida que ainda falta decorrer é independente do que
já decorreu. Isto devido à seguinte propriedade da distribuição exponencial:
Teorema 6.4 (Propriedade da falta de memória da distribuição exponencial) Seja X ∼

Exponencial(λ). Então:
P (X ≥ s + t|X ≥ s) = P (X ≥ t)
Demonstração: Fica como exercı́cio.
Exemplo 6.14 A v.a. X representa o tempo de vida (meses) de determinada marca de velas para
motores de carros, seguindo uma distribuição exponencial de valor médio 6, i.e. X ∼ Exponencial( 61 ).
A probabilidade de uma qualquer dessas velas durar mais de 1 ano é de:
12
P (X > 12) = 1 − P (X ≤ 12) = 1 − F (12) = 1 − (1 − e− 6 ) ' 0.135
2
6.2.3 Distribuição Normal

Uma das distribuições mais importantes e usadas nas probabilidades e estatı́stica é a que estudamos
nesta secção.
Definição 6.9 Uma variável aleatória X diz-se seguir uma distribuição Normal de parâmetros µ
e σ 2 , e escrevemos X ∼ N ormal(µ, σ 2 ) ou, abreviadamente, X ∼ N (µ, σ 2 ), se a sua função densidade
probabilidade for dada por:
1 (x−µ)2
f (x) = √ e− 2σ2 , x ∈ R, µ ∈ R, σ > 0
2πσ
Notas:
X A distribuição Normal é também conhecida pelo nome de Gaussiana ou distribuição de
Gauss.
X Quando µ = 0 e σ = 1, a v.a. X ∼ N (0, 1) toma o nome de Normal reduzida. À sua função

distribuição designamos por Φ(·).
X A distribuição Normal é simétrica em torno de µ.

Apresenta-se na figura 6.3 a função densidade de uma v.a. N ormal(µ, σ 2 ) genérica.
µ x
Figura 6.3: Função densidade de X ∼ N ormal(µ, σ 2 ).
Proposição 6.9 Seja a v.a. X ∼ N ormal(µ, σ 2 ). Então:

X E [X] = µ;
X V (X) = σ 2 ;
Demonstração: Fora do âmbito deste curso.

Teorema 6.5 Seja X ∼ N (µ, σ 2 ). Então:
X −µ
Z= ∼ N (0, 1).
σ
Este teorema é a base do cálculo de probabilidades de variáveis aleatórias normais. Suponhamos
que estamos interessados em calcular a probabilidade de determinada v.a. X ∼ N (µ, σ 2 ) pertencer a
um intervalo qualquer [a, b]. Naturalmente que tentarı́amos calcular o seguinte:
b (x−µ)2
1
Z
P (a ≤ X ≤ b) = √ e− 2σ2 dx
a 2πσ
Acontece que este integral não se consegue determinar analiticamente. Como tal terı́amos de
recorrer a aproximações numéricas, pouco práticas de obter...
No entanto, à luz do teorema 6.5, todos os cálculos de probabilidades de variáveis aleatórias
normais se podem reduzir ao cálculo de probabilidades de uma v.a. Normal reduzida - que se encontra
tabelada!:

a−µ X −µ b−µ a−µ b−µ
P (a ≤ X ≤ b) = P ≤ ≤ =P ≤Z≤ =
σ σ σ σ σ

b−µ a−µ b−µ a−µ
=P Z≤ −P Z ≤ =Φ −Φ → Valores tabelados.
σ σ σ σ
Exemplo 6.15 A v.a. X representa as notas dos alunos de determinada escola na disciplina de Pro-
babilidades e Estatı́stica (PE), numa escala de 0% a 100%. Sabe-se que esta variável tem distribuição
Normal X ∼ N (60, 102 ).
(a) Qual a probabilidade de determinado aluno ter nota inferior a 70% a PE?

X − 60 70 − 60
P (X < 70) = P < = P (Z < 1) = Φ(1) = 0.8413
10 10
(b) Qual a probabilidade de determinado aluno ter nota superior a 50% a PE?

50 − 60
P (X > 50) = 1 − P (X ≤ 50) = 1 − P Z ≤ = 1 − P (Z ≤ −1) =
10
(Porque a Normal reduzida é simétrica em torno de 0, o seu valor médio)
= 1 − P (Z ≥ 1) = 1 − (1 − P (Z < 1)) = Φ(1) = 0.8413
(c) Qual a probabilidade de determinado aluno ter nota compreendida entre 50% e 70% a PE?

50 − 60 70 − 60
P (50 < X < 70) = P <Z< = P (−1 < Z < 1) =
10 10
= P (Z < 1) − P (Z ≤ −1) = P (Z < 1) − P (Z ≥ 1) = P (Z < 1) − (1 − P (Z < 1)) =
= 2Φ(1) − 1 = 0.6826
2
Teorema 6.6 Sejam X1 , X2 , . . . , Xn n variáveis aleatórias independentes com distribuições Xi ∼

N µi , σi2 , i = 1, 2, . . . , n. Considerando as constantes reais a1 , a2 , . . . , an , com algum ai 6= 0, temos
que:
Y = a1 X1 + . . . + an Xn ∼ N a1 µ1 + . . . + an µn , a21 σ12 + . . . + a2n σn2

Note que:
n n n
!
X X X
E (Y ) = E ai Xi = ai E (Xi ) = ai µi
i=1 i=1 i=1
n n n
!
X X X
V (Y ) = V ai Xi = a2i V (Xi ) = a2i σi2
i=1 i=1 i=1
Exemplo 6.16 O tempo (em minutos) que um par de sapatos demora a ser confeccionado, numa
determinada fábrica, é a soma dos tempos que demora nos três sectores por onde tem de passar -
desenho, corte e costura. Representando por X1 , X2 e X3 , respectivamente, esses tempos, sabendo
que X1 ∼ N (7, 22 ), X2 ∼ N (2, 12 ) e X3 ∼ N (4, 12 ), independentes, qual a probabilidade de um par de
sapatos demorar menos de 14 minutos a ser executado?
O tempo total de confecção de um qualquer par de sapatos é dado por Y = X1 + X2 + X3 e é
normalmente distribuı́do:
Y ∼ N 7 + 2 + 4, 22 + 12 + 12 ≡ N (13, 6)

Assim:

14 − 13
P (Y < 14) = P Z< √ = P (Z < 0.41) = 0.6591
6
2
6.2.4 Distribuição Qui-quadrado
Definição 6.10 Define-se função gama, denotando-se por Γ(α), como:

Z +∞
Γ(α) = xα−1 e−x dx, α>0
0
Proposição 6.10 Algumas propriedades da função Γ:
X Γ(1) = 1;
X Γ(α) = (α − 1)Γ(α − 1);
X Se α = n for um inteiro positivo, Γ(n) = (n − 1)!.

Definição 6.11 Uma variável aleatória X diz-se seguir uma distribuição Qui-quadrado com n
graus de liberdade, e escrevemos X ∼ χ2(n) , se a sua função densidade probabilidade for dada por:

1

 Γ(n/2)2n/2
e−x/2 xn/2−1 , x>0
f (x) =

 0, x≤0
Apresenta-se na figura 6.4 a função densidade de uma v.a. χ2(n) genérica.
f (x)
Figura 6.4: Função densidade de X ∼ χ2(n) .
Proposição 6.11 Seja a v.a. X ∼ χ2(n) . Então:
X E [X] = n;
X V (X) = 2n.

Para o cálculo de probabilidades associado a variáveis aleatórias com distribuição Qui-quadrado
não temos de integrar a função densidade atrás definida, já que existem tabelas da função distribuição
da Qui-quadrado, para diversos graus de liberdade!
Exemplo 6.17 Considere a v.a. X ∼ χ2(9) . Calcule as seguintes probabilidades, recorrendo à tabela
da Qui-quadrado:
(a) P (X < 17) ' 0.95.
(b) P (X > 19) = 1 − P (X ≤ 19) ' 1 − 0.975 = 0.025.

Teorema 6.7 Seja X ∼ N (0, 1). Então:
Y = X 2 ∼ χ2(1) .
6.2.5 Distribuição T de Student

Definição 6.12 Sejam X ∼ N (0, 1) e Y ∼ χ2(n) , com X e Y independentes. Então a seguinte variável
aleatória :
X
T =p
Y /n
diz-se ter uma distribuição t-student com n graus de liberdade e escrevemos T ∼ t(n) .
A sua função densidade probabilidade é dada por:
Γ((n + 1)/2)
fn (t) = √ (1 + t2 /n)−(n+1)/2 , t∈R
Γ(n/2) nπ
Apresenta-se na figura 6.5 a função densidade de uma v.a. t(n) genérica.
Figura 6.5: Função densidade de X ∼ t(n) .
Proposição 6.12 Seja a v.a. X ∼ t(n) . Então, caso n > 2:
X E [X] = 0;
n
X V (X) = n−2 .

Para o cálculo de probabilidades associado a estas variáveis aleatórias t-student mais uma vez
recorremos a tabelas existentes das suas funções distribuição, para os diversos graus de liberdade.
Exemplo 6.18 Considere a v.a. T ∼ t(8) . Calcule as seguintes probabilidades, recorrendo à tabela da
t-student:
(a) P (T < 2.31) ' 0.975.
(b) P (−2.31 < T < 2.31) = P (T < 2.31)−P (T ≤ −2.31) = (Simetria da dist. em torno da média)
P (T < 2.31) − P (T ≥ 2.31) = P (T < 2.31) − (1 − P (T < 2.31)) = 2P (T < 2.31) − 1 =
2 × 0.975 − 1 = 0.95.

6.1 Um consumidor queixou-se às autoridades que no supermercado do Sr. Manuel se vendiam
latas de cogumelos com o prazo de validade ultrapassado. No seguimento desta denúncia um
inspector das actividades económicas dirigiu-se ao referido supermercado e seleccionou, ao acaso
e sem reposição, 6 latas - do total de 50 que o Sr. Manuel ainda tinha para vender.
Como na realidade ainda restavam 7 latas com o prazo de validade ultrapassado, qual a proba-
bilidade de o Sr. Manuel ser multado (i.e., de o inspector descobrir pelo menos uma lata com o
prazo ultrapassado)?
6.2 De forma a proceder a uma classificação geral do estado das praias Portuguesas, uma comissão
Europeia vai inspeccionar 10 praias, seleccionadas ao acaso de entre as 100 existentes. A comissão
atribui a classificação de Bom se pelo menos 8 das 10 praias inspeccionadas estiverem em bom
estado. Sabendo que, da totalidade das 100 praias, 15 não apresentam boas condições, qual a
probabilidade de Portugal:
(a) Obter uma classificação de Suficiente, pelo facto de a comissão só ter encontrado 7 praias
em bom estado?
(b) Obter uma boa classificação?
(c) Se a comissão só inspeccionasse 5 praias, qual a probabilidade de não encontrar nenhuma
em mau estado?
(d) Nas praias inspeccionadas quantas se esperam que estejam em bom estado?
6.3 O senhor Sousa tem uma empresa que compra e vende selos e outros artigos de coleccionismo. Ele
guarda 20 selos dentro de uma bolsa preta, estando ainda cada um deles metido num envelope
opaco. 6 destes selos valem 100 euros cada um e os restantes nada valem. O senhor Sousa,
para promover a venda, cobra 20 euros por cada selo, mas não permitindo que o cliente veja o
conteúdo do envelope. Suponha que um cliente compra 5 selos.
(a) Qual a probabilidade dos cinco selos nada valerem?

(b) Qual a probabilidade do cliente não perder nem ganhar dinheiro com a compra?
6.4 Num determinado percurso de avião, a probabilidade de uma pessoa qualquer que aı́ viaje pedir
uma refeição vegetariana é de 0.2. Supondo que em determinado dia viajam 10 pessoas no avião,
calcule a probabilidade de:
(a) Ninguém pedir refeição vegetariana.

(b) Todos pedirem refeição vegetariana.
(c) Pelo menos uma pedir refeição vegetariana.
6.5 Determinado exame é constituı́do por 5 questões de escolha múltipla, em que cada questão tem
4 opções de resposta possı́veis - apenas uma sendo a correcta. Supondo que um aluno que vai
fazer o exame responde a tudo ao acaso, qual é a probabilidade de ele acertar a mais de metade
das questões? Qual é o número médio de respostas correctas? E o seu desvio padrão?
6.6 Sabe-se que 5% dos copos produzidos em determinada fábrica apresentam pequenos defeitos.
Seleccionando-se da produção da fábrica, ao acaso, 50 copos, qual a probabilidade de:
(a) Nenhum ser defeituoso?

(b) Um ser defeituoso?
(c) No máximo 1 ser defeituoso?
(d) Calcule o número médio de copos defeituosos nesta amostra e o seu desvio padrão.
6.7 Verifica-se que, relativamente a um determinado dado, quando ele é lançado, a probabilidade
de sair um número par é duas vezes superior à probabilidade de sair um número ı́mpar. Se X
representar a v.a. que conta o número de vezes que sai um número par em 4 lançamentos deste
dado, determine a sua função de probabilidade.
6.8 Na sala de aula de uma escola primária 5 meninos lançam ao ar moedas equilibradas. O João
faz 10 lançamentos, o Pedro 15, a Joana 7, a Francisca 21 e o Luı́s 13. Qual a probabilidade de
que no total dos lançamentos saiam exactamente 30 caras?
6.9 Numa prisão existem 1500 presos, dos quais 4% cometeram homicı́dios por envenenamento.
Seleccionando-se aleatoriamente 8 presos para executarem os trabalhos na cozinha da prisão,
qual a probabilidade de que 2 deles sejam deste tipo de homicı́das?
6.10 Uma lista de clientes de uma empresa é constituı́da por 1000 endereços de clientes. Destes, 300
compraram nos últimos 3 meses, pelo menos um produto da empresa. Com o objectivo de avaliar
da aceitação de um novo produto, 25 clientes daquela lista foram escolhidos ao acaso e sondados
acerca do novo produto. Qual a probabilidade de no máximo 2 dos 25 clientes escolhidos, fazerem
parte do grupo dos que realizaram alguma compra durante os últimos 3 meses?
6.11 O José costuma jogar aos dardos acertando o alvo com probabilidade de 0.8, de cada vez que
faz pontaria. Qual a probabilidade de ele ter de jogar 3 vezes o dardo até conseguir espetar a
seta no referido alvo? Indique eventuais pressupostos para a sua resposta.
6.12 Em determinada maternidade a probabilidade de um recém-nascido ser do sexo feminino é de

0.51. Qual a probabilidade de ser preciso que nasçam 5 bebés até surgir uma menina?
6.13 Prove o teorema 6.2, referente à propriedade da falta de memória da distribuição geométrica.
6.14 O número de chamadas de emergência que um serviço de ambulâncias recebe por dia é uma v.a.
de Poisson. Sabendo que a probabilidade de não haver nenhuma chamada num dia é de 0.15,
determine a probabilidade de:
(a) Haver apenas uma chamada num dia.

(b) Haver 2 chamadas num dia.
(c) Haver no máximo 3 chamadas num dia.
(d) Haver pelo menos 4 chamadas num dia.
(e) O número médio de chamadas por dia e o seu desvio padrão.
6.15 Suponha que X é uma v.a. com distribuição de Poisson.

Se P (X = 2) = 23 P (X = 1), calcule P(X=0) e P(X=3).
6.16 Suponha que, em média, 10 pessoas vão a uma caixa multibanco, por dia. Admitindo que o
número de pessoas que vão a essa caixa multibanco é uma v.a. com distribuição Poisson:
(a) A probabilidade de não ir ninguém à caixa multibanco em determinada semana.

(b) A probabilidade de irem 50 pessoas à referida caixa nessa semana.
(c) O número médio de visitas à caixa multibanco por semana e o seu coeficiente de variação.
6.17 Na portagem da ponte 25 de Abril o número de veı́culos automóveis que passa em cada cabine
de pagamento da portagem, por minuto, segue uma distribuição de Poisson com valor médio 1
veı́culo. Supondo que em determinado minuto estão abertas 10 cabines, qual a probabilidade de
serem, no total, atendidos 11 condutores nesse minuto?
6.18 Suponha que num livro de 500 páginas existem 300 erros tipográficos, distribuı́dos aleatoriamente
por todo o livro. Assumindo que o número de erros segue uma distribuição de Poisson, determine
a probabilidade de uma dada página conter:
(a) 2 erros tipográficos.

(b) Pelo menos 2 erros tipográficos
6.19 Um grande armazém de venda de material de vidro de laboratório emprega 100 pessoas. Tem-se
verificado que o número de peças quebradas, por empregado e por mês, segue uma distribuição
de Poisson de valor médio 1.5. Cada peça partida representa um prejuı́zo de 40 cêntimos, pelo
que o armazém só arca com a despesa de um máximo de 3 peças por mês e por empregado. A
partir deste valor é no salário do empregado que se desconta a despesa.
(a) Qual a probabilidade de um empregado escolhido ao acaso ter de pagar do seu bolso algum
prejuı́zo num qualquer mês?
(b) Considere agora a variável aleatória que representa o prejuı́zo do armazém, por mês e por
empregado. Determine a sua função de probabilidade, qual é esse prejuı́zo médio e o seu
desvio padrão.
6.20 Em determinada empresa 2% das chamadas telefónicas recebidas são enganos. Qual a probabil-
idade aproximada de, em 200 telefonemas, haver pelo menos 2 enganos? Qual o número médio
de enganos?
6.21 Numa feira popular a probabilidade de uma pessoa contrair uma intoxicação alimentar é de
0.0005. Determine a probabilidade de, em 300 pessoas, 2 ficarem intoxicadas.
6.22 Suponha que em cada 1000 indivı́duos de uma certa população de coelhos, 2 são albinos. Rep-
resente X o número de coelhos albinos existentes numa amostra de 1000 coelhos retirada dessa
população. Calcule as probabilidades P (X = 1) e P (X ≥ 3).
6.23 O tempo (em horas) que o Sr. Zé trabalha por dia é uma v.a. X com distribuição constante no
intervalo [9, 12].
(a) Identifique a distribuição da v.a. X. Determine o número médio de horas que o Sr. Zé
trabalha por dia e o seu desvio padrão.
(b) Qual o número mı́nimo de horas de trabalho diário em 90% dos dias de trabalho do Sr. Zé?
(c) Qual a probabilidade de o Sr. Zé trabalhar mais de 11 horas por dia em 4 dias de uma
semana útil (=5 dias)?
6.24 Determinado jogo consiste em acertar com um dardo num segmento de recta de comprimento
1 metro. Admitindo se acerta apenas sobre o segmento de recta (e não fora dele) e que se tem
igual probabilidade de acertar em qualquer seu ponto:
(a) Identifique a função densidade probabilidade da v.a. X que representa a distância do ponto
onde se acertou a um dos extremos do segmento.
(b) Calcule P (0.4 < X < 0.6).
(c) Qual o valor médio do ponto onde se acerta? E o seu coeficiente de variação?
(d) Calcule P (0.4 < X < 0.6|X > 0.5).
6.25 Num posto dos correios o tempo (minutos) que a D. Hermı́nia demora a atender cada um dos
seus clientes é uma v.a. exponencial de valor médio 3 minutos. Determine:
(a) A função distribuição de X.

(b) A probabilidade de um cliente demorar mais de 5 minutos a ser atendido.
(c) A probabilidade de um cliente demorar mais de 3 minutos a ser atendido.
(d) A probabilidade de um cliente demorar mais de 5 minutos a ser atendido, sabendo que já
está a ser atendido há pelo menos 2 minutos. Compare com a probabilidade anterior e
comente.
(e) O coeficiente de variação do tempo de atendimento.
6.26 A v.a. X representa o tempo de vida (horas) das séries de luzes que se vendem no Natal. Sabe-se
que esta variável tem distribuição exponencial com parâmetro 0.01. Determine:
(a) A probabilidade de uma série destas luzes durar menos de 150 horas.
(b) O tempo médio de duração de cada série de luzes e o seu desvio padrão.
(c) Cada série destas tem uma garantia de 150 horas de funcionamento. Qual a probabilidade
de em 20 séries vendidas 5 serem devolvidas por se terem avariado dentro do perı́odo de
garantia?
6.27 Demonstre o teorema 6.4.

6.28 Seja X uma v.a. com distribuição N (100, 202 ). Calcule:
(a) P (X < 125).

(b) P (X > 115).
(c) P (60 < X < 140).
6.29 Seja X uma v.a. normal com média 12 e variância 2. Determine c tal que:
(a) P (X < c) = 0.1.

(b) P (X > c) = 0.25.
(c) P (12 − c < X < 12 + c) = 0.95.
6.30 Admita que o Q.I. das pessoas de determinado paı́s é uma v.a. X com distribuição normal de
média 90 e desvio padrão 12. Determine:
(a) A percentagem da população com Q.I. entre 85 e 95.

(b) A percentagem da população com Q.I. entre 78 e 102.
(c) O valor c > 0 tal que a percentagem da população com Q.I. entre 90 − c e 90 + c seja de
95%.
(d) 10000 pessoas desta população concorreram ao selecto clube SMART, que apenas admite
indivı́duos com Q.I. superior a 120. Quantas destas pessoas espera o clube vir a admitir?
6.31 A altura (metros) a que crescem os pinheiros é uma v.a. X normalmente distribuı́da com desvio
padrão igual a 1 metro. Supondo que 90% dos pinheiros atingem uma altura de pelo menos 16
metros, qual a altura média dos pinheiros?
6.32 Numa fábrica de embalar arroz este trabalho é executado por uma máquina. A quantidade de
arroz (Kg) que entra nos pacotes é uma v.a. X seguindo uma distribuição normal de valor médio
µ e desvio padrão σ.
(a) Determine σ sabendo que a quantidade embalada difere da sua média por menos de 100g,
em 95 % dos casos.
(b) Supondo que µ = 1Kg, determine a probabilidade de, em 10 pacotes de arroz embalados
por esta máquina, 2 terem menos de 0.9Kg.
6.33 Considere X uma v.a. Normal de valor médio 2 e variância 9. Seja I um intervalo do tipo
[4 − a, a]. Determine o valor de a de modo a que P (X ∈ I) = 0.90.
6.34 A altura (metros) a que um atleta salta é uma v.a. Normal de média 1.8m e desvio padrão
20cm. Sabendo que 20% das vezes o atleta consegue saltar acima de h, determine h.
6.35 Num jardim zoológico existem um leão e um tigre que consomem, independentemente um do
outro, o mesmo tipo de alimentação - carne de 2a . A quantidade de carne (Kg) que cada um
deles come por dia são variáveis aleatórias, representadas por X1 para o leão e X2 para o tigre,
respectivamente, normalmente distribuı́das com média 4Kg e desvio padrão 0.5Kg. Determine
a probabilidade de, num determinado dia:
(a) Ambos os animais comerem menos de 3Kg de carne cada.

(b) O leão comer mais do que o tigre.
3
(c) Metade do que o leão come juntamente com 4 do que o tigre come exceder os 4Kg.
6.36 Um restaurante vende comida a peso e constatou que a quantidade de comida vendida (Kg) tem
distribuição Normal, dependendo os seus parâmetros de o cliente ser homem ou mulher - caso
seja mulher a média é de 0.4 Kg e o desvio padrão 0.1 Kg e caso seja homem a média é de 0.5
Kg e o desvio padrão é de 0.2 Kg. Sabendo que os clientes são 55% mulheres e 45% homens, e
que a quantidade de comida consumida é independentes entre clientes:
(a) Determine a probabilidade de um cliente qualquer consumir menos de 0.5 Kg de comida.

(b) Sabendo que um cliente consumiu mais de 0.6 Kg de comida, qual a probabilidade de ser
homem?
(c) Num grupo de 4 mulheres e 6 homens qual a probabilidade de se consumir menos de 5 Kg
de comida?
6.37 Admita que X é uma v.a. com distribuição t com 14 graus de liberdade, X ∼ t(14) . Determine
o valor de c, tal que:
(a) P (X ≤ c) = 0.75;
(b) P (X ≤ c) = 0.05;
(c) P (|X| > c) = 0.4.
6.38 Suponha que X é uma v.a. com distribuição χ2 com 10 graus de liberdade, X ∼ χ2(10) . Determine
o valor de c, tal que:
(a) P (X ≤ c) = 0.95;
(b) P (X ≤ c) = 0.05.
6.39 Um foguete espacial é constituı́do por 3 partes distintas, cápsula, corpo e depósitos. Representem
as v.a.’s X, Y e W o peso da cápsula, o peso do corpo do foguete e o peso dos depósitos,
respectivamente, em toneladas. Sabe-se que X ∼ N (5, 1), Y ∼ N (10, 22 ) e W ∼ N (7, 22 ), sendo
as três variáveis independentes entre si.
(a) Qual a probabilidade de o peso da cápsula estar compreendido entre 3 e 7 toneladas?

(b) Qual o peso h que o corpo do foguete ultrapassa em 2.5% das vezes?
(c) Qual a probabilidade de o peso da cápsula mais o peso dos depósitos excederem o peso do
corpo do foguete?
6.40 Seja X uma v.a. com distribuição de Poisson de parâmetro λ. Prove que E [X] = λ.

De uma população suı́na de 100 porcos uma proporção deles, p > 0, são pretos. A probabilidade
de encontrarmos 2 porcos rosa, ao seleccionarmos ao acaso um grupo de 4 porcos, é de 4p.
6.42 Considere a v.a. X que representa o número de navios que atracam, por dia, em determinado
porto. Sabe-se que X tem distribuição Poisson com valor médio 3 navios.
(a) Qual a probabilidade de em determinado dia atracarem no máximo 2 navios nesse porto?
(b) Qual a probabilidade de em 5 dias chegarem apenas 2 navios?

(c) Considere agora a v.a. Y que representa o tempo entre chegadas sucessivas de 2 navios,
medido em dias. Sabe-se que esta variável tem distribuição exponencial com parâmetro
igual ao parâmetro da v.a. X atrás descrita.
i. Deduza a função distribuição de Y .
ii. Qual a probabilidade de o tempo entre duas chegadas sucessivas seja superior a 1 dia?
iii. Qual o tempo médio de chegadas e o correspondente desvio padrão?
6.43 Seja X uma variável aleatória tal que X ∼ N (2, σ 2 ) e considere o acontecimento A = {X < 3}
com P (A) = 0.9938.
(a) Determine σ.
(b) Considere agora o acontecimento B = {X > σ + 2}.
i. Determine P (B).
ii. A e B são acontecimentos independentes?
(c) Suponha que repete, de forma independente, 10 vezes a experiência aleatória que pode
resultar no acontecimento A acima definido. Qual a probabilidade de se verificar A pelo
menos 9 vezes?
6.44 Numa operação stop montada pela GNR em determinado ponto da cidade, com o objectivo de
controlar o uso do cinto de segurança por parte do condutores, o intervalo de tempo T que
medeia entre a passagem de automóveis cujo condutor não usa cinto de segurança (em minutos)
segue uma distribuição exponencial com média 10 minutos.
(a) Diga o que entende por função distribuição de uma variável aleatória. Deduza a função
distribuição de T .
(b) Qual a probabilidade da GNR estar mais de meia hora sem se deparar com um condutor
infractor (sem cinto) neste ponto da cidade?
6.45 A variável aleatória X (metros) representa o comprimento de barras de ferro da produção de

uma fábrica. Esta variável aleatória é normalmente distribuı́da com média 10m e variância 4m2 .
Cada uma destas barras é considerada sem defeito se o seu comprimento X se encontra entre 8
e 12 metros.
(a) Qual a percentagem de barras defeituosas na produção? (Arredonde a sua resposta às
centésimas).
(b) Determinado cliente está interessado em comprar 100 destas barras. O preço que vamos
fazer depende de um processo de inspecção, por parte do cliente, à qualidade das barras.
Assim ele pretende inspeccionar, ao acaso e sem reposição, um conjunto de 10 barras do
lote total das 100 que lhe vamos vender, oferecendo o seguinte: 100 e por barra se neste
conjunto de 10 não houver nenhuma barra defeituosa; caso encontre pelo menos uma barra
defeituosa só paga 50 e por barra. Qual é a quantidade de dinheiro que esperamos realizar
com esta operação?
(c) Considere que tem duas destas barras. Qual a probabilidade de o comprimento total das
duas barras exceder os 20 metros? Justifique, indicando eventuais pressupostos que tenha
de fazer.
6.46 Considere as variáveis aleatórias X ∼ N (µX , σX 2 ) e Y ∼ N (µ , σ 2 ), independentes. Determine

Y Y
a covariância entre as variáveis aleatórias W e U , dadas por W = X +Y e U = X −Y . Pode usar
o resultado que obteve para concluir quanto à independência (ou falta dela) entre as variáveis
aleatórias W e U ?
(a) Suponhamos que escolhemos ao acaso 3 alunos de uma turma com 15 rapazes e 10 raparigas,
sem reposição. Se X denotar o número de rapazes seleccionados neste processo e Y denotar
o número de raparigas seleccionadas então E[X − Y ] = 0.6.
(b) O tempo entre chegadas sucessivas de clientes a uma repartição pública distribui-se ex-
ponencialmente com média 2 minutos. Se o único empregado dessa repartição fizer um
intervalo de 10 minutos para tomar café, a probabilidade de que nenhum cliente chegue
durante esse perı́odo é de 0.007 (assuma que o empregado inicia o intervalo após a chegada
do último cliente).
(c) O José tem rifas de Natal para vender e sabe, de anos anteriores, que aproximadamente
10% das pessoas abordadas para o efeito compram uma rifa. Assumindo independência
entre as decisões de cada pessoa, podemos dizer que a variável aleatória X que representa
o número de pessoas que o José tem de abordar até conseguir vender uma rifa segue uma
distribuição Bernoulli(0.10).
(d) Tenho um conjunto de 5000 maçarocas de milho das quais 80 são vermelhas (milho rei) -
as restantes são amarelas. Vou seleccionar aleatoriamente 70 maçarocas (de entre as 5000),
representando a variável aleatória X número de maçarocas de milho rei que calharam na
amostra. Então posso dizer que X segue uma distribuição Binomial(70,0.016).
6.48 Uma máquina de café pode ser regulada para encher com uma média de µ cl cada chávena.
Sabe-se que a quantidade de café por chávena segue uma distribuição normal com desvio padrão
0.3cl.
(a) Quanto deverá valer µ de forma a que chávenas com capacidade de 8cl só transbordem 1%
das vezes?
Considere, para a resolução das restantes alı́neas, µ = 6.

(b) Se um café normal significar ter entre 5cl e 7cl, qual é a percentagem dos cafés que é normal?
(c) Pretende-se encher um jarro, de capacidade 60cl, com café. Qual a probabilidade de, ao se
pedir à máquina que dê 10 cafés, este limite não seja ultrapassado.
6.49 A variável aleatória X representa o erro de arredondamento (em décimas de cêntimos, dc)
efectuado na conversão dos preços de escudos para euros (um arredondamento negativo indica
que eu perdi dinheiro na operação e um positivo que ganhei). Pensa-se que X segue uma
distribuição normal com valor médio 0dc e desvio padrão 1dc.
(a) Qual o domı́nio da função densidade de X.

(b) Qual a probabilidade de no arredondamento de um certo preço eu ficar a perder mais de
1dc?
(c) E qual a probabilidade do arredondamento ser inferior a 1dc?
(d) Imagine que eu vou a uma loja e compro 10 produtos. Qual a probabilidade de eu ficar a
perder dinheiro nas seguintes duas situações:
i) O dono da loja soma os preços em escudos e arredonda apenas o total para euros.
ii) O dono da loja arredonda cada preço individual para euros e o arredondamento total
é dado pela soma dos arredondamentos individuais.
n 2o
6.50 Justifique que a função f (x) = √1 exp − x2 , x ∈ R, não é uma função densidade proba-
2 2π
bilidade.
Capı́tulo 7
Teorema Limite Central
Neste capı́tulo apresenta-se um resultado muito importante na teoria das Probabilidades e Estatı́stica,
que permite a determinação aproximada da distribuição da soma de variáveis aleatórias independentes,
com a mesma distribuição, eventualmente desconhecida.
7.1 Teorema Limite Central

Teorema 7.1 (Teorema Limite Central) Seja X1 , . . . , Xi , . . . uma sucessão de variáveis aleatórias
independentes e identicamente distribuı́das (i.i.d.), com valor médio µ e variância σ 2 6= 0, finitos.
Com base nestas define-se a v.a. Zn como:
Pn n
i=1√Xi− nµ Sn − nµ X
Zn = = √ , com Sn = Xi .
nσ nσ
i=1
Então a distribuição de Zn converge para uma distribuição Normal reduzida, quando n → +∞, ou
seja, a sua distribuição assimptótica é uma Normal reduzida:
a
Sn − nµ
Zn = √ ∼ N (0, 1)
nσ
Nota: Na prática, este teorema usa-se genericamente quando temos valores de n ≥ 30.
Apresentamos de seguida o T.L.C. de uma forma mais interessante para o que iremos aprender
posteriormente. Se no quociente que define Zn atrás dividirmos tanto o numerador como o denomi-
nador por n, o T.L.C. passa a ser enunciado não em relação ao total, Sn , mas em relação à média das
n
1X
variáveis aleatórias Xi , X̄ = Xi :
n
i=1
Teorema 7.2 (Teorema Limite Central) Seja X1 , . . . , Xi , . . . uma sucessão de variáveis aleatórias
independentes e identicamente distribuı́das (i.i.d.), com valor médio µ e variância σ 2 6= 0, finitos.
96
Então:
a
X̄ − µ
Zn = √ ∼ N (0, 1)
σ/ n
Exemplo 7.1 Num estudo sobre vendas num hipermercado, concluiu-se que a procura diária de arroz
(em Kg) é uma v.a. com valor médio 40Kg e desvio-padrão 5Kg.
Tendo sido encomendado 14.500Kg de arroz para venda venda no próximo ano, qual a probabilidade
deste stock cobrir a procura de arroz nesse perı́odo? (Considere-se um ano com 364 dias).
Seja Xi = procura de arroz no dia i, i=1,2,. . . ,364 e admitamos que estas variáveis alaetórias são
i.i.d.. Sabemos que:
E (Xi ) = 40Kg, V (Xi ) = 25Kg 2 , i = 1, 2, . . . , 364
364
X
A procura de arroz durante um ano será S364 = Xi e queremos calcular P (S364 ≤ 14.500).
i=1
Ignoramos qual a distribuição de S364 , mas como se trata de uma soma de um grande número de
variáveis aleatórias i.i.d. (364 > 30), então pelo T.L.C.
a
S364 − 364 × 40 S364 − 14.560
√ = √ ∼ N (0, 1)
364 × 5 364 × 5
Assim,

S364 − 14.560 14.500 − 14.560
P (S364 ≤ 14.500) = P √ ≤ √ ≈
364 × 5 364 × 5
≈ P (Z ≤ −0.63) = Φ (−0.63) =
= 1 − Φ (0.63) = 1 − 0.7357 = 0.2643
Conclusão: ”É recomendável comprar mais arroz!”

2
Apresentamos de seguida dois importantes corolários do T.L.C., referentes à aproximação de
variáveis aleatórias Binomial e Poisson, respectivamente, pela distribuição Normal, que podem ser
muito úteis no cálculo de probabilidades.
Corolário 7.2.1 Seja X uma v.a. com distribuição Binomial de parâmetros n e p, i.e. X ∼
Binomial(n, p). Se n ≥ 30 e p tal que np > 5 e n(1 − p) > 5, então:
X ∼ N (np, np(1 − p))
Corolário 7.2.2 Seja X uma v.a. com distribuição Poisson de parâmetro λ, i.e. X ∼ P oisson(λ).
Se λ > 5, então:
X ∼ N (λ, λ)
Nota: Em ambos os corolário anteriores, como aproximamos a distribuição de uma v.a. discreta
pela distribuição de uma v.a. contı́nua, o cálculo de probabilidades aproximadas deve ser efectuado
sobre acontecimentos do tipo X ≤ k, sendo k um número inteiro não negativo, nomeadamente,
!
k − np
P (X ≤ k) ≈ P Z≤p , no caso Binomial;
np (1 − p)

k−λ
P (X ≤ k) ≈ P Z ≤ √ , no caso Poisson.
λ
Exemplo 7.2 Considere-se a v.a. X ∼ Binomial (60, 0.1). Calculemos P (2 ≤ X ≤ 10) e P (X = 10).
a
Como n = 60 ≥ 30, np = 60 × 0.1 = 6 > 5 e n(1 − p) = 60 × 0.9 = 54, X ∼ N (np, np(1 − p)) ≡
N (60 × 0.1, 60 × 0.1 × 0.9) ≡ N (6, 5.4). Então:
P (3 ≤ X ≤ 10) = P (X ≤ 10) − P (X < 3) = P (X ≤ 10) − P (X ≤ 2) ≈

10 − 6 2−6
≈P Z≤ √ −P Z ≤ √ = P (Z ≤ 1.72) − P (Z ≤ −1.72) =
5.4 5.4
P (Z ≤ 1.72) − P (Z ≥ 1.72) = P (Z ≤ 1.72) − (1 − P (Z ≤ 1.72)) =
= 2 × P (Z ≤ 1.72) − 1 = 2 × Φ(1.72) = 2 × 0.9573 = 0.9146

10 − 6 9−6
P (X = 10) = P (X ≤ 10) − P (X ≤ 9) ≈ P Z ≤ √ −P Z ≤ √ =
5.4 5.4
P (Z ≤ 1.72) − P (Z ≤ 1.29) = Φ(1.72) − Φ(1.29) = 0.9573 − 0.9015 = 0.0558
Nota: Experimente calcular os valores das probabilidades acima usando a distribuição exacta, para
comparar resultados.
2
Exemplo 7.3 Considere-se a v.a. X ∼ P oisson(230). Calculemos P (X = 241). Estando nas

a
condições do corolário (7.2.2), X ∼ N (λ, λ) ≡ N (230, 230). Então:

241 − 230 240 − 230
P (X = 241) = P (X ≤ 241) − P (X ≤ 240) ≈ P Z ≤ √ −P Z ≤ √ =
230 230
P (Z ≤ 0.73) − P (Z ≤ 0.66) = Φ(0.73) − Φ(0.66) = 0.7673 − 0.7454 = 0.0219
2

7.1 Numa loja de conveniência cada pessoa gasta, em média, 10e, com um desvio padrão de 3.75e.
Qual a probabilidade de 100 clientes gastarem mais de 1100e, admitindo que os gastos são
independentes de pessoa para pessoa?
7.2 O número de sismos no Japão, por mês, é uma v.a. com média 5 sismos e desvio padrão 2
sismos. Admitindo que os sismos são independentes entre si, determine a probabilidade de nos
próximos 40 anos haver no máximo 2300 sismos.
7.3 Uma empresa vende caixas com biscoitos e, quando lhe é solicitado, envia-as pelo correio. Para
as evitar pesar, cobra sempre o valor de portes de correio correspondente a admitir que qualquer
caixa pesa 2508g.
Cada caixa leva 100 biscoitos e o peso da embalagem plástica é desprezável.
Se soubermos que o peso de cada biscoito é variável mas que em média pesa 25g com um desvio
padrão de 8g, determine a probabilidade do valor pago em portes de correio com o envio de uma
caixa ser inferior ao valor que pagaria, caso a caixa fosse pesada.
7.4 Ao adicionar números, um computador arredonda cada número para o inteiro mais próximo.
Admita que os erros cometidos são v.a.’s independentes e identicamente distribuı́das (i.i.d.) com
valor médio igual a 0 e variância igual a 1/12.
Se 1200 números forem adicionados, qual a probabilidade aproximada de que o erro total
cometido não ultrapasse 15.4?
7.5 Envelopes de avião são empacotados em grupos de 100, sendo depois pesados. Supondo que o
peso de cada envelope é uma v.a. com valor médio igual a 1 grama e desvio padrão de 0.05 g,
independentemente de envelope para envelope, determine:
(a) a probabilidade de que um pacote, com exactamente 100 envelopes, pese mais de 100.5 g.
(b) a probabilidade de que a média dos pesos dos 100 envelopes de um pacote, diste do respec-
tivo valor médio por uma quantidade superior a 0.01g.
7.6 Numa determinada estufa de produção de tulipas vão-se semear 240 bolbos desta flor. Sabe-se
que em média cada bolbo produz 4 flores, com um desvio padrão de 2 flores. Qual a probabilidade
aproximada de se conseguir obter uma produção final de mais de 1000 tulipas? Justifique.
7.7 Na população das mulheres cerca de 20% estão grávidas. Supondo que se selecciona ao acaso
250 mulheres, qual a probabilidade de que 50 estejam grávidas? E qual a probabilidade de que
pelo menos 50 estejam grávidas?
7.8 Um aviário vende ovos em caixas de 1 dúzia, verificando-se que cerca de 1% dos ovos se partem
no transporte para os seus locais de comercialização. Num contentor com 80 caixas qual a
probabilidade de se encontrarem entre 5 e 15 ovos partidos?
7.9 Um médico atende, em média, 4 pessoas por hora, todas as manhãs de trabalho (4 horas),
cobrando por consulta 75 e. Admitindo que o número de pessoas atendidas por hora segue uma
distribuição Poisson, qual a probabilidade de:
(a) Em 10 manhãs ele receber pelo menos 12 750 e.

(b) Em 6 manhãs receber entre 7200 e e 7950 e.
7.10 O número de utentes diários de uma máquina de venda de selos tem uma distribuição de Poisson
com valor médio 20. Determine a probabilidade de num mês de 30 dias:
(a) Usarem a máquina entre 580 e 621 pessoas.

(b) Usarem a máquina 580 pessoas.
7.11 Sabe-se que o número de automóveis que entram numa auto-estrada num perı́odo de 10 segundos
é uma v.a. com distribuição de Poisson de valor médio 3.
Qual a probabilidade aproximada de entrarem 20 ou mais automóveis durante 30 segundos?
(a) Quando o carteiro Zé toca à porta demoram sempre um determinado tempo a abrir, que se
sabe ter distribuição exponencial de valor médio 30 segundos. Todos os dias o carteiro Zé
tem de tocar em 300 portas diferentes. A probabilidade de, num desses dias, demorarem
menos de 10 segundos a abrir em mais de 70 das portas é de aproximadamente 0.1.
(b) A altura a que cada pulga da espécie ”Bicho-de-pé”salta é uma variável aleatória de média
10 centı́metros e desvio padrão 2 centı́metros. Assim, somando a altura a que 100 destas
pulgas saltam, podemos dizer que a probabilidade dessa altura total exceder os 10 metros
é aproximadamente 0.5.
(c) Suponha que o número de chocolates vendidos diariamente por uma máquina é uma variável
aleatória de valor médio e desvio padrão iguais a 3 chocolates. Assuma ainda que o número
de chocolates vendidos em determinado dia é independente do número de chocolates vendi-
dos noutro dia qualquer. Então a probabilidade de em 60 dias a máquina vender no máximo
180 chocolates é de 0.5.
(d) Uma companhia de seguros está a considerar criar um seguro especial para cobrir as perdas
de colheita de cereja por causa do granizo. Sabe-se que a probabilidade da colheita de um
qualquer agricultor ser perdida por este motivo, num qualquer ano, é de 0.01. Supondo que
2500 produtores de cereja estariam interessados em subscrever tal seguro, a probabilidade
de num determinado ano a companhia de seguros ser obrigada a pagar no máximo 10
prémios, relativos a este seguro e a este número de produtores, é de aproximadamente 0.2.
(e) O número de estrelas cadentes que se observa das 21h às 22h de cada dia, no Cabo da Roca,
é uma variável aleatória com média 5 e variância 4. Podemos então dizer que em meio ano
(= 183 dias) a probabilidade de se observarem no total mais de 913 estrelas cadentes neste
horário é de aproximadamente 0.53.
7.13 Enuncie o Teorema do Limite Central e dê um seu exemplo de aplicação.

Capı́tulo 8
Inferência Estatı́stica. Estimação

Pontual. Distribuições por
Amostragem.
O principal objectivo da maioria dos estudos estatı́sticos é a generalização, para as populações em

estudo, das caracterı́sticas observadas nas amostras destas recolhidas.
Muito frequentemente a informação que dispomos existe apenas para um subgrupo (uma amostra)
de um grande conjunto de items de interesse, significando a necessidade de generalizações para além
dos dados.
A inferência estatı́stica consiste assim num conjunto de métodos usados para tirar conclusões
sobre uma população e permitir a tomada de decisões. Estes métodos utilizam a informação contida
numa amostra da população. A inferência estatı́stica compreende duas grandes áreas de interesse - a
estimação de parâmetros e os testes de hipóteses.
Por exemplo, considere-se que estamos interessados em conhecer o nı́vel de poluição médio num
determinado lago. Podemos recolher, em diversos dias escolhidos ao acaso, amostras da água e medir
esse nı́vel. A média dos valores observados pode servir para estimar (pontualmente) o verdadeiro valor
médio do nı́vel de poluição. Ainda referente a este exemplo, determinado organismo ambiental pode
estar interessado em testar se o nı́vel médio de poluição nas águas do lago (desconhecido) ultrapassa
certo valor estipulado por lei. Tal pode também ser feito usando a amostra de dados observada.
Antes de avançarmos para o estudo de alguns dos métodos da inferência estatı́stica, apresentamos
algumas definições de conceitos essenciais à compreensão do que se segue.
8.1 Populações, amostras aleatórias e estatı́sticas

É muito importante saber distinguir uma população de uma amostra.
Definição 8.1 (População) Uma população consiste em todas as possı́veis observações de um dado
fenómeno.
Definição 8.2 (Amostra) Uma amostra é um subconjunto da população.
Deve-se ainda saber distinguir uma população finita de uma população infinita.
101
Uma população é finita se consiste num número finito ou fixo de elementos ou observações como,
por exemplo, o caso do número de alunos de uma determinada escola ou os nı́veis das águas do Tejo
registados mensalmente de 1900 a 2000.
Uma população é infinita se contém, pelo menos hipoteticamente, um número infinito de elementos
como, por exemplo, quando observamos o valor de uma v.a. contı́nua e há um número infinito de
resultados possı́veis, ou quando eu penso que não há limite para o número de vezes que posso atirar
ao ar uma moeda equilibrada.
Neste curso nós vamos apenas focar-nos nas populações infinitas.
As generalizações que almejamos conseguir, baseadas em amostras, não terão significado se as
amostras não tiverem a si associadas um elemento de aleatoriedade. Imaginemos que estávamos
interessados em estimar a quantidade média de dinheiro que os Portugueses dispendem nas férias do
Verão. Se seleccionássemos uma amostra de Portugueses que tivéssemos encontrado num cruzeiro de
luxo e os inquirı́ssemos a este respeito, ninguém acharia que os resultados obtidos seriam adequados
para extrapolar para a restante população portuguesa! Temos pois de recorrer a amostras seleccionadas
ao acaso, de entre todos os elementos da população, ditas amostras aleatórias:
Definição 8.3 (Amostra aleatória) Uma amostra de tamanho n de uma população infinita é dita
uma amostra aleatória se consiste em valores de variáveis aleatórias independentes todas tendo a
mesma distribuição f (·):
i.i.d.
(X1 , . . . , Xn ) tal que Xi ∼ f (·), i = 1, . . . , n.
Exemplo 8.1 Suponhamos que estamos interessados na população peso das formigas da espécie
Solenopsis, medido em décimas de grama e denotada pela v.a. X. Sabemos que esta população segue
uma distribuição normal de média 10dg e desvio padrão 2dg, X ∼ N (10, 22 ).
Desta população vamos recolher uma amostra aleatória de 4 elementos - 4 pesos (X1 , X2 , X3 , X4 ).
Como todos estes pesos vêm da mesma população, então:
X1 ∼ N (10, 22 )
X2 ∼ N (10, 22 )
X3 ∼ N (10, 22 )
X4 ∼ N (10, 22 ),
sendo X1 , X2 , X3 e X4 v.a.’s independentes.

Imagine que, após a selecção aleatória de 4 formigas, os pesos observados foram x1 = 8dg, x2 =
13dg, x3 = 9dg e x4 = 8.5dg. Isto significa que a amostra aleatória (X1 , X2 , X3 , X4 ) foi concretizada
na amostra observada (x1 , x2 , x3 , x4 ) = (8, 13, 9, 8.5).
2
Vamos pois estar concentrados nos problema de seleccionar uma amostra aleatória da população
em estudo com densidade (ou função probabilidade) f (·) e com base nela fazer-se inferências sobre
f (·), mais precisamente sobre parâmetros desconhecidos de f (·).
Dada uma amostra aleatória, precisamos ainda definir o conceito de estatı́stica:
Definição 8.4 (Estatı́stica) Uma estatı́stica é uma qualquer função das observações de uma amostra
aleatória.
Exemplo 8.2 (Alguns exemplos de estatı́sticas) Dada uma amostra aleatória (X1 , . . . , Xn ), de
dimensão n, são estatı́sticas:
n
1X
X A média amostral, X̄ = Xi ;
n
i=1
n
1X k
X Momento amostral de ordem k, Mk = Xi ;
n
i=1
n n
!
1 X
2
2 1 X
X A variância amostral, S = Xi − X̄ = Xi2 − nX̄ 2
;
n−1 n−1
i=1 i=1
√
X O desvio padrão amostral, S = S2;
X O máximo amostral, X(n) = max{X1 , . . . , Xn };
X O mı́nimo amostral, X(1) = min{X1 , . . . , Xn };
X A mediana e a moda amostrais, M e e M o, respectivamente;
X A própria amostra, (X1 , . . . , Xn ).
Nota: Uma estatı́stica, sendo uma função das observações, é uma variável aleatória. A sua dis-
tribuição tem o nome de distribuição por amostragem da estatı́stica.
8.2 Estimação pontual

Começamos agora a abordar o problema da estimação, apontado como uma das áreas de interesse
da inferência estatı́stica. Este problema vai ser aqui tratado da seguinte forma - suponhamos que a
população em que estamos interessados é representada por uma v.a. X que segue uma distribuição
de forma conhecida a menos de um parâmetro (ou conjunto de parâmetros) - por exemplo, X pode
seguir uma distribuição N (µ, 22 ), em que µ é desconhecido.
O objectivo da estimação pontual é então seleccionar um único número, baseado em dados amostrais,
que seja o valor mais plausı́vel para o parâmetro a estimar. O valor numérico de uma estatı́stica é
usado como estimativa pontual.
Nota: É habitual denotar por letras gregas os parâmetros populacionais a estimar.
Definição 8.5 (Estimador e estimativa pontual) Se X é uma v.a. com função densidade ou
probabilidade f (x), caracterizada por um parâmetro desconhecido θ, e (X1 , . . . , Xn ) é uma amostra
aleatória de tamanho n de X, a estatı́stica T = h(X1 , . . . , Xn ) é chamada um estimador pontual de
θ. Após a amostra ter sido recolhida, o valor particular que T toma, digamos T = θ̂, é chamado
estimativa pontual de θ.
Nota: O parâmetro desconhecido a estimar θ, do qual depende a distribuição de probabilidade de

uma variável aleatória, pode ser um vector, i.e. pode ser constituı́do por mais de um elemento.
Exemplo 8.3 Retomemos o exemplo 8.1, da população peso das formigas Solenopsis, medido em
décimas de grama e denotada pela v.a. X. Suponhamos que o parâmetro µ da média populacional era
desconhecido, i.e. X ∼ N (µ, 22 ), µ desconhecido. O valor de µ pode ser estimado pontualmente, por
exemplo, pela média de uma amostra aleatória. Se quisermos usar uma amostra aleatória de dimensão
4, (X1 , X2 , X3 , X4 ), então um estimador de µ é:
4
1X
X̄ = Xi
4
i=1
Se a amostra observada foi (x1 , x2 , x3 , x4 ) = (8, 13, 9, 8.5), então a estimativa de µ é a concretização
do estimador X̄, atrás:
4
1X
µ̂ = x̄ = xi = 9.625dg
4
i=1
Apresentamos de seguida quais os mais habituais parâmetros populacionais que teremos de estimar
e qual o estimador pontual que usualmente se utiliza na sua estimação:
Parâmetro Populacional Estimador

Média populacional Média amostral
µ X̄
Momento de ordem k Momento amostral de ordem k
mk Mk
Proporção populacional Proporção amostral
p P
Variância populacional Variância amostral
σ2 S2
Desvio padrão populacional Desvio padrão amostral
σ S
Diferença das médias de 2 amostras
Diferença das médias de duas populações independentes, uma de cada população
µ1 − µ2 X̄1 − X̄2
8.3 Métodos de Obtenção de Estimadores‡

Vamos agora descrever dois dos métodos mais empregues, de entre os existentes, para a obtenção
de estimadores para cada parâmetro populacional que tenhamos de estimar - o Método dos Momentos
e o Método da Máxima Verosimilhança.
8.3.1 Métodos dos Momentos

Um dos primeiros métodos de obtenção de estimadores para parâmetros desconhecidos foi o método
dos momentos, que decorre da equação dos momentos populacionais desconhecidos, dependentes do
parâmetro a estimar, com momentos amostrais.
Definição 8.6 (Método dos Momentos) Seja X é uma v.a. com função densidade ou probabilidade
f (x), caracterizada por um parâmetro desconhecido θ, eventualmente vectorial, i.e. θ = (θ1 , . . . , θp ),
e seja mk = E [X k ] o momento de ordem k de X (em torno da origem), regra geral dependente de
n
1X k
θ, mk = mk (θ). Seja (X1 , . . . , Xn ) é uma amostra aleatória de tamanho n de X e Mk = Xi o
n
i=1
momento amostral de ordem k.
Formem-se as seguintes p equações em θ = (θ1 , . . . , θp ):

 M1 = m1 (θ)
..



.



Mk = mk (θ)

 ..
.




Mp = mp (θ)

À solução θ̃ = (θ̃1 , . . . , θ̃p ) destas equações, que assumimos única, chamamos estimador dos mo-
mentos de θ.
Exemplo 8.4 Retomando o exemplo 8.1, da população peso das formigas Solenopsis, medido em
décimas de grama e denotada pela v.a. X. Continuemos a supor que o parâmetro µ da média popu-
lacional é desconhecido, i.e. X ∼ N (µ, 22 ), µ desconhecido.
Encontremos o estimador dos momentos de µ, recorrendo a uma amostra aleatória de dimensão
n retirada da população, (X1 , . . . , Xn ). Sabemos que m1 = E [X] = µ, depende do parâmetro descon-
hecido. Então, de acordo com o método dosPmomentos, devemos equacionar esta quantidade com o
correspondente momento amostral, M1 = n1 ni=1 Xi = X̄:
m1 = M1 ⇔ µ = X̄.
Assim o estimador dos momentos de µ é µ̃ = X̄.

2
8.3.2 Método da Máxima Verosimilhança

Este método de estimação, popularizado no inı́cio do século XX, é o mais frequentemente usado
essencialmente por causa das propriedades que confere aos estimadores que obtém. Assenta na ideia
que o estimador de um parâmetro deve ser aquele que maximiza a função densidade ou de probabilidade
da amostra.
Definição 8.7 (Função de verosimilhança) Dado um conjunto de n variáveis aleatórias X1 , . . . , Xn

cuja distribuições dependem de parâmetros θ, define-se a sua função verosimilhança como a correspon-
dente função densidade ou probabilidade conjunta, que se denota por L, considerada como função de
θ, L(θ) = f (x1 , . . . , xn ; θ).
Nota: Se (X1 , . . . , Xn ) for uma amostra aleatória então a sua função de verosimilhança é dada por:
n
Y
L(θ) = f (x1 , . . . , xn ; θ) = f (xi ).
i=1
Definição 8.8 (Método da Máxima verosimilhança) Seja L(θ) a função verosimilhança de um

conjunto de variáveis aleatórias X1 , . . . , Xn . Se θ̂ = θ̂(x1 , . . . , xn ) for o valor que maximiza L(θ), de
entre todos os valores que θ pode tomar, então θ̂(X1 , . . . , Xn ) é o estimador de máxima verosimilhança
de θ e θ̂ = θ̂(x1 , . . . , xn ) a correspondente estimativa de máxima verosimilhança.
Exemplo 8.5 Voltemos ao exemplo 8.1, da população peso das formigas Solenopsis, medido em
décimas de grama e denotada pela v.a. X. Continuemos a supor que o parâmetro µ da média popu-
lacional é desconhecido, i.e. X ∼ N (µ, 22 ), µ desconhecido.
Encontremos o estimador de máxima verosimilhança de µ, recorrendo a uma amostra aleatória de
dimensão n retirada da população, (X1 , . . . , Xn ):
n n
(xi − µ)2

Y 1 Y
L(µ) = f (x1 , . . . , xn ; µ) = f (xi ) = √ exp − =
2 2π 2 × 22
i=1 i=1
( n )
1 1X 2
= √ exp (xi − µ)
(2 2π)n 8
i=1
A maximização da verosimilhança acima é equivalente à maximização do logaritmo natural da

verosimilhança:
n
1 1X
l(µ) = log(L(µ)) = n log √ + (xi − µ)2
2 2π 8
i=1
Para maximizarmos esta função em µ encontremos o zero da sua derivada:
n n n
dl(µ) 1X X 1X
=0⇔ 2(xi − µ) = 0 ⇔ xi − nµ = 0 ⇔ µ = xi = x̄
dµ 8 n
i=1 i=1 i=1
Assim o estimador de máxima verosimilhança de µ é também µ̂ = X̄.

2
Seguidamente vamos considerar algumas propriedades que os estimadores idealmente devem pos-
suir, e que servem de guia à escolha de qual o estimador mais adequado ao nosso problema de estimação.
8.4 Algumas Propriedades dos Estimadores

Definição 8.9 (Estimador centrado) Um estimador pontual T diz-se centrado para o parâmetro θ
se E [T ] = θ. Um estimador que não é centrado diz-se enviesado.
Definição 8.10 (Erro Padrão de um estimador) Dado um estimador pontual T define-se o seu
erro padrão, que se designa SET , como o seu desvio padrão, caso exista:
p
SET = V(T )
Caso o erro padrão envolva parâmetros desconhecidos, que possam ser estimados dos dados, a substi-
tuição destes valores estimados no erro padrão produz o chamado erro padrão estimado, denotado
por SE ˆ T.
Nota: No caso de estimadores centrados, o erro padrão serve para medir a precisão do estimador.
Quanto menor for, melhor é a qualidade do estimador. Mais, dados dois estimadores centrados,
digamos T1 e T2 , do mesmo parâmetro, aquele que tiver menor variância (= menor erro padrão) é
considerado melhor estimador.
Exemplo 8.6 Considere-se uma amostra aleatória (X1 , . . . , Xn ) de uma população com valor médio
µ. X̄ é estimador centrado de µ:
n
" # " n # n n
1X 1 X 1X 1X 1
E [X̄] = E Xi = E Xi = E [Xi ] = µ = nµ = µ
n n n n n
i=1 i=1 i=1 i=1
σ2 σ
q
Temos ainda que V(X̄) = , ou seja, SEX̄ = V(X̄) = √ :
n n
n n
! !
1X 1 X
V(X̄) = V Xi = 2V Xi = (Xi v.a.0 s independentes)
n n
i=1 i=1
n n
1 X 1 X 2 1 σ2
= 2 V(Xi ) = 2 σ = 2 nσ 2 =
n n n n
i=1 i=1
Assim, quanto maior for n menor será a variância (e o erro padrão) do estimador. Desta forma, para
melhorar a qualidade da estimação bastará aumentar o tamanho da amostra, se possı́vel.
Nota: Supondo que σ 2 era desconhecido, podia ser estimado a partir dos dados por S 2 , sendo pois
ˆ
o erro padrão estimado da média dado por SE √S
X̄ = n .
2
µ e variância σ 2 . S 2 é estimador centrado de σ 2 :
n
" # " n #
2 1 X 2 1 X
2 2
E [S ] = E (Xi − X̄) = E (Xi + X̄ − 2Xi X̄) =
n−1 n−1
i=1 i=1
" n n n
# " n n
#
1 X X X 1 X X n
= E Xi2 + X̄ 2 − 2 Xi X̄ = E Xi2 + nX̄ 2 − 2X̄ Xi =
n−1 n−1 n
i=1 i=1 i=1 i=1 i=1
" n # " n #
1 X 1 X
= E Xi2 + nX̄ 2 − 2X̄nX̄ = E Xi2 − nX̄ 2 =
n−1 n−1
i=1 i=1
( n )
1 X
= E[Xi2 ] − nE [X̄ 2 ] = (8.4.1)
n−1
i=1
Repare-se agora que:
σ 2 = V(Xi ) = E [Xi2 ] − E 2 [Xi ] ⇔ σ 2 = E [Xi2 ] − µ2 ⇔ E [Xi2 ] = σ 2 + µ2 (8.4.2)
E também que:
σ2 σ2 σ2 σ2
V(X̄) = ⇔ E [X̄ 2 ] − E 2 [X̄] = ⇔ E [X̄ 2 ] − µ2 = ⇔ E [X̄ 2 ] = + µ2 (8.4.3)
n n n n
Substituindo-se (8.4.2) em (8.4.1), obtemos:

( n 2 )
σ2

2 1 X
2 2 σ 2 1 2 2 2
E [S ] = (σ + µ ) − n +µ = nσ + nµ − n − nµ
n−1 n n−1 n
i=1
1 1
(nσ 2 − σ 2 ) = (n − 1)σ 2 = σ 2

n−1 n−1
2
Notemos que apesar de S 2 ser estimador centrado de σ 2 , o mesmo não acontece com S em relação
a σ - i.e., E [S] 6= σ - apesar de para amostras grandes S ser um estimador ”quase centrado”de σ.
Definição 8.11 (Enviesamento de um estimador) Dado um estimador pontual T de um parâmetro

θ define-se o seu enviesamento, que se denota por bias(T ), como:
bias(T ) = E [T ] − θ
n
1X
µ e variância σ 2 . S 0 2 = (Xi − X̄)2 não é estimador centrado de σ 2 :
n
i=1
n n
" # " #
1 X n − 1 X
E [S 0 2 ] = E (Xi − X̄)2 = E (Xi − X̄)2 =
n n(n − 1)
i=1 i=1

n−1 2 n−1 n−1 2
E S2 = σ 6= σ 2

= E S =
n n n
Consequentemente, o seu enviesamento é diferente de zero:
n−1 2 σ2
bias(S 0 2 ) = E [S 0 2 ] − σ 2 = σ − σ2 = −
n n
No entanto este enviesamento converge para zero à medida que o tamanho da amostra n aumenta,
o que equivale a dizer que o valor esperado do estimador S 0 2 , apesar de não coincidir com o parâmetro
σ 2 que estima, tende para este valor à medida que aumenta o tamanho da amostra, sendo por isso
S 0 2 um estimador assimptoticamente centrado. 2
Definição 8.12 (Estimador assimptoticamente centrado) Um estimador pontual T de um parâmetro

θ diz-se assimptoticamente centrado para θ se lim E (T ) = θ.
n→∞
Para podermos comparar estimadores não centrados não podemos recorrer apenas ao erro padrão
dos estimadores, que avalia quão dispersos se encontram esses estimadores em redor do seu valor esper-
ado (função do parâmetro a estimar), mas temos também de levar em consideração os correspondentes
enviesamentos, que avaliam a distância do valor esperado do estimador ao parâmetro que ele estima:
Definição 8.13 (Erro quadrático médio) Sendo T um estimador pontual de um parâmetro θ,

define-se o seu erro quadrático médio como:
h i
EQM (T ) = E (T − θ)2
Proposição 8.1
EQM (T ) = V (T ) + bias2 (T )
Demonstração:
h i h i
EQM (T ) = E (T − θ)2 = E (T − E [T ] + E [T ] − θ)2 =
h i
= E (T − E [T ])2 + (E [T ] − θ)2 + 2 (T − E [T ]) (E [T ] − θ) =
h i h i
= E (T − E [T ])2 + E (E [T ] − θ)2 + 2 E [(T − E [T ]) (E [T ] − θ)] =
= V(T ) + (E [T ] − θ)2 + 2 (E [T ] − θ) E [(T − E [T ])] =
= V(T ) + (bias(T ))2 + 2 (E [T ] − θ) (E [T ] − E [T ]) =
= V(T ) + bias2 (T ) + 2 (E [T ] − θ) × 0 = V(T ) + bias2 (T )
Quando os estimadores são centrados o seu enviesamento é nulo, donde o erro quadrático médio
coincide com a sua variância, e a comparação entre este tipo de estimadores acaba apenas por assentar
apenas na comparação dos seus erros padrão.
Definição 8.14 (Eficiência de um estimador) A eficiência de um estimador é medida através do

seu erro quadrático médio. Dados dois estimadores pontuais T1 e T2 de um parâmetro θ dizemos que
T1 é mais eficiente do que T2 se:
EQM (T1 ) < EQM (T2 )
Caso a desigualdade anterior seja válida para qualquer estimador pontual T2 de θ então dizemos
que T1 é o estimador mais eficiente de θ.
Exemplo 8.9 Considere-se P uma amostra aleatória (X1 , . . . , Xn ) de uma população com valor médio
µ e variância σ 2 . X̄ = n1 ni=1 Xi é um estimador de µ mais eficiente do que T = nX1 :
σ2 σ2
EQM [X̄] = V (X̄) + bias2 (X̄) = + 02 =
n n
EQM [T ] = V(T ) + bias2 (T ) = V (nX1 ) + (E [T ] − µ)2 =

= n2 V(X1 ) + (E [nX1 ] − µ)2 = n2 σ 2 + (nE [X1 ] − µ)2 =
σ2 σ2
= n2 σ 2 + (n − 1)2 µ2 = − + n2 σ 2 + (n − 1)2 µ2 =
n n
σ2

1
= + n − 2
σ 2 + (n − 1)2 µ2 = EQM [X̄] + termo não negativo ≥ EQM [X̄]
n n
2
Para finalizar, referimos uma outra propriedade importante dos estimadores, baseada no conceito
de consistência de um estimador, relacionada com a ideia de que quanto mais informação amostral
possuirmos (maior número de elementos na amostra, n), mais proximamente conseguimos estimar
o valor do parâmetro. A avaliação desta propriedade é usualmente feita através do EQM , com o
seguinte resultado:
Proposição 8.2 (Estimador consistente) Um estimador pontual centrado T do parâmetro θ é

consistente se lim EQM (T ) = 0.
n→∞
σ2

Exemplo 8.10 X̄ é um estimador consistente de µ, já que lim EQM (X̄) = lim V (X̄) = lim =
n
0.
2
8.5 Distribuições por amostragem

Como vimos cada estimador é uma estatı́stica, pois é sempre uma função da amostra aleatória.
Assim, cada estimador é uma v.a. com uma distribuição associada, a qual designámos por distribuição
por amostragem.
Nesta secção vamos estudar a distribuição por amostragem de alguns estimadores, em algumas
situações concretas de interesse.
8.5.1 Distribuições por amostragem da média amostral, X̄

8.5.1.1 Suponhamos que foi seleccionada uma amostra aleatória de dimensão n, (X1 , . . . , Xn ), de uma
população Normal de média µ e variância σ 2 , conhecida. Assim, Xi ∼ N (µ, σ 2 ), σ 2
conhecida.
Pn
i X
Consequentemente, neste contexto, a distribuição por amostragem de X̄ = i=1 n é ainda
σ 2
Normal, com média E [X̄] = µ e variância V[X̄] = n , já que este estimador é dado como uma
combinação linear de variáveis aleatórias Normais independentes:
X̄ − µ
Z= √ ∼ N (0, 1)
σ/ n
8.5.1.2 Suponhamos agora que se seleccionou uma amostra aleatória de dimensão n, (X1 , . . . , Xn ), de
uma população Normal de média µ e variância σ 2 , desconhecida. Assim, Xi ∼ N (µ, σ 2 ),
σ 2 desconhecida.
Vamos aqui usar S 2 para estimar σ 2 , implicando uma distribuição por amostragem para a
média amostral t-student com n − 1 graus de liberdade:
X̄ − µ
T = √ ∼ t(n−1)
S/ n
8.5.1.3 Suponhamos ainda que foi seleccionada uma amostra aleatória de dimensão n, (X1 , . . . , Xn ),
de uma população Normal de média µ e variância σ 2 , desconhecida, mas que o tamanho
amostral n é superior ou igual a 30.
Neste caso, a distribuição por amostragem para a média amostral do ponto anterior,
pode ser aproximada por uma distribuição Normal reduzida, justificado através do Teorema do
Limite Central:
a
X̄ − µ
Z= √ ∼ N (0, 1)
S/ n
8.5.1.4 Consideremos agora que foi seleccionada uma amostra aleatória de dimensão n, (X1 , . . . , Xn ), de
uma de distribuição desconhecida, de média µ e variância σ 2 , conhecida. Consideremos
ainda que temos um tamanho de amostra n superior ou igual a 30.
Também aqui o Teorema do Limite Central é usado para justificar que a distribuição por
amostragem da média amostral é aproximadamente Normal reduzida:
a
X̄ − µ
Z= √ ∼ N (0, 1)
σ/ n
8.5.1.5 Finalmente, consideremos que seleccionámos uma amostra aleatória de dimensão n, (X1 , . . . , Xn ),
de uma de distribuição desconhecida, de média µ e variância σ 2 , desconhecida. Consid-
eremos ainda que temos um tamanho de amostra n superior ou igual a 30.
O Teorema do Limite Central justifica que a distribuição por amostragem da média
amostral é aproximadamente Normal reduzida:
a
X̄ − µ
Z= √ ∼ N (0, 1)
S/ n
8.5.2 Distribuição por amostragem para a diferença de médias amostrais, X̄1 − X̄2
Aqui consideraremos apenas um caso de muitos possı́veis.
Suponhamos que foram seleccionadas de forma independente duas amostras aleatórias de dimensões
n1 e n2 , respectivamente, de duas populações Normais independentes com variâncias conhecidas dadas,
respectivamente, por σ12 e σ22 . Suponhamos ainda que cada uma dessas amostras resulta nas corre-
spondentes médias amostrais X̄1 e X̄2 .
Neste contexto, a distribuição por amostragem de X̄1 − X̄2 é ainda Normal, por ser a com-
binação linear de variáveis aleatórias normais independentes:
(X̄1 − X̄2 ) − (µ1 − µ2 )

Z= q 2 ∼ N (0, 1)
σ1 σ22
n1 + n2
8.5.3 Distribuição por amostragem da proporção, P

Assuma-se que os elementos de determinada população possuem uma dada caracterı́stica, com
uma certa probabilidade p desconhecida, independentemente uns dos outros.
Suponhamos que se selecciona uma amostra aleatória de n elementos desta população. Se X deno-
tar o número desses elementos que possuem a referida caracterı́stica, sabemos que X ∼ Binomial(n, p).
Mais, se o tamanho da amostra n for suficientemente grande, o Teorema do Limite Central justifica
que:
a
X − np
Z=p ∼ N (0, 1) (8.5.4)
np(1 − p)
Já anteriormente dissemos que p pode ser pontualmente estimado pela proporção de elementos que
na amostra possuem a referida população, P . Notamos ainda que:
X
P =
n
Esta relação permite-nos pois obter uma distribuição por amostragem aproximada de P ,
usando (8.5.4):
a
P −p
Z=p ∼ N (0, 1)
p(1 − p)/n
Sendo p um parâmetro desconhecido,psomos frequentemente levados a estimar o erro padrão no

denominador na estatı́stica anterior por P (1 − P )/n.
8.5.4 Distribuição por amostragem da variância amostral, S 2

Suponhamos que foi seleccionada uma amostra aleatória de dimensão n, (X1 , . . . , Xn ), de uma
população Normal de média µ, desconhecida, e variância σ 2 . P 2
1 n
Neste contexto, a distribuição por amostragem de S 2 = n−1 i=1 Xi − X̄ é dada por:
(n − 1)S 2
X2 = ∼ χ2(n−1)
σ2

8.1 Considere a população formada pelo número de filhos por famı́lia (X) num determinado paı́s,
em que X=0, 1, 2, 3, 4 (não há famı́lias com mais de 4 filhos). Suponha que se conhece a sua
distribuição de probabilidade:

0 1 2 3 4
X
0.15 0.25 0.30 0.20 0.10
(a) Quais os valores populacionais de µ e σ 2 ?

(b) Desta população recolhe-se uma amostra aleatória constituı́da por 2 famı́lias - (X1 , X2 ).
Qual a distribuição de probabilidade de X1 e X2 e os respectivos parâmetros µ e σ 2 ?
(c) Suponha que recolheu a seguinte amostra aleatória de 10 famı́lias:
(1,3,0,0,2,3,0,2,4,1).
Com base nesta amostra estime pontualmente µ e σ 2 . Estime ainda o erro padrão da
estimativa de µ. Comente.
8.2 Considere que se seleccionou uma amostra aleatória (X1 , . . . , Xn ) de uma população N (µ, σ 2 ).
Pn
Xi
(a) Mostre que X̄ = i=1 é estimador centrado e consistente da média populacional.
n
X1 + Xn 2X1 + 3X2 + 5X3
(b) Mostre que θ̂1 = e θ̂2 = também são estimadores centrados de
2 10
µ. Qual é melhor? São consistentes?
(c) Mostre que (X̄)2 não é estimador centrado de µ2 .
8.3 Suponha que seleccionou uma amostra aleatória (X1 , . . . , Xn ) de uma população com a seguinte
função densidade probabilidade:
1

f (x) = θ, 0≤x≤θ
0, c.c.
Mostre que 2X̄ é um estimador centrado de θ. É também um estimador consistente?
8.4 Seja X̄1 a média de uma amostra aleatória de dimensão n extraı́da de uma população P oisson(λ)
e seja X̄2 a média de uma amostra aleatória da mesma dimensão extraı́da de uma população
P oisson(2λ). Considere ainda o seguinte estimador de λ:
(1 − p)X̄2
λ̂ = pX̄1 + , p ∈]0, 1[.
2
(a) λ̂ é um estimador centrado de λ?

(b) Qual é a sua variância e diga para que valor de p é que é mı́nima?
(c) λ̂ é um estimador consistente?
8.5 Sabe-se que a idade de determinada camada do subsolo segue uma distribuição Normal com
média de 0.5 milhões de anos e um desvio padrão de 20000 anos. Seleccionadas ao acaso 10
amostras de subsolo calcule a probabilidade de a média amostral das suas idades ser superior a
490000 anos.
8.6 Suponha que amostras aleatórias de dimensão 25 são extraı́das de uma população Normal de
média 100 e desvio padrão 10.
(a) Qual a probabilidade de a média amostral cair no intervalo de E [X̄] − 1.96 × SE[X̄] a
E [X̄] + 1.96 × SE[X̄]?
(b) Quanto deverá ser o tamanho amostral tal que a amplitude do intervalo definido em (a)
diminua para 2.
8.7 O tempo de espera em pista para a descolagem de cada avião no aeroporto de Lisboa é uma v.a.
com valor médio 4 minutos e desvio padrão 2.5 minutos. Suponha que se selecciona ao acaso 50
aviões, para se registarem os seus correspondentes tempos de espera. Calcule a probabilidade
de a média dos tempos de espera exceder os 5 minutos.
8.8 Assuma que o número de ovos que as tartarugas verdes depositam nas praias, em cada desova,
é uma v.a. de P oisson, com valor médio 15 ovos. Seleccionando ao acaso uma amostra de
100 tartarugas verdes, qual a probabilidade de que a média do número de ovos destas esteja
compreendido entre o seu valor médio e ± 3 vezes o seu erro padrão.
8.9 Suponha que o tempo de vida de determinada espécie de burros é uma v.a. com distribuição
exponencial, de valor médio 25 anos. Seleccionando ao acaso uma amostra de 40 burros desta
espécie, qual a probabilidade de que a média dos seus tempos de vida seja inferior a 20 anos?
8.10 Sabe-se que o nı́vel de colesterol no sangue está dependente, entre outras coisas, da idade das
pessoas. Considere a população desses nı́veis de colesterol em adultos com idades superiores
a 15 anos, que se sabe ter uma distribuição Normal de valor médio 275 mg/dl de sangue e
desvio padrão 100 mg/dl, da qual se vai retirar uma amostra de dimensão 25. Considere ainda a
população das crianças com idades inferiores a 15 anos, que se sabe ter uma distribuição Normal
de valor médio 180 mg/dl de sangue e desvio padrão 40 mg/dl, da qual se vai retirar uma amostra
de dimensão 20, independente da anterior. Representando X̄1 e X̄2 as médias das amostras atrás
indicadas, respectivamente, calcule a probabilidade de:
(a) X̄1 − X̄2 ser superior a 100mg/dl sangue.

(b) X̄1 − X̄2 estar compreendido entre 35mg/dl sangue e 155mg/dl sangue.
8.11 No paı́s das Maravilhas a proporção de loucos é de 0.45. Suponha que se pretende seleccionar
uma amostra aleatória de 500 habitantes deste paı́s. Qual a probabilidade de a proporção de
loucos que vão calhar na amostra exceder 0.5?
8.12 Numa população Normal de média desconhecida e desvio padrão 5 calcule a probabilidade de a
variância de uma amostra aleatória de dimensão 20 dessa população estar compreendida entre
26 e 58.
(a) Seja X̄ a média de uma amostra aleatória (X1 , . . . , Xn ). A sua distribuição por amostragem
é sempre Normal.
(b) Se X̄ for a média de uma amostra aleatória (X1 , . . . , Xn ) de uma população X ∼ P oisson(λ),
X̄ é pior estimador de λ do que X1 , o primeiro elemento da amostra.
8.14 Indique um estimador centrado e consistente para a média de uma população X ∼ Exponencial(λ).
(a) Uma amostra aleatória de dimensão 50 é seleccionada de uma população com média µ = 5
e variância σ 2 = 1. Então distribuição amostral de X̄ é aproximadamente t49 .
(b) Um estimador centrado é preferı́vel a um estimador não centrado porque a sua variância é
menor.
X
(c) Seja X uma variável aleatória Binomial, X ∼ Bin(n, p). A proporção amostral P = n é
um estimador centrado e consistente de p.
(d) Suponha que X ∼ N (4, 22 ) e que Y ∼ N (4, 12 ), independentes entre si. Seja X̄ a média
amostral de uma amostra aleatória de dimensão 5 da distribuição de X e seja Ȳ a média
amostral de uma amostra aleatória de dimensão 5 da distribuição de Y . Então P (X̄ >
Ȳ ) = 0.25.
(e) Se (X1 , X2 ) formam uma amostra aleatória de dimensão 2 de uma população Normal(µ, 22 ),
então o estimador T = X1 +2X
3
2
de µ tem distribuição por amostragem Normal.
(f) O erro padrão do estimador X̄ é igual ao desvio padrão da população de onde a amostra
aleatória foi seleccionada.
(g) O Teorema Limite Central é útil quando se pretende fazer um teste de hipóteses sobre
proporções.
(h) Vai seleccionar-se uma amostra aleatória de dimensão n > 40, (X1 , . . . , Xn ), de uma pop-
ulação X de média µ e variância σ 2 . É indiferente estimar a média populacional µ por
T1 = X̄ ou por T2 = X1 +X
n
2
ou ainda por T3 = X1 +X32 +X3 .
(i) Uma caracterı́stica numérica de uma amostra é um parâmetro.
(j) Se a média de uma população é conhecida não faz sentido efectuar testes de hipóteses
respeitantes à média populacional.
(k) Ao duplicar o tamanho de uma amostra aleatória retirada de uma população com variância
conhecida, a variabilidade do estimador média amostral diminui para metade.
(l) Se T1 e T2 são estimadores centrados de um parâmetro θ então uma sua qualquer combinação
linear também é um estimador centrado de θ.
(m) Considere que se extrai uma amostra aleatória (X1 , . . . , Xn ) de uma população com dis-
tribuição Poisson(λ). Então T = (n−1)X
n
1 +Xn
é um estimador centrado e consistente de
λ.
Capı́tulo 9
Intervalos de Confiança
No capı́tulo anterior vimos como estimar pontualmente um parâmetro populacional a partir de uma
amostra aleatória seleccionada da população.
No entanto, por causa da variabilidade amostral, raramente a estimativa que obtemos para o
parâmetro que queremos estimar coincide com ele próprio. Isto leva-nos a pensar que talvez tivesse
mais interesse obtermos um intervalo de valores plausı́veis para o parâmetro a estimar, em vez de um
único ponto - estimativa intervalar.
9.1 Intervalos de Confiança

Um intervalo de confiança não é mais do que uma estimativa intervalar para um parâmetro popu-
lacional. Seleccionada uma amostra aleatória da população, determina-se uma estimativa pontual do
parâmetro em questão e também o intervalo. Não temos a certeza que o intervalo obtido contenha
o verdadeiro valor do parâmetro, mas o intervalo é construı́do de tal forma que temos uma grande
confiança de que tal acontece.
Retomemos o exemplo das formigas da espécie Solenopsis, do capı́tulo anterior:
Exemplo 9.1 Consideramos a população do peso das formigas Solenopsis, medido em décimas de
grama, que sabemos ter distribuição Normal com média µ e variância σ 2 = 22 , X ∼ N (µ, 22 ).
Desta população observámos a amostra de 4 pesos, (8, 13, 9, 8.5), a qual usámos para obter uma
estimativa de µ, x̄ = 9.625dg. Queremos agora determinar limites inferior e superior de um intervalo
que seja quase certo de conter µ.
Em geral, para amostras de dimensão 4 desta população, sabemos das distribuições por amostragem
de X̄ estudadas no capı́tulo anterior, que:
X̄ − µ X̄ − µ
Z= √ = √ ∼ N (0, 1)
σ/ n 2/ 4
Como X̄ estima µ temos interesse em que a v.a. Z, atrás definida como a diferença destas
duas quantidades, seja o mais possı́vel próximo de zero, indicando proximidade entre o estimador e o
parâmetro. Vamos então exigir que, com uma grande probabilidade, digamos 0.95, a v.a. Z se situe
em torno de zero - ver figura.
117
0.95
−1.96 0 1.96
Assim,

X̄ − µ
P (−1.96 < Z < 1.96) = 0.95 ⇔ P −1.96 < √ < 1.96 = 0.95 ⇔
2/ 4
√ √
P −1.96 × 2/ 4 < X̄ − µ < 1.96 × 2/ 4 = 0.95 ⇔
√ √
P −X̄ − 1.96 × 2/ 4 < −µ < −X̄ + 1.96 × 2/ 4 = 0.95 ⇔
√ √
P X̄ − 1.96 × 2/ 4 < µ < X̄ + 1.96 × 2/ 4 = 0.95
√ √
Ao intervalo aleatório X̄ − 1.96 × 2/ 4; X̄ + 1.96 × 2/ 4 chamamos de intervalo de confiança a
95% para µ, designando-o por IC95% (µ). Concretizando este intervalo para a amostra observada obte-
√ √ √ √
mos o intervalo x̄ − 1.96 × 2/ 4; x̄ + 1.96 × 2/ 4 ≡ 9.625 − 1.96 × 2/ 4; 9.625 + 1.96 × 2/ 4 ≡
(7.665; 11.585). Também à concretização do intervalo aleatório chamamos intervalo de confiança a
95% para µ, representando-o de forma análoga à anteriormente indicada.
√ √
A probabilidade de o intervalo aleatório X̄ − 1.96 × 2/ 4; X̄ + 1.96 × 2/ 4 incluir o verdadeiro
valor da média µ é de 0.95. Isto é, se se extraı́rem repetidamente amostras de tamanho 4 desta mesma
população e este intervalo for determinado para cada uma dessas amostras, então a frequência relativa
dos intervalos contendo µ será de aproximadamente 0.95.
Note-se então que temos uma grande confiança (95%) de que o intervalo obtido contenha µ.
Vejamos agora o que sucede aumentando a confiança do intervalo para 99%:

X̄ − µ
P (−2.58 < Z < 2.58) = 0.99 ⇔ P −2.58 < √ < 2.58 = 0.99 ⇔
2/ 4
√ √
P X̄ − 2.58 × 2/ 4 < µ < X̄ + 2.58 × 2/ 4 = 0.99
Assim,
√ √
IC99% (µ) ≡ X̄ − 2.58 × 2/ 4; X̄ + 2.58 × 2/ 4 ≡ (X̄ − 2.58; X̄ + 2.58) ≡
≡ (9.625 − 2.58; 9.625; 2.58) ≡ (7.045; 12.205)
Tenho então mais confiança que µ pertence ao novo intervalo de confiança, mas para tal o intervalo
resultante é mais largo!
2
No exemplo anterior construı́mos dois intervalos de confiança para um mesmo parâmetro, com base
numa argumentação algo intuitiva. Mas em geral, qual o método a aplicar na construção de intervalos
de confiança? É o que vamos aprender de seguida. Mas antes comecemos por definir um conceito que
iremos precisar depois:
Definição 9.1 (Estatı́stica Pivot) Seja (X1 , . . . , Xn ) uma amostra aleatória de uma população
dependente de um parâmetro θ. Seja T uma estatı́stica, função da amostra e do parâmetro θ,
i.e. T = T (X1 , . . . , Xn , θ). Se a distribuição por amostragem de T não depende de θ então diz-se
que T é uma estatı́stica pivot.
Exemplo 9.2 Considere-se uma amostra aleatória (X1 , . . . , Xn ) da população dos pesos das formigas
Solenopsis, X ∼ N (µ, 22 ). Considere-se ainda a estatı́stica
X̄ − µ
Z= √ ,
2/ n
função da amostra (X1 , . . . , Xn ) e do parâmetro populacional µ. Sabemos, do capı́tulo anterior, que
a sua distribuição por amostragem é N (0, 1), i.e. uma distribuição que não depende do parâmetro µ.
Por este motivo, Z atrás definida é uma estatı́stica pivot.
2
Definição 9.2 (Método Pivotal) Se T = T (X1 , . . . , Xn , θ) for uma estatı́stica pivot contı́nua então,
para (1 − α) fixo, existem valores c1 e c2 , dependentes de (1 − α), tais que P (c1 < T < c2 ) = 1 − α.
Se tivermos que
c1 < T (X1 , . . . , Xn , θ) < c2 ⇔ T1 (X1 , . . . , Xn ) < θ < T2 (X1 , . . . , Xn ),
para funções T1 e T2 não dependentes de θ, então (T1 ; T2 ) é um intervalo de confiança a (1−α)×100%

para θ.
Notas:
1. c1 e c2 são quantidades independentes de θ, já que a distribuição de T é independente de θ.
2. Diferentes pares de (c1 , c2 ) produzem diferentes intervalos de confiança (T1 ; T2 ). Para (1 − α)

fixo há muitas possibilidades de pares (c1 , c2 ) diferentes. Uma forma de orientar a nossa escolha
é fazê-la de modo a que o intervalo resultante (T1 ; T2 ) venha o mais estreito possı́vel. No caso
de os intervalos serem construı́dos com base numa estatı́stica pivot com distribuição Normal ou
t-Student tal implica a escolha de um intervalo centrado na média da correspondente distribuição
pivot.
9.2 Intervalos de Confiança para a média populacional, µ

Vamos deduzir nesta secção intervalos de confiança (1 − α) × 100% para a média populacional,
usando o método pivotal. Para tal temos de considerar diversas situações possı́veis, que exigem o uso
de estatı́sticas pivot cuja distribuição por amostragem estudámos no capı́tulo anterior.
9.2.1 População Normal com variância conhecida

Suponhamos que seleccionámos uma amostra aleatória (X1 , . . . , Xn ) de uma população Normal(µ, σ 2 ),
de variância σ 2 conhecida, com a qual pretendemos construir um intervalo de confiança (1 − α) × 100%
para µ:
X̄−µ
• Escolha da estatı́stica pivot: Z = σ/ √ ∼ N (0, 1);
n
• Para um nı́vel de confiança de (1 − α) × 100%, escolha de c1 e c2 : Pela nota 2 ao método pivotal,

e porque a distribuição da estatı́stica pivot é Normal reduzida, escolhemos c1 = −c e c2 = c -
ver figura a seguir.
1−α
−c 0 c
P (−c < Z < c) = 1 − α ⇔ P (Z < c) − P (Z ≤ −c) = 1 − α ⇔

P (Z < c) − P (Z ≥ c) = 1 − α ⇔ P (Z < c) − (1 − P (Z < c)) = 1 − α ⇔
α α
Φ(c) − 1 + Φ(c) = 1 − α ⇔ Φ(c) = 1 − ⇔ c = Φ−1 1 − = z1− α2
2 2
• Determinação dos extremos do intervalo de confiança:
X̄ − µ
− c < Z < c ⇔ −z1− α2 < Z < z1− α2 ⇔ −z1− α2 < √ < z1− α ⇔
σ/ n 2
σ σ σ σ
− z1− α2 √ < X̄ − µ < z1− α2 √ ⇔ −z1− α2 √ − X̄ < −µ < z1− α2 √ − X̄ ⇔
n n n n
σ σ
X̄ − z1− α2 √ < µ < X̄ + z1− α2 √
n n
• Assim,

σ σ
IC(1−α)×100% (µ) ≡ X̄ − z1− α2 √ ; X̄ + z1− α √
n 2 n
9.2.2 População Normal com variância desconhecida

Suponhamos que seleccionámos uma amostra aleatória (X1 , . . . , Xn ) de uma população Normal(µ, σ 2 ),
de variância σ 2 desconhecida, com a qual pretendemos construir um intervalo de confiança (1 − α) ×
100% para µ:
X̄−µ
• Escolha da estatı́stica pivot: T = S/ √ ∼ t(n−1) ;
n
• Para um nı́vel de confiança de (1 − α) × 100%, escolha de c1 e c2 : Pela nota 2 ao método pivotal,

e porque a distribuição da estatı́stica pivot é t-Student, escolhemos c1 = −c e c2 = c.
P (−c < T < c) = 1 − α ⇔ P (T < c) − P (T ≤ −c) = 1 − α ⇔

P (T < c) − P (T ≥ c) = 1 − α ⇔ P (T < c) − (1 − P (T < c)) = 1 − α ⇔
α α
P (T < c) − 1 + P (T < c) = 1 − α ⇔ P (T < c) = 1 − ⇔ c = Ft−1 1 − = t1− α2
2 (n−1)
2
X̄ − µ
− c < T < c ⇔ −t1− α2 < T < t1− α2 ⇔ −t1− α2 < √ < t1− α ⇔
S/ n 2
S S S S
− t1− α2 √ < X̄ − µ < t1− α2 √ ⇔ −t1− α2 √ − X̄ < −µ < t1− α2 √ − X̄ ⇔
n n n n
S S
X̄ − t1− α2 √ < µ < X̄ + t1− α2 √
n n
• Assim,

S S
IC(1−α)×100% (µ) ≡ X̄ − t1− α2 √ ; X̄ + t1− α √
n 2 n
9.2.3 População Normal com variância desconhecida e n > 30

Suponhamos que seleccionámos uma amostra aleatória de dimensão n > 30, (X1 , . . . , Xn ), de
uma população Normal(µ, σ 2 ), de variância σ 2 desconhecida, com a qual pretendemos construir um
intervalo de confiança (1 − α) × 100% para µ:
a
X̄−µ
• Escolha da estatı́stica pivot: Z = √
S/ n
∼ N (0, 1);
• Para um nı́vel de confiança de (1 − α) × 100%, escolha de c1 e c2 - escolhemos c1 = −c e c2 = c.
P (−c < Z < c) = 1 − α ⇔ P (Z < c) − P (Z ≤ −c) = 1 − α ⇔

P (Z < c) − P (Z ≥ c) = 1 − α ⇔ P (Z < c) − (1 − P (Z < c)) = 1 − α ⇔
α α
Φ(c) − 1 + Φ(c) = 1 − α ⇔ Φ(c) = 1 − ⇔ c = Φ−1 1 − = z1− α2
2 2
X̄ − µ
− c < Z < c ⇔ −z1− α2 < Z < z1− α2 ⇔ −z1− α2 < √ < z1− α ⇔
S/ n 2
S S S S
− z1− α2 √ < X̄ − µ < z1− α2 √ ⇔ −z1− α2 √ − X̄ < −µ < z1− α2 √ − X̄ ⇔
n n n n
S S
X̄ − z1− α2 √ < µ < X̄ + z1− α2 √
n n
• Assim, obtemos o seguinte intervalo de confiança aproximado:

S S
IC(1−α)×100% (µ) ≡ X̄ − z
1− α √ ; X̄ + z1− α √
2 n 2 n
9.2.4 População desconhecida com variância conhecida e n > 30

Suponhamos que seleccionámos uma amostra aleatória de dimensão n > 30, (X1 , . . . , Xn ), de uma
população desconhecida com média µ e variância conhecida σ 2 , e com a qual pretendemos construir
um intervalo de confiança (1 − α) × 100% para µ:
a
X̄−µ
σ/ n
∼ N (0, 1);
P (−c < Z < c) = 1 − α ⇔ P (Z < c) − P (Z ≤ −c) = 1 − α ⇔

P (Z < c) − P (Z ≥ c) = 1 − α ⇔ P (Z < c) − (1 − P (Z < c)) = 1 − α ⇔
α α
Φ(c) − 1 + Φ(c) = 1 − α ⇔ Φ(c) = 1 − ⇔ c = Φ−1 1 − = z1− α2
2 2
X̄ − µ
− c < Z < c ⇔ −z1− α2 < Z < z1− α2 ⇔ −z1− α2 < √ < z1− α ⇔
σ/ n 2
σ σ σ σ
− z1− α2 √ < X̄ − µ < z1− α2 √ ⇔ −z1− α2 √ − X̄ < −µ < z1− α2 √ − X̄ ⇔
n n n n
σ σ
X̄ − z1− α2 √ < µ < X̄ + z1− α2 √
n n

σ σ
IC(1−α)×100% (µ) ≡ X̄ − z
1− α √ ; X̄ + z1− α √
2 n 2 n
9.2.5 População desconhecida com variância desconhecida e n > 30

Suponhamos que seleccionámos uma amostra aleatória de dimensão n > 30, (X1 , . . . , Xn ), de uma
população desconhecida com média µ e variância σ 2 , ambos desconhecidos, e com a qual pretendemos
construir um intervalo de confiança (1 − α) × 100% para µ:
a
X̄−µ
S/ n
∼ N (0, 1);
P (−c < Z < c) = 1 − α ⇔ P (Z < c) − P (Z ≤ −c) = 1 − α ⇔

P (Z < c) − P (Z ≥ c) = 1 − α ⇔ P (Z < c) − (1 − P (Z < c)) = 1 − α ⇔
α α
Φ(c) − 1 + Φ(c) = 1 − α ⇔ Φ(c) = 1 − ⇔ c = Φ−1 1 − = z1− α2
2 2
X̄ − µ
− c < Z < c ⇔ −z1− α2 < Z < z1− α2 ⇔ −z1− α2 < √ < z1− α ⇔
S/ n 2
S S S S
− z1− α2 √ < X̄ − µ < z1− α2 √ ⇔ −z1− α2 √ − X̄ < −µ < z1− α2 √ − X̄ ⇔
n n n n
S S
X̄ − z1− α2 √ < µ < X̄ + z1− α2 √
n n

S S
IC(1−α)×100% (µ) ≡ X̄ − z1− α2 √ ; X̄ + z1− α √
n 2 n
9.3 Intervalo de Confiança para a diferença de médias populacionais,

µ1 − µ2
Vamos deduzir nesta secção um intervalo de confiança (1 − α) × 100% para a diferença de médias
populacionais, usando o método pivotal. Consideramos um único caso em que ambas as populações
envolvidas têm distribuição normal com variâncias conhecidas, usando uma estatı́stica pivot cuja
distribuição por amostragem foi considerada no capı́tulo anterior.
Suponhamos que seleccionámos uma amostra aleatória de dimensão n1 de uma população com
distribuição Normal(µ1 , σ12 ), de variância σ12 conhecida. Seja X̄1 a correspondente média amostral.
Suponhamos ainda que seleccionamos uma outra amostra aleatória de dimensão n2 de uma outra
população, independente da primeira, com distribuição Normal(µ2 , σ22 ), σ22 conhecida. Seja X̄2 a
correspondente média amostral.
Construamos um intervalo de confiança (1 − α) × 100% para µ1 − µ2 :
(X̄1 −r
X̄2 )−(µ1 −µ2 )
• Escolha da estatı́stica pivot: Z = 2
∼ N (0, 1);
σ1 σ2
n1
+ n2
2
• Para um nı́vel de confiança de (1 − α) × 100%, escolha de c1 e c2 : escolhemos c1 = −c e c2 = c.
P (−c < Z < c) = 1 − α ⇔ P (Z < c) − P (Z ≤ −c) = 1 − α ⇔

P (Z < c) − P (Z ≥ c) = 1 − α ⇔ P (Z < c) − (1 − P (Z < c)) = 1 − α ⇔
α α
Φ(c) − 1 + Φ(c) = 1 − α ⇔ Φ(c) = 1 − ⇔ c = Φ−1 1 − = z1− α2
2 2
(X̄1 − X̄2 ) − (µ1 − µ2 )

− c < Z < c ⇔ −z1− α2 < Z < z1− α2 ⇔ −z1− α2 < q 2 < z1− α2 ⇔
σ1 σ22
n + n2
s s 1
σ12 σ22 σ12 σ22
− z1− α2 + < (X̄1 − X̄2 ) − (µ1 − µ2 ) < z1− α2 + ⇔
n1 n2 n1 n2
s s
σ12 σ22 σ12 σ22
− z1− α2 + − (X̄1 − X̄2 ) < −(µ1 − µ2 ) < z1− α2 + − (X̄1 − X̄2 ) ⇔
n1 n2 n1 n2
s s
σ12 σ22 σ12 σ22
(X̄1 − X̄2 ) − z1− α2 + < µ1 − µ2 < (X̄1 − X̄2 ) + z1− α2 +
n1 n2 n1 n2
• Assim,
 s s 
σ12 σ22 σ12 σ22 
IC(1−α)×100% (µ1 − µ2 ) ≡ (X̄1 − X̄2 ) − z1− α2 + ; (X̄1 − X̄2 ) + z1− α2 +
n1 n2 n1 n2
9.4 Intervalo de Confiança para proporção populacional, p

Vamos deduzir nesta secção um intervalo de confiança (1 − α) × 100% para a proporção popula-
cional, usando o método pivotal. Consideramos a situação em que estamos interessados em estimar a
proporção dos elementos que na população possuem determinada caracterı́stica, através da correspon-
dente proporção amostral P , referente a uma amostra de dimensão suficientemente grande. Podemos
assim usar a seguinte estatı́stica pivot, cuja distribuição por amostragem foi considerada no capı́tulo
anterior:
a
P −p
• Escolha da estatı́stica pivot: Z = √ ∼ N (0, 1);
p(1−p)/n
Antes de deduzir o intervalo de confiança temos de fazer outra aproximação. A variância de P ,

que é dada por p(1-p)/n e que aparece na estatı́stica pivot anterior, é necessariamente descon-
hecida, pois depende de p, parâmetro desconhecido. Assim, estima-se esta variância com base na
amostra por P(1-P)/n. Consequentemente passamos a usar a seguinte estatı́stica, que também
é pivot:
a
P −p
Z=√ ∼ N (0, 1);
P (1−P )/n
P (−c < Z < c) = 1 − α ⇔ P (Z < c) − P (Z ≤ −c) = 1 − α ⇔

P (Z < c) − P (Z ≥ c) = 1 − α ⇔ P (Z < c) − (1 − P (Z < c)) = 1 − α ⇔
α α
Φ(c) − 1 + Φ(c) = 1 − α ⇔ Φ(c) = 1 − ⇔ c = Φ−1 1 − = z1− α2
2 2
P −p
− c < Z < c ⇔ −z1− α2 < Z < z1− α2 ⇔ −z1− α2 < p < z1− α2 ⇔
P (1 − P )/n
p p
− z1− α2 P (1 − P )/n < P − p < z1− α2 P (1 − P )/n ⇔
p p
− z1− α2 P (1 − P )/n − P < −p < z1− α2 P (1 − P )/n − P ⇔
p p
P − z1− α2 P (1 − P )/n < p < P + z1− α2 P (1 − P )/n
p p
IC(1−α)×100% (p) ≡ P − z1− α2 P (1 − P )/n ; P + z1− α2 P (1 − P )/n
9.5 Intervalo de Confiança para a variância populacional, σ 2, e para

o desvio padrão populacional, σ
Vamos deduzir nesta secção um intervalo de confiança (1−α)×100% para a variância populacional,
usando o método pivotal. Consideramos o caso em que temos uma população Normal(µ, σ 2 ), em que
µ é desconhecida. Vamos usar uma estatı́stica pivot cuja distribuição por amostragem foi apresentada
no capı́tulo anterior.
Considere-se a situação em que temos uma amostra aleatória (X1 , . . . , Xn ) de uma população
Normal(µ, σ 2 ), µ desconhecido. Esta amostra resulta na variância amostral S 2 .
Construamos um intervalo de confiança (1 − α) × 100% para σ 2 :
(n−1)S 2
• Escolha da estatı́stica pivot: X 2 = σ2 ∼ χ2(n−1) ;
• Para um nı́vel de confiança de (1 − α) × 100%, escolha de c1 e c2 : neste caso a escolha destes

valores não se faz de acordo com o critério indicado na nota 2 do método pivotal, de menor
amplitude intervalar. O critério aqui escolhido é o da simplicidade e diz que escolhamos estes
valores de forma a que:
α α
P (X 2 < c1 ) = ⇔ c1 = Fχ−1
2 = χα/2
2 (n−1) 2
α α α
P (X 2 > c2 ) = ⇔ 1 − P (X 2 ≤ c2 ) = ⇔ P (X 2 ≤ c2 ) = 1 −
2 α 2 2
−1
c2 = Fχ2 1− = χ1−α/2
(n−1) 2
Ver figura abaixo.
1−α
α α
2 2
c1 c2
(n − 1)S 2
c1 < X 2 < c2 ⇔ χα/2 < X 2 < χ1−α/2 ⇔ χα/2 < < χ1−α/2 ⇔
σ2
χα/2 1 χ1−α/2 (n − 1)S 2 2 (n − 1)S 2
< < ⇔ < σ < (9.5.1)
(n − 1)S 2 σ2 (n − 1)S 2 χ1−α/2 χα/2
• Assim,
(n − 1)S 2 (n − 1)S 2

2
IC(1−α)×100% (σ ) ≡ ;
χ1−α/2 χα/2
Do resultado atrás obtido, muito simplesmente se constrói o intervalo de confiança para o desvio
padrão populacional σ, bastando extrair raı́zes em (9.5.1), resultando em:
s s !
(n − 1)S 2 (n − 1)S 2
IC(1−α)×100% (σ) ≡ ;
χ1−α/2 χα/2

9.1 Para avaliar o peso médio das maçãs produzidas por um determinado agricultor analisaram-se
20 maçãs seleccionadas ao acaso da produção. Estas resultaram num peso médio de x̄ = 320g.
Assuma que os pesos das maçãs têm distribuição Normal com desvio padrão σ = 20g.
(a) Construa um intervalo de confiança a 90% para a média do peso.

(b) Qual deve ser o tamanho da amostra de forma a que a amplitude do correspondente intervalo
de confiança a 90% para a média seja de 1g? E 5g? Comente.
9.2 A quantidade de combustı́vel dispendido num percurso de Lisboa a Faro (em litros) é uma
variável aleatória normal.
(a) Assuma que em 8 viagens Lisboa-Faro seleccionadas ao acaso se verificou um gasto médio de
combustı́vel de 36 litros e um desvio padrão de 10 litros. Construa intervalos de confiança
para a média a 90% e a 95% e compare-os.
(b) Assuma agora que foi em 50 viagens Lisboa-Faro, seleccionadas ao acaso, que se verificou
um gasto médio de combustı́vel de 36 litros e um desvio padrão de 10 litros. Construa
intervalos de confiança para a média a 90% e a 95% e compare com os anteriores. Comente.
9.3 O nı́vel de poluição do ar de determinada cidade (medido em concentração de monóxido de

carbono no ar) distribui-se normalmente. Recolheram-se os seguintes valores da referida concen-
tração em 10 dias diferentes (em ppm): 0.09, 0.33, 0.01, 0.25, 0.20, 0.05, 0.03, 0.18, 0.13, 0.24.
Com base nesta amostra determine um intervalo de confiança a 99% para a concentração média
de monóxido de carbono na atmosfera.
9.4 A quantidade de gordura em 100g de carne de determinado tipo de vacas, medido em gramas,
tem desvio padrão 8g. Qual deve ser o tamanho de uma amostra aleatória a seleccionar de forma
a que a amplitude de um intervalo de confiança a 95% para a gordura média por 100g de carne
seja inferior a 2.5g? Refira eventuais pressupostos que teve de fazer.
9.5 Construa um intervalo de confiança a 95% para a temperatura média de uma determinada sala de
espera, com base numa amostra de temperaturas recolhidas em 35 dias diferentes que resultaram
nos valores x̄ = 22.1o C e s = 3.2o C.
9.6 Estamos interessados no tempo médio de endurecimento, em minutos, de um novo tipo de

cimento. Para tal observámos uma amostra aleatória de 50 tempos de endurecimento tendo
verificado x̄ = 10 min. e s = 2min.. Construa um intervalo de confiança a 99% para o referido
tempo médio.
9.7 A tensão (MegaPascal) suportada por uma determinada barra de aço é uma variável aleatória
com desvio padrão igual a 30 MPa.
P Com base numa amostra aleatória de n tensões observadas,
para as quais se verificou que xi = 10000MPa, construiu-se um intervalo de confiança a 95%
para a tensão média suportada, cujo extremo superior era de 208.3MPa. Determine o extremo
inferior do referido intervalo e diga quanto vale o n, assumindo que n > 30.
9.8 O tempo médio (segundos) de reacção de uma determinada raça de cães a um certo estı́mulo
tem interesse para um determinado treinador. Assim ele resolveu testar 32 cães escolhidos
(xi − x̄)2 = 15.5s2 .
P
aleatoriamente tendo observado x̄ = 1.2s e
(a) Construa um intervalo de confiança a 95% para o tempo médio de reacção dos cães.
(b) Suponha que só se conseguiu obter uma amostra de 15 cães, tendo resultado em x̄ = 1.1s
(xi − x̄)2 = 15.9s2 . Construa, para este caso, um intervalo de confiança a 95% para o
P
e
tempo médio de reacção dos cães, referindo eventuais pressupostos que tenha tido de fazer.
9.9 De forma a estimar o tempo médio de serviço num pronto a comer (em minutos) observou-se
uma amostra aleatória de 35 serviços. Registaram-se os seguintes valores:
x̄ = 1.3min e s = 0.22min.
Assumindo a normalidade dos tempos de serviço, determine um intervalo de confiança a 95%

para o tempo médio de serviço.
9.10 Pretende-se construir um intervalo de confiança a 90% para a diferença das médias de pontos
obtidos por dois golfistas em determinado torneio. Sabe-se que as pontuações de ambos os
golfistas seguem distribuições Normais com desvios padrão de 3 e 5, respectivamente, para o
1o e o 2o golfistas. Seleccionaram-se aleatoriamente 10 jogos do 1o golfista, tendo-se registado
uma média de 36 pontos, e 15 jogos do 2o golfista, correspondendo a uma média de 30 pontos.
Construa então o referido intervalo de confiança. Comente.
9.11 O presidente da câmara de Lisboa está interessado em saber se os nı́veis de poluição atmosférica
na cidade são menores à noite do que de dia. Assim mediram-se às 16h da tarde, em 20 dias
seleccionados ao acaso, as concentrações de CO no ar (em ppm), tendo-se registado um valor
médio de 0.25ppm. Seleccionaram-se ainda outros 25 dias ao acaso, tendo-se medido às 4h da
manhã as correspondentes concentrações, resultando em uma média de 0.15ppm. Assumindo que
a concentração e CO se distribui Normalmente com desvio padrão de 0.05ppm durante a noite
e 0.12ppm durante o dia, construa um intervalo de confiança para a diferença das concentrações
médias de CO de dia e à noite e comente.
9.12 Numa fábrica de embalagem de queijo em fatias seleccionaram-se aleatoriamente 100 embalagens,
das quais se verificaram que 18 tinham peso inferior ao suposto - sendo por isso inadequadas.
Construa um intervalo de confiança a 98%para a verdadeira proporção de pacotes inadequados
na produção total.
9.13 De 200 casos de pessoas com cancro do cólon, aleatoriamente detectadas, 12 morreram após 5
anos da detecção.
(a) Estime pontualmente a probabilidade de uma pessoa que contraia o cancro do cólon morrer
após 5 anos da sua detecção.
(b) Quanto deveria aumentar ao tamanho da sua amostra aleatória de forma a que a largura
do intervalo de confiança a 90% para a probabilidade considerada na alı́nea anterior fosse
inferior a 0.01?
9.14 O tempo (horas) que o Pedro dispende em filas de trânsito, por dia, é uma v.a. Normal.
Seleccionando aleatoriamente 15 dias registaram-se os seguintes valores de espera:
1.5 1.0 1.0 2.0 1.5 1.25 1.0 2.0 1.5 1.25 1.75 0.5 1.0 1.5 1.25
Determine um intervalo de confiança a 99% para a variância do tempo de espera.
9.15 Um profissional de bowling jogou 8 partidas num torneio, tendo obtido as seguintes pontuações:
117.0 220.2 199.5 237.2 249.5 179.8 259.2 248.5
Admitindo a normalidade das pontuações, construa um intervalo de confiança a 95% para a

variância e para o desvio padrão (este último fornece uma medida da consistência da prestação
do jogador).

X̄−µ
Seja (X1 , . . . , Xn ) uma amostra aleatória de uma população X ∼ N (µ, 1). Então √
1/ n
é uma
variável pivot.
9.17 A cotação das acções ”Sobe-e-desce”ao fecho da bolsa, em e, segue uma distribuição Normal,
de variância 1e. Seleccionaram-se ao acaso 15 dias para os quais se contabilizou uma média das
cotações destas acções, ao fecho da bolsa, de 9.5e.
(a) Estamos interessados em construir um intervalo de confiança a 88% para a verdadeira

cotação média destas acções. Sugira uma estatı́stica pivot para tal, indicando qual a sua
distribuição por amostragem.
(b) Usando a estatı́stica pivot indicada na alı́nea anterior, construa um intervalo de confiança
a 88% para a verdadeira cotação média destas acções.
(c) Qual deveria ser o tamanho da amostra a considerar de forma a que a amplitude do intervalo
de confiança a 88% para a cotação média destas acções fosse metade do valor obtido na
alı́nea anterior? Comente.
(a) Na estimação intervalar da média populacional µ, aumentando o tamanho da amostra faz

com que o intervalo de confiança fique mais estreito.
(b) Está-se interessado em construir um intervalo de confiança a 90% para o nı́vel médio de cloro
na piscina municipal do Xeisal. Sabe-se que este nı́vel (em ppm) segue uma distribuição
normal com desvio padrão 0.1ppm. Para que o referido intervalo de confiança tenha uma
amplitude inferior a 0.01ppm, deve-se recolher uma amostra aleatória de pelo menos 1000
medições do nı́vel de cloro nas águas da dita piscina.
9.19 Queremos estudar há quanto tempo residem nas suas moradas actuais as pessoas de certa cidade
na provı́ncia. Uma amostra aleatória de 41 famı́lias revelou uma média de 35 meses de residência
e um desvio padrão de 6.3 meses.
(a) Qual a sua melhor estimativa do tempo médio de residência da população desta cidade?
(b) Deduza um intervalo de confiança a 98% para o verdadeiro tempo médio de residência.
Justifique o seu procedimento.
(c) Empregue o intervalo de confiança encontrado na alı́nea anterior numa frase com significado
(estatı́stico).
(d) Indique uma forma de aumentar a precisão da estimação que fez por intervalo de confiança
para a média. Justifique.
(e) Deduza um intervalo de confiança a 90% para o desvio padrão do tempo de residência das
pessoas nesta cidade. Indique eventuais pressupostos que tenha de fazer.
9.20 A população de Sobriga queixa-se da qualidade da água em determinado lago, tendo chamado
as autoridades competentes para averiguarem o caso. O Dr. T. Esta dirigiu-se ao lago, tendo
recolhido a seguinte amostra de 6 medições de percentagens de toxicidade na água:
1% 3% 2% 1% 0.5% 1.5%
Percentagens de toxicidade superiores a 1% indicam águas contaminadas.
(a) Estime pontualmente a média da percentagem de toxicidade destas águas e a sua variância.
(b) Assumindo que a variável aleatória percentagem de toxicidade nas águas deste lago segue
uma distribuição normal, deduza e determine um intervalo de confiança a 95% para a
correspondente percentagem de toxicidade média. Comente o resultado face à gravidade
do problema.
(c) Qual o tamanho da amostra que o Dr. T. Esta deveria ter recolhido de forma a que a
amplitude do intervalo construı́do na alı́nea anterior fosse inferior a 0.2%? Refira eventuais
pressupostos que tenha de efectuar.
Capı́tulo 10
Testes de Hipóteses
Como já referido anteriormente, a disciplina da estatı́stica engloba dois grandes objectivos - a estimação
e o teste de hipóteses estatı́sticas. Muitas vezes mais do que estimar um parâmetro populacional
queremos compará-lo com algum valor de referência, de forma a posteriormente podermos decidir em
conformidade. Tal é feito através de testes de hipóteses, baseados em amostras aleatórias retiradas da
população. Neste capı́tulo iremos desenvolver métodos genéricos para o levar a cabo e aplicamo-los a
alguns problemas comuns.
10.1 Testes de Hipóteses

Antes de mais começamos por introduzir alguma linguagem e notação.
Definição 10.1 (Hipótese Estatı́stica) Uma hipótese estatı́stica é uma conjectura acerca da dis-
tribuição de uma ou mais variáveis aleatórias. Se a hipótese estatı́stica especifica completamente a
distribuição é chamada de hipótese simples. Caso contrário é chamada de hipótese composta.
Para cada hipótese que se faça, designada por hipótese nula e denotada por H0 , há sempre uma outra
hipótese, designada por hipótese alternativa e denotada por H1 , que representa frequentemente o
contrário da anterior. A ideia usual é que se a hipótese nula é falsa a alternativa é verdadeira e
vice-versa.
Exemplo 10.1 Seja (X1 , . . . , Xn ) uma amostra aleatória da população dos pesos das formigas Solenop-
sis anteriormente considerada, i.e. da população X ∼ N (µ, 22 ).
A hipótese estatı́stica de que o peso médio desta população toma o valor 8dg denota-se por:
H0 : µ = 8 versus H1 6= 8
É usual abreviar a palavra ”versus”para ”vs”:
H0 : µ = 8 vs H1 6= 8
Esta é uma hipótese simples.

A hipótese estatı́stica de que o peso médio desta população é menor ou igual a 8dg denota-se por:
H0 : µ ≤ 8 vs H1 > 8
131
Esta é uma hipótese composta.

2
Definição 10.2 (Teste de uma hipótese estatı́stica) Um teste de uma hipótese estatı́stica H0 é
uma regra para decidir se se deve rejeitar H0 . Se H0 não é rejeitada dizemos que é aceite.
Exemplo 10.2 Seja (X1 , . . . , Xn ) uma amostra aleatória da população dos pesos das formigas Solenop-
sis, i.e. da população X ∼ N (µ, 22 ). Um teste possı́vel para testar:
H0 : µ ≤ 8 vs H1 > 8,
é:
X̄ − 8
Rejeitar H0 se √ > 1.64
2/ n
2
De acordo com a maneira de pensar na definição anterior somos levados a cometer dois tipos de
erros:
Definição 10.3 (Erros do tipo I e do tipo II) A rejeição de uma hipótese H0 quando ela é
verdadeira é chamado erro do tipo I e a aceitação da hipótese H0 quando esta é falsa é chamado erro
do tipo II. Às suas probabilidades:
α = P (erro tipo I) = P (rejeitar H0 |H0 é verdadeira)
β = P (erro tipo II) = P (aceitar H0 |H0 é f also)
chamamos ainda nı́vel de significância a α e potência do teste a 1 − β .
Nota: Um teste óptimo terá as duas probabilidades de erro atrás definidas muito pequenas. Contudo
é matematicamente impossı́vel minimizá-las em simultâneo, já que crescem geralmente no sentido
inverso. Na prática realizamos os chamados testes de significância, i.e., testes onde nós é que
fixamos o nı́vel de significância e para os quais a função potência toma o valor máximo. Os valores
habitualmente escolhidos são α = 0.01, α = 0.05 ou α = 0.10.
O objectivo de um teste estatı́stico de uma hipótese não é determinar se a hipótese é verdadeira

ou não, mas antes determinar se a sua validade é consistente com os dados observados numa amostra
da população. Com este objectivo parece razoável que a hipótese só deva ser rejeitada se os dados
observados forem muito pouco prováveis quando a hipótese é verdadeira.
Descrevemos de seguida o procedimento usual para a construção de um teste de hipóteses genérico:
Procedimento 10.1 Suponhamos que estamos interessados em testar a hipótese de que determinado
parâmetro populacional θ pertence a um certo intervalo de valores de interesse Iθ , i.e.:
H0 : θ ∈ Iθ vs H1 : θ ∈
/ Iθ
X A abordagem comum passa pela escolha de um estimador de θ, T (X1 , . . . , Xn ), onde (X1 , . . . , Xn )

é uma amostra aleatória da população identificada pelo parâmetro θ.
X A hipótese é rejeitada se T (X1 , . . . , Xn ) estiver distante de Iθ , sendo este conceito de distância
definido com base na distribuição por amostragem de T , quando H0 é verdadeira - resultando
numa região, chamada região de rejeição do teste, dependente do valor do nı́vel de sig-
nificância α escolhido.
Vamos de seguida aplicar este procedimento para levar a cabo alguns testes para hipóteses relativas
à média populacional, à igualdade entre médias populacionais, à proporção populacional, à variância
populacional e ainda ao pressuposto de normalidade de uma população.
10.2 Testes de hipóteses para a média populacional, µ
10.2.1 População Normal(µ, σ 2 ), σ 2 conhecido

Suponhamos que observamos uma amostra aleatória (X1 , . . . , Xn ) de uma população X ∼ N (µ, σ 2 ),
em que σ 2 é conhecido. Vamos nesta secção considerar 3 hipóteses diferentes respeitantes ao parâmetro
média populacional, µ.
Teste bilateral
X Estamos aqui interessados em testar a hipótese de que o parâmetro média populacional µ, da
população acima definida, vale um determinado valor, µ0 :
H0 : µ = µ0 vs H1 : µ 6= µ0
X Escolhamos um estimador de µ, que já sabemos ser X̄, e consideremo-lo sob a validade da
hipótese nula, para servir de estatı́stica de teste. Conhecemos já a sua distribuição por amostragem:
sob H0
X̄ − µ0
Z= √ ∼ N (0, 1)
σ/ n
X Definamos a região de rejeição do teste, para um nı́vel de significância α, pré-especificado.

Estamos interessados em rejeitar a hipótese nula quando os dados observados não estiverem de
acordo com ela, i.e. quando a diferença entre X̄ e µ0 for consideravelmente diferente de 0, ou
seja, quando a estatı́stica de teste atrás definida estiver longe de 0 - ver figura.
Assim defino a região de rejeição, denotando-a por Rα , como:
Rα ≡ (−∞; −c) ∪ (c; +∞),

α α α
c : P (Z < c) = + (1 − α) = 1 − ⇔ c = Φ−1 1 − = z1− α2
2 2 2
Então Rα ≡ (−∞; −z1− α2 ) ∪ (z1− α2 ; +∞)
α/2 α/2
−c 0 c
X Defino agora a regra de decisão do teste: Rejeitar H0 ao nı́vel de significância α se o valor

x̄−µ
√ 0 ∈ Rα .
observado da estatı́stica do teste pertencer à região de rejeição, i.e. se zobs = σ/ n
Exemplo 10.3 Consideremos novamente o exemplo da população dos pesos das formigas Solenopsis,
i.e. a população X ∼ N (µ, 22 ), da qual observámos a amostra aleatória de 4 pesos (8, 13, 9, 8.5). Com
base nesta amostra vamos testar, a um nı́vel de significância 5% (α = 0.05), a hipótese de que o peso
médio populacional µ vale 9dg:
• H0 : µ = 9 vs H1 : µ 6= 9
• Estatı́stica de teste:
sob H0
X̄ − 9
Z= √ ∼ N (0, 1)
2/ 4
• Região de rejeição para α = 0.05:
R0.05 ≡ (−∞; −c) ∪ (c; +∞),

c : P (Z < c) = 0.975 ⇔ c = Φ−1 (0.975) = z1− 0.05 = z0.975 = 1.96
2
Então R0.05 ≡ (−∞; −1.96) ∪ (1.96; +∞)
• Regra de decisão do teste:

x̄ − 9
Rejeitar H0 ao nı́vel de significância 5% se zobs = √ ∈ R0.05 .
2/ 4
• Decisão:
9.625 − 9
zobs = √ = 0.625 ∈
/ R0.05
2/ 4
Logo, não rejeitar H0 ao nı́vel de significância 5%, significando que os dados não vão contra o
pressuposto de que o peso médio das formigas é 9dg..
2
Nota: Há uma analogia directa entre a estimação por intervalos de confiança e os testes de hipóteses.
Os intervalos de confiança para a média que aprendemos, por exemplo, correspondem à região de
aceitação de um teste bilateral para esse mesmo parâmetro.
p-values:
Neste teste bilateral para a média rejeitamos a hipótese nula H0 , a um nı́vel de significância α, se
a estatı́stica de teste não cair na região de rejeição, definida de acordo com o nı́vel de significância
escolhido. Isto é, rejeitamos H0 ao nı́vel de significância α se:

X̄ − µ0
σ/√n > z1− α2 .

Tal pode ser visto de outra forma. Para qualquer valor observado da estatı́stica de teste, digamos
zobs , o teste conduz à rejeição de H0 se a probabilidade de a estatı́stica de teste ser, em módulo, maior
que o valor observado, supondo verdadeira a hipótese nula H0 , for inferior ao nı́vel de significância
escolhido α.
Daqui segue que podemos escolher aceitar ou rejeitar H0 determinando primeiro o valor obser-
vado da estatı́stica de teste, depois determinando P (|Z| > |zobs | | H0 ) e finalmente comparando esta
probabilidade com o nı́vel de significância escolhido. Temos então a seguinte definição:
Definição 10.4 (p-value de um teste) Para um teste estatı́stico de uma hipótese nula H0 define-
se p-value do teste como a probabilidade de se observarem valores da estatı́stica de teste tão ou mais
desfavoráveis a H0 do que o observado, sob a validade desta hipótese. Representa-se este p-value por
p.
Na situação desta subsecção, de um teste bilateral para a média, com os pressupostos efectuados,
o valor do p-value calcula-se da seguinte forma:
p = P (|Z| > |zobs | | H0 ) = 1 − P (|Z| ≤ |zobs | | H0 ) = 1 − P (−|zobs | ≤ Z ≤ |zobs | | H0 ) =

= 1 − {P (Z ≤ |zobs | | H0 ) − P (Z < −|zobs | | H0 )} =
(Sob H0 Z tem distribuição N (0, 1))
= 1 − {P (Z ≤ |zobs | | H0 ) − P (Z > |zobs | | H0 )} = 2 − 2P (Z ≤ |zobs | | H0 ) =
= 2 − 2Φ(|zobs |).
Exemplo 10.4 Recuperemos o exemplo 10.3. Vimos que zobs = 0.625 ' 0.63 pelo que o p-value
associado ao teste aı́ realizado é dado por:
p = 2 − 2Φ(|zobs |) = 2 − 2Φ(|0.63|) = 2 − 2Φ(0.63) = 2 − 2 × 0.7357 = 0.5286

Como o p-value é superior ao nı́vel de significância então escolhido, 0.05, somos levados a não
rejeitar a hipótese nula a este nı́vel de significância. Na verdade, podemos até comparar com outros
nı́veis de significância, por exemplo 0.01 ou 0.10, e verificar que a esses nı́veis também não rejeitamos
a hipótese nula.
O p-value sendo grande indica-nos que a probabilidade de observarmos valores tão ou mais desfa-
voráveis à hipótese nula do que aquele que observámos, sob a validade da hipótese nula, é grande, pelo
que o valor observado é favorável à hipótese nula.
2
Teste unilateral direito

X Estamos agora interessados em testar a hipótese de que o parâmetro média populacional µ, de
uma população X ∼ N (µ, σ 2 ), é menor ou igual a um determinado valor µ0 :
H0 : µ ≤ µ0 vs H1 : µ > µ0
Esta hipótese diz-se unilateral direita, reflectindo a desigualdade da hipótese alternativa e resul-
tando num teste que toma o mesmo nome.
Nota: Repare que o valor µ0 pertence à hipótese nula.

X Estatı́stica de teste:
sob H0
X̄ − µ0
Z= √ ∼ N (0, 1)
σ/ n

acordo com ela, i.e. quando a diferença entre X̄ e µ0 for consideravelmente maior que zero, ou
seja, quando a estatı́stica de teste atrás definida for também consideravelmente maior que zero
- ver figura abaixo:
α
0 c
Rα ≡ (c; +∞),
c : P (Z < c) = (1 − α) ⇔ c = Φ−1 (1 − α) = z1−α
Então Rα ≡ (z1−α ; +∞)
X Regra de decisão do teste:

x̄ − µ0
Rejeitar H0 ao nı́vel de significância α se zobs = √ ∈ Rα .
σ/ n
p-value:
Na situação desta subsecção, de um teste unilateral direito para a média, com os pressupostos
efectuados, o valor do p-value calcula-se da seguinte forma:
p = P (Z > zobs | H0 ) = 1 − P (Z ≤ zobs | H0 )

= 1 − Φ(zobs ).
Exemplo 10.5 Consideremos novamente o exemplo da população dos pesos das formigas Solenopsis,
i.e. a população X ∼ N (µ, 22 ), da qual observámos a amostra aleatória de 4 pesos (8, 13, 9, 8.5). Com
base nesta amostra vamos testar, a um nı́vel de significância 5% (α = 0.05), a hipótese de o peso
médio populacional µ ser inferior ou igual a 7dg:
• H0 : µ ≤ 7 vs H1 : µ > 7
sob H0
X̄ − 7
Z= √ ∼ N (0, 1)
2/ 4
R0.05 ≡ (c; +∞),

c : P (Z < c) = 0.95 ⇔ c = Φ−1 (0.95) = z0.95 = 1.64
Então R0.05 ≡ (1.64; +∞)

x̄ − 7
Rejeitar H0 ao nı́vel de significância 5% se zobs = √ ∈ R0.05 .
2/ 4
• Decisão:
9.625 − 7
zobs = √ = 2.625 ∈ R0.05
2/ 4
Logo, rejeitar H0 ao nı́vel de significância 5%, significando que os dados não suportam que o
peso médio das formigas seja inferior ou igual a 7dg.
Adicionalmente, calculemos o p-value do teste:
p = 1 − Φ(zobs ) = 1 − Φ(2.63) = 1 − 0.9957 = 0.0043

Como este valor do p-value é menor do que o nı́vel de significância escolhido, então rejeitamos H0
a esse nı́vel de significância.
2
Teste unilateral esquerdo

X Finalmente estamos interessados em testar a hipótese de que o parâmetro média populacional
µ, de uma população X ∼ N (µ, σ 2 ), é maior ou igual a um determinado valor, µ0 :
H0 : µ ≥ µ0 vs H1 : µ < µ0
Esta hipótese diz-se unilateral esquerda, reflectindo a desigualdade da hipótese alternativa e

resultando num teste que toma o mesmo nome.

sob H0
X̄ − µ0
Z= √ ∼ N (0, 1)
σ/ n

acordo com ela, i.e. quando a diferença entre X̄ e µ0 for consideravelmente menor que zero, ou
seja, quando a estatı́stica de teste atrás definida for também consideravelmente menor que zero
- ver figura abaixo:
α
−c 0
Rα ≡ (−∞, −c),
c : P (Z < −c) = α ⇔ P (Z > c) = α ⇔ 1 − P (Z ≤ c) = α ⇔ c = Φ−1 (1 − α) = z1−α
Então Rα ≡ (−∞; −z1−α )

x̄ − µ0
σ/ n
p-value:
Na situação desta subsecção, de um teste unilateral esquerdo para a média, com os pressupostos
p = P (Z < zobs | H0 ) =
= Φ(zobs ).
10.2.2 População Normal(µ, σ 2 ), σ 2 desconhecido

em que σ 2 é desconhecido. Voltamos a considerar 3 hipóteses diferentes respeitantes ao parâmetro
média populacional, µ.
Teste bilateral
X Hipóteses:
H0 : µ = µ0 vs H1 : µ 6= µ0
sob H0
X̄ − µ0
T = √ ∼ t(n−1)
S/ n
X Região de rejeição do teste, para um nı́vel de significância α pré-especificado:
Rα ≡ (−∞; −c) ∪ (c; +∞),

α α α
c : P (T < c) = + (1 − α) = 1 − ⇔ c = Ft−1 1 − = t1− α2
2 2 (n−1) 2
Então Rα ≡ (−∞; −t1− α2 ) ∪ (t1− α2 ; +∞)

x̄ − µ0
Rejeitar H0 ao nı́vel de significância α se tobs = √ ∈ Rα .
s/ n
p-value:
Na situação desta subsecção, de um teste bilateral para a média, com os pressupostos efectuados, o
valor do p-value calcula-se da seguinte forma:
p = P (|T | > |tobs | | H0 ) = 1 − P (|T | ≤ |tobs | | H0 ) = 1 − P (−|tobs | ≤ T ≤ |tobs | | H0 ) =

= 1 − {P (T ≤ |tobs | | H0 ) − P (T < −|tobs | | H0 )} =
(Sob H0 T tem distribuição t(n−1) )
= 1 − {P (T ≤ |tobs | | H0 ) − P (T > |tobs | | H0 )} = 2 − 2P (T ≤ |tobs | | H0 ) =
= 2 − 2Ft(n−1) (|tobs |).

X Hipóteses:
H0 : µ ≤ µ0 vs H1 : µ > µ0

sob H0
X̄ − µ0
T = √ ∼ t(n−1)
S/ n
Rα ≡ (c; +∞),
c : P (T < c) = (1 − α) ⇔ c = Ft−1
(n−1)
(1 − α) = t1−α
Então Rα ≡ (t1−α ; +∞)

x̄ − µ0
s/ n
p-value:
p = P (T > tobs | H0 ) = 1 − P (T ≤ tobs | H0 )

(Sob H0 Z tem distribuição t(n−1) )
= 1 − Ft(n−1) (tobs ).

X Hipóteses:
H0 : µ ≥ µ0 vs H1 : µ < µ0
sob H0
X̄ − µ0
T = √ ∼ t(n−1)
S/ n
X Região de rejeição do teste:
Rα ≡ (−∞; −c),
c : P (T < −c) = α ⇔ P (T > c) = α ⇔ 1 − P (T ≤ c) = α ⇔ c = Ft−1
(n−1)
(1 − α) = t1−α
Então Rα ≡ (−∞; −t1−α )

x̄ − µ0
s/ n
p-value:
p = P (T < tobs | H0 ) =
(Sob H0 T tem distribuição t(n−1) )
= Ft(n−1) (tobs ).
10.2.3 População Normal(µ, σ 2 ), σ 2 desconhecido, n > 30

Suponhamos que observamos uma amostra aleatória de dimensão n > 30, (X1 , . . . , Xn ), de uma
população X ∼ N (µ, σ 2 ), em que σ 2 é desconhecido. Voltamos a considerar 3 hipóteses diferentes
respeitantes ao parâmetro média populacional, µ.
Teste bilateral
X Hipóteses:
H0 : µ = µ0 vs H1 : µ 6= µ0
a
X̄ − µ0
Z= √ ∼ N (0, 1)
S/ n
sob H0
Rα ≡ (−∞; −c) ∪ (c; +∞),

α α α
c : P (Z < c) = + (1 − α) = 1 − ⇔ c = Φ−1 1 − = z1− α2
2 2 2
Então Rα ≡ (−∞; −z1− α2 ) ∪ (z1− α2 ; +∞)

x̄ − µ0
s/ n
p-value:

= 1 − {P (Z ≤ |zobs | | H0 ) − P (Z < −|zobs | | H0 )} =
= 2 − 2Φ(|zobs |).

X Hipóteses:
H0 : µ ≤ µ0 vs H1 : µ > µ0
a
X̄ − µ0
Z= √ ∼ N (0, 1)
S/ n
sob H0
Rα ≡ (c; +∞),
c : P (Z < c) = (1 − α) ⇔ c = Φ−1 (1 − α) = z1−α
Então Rα ≡ (z1−α ; +∞)

x̄ − µ0
s/ n
p-value:

= 1 − Φ(zobs ).

X Hipóteses:
H0 : µ ≥ µ0 vs H1 : µ < µ0
a
X̄ − µ0
Z= √ ∼ N (0, 1)
S/ n
sob H0
Rα ≡ (−∞; −c),
Então Rα ≡ (−∞; −z1−α )

x̄ − µ0
s/ n
p-value:
p = P (Z < zobs | H0 ) =
= Φ(zobs ).
10.2.4 População desconhecida com σ 2 conhecido e n > 30

população X com distribuição desconhecida, mas com variância σ 2 conhecida. Voltamos a considerar
3 hipóteses diferentes respeitantes ao parâmetro média populacional, µ.
Teste bilateral
X Hipóteses:
H0 : µ = µ0 vs H1 : µ 6= µ0
a
X̄ − µ0
Z= √ ∼ N (0, 1)
σ/ n
sob H0
Rα ≡ (−∞; −c) ∪ (c; +∞),

α α α
c : P (Z < c) = + (1 − α) = 1 − ⇔ c = Φ−1 1 − = z1− α2
2 2 2
Então Rα ≡ (−∞; −z1− α2 ) ∪ (z1− α2 ; +∞)

x̄ − µ0
σ/ n
p-value:

= 1 − {P (Z ≤ |zobs | | H0 ) − P (Z < −|zobs | | H0 )} =
= 2 − 2Φ(|zobs |).

X Hipóteses:
H0 : µ ≤ µ0 vs H1 : µ > µ0

a
X̄ − µ0
Z= √ ∼ N (0, 1)
σ/ n
sob H0
Rα ≡ (c; +∞),
c : P (Z < c) = (1 − α) ⇔ c = Φ−1 (1 − α) = z1−α
Então Rα ≡ (z1−α ; +∞)

x̄ − µ0
σ/ n
p-value:

= 1 − Φ(zobs ).

X Hipóteses:
H0 : µ ≥ µ0 vs H1 : µ < µ0
a
X̄ − µ0
Z= √ ∼ N (0, 1)
σ/ n
sob H0
Rα ≡ (−∞; −c),
Então Rα ≡ (−∞; −z1−α )

x̄ − µ0
σ/ n
p-value:
p = P (Z < zobs | H0 ) =
= Φ(zobs ).
10.2.5 População desconhecida com σ 2 desconhecido e n > 30

população X com distribuição desconhecida, com variância σ 2 desconhecida. Voltamos a considerar
3 hipóteses diferentes respeitantes ao parâmetro média populacional, µ.
Teste bilateral
X Hipóteses:
H0 : µ = µ0 vs H1 : µ 6= µ0
a
X̄ − µ0
Z= √ ∼ N (0, 1)
S/ n
sob H0
Rα ≡ (−∞; −c) ∪ (c; +∞),

α α α
c : P (Z < c) = + (1 − α) = 1 − ⇔ c = Φ−1 1 − = z1− α2
2 2 2
Então Rα ≡ (−∞; −z1− α2 ) ∪ (z1− α2 ; +∞)

x̄ − µ0
s/ n
p-value:

= 1 − {P (Z ≤ |zobs | | H0 ) − P (Z < −|zobs | | H0 )} =
= 2 − 2Φ(|zobs |).

X Hipóteses:
H0 : µ ≤ µ0 vs H1 : µ > µ0
a
X̄ − µ0
Z= √ ∼ N (0, 1)
S/ n
sob H0
Rα ≡ (c; +∞),
c : P (Z < c) = (1 − α) ⇔ c = Φ−1 (1 − α) = z1−α
Então Rα ≡ (z1−α ; +∞)

x̄ − µ0
s/ n
p-value:

= 1 − Φ(zobs ).

X Hipóteses:
H0 : µ ≥ µ0 vs H1 : µ < µ0
a
X̄ − µ0
Z= √ ∼ N (0, 1)
S/ n
sob H0
Rα ≡ (−∞; −c),
Então Rα ≡ (−∞; −z1−α )

x̄ − µ0
s/ n
p-value:
p = P (Z < zobs | H0 ) =
= Φ(zobs ).
10.3 Teste de hipóteses para a igualdade entre médias populacionais,

µ1 = µ2 , de populações Normais com variâncias conhecidas
Nesta secção vamos considerar que temos duas populações independentes e Normais de variâncias
conhecidas, respectivamente X1 ∼ N (µ1 , σ12 ) e X2 ∼ N (µ2 , σ22 ), com σ12 e σ22 conhecidas.
Estamos interessados em testar se as médias das duas populações são iguais. Para tal recolhemos
uma amostra aleatória de dimensão n1 da primeira população, resultando numa média amostral X̄1 ,
e seleccionamos também uma amostra aleatória de dimensão n2 da segunda população, resultando
numa média amostral X̄2 .
Estamos então interessados em executar o seguinte teste bilateral:
X
H0 : µ1 = µ2 vs H1 : µ1 6= µ2
⇔
H0 : µ1 − µ2 = 0 vs H1 : µ1 − µ2 6= 0
X A estatı́stica de teste é baseada no estimador de µ1 − µ2 , X̄1 − X̄2 :
sob H0
(X̄1 − X̄2 ) − (µ1 − µ2 )0 (X̄1 − X̄2 ) − 0
Z= q 2 = q 2 ∼ N (0, 1)
σ1 σ22 σ1 σ22
n1 + n2 n1 + n2
X Região de rejeição do teste, para um nı́vel de significância α pré-especificado, denotada por Rα :
Rα ≡ (−∞; −c) ∪ (c; +∞),

α α α
c : P (Z < c) = + (1 − α) = 1 − ⇔ c = Φ−1 1 − = z1− α2
2 2 2
Então Rα ≡ (−∞; −z1− α2 ) ∪ (z1− α2 ; +∞)
X Regra de decisão do teste: Rejeitar H0 ao nı́vel de significância α se o valor observado da

estatı́stica do teste pertencer à região de rejeição:
(x̄1 − x̄2 )
Rejeitar H0 ao nı́vel de significância α se zobs = q 2 ∈ Rα .
σ1 σ22
n1 + n2
p-value:
Na situação desta subsecção, de um teste bilateral para a diferença de médias, com os pressupostos

= 1 − {P (Z ≤ |zobs | | H0 ) − P (Z < −|zobs | | H0 )} =
= 2 − 2Φ(|zobs |).
Exemplo 10.6 Um professor lecciona Probabilidades e Estatı́stica em duas faculdades distintas (A e

B) e está interessado em avaliar se há diferença entre as notas médias dos alunos das duas escolas.
Assuma que as notas dos alunos da faculdade A nesta cadeira, XA , tem uma distribuição Normal com
média desconhecida µA e desvio padrão σA = 1.5valores, e que as notas dos alunos da faculdade B,
XB , tem também distribuição Normal com média desconhecida µB e desvio padrão σB = 2 valores:
XA ∼ N (µA , 1.52 ) XB ∼ N (µB , 22 )
Com este propósito seleccionou uma amostra aleatória de dimensão 15 dos seus alunos na facul-
dade A, correspondendo a uma média de notas de 12.7valores. Seleccionou ainda uma outra amostra
aleatória de dimensão 16 dos seus alunos na faculdade B, tendo obtido uma média amostral de 11.6
valores.
Seguidamente levou a cabo o seguinte teste de hipóteses:
• H0 : µA − µB = 0 vs H1 : µA − µB 6= 0
sob H0
(X̄A − X̄B ) − 0
Z= q 2 2
∼ N (0, 1)
σA σB
nA + nB
R0.05 ≡ (−∞; −c) ∪ (c; +∞),

c : P (Z < c) = 0.975 ⇔ c = Φ−1 (0.975) = z1− 0.05 = z0.975 = 1.96
2
Então R0.05 ≡ (−∞; −1.96) ∪ (1.96; +∞)
(x̄A − x̄B ) − 0
Rejeitar H0 ao nı́vel de significância 5% se zobs = q 2 2
∈ R0.05 .
σA σB
nA + nB
• Decisão:
12.7 − 11.6
zobs = q ' 1.74 ∈
/ R0.05
1.52 22
15 + 16
Logo, não rejeitar H0 ao nı́vel de significância 5%, indicando não haver diferença na performance
média dos alunos das duas faculdades.
Nota: Repare que se escolhêssemos um nı́vel de significância de α = 0.10, a região de rejeição

resultante seria:
R0.10 ≡ (−∞; −c) ∪ (c; +∞),

c : P (Z < c) = 0.95 ⇔ c = Φ−1 (0.95) = z1− 0.10 = z0.95 = 1.64
2
Então R0.10 ≡ (−∞; −1.64) ∪ (1.64; +∞)
Consequentemente, como zobs ∈ R0.10 , eu teria de rejeitar H0 ao nı́vel de significância 10%, apesar
de não a rejeitar ao nı́vel de significância 5%.
Alternativamente poderı́amos querer tomar a nossa decisão com base no p-value do teste. Vimos
atrás que zobs = 1.74. O p-value associado a este teste é dado por:
p = P (|Z| > |zobs | | H0 ) = 2 − 2Φ(|zobs |) = 2 − 2Φ(|1.74|) = 2 − 2Φ(1.74) = 2 − 2 × 0.9594 = 0.0812
Como o p-value é superior ao nı́vel de significância de 5%, somos levados a não rejeitar a hipótese
nula a este nı́vel de significância. No entanto, comparando com o nı́vel de significância de 10% somos
levados a rejeitar esta hipótese nula a esse nı́vel.
2
10.4 Testes de hipóteses para a proporção p de uma população

Suponhamos que observamos uma amostra aleatória de dimensão n de uma população, em que
determinada proporção desconhecida p dos seus elementos possui certa caracterı́stica. Consideramos
3 hipóteses diferentes respeitantes ao parâmetro proporção populacional, p.
Teste bilateral
X Hipóteses:
H0 : p = p0 vs H1 : p 6= p0
a
P − p0
Z=p ∼ N (0, 1)
p0 (1 − p0 )/n sob H0
Rα ≡ (−∞; −c) ∪ (c; +∞),

α α α
c : P (Z < c) = + (1 − α) = 1 − ⇔ c = Φ−1 1 − = z1− α2
2 2 2
Então Rα ≡ (−∞; −z1− α2 ) ∪ (z1− α2 ; +∞)

P − p0
Rejeitar H0 ao nı́vel de significância α se zobs = p ∈ Rα .
p0 (1 − p0 )/n
p-value:
Na situação desta subsecção, de um teste bilateral para a proporção, com os pressupostos efectuados,
o valor do p-value calcula-se da seguinte forma:

= 1 − {P (Z ≤ |zobs | | H0 ) − P (Z < −|zobs | | H0 )} =
= 2 − 2Φ(|zobs |).

X Hipóteses:
H0 : p ≤ p0 vs H1 : p > p0
Nota: Repare que o valor p0 pertence à hipótese nula.
a
P − p0
Z=p ∼ N (0, 1)
p0 (1 − p0 )/n sob H0
Rα ≡ (c; +∞),
c : P (Z < c) = (1 − α) ⇔ c = Φ−1 (1 − α) = z1−α
Então Rα ≡ (z1−α ; +∞)

P − p0
p0 (1 − p0 )/n
p-value:
Na situação desta subsecção, de um teste unilateral direito para a proporção, com os pressupostos

= 1 − Φ(zobs ).

X Hipóteses:
H0 : p ≥ p0 vs H1 : p < p0
Nota: Repare que o valor p0 pertence à hipótese nula.
a
P − p0
Z=p ∼ N (0, 1)
p0 (1 − p0 )/n sob H0
Rα ≡ (−∞; −c),
Então Rα ≡ (−∞; −z1−α )

P − p0
p0 (1 − p0 )/n
p-value:
Na situação desta subsecção, de um teste unilateral esquerdo para a proporção, com os pressupostos
p = P (Z < zobs | H0 ) =
= Φ(zobs ).
Exemplo 10.7 Numa sondagem polı́tica seleccionaram-se aleatoriamente 1000 eleitores, dos quais
125 responderam que no próximo acto eleitoral não iriam votar. Com base nesta amostra, vamos
testar a hipótese da proporção de abstenção na população ser inferior a 15%, usando um nı́vel de
significância de 5%.
• H0 : p ≥ 0.15 vs H1 : p < 0.15
a
P − 0.15
Z=p ∼ N (0, 1)
0.15(1 − 0.15)/n sob H0
R0.05 ≡ (−∞; −c),

c : P (Z < −c) = 0.05 ⇔ 1 − P (Z ≤ c) = 0.05 ⇔ Φ−1 (0.95) = 1.64
Então R0.05 ≡ (−∞; −1.64)

P − 0.15
Rejeitar H0 ao nı́vel de significância 5% se zobs = p ∈ R0.05 .
0.15(1 − 0.15)/n
• Decisão:
125
1000 − 0.15
zobs = p ' −2.21 ∈ R0.05
0.15 (1 − 0.15) /1000
Logo, rejeitar H0 ao nı́vel de significância 5%, indicando haver evidências que a abstenção seja
inferior a 15%.
Alternativamente poderı́amos querer tomar a nossa decisão com base no p-value do teste. Vimos
atrás que zobs = −2.21. O p-value associado a este teste é dado por:
p = P (Z < −2.21 | H0 ) = P (Z > 2.21 | H0 ) = 1 − Φ(2.21) = 1 − 0.9864 = 0.0136

Como o p-value é inferior ao nı́veis de significância de 5% e 10% somos levados a rejeitar esta
hipótese nula a estes nı́veis (não se rejeitando contudo ao nı́vel de significância 1%).
2
10.5 Testes de hipóteses para a variância σ 2 de uma população Nor-

mal com média desconhecida
em que µ é desconhecido. Vamos nesta secção considerar 3 hipóteses diferentes respeitantes ao
parâmetro variância populacional, σ 2 .
Teste bilateral
X Testamos aqui a hipótese de que o parâmetro variância populacional σ 2 , da população acima
definida, vale σ02 :
H0 : σ 2 = σ02 vs H1 : σ 2 6= σ02
X Vamos escolher a estatı́stica de teste com base no estimador de σ 2 , S 2 , variância amostral:
sob H0
(n − 1)S 2
X2 = ∼ χ2(n−1)
σ02
X Definamos a região de rejeição do teste, para um nı́vel de significância α, pré-especificado. Vamos

escolhê-la para valores muito grandes e muito pequenos da estatı́stica de teste, indicadores de
uma desproporção entre as variâncias amostrais e populacionais, não condizente com a hipótese
nula - ver figura seguinte.
α/2 α/2
c1 c2
Rα ≡ (0; c1 ) ∪ (c2 ; +∞),

α α
c1 : P (X 2 < c1 ) = ⇔ c1 = Fχ−1 2 = χ α2
2 (n−1) 2
α α
c2 : P (X 2 < c2 ) = 1 − ⇔ c2 = Fχ−1 2 1− = χ1− α2
2 (n−1) 2
Então Rα ≡ (0; χ α2 ) ∪ (χ1− α2 ; +∞)
(n − 1)s2
Rejeitar H0 ao nı́vel de significância α se x2obs = ∈ Rα .
σ02
Exemplo 10.8 Consideremos novamente o exemplo da população dos pesos das formigas Solenop-
sis, i.e. a população X ∼ N (µ, σ 2 ). Vamos testar a hipótese de que a variância populacional σ 2
efectivamente vale 22 , com base na amostra aleatória dos 4 pesos recolhida, (8, 13, 9, 8.5).
• H0 : σ 2 = 22 vs H1 : σ 2 6= 22
sob H0
2 (4 − 1)S 2 3S 2
X = = ∼ χ2(4−1) ≡ χ2(3)
22 4
R0.05 ≡ (0; c1 ) ∪ (c2 ; +∞),

0.05
c1 : P (X 2 < c1 ) = = 0.025 ⇔ c1 = Fχ−1
2 (0.025) = 0.216
2 (3)
0.05
c2 : P (X 2 < c2 ) = 1 − = 0.975 ⇔ c2 = Fχ−1
2 (0.975) = 9.348
2 (3)
Então Rα ≡ (0; 0.216) ∪ (9.348; +∞)
Rejeitar H0 ao nı́vel de significância 5% se x2obs = 3s2 /4 ∈ R0.05 .
• Decisão:
n
( )
2 1 X 1
x2i 2
386.25 − 4 × 9.6252 = 5.229167,

Sendo s = − nx̄ =
n−1 3
i=1
então
3 × 5.229167
xobs = = 3.921875 ∈
/ R0.05
4
Logo, não rejeitar H0 ao nı́vel de significância 5%, vindo então os dados confirmar a validade
desta hipótese.
2

X Testamos aqui a hipótese de que o parâmetro variância populacional σ 2 , da população anteri-
ormente definida, é inferior ou igual a σ02 :
H0 : σ 2 ≤ σ02 vs H1 : σ 2 > σ02
Nota: Repare que o valor σ02 pertence à hipótese nula.
sob H0
2(n − 1)S 2
X = ∼ χ2(n−1)
σ02
X Definamos a região de rejeição do teste, para um nı́vel de significância α, pré-especificado. Vai

corresponder aos valores maiores da estatı́stica de teste - ver figura seguinte.
Rα ≡ (c; +∞),
c : P (X 2 < c) = 1 − α ⇔ c = Fχ−1
2 (1 − α) = χ1−α
(n−1)
Então Rα ≡ (χ1−α ; +∞)
(n − 1)s2
σ02

X Finalmente estamos interessados em testar a hipótese de que o parâmetro variância populacional
σ 2 , da população anteriormente definida, é superior ou igual a σ02 :
H0 : σ 2 ≥ σ02 vs H1 : σ 2 < σ02
Nota: Repare que o valor σ02 pertence à hipótese nula.
sob H0
2(n − 1)S 2
X = ∼ χ2(n−1)
σ02
X Definamos a região de rejeição do teste, para um nı́vel de significância α, pré-especificado. Vai

corresponder aos valores menores da estatı́stica de teste - ver figura seguinte.
Rα ≡ (0; c),
c : P (X 2 < c) = α ⇔ c = Fχ−1
2 (α) = χα
(n−1)
Então Rα ≡ (0; χα )
(n − 1)s2
σ02
10.6 Testes de hipóteses para o pressuposto da normalidade de uma

população
Temos usado em diversas situações o pressuposto de que a população X, de onde retiramos a
nossa amostra aleatória (X1 , . . . , Xn ), é Normalmente distribuı́da. Nesta secção usamos a amostra
para testar esse pressuposto da Normalidade populacional:
X Hipóteses:
H0 : X ∼ N (·, ·) vs H0 : X N (·, ·)
Observamos que o teste desta hipótese pode necessitar a estimação dos parâmetros que identifi-
cam a Normal, µ e σ 2 , caso não se tenha ideia à partida de quanto estes devem valer.
Este teste faz parte da classe mais vasta dos testes de ajustamento do Qui-quadrado.
Os dados observados (a amostra) são divididos em k classes, como aprendemos na fazer no
capı́tulo da estatı́stica descritiva. Em cada classe i consideramos o número de observações que
lhe correspondem (a frequência absoluta de cada classe), denotando esse número aqui por Oi .
Consideramos ainda o número de observações que esperarı́amos observar em cada uma das classes
se a hipótese nula fosse verdadeira, denotando-o por Ei . Este número é determinado como n×pi ,
em que pi é a probabilidade de uma observação pertencer à classe i, caso a hipótese nula seja
verdadeira:
pi = P (X ∈ classe i|H0 verdadeira)
Assim, estatı́stica de teste avalia se o que eu observei na classe i, Oi , se encontra próximo do

que eu esperaria observar nessa classe se a hipótese nula fosse verdadeira, Ei :
k sob H0
2
X (Oi − Ei)2
X = ∼ χ2(k−p−1)
Ei
i=1
O número de graus de liberdade da distribuição por amostragem da estatı́stica anterior é dado

pelo número de classes em que os dados foram divididos, k, menos o número de parâmetros que
foi necessário estimar, p (num máximo de 2, caso seja necessário estimar dos dados tanto µ como
σ 2 ), menos 1.
Regra 10.1 Depois de determinados os Ei , se os houver inferiores a 5, tipicamente correspon-

dendo às classes dos extremos, essas classes devem ser agrupadas até o correspondente novo
número esperado Ei (dado pelas somas dos correspondentes antigos Ei0 s) ultrapassar 5. Os cor-
respondentes Oi ’s devem nesse caso ser também somados, diminuindo naturalmente o valor do
número de classes k.
X Definamos a região de rejeição do teste, para um nı́vel de significância α, pré-especificado. Esta

vai corresponder a valores grandes da estatı́stica de teste, indicando que o que eu observei se
encontra longe daquilo que eu esperaria observar, caso a hipótese nula fosse verdadeira.
Rα ≡ (c, +∞),
c : P (X 2 < c) = 1 − α ⇔ c = Fχ−1
2 (1 − α) = χ1−α
(k−p−1)
Então Rα ≡ (χ1−α ; +∞)
Rejeitar H0 ao nı́vel de significância α se x2obs ∈ Rα .
Exemplo 10.9 Os artigos produzidos em determinada fábrica são sujeitos a um controle de qualidade,
resultando num ı́ndice de qualidade, X. De forma a avaliar essa qualidade recolheu-se uma amostra
aleatória de 46 artigos da produção, tendo-se medido os valores seguintes do referido ı́ndice:
(100,110,122,132,99,96,88,75,45,154,153,161,142,99,111,105,133,142,150,153,121,126,117,97,
105,117,125,105,94,90,80,50,55,102,122,136,75,104,109,108,134,135,111,78,89,154)
Use estes dados para testar, ao nı́vel de significância 5%, a hipótese de que este ı́ndice tem dis-
tribuição Normal.
• H0 : X ∼ N (·, ·) vs H1 : X N (·, ·)
Como não sabemos os valores populacionais de µ e σ 2 , vamos estimá-los dos dados:
46
1 X
µ̂ = x̄ = xi = 111.0652;
46
i=1
46
!
1
σˆ2 = s2 =
X
x2i − 46 × x̄ 2
= 785.3068
46 − 1
i=1
O próximo passo é a divisão dos dados em classes e a determinação dos correspondentes Oi e

Ei . Pela regra de Sturges o número de classes a considerar é dado por:
log(n) log(46)
k ≈1+ =1+ ≈ 6.523562
log(2) log(2)
Consideramos então k = 7 classes. Seguidamente definimos os extremos das classes. A ampli-

tude dos dados é dada por:
L = max(dados) − min(dados) = 161 − 45 = 116

Então a amplitude de cada classe deve ser dada por:
L 116
l= = ≈ 16.57
k 7
Vamos aproximar este valor a 20, um número mais redondo, e considerar as classes:
] − ∞; 60] ]60; 80] ]80; 100] ]100; 120] ]120; 140] ]140; 160] ]160; +∞[
Devemos contar quantas observações caiem em cada um dos intervalos anteriores, para obter os
valores de Oi , e devemos determinar os valores de Ei = n × pi = 46 × pi :
p1 = P (X ∈ classe 1|H0 verdadeiro) = P (X ≤ 60|H0 verdadeiro) =

X − 111.0652 60 − 111.0652
= P √ ≤ √ = P (Z ≤ −1.82) = P (Z ≥ 1.82) =
785.3068 785.3068
= 1 − Φ(1.82) = 1 − 0.9656 = 0.0344 ⇒ E1 = 46 × 0.0344 = 1.5824
p2 = P (X ∈ classe 2|H0 verdadeiro) = P (60 < X ≤ 80|H0 verdadeiro) =

60 − 111.0652 80 − 111.0652
= P √ <Z≤ √ = P (Z ≤ −1.11) − P (Z < −1.82) =
785.3068 785.3068
= (1 − Φ(1.11)) − (1 − Φ(1.82)) = 0.9656 − 0.8665 = 0.0991
⇒ E2 = 46 × 0.0991 = 4.5586

80 − 111.0652 100 − 111.0652
= P √ <Z≤ √ = P (Z ≤ −0.39) − P (Z < −1.11) =
785.3068 785.3068
= (1 − Φ(0.39)) − (1 − Φ(1.11)) = 0.8665 − 0.6517 = 0.2148
⇒ E3 = 46 × 0.2148 = 9.8808

100 − 111.0652 120 − 111.0652
= P √ <Z≤ √ = P (Z ≤ 0.32) − P (Z < −0.39) =
785.3068 785.3068
= Φ(0.32) − (1 − Φ(0.39)) = 0.6255 − (1 − 0.6517) = 0.2772
⇒ E4 = 46 × 0.2772 = 12.7512

120 − 111.0652 140 − 111.0652
= P √ <Z≤ √ = P (Z ≤ 1.03) − P (Z < 0.32) =
785.3068 785.3068
= Φ(1.03) − Φ(0.32) = 0.8485 − 0.6255 = 0.223
⇒ E5 = 46 × 0.223 = 10.258

140 − 111.0652 160 − 111.0652
= P √ <Z≤ √ = P (Z ≤ 1.75) − P (Z < 1.03) =
785.3068 785.3068
= Φ(1.75) − Φ(1.03) = 0.9599 − 0.8485 = 0.1114
⇒ E6 = 46 × 0.1114 = 5.1244
p7 = 1 − p1 − p2 − p3 − p4 − p5 − p6 =
= 1 − 0.0344 − 0.0991 − 0.2148 − 0.2772 − 0.223 − 0.1114 = 0.0401
⇒ E7 = 46 × 0.0401 = 1.8446
i Classe Oi pi Ei
1 ] − ∞; 60] 3 0.0344 1.5824
2 ]60; 80] 4 0.0991 4.5586
3 ]80; 100] 9 0.2148 9.8808
4 ]100; 120] 12 0.2772 12.7512
5 ]120; 140] 10 0.223 10.258
6 ]140; 160] 7 0.1114 5.1244
7 ]160; +∞[ 1 0.0401 1.8446
Como vemos as classes dos extremos têm Ei ’s inferiores a 5. Como tal vamos aglutinar a classe
1 com a classe 2 e a classe 7 com a classe 6, somando os correspondentes valores de Ei0 s e Oi ’s:
i Classe Oi pi Ei
1 ] − ∞; 80] 7 0.1335 6.141
2 ]80; 100] 9 0.2148 9.8808
3 ]100; 120] 12 0.2772 12.7512
4 ]120; 140] 10 0.223 10.258
5 ]140; +∞[ 8 0.1515 6.969
Passo então a ter k = 5 classes. Não nos esqueçamos que tivemos de estimar p = 2 parâmetros,
µ e σ 2 . Então:
k sob H0
X (Oi − Ei)2
X2 = ∼ χ2(k−p−1) ≡ χ2(5−2−1) ≡ χ2(2)
Ei
i=1
• Definamos a região de rejeição do teste, para o nı́vel de significância 5%, R0.05 , como:
R0.05 ≡ (c, +∞),

c : P (X 2 < c) = 1 − 0.05 = 0.95 ⇔ c = Fχ−1
2 (0.95) = χ0.95 = 5.991
(2)
Então R0.05 ≡ (5.991, +∞)
Rejeitar H0 ao nı́vel de significância 5% se x2obs ∈ Rα .
• Decisão:
5
X (Oi − Ei )2 (7 − 6.141)2 (9 − 9.8808)2
x2 = = + +
Ei 6.141 9.8808
k=1
(12 − 12.7512)2 (10 − 10.258)2 (8 − 6.969)2
+ + + = 0.4019 ∈
/ R0.05
12.7512 10.258 6.969
Logo, ao nı́vel de significância 5% não rejeitamos a hipótese nula de que a distribuição da população
é Normal.
2

10.1 Uma fábrica de gelados afirma que a procura do gelado de chocolate no verão, por dia e em
euros, é uma v.a. Normalmente distribuı́da com valor médio 200e e desvio padrão 40e.
Numa amostra aleatória constituı́da por 10 dias seleccionados ao acaso do perı́odo de verão
verificou-se que x̄ = 216e.
(a) Teste, ao nı́vel de significância 5%, se de facto o consumo médio de gelado de chocolate no
verão é de 200epor dia.
(b) Teste, ao ao nı́vel de significância 5%, se de facto o consumo médio de gelado de chocolate
no verão é menor do que 200epor dia.
10.2 Um produtor de azeite afirma que a acidez média do seu azeite é de 0.9o . De forma a confirmar tal
facto recolheu-se uma amostra aleatória da sua produção de azeite, tendo-se medido os seguintes
valores de acidez:
0.9 0.8 0.7 1.1 0.9 0.9 1.0 0.7 1.5 1.1
Admitindo a Normalidade da acidez do azeite:
(a) Teste, ao nı́vel de significância 1%, se o produtor tem razão.

(b) Teste, ao ao nı́vel de significância 1%, se a acidez média é superior a 0.9o .
10.3 Um biólogo pretende demonstrar que o peso médio de uma determinada espécie de coelhos -
coelhos anões - é superior a 250g. Para tal seleccionou aleatoriamente 40 coelhos, tendo obtido
uma média dos pesos de 255.3g e um desvio padrão de 30g. Teste se o biólogo está certo,
assumindo a Normalidade dos pesos dos coelhos (use o p-value do teste).
10.4 A Inês recebe, para além do seu salário, vencimento correspondente a 2 horas extra que devia
fazer todos os dias. Contudo ela está desconfiada que tem andado a trabalhar, em média, mais
do que 2 horas extra. Como a empresa onde trabalha regista sempre a hora de entrada e de saı́da
dos seus funcionários, ela seleccionou aleatoriamente 12 dias de trabalho passados e registou os
seguintes valores relativos ao horário extra: x̄ = 2.3h e s = 0.5h. Admitindo a Normalidade do
tempo extra de trabalho, teste se as suas suspeitas se confirmam.
10.5 Uma companhia de seguros tem previsto no seu orçamento um total de 5000e/dia para pagar
os prémios dos seus segurados. De forma a confirmar se o valor médio dos prémios pagos por dia
está bem previsto seleccionaram-se, de anos anteriores, 100 dias, tendo-se verificado x̄ = 5625ee
(xi − x̄)2 = 6187500e2 . Teste, ao nı́vel de significância 5%, se a previsão se adequa.
P
10.6 Numa fábrica de massas embalam-se pacotes de esparguete que deveriam ter peso médio de 500g.
O peso dos pacotes é uma v.a. Normal com variância σ 2 = 225g2 . De forma a confirmar o peso
médio destes pacotes, seleccionaram-se ao acaso 40 embalagens que tinham um peso médio de
495g. Teste se o peso médio das embalagens é menor do que as 500g indicadas.
10.7 Seja X uma v.a. com distribuição Normal de valor médio µ e desvio padrão σ. A partir de uma
amostra de dimensão 30, retirada da população, obtiveram-se os seguintes resultados:
30
X 30
X
xi = 64.0 (xi − x̄)2 = 84.4
i=1 i=1
(a) Teste, ao nı́vel de significância 1%, as hipóteses H0 : µ = 2 vs H1 : µ > 2.

(b) Suponha que está a testar a hipótese H0 : µ = 2 contra a hipótese H1 : µ = 2.5 e que
rejeita a hipótese nula se X̄30 > 2.3. Calcule as probabilidades dos erros de 1a e 2a espécie
do teste, se σ = 1.
10.8 De forma a poder comparar o desempenho de 2 corredores de Formula 1, seleccionaram-se

ao acaso 15 corridas onde ambos participaram, tendo-se registado as seguintes diferenças de
pontuação entre os dois corredores (corredor 1 - corredor 2):
−1 − 2 0 −3 −1 1 2 −3 −3 −1 −4 −4 1 −6 −8
Teste se o corredor 2 é em média melhor do que o corredor 1. Assuma a Normalidade das

diferenças de pontuação (recorra ao p-value do teste).
10.9 De forma a comparar a longevidade dos homens com a das mulheres, seleccionaram-se ao acaso
50 pares de irmãos, um de cada sexo, já falecidos, tendo-se registado uma média de longevidade
feminina de 85 anos e uma média de longevidade masculina de 84 anos. Assuma que tanto
a longevidade masculina, X1 , como a longevidade feminina, X2 , seguem distribuições Normais
com desvios padrão de 4 anos e 2 anos, respectivamente.
Teste, ao nı́vel de significância 1%, se há diferenças de longevidades médias.
10.10 Uma amostra de 10 peixes foi apanhada de um lago A e as concentrações de chumbo nos peixes
foi medida (em partes por milhão):
11.5, 10.8, 11.6, 9.4, 12.4, 11.4, 12.2, 11.0, 10.6, 10.8
Apanharam-se também 8 peixes num outro lago B e mediram-se as correspondentes concen-

trações de chumbo:
11.8, 12.6, 12.2, 12.5, 11.7, 12.1, 10.4, 12.6
Assumindo que as concentrações de chumbo nos peixes, em ambos os lagos, seguem distribuições
Normais com variâncias 0.09 e 0.16 para os lagos A e B, respectivamente, pode afirmar que os
lagos estão igualmente contaminados com o elemento chumbo?
10.11 Numa operação stop da brigada de trânsito, de 120 camiões TIR que foram parados, 42 iam com
excesso de peso. Com base nesta amostra aleatória, teste a hipótese de que a proporção deste
tipo de camiões, que circulam nas nossas estradas em situação ilegal, ultrapassa os 30%. Use
um nı́vel de significância de 10%.
10.12 Determinada desordem genética no sangue pode ser prevista com base num teste de sangue
muito simples. De forma a ter uma noção da proporção de pessoas que na população possam
vir a ter esta desordem, testaram-se 100 pessoas, seleccionadas ao acaso, para as quais 14 testes
deram positivo. Efectue um teste de hipóteses, usando o p-value do teste para concluir, sobre se
percentagem de pessoas com tal desordem é inferior a 10%.
10.13 No fabrico de parafusos admite-se, relativamente aos seus comprimentos, uma variabilidade
máxima de 0.5mm2 . Recolheu-se uma amostra aleatória de 20 parafusos que se verificou terem
s2 = 0.3. Admitindo a Normalidade do comprimento dos parafusos, teste, ao nı́vel de sig-
nificância de 5% se a especificação sobre a variabilidade do comprimento dos parafusos está a
ser respeitada.
10.14 Com base na amostra aleatória seguinte, teste H0 : σ = 1.3 vs H1 : σ 6= 1.3, a um nı́vel de
significância de 1%:
2.0 3.2 5.0 1.8 3.4 2.6

10.15 A resistência de um determinado metal é dito ter uma variabilidade inferior a 0.01 ohm2 . Teste
esta hipótese, a um nı́vel de significância 10%, usando a seguinte amostra aleatória de resistências
medidas para este metal:
0.14, 0.138, 0.143, 0.142, 0.144, 0.137
10.16 Teste a um nı́vel de significância 5% que a seguinte amostra aleatória provêm de uma distribuição
Normal(3, 22 ):
1.14, 3.11, 3.55, 2.81, 6.28, 1.61, 4.36, 0.90, 0.81, −0.18, 2.08, 2.68, 2.12, −0.33, 2.57,
3.55, 1.81, 2.56, 5.56, 2.46, 4.20, 1.63, 4.21, 4.85, 4.24, 3.98, 1.40, 3.00, 2.01, 3.31
10.17 Pensa-se que a altura a que os eucaliptos chegam aos 20 anos é uma v.a. Normal de média
2m. Para o confirmar seleccionou-se uma amostra aleatória de 30 eucaliptos, tendo observado
as seguintes alturas:
0.2, 0.8, 3.6, 1.0, 0.2, 4.3, 3.1, 0.4, 3.3, 3.1, 3.2, 5.3, 1.7, 0.2, 2.8, 0.4, 0.5, 3.0, 1.2, 4.2, 4.8,
3.4, 2.1, 2.5, 2.4, 2.1, 0.8, 3.5, 1.7, 1.3
Teste, ao nı́vel de significância 1%, a conjectura referida.
10.18 Pensa-se que a pressão arterial nos homens segue uma distribuição Normal de valor médio 14 e
variância 1. De forma a confirmar se assim é recolheu-se uma amostra aleatória de 28 valores de
tensão arterial, que se agruparam em classes no quadro abaixo. O que pode concluir a um nı́vel
de confiança de 10%?
i Classe Frequência observada

1 ] − ∞; 13.5] 4
2 ]13.5; 14] 7
3 ]14; 14.5] 8
4 ]14.5; 15] 5
5 ]15; +∞[ 4
10.19 A quantidade de lixo (toneladas) produzida no concelho do Xeisal, por dia, é uma variável
aleatória com distribuição normal. De forma a avaliar o que se passa no concelho em relação a
esta variável seleccionaram-se 15 dias ao acaso para os quais se registaram as correspondentes
quantidades de lixo produzidas, resultando numa média de x̄ = 100100 toneladas e num desvio
padrão amostral s = 1117 toneladas.
(a) Teste, ao nı́vel de significância de 1%, se a variância desta quantidade de lixo é inferior a
1000000 toneladas2 . Justifique o procedimento empregue.
(b) Assumindo agora que σ = 1000 teste a hipótese de que a quantidade média de lixo por dia
é inferior a 100000 toneladas. Use um nı́vel de significância de 5%. Justifique.
10.20 Determinado produtor de vinho afirma que a graduação média do seu vinho é de 13o - assuma
que a graduação segue uma distribuição normal. Seleccionaram-se aleatoriamente 5 garrafas da
produção tendo-se medido as correspondentes graduações (em o ): 13.4 13.5 13.6 13.6 13.4.
(a) Teste a hipótese de a graduação média deste vinho ser de facto 13o , ao nı́vel de significância
5%. Justifique todos os passos empregues.
(b) Diga o que entende por nı́vel de significância de um teste de hipóteses.
(c) O pressuposto da normalidade atrás considerado foi questionado por alguém. Assim recolheu-
se nova amostra aleatória de 33 garrafas de vinho, tendo-se medido as correspondentes
graduações, agrupadas em classes na tabela abaixo. Use estes dados para testar a hipótese
de a graduação de vinho seguir uma distribuição normal de média µ = 13.5o e desvio padrão
σ = 1o , a um nı́vel de significância de 10%. Justifique e comente.
i Classe Frequência observada

1 ] − ∞; 11.5] 5
2 ]11.5;12.5] 8
3 ]12.5;13.5] 9
4 ]13.5;14.5] 6
5 ]14.5; +∞[ 5
(a) Se, com base numa determinada amostra, certa hipótese H0 for rejeitada a um nı́vel de
significância 5% então também o será a um nı́vel de significância 10%.
(b) Suponha que para determinada média populacional µ conduzimos um teste de hipóteses
para H0 : µ = 0.5 vs H1 : µ 6= 0.5 e que rejeitámos esta hipótese nula com um nı́vel de
significância de 5%. Então é impossı́vel que a verdadeira média µ seja 0.5.
(c) O Teorema Limite Central é útil quando se pretende fazer um teste de hipóteses sobre
proporções.
(d) O nı́vel de significância de um teste é a probabilidade de a hipótese nula ser falsa.
(e) Pretendemos testar a hipótese nula de que determinado conjunto de dados provém de uma
população com distribuição Normal. Assim, depois de dividirmos os dados em classes,
contamos quantos dos elementos da amostra caem em cada uma dessas classes. A ideia do
teste que vamos efectuar é então comparar os valores observados com os que esperarı́amos
observar, caso a hipótese nula fosse verdade. O número esperado de casos para cada classe
é calculado pesando a dimensão da amostra pela correspondente proporção de elementos
que na referida população Normal se encontram nessa classe.
(f) Se o número de observações numa amostra for aumentado de n para 2n então o nı́vel de
significância α de um teste de hipóteses para a média populacional, conduzido com base
nessa amostra, diminui.
10.22 Pensa-se que a idade (em anos) dos indivı́duos de determinada cidade segue uma distribuição
Normal(45, 202 ). Para se confirmar esta suposição seleccionou-se uma amostra aleatória de 30
indivı́duos dessa cidade, tendo-se registado as respectivas idades e agrupado os elementos da
amostra na seguinte tabela de frequências:
Classes ≤15 ]15,30] ]30,45] ]45,60] >60

Idades 2 5 7 8 8
Teste, ao nı́vel de significância de 5%, a conjectura referida.

Capı́tulo 11
Regressão Linear Simples
Em muitos problemas práticos temos interesse em estabelecer relações entre certas variáveis. Pense-se,
por exemplo, que os resultados de muitas reacções quı́micas dependem da temperatura a que se dão
as referidas reacções ou que a qualidade de um cimento depende da quantidade e qualidade da areia
usada na sua confecção. O conhecimento das relações entre as várias variáveis permite-nos predizer o
valor de umas variáveis em função das outras.
11.1 Regressão Linear Simples

Vamos estar aqui apenas interessados no caso em que temos uma única variável dita resposta ou
dependente, Y , que queremos ver explicada ou modelada por uma outra variável dita explicativa
ou independente, x, através de uma relação linear:
Y = β0 + β1 x
Sendo as variáveis Y e x relacionadas pela equação anterior, conhecidos os valores de β0 e β1 ,

podemos prever o valor de Y para qualquer valor de x. Contudo, na prática, a equação anterior é
válida a menos de algumas flutuações aleatórias:
Y = β0 + β1 x + ε, ε ∼ N (0, σ 2 )
Ao termo ε chamamos erro aleatório e assumimos que tem distribuição normal com média nula.
Aos parâmetros β0 e β1 chamamos parâmetros da regressão. A este modelo designamos por
modelo de regressão linear simples. Os parâmetros de regressão, bem como a variância do erro
σ 2 , são usualmente estimados dos dados. Note-se que, assumindo independência entre os erros ε e a
variável explicativa x:
• E [Y |x] = E [β0 + β1 x + ε|x] = β0 + β1 x + E [ε] = β0 + β1 x + 0 = β0 + β1 x
• V[Y |x] = V[β0 + β1 x + ε|x] = V[ε] = σ 2
• Y |x ∼ N (β0 + β1 x, σ 2 )
Observamos que o modelo de regressão linear simples pode tornar-se mais complexo, se houver
necessidade de incluir mais variáveis independentes no modelo. Por exemplo, o resultado de uma
169
reacção quı́mica pode não depender apenas da temperatura mas também da pressão. Um modelo de
regressão linear que inclui mais de uma variável independente designa-se por modelo de regressão
linear múltipla.
11.2 Estimadores dos Mı́nimos Quadrados dos Parâmetros de Regressão

Suponha que se observam um conjunto de n valores da variável resposta Y - (Y1 , . . . , Yn ) - corres-
pondendo aos valores de uma variável independente x - (x1 , . . . , xn ) - e que se pretendem usar estes
valores para estimar os parâmetros de regressão de um modelo de regressão linear simples. Assumimos
que os erros aleatórios εi , para cada elemento amostral Yi , são independentes seguindo todos a mesma
distribuição N (0, σ 2 ) atrás apresentada:
Yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ) independentes
Estamos interessados em determinar estimadores β̂0 de β0 e β̂1 de β1 , de forma a obter a variável

resposta estimada Ŷi = β̂0 + β̂1 xi , para cada valor observado xi da variável independente. Sendo Yi
a resposta observada, começamos por considerar a soma dos quadrados que mede a distância entre o
observado Yi e o estimado Ŷi :
n
X
SQ = (Yi − β̂0 − β̂1 xi )2
i=1
Usamos esta soma para, a partir dos dados, encontrar os referidos estimadores de β0 e β1 . Tal é
conseguido minimizando a soma anterior com respeito a β̂0 e a β̂1 , e por isso os estimadores resultantes
designam-se por estimadores dos mı́nimos quadrados:
∂ SQ

=0 Pn
  Pn Pn

 ∂ β̂0  −2 i=1 (Yi − β̂0 − β̂1 xi ) = 0  i=1 Yi = nβ̂0 + β̂1 i=1 xi
⇔ ⇔ ⇔
∂ SQ Pn  Pn Pn Pn 2
=0 −2 i=1 xi (Yi − β̂0 − β̂1 xi ) = 0 i=1 xi Yi = β̂0 i=1 xi + β̂1 i=1 xi

 
∂ β̂1
Pn Pn
i=1 Yi i=1 xi
Sendo Ȳ = e x̄ =
n n
 
 Ȳ = β̂0 + β̂1 x̄  β̂0 = Ȳ − β̂1 x̄
⇔ ⇔
 Pn Pn 2  Pn Pn
i=1 xi Yi = nβ̂0 x̄ + β̂1 i=1 xi i=1 xi Yi = nx̄Ȳ − nx̄2 β̂1 + β̂1 2
i=1 xi

 β̂0 = Ȳ − β̂1 x̄
 
 β̂0 = Ȳ − β̂1 x̄   β̂0 = Ȳ − β̂1 x̄
⇔ Pn ⇔ ,
i=1 xi Yi −nx̄Ȳ
Pn 2
Pn
2 =  β̂1 = SxY
β̂1 i=1 xi − nx̄ i=1 xi Yi − nx̄Ȳ β̂1 =
  
n 2 2 Sxx
P
i=1 xi −nx̄
n
X n
X n
X n
X
sendo SxY = xi Yi − nx̄Ȳ = (xi − x̄)(Yi − Ȳ ) e Sxx = x2i − nx̄2 = (x1 − x̄)2 .
i=1 i=1 i=1 i=1
Proposição 11.1 Os estimadores dos mı́nimos quadrados de β0 e β1 , correspondendo a um conjunto

de dados (Yi , xi ), i = 1, . . . , n, são dados respectivamente por:
SxY
β̂0 = Ȳ − β̂1 x̄ β̂1 =
Sxx
Chamamos recta de regressão estimada a:
Ŷ = β̂0 + β̂1 x
Nota: Só podemos usar esta recta para fazer previsão da variável resposta para valores de x que
estejam contidos entre o mı́nimo e o máximo valores de x usados para a derivar.
11.3 Qualidade do Ajuste e Estimação de σ 2

Definição 11.1 (Resı́duos e Soma dos Quadrados dos Resı́duos) Conhecidos os estimadores
dos parâmetros de regressão, podemos medir quão longe se encontram os valores estimados da variável
resposta, Ŷi , dos valores observados Yi . Às quantidades ei = (Yi − Ŷi ) =(Yi − β̂0 − β̂1 xi ) chamamos
resı́duos. À sua soma de quadrados chamamos soma de quadrados dos resı́duos:
n X
X n n
X 2
SQR = e2i = (Yi − Ŷi )2 = (Yi − β̂0 − β̂1 xi )2 = SY Y − β̂1 Sxx ,
i=1 i=1 i=1
n
X n
X
2
com SY Y = (Yi − Ȳ ) = Yi2 − nȲ 2
i=1 i=1
Com base nos resı́duos avaliamos a qualidade do ajuste da regressão linear simples, através de uma
quantidade designada por coeficiente de determinação, a seguir definida:
Definição 11.2 (Coeficiente de Determinação)
2 2
SQR SY Y − β̂1 Sxx β̂1 Sxx
R2 = 1 − =1− =
SY Y SY Y SY Y
Nota: Esta medida compara a soma de quadrados dos resı́duos (SQR ) do modelo de regressão linear
simples com a SQR do modelo de regressão linear simples com β1 = 0. A quantidade R2 varia entre
0 e 1. Se R2 ≈ 0 dizemos que o modelo não ajusta bem os dados já que, nesse caso, a sua SQR está
próxima da SQR de um modelo com declive nulo, indicando não haver relação directa entre as variáveis
resposta e independente. Caso contrário, se R2 ≈ 1, falamos de um bom ajuste do modelo aos dados.
R2 é muitas vezes interpretado como sendo a proporção de variação da resposta Y explicada por x.
A quantidade SQR é ainda usada para estimar o valor da variância do erro, σ 2 , na maioria dos
casos desconhecida. Esta é estimada através de uma média corrigida dos quadrados dos resı́duos:
SQR
σ̂ 2 =
n−2
Proposição 11.2 (Propriedades de σ̂ 2 )

SQR
X σ̂ 2 = n−2 é estimador centrado de σ 2 ;
SQR
X σ2
∼ χ2n−2 .
A análise dos resı́duos ei atrás definidos é útil não só para validar a escolha da forma funcional linear
do modelo na explicação do conjunto de dados em análise, mas também para confirmar a validade
dos pressupostos efectuados para esse conjunto de dados, no que respeita à normalidade dos erros e
da sua variância constante (frequentemente através de métodos gráficos como histogramas ou gráficos
de probabilidades normais desses resı́duos). Mais frequentemente os resı́duos são investigados na sua
forma normalizada, de forma a poderem ser comparados com a distribuição normal reduzida.
Definição 11.3 (Resı́duos Padronizados ou Normalizados) No contexto da estimação do mo-

delo de regressão linear simples, às quantidades
ei ei
di = √ = q
σ̂ 2 SQR
n−2
chamamos resı́duos padronizados ou normalizados.
11.4 Distribuição dos Estimadores β̂0 e β̂1
11.4.1 Distribuição de β̂1

Vamos aqui derivar a distribuição por amostragem do estimador β̂1 . Para isso começamos por
escrever este estimador com um aspecto ligeiramente diferente:
Pn Pn Pn Pn
SxY i=1 xi Yi − nx̄Ȳ i=1 xi Yi− x̄ i=1 Yi i=1 (xi
− x̄)Yi
β̂1 = = = =
Sxx Sxx Sxx Sxx
Temos então que β̂1 é dado como uma combinação linear de variáveis aleatórias Normais inde-
pendentes (Yi ), seguindo então ele próprio uma distribuição Normal. Determinemos a sua média e
variância:
Pn Pn Pn
i=1 (xi − x̄)Yi i=1 (xi − x̄)E [Yi ] − x̄)(β0 + β1 xi )
i=1 (xi
E [β̂1 ] = E = = =
Sxx Sxx Sxx
Pn
β0 ni=1 (xi − x̄) + β1
Pn 2

β0 (nx̄ − nx̄) + β1 i=1 xi − x̄nx̄
P
i=1 (xi − x̄)xi
= = = β1
Sxx Sxx
Logo, β̂1 é estimador centrado de β1 .
Pn
i=1 (xi − x̄)Yi
V[β̂1 ] = V = (Yi ’s independentes)
Sxx
Pn 2
Pn 2 2
i=1 (xi − x̄) V [Yi ] i=1 (xi − x̄) σ σ 2 Sxx σ2
= 2
= 2
= 2
=
Sxx Sxx Sxx Sxx
Em conclusão:
2
β̂1 ∼ N β1 , Sσxx
Voltamos a relembrar neste ponto que na maioria dos casos σ 2 , a variância do erro, é um parâmetro
desconhecido, tendo de ser estimado por σ̂ 2 = SQ n−2 . Consequentemente, querendo fazer inferências
R
sobra o parâmetro β1 , não podemos usar a distribuição de β̂1 atrás, já que ela depende de σ 2 . Teremos
de antes de fazer uso do seguinte resultado:
β̂
q1 −β1
T = σ̂ 2
∼ t(n−2)
Sxx
11.4.2 Distribuição de β̂0

Vamos agora derivar a distribuição por amostragem do estimador β̂0 . Começamos por escrevê-lo
de uma forma mais conveniente:
P P P P
SxY Yi (xi − x̄)Yi Yi Sxx − (xi − x̄)Yi nx̄
β̂0 = Ȳ − β̂1 x̄ = Ȳ − x̄ = − x̄ = =
Sxx n Sxx n Sxx
P 2
xi − nx̄2 − (xi − x̄)Yi nx̄
P 2
xi − nx̄2 − (nxi x̄ − nx̄2 )
P P P
Yi Yi
= = =
n Sxx n Sxx
P P 2
Yi xi − nxi x̄
=
n Sxx
Então também vemos que β̂0 é dado como uma combinação linear de variáveis aleatórias Normais
independentes (Yi ), seguindo portanto também ele uma distribuição Normal. Determinemos a sua
média e variância:
"P # P
x2i − nxi x̄
P P 2
Yi E [Yi ] xi − nxi x̄
E [β̂0 ] = E = =
n Sxx n Sxx
P 2
β0 x2i − β0 nxi x̄ + xi β1 x2i − xi β1 nxi x̄
P P P P
(β0 + xi β1 ) xi − nxi x̄
= = =
n Sxx n Sxx
nβ0 x2i − β0 nx̄( xi ) + ( xi ) β1 x2i − ( x2i ) nβ1 x̄

P P P P P
= =
n Sxx
β0 n x2i − n2 x̄2
P 2
xi − nx̄2
P
β0
= = = β0
n Sxx Sxx
Assim, β̂0 é estimador centrado de β0 .
"P #
x2i − nxi x̄
P
Yi
V[β̂0 ] = V = (Yi ’s independentes)
n Sxx
n P 2 o
σ2 x2i + n2 x2i x̄2 − 2 x2i nxi x̄
2 P P
x2i −
P P
V[Yi ] nxi x̄
= = =
n2 Sxx
2 n2 Sxx
2
n P P o
2
σ2 n x2i + n2 x̄2 x2i − 2( x2i )nx̄ xi
P P
= =
n2 Sxx2
σ2
P 2 P 2
xi + nx̄2 − 2x̄ xi σ2
P 2 P 2
xi + nx̄2 − 2x̄nx̄
P
xi xi
= 2
= 2
=
n Sxx n Sxx
σ2
P 2 P 2
xi − nx̄2

xi σ 2 x2i
P
= 2
=
n Sxx n Sxx
Em conclusão:
σ2
P 2
x
β̂0 ∼ N β0 , n Sxxi
Sendo σ 2 desconhecida teremos de a estimar dos dados e de recorrer ao seguinte resultado para
fazer inferências sobre β0 :
T = rβ̂0 −β 0
∼ t(n−2)
σ̂ 2 x2
P
i
n Sxx
11.5 Intervalos de Confiança e Testes de Hipóteses para os Parâmetros

de Regressão
Conhecendo as distribuições por amostragem dos estimadores dos parâmetros de regressão, estamos
em condições de derivar intervalos de confiança e testes de hipóteses para estes parâmetros.
11.5.1 Intervalos de Confiança e Testes de Hipóteses para β1
Intervalo de Confiança a (1 − α) × 100% para β1

Construamos um IC(1−α)×100% (β1 ):
β̂
q1 −β1
• Estatı́stica pivot: T = σ̂ 2
∼ t(n−2) ;
Sxx
P (−c < T < c) = 1 − α ⇔ P (T < c) − P (T ≤ −c) = 1 − α ⇔

P (T < c) − P (T ≥ c) = 1 − α ⇔ P (T < c) − (1 − P (T < c)) = 1 − α ⇔
α α
P (T < c) − 1 + P (T < c) = 1 − α ⇔ P (T < c) = 1 − ⇔ c = Ft−1 1 − = t1−α/2
2 (n−2) 2
β̂1 − β1
− c < T < c ⇔ −t1−α/2 < T < t1−α/2 ⇔ −t1−α/2 < q < t1−α/2 ⇔
σ̂2
Sxx
s s
σ̂ 2 σ̂ 2
− t1−α/2 < β̂1 − β1 < t1−α/2 ⇔
Sxx Sxx
s s
σ̂ 2 σ̂ 2
− t1−α/2 − β̂1 < −β1 < t1−α/2 − β̂1 ⇔
Sxx Sxx
s s
σ̂ 2 σ̂ 2
β̂1 − t1−α/2 < β1 < β̂1 + t1−α/2
Sxx Sxx
• Assim, obtemos o seguinte intervalo de confiança:
 s s 
σ̂ 2 σ̂ 2
IC(1−α)×100% (β1 ) ≡ β̂1 − t1−α/2 ; β̂1 + t1−α/2 
Sxx Sxx
Testes de hipóteses para β1

Podemos estar interessados em efectuar diversos testes sobre este parâmetro β1 , tanto bilaterais
como unilaterais. O teste em que mais frequentemente estaremos interessados é o teste bilateral sobre
se o declive da recta de regressão, β1 , é nulo, indicando um modelo de regressão linear não adequado
ao conjunto de dados em mãos. Como tal vamos aqui apresentar esse teste, não excluindo contudo a
possibilidade de outros testes poderem ser efectuados.
X Hipóteses:
H0 : β1 = 0 vs H1 : β1 6= 0
sob H0
β̂1 − 0
T = q ∼ t(n−2)
σ̂2
Sxx
Rα ≡ (−∞; −c) ∪ (c; +∞),

α α α
c : P (T < c) = + (1 − α) = 1 − ⇔ c = Ft−1 1 − = t1− α2
2 2 (n−2) 2
Então Rα ≡ (−∞; −t1− α2 ) ∪ (t1− α2 ; +∞)
β̂1
Rejeitar H0 ao nı́vel de significância α se tobs = q ∈ Rα .
σ̂2
Sxx
Note-se que, caso já tivéssemos anteriormente determinado um intervalo de confiança (1−α)×100%
para β1 , se o valor 0 estivesse contido em tal intervalo poderı́amos concluir pela não rejeição da hipótese
nula anterior, ao nı́vel de significância α.
11.5.2 Intervalos de Confiança e Testes de Hipóteses para β0
Intervalo de Confiança a (1 − α) × 100% para β0

Construamos um IC(1−α)×100% (β0 ):
• Estatı́stica pivot: T = rβ̂0 −β 0
∼ t(n−2) ;
σ̂ 2 x2
P
i
n Sxx
P (−c < T < c) = 1 − α ⇔ P (T < c) − P (T ≤ −c) = 1 − α ⇔

P (T < c) − P (T ≥ c) = 1 − α ⇔ P (T < c) − (1 − P (T < c)) = 1 − α ⇔
α α
P (T < c) − 1 + P (T < c) = 1 − α ⇔ P (T < c) = 1 − ⇔ c = Ft−1 1 − = t1−α/2
2 (n−2) 2
β̂0 − β0
− c < T < c ⇔ −t1−α/2 < T < t1−α/2 ⇔ −t1−α/2 < q 2 P 2 < t1−α/2 ⇔
σ̂ xi
n Sxx
s s
σ̂ 2 x2i σ̂ 2 x2i
P P
− t1−α/2 < β̂0 − β0 < t1−α/2 ⇔
n Sxx n Sxx
s P s P
σ̂ 2 x2i σ̂ 2 x2i
− t1−α/2 − β̂0 < −β0 < t1−α/2 − β̂0 ⇔
n Sxx n Sxx
s P s P
σ̂ 2 x2i σ̂ 2 x2i
β̂0 − t1−α/2 < β0 < β̂0 + t1−α/2
n Sxx n Sxx
• Assim, obtemos o seguinte intervalo de confiança:
 s s P 
σ̂ 2 x2i σ̂ 2 x2i 
P
IC(1−α)×100% (β1 ) ≡ β̂0 − t1−α/2 ; β̂0 + t1−α/2
n Sxx n Sxx
Testes de hipóteses para β0

Os testes de hipóteses sobre o parâmetro β0 podem ser tanto bilaterais como unilaterais, sendo
sempre baseados na distribuição por amostragem anteriormente apresentada para β̂0 .
11.6 Intervalos de Confiança e Testes de Hipóteses para a Recta de

Regressão ou Resposta Média
No contexto do modelo de regressão linear simples, a resposta média para um valor especı́fico da
variável independente x0 é dada por E[Y |x0 ] = β0 + β1 x0 , sendo um seu estimador pontual:
\
E[Y |x0 ] = β̂0 + β̂1 x0
h i
\ 1 (x0 −x̄)2
Este estimador é centrado, a sua variância é dada por V (E[Y |x0 ]) = σ 2 n + Sxx e segue uma
distribuição normal:
\
E[Y |x0 ] − E[Y |x0 ]
Z=r h i ∼ N (0, 1)
2 1 (x0 −x̄)2
σ n + Sxx
SQR
Estimando σ 2 por σ̂ 2 = n−2 no resultado acima obtemos a usual distribuição t-student:
\
E[Y |x0 ] − E[Y |x0 ]
T =r h i ∼ t(n−2) .
(x −x̄)2
1
σ̂ 2 n + Sxx 0
Deste resultado podemos deduzir intervalos de confiança e construir testes de hipótese para E[Y |x0 ],
tal como fizemos para β0 e β1 .
11.7 Predição
No contexto do modelo de regressão linear simples, a predição de uma observação futura Y0 cor-
respondendo a um nı́vel especı́fico x0 da variável independente é o seu estimador pontual:
Ŷ0 = β̂0 + β̂1 x0

O erro de predição que lhe está associado,
e0 = Y0 − Ŷ0 ,
sendo dado por uma diferença de duas quantidades normalmente distribuı́das h e independentes,
i segue
2 1 (x0 −x̄)2
uma distribuição normal de média 0 e variância V (e0 ) = V (Y0 − Ŷ0 ) = σ 1 + n + Sxx :
Y0 − Ŷ0
Z=r h i ∼ N (0, 1)
1 (x0 −x̄)2
σ2 1+ n + Sxx
SQR
Estimando σ 2 por σ̂ 2 = n−2 no resultado acima obtemos a usual distribuição t-student:
Y0 − Ŷ0
T =r h i ∼ t(n−2) .
1 (x0 −x̄)2
σ̂ 2 1+ n + Sxx
Deste resultado podemos deduzir intervalos de confiança e construir testes de hipótese para Y0 , tal
como fizemos para β0 e β1 .
11.8 Um exemplo
Exemplo 11.1 Os dados seguintes dizem respeito ao grau de endurecimento de um certo cimento, Y ,
medido numa certa escala, para diferentes valores de temperatura, x, em o C:
i 1 2 3 4 5 6 7 8 9 10
xi 100 110 120 130 140 150 160 170 180 190
Yi 45 52 54 63 62 68 75 76 92 88
Com estes dados construı́mos um gráfico dos valores de x contra os valores de Y , do qual verifi-
camos parecer existir uma relação linear entre as duas variáveis:
90
80
70
Yi
60
50
100 120 140 160 180
xi
Assumindo então o modelo de regressão linear para estes dados, estimamos pelos mı́nimos quadra-
dos os parâmetros de regressão:
Pn
i=1 xi Yi − nx̄Ȳ 100 × 45 + 110 × 52 + . . . − 10x̄Ȳ 101970 − 10 × 145 × 67.5
β̂1 = P n 2 = 2 2 2
= = 0.4964
i=1 xi − nx̄
2 100 + 110 + . . . − 10x̄ 218500 − 10 × 1452
β̂0 = Ȳ − β̂1 x̄ = 67.5 − 0.4964 × 145 = −4.4727

Assim a recta de regressão estimada, disposta no gráfico dos dados na figura seguinte, é dada por:
Ŷ = −4.4727 + 0.4964 x
Estando interessados em estimar qual o nı́vel de endurecimento (médio) do cimento para uma
temperatura de 105o C basta fazer:
Ŷ = −4.4727 + 0.4964 × 105 = 47.65

No entanto, não podemos fazer análoga previsão para uma temperatura de 200o C, já que a recta
de regressão só é válida dentro da gama de temperaturas usadas para a estimar.
Vamos avaliar a qualidade do ajuste, determinando o coeficiente de determinação, R2 :
2 2 P
n 2 2

β̂1 Sxx β̂1 i=1 xi − nx̄ (0.4964) 2 218500 − 10 × 1452

R2 = = Pn 2 = = 0.955
SY Y i=1 Yi − nȲ
2 47691 − 10 × 67.52
Este valor indica um bom ajuste do modelo de regressão linear aos dados.
Estimamos agora o parâmetro variância do erro, σ 2 :

2 SQR 1 2
σ̂ = = SY Y − β̂1 Sxx = 11.9864
n−2 n−2
Testamos agora hipótese de o declive da recta de regressão β1 valer zero, usando um nı́vel de
significância de 5%:
90
80
70
Yi
60
50
100 120 140 160 180
xi
X Hipóteses:
H0 : β1 = 0 vs H1 : β1 6= 0
sob H0
β̂1 − 0
T = q ∼ t(n−2) ≡ t(10−2) ≡ t(8)
σ̂2
Sxx
X Região de rejeição:
R0.05 ≡ (−∞; −c) ∪ (c; +∞),

0.05
c : P (T < c) = 1 − ⇔ c = Ft−1 (0.975) = 2.306
2 (8)
Então R0.05 ≡ (−∞; −2.306) ∪ (2.306; +∞)
Rejeitar H0 ao nı́vel de significância α se tobs ∈ R0.05 .
X Decisão:
0.4964
tobs = q = 13.0231 ∈ R0.05
11.9864
218500−10×1452
Logo rejeitamos a hipótese de que β1 = 0, ao nı́vel de significância 5%.
Vamos
2

11.1 Determinada empresa está interessada em contabilizar o tempo que o ar condicionado está
ligado no verão, por dia, mediante a temperatura exterior (o C). Assim, seleccionaram-se 14 dias
ao acaso, para os quais se mediram as temperaturas (x) e se registarem o número de horas de
utilização do ar condicionado (Y):
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14
xi 29 28 29 35 26 25 32 31 34 27 33 33 32 28
Yi 10.5 9.0 10.4 18.6 5.5 5.2 11.6 10.4 17.8 9.9 13.7 14.2 12.3 8.7
(a) Disponha os dados em gráfico.

(b) Estime a recta de regressão linear simples. Refira quais os pressupostos efectuados. Dese-
nhe-a no gráfico anterior.
(c) Comente a qualidade da estimação efectuada, com base no coeficiente de determinação.
(d) Teste a hipótese de o verdadeiro declive da recta de regressão ser nulo. Comente o resultado
à luz da alı́nea anterior.
(e) Para uma temperatura exterior de 30o C qual o número de horas que estima que o ar
condicionado esteja a trabalhar? E para uma temperatura de 40o C?
11.2 Pretende-se modelar a velocidade do vento Y , medida em Km/h, com a altitude x a que se faz
a medição (m). Para tal registaram-se, para 9 valores de altitude, os correspondentes valores da
velocidade do vento:
i 1 2 3 4 5 6 7 8 9
xi 100 250 500 750 1000 1250 1500 1750 2000
Yi 4 9 15 16 20 46 54 59 72
X X X
Yi2 = 14675 Ȳ = 32.78 x2i = 12760000 x̄ = 1011.11 Yi xi = 427900
(a) Ajuste um modelo de regressão linear simples aos dados. O que pode dizer sobre a qualidade
do ajuste?
(b) Determine um intervalo de confiança a 95% para o verdadeiro declive da recta de regressão.
(c) Use o resultado da alı́nea anterior para testar a hipótese de que o verdadeiro declive da
recta de regressão é nulo.
11.3 Pretende-se, se possı́vel, modelar através de uma recta de regressão linear simples a quantidade
de vidro Y produzido num ecoponto (Kg), usando como variável independente x o número de
dias sem despejar o mesmo. Para tal, registaram-se os seguintes dados:
i 1 2 3 4 5 6 7 8
xi 2 3 4 5 10 15 20 25
yi 100 150 250 320 650 810 1040 1480
(a) Escreva a recta de regressão estimada através do método dos mı́nimos quadrados. Acha
que conseguiu um bom ajuste?
(b) Teste a hipótese de o declive da recta de regressão ser nulo e construa um intervalo de
confiança a 95% para a ordenada na origem da recta de regressão.
(c) Qual o valor da quantidade de vidro produzida no ecoponto que prevê ocorrer em 10 dias
sem o despejar. Seria possı́vel calcular o mesmo para um perı́odo de 35 dias?
11.4 Em determinada faculdade a associação de estudantes está interessada em modelar a média final
de curso dos seus alunos (Y ) com a nota de acesso à mesma faculdade, x, usando uma recta
de regressão linear simples. Para tal seleccionaram ao acaso um conjunto de 10 alunos para os
quais registaram os seguintes valores referentes a estas duas variáveis:
i 1 2 3 4 5 6 7 8 9 10
xi 12 18 14 16 11 19 20 17 13 15
Yi 11 15 12 14 11 16 19 15 12 13
(a) Estime a referida recta de regressão linear simples e comente a sua qualidade.
(b) Teste, ao nı́vel de significância 5%, a hipótese de que as notas de entrada não têm relação
directa com a média final de curso.
(c) Suponha que um caloiro entrou com média de 16 valores nesta faculdade. Preveja o seu
valor de média final de curso.
11.5 Determinado agricultor está interessado em estudar se a quantidade de milho produzido nas suas
terras está directamente relacionado com a quantidade de precipitação que ocorre nos meses de
Maio a Julho. Assim, registou essa quantidade de precipitação, em litros e por metro quadrado
de terreno, por 8 vezes distintas, tendo contabilizado os seguintes valores do milho produzido,
também por metro quadrado de terreno:
i 1 2 3 4 5 6 7 8
xi 45 50 60 30 35 55 52 71
Yi 2.8 3.3 3.6 2.9 3.0 3.5 3.8 3.5
X X X
Yi2 = 88.04 Ȳ = 3.3 x2i = 21020 x̄ = 49.75 Yi xi = 1337.6
Use os dados anteriores para dar uma resposta ao agricultor.
11.6 Estamos interessados em avaliar os custos de manutenção por ano (Y), em e, dos carros
POUPEX com a idade dos veı́culos (x), em anos. Assim, para se relacionarem estas 2 variáveis
através de um modelo de regressão linear, recolheram-se os seguintes dados:
i 1 2 3 4
Yi 200 320 450 490
xi 1 2 4 7
Correspondendo a estes dados temos que:
4
X 4
X 4
X
Yi2 = 585000 Ȳ = 365 x2i = 70 x̄ = 3.5 Yi xi = 6070 SQR = 8214.286
i=1 i=1 i=1
(a) Estime os parâmetros de regressão. Em termos práticos o que indica o valor de βˆ1 ?
(b) Critique a qualidade do ajuste.
(c) Teste a hipótese de o verdadeiro declive da recta de regressão ser nulo, a um nı́vel de
significância 5%. Esperava o resultado obtido? Justifique.
(d) Quanto estima que vá ter de custos de manutenção com o seu carro POUPEX neste ano
que se avizinha, agora que o seu carro faz 6 anos?
11.7 Pretende-se averiguar se existe uma relação directa entre a proximidade com campos de futebol
da residência de casais e a taxa de divórcio. Assim registaram-se, em 5 locais seleccionados ao
acaso, o correspondente número de estádios de futebol num raio de 50Km (x) e a respectiva taxa
de divórcio por 1000 habitantes registada nessas localidades (Y):
No de campos de futebol, xi 0 1 2 5 6
Taxa de divórcio (por 1000 habitantes), Yi 2.2 2.5 3.5 4.1 4.8
5
X 5
X 5
X 5
X 5
X
xi = 14; x2i = 66; Yi = 17.1; Yi2 = 63.19; Yi xi = 58.8; SQR = 0.2585075.
i=1 i=1 i=1 i=1 i=1
(a) Ajuste uma recta de regressão linear a estes dados. Que pode dizer da qualidade do ajuste?
(b) Diga por suas palavras como interpreta o valor de β̂1 obtido.
(c) Teste a hipótese do verdadeiro valor declive da recta de regressão, β1 , ser nulo, a um nı́vel
de significância 10%. O resultado está de acordo com a qualidade do ajuste discutida em
(a)?
(d) Numa localidade com 3 estádios de futebol na sua proximidade (menos de 50Km) quanto
prevê que valha a correspondente taxa de divórcio?
11.8 Uma empresa que produz fornos eléctricos está interessada em avaliar se os seus fornos estão bem
calibrados, no sentido em que atingem correctamente as temperaturas para as quais são progra-
mados. Assim seleccionou-se aleatoriamente um conjunto de 12 fornos, que foram programados
para diversas temperaturas, x, e para os quais se mediram as correspondentes temperaturas
efectivamente alcançadas, Y - valores em o C:
x 100 120 140 160 180 200 220 240 260 280 300 320
Y 105 114 142 163 178 205 224 236 258 282 300 319
12
X 12
X 12
X 12
X 12
X
Yi = 2526 Yi2 = 588184 xi = 2520 x2i = 586400 Yi xi = 587220
i=1 i=1 i=1 i=1 i=1
2
R = 0.9976 σ̂ = 3.71
(a) Estime através de uma recta de regressão linear simples a relação entre a temperatura
efectiva dos fornos e a temperatura para que estes foram programados.
(b) O que pode dizer sobre a qualidade da estimação efectuada na alı́nea anterior?
(c) Justifique de forma sucinta se o declive da recta de regressão aqui usada pode ser considerado
significativamente distinto de zero e quais as consequências práticas da sua conclusão.
(d) Interprete o valor obtido do declive da recta de regressão e justifique se este valor está ou
não de acordo com as expectativas da empresa fabricante dos fornos.
(a) Foi efectuado um estudo para modelar o peso ganho pelos adultos em Kg (Y ) com a sua
idade em anos (x). Uma amostra aleatória de 100 adultos, com idades compreendidas
entre 50 e 80 anos, foi seleccionada e a seguinte recta de regressão linear foi estimada:
Ŷi = 75 + 0.5xi . De acordo com este modelo, e assumindo que temos um bom ajuste,
podemos afirmar que um qualquer adulto aumenta 10Kg dos 50 para os 60 anos.
(b) Ainda referente ao estudo do peso descrito na alı́nea anterior podemos afirmar que a recta
de regressão linear aı́ estimada permanece aproximadamente válida para todos os indivı́duos
da faixa etária dos 5 aos 10 anos.
(c) Em certas locais há uma forte associação entre as concentrações de ozono x (ppm) e a
concentração do chamado carbono secundário Y (µg/m3 ). De forma a estudar esta asso-
ciação recolheram-se, para 16 locais aleatoriamente seleccionados, dados sobre estes dois
poluentes, tendo-se estimado por mı́nimos quadrados a seguinte recta de regressão linear:
Ŷi = 0.998 + 93.377xi

16
X
R2 = 0.712, σ̂ 2 = 15.1, x2i − nx̄2 = 0.03
i=1
Podemos então afirmar, com um nı́vel de significância de 5%, que o declive da recta é
significativamente distinto de zero, confirmando as nossas expectativas.
(d) Pensou-se num modelo de regressão linear simples para explicar a temperatura atmosférica
(Y ), em o C, em função da pressão atmosférica (x), em bar. Assim, seleccionaram-se ao acaso
20 dias e registaram-se os valores destas duas quantidades, tendo-se estimado a seguinte
recta de regressão linear:
Ŷi = −75 + 100xi (R2 = 0.95)
Sabendo que s
σ̂ 2
Pn 2 2
= 5.636,
i=1 xi − nx̄
posso então afirmar que:

(d1) A um nı́vel de significância de 5% o declive da recta é nulo.
(d2) A conclusão expressa na alı́nea anterior permite-me dizer que o modelo proposto não
é razoável para os fenómenos em causa.
(e) Num modelo de regressão linear o ponto (x̄, Ȳ ) pertence à recta de regressão estimada.
11.10 Pretende-se, se possı́vel, modelar através de uma recta de regressão simples o consumo de com-
bustı́vel, Y , de um automóvel em função da sua velocidade de circulação, x. Para tal registaram-
se os valores de consumo de combustı́vel para um mesmo percurso de 100Km percorrido a difer-
entes velocidades:
i 1 2 3 4 5 6 7 8
xi 50 60 70 80 90 100 110 120
yi 5.22 6.25 6.85 8.36 8.09 10.16 11.17 11.57
X X X
x̄ = 85, Ȳ = 8.46, x2i = 62000, Yi2 = 610.43, Yi xi = 6145.5, SQR = 1.15
(a) Ajuste um modelo de regressão linear simples aos dados. Que pode dizer sobre a qualidade
do ajuste?
(b) Diga por suas palavras como interpreta o valor estimado do declive da recta acima consid-
erada. O sinal desta estimativa está de acordo com as suas expectativas? Porquê?
(c) Determine um intervalo de confiança a 95% para o verdadeiro declive da recta de regressão.
Comente o resultado face à qualidade do ajuste concluı́da na alı́nea (a).
11.11 Determinado economista está interessado em averiguar se os salários se relacionam linearmente

com o grau de educação das pessoas, medido em anos de escolaridade. Assim ele seleccionou
aleatoriamente um certo número de pessoas, tendo registado para cada uma delas o seu salário
mensal bruto em e, Y , e o seu correspondente número de anos de escolaridade, x (que na amostra
se verificou variar entre 7 e 21 anos).
Com os dados recolhidos o economista procedeu à estimação, pelo método dos mı́nimos quadra-
dos, da recta de regressão linear Yi = β0 + β1 xi + εi , i = 1, . . . , n, com os habituais pressupostos,
tendo obtido o seguinte:
V\
σ̂2 x2i
P
βˆ0 = −1003.269 (βˆ0 ) = = 1288.738 tobs = β̂0 −β0
= −27.95
( 2
)
s
xi −nx̄2
P
n σ̂ 2
P 2
x
i
( )
P 2
n x −nx̄2
i
V\
2
βˆ1 = 139.817 (βˆ1 ) = Pn σ̂ 2 2 = 5.832225 tobs = r β̂1 −β1
= 2.415
i=1 xi −nx̄ Pn
σ̂ 2
x2 −nx̄2
i=1 i
R2 = 0.9716 σ̂ = 83.27 SQR = 693389.29
(a) Comente a qualidade do ajuste obtido.

(b) Teste, a um nı́vel de significância de 10%, a hipótese de o declive da recta de regressão ser
nulo. Comente.
(c) De acordo com este modelo qual o ganho de mais um ano de educação?
(d) Quanto prevê que ganhe um indivı́duo com a escolaridade obrigatória (= 9 anos de ed-
ucação)? E um licenciado (=17 anos de educação)?
Capı́tulo 12
Exercı́cios variados
12.1 Num determinado aquário encontram-se 4 peixinhos dourados e 6 vermelhos para venda.
(a) O Sr. Zé vai comprar 2 desses peixinhos, não tendo preferência pela cor. Assim, selecciona-
se aleatoriamente um conjunto de 2 peixes. Qual a distribuição da v.a. X que representa
o número de peixes dourados que calham a este cliente?
(b) Chegado a casa, os 2 filhos do Sr. Zé começam a discutir quem escolhe primeiro o seu
peixinho, antes mesmo de os verem. Decidem pois que, se pelo menos 1 dos peixes for
dourado, o filho mais velho pode escolher primeiro. Caso contrário, escolhe primeiro o filho
mais novo. Represente Y a v.a. que indica se foi o filho mais velho a escolher (Y = 1) ou
não (Y = 0). Determine a função de probabilidade de Y . Identifique esta distribuição.
(c) As v.a.’s X e Y são independentes? Justifique adequadamente.
12.2 O tempo de espera (em minutos) por um autocarro é uma v.a. T com a seguinte função densidade
de probabilidade:

 1/2, 0<t<1
f (t) = 1/4, 2<t<4
0, caso contrário

(a) Determine a função de distribuição da v.a. T (Sugestão: esboce primeiro o gráfico de f (t)).
(b) Determine o tempo médio e o tempo mediano de espera pelo autocarro.
(c) Qual é a probabilidade de esperar menos de 1 minuto pelo autocarro, sabendo que já estou
à espera há 0.5 minutos?
(d) Durante o ano tenho de apanhar este autocarro 100 vezes. Qual é o número médio de vezes,
nesse ano, em que espero menos de meio minuto?
12.3 A variável aleatória X representa o tempo de espera (em horas) num determinado serviço público.
A função densidade probabilidade desta variável é a seguinte:

 a, 0≤x≤2
f (x) = 2a, 2<x≤4
0, caso contrário

186
(a) Determine a constante a, justificando.

(b) Determine a probabilidade de eu esperar mais de duas horas neste serviço sabendo que já
estou à espera há meia hora.
(c) Calcule e interprete o valor esperado do tempo de espera neste serviço.
(d) Supondo que eu tenho de ir a este serviço umas 10 vezes por ano, em dias aleatoriamente
determinados, qual a probabilidade de em metade destes dias eu esperar mais de meia hora
de cada vez?
12.4 O tempo (em horas) que o técnico Zé demora a compor um televisor é uma variável aleatória X
cuja função densidade probabilidade é dada por:
3x2 , 0 < x < 1

f (x) =
0, c.c.
(a) Diga o que entende por função distribuição. Deduza a função distribuição da variável
aleatória X.
(b) Qual a probabilidade de o técnico Zé demorar mais de meia hora a compor um televisor,
sabendo que já o está a compor há 15 minutos?
(c) Se o técnico Zé tem 10 televisores para compor qual a probabilidade de ele demorar menos
de 15 minutos no arranjo individual de pelo menos 9 desses televisores?
12.5 O tempo (em horas) que os alunos da disciplina de Probabilidades e Estatı́stica demoram a
resolver um exame desta disciplina é uma variável aleatória X com a seguinte função densidade
probabilidade:

0.5x, 0≤x≤2
f (x) =
0, caso contrário
(a) Diga o que entende por função densidade probabilidade e qual a sua utilidade.
(b) Deduza a função distribuição do tempo de resolução do exame, X.
(c) Sabendo que determinado aluno já está a resolver o exame há mais de uma hora, qual a
probabilidade de ele resolver o exame em menos de uma hora e meia?
(d) Qual o tempo médio de resolução dos exames desta disciplina?
(e) Numa sala de 40 alunos qual a probabilidade de que todos eles demorem menos de uma
hora e meia a resolver o exame? Refira eventuais pressupostos que tenha de fazer para
responder a esta questão.
12.6 A quantidade de cimento (m3 ) que determinada betoneira debita por minuto é uma variável
aleatória X com a seguinte função densidade probabilidade:
1

f (x) = 5, 0≤x≤5
0, caso contrário
(a) Qual a probabilidade desta betoneira debitar mais de 4 m3 de cimento em determinado

minuto, sabendo que já debitou mais de 2 m3 ?
(b) Qual a quantidade média e a quantidade mediana de cimento debitado por esta betoneira
por minuto? Comente.
(c) Considere que determinado empreiteiro paga o cimento fornecido pela betoneira de acordo
com a velocidade a que este é depositado - muito rápido é equivalente a ter cimento muito
lı́quido e de pouca qualidade; muito lento é equivalente a cimento com muita areia e de
pouca qualidade. Assim, se em determinado minuto a betoneira:
• debitar menos de 2m3 de cimento, o empreiteiro paga este cimento a 1.5e por m3 ;
• debitar entre 2m3 e 4m3 (inclusivamente) de cimento, o empreiteiro paga este cimento
a 2.5e por m3 ;
• debitar mais de 4m3 de cimento, o empreiteiro paga este cimento a 1e por m3 .
Determine a função de probabilidade da variável aleatória Y que representa o preço por
m3 de cimento a que o empreiteiro o paga e determine o seu valor esperado e o seu desvio
padrão.
12.7 A variável aleatória X representa o peso (em dezenas de Kg) dos troncos de eucalipto que chegam
a determinada fábrica de papel, à qual corresponde a seguinte função densidade probabilidade:
(
(x−5)2
f (x) = 18 , 2≤x≤8
0, caso contrário

(b) Calcule a probabilidade de determinado eucalipto, que se sabe ter mais de 5 dezenas de Kg,
pesar mais de 6 dezenas de Kg.
(c) Calcule duas medidas de localização do peso dos eucaliptos (como, por exemplo, o peso
médio dos eucaliptos).
(d) Para uma remessa de 100 eucaliptos calcule a probabilidade de mais de metade pesarem
mais de 5 dezenas de Kg cada.

Moda, média e mediana de uma variável aleatória X com distribuição Normal são medidas
sempre iguais.
12.9 O consumo diário de água de um laboratório, em m3 , é uma variável aleatória com função
densidade:
 1

 3, 0 < x ≤ 1;



3
f (x) = 2x3
, 1 < x ≤ 3;




0, outros valores de x;

(a) Determine a função de distribuição desta variável aleatória.

(b) Calcule a probabilidade do consumo ser inferior a 0.5m3 , num dia em que o consumo é
inferior a 1m3 .
(c) Define-se a despesa diária com água em cêntimos, Y , através da fórmula Y = X 3 . Calcule
o valor médio desta despesa diária.
(d) Qual a probabilidade de, em 2 dos 5 dias úteis duma semana, se registar um consumo diário
inferior a 1m3 ?
12.10 Represente a variável aleatória X a proporção de reclamações resolvidas por mês, em determi-
nado serviço pós-venda, à qual corresponde a seguinte função densidade probabilidade:

2x, 0≤x≤1
f (x) =
0, caso contrário

(b) Determine P (X ≤ 0.5|X > 0.25).
(c) Considere a variável aleatória Y = exp(X). Determine E [X − Y ].
(d) Determine a probabilidade de em todos os meses de determinado ano (=12 meses) se terem
conseguido resolver pelo menos 90% de todas as reclamações recebidas.
12.11 Suponha que as variáveis aleatórias X, Y e W têm médias de 7, 2 e 5, respectivamente, e desvios

padrão de 1 , 2 e 0.5, respectivamente. Sabe-se ainda que cov(X, W ) = 1.
(a) Qual a média e a variância da variável aleatória T = 2X − W + 1?

(b) Seja V = X + Y + 1. Suponha que sabe que V(V ) = 2. Quanto vale cov(X, Y )? X e Y são
variáveis aleatórias independentes?
(c) Suponha agora que X e Y se distribuem normalmente, sendo independentes. Determine a
probabilidade de X ser maior que pelo menos o dobro de Y .
12.12 Certa doença não fatal para as ovelhas afecta contudo a sua produção de leite. Suponha que o
tempo X, em semanas, necessário à recuperação de uma ovelha afectada é uma variável aleatória
com a seguinte função densidade de probabilidade:

 0 , x≤1

f (x) =
 3 , x>1

x4
A consequente perda desta doença para o agricultor (em u.m., unidades monetárias) é dada pela
variável aleatória Y = 10 + 20X.
(a) Determine o valor médio e a variância de Y .

(b) Suponha que o governo decidiu subsidiar os agricultores com ovelhas afectadas por esta
doença. Para uma ovelha afectada e recuperada no tempo X, o governo paga uma quanti-
dade W (em u.m.) dada por: W = 30 se X < 2 e W = 30 + k se X ≥ 2, sendo k é uma
constante positiva.
i) Determine E [W ], em função de k. Qual o valor de k que garante que E[W ] = E[Y ]?
Para que nos interessa conhecer este valor de k?
ii) Para o valor de k determinado na alı́nea anterior, deduza a função distribuição da
variável aleatória W .
12.13 O tempo de vida (em anos) de uma espécie particular de abetos, Abies balsamea, é uma variável
aleatória X com a seguinte função distribuição:

0 , x<0
F (x) = −0.25x
1−e , x≥0
(a) Usando a função distribuição dada:

(i) Calcule P (1 < X < 2).
(ii) Determine a mediana do tempo de vida desta espécie de árvores.
(b) Determine a função densidade probabilidade de X.
(c) Qual o tempo médio de vida destas árvores?
(d) Calcule a probabilidade de uma destas árvores durar mais de 5 anos, sabendo que já ultra-
passou os 3 anos.
(e) Numa floresta destas árvores, com 150 abetos, qual a probabilidade de apenas 40 delas
ultrapassarem os 5 anos de vida?
12.14 Um técnico de segurança rodoviária garante que apenas 60% dos condutores de automóveis usam
cinto de segurança dentro das cidades.
(a) Indique, justificando, a distribuição da variável aleatória X que contabiliza o número de

condutores que usam cinto de segurança dentro da cidade, num total de 2 condutores.
(b) Calcule a probabilidade de, numa amostra de 2 condutores, haver exactamente 1 que não
usa o cinto de segurança.
(c) Como é sabido a gravidade dos acidentes rodoviários prende-se usualmente com o uso ou
não de cinto de segurança. Assim, vamos considerar o par aleatório constituı́do por X
(número de condutores que usam cinto de segurança dentro da cidade numa amostra de
2 condutores) e Y - número de condutores, nessa amostra de 2, que já tiveram acidentes
considerados graves. Este par aleatório tem a seguinte função de probabilidade conjunta:
X \Y 0 1 2
0 0.01 0.05
1 0.08 0.30
2
0.39 0.4 0.21 1
i. Complete a função de probabilidade conjunta, justificando.

ii. Qual a probabilidade de, em dois condutores que se sabe usarem sempre cinto de
segurança, nenhum deles ter tido acidentes considerados graves?
iii. Qual a probabilidade, de em dois condutores que se sabe nunca usarem cinto de segu-
rança, ambos terem tido acidentes considerados graves?
iv. De que forma é que as respostas às duas alı́neas anteriores lhe permitem concluir se
existe independência das variáveis X e Y ?
v. Sabendo que E[Y 2 ] = 1.24 determine V(X+Y).
12.15 Considere as v.a.’s X e Y independentes, tais que X ∼ Binomial(2, 0.6) e Y ∼ Uniforme(2).
(a) Construa a tabela da função de probabilidade conjunta do par (X, Y ).

(b) Calcule P (X > Y ).
(c) Indique, justificando convenientemente, os valores de E[XY ] e cov(X, Y ).
12.16 Considere as v.a.s X e Y , que seguem as distribuições X ∼Poisson(3) e Y ∼Binomial(5,0.6).

Admita ainda que Cov(X, Y ) = 0.5.
(a) As variáveis X e Y são independentes? Justifique.

(b) Calcule E [X − 2Y ] e V (X − 2Y ).
(c) Calcule o coeficiente de correlação entre X e Y e comente sobre a eventual relação linear
entre as variáveis.
12.17 Uma loja vende de 0 a 3 televisões (TVs) de alta definição por dia. Quando vende uma TV
o vendedor tenta persuadir o cliente a adquirir uma garantia alargada para a mesma. Denote
X o número de TVs vendidas num dia e represente Y o correspondente número de garantias
alargadas vendidas. A função de probabilidade conjunta de (X, Y ) segue-se:
X\Y 0 1 2 3
0 0.2 0 0 0
1 0.25 0.25 0 0
2 0.05 0.1 0.05 0
3 0.01 0.04 0.04 0.01
(a) Determine P (X = x) e P (Y = y), as funções de probabilidade marginais de X e de Y ,

respectivamente.
(b) Determine a função de probabilidade condicionada de Y sabendo que X = 1. Identifique
esta distribuição.
(c) Determine a covariância entre X e Y .
(d) O número de TVs vendidas é independente do número de garantias vendidas? Como é que
poderia usar as duas alı́neas anteriores para responder a esta questão?
12.18 Represente X a variável aleatória que indica o sexo de uma pessoa seleccionada ao acaso na
população (X = 0 corresponde a uma pessoa do sexo masculino e X = 1 a uma pessoa do sexo
feminino). Represente Y outra variável aleatória que representa a opinião sobre o aumento do
tempo de licença de maternidade para 6 meses (Y = 0 corresponde a uma opinião a favor e
Y = 1 a é uma opinião contra) de uma qualquer pessoa, na população. A correspondente função
de probabilidade conjunta segue-se:
X\Y 0 1
0 0.15 0.20
1 0.25 0.40
1
Escolhendo ao acaso uma pessoa desta população:
(a) Qual a probabilidade dessa pessoa ser do sexo masculino ou ser a favor do aumento do
tempo de licença de maternidade?
(b) Dado que essa pessoa é a favor do aumento do tempo da licença de maternidade qual a
probabilidade de que seja do sexo masculino?
(c) Determine o coeficiente de correlação entre X e Y .
(d) Conclua quando à independência de X e Y , por dois processos diferentes (pode-se basear
nas alı́neas anteriores).
12.19 Numa bomba de gasolina cada cliente abastece-se de uma quantidade aleatória de combustı́vel
X que se sabe ter uma distribuição Uniforme em [10,40] litros. Admita que por dia se abastecem
nesta bomba 300 clientes e que cada litro de combustı́vel proporciona uma receita de 75 cêntimos.
(a) Qual a receita média proporcionada por cada cliente? E qual a receita média diária deste
posto de abastecimento?
(b) Qual a probabilidade de, num certo dia, haver mais de 60 clientes a abastecer menos de 15
litros de gasolina (cada)?
(c) Suponha que aos clientes são distribuı́dos cartões - com 1 ponto para abastecimentos até
15 litros, com 2 pontos para abastecimentos entre 15 litros e 30 litros e com 3 pontos para
abastecimentos superiores a 30 litros.
(c1) Qual a percentagem de clientes que recebem 2 pontos?
(c2) Qual o número médio de pontos distribuı́dos diariamente?
12.20 O total de tempo (em minutos) gasto pelo Zé desde que sai de casa até que chega ao emprego
pode ser dividido em 3 componentes:
• T1 , o tempo dispendido desde que sai de casa até entrar no autocarro;

• T2 , o tempo gasto na viagem do autocarro;
• T3 , o tempo que decorre desde que sai do autocarro até entrar no emprego.
As variáveis aleatórias T1 , T2 e T3 são independentes com distribuição N (8, 12 ), N (20, 22 ) e

N (6, 12 ) , respectivamente.
(a) Determine a probabilidade de o tempo total gasto pelo Zé, desde que sai de casa até que
chega ao emprego, exceder os 40 minutos. Justifique convenientemente.
(b) Num ano de trabalho (=240 dias úteis) qual a probabilidade do Zé, em pelo menos metade
desses dias, demorar menos de 20 minutos no trajecto de autocarro ? Justifique conve-
nientemente.
(c) Quanto vale a cov(T1 , T2 )? Porquê?

Supondo que um intervalo de confiança a 95% para a média de uma população é dado por
IC95% (µ) ≡ (0.02; 0.15), então podemos afirmar, com um nı́vel de significância de 10%, que essa
média é diferente de zero.
12.22 O tempo de reacção (segundos) a um determinado medicamento estimulante, X, é normalmente

distribuı́do. De forma a se poderem estimar os parâmetros da sua distribuição observaram-se
esses tempos de reacção para 10 pacientes, seleccionados ao acaso, tendo-se registado os seguintes
valores:
10
X 10
X
xi = 110 s x2i = 1354 s2
i=1 i=1
(a) Com base nesta amostra, estime pontualmente o tempo médio de reacção a este medica-
mento e o seu desvio padrão.
(b) Deduza e encontre um intervalo de confiança a 95% para o tempo médio do tempo de
reacção. Comente e justifique todos os pressupostos empregues.
(c) Teste, a um nı́vel de significância 5%, a hipótese de o desvio padrão deste tempo de serviço
ser superior a 5 segundos. Justifique convenientemente todos os passos dados.
12.23 A durabilidade dos rolamentos ROLIV para veı́culos motorizados, medido em milhares de Kms,
segue uma distribuição normal. De forma a poder estimar a durabilidade média destes rolamen-
tos, o engenheiro Manecas testou 10 rolamentos ROLIV, tendo observado as seguintes valores
de durabilidades (em milhares de Kms):
10
X 10
X
54, 45, 39, 40, 38, 37, 34, 36, 35, 33 correspondendo a xi = 391; x2i = 15641.
i=1 i=1
(a) Indique um estimador pontual para a durabilidade média. Diga uma propriedade deste
estimador. Calcule, para a amostra recolhida, qual a correspondente estimativa da dura-
bilidade média.
(b) Deduza um intervalo de confiança a 95% para a durabilidade média e escreva em português
corrente o que é que ele representa.
(c) Qual deveria ser o tamanho da amostra a seleccionar de forma a que a amplitude do intervalo
de confiança a 95% para a durabilidade média fosse inferior a 1 milhar de Kms. Nota:
Assuma, à partida, que o referido tamanho amostral é superior a 30.
(d) Teste ao nı́vel de significância de 1% se a variância da durabilidade deste tipo de rolamentos
é inferior a 25 (milhares de Kms)2 . Justifique o procedimento empregue.
12.24 De forma avaliar o coeficiente de inteligência médio (QI) da classe dos gestores empresariais
seleccionou-se uma amostra aleatória de 100 gestores, aos quais se mediram os seus valores de
QI, tendo resultado numa média de 101. Sabe-se que o desvio padrão da população dos QI é de
10.
(a) De que forma se pode estimar pontualmente o coeficiente de inteligência médio desta
classe de profissionais?
(b) Deduza um intervalo de confiança a 96% para o coeficiente de inteligência médio dos
gestores. Indique os pressupostos efectuados. Explique porque é preferı́vel esta forma
de estimação à considerada na alı́nea anterior.
(c) Determine qual deve ser a dimensão da amostra de forma a que a amplitude do intervalo
de confiança determinado na alı́nea anterior se reduza para metade.
(d) Usando um nı́vel de significância de 5% teste a hipótese de o desvio padrão da população
dos QI valer efectivamente 10, sabendo que a amostra aleatória atrás recolhida de QIs
resulta num desvio padrão de 12. Indique os pressupostos que tiver de fazer.
12.25 A quantidade de lixo produzido, por semana, em cada lar da cidade LIMCITY (em Kg) é uma
variável aleatória X, de distribuição Normal com desvio padrão 10Kg.
(a) Estamos interessados em estimar pontualmente a média da quantidade de lixo produzido

semanalmente em cada lar desta cidade. Explique como o podemos fazer.
(b) Queremos agora estimar a média da quantidade de lixo produzido semanalmente em cada
lar desta cidade através de um intervalo de confiança a 95%, com base numa amostra
aleatória de dimensão n seleccionada da população:
(i) Deduza tal intervalo de confiança, justificando convenientemente.
(ii) Qual deve ser o tamanho da amostra aleatória a utilizar de forma a que o intervalo de
confiança que deduziu acima tenha uma amplitude inferior a 5Kg.
(c) Numa outra cidade vizinha, a SUJCITY, a quantidade de lixo doméstico produzido por se-
mana é uma variável aleatória Y , de distribuição Normal com desvio padrão 15Kg. Sabemos
que as quantidades de lixo produzido nas duas cidades são independentes.
Estamos interessados em testar a hipótese de a média da quantidade de lixo produzido
semanalmente em LIMCITY ser idêntica à média da quantidade de lixo produzido sem-
analmente em SUJCITY. Para tal, numa qualquer semana, P seleccionaram-se aleatoriamente
25 lares de LIMCITY tendo-se registado um total de 25 i=1 xi = 750Kg de lixo produzido.
Seleccionaram-se também 20 lares P20 de SUJCITY, numa semana qualquer, tendo-se registado
um total de lixo produzido de i=1 yi = 800Kg. Teste a hipótese formulada, usando um
nı́vel de significância de 10%, justificando convenientemente todos os passos empregues.
(d) Num teste de hipóteses para a diferença de médias, como o efectuado na alı́nea anterior, qual
o efeito de se diminuir o nı́vel de significância do teste? Existe vantagem nessa diminuição?
12.26 O Sr. Zé gaba-se de conseguir, através do seu olfacto, detectar se há ou não excesso de monóxido
de carbono (MO) na sua garagem.
(a) Em 100 dias seleccionados ao acaso verificou-se, através de um aparelho de medição de MO,
que o Sr. Zé acertou o seu veredicto sobre a quantidade de MO na sua garagem em 89 das
vezes.
Usando estes dados, deduza e determine um intervalo de confiança a 98% para a verdadeira
proporção das vezes que o Sr. Zé acerta neste seu veredicto. Comente o resultado. Como
poderia obter um intervalo de confiança mais preciso?
(b) Mais do que emitir este veredicto o Sr. Zé gaba-se de conseguir, através do seu olfacto,
indicar a verdadeira concentração de MO na sua garagem. Assim, em 6 dias seleccionados
ao acaso, registaram-se as diferenças entre o valor avançado pelo Sr. Zé e o verdadeiro valor
registado pelo aparelho de medição (ppm):
1 5 6 2 3 4
(i) Estime pontualmente o desvio padrão destas diferenças.
(ii) Teste, usando um nı́vel de significância de 5%, se o desvio padrão destas diferenças
é inferior a 2 (percebendo desta forma se o Sr. Zé tem uma prestação homogénea).
Indique eventuais pressupostos que tenha de fazer.
(iii) Explique o que entende por nı́vel de significância de um teste.
12.27 A empresa LIMPEX garante que produz detergente lı́quido com uma viscosidade média de 8
Pa.s (pascal segundo) a 25o C. Uma associação de defesa do consumidor decidiu analisar esse
detergente para verificar se tal afirmação é correcta. Com esse objectivo, recolheu uma amostra
de 32 embalagens de detergente (cada uma proveniente de um lote diferente), da qual obteve
uma viscosidade média de 8.02 Pa.s e um desvio padrão de 0.24 Pa.s.
(a) Estime pontualmente a média e o desvio padrão da viscosidade deste detergente.

(b) Estará a empresa a enganar os consumidores? Justifique a resposta através de um teste
estatı́stico, realizado ao nı́vel de significância de 1%. Justifique detalhadamente todos os
passos que empregar. Determine ainda o “p-value” do teste realizado.
(c) Discuta a pertinência do seguinte: supondo que na alı́nea anterior não rejeitámos a hipótese
nula aı́ formulada então isso significa que provámos que essa hipótese é verdadeira.
(d) Deduza e determine um intervalo de confiança a 90% para o desvio padrão da viscosidade
deste detergente. Indique eventuais pressupostos que tiver de fazer.
12.28 A empresa PELEX comercializa produtos feitos em pele de vaca e ovelha. Esta empresa criou
um ı́ndice de satisfação dos seus clientes, X, que se distribui normalmente. De forma a poder
avaliar se este ı́ndice ultrapassa o valor médio de excelência 25, seleccionaram-se ao acaso 16
clientes para os quais se determinou o valor do referido ı́ndice, tendo resultado em:
16
X 16
X
xi = 416 (xi − x̄)2 = 3603.7
i=1 i=1
(a) Estime pontualmente o ı́ndice de satisfação médio e indique duas propriedades do

correspondente estimador.
(b) Teste, usando estes dados, a pretensão de excelência da empresa. Detalhe todos os passos
que der e conclua recorrendo ao “p-value” do teste.
(c) Diga como poderı́amos validar o pressuposto de que este ı́ndice segue distribuição normal.
(d) A empresa está ainda interessada em saber qual a proporção de clientes que compra apenas
artigos de pele de vaca. Como tal seleccionou aleatoriamente 120 clientes tendo verificado
que, destes, 45 só compravam artigos destes. Deduza e calcule um intervalo de confiança
a 95% para a referida proporção.
12.29 A população das estaturas dos alunos da FCT, em metros, segue uma distribuição normal.
Recolheu-se a seguinte amostra aleatória de estaturas de 40 alunos desta faculdade:
1.79 1.80 1.72 1.82 1.57 1.78 1.78 1.66 1.78 1.80 1.75 1.74 1.60 1.77 1.82 1.82 1.75 1.66
1.84 1.77 1.78 1.78 1.69 1.78 1.52 1.72 1.84 1.65 1.71 1.79 1.76 1.70 1.63 1.71 1.70 1.64
1.59 1.63 1.74 1.71,
correspondendo a uma média amostral de 1.73 e a um desvio padrão amostral de 0.08.
(a) Diga o que entende por estimador pontual e estimativa pontual. Estime pontualmente, com
base nesta amostra, as verdadeiras estatura média populacional e variância populacional.
(b) Deduza um intervalo de confiança a 92% para a estatura média populacional.
(c) Assuma agora que conhece o desvio padrão populacional, σ = 0.1m. Qual deve ser a
dimensão da amostra para que a amplitude de um intervalo de confiança a 92% para a
média seja no máximo 0.05m?
(d) Teste a hipótese de que a verdadeira proporção de alunos com estatura superior ou igual
a 1.82m nesta população, digamos p, é maior que 0.2 (20%). Use um nı́vel de significância
de 5% e justifique o procedimento empregue.
12.30 Foram efectuados estudos em Los Angeles com o objectivo de determinar a concentração de
monóxido de carbono (CO) perto de vias rápidas. Para isso recolheu-se uma amostra de 20
pequenos volumes de ar, para os quais se determinaram a respectiva concentração de CO (em
partes por milhão, ppm), usando um espectrómetro. Tais medições resultaram numa média de
valores de 100.5ppm com variância de 27.5ppm2 , tendo-se verificado que em 5 das medições a
concentração observada ultrapassava os 110ppm!
(a) Teste a hipótese de a concentração esperada de CO ser superior a 110ppm, indicando even-
tuais pressupostos que tenha de fazer. Use um nı́vel de significância de 10% e justifique
convenientemente o procedimento empregue.
(b) Deduza um intervalo de confiança a 95% para a variância da concentração de CO na

população. Indique os pressupostos necessários.
(c) Responda, sem efectuar qualquer cálculo ou dedução, quais as diferenças que espera
que existam entre o intervalo de confiança pedido na alı́nea anterior e um intervalo de
confiança a 99% para a variância populacional da concentração. Justifique.
(d) Estime pontualmente a proporção de vezes que a concentração de CO ultrapassa 110ppm.
Indique outra forma de estimação que poderia usar para esta proporção.
Capı́tulo 13
Soluções dos exercı́cios propostos
Capı́tulo 1
Classe Freq. rel. Freq. rel. acum.
i fi∗ Fi∗
0 0.06 0.06
1 0.19 0.24
1.1 (a)
2 0.32 0.57
3 0.26 0.82
4 0.12 0.94
5 0.06 1.00
(b) 57%; 2 erros.
(c) x̄ = 2.37 erros; s = 1.24 erros; c.v. = 52.4%.
1.2 (a) Natureza discreta. No entanto agrupamos os dados em classes intervalares, visto os dados
tomarem muitos valores distintos.
Classe Freq. abs. Freq. abs. acum. Freq. rel. Freq. rel. acum.
i fi Fi fi∗ Fi∗
[170;255] 9 9 0.45 0.45
]255;340] 6 15 0.30 0.75
]340;425] 4 19 0.20 0.95
]425;510] 0 19 0.00 0.95
]510;595] 0 19 0.00 0.95
]595;680] 1 20 0.05 1.00
(b) Sim, o valor 680.
(c) x̄ = 287.05; M e = 277; M o = 300; Q1 = 205; Q3 = 303.
(d) s = 113.97; c.v. = 39.7%.
(e) A aparente assimetria destes dados deve-se à presença do outlier atrás mencionado.
198

i fi∗ Fi∗
]6.0;7.0] 0.11 0.11
]7.0;8.0] 0.11 0.22
1.3 (a) ]8.0;9.0] 0.06 0.28
]9.0;10.0] 0.22 0.50
]10.0;11.0] 0.22 0.72
]11.0;12.0] 0.22 0.94
]12.0;13.0] 0.06 1.00
(b) x̄ = 9.9s; M e = 10.25s; M o = 7.75s; Q1 = 8.30s; Q3 = 11.60s.
(c) s = 1.83s; c.v. = 18.45%.
1.4 (b) Não.
(c) Por exemplo x̄ = 24.5 anos; M e = 22.9 anos e s = 9.88 anos; c.v. = 40.4%.
i fi∗ Fi∗
]580;1100] 0.36 0.36
]1100;1620] 0.33 0.69
1.5 (a) ]1620;2140] 0.08 0.78
]2140;2660] 0.08 0.86
]2660;3180] 0.06 0.92
]3180;3700] 0.03 0.94
]3700;4220] 0.06 1.00
(b) 36 %.
(c) x̄ = 1604.22e; M e = 1245e; Duas modas, 1100e e 1790e; Q1 = 1040e; Q3 = 1790e;
s = 895.27e.
(d) Sk = 1.204. Enviesamento para a direita.
Classe, i fi Fi fi∗ Fi∗
[160;175] 5 5 0.20 0.20
]175;190] 8 13 0.32 0.52
1.6 (a) ]190;205] 5 18 0.20 0.72
]205;220] 4 22 0.16 0.88
]220;235] 2 24 0.08 0.96
]235;250] 1 25 0.04 1.00
(c) x̄ = 192.28; M e = 188; Três modas: 160; 164; 181.
1.7 (a) Por exemplo:
Classe, i fi Fi
[0;8] 6 6
]8;16] 7 13
]16;24] 11 24
]24;32] 3 27
]32;40] 2 29
]40;48] 1 30
(c) Por exemplo, x̄ = 18.5 min; M e = 18 min; 5 min e 18 min são os valores que se repetem
mais vezes.
Capı́tulo 2
2.1 (a) Se os dados não forem distinguı́veis:
Ω={(1,1),(1,2),(1,3),(1,4),(2,2),(2,3),(2,4),(3,3),(3,4),(4,4)}; S = P(Ω).
Se os dados forem distinguı́veis:
Ω={(1,1),(1,2),(1,3),(1,4),(2,1),(2,2),(2,3),(2,4),(3,1),(3,2)(3,3),(3,4), (4,1),(4,2),(4,3),(4,4)};
S = P(Ω).
(b) Se os dados não forem distinguı́veis:
”Sair um único 4”→ {(1,4), (2,4), (3,4)};
”Sair pelo menos um 4”→ {(1,4), (2,4), (3,4), (4,4)};
”Sair no máximo um 4”→ {(1,1), (1,2),(1,3),(1,4),(2,2),(2,3),(2,4),(3,3),(3,4)};
Se os dados forem distinguı́veis:
”Sair um único 4”→ {(1,4), (2,4), (3,4), (4,1), (4,2), (4,3)};
”Sair pelo menos um 4”→ {(1,4), (2,4), (3,4), (4,1), (4,2), (4,3), (4,4)};
”Sair no máximo um 4”→ {(1,1),(1,2),(1,3),(1,4),(2,1),(2,2),(2,3),(2,4),(3,1),(3,2),(3,3),(3,4),
(4,1),(4,2),(4,3)}.
2.2 2730.
2.3 (a) 384.

(b) 1152.
(c) 2880.
(d) 1152.
2.4 (a) 207360.

(b) 8709120.
2.5 455.
2.6 (a) 3003.

(b) 1120.
(c) 560.
(d) 225.
2.8 (a) 1/6.

(b) 1/2.
(c) 1/3.
2.9 (a) 1/10.

(b) 1/4.
(c) 1/40.
(d) 13/40.
2.10 (a) 5.85×10−7 .

(b) 0.70.
(c) 0.06.
(d) 4.72×10−9 ; 1.18×10−9 .
2.11 P(ı́mpar)=1/3; P(par)=2/3.
2.12 (a) 2/7.

(b) 1/7.
(c) 6/7.
2.13 (a) 2.19 × 10−6 .

(b) 2.79 × 10−6 .
(c) 1.48 × 10−5 .
1
2.14 (a) 6.
1
(b) 3.
1
(c) 2.
2.15 P (A ∪ B ∪ C) = 5/8.
2.16 P (A − B) = 1/3; P (A ∪ B) = 5/6; P (Ā ∪ B̄) = 2/3; P (Ā ∩ B) = 1/6; P (A ∪ B̄) = 5/6.
2.17 (a) 0.7.

(b) 0.3.
2.18 (a) 2/5.

(b) 1/5.
(c) 4/15.
(d) 7/15.
2.19 (a) 0.5; 0.375.

(b) 0.55.
2.20 (a) 0.475.

(b) 0.147.
2.21 (a) 0.88.

(b) 0.511(6).
2.22 (a) 0.65248.

(b) 0.998.
2.23 (a) 0.60.

(b) 0.40.
2.24 0.8.
2.26 0.02304.
2.27 (a) 0.0005.

(b) 0.0495.
(c) 0.0595.
2.28 Verdade. Basta que A e B sejam acontecimentos incompatı́veis.
2.29 Nota: O que se segue são soluções muito abreviadas! No exame pretendem-se justificações mais
completas.
(a) Verdade.
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) +

+ P (A ∩ B ∩ C) = (Porque A ⊆ B ⊆ C)
= P (A) + P (B) + P (C) − P (A) − P (A) − P (B) + P (A) = P (C).
(b) Falso. P(“PROVA”)= Casos favoráveis = 1

A23
= 1
23×22×21×20×19 .
Casos possı́veis 5
P (B∩Ā) P (B−A) P (B)−P (A∩B)
(c) Falso. P (B|Ā) = P (Ā)
= 1−P (A) = 1−P (A) = 0.25.
(d) Verdade. P(“3 exames em dias consecutivos”)= Casos favoráveis = C33 = 103
.
(e) Verdade.
2
P (“Defeito grave”∩“Defeito” ) P(“Defeito grave”)
P(“Defeito grave”|“Defeito”)= = = 25
8 =
P(“Defeito”) P(“Defeito”) 25
1
4.
(f ) Falso.
E - “Estudar”; P s - “Passar”;
P (E) = 0.80; P (P s|E) = 0.85; P (P¯s|Ē) = 1
P (Ē|P¯s) = 0.625.
(g) Falso. P (Ā ∩ B̄) = P (A ∪ B) = 1 − P (A ∪ B) = 1 − x + y.
(h) Falso. P(“Soma menor que 3”)= Casos favoráveis = C26 = 15 2
.
(i) Verdade. Assumindo que os sorteios se processam de forma independente temos que:
99 20

P(“Ganhar pelo menos 1 prémio”)=1-P(“Não ganhar nenhum prémio”)=1 − 100 '
0.182.
(j) Falso.
Li - “Venda da loja i”, i = 1, 2, 3; D - “Dı́vida incobrável”;
P (L1 ) = P (L2 ) e P (L3 ) = 2P (L1 ). Como P (L1 ) + P (L2 ) + P (L3 ) = 1, então P (L1 ) =
P (L2 ) = 14 e P (L3 ) = 12
P (D|L1 ) = 0.06; P (D|L2 ) = 0.10; P (D|L3 ) = 0.12
P (D) = 0.1.
(k) Falso.
P(“Em 5 pessoas escolhidas ao acaso todas terem sangue tipo A”)= Casos favoráveis =
Casos possı́veis
C512
C 25
' 0.0149.
5
(l) Falso.
P s - “Passar”; S - “Subornar”;
1
P (P s|S̄) = 0.6; P (P s|S) = 0.8; P (S) = P (S̄) = 2
P (S|P s) ' 0.57.
(m) Verdade. Assumindo que as devoluções se processam de forma independente temos que:
P(“No máximo ser devolvido 1 par de alianças em 10 vendidos”)=P(“Ser devolvido 0 ou 1
par de alianças em 10 vendidos”)=C010 × 0.10 × 0.910 + C110 × 0.11 × 0.910 ' 0.74.
(n) Verdade.
A - “Piriquito amarelo”; V - “Piriquito verde”; M - “Piriquito malhado”; C
- “Comer”;
P (A) = P (V ) = P (M ) = 13
P (C|A) = 0.3; P (C|V ) = 0.2; P (C|M ) = 0.1
P (A|C) = 0.5.
(o) Falso.
L - “Profissional liberal”; I - “Pagar os impostos voluntariamente”;
P (L) = 0.7; ¯
P (I|L) = 0.6 ⇔ P (I|L) = 0.4; ¯ L̄) = 0.1
P (I|L̄) = 0.9 ⇔ P (I|
¯ ' 0.903.
P (L|I)
(p) Falso.
P(“pelo menos um caramelo, pelo menos um bombom recheado com cerejas, pelo menos
uma trufa e pelo menos um chocolate de passas em 5 doces seleccionados ao acaso”)=
Casos favoráveis = C15 ×C15 ×C15 ×C15 ×C146 ' 0.014.
Casos possı́veis 5C 50
(q) Verdade.
A - “Botões da máquina A”; B - “Botões da máquina B”; C - “Botões da máquina
C”; D - “Botão defeituoso”;
P (A) = 0.15; P (B) = 0.25; P (C) = 0.6;
P (D|A) = 0.05; P (D|B) = 0.07; P (D|C) = 0.04
P (B|D) ' 0.36.
(r) Falso.
E - “Efeitos secundários”; C - “Criança”;
P (E|C) = 0.2; P (E|C̄) = 0.1;
P (C) = 0.15
P (C̄|E) ' 0.74.
(s) Verdade. Porque P (A ∩ B) = P (A)P (B) os acontecimentos são independentes. Como
P (A ∩ B) 6= 0 então os acontecimentos não são incompatı́veis.
(t) Falso.
A - “Avião atrasa”; C - “Chove”;
P (A|C) = 0.6; P (A|C̄) = 0.2;
P (C) = 0.4
P (Ā) = 0.64.
(u) Falso.
P(“1 aluno ter recebido o enunciado A, 2 alunos terem recebido o enunciado B e 3 alunos
terem recebido o enunciado C, em 6 alunos seleccionados ao acaso de 45”)= Casos favoráveis =
Casos possı́veis
C110 ×C215 ×C320
C 45
' 0.15.
6
(v) Falso.
G1 - “Grava o vı́deo 1”; G2 - “Grava o vı́deo 2”;
P (G1 ) = 0.7; P (G2 ) = 0.6

Assumindo independência entre o comportamento dos vı́deos temos que:
P(“Não ver o jogo”)= P (Ḡ1 ∩ Ḡ2 ) = P (Ḡ1 )P (Ḡ2 ) = 0.12.
(w) Falso.
E - “Estagiário recrutado na FCT”; AC - “Aceder a cargos de chefia”;
P (AC) = 0.2;
P (AC|E) = 0.75; P (AC|Ē) = 0.15;
P (AC) = 1 − P (AC) = 0.73 mas P (E|AC ' 0.56).
(x) Falso.
M - “Criança do sexo masculino”; C - “Criança canhota”;
P (M ) = 0.5 P (C) = 0.2;
Como M e C são acontecimentos independentes, P (C|M ) = P (C) = 0.2.
2.30 (a) P(“Acertar no número correcto”)= Casos favoráveis = 10×10

1
= 0.01.
Casos possı́veis
(b) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) ⇔ P (A ∩ B) = 0.12. Consequentemente, P (A ∩ B) =
P (A)P (B), pelo que A e B são acontecimentos independentes.
2.31 (a) S - “Ano seco”; M S - “Ano muito seco”; N - “Ano normal”;

P j - “Prejuı́zo significativo”;
P (P j|S) = 0.5; P (P j|M S) = 0.9; P (P j|N ) = 0.1;
P (S) = 0.4; P (M S) = 0.2; P (N ) = 0.4
P (P j) = 0.42.
(b) P (N |P j) ' 0.095
2.32 (a) A - “Atacante”; M - “Médio”; D - “Defesa”;

G - “Golo de penalty”;
8
P (A) = 30 ; P (M ) = 12 10
30 ; P (D) = 30 ;
3 1
P (G|A) = 4 ; P (G|M ) = 2 ; P (G|D) = 15
7
P (G) = 15 .
3
(b) P (M |G) = 7
2.33 V - “Maçã verde”; A - “Maçã amarela”; E - “Maçã encarnada”;

D - “Maçã danificada”;
P (V ) = 0.1; P (A) = 0.4; P (E) = 0.5;
P (D|V ) = 0; P (D|E) = 0.5; P (D|A) = 0.2
P (A|D) ' 0.24
2.34 (a) Q - “Profissional qualificado”;

RP - “Resolução de problema inesperado”;
P (RP |Q) = 0.96; P (RP |Q̄) = 0.78;
P (Q) = 6 ; P (Q̄) = 26
6−2
P (Q|RP ) ' 0.71.

(b) n - número de operacionais qualificados na equipe.

Determinação de n tal que P (RP ) = 0.9:
n 2
P (Q) = n+2 ; P (Q̄) = n+2 ;
n 2
P (RP ) = 0.9 ⇔ P (RP |Q)P (Q) + P (RP |Q̄)Q̄) = 0.9 ⇔ 0.96 × n+2 + 0.78 × n+2 = 0.9 ⇔
n = 4.
2.35 R - “Rua estar equipada com radar”;

C - “José usar a rua C”;
D - “José usar a rua D”;
P (R) = 41 ;
P (C|R) = 21 ; P (C|R̄) = 18 ;
P (D|R) = 14 ; P (D|R̄) = 18 ;
Porque o José nunca usa as duas ruas em simultâneo:
P (C ∪ D) = P (C) + P (D) = 38 .
Capı́tulo 3
3.1 (a) p=0.3; q=0.2.
(b)


 0, x<0
 0.3, 0 ≤ x < 1


F (x) = 0.5, 1 ≤ x < 2
0.7, 2 ≤ x < 3




1, x≥3

3.2 (a) i) 1/4.

ii) 1/12.
iii) 5/12.
iv) 1/4.
(b)

1 2 4 5 6
X
1/6 1/12 1/4 1/12 5/12
(c) Não.
(d) 5/9.
3.3 (a) 0.4.

(b) 0.25.
3.4 (a)

−20000 −10000 0 10000 20000
Y
0.25 0.30 0.25 0.10 0.10
(b)

−30000 −15000 0 15000 30000
Z
0.25 0.30 0.25 0.10 0.10
3.5 P (X = x) = 0.4 × 0.6x−1 , x = 1, 2, 3, . . .

3.6 (a) k=1.
(b)


 0, x < −1
 (x+1)2
, −1 ≤ x < 0

F (x) = 2
(x−1)2


 1− 2 , 0≤x<1
1, x≥1

(c) 1/2.
(d) 1/4.
√
3.7 (a) k = 2/2.
(b)

 0, x < 0√
F (x) = 2x2 , 0 ≤ x <
√ 2/2
1, x ≥ 2/2

(c) 7/72.
3.8 (a) 0.3834.
(b) 0.6321.
(c) 0.3679.
3.9 (a)

 0, x<0
1 cos(x)
F (x) = 2 − 2 , 0≤x<π
1, x≥π

π
(b) a = 2 - mediana.
√ √
3− 2
(c) √
3−1
' 0.434.
3.10 (a)

 0, x<0
F (x) = 3x2 − 2x3 , 0 ≤ x < 1
1, x≥1

(b)

1.5 4.0 8.5 11.5
L
0.5 0.472 0.02075 0.00725
3.11 Verdade. Como a função distribuição se define à custa da probabilidade acumulada F (x) =
P (X ≤ x), x ∈ R, o seu contradomı́nio está sempre contido no conjunto [0, 1], limitado. (As
probabilidades são quantidades que variam entre 0 e 1, inclusive).
Capı́tulo 4
4.1 (a)

0 1 2
X
0.25 0.65 0.10
(b) 0.1(3).
(c) 0.85 cafés; 0.3275.
h i
1
4.2 E [X] = 3/2; V (X) = 3/4; E [X 3 ] = 27/4; E 1+X = 15/32; E [X 2 ] = 3.
2
4.3 Vp (X) = − p4 + p
8 + 63
64 , mı́nima para p = 0 ou p = 1/2.
4.4 (a)

0 2500 25000
X
0.9989 0.001 0.0001
(b) 0.9989.
(c) 0.0011.
(d) E [X] = 5u.m., V (X) = 68725u.m.2 e c.v.(X) = 5243.09%
4.5 Comprar a B.
4.6 (a)

0, x<0
f (x) = −x
xe , x ≥ 0
(b) E [X] = 2; V(X) = 2.
4.7 E [X] = 3/2; E [X − 1] = 1/2; V (X) = 5/12; E [X(X − 1)] = 7/6; E [eX ] ' 5.489; me = 3/2;
c.v.(X) = 43.03%.
4.8 (a) k=1/2.

(b) π/2.
(c) π 2 /2 − 2.
(d) 0.
(e) 25π 2 /4 − 50.
4.10 (a) 0.08.

(b) 0.95.
(c) E [X] = 4h; me = 2.77h; mo = 0h; V(X) = 16h2 ; c.v.(X) = 100%.
(d) E [X] = 6h; me = 4.16h; mo = 0h; V(X) = 36h2 ; c.v.(X) = 100%.
4.11 (a) 1/3.

(b) E[X] = 1.5h.
√
(c) E[40 + 3 X] ' 43.5e.
completas.
(a) Verdade.

5 6 7 10
X ⇒ E[X] = 6.3.
0.4 0.2 0.3 0.1
(b) Falso. Esta situação é possı́vel. Apenas indica que muitos alunos tiveram notas muito baixas
(50% tem notas ≤ 4 valores), mas houve ainda notas grande o suficiente para “puxar” a
média para os 9 valores.
(c) Falso. A variância de uma variável aleatória, sendo definida como E [(X −E [X])2 ], é sempre
não negativa, desde que exista.
(d) Verdade. A média, sendo o centro de massa dos pontos a que corresponde, verifica-se ser
próxima para os valores observados das duas variáveis (algures entre 0 e 5). Quanto à
variância, verifica-se que os pontos observados da variável X2 estão muito mais dispersos
em torno da sua média (variando entre -10 e 10) enquanto que os pontos observados da
outra variável são muito menos dispersos em torno da sua média(entre 0 e 5). Então aos
primeiros pontos deve corresponder uma maior variância.
4.13 (a)

−5 10
X
3/4 1/4
(b) E[X] = −1.25e. Não deve aceitar jogar pois em média perde 1.25e.
1
4.14 (a) 4.
(b) P (Y ≤ 1) = P (X 2 ≤ 1) = P (−1 ≤ X ≤ 1) = 13 .
(c) E [Y ] = 4; V(Y ) = 19.2.
Capı́tulo 5
5.1 (a)

1 2 3 2 4 6
X Y
1/2 3/8 1/8 5/16 7/16 1/4
(b) Não.
(c) 11/16; 5/8.
(d) E [X] = 13/8; E [Y ] = 31/8; V (X) = 31/64; V (Y ) = 143/64; Cov(X, Y ) = 5/64; V (X +
Y ) = 23/8.
5.2 (a) 0.30.

(b)

1 2 3 4
X +Y
0.2 0.45 0.15 0.2
X\Y 0 1 2 3 P (X = x)
0 0.12 0.06 0.18 0.24 0.6
5.3 (a)
1 0.08 0.04 0.12 0.16 0.4
P (Y = y) 0.2 0.1 0.3 0.4 1
(b) E [X] = 0.4; E [Y ] = 1.9; σX ' 0.49; σY ' 1.14.
(c) 0.
X\Y 0 1
0 0 0.2 0.2
1 0.2 0.1 0.3
5.4 (a)
2 0.15 0.15 0.3
3 0.15 0.05 0.2
0.5 0.5 1
(b) 0.7.
(c) 0.4.
(d) Não são independentes.
5.5 (a) k=1/4.

(b) a=4.
(c) 3/2.
X\Y 0 1
0 0.72 0.06 0.78
5.6 (a)
1 0.08 0.14 0.22
0.8 0.2 1
(b) Não é independente.
(c) 0.06.
(d) P (X + Y < 2) = 0.86.
X\Y 0 1
0 0.50 0.05 0.55
5.7 (a) 1 0.25 0.1 0.35
2 0.05 0.05 0.1
0.8 0.2
(b) 50%, 55%, 80%. Não há independência.
(c) 0.34.
X\Y 0 1 2
0 0.35 0.14 0.21 0.7
5.8
1 0.15 0.06 0.09 0.3
0.5 0.2 0.3 1
√
5.9 (a) 2/2.
(b) 10σ 2 .
(c) −σ 2 .
5.11 (a) k=2/3.

(b)
2 2 1

f (x) = 3 (x + 1), 0 < x < 1
f (y) = 3 2 + 2y , 0 < y < 1
0, c.c. 0, c.c.
(c) Não.
(d) 13/75.
(e) P (X < Y ) = 5/9.
(f ) 0.18.
5.12 (a) k=1/2.

(b) Não.
5.13 (a) Falso. Pode acontecer que duas variáveis não sejam independentes mas tenham covariância
nula. O recı́proco é que não pode acontecer.
(b) Falso. A covariância pode ser negativa. Por exemplo, sendo X uma variável aleatória,
cov(X, −X) = −cov(X, X) = −V(X) ≤ 0 (já que V(X) ≥ 0).
5.14 (a) Falso. cov(X, X) = V(X) = σ 2 .

(b) Falso. cov(Y1 , Y2 ) = cov(X1 +X2 , 2X1 ) = 2cov(X1 , X1 )+2cov(X2 , X1 ) = 2V(X1 )+0 = 2σ 2 .
(Nota: Porque X1 e X2 são independentes então cov(X2 , X1 ) = 0).
(c) Verdade.
 Porque X e Y são variáveis aleatórias independentes, P (X = x|Y = 2) = P (X =
0.82, x=0

x) = 2 × 0.2 × 0.8, x = 1
0.22 , x=2

ρ(X,Y )
(d) Falso. ρ(X, Y ) = √cov(X,Y ) ⇔ cov(X,Y
p
V (X)V (Y ) ) = V (X)V (Y ), podendo esta raiz (e por isso o
quociente) tanto ser maior como menor que 1.
X\Y 0 1 2
0 1/2 1/12 1/12 2/3
5.15 (a)
1 0 1/4 1/12 1/3
1/2 1/3 1/6
(b) 0.
(c)

0 1
X
2/3 1/3

 0, x<0
F (x) = P (X ≤ x) = 2/3, 0 ≤ x < 1
1, x≥1

(d) E [X] = 1/3; E [Y ] = 2/3.

(e) cov(X, Y ) = 7/36. Sendo positiva significa que as variáveis estão positivamente associadas
e não podem ser independentes.
5.16 (a)


 0, x<0
0.25, 0 ≤ x < 1

F (x) = P (X ≤ x) =

 0.75, 1 ≤ x < 2
1, x≥2

(b) 0.75.
(c) P (X ≤ 1|Y = 1) = 0.75. Como esta probabilidade iguala P (X ≤ 1), tal parece indicar
haver independência entre X e Y .
(d) 3; 0.5; 1.26 (porque X e Y são independentes).
5.17 (a) 0.3; 0.

X\Y 6 7 8 9
1 0.4 0 0 0 0.4
2 0 0.3 0 0 0.3
(b)
3 0 0 0.2 0 0.2
4 0 0 0 0.1 0.1
0.4 0.3 0.2 0.1 1
(c) 1. Era de esperar este resultado já que X e Y se relacionam através de uma recta.
(d) 2 pacientes; 50%.
5.18 (a) 0.75. Perdem-se muitos faxes!

(b) 1.4 faxes; 0.45 faxes. O número médio de faxes enviado é quase o triplo do número de
faxes recebidos - perdem-se, em média, muitos faxes!
(c) ρ(X, Y ) ' 0.24. Fraca associação linear positiva.
(d) 0.125.
(e) X e Y não são independentes já que, por exemplo, a correlação entre ambas não é nula.
X\Y 0 1 2
0 1/9 1/9 0 2/9
5.19 (a) 1 2/9 1/9 1/9 4/9
2 0 2/9 1/9 3/9
1/3 4/9 2/9 1

0 1 2 0 1 2
X Y
2/9 4/9 3/9 1/3 4/9 2/9
(b) Não são independentes já que não acontece que para ∀(x, y), P (X = x, Y = y) = P (X =
x)P (Y = y). Basta escolher, por exemplo, x = 2 e y = 0 para verificar isso mesmo.
(c) P (X > Y ) = 49 .
1
(d) 3.
19
(e) cov(X, Y ) = 81 .
X\Y 0 1 2
0 0.3 0.2 0.1 0.6
5.20 (a) 1 0.1 0.1 0.0 0.2
2 0.1 0.0 0.1 0.2
0.5 0.3 0.2 1

0 1 2 0 1 2
X Y
0.6 0.2 0.2 0.5 0.3 0.2
(b) P (X > 0|Y = 0) = 0.4.

(c) ρ(X, Y ) ' 0.128. Associação linear positiva fraca.
(d)

0 1 2 4
X +Y
0.3 0.3 0.3 0.1
Capı́tulo 6
6.1 0.6164.
6.2 (a) 0.1297.

(b) 0.8295.
(c) 0.4357.
(d) 8.5 praias.
6.3 (a) 0.1291.

(b) 0.3874.
6.4 (a) 0.1074.

(b) 1.024 × 10−7 .
(c) 0.8926.
6.5 0.1035; 1.25 respostas; 0.9682 respostas.
6.6 (a) 0.0769.

(b) 0.2025.
(c) 0.2794.
(d) 2.5 copos; 1.5411 copos.
x 1 4−x
6.7 P (X = x) = Cx4 32 3 , x = 0, 1, 2, 3, 4.
6.8 0.0748 (soma de Binomiais independentes).
6.9 0.0351 (distribuição aproximada).
6.11 0.032 (assume-se independência entre lançamentos do dardo).

6.12 0.0294.
6.14 (a) 0.2846.

(b) 0.2699.
(c) 0.8752.
(d) 0.1248.
(e) 1.9 chamadas; 1.3774 chamadas.
6.15 0.2636; 0.1041.
6.16 (a) 3.9754 × 10−31 ' 0.

(b) 0.0024.
(c) 70 visitas; 11.95%.
6.17 0.1137.
6.18 Assumindo distribuição Poisson:
(a) 0.0988.
(b) 0.1219.
6.19 (a) 0.066.

(b) Seja Y o prejuı́zo do armazém, por mês e por empregado (e).

0 0.4 0.8 1.2
Y
0.223 0.335 0.251 0.191
E [Y ] = 0.564e σ = 0.414e
6.20 0.9084 (distribuição aproximada); 4 enganos.
6.22 0.271; 0.323 (distribuição aproximada).
6.23 (a) X ∼ U nif orme[9, 12]; 10.5h; 0.866h.

(b) 9.3h.
(c) 0.0412.
6.24 (a) X ∼ U nif orme[0, 1]:

1, x ∈ [0, 1]
f (x) =
0, c.c.
(b) 0.2.
(c) 0.5m; 57.735%.
(d) 0.2.
6.25 (a)

0, x<0
F (x) = −x/3
1−e , x≥0
(b) 0.1889.
(c) 0.3679.
(d) 0.3679 = P (X > 3) - Propriedade da falta de memória da exponencial.
(e) 100%.
6.26 (a) 0.7769.

(b) 100h; 100h.
(c) 7.4227 × 10−7 .
6.28 (a) 0.8944.

(b) 0.2266.
(c) 0.9544.
6.29 (a) 10.1898.

(b) 12.9475.
(c) 2.7719.
6.30 (a) 32.56%.

(b) 68.26%.
(c) 23.52.
(d) 62 pessoas.
6.31 17.28m.
6.32 (a) 0.051Kg.

(b) 0.023.
6.33 6.92.
6.34 1.968m.
6.35 (a) 5.1984 × 10−4 .

(b) 0.5.
(c) 0.9868.
6.36 (a) 0.6877.

(b) 0.9172.
(c) 0.7764.
6.37 (a) 0.692.

(b) -1.761.
(c) 0.868.
6.38 (a) 18.31.

(b) 3.94.
6.39 (a) P (3 < X < 7) = 0.9544.

(b) h : P (Y > h) = 0.025 ⇔ h = 13.92.
(c) P (X + W > Y ) = 0.7486.
6.41 Falso.
X - Número de porcos rosa no conjunto dos 4 porcos seleccionados;
X ∼ Hiperg(100, 100(1 − p), 4);
C2100−100p C2100p 100(1 − p)(99 − 100p)p(100p − 1)

P (X = 2) = 100 = .
C4 33 × 49 × 97
6.42 (a) 0.423.

(b) 3.44 × 10−5 .

0, y<0
(c) i. F (y) =
1 − e−3y , y ≥ 0
ii. 0.050.
iii. 1/3 dias; 1/3 dias.
6.43 (a) 0.4.

(b) i. 0.1587.
ii. Não são independentes.
(c) Y - número de vezes que se verifica A em 10 provas;
Y ∼ Bin(10, P (A) = 0.9938);
P (Y ≥ 9) ' 0.9983.
6.44 (a) A cada v.a. está associada uma função, a função distribuição, que, em cada ponto, retorna
a probabilidade de a v.a. ser menor ou igual que esse ponto.

0, t<0
F (t) = t
1 − e− 10 t≥0
(b) 0.05.
6.45 (a) 0.32 (32%).

(b) Y - Número de barras defeituosas nas 10 inspeccionadas;
Y ∼ Hiperg(100, 32, 10);
W - quantidade de dinheiro realizado na venda;

50 × 100 100 × 100
P (Y ≥ 1) P (Y = 0)
E [W ] ' 5085e.
(c) 0.5 (Assumindo que os comprimentos das duas barras são independentes).
6.46 Cov(W, U ) = σX2 − σ 2 . Se σ 2 6= σ 2 e ambas as variâncias forem diferentes de zero então posso
Y X Y
afirmar que, nesse caso, W e U são dependentes. Caso contrário não posso afirmar nada.
completas.
15
(a) Verdade. X ∼ Hiperg(25, 15, 3) pelo que E [X] = 3 × 25 e Y ∼ Hiperg(25, 10, 3) pelo que
10
E [Y ] = 3 × 25 . Então E [X − Y ] = E [X] − E [Y ] = 0.6.
(b) Verdade. Cálculo.
(c) Falsa. X ∼ Geo(0.1).
(d) Falsa. X ∼ Hiperg(5000, 80, 70). No entanto esta distribuição está nas condições de ser
n
aproximada pela Binomial que é dada no enunciado, já que N < 0.1.
6.48 (a) 7.301.

(b) 0.9992.
(c) 0.5.
6.49 (a) R.
(b) P (X < −1) = 0.1587.
(c) P (−1 < X < 1) = 0.6826.
(d) i) P (X < 0) = 0.5.
ii) P ( 10
P
i=1 Xi < 0) = 0.5.
R +∞
6.50 f (x) não é função densidade porque −∞ f (x)dx = 12 .
Capı́tulo 7
7.1 0.0038.
7.2 0.0113.
7.3 0.4602.
7.4 0.9382.
7.5 (a) 0.1587.

(b) 0.0456.
7.6 0.0985.
7.7 0.0636. 0.5636.
7.8 0.8555.
7.9 (a) 0.2389.

(b) 0.3212.
7.10 (a) 0.5878.

(b) 0.0112.
7.11 0.0004.
completas.
1
(a) Falso. X - tempo de abertura de uma qualquer porta (s); X ∼ Exp( 30 );
o
Y - N de portas (nas 300) que se abrem em menos de 10s; Y ∼ Bin(300, p), p = P (X <
10) ' 0.28345;
P (Y > 70) ' 0.9732 (distribuição aproximada).
(b) Verdade. Xi - altura (cm) a que salta a pulga i;
P ( 100
P
i=1 Xi > 1000) ' 0.5.
(c) Verdade. Xi - no de chocolates vendidos no dia i;
P ( 60
P
i=1 Xi ≤ 180) ' 0.5.
(d) Falso. Y - no de prémios pago pela seguradora (em 2500 produtores segurados);
Assumindo independência entre os pagamentos, Y ∼ Bin(2500, 0.01).
P (Y ≤ 10) ' 0.0013 (distribuição aproximada).
(e) Verdade. Xi - no de estrelas cadentes observadas das 21h às 22h no dia i;
P ( 183
P
i=1 Xi > 913) ' 0.53.
Capı́tulo 8
8.1 (a) µ = 1.85, σ 2 = 1.4275
(b) X1 e X2 têm a mesma distribuição de probabilidade de X. Ambos têm média µ = 1.85 e
variância σ 2 = 1.4275.
ˆ
(c) µ̂ = x̄ = 1.6, σ̂ 2 = s2 = 2.0(4), SE X̄ = 0.4522.
8.2 (b) θ̂2 é melhor, pois tem menor variância (V (θ̂2 ) = 0.38σ 2 ) que θ̂1 (V (θˆ1 ) = 0.5σ 2 ). Não são
consistentes.
σ2
(c) E [X̄] = n + µ2 6= µ.
8.3 É consistente
8.4 (a) É centrado.

(1 − p)2

λ 2
(b) p + ; Variância mı́nima para p = 31 .
n 2
(c) É consistente.
8.5 0.9429.
8.6 (a) 0.95.

(b) 385.
8.7 0.0023.
8.8 0.9974.
8.9 0.1038.
8.10 (a) 0.409.

(b) 0.9938.
8.11 0.0122.
8.12 0.399.
completas.
(a) Falso. Por exemplo de X̄ for a média de uma amostra aleatória (X1 , . . . , Xn ) de uma
X̄−µ
população Normal com σ 2 desconhecido, T = S/√ ∼ t(n−1) .
n
(b) Falso. X̄ é melhor estimador que X1 porque, apesar de ambos serem estimadores centrados
de λ, V (X̄) ≤ V (X1 ) e, além disso, X̄ é estimador consistente de λ enquanto que X1 não
é.
8.14 X̄.
completas.
(a) Falso. Através do T.L.C. consegue-se a distribuição aproximada de X̄ mas esta é normal.
A sua distribuição exacta não se consegue saber.
(b) Falso. Um estimador centrado é preferı́vel a um não centrado porque, contrariamente ao
não centrado, em média esse estimador vale o parâmetro que estima.
(c) Verdade.
E [P ] = E X
1 1
n = n E [X] = n np = p (P é estimador centrado de p);
p(1−p) n→∞
V(P ) = V X 1 1

n = n2 V(X) = n2 np(1 − p) = n → 0 (P é estimador consistente de p);
(d) Falso. X̄ ∼ N (4, 22 /5), Ȳ ∼ N (4, 12 /5), X independente de Y , X̄ − Ȳ ∼ N (4 − 4, 22 /5 +
12 /5);
P (X̄ > Ȳ ) = 0.5.
(e) Verdade. T é dado como uma combinação linear de v.a.’s (independentes) normais e como
tal segue distribuição normal.
σ2
(f ) Falso. SEX̄ = n 6= σ 2 , n 6= 1.
(g) Verdade. Para fazer testes de hipótese sobre proporções utiliza-se uma estatı́stica de teste
cuja distribuição aproximada é derivada com recurso ao TLC (acrescentar a explicação de
tal - ver sebenta).
(h) Falso. T1 já que é o único estimador de µ que é centrado e consistente. T2 não é estimador
centrado de µ e T3 , apesar de centrado, não é consistente. T1 é mais eficiente que T3 pois
tem menor erro quadrático médio. Note-se contudo que T1 pode ou não ser mais eficiente
que T2 .
(i) Falso. Uma caracterı́stica numérica de uma amostra é um estimador, que serve para estimar
parâmetros (que são caracterı́sticas numéricas da população).
(j) Verdade. Se conhecemos a média de uma população não precisamos fazer conjecturas sobre
ela (a não ser por motivos didácticos!).
σ2
(k) Verdade. A variabilidade de X̄ é dada por V (X̄) = n . Dobrando o n esta variabilidade
reduz-se para metade.
(l) Falso.
E [T1 ] = θ; E [T2 ] = θ;
Sendo a e b constantes arbitrárias, E [aT1 + bT2 ] = aE [T1 ] + bE [T2 ] = aθ + bθ 6= θ, generi-
camente.
(m) Falso. T é estimador centrado de λ mas não consistente.
Capı́tulo 9
9.1 (a) IC90% (µ) ≡ (312.67; 327.33).
(b) 4304; 173.
9.2 (a) IC90% (µ) ≡ (29.3; 42.70); IC95% (µ) ≡ (27.64; 44.36).
(b) IC90% (µ) ≡ (33.7; 38.3); IC95% (µ) ≡ (33.2; 38.8).
9.3 IC99% (µ) ≡ (0.042; 0.26).
9.4 Assumo n > 30 - n ≥ 158.
9.5 IC95% (µ) ≡ (21.04; 23.16).
9.6 IC99% (µ) ≡ (9.273; 10.727).
9.7 191.7; n = 50.
9.8 (a) IC95% (µ) ≡ (0.955; 1.445)

(b) Assumo normalidade. IC95% (µ) ≡ (0.51; 1.69).
9.9 IC95% (µ) ≡ (1.23; 1.37).
9.10 IC90% (µ1 − µ2 ) ≡ (3.37; 8.63).
9.11 IC95% (µ1 − µ2 ) ≡ (0.044; 0.156).
9.12 IC98% (p) ≡ (0.09; 0.27).
9.13 (a) P=0.06.

(b) n=6068 (usando P da alı́nea anterior para estimar a variância de P).
9.14 IC99% (σ 2 ) ≡ (0.075; 0.573).
9.15 IC95% (σ 2 ) ≡ (990.57; 9384.00); IC95% (σ) ≡ (31.47; 96.87).
9.16 Verdade. Nas condições do problema a estatı́stica dada segue uma distribuição N (0, 1) e, não
dependendo a sua distribuição por amostragem de nenhum parâmetro desconhecido, é uma
estatı́stica pivot.
X̄−µ
9.17 (a) Z = √
1/ n
∼ N (0, 1).
(b) IC88% (µ) ≡ (9.10; 9.90).
(c) n = 60.
completas.
(a) Verdade. A amplitude dos I.C. para a média varia de forma inversa com o tamanho da
amostra, já que esta amplitude é sempre proporcional ao erro padrão de X̄, SEX̄ , (ou no
erro padrão estimado), que por sua vez varia inversamente com o tamanho amostral.
(b) Falso. A amostra deve ser de dimensão superior a 1076.
9.19 (a) x̄ = 35 meses.

(b) IC98% (µ) ≡ (32.7; 37.3).
(c) Esperamos que o verdadeiro tempo médio de residência nas suas moradas actuais das pes-
soas desta cidade esteja compreendido entre 32.7 meses e 37.3 meses - temos uma grande
confiança que assim é.
(d) Por exemplo aumentando o tamanho amostral - o que diminui a amplitude do IC, aumen-
tando assim a precisão da estimação.
(e) IC90% (σ) ≡ (5.3; 7.7).
9.20 (a) µ̂ = x̄ = 1.5% σˆ2 = s2 = 0.8.

(b) IC95% (µ) ≡ (0.56; 2.44). Como este I.C. abrange valores acima de 1% tal indica que pos-
sivelmente temos em mãos uma situação preocupante.
(c) n = 308.
Capı́tulo 10
10.1 (a) H0 : µ = 200 vs H1 : µ 6= 200; R0.05 ≡ (−∞; −1.96) ∪ (1.96; +∞); zobs = 1.26; Não rejeitar
H0 a 5%.
(b) H0 : µ ≥ 200 vs H1 : µ < 200; R0.05 ≡ (−∞; −1.64); zobs = 1.26; Não rejeitar H0 a
5%. Os dados não evidenciam que o consumo médio de gelado de chocolate seja menor que
200e/dia.
10.2 (a) H0 : µ = 0.9 vs H1 : µ 6= 0.9; R0.01 ≡ (−∞; −3.25) ∪ (3.25; +∞); tobs = 0.802; Não rejeitar
H0 a 1%.
(b) H0 : µ ≤ 0.9 vs H1 : µ > 0.9; R0.01 ≡ (2.821; +∞); tobs = 0.802; Não rejeitar H0 a 1%,
pelo que os dados não evidenciam que a acidez média seja superior a 0.9.
10.3 H0 : µ ≤ 250 vs H1 : µ > 250; zobs = 1.12; p = P (Z > zobs |H0 verdadeira) = 0.1314; Não
rejeitar H0 aos usuais nı́veis de significância, pelo que os dados não indiciam que o biólogo tenha
razão.
10.4 H0 : µ ≤ 2 vs H1 : µ > 2; tobs = 2.08; p = P (T > tobs |H0 verdadeira) ∈]0.025; 0.05[; Logo
rejeitar H0 a 5% e 10%, pelo que os dados indicam que Inês parece ter razão.
10.5 H0 : µ = 5000 vs H1 : µ 6= 5000; R0.05 ≡ (−∞; −1.96) ∪ (1.96; +∞); zobs = 25; Rejeitar H0 a
5%, indicando os dados um desajuste no referido prémio médio.
10.6 H0 : µ ≥ 500 vs H1 : µ < 500; zobs = −2.108; p = P (Z < zobs |H0 verdadeira) = 0.0174
Rejeitar H0 a 5% e 10%, pelo que os dados evidenciam que o peso médio dos pacotes deva ser
inferior a 500g.
10.7 (a) R0.01 ≡ (2.462; +∞); tobs = 0.428; Não rejeitar H0 a 1%.
(b) α =P(erro 1o espécie)=0.0505; β=P(erro 2o espécie)=0.1357.
10.8 H0 : µ ≥ 0 vs H1 : µ < 0; tobs = −3.035; p = P (T < tobs |H0 verdadeira) ∈]0.001; 0.005[;
Rejeitar H0 aos usuais nı́veis de significância, evidenciando os dados que o corredor 2 é melhor
que o corredor 1 em média.
10.9 H0 : µ1 − µ2 = 0 vs H1 : µ1 − µ2 6= 0; R0.01 ≡ (−∞; −2.57) ∪ (2.57; +∞); zobs = −1.58; Não
rejeitar H0 a 1%.
10.10 H0 : µA − µB = 0 vs H1 : µA − µB 6= 0; zobs = −4.8; p = P (|Z| > |zobs | |H0 verdadeira) ' 0;
Rejeitar H0 aos usuais nı́veis de significância, significando que os dados evidenciam diferentes
contaminações médias.
10.11 H0 : p ≤ 0.3 vs H1 : p > 0.3; R0.10 ≡ (1.28; +∞); zobs = 1.20; Não rejeitar H0 a 10%,
significando que os dados evidenciam que a proporção de camiões infractores não ultrapassa os
30%.
10.12 H0 : p ≥ 0.1 vs H1 : p < 0.1; zobs = 1.33; p = P (Z < zobs |H0 verdadeira) = 0.9082; Não rejeitar
H0 aos usuais nı́veis de significância, significando que os dados evidenciam que a percentagem
de possuidores desta desordem na população não é inferior a 10%.
10.13 H0 : σ 2 ≤ 0.5 vs H1 : σ 2 > 0.5; R0.05 ≡ (30.14; +∞); x2obs = 11.4; Não rejeitar H0 a 5%, pelo
que a especificação parece estar a ser cumprida.
10.14 H0 : σ 2 = 1.32 vs H1 : σ 2 6= 1.32 ; R0.01 ≡ (0; 0.412) ∪ (16.75; +∞); x2obs = 4.02; Não rejeitar
H0 a 1%.
10.15 H0 : σ 2 ≥ 0.01 vs H1 : σ 2 < 0.01; R0.10 ≡ (0; 1.610); x2obs = 0.0039; Rejeitar H0 a 10%, pelo
que os dados evidenciam uma variabilidade inferior a 0.01.
10.16 H0 : X ∼ N (3, 4) vs H1 : X N (3, 4)
Classes Oi pi Ei = 30pi
] − ∞; 0.77] 2 0.1314 3.942
9 8.529
]0.77; 1.87] 7 0.1529 4.587
]1.87; 2.97] 8 0.2077 6.231
]2.97; 4.07] 6 0.2134 6.402

]4.07; 5.17] 5 0.1567 4.701
7 8.838
]5.17; +∞] 2 0.1379 4.137
Logo k = 4 e X 2 ∼ χ24−0−1 ; R0.05 ≡]7.815; +∞[; x2obs = 0.936. Não rejeitar H0 a 5%.
10.17 H0 : X ∼ N (2, σ 2 ) vs H1 : X N (2, σ 2 )
s = 1.483817.
] − ∞; 1.05] 9 0.2611 7.833
]1.05; 1.90] 4 0.211 6.33
]1.90; 2.75] 4
 0.2229 6.687

]2.75; 3.60] 9  0.1649 4.947 
]3.60; 4.45] 2 13 0.0906 2.718 9.15
]4.45; +∞] 2 0.0495 1.485
 
10.18 H0 : X ∼ N (14, 1) vs H1 : X N (14, 1)

] − ∞; 13.5] 4 0.3085 8.638
]13.5; 14] 7 0.1915 5.362
]14; 14.5] 8 0.1915 5.362

]14.5; 15] 5 0.1498 4.1944
9 8.638
]15; +∞[ 4 0.1587 4.4436
10.19 (a) H0 : σ 2 ≥ 1000000 vs H1 : σ 2 < 1000000; R0.01 ≡ (0; 4.66); x2obs = 17.47; Não rejeitar H0
a 1%, pelo que os dados evidenciam uma variabilidade não inferior a 1000000.
(b) H0 : µ ≥ 100000 vs H1 : µ < 100000; R0.05 ≡ (−∞; −1.64); zobs = 0.387; Não rejeitar H0
a 5%, pelo que os dados não evidenciam que a média de lixo produzido por dia seja inferior
a 100000T.
10.20 (a) H0 : µ = 13 vs H1 : µ 6= 13; R0.05 ≡ (−∞; −2.776) ∪ (2.776; +∞); tobs = 11.18; Rejeitar
H0 a 5%, pelo que os dados não evidenciam que o produtor tenha razão.
(b) O nı́vel de significância de um teste de hipóteses estatı́stico é o tamanho do erro do tipo I,
ou seja, a probabilidade de rejeitar uma hipótese nula sendo ela verdadeira.
(c) H0 : X ∼ N (13.5, 1) vs H1 : X N (13.5, 1)
] − ∞; 11.5] 5 0.0228 0.7524
13 5.2371
]11.5; 12.5[ 8 0.1359 4.4847
]12.5; 13.5] 9 0.3413 11.2629
]13.5; 14.5] 6 0.3413 11.2629
]14.5; +∞[ 5 0.1587 5.2371
Logo k = 4 e X ∼ χ4−0−1 ; R0.10 ≡]6.251; +∞[; x2obs = 14.43. Rejeitar H0 a 10%.
2 2
completas.
(a) Verdade. Tendo sido H0 rejeitado a 5% significa que o valor observado da estatı́stica do
teste pertencia à correspondente região de rejeição. Aumentando o nı́vel de significância do
teste aumenta também a zona de rejeição, incluindo a anterior. Assim o valor observado
da estatı́stica do teste pertence também à nova região de rejeição, levando-nos igualmente
a rejeitar H0 a este novo nı́vel de significância.
(b) Falso. Ao teste efectuado corresponde uma probabilidade de 0.05 de rejeitarmos a hipótese
nula sendo ela verdadeira. Assim pode acontecer que µ valha efectivamente 0.5, apesar de
nós termos rejeitado esta hipótese.
(c) Verdade. Os testes de hipóteses para a proporção assentam na estatı́stica de teste Z =
√ P −p , cuja distribuição por amostragem é aproximada à custa do T.L.C. (ver capı́tulo
p(1−p)/n
8).
(d) Falso. O nı́vel de significância de um teste estatı́stico é a probabilidade de rejeitar uma
hipótese sabendo que ela é verdadeira.
(e) Verdade. Esse é o procedimento empregue no teste à normalidade de uma população.
(f ) Falso. α é independente do tamanho amostral.
10.22 H0 : X ∼ N (45, 202 ) vs H1 : X N (45, 202 )

] − ∞; 15] 2 0.0668 2.004
7 6.798
]15; 30] 5 0.1598 4.794
]30; 45] 7 0.2734 8.202
]45; 60] 8 0.2734 8.202
]60; +∞[ 8 0.2266 6.798
Capı́tulo 11
11.1 (b) Ŷ = −24.027 + 1.171x.
(c) R2 = 0.8849. Bom ajuste.
(d) H0 : β1 = 0 vs H1 : β1 6= 0; R0.05 ≡ (−∞; −2.179) ∪ (2.179; +∞); tobs = 9.61; Rejeitar H0
a 5%, o que está de acordo com (c).
(d) Ŷ30 = 11.103h. Para 40o não é possı́vel estimar.
11.2 (a) Ŷ = −4.04902 + 0.03642x; R2 = 0.9432, bom ajuste.

(b) IC95% (β1 ) ≡ (0.0284; 0.0444).
(c) Rejeitar H0 a 5%.
11.3 (a) Ŷ = 10.63 + 56.13x; R2 = 0.986, bom ajuste.

(b) H0 : β1 = 0 vs H1 : β1 6= 0; R0.05 ≡ (−∞; −2.447) ∪ (2.447; +∞); tobs = 20.54; Rejeitar
H0 a 5%.
IC95% (β0 ) ≡ (−77.95; 99.21).
(c) Ŷ10 = 571.9Kg. Para 35 dias não é possı́vel estimar.
11.4 (a) Ŷ = 1.4 + 0.8x; R2 = 0.92, bom ajuste.

(b) H0 : β1 = 0 vs H1 : β1 6= 0; R0.05 ≡ (−∞; −2.306) ∪ (2.306; +∞); tobs = 9.38; Rejeitar H0
a 5%, pelo que os dados evidenciam haver relação directa entre a nota de acesso e a média
final de curso.
(c) Ŷ16 = 14.2 valores.
11.5 Ŷ = 2.31275 + 0.01984x; R2 = 0.52, ajuste não muito bom, pelo que não parece que o agricultor
esteja correcto.
11.6 (a) βˆ1 = 45.71; βˆ0 = 205.00.

(b) R2 = 0.8423, bom ajuste.
(c) H0 : β1 = 0 vs H1 : β1 6= 0; R0.05 ≡ (−∞; −4.303) ∪ (4.303; +∞); tobs = 3.269; Não
rejeitar H0 a 5%. Não seria de esperar dado o alto valor observado de R2 .
(d) Ŷ6 = 479.26e.
11.7 (a) Ŷ = 2.28 + 0.41x; R2 = 0.9451, bom ajuste.

(b) O aumento de um campo de futebol na vizinhança resulta num aumento de 0.41 na taxa
de divórcio por 1000 habitantes.
(c) H0 : β1 = 0 vs H1 : β1 6= 0; R0.10 ≡ (−∞; −2.353) ∪ (2.353; +∞); tobs = 7.186; Rejeitar

H0 a 10%.
(d) Ŷ3 = 3.51 por 1000 habitantes.
11.8 (a) Ŷ = 2.12 + 0.99x.

(b) R2 = 0.9976, bom ajuste.
(c) H0 : β1 = 0 vs H1 : β1 6= 0; tobs = 63.975; p = P (|T | > |tobs | | H0 verdadeira) ' 0; Rejeitar
H0 aos usuais nı́veis de significância, pelo que as temperaturas programadas parecem estar
a ser importantes na explicação das temperaturas efectivas.
(d) Aumentando a temperatura da programação em 1o aumenta também a temperatura efectiva
do forno em cerca de 1o também, o que está de acordo com as expectativas do fabricante.
completas.
(a) Falso. Para esta variação de idades, ambas compreendidas entre 50 e 80 anos, 4x = 10
anos, corresponde uma variação de peso de 4Y = 0.5 × 10 = 5Kg.
(b) Falso. A recta só é válida para idades compreendidas dentro da gama de valores de idades
usadas para derivar a recta.
(c) Verdade. H0 : β1 = 0 vs H1 : β1 6= 0; R0.05 ≡ (−∞; −2.145) ∪ (2.145; +∞); tobs = 4.16;
Rejeitar H0 a 5%.
(d1) Falso. H0 : β1 = 0 vs H1 : β1 6= 0; R0.05 ≡ (−∞; −2.101) ∪ (2.101; +∞); tobs = 17.74;
Rejeitar H0 a 5%.
(d2) Falso. A conclusão de que o declive da recta é significativamente distinto de zero vem
ajudar a confirmar a adequação do modelo aos dados, vindo ao encontro da conclusão que
se retira do elevado valor de R2 .
(f ) Verdade. Ŷ = βˆ0 + βˆ1 x, com βˆ0 = Ȳ − βˆ1 x̄. Então Ŷx̄ = (Ȳ − βˆ1 x̄) + βˆ1 x̄ = Ȳ .
11.10 (a) Ŷ = 0.49 + 0.09x; R2 = 0.9696, bom ajuste.

(b) Aumentando a velocidade de circulação por 1 aumenta o consumo de combustı́vel por 0.09.
O sinal positivo do declive da recta estimada está de acordo com as nossa expectativas de
que a maiores velocidades correspondem maiores consumos.
(c) IC95% (β1 ) ≡ (0.077; 0.11). Não contém o zero, vindo ao encontro da conclusão retirada na
alı́nea (a) de que tı́nhamos um bom ajuste.
11.11 (a) R2 = 0.9716, bom ajuste.

(b) H0 : β1 = 0 vs H1 : β1 6= 0; n − 2 = 100; R0.10 ≡ (−∞; −1.66) ∪ (1.66; +∞); tobs = 57.89;
Rejeitar H0 a 10%.
(c) 139.817e (desde que o número de anos de escolaridade se encontre entre 7 e 21).
(d) Ŷ9 = 255.084e; Ŷ17 = 1373.62e.
Capı́tulo 12
12.1 (a) X ∼ Hiperg (10, 4, 2).

0 1
(b) Y 1 2 ; Y ∼ Bern( 32 )
3 3
(c) X e Y seriam independentes se P (X = x, Y = y) = P (X = x) P (Y = y) , ∀ (x, y).

Contudo P (X = 0, Y = 0) = P (X = 0) = 13 6= 19 = P (X = 0) P (Y = 0).
Como os valores de Y dependem dos valores observados de X, as v.a.’s não são indepen-
dentes.


 0, t<0
 t/2, 0 ≤ t < 1


12.2 (a) F (t) = 1/2, 1 ≤ t < 2
 t/4, 2 ≤ t < 4



1, t≥4

(b) E [T ] = 1.75 minutos;

me : F (me) = 1/2: Todos os valores de t em [1,2] minutos satisfazem esta condição.
(c) P (T < 1 |T ≥ 0.5 ) = 13 .
(d) X - no vezes, de entre 100, em que espero menos de meio minuto;
X ∼ Bin (100, p), p = P (T < 0.5) = 14 .
E [X] = 100 × 41 = 25 vezes.
1
12.3 (a) 6.
8
(b) P (X > 2 |X ≥ 0.5 ) = 11 .
7
(c) E [X] = 3 ' 2.3 horas.
13.1 Y - no
dias, de entre 10, em que espero mais de meia hora;
Y ∼ Bin (10, p), p = P (X > 0.5) = 11
12 .
P (Y = 5) ' 0.00066.

 0, x≤0
12.4 (a) F (x) = 3
x , 0<x<1
1, x≥1

(b) P (X > 0.5 |X ≥ 0.25 ) ' 0.89.

(c) Y -no televisores, de entre 10, em que o técnico Zé demora menos de 15 minutos a arranjar;
Y ∼ Bin (10, p), p = P (X < 0.25) = 0.015625.
P (Y ≥ 9) ' 5.47 × 10−16 .

 0, x<0
12.5 (b) F (x) = x2 /4, 0 ≤ x < 2
1, x≥2

(c) P (X < 1.5 |X > 1 ) ' 0.42.

(d) E [X] = 1.3 horas.
(e) Y - no de alunos que, de entre 40, demoram menos uma hora e meia a resolver o exame;
Y ∼ Bin (40, p), p = P (X < 1.5) = 0.5625.
P (Y = 40) ' 1.01 × 10−10 .
12.6 X ∼ U nif [0, 5]
(a) P (X > 4 |X > 2 ) ' 0.33.

(b) E (X) = 2.5m3 /minuto; me = 2.5m3 /minuto.

1 1.5 2.5 1 1.5 2.5
(c) Y ≡ 1 2 2
P (X > 4) P (X < 2) P (2 ≤ X ≤ 4) 5 5 5
E (Y ) = 1.8e; σY = 0.6e.

 0, x<2
3
12.7 (a) F (x) = 1/2 + (x − 5) /54, 2 ≤ x < 8
1, x≥8

(b) P (X > 6 |X > 5 ) ' 0.96.

(c) E [X] = 5, porque a densidade é simétrica em torno de 5;
me = 5 porque a densidade é simétrica em torno de 5.
(d) Y - no eucaliptos, de entre 100, cujo tronco pesa mais de 5 dezenas de Kg;
Y ∼ Bin (100, p), p = P (X > 5) = 0.5.
a a
Pelo T.L.C., Y ∼ N (100 × 0.5, 100 × 0.5 × (1 − 0.5)), donde P (Y > 50) ' 0.5.
12.8 Verdade. Tal é consequência da distribuição normal ser simétrica em torno da sua média (ou
moda ou mediana).

 0, x<0
 x

3 , 0 ≤ x<1
12.9 (a) F (x) = 13 3
− , 1 ≤ x<3
 12 4x2


1, x≥3
(b) P (X < 0.5 |X < 1 ) = 0.5.
(c) E [Y ] = E X 3 ' 3.083 cêntimos.

13.1 Y -no de dias, de entre 5, com consumo diário inferior a 1m3 ;

Y ∼ Bin (5, p), p = P (X < 1) = 13 .
P (Y = 2) ' 0.33.

 0, x<0
12.10 (a) F (x) = x2 , 0 ≤ x < 1
1, x≥1

(b) 0.2.
(c) − 43 .
(d) W - no de meses, de entre 12, em que se resolvem pelo menos 90% das reclamações;
W ∼ Bin (12, p), p = P (X ≥ 0.9) = 0.19.
P (W = 12) ' 2.21 × 10−9 .
12.11 (a) E [T ] = 10; V (T ) = 0.25.

(b) cov (X, Y ) = −3/2.
X e Y não são v.a.’s independentes porque cov (X, Y ) 6= 0.
(c) P (X > 2Y ) = P (X − 2Y > 0) = 0.7673, porque X − 2Y ∼ N (3, 17).
12.12 (a) E [Y ] = E [10 + 20X] = 10 + 20E [X] = 40.

V (Y ) = V (10 + 20X) = 202 V (X) = 300.

30 30 + k 30 30 + k
(b) W ≡
P (X < 2) P (X ≥ 2) 7/8 1/8
(i) E [W ] = 30 + k8 ;
k = 40; Interessa-nos conhecer k para estipular qual deverá ser o valor da indemnização
de forma a que, em média, os agricultores tenham a sua perda compensada.

 0, w < 30
(ii) FW (w) = 7/8, 30 ≤ w < 110
1, w ≥ 110

12.13 (a) (i) ' 0.1723.

(ii) me : F (me) = 1/2 ⇔ me = ln (2)/0.25 ' 2.773.

0, x<0
(b) f (x) = −0.25x
0.25 e , x≥0
(c) E [X] = 4.
(d) P (X > 5 |X > 3 ) ' 0.607.
(e) Y -no de abetos, de entre 150, cujo tempo de vida ultrapassa os 5 anos;
Y ∼ Bin (150, p), p = P (X > 5) ' 0.2865.
P (Y = 40) ' 0.0635
12.14 (a) X ∼ Bin (2, 0.6).

(b) P (X = 1) = 0.48.
(c) (i) Dado que P (X = 1) = 0.48 e P (X = 0) = 0.16,
X\Y 0 1 2
0 0.01 0.05 0.10 0.16
1 0.08 0.30 0.10 0.48
2 0.30 0.05 0.01 0.36
0.39 0.40 0.21 1
(ii) P (Y = 0 |X = 2 ) ' 0.83.
(iii) P (Y = 2 |X = 0 ) 0.625.
(iv) Se fossem independentes P (Y = 0) = P (Y = 0 |X = 2 ), por exemplo, o que não acon-
tece.
(v) V (X) = 0.48, V (Y ) = 0.5676, cov (X, Y ) = −0.344;
V (X + Y ) = V (X) + V (Y ) + 2cov (X, Y ) = 0.3596.
12.15 (a) Porque X eY são independentes, P (X = x, Y = y) = P (X = x)P (Y = y), ∀(x, y):

X\Y 1 2
0 0.08 0.08 0.16
1 0.24 0.24 0.48
2 0.18 0.18 0.36
1/2 1/2
(b) 0.18.
(c) Porque X e Y são independentes cov(X, Y ) = 0.
Porque X e Y são independentes E [XY ] = E [X]E [Y ]=1.8, pois E [X] = 2 × 0.6 e E [Y ] =
2+1
2 .
12.16 (a) Não são independentes pois se fossem a sua covariância teria de ser nula.
(b) -3; 5.8.
(c) ρ(X, Y ) ' 0.26. Fraca associação linear positiva.

0 1 2 3 0 1 2 3
12.17 (a) X Y
0.2 0.5 0.2 0.1 0.51 0.39 0.09 0.01
P (X=1,Y =y)
(b) P (Y = y |X = 1 ) = P (X=1) = 0.5, y = 0, 1.

0 1
(Y |X = 1 ) Distribuição Bernoulli(0.5).
0.5 0.5
(c) 0.38.
(d) Como cov (X, Y ) 6= 0 então X e Y não são v.a.’s independentes.
Se X e Y fossem independentes, P (Y = y |X = 1 ) = P (Y = y) , ∀ y, o que não acontece.
12.18 (a) P ({X = 0} ∪ {Y = 0}) = P (X = 0) + P (Y = 0) − P (X = 0, Y = 0) = 0.6.

(b) P (X = 0 |Y = 0 ) = 0.375.
(c) 0.0428.
(d) Porque ρ (X, Y ) 6= 0 então X e Y não são v.a.’s independentes.
Se X e Y fossem independentes, por exemplo, P (X = 0 |Y = 0 ) = P (X = 0), o que não
acontece.
12.19 (a) 18.75e 5625.00e.

(b) 0.0606 (distribuição aproximada).
(c)(c1) 50%.
(c2) 650.
12.20 (a) 0.0071.

(b) 0.5517 (distribuição aproximada).
(c) 0, porque as variáveis são independentes.
12.21 Podemos afirmar, com 5% de significância, que a média é diferente de zero, logo também podemos
afirmar, com 10% de significância, que a média é diferente de zero.
12.22 (a) µ̂ = x̄ = 11 σ̂ = s = 4.
(b) IC95% ≡ (8.139, 13.861).
(c) H0 : σ ≤ 5 vs H1 : σ > 5; R0.05 ≡ (16.92, +∞); x2obs = 5.76; Não rejeitar H0 a 5%, pelo que
os dados não evidenciam um desvio padrão populacional superior a 5.
12.23 (a) µ̂ = X̄. Estimador centrado de µ. µ̂ = x̄ = 39.1.

(b) IC95% (µ) ≡ (34.62, 43.58).
√ a
(c) Para n > 30, Z = n X̄−µ S ∼ N (0, 1).
n > 602.54 ⇔ n ≥ 603.
(d) H0 : σ 2 ≥ 25 vs H1 : σ 2 < 25; R0.01 ≡ (0, 2.088); x2obs = 14.116; Não rejeitar H0 a 1%, pelo
que os dados não evidenciam que a variância seja inferior a 25.
12.24 (a) µ̂ = x̄ = 101.

(b) IC96% (µ) ≡ (98.95, 103.05).
(c) 400
13.1 H0 : σ = 10 vs H1 : σ 6= 10; R0.05 ≡ (0, 74.22) ∪ (129.6, +∞); x2obs = 142.56; Rejeitar H0 a
5%, pelo que os dados evidenciam que o desvio padrão é diferente de 10.
12.25 (a) µ̂ = X̄.

(b) (i) IC95% (µX ) ≡ X̄ − 1.96 √10n , X̄ + 1.96 √10n .
(ii) n > 61.47 ⇔ n ≥ 62.
(c) H0 : µX = µY vsH1 : µX 6= µY ; R0.1 ≡ (−∞, −1.64)∪(1.64, +∞); zobs = −2.56; Rejeitar H0
a 10%, pelo que os dados evidenciam diferenças significativas entre as quantidades médias
de lixo produzido nas duas cidades.
(d) Diminui-se o tamanho da região de rejeição, pelo que se rejeita menos.
12.26 (a) IC98% (p) ≡ (0.82, 0.96)

Aumentando a dimensão da amostra.
(b) (i) σ̂ = s ' 1.87.
(ii) H0 : σ ≥ 2 vs H1 : σ < 2; R0.05 ≡ (0, 1.145); x2obs = 4.375; Não rejeitar H0 a 5%, pelo
que os dados não evidenciam que o desvio padrão seja inferior a 2.
(iii) α = P (Rejeitar H0 |H0 é verdadeira ).
12.27 (a) µ̂ = x̄ = 8.02; σ̂ = s = 0.24.

(b) H0 : µ = 8 vs H1 : µ 6= 8; R0.01 ≡ (−∞, −2.57) ∪ (2.57, +∞); zobs = 0.47; Não rejeitar H0
a 1%, pelo que os dados não evidenciam que a viscosidade média seja diferente de 8.
p = 0.6384.
(c) Não. Só com 1% de probabilidade de erro.
(d) IC90% (σ) ≡ (0.199, 0.304).
12.28 (a) µ̂ = x̄ = 26; X̄ é estimador centrado e consistente de µ.

(b) H0 : µ ≤ 25 vs H1 : µ > 25; tobs = 0.258; p = 0.4; Não rejeitar H0 aos habituais nı́veis de
significância, pelo que os dados não evidenciam que o ı́ndice ultrapasse o valor médio de
excelência.
(c) Usando, por exemplo, um teste de ajustamento do qui-quadrado à normalidade da pop-
ulação X.
(d) IC95% (p) ≡ (0.288, 0.462).
12.29 (a) µ̂ = x̄ = 1.73; σ̂ 2 = s2 = 0.0064.

(b) IC92% (µ) ≡ (1.71, 1.75).
(c) n ≥ 49.
(d) H0 : p ≤ 0.20 vs H1 : p > 0.20; R0.05 ≡ (1.64, +∞); zobs = −1.19; Não rejeitar H0 a 5%,
pelo que os dados não evidenciam que a proporção de alunos com estatura superior ou igual
a 1.82m seja superior a 20%.
12.30 (a) Admita-se que a população X-concentração de CO (ppm) tem distribuição Normal; H0 :
µ ≤ 110 vs H1 : µ > 110; R0.1 ≡ (1.328, +∞); tobs = −8.102; Não rejeitar H0 a 10%, pelo
que os dados não evidenciam que a concentração esperada seja superior a 110ppm.
(b) IC95% σ 2 ≡ (15.91, 58.66).

(c) O intervalo de 99% de confiança terá maior amplitude.

(d) p̂ = P = 5/20 = 0.25.
Alternativamente (ou complementarmente) poderia fazer estimação intervalar.
Capı́tulo 14
Formulário
N−M
1 CxM Cn−x
P (X = x) = n P (X = x) = CnN P (X = x) = Cxn px (1 − p)n−x
x = 1, . . . , n x = max (0, n − N + M ) , . . . , min (n, M ) x = 0, . . . , n
n+1
E [X] = 2 E [X] = n M
N E [X] = np
n2 −1 M
V(X) = 12 V (X) = n N 2 (N −1)
(N − M )(N − n) V (X) = np(1 − p)
e−λ λx 1
P (X = x) = p(1 − p)x−1 P (X = x) = x! f (x) = b−a f (x) = λ e−λx
x = 1, 2, . . . x = 0, 1, . . . a≤x≤b x>0
1 a+b 1
E [X] = p E [X] = λ E [X] = 2 E [X] = λ
1−p (b−a)2 1
V(X) = p2
V(X) = λ V(X) = 12 V(X) = λ2
n 2
o
f (x) = √1
2πσ
exp − (x−µ)
2σ 2 , x∈R E [X] = µ V(X) = σ 2
Continua na página seguinte
231
a a
X̄−µ X̄−µ X̄−µ X̄−µ
Z= √
σ/ n
∼ N (0, 1) T = √
S/ n
∼ t(n−1) Z= √
S/ n
∼ N (0, 1) Z= √
σ/ n
∼ N (0, 1)
a
1 1 P −p
S2 = (Xi − X̄)2 = Xi2 − nX̄ 2 Z=√
P P
n−1 n−1 ∼ N (0, 1)
p(1−p)/n
k a
(X̄1 −X̄2 )−(µ1 −µ2 ) (n−1)S 2
X (Oi − Ei )2
Z= r ∼ N (0, 1) X2 = σ2
∼ χ2(n−1) X2 = ∼ χ2(k−p−1)
σ2 σ2
1+ 2 Ei
n1 n2 i=1
n
X n
X n
X n
X
SY Y = (Yi − Ȳ )2 = Yi2 − nȲ 2 Sxx = (x1 − x̄)2 = x2i − nx̄2
i=1 i=1 i=1 i=1
n n
X X SxY
SxY = (xi − x̄)(Yi − Ȳ ) = xi Yi − nx̄Ȳ Yi = β0 + β1 xi + εi β̂1 = β̂0 = Ȳ − β̂1 x̄
i=1 i=1
Sxx
2
SQR β̂ rβ̂0 −β
SQR = SY Y − β̂1 Sxx σ̂ 2 = n−2 T = q1 −β1
σ̂2
∼ t(n−2) T = 0
∼ t(n−2)
σ̂2 x2
P
Sxx i
n Sxx
SQR (β̂1 )2 Sxx

R2 = 1 − SY Y = SY Y
Capı́tulo 15
Tabelas Valores da Função Distribuição da Normal Reduzida

−t2
z
e 2
Z
Φ(z) = P (Z ≤ z) = √ dt
−∞ 2π
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
Tabela produzida no software R
233
Valores da Função Distribuição da T-Student
n\q 0.600 0.700 0.750 0.800 0.850 0.900 0.925 0.950 0.975 0.990 0.995 0.999 0.9995
1 0.325 0.727 1.000 1.376 1.963 3.078 4.165 6.314 12.71 31.82 63.66 318.3 636.6
2 0.289 0.617 0.816 1.061 1.386 1.886 2.282 2.920 4.303 6.965 9.925 22.33 31.60
3 0.277 0.584 0.765 0.978 1.250 1.638 1.924 2.353 3.182 4.541 5.841 10.21 12.92
4 0.271 0.569 0.741 0.941 1.190 1.533 1.778 2.132 2.776 3.747 4.604 7.173 8.610
5 0.267 0.559 0.727 0.920 1.156 1.476 1.699 2.015 2.571 3.365 4.032 5.893 6.869
6 0.265 0.553 0.718 0.906 1.134 1.440 1.650 1.943 2.447 3.143 3.707 5.208 5.959
7 0.263 0.549 0.711 0.896 1.119 1.415 1.617 1.895 2.365 2.998 3.499 4.785 5.408
8 0.262 0.546 0.706 0.889 1.108 1.397 1.592 1.860 2.306 2.896 3.355 4.501 5.041
9 0.261 0.543 0.703 0.883 1.100 1.383 1.574 1.833 2.262 2.821 3.250 4.297 4.781
10 0.260 0.542 0.700 0.879 1.093 1.372 1.559 1.812 2.228 2.764 3.169 4.144 4.587
11 0.260 0.540 0.697 0.876 1.088 1.363 1.548 1.796 2.201 2.718 3.106 4.025 4.437
12 0.259 0.539 0.695 0.873 1.083 1.356 1.538 1.782 2.179 2.681 3.055 3.930 4.318
13 0.259 0.538 0.694 0.870 1.079 1.350 1.530 1.771 2.160 2.650 3.012 3.852 4.221
14 0.258 0.537 0.692 0.868 1.076 1.345 1.523 1.761 2.145 2.624 2.977 3.787 4.140
15 0.258 0.536 0.691 0.866 1.074 1.341 1.517 1.753 2.131 2.602 2.947 3.733 4.073
16 0.258 0.535 0.690 0.865 1.071 1.337 1.512 1.746 2.120 2.583 2.921 3.686 4.015
17 0.257 0.534 0.689 0.863 1.069 1.333 1.508 1.740 2.110 2.567 2.898 3.646 3.965
18 0.257 0.534 0.688 0.862 1.067 1.330 1.504 1.734 2.101 2.552 2.878 3.610 3.922
19 0.257 0.533 0.688 0.861 1.066 1.328 1.500 1.729 2.093 2.539 2.861 3.579 3.883
20 0.257 0.533 0.687 0.860 1.064 1.325 1.497 1.725 2.086 2.528 2.845 3.552 3.850
21 0.257 0.532 0.686 0.859 1.063 1.323 1.494 1.721 2.080 2.518 2.831 3.527 3.819
22 0.256 0.532 0.686 0.858 1.061 1.321 1.492 1.717 2.074 2.508 2.819 3.505 3.792
23 0.256 0.532 0.685 0.858 1.060 1.319 1.489 1.714 2.069 2.500 2.807 3.485 3.768
24 0.256 0.531 0.685 0.857 1.059 1.318 1.487 1.711 2.064 2.492 2.797 3.467 3.745
25 0.256 0.531 0.684 0.856 1.058 1.316 1.485 1.708 2.060 2.485 2.787 3.450 3.725
26 0.256 0.531 0.684 0.856 1.058 1.315 1.483 1.706 2.056 2.479 2.779 3.435 3.707
27 0.256 0.531 0.684 0.855 1.057 1.314 1.482 1.703 2.052 2.473 2.771 3.421 3.690
28 0.256 0.530 0.683 0.855 1.056 1.313 1.480 1.701 2.048 2.467 2.763 3.408 3.674
29 0.256 0.530 0.683 0.854 1.055 1.311 1.479 1.699 2.045 2.462 2.756 3.396 3.659
30 0.256 0.530 0.683 0.854 1.055 1.310 1.477 1.697 2.042 2.457 2.750 3.385 3.646
31 0.256 0.530 0.682 0.853 1.054 1.309 1.476 1.696 2.040 2.453 2.744 3.375 3.633
32 0.255 0.530 0.682 0.853 1.054 1.309 1.475 1.694 2.037 2.449 2.738 3.365 3.622
33 0.255 0.530 0.682 0.853 1.053 1.308 1.474 1.692 2.035 2.445 2.733 3.356 3.611
34 0.255 0.529 0.682 0.852 1.052 1.307 1.473 1.691 2.032 2.441 2.728 3.348 3.601
35 0.255 0.529 0.682 0.852 1.052 1.306 1.472 1.690 2.030 2.438 2.724 3.340 3.591
36 0.255 0.529 0.681 0.852 1.052 1.306 1.471 1.688 2.028 2.434 2.719 3.333 3.582
37 0.255 0.529 0.681 0.851 1.051 1.305 1.470 1.687 2.026 2.431 2.715 3.326 3.574
38 0.255 0.529 0.681 0.851 1.051 1.304 1.469 1.686 2.024 2.429 2.712 3.319 3.566
39 0.255 0.529 0.681 0.851 1.050 1.304 1.468 1.685 2.023 2.426 2.708 3.313 3.558
40 0.255 0.529 0.681 0.851 1.050 1.303 1.468 1.684 2.021 2.423 2.704 3.307 3.551
45 0.255 0.528 0.680 0.850 1.049 1.301 1.465 1.679 2.014 2.412 2.690 3.281 3.520
50 0.255 0.528 0.679 0.849 1.047 1.299 1.462 1.676 2.009 2.403 2.678 3.261 3.496
60 0.254 0.527 0.679 0.848 1.045 1.296 1.458 1.671 2.000 2.390 2.660 3.232 3.460
70 0.254 0.527 0.678 0.847 1.044 1.294 1.456 1.667 1.994 2.381 2.648 3.211 3.435
80 0.254 0.526 0.678 0.846 1.043 1.292 1.453 1.664 1.990 2.374 2.639 3.195 3.416
90 0.254 0.526 0.677 0.846 1.042 1.291 1.452 1.662 1.987 2.368 2.632 3.183 3.402
100 0.254 0.526 0.677 0.845 1.042 1.290 1.451 1.660 1.984 2.364 2.626 3.174 3.390
120 0.254 0.526 0.677 0.845 1.041 1.289 1.449 1.658 1.980 2.358 2.617 3.160 3.373
150 0.254 0.526 0.676 0.844 1.040 1.287 1.447 1.655 1.976 2.351 2.609 3.145 3.357
∞ 0.253 0.524 0.674 0.842 1.036 1.282 1.440 1.645 1.960 2.326 2.576 3.090 3.291
Probabilidades e Estatı́stica
Valores da Função Distribuição da Qui-quadrado
n \ q 0.005 0.010 0.025 0.050 0.100 0.250 0.500 0.600 0.700 0.800 0.850 0.900 0.925 0.950 0.975 0.990 0.995 0.999 0.9995 n \ q
1 4 × 10−5 2 × 10−4 0.001 0.004 0.016 0.102 0.455 0.708 1.074 1.642 2.072 2.706 3.17 3.841 5.024 6.635 7.880 10.83 12.12 1
2 0.010 0.020 0.051 0.103 0.211 0.575 1.386 1.833 2.408 3.219 3.794 4.605 5.181 5.991 7.378 9.210 10.60 13.82 15.20 2
3 0.072 0.115 0.216 0.352 0.584 1.213 2.366 2.946 3.665 4.642 5.317 6.251 6.905 7.815 9.348 11.34 12.84 16.27 17.73 3
4 0.207 0.297 0.484 0.711 1.064 1.923 3.357 4.045 4.878 5.989 6.745 7.780 8.496 9.488 11.14 13.28 14.86 18.47 20.00 4
5 0.412 0.554 0.831 1.145 1.610 2.675 4.351 5.132 6.064 7.290 8.115 9.236 10.01 11.07 12.83 15.09 16.75 20.52 22.11 5
6 0.676 0.872 1.237 1.635 2.204 3.455 5.348 6.211 7.231 8.558 9.446 10.64 11.47 12.59 14.45 16.81 18.55 22.46 24.10 6
7 0.989 1.239 1.690 2.167 2.833 4.255 6.346 7.283 8.383 9.803 10.75 12.02 12.88 14.07 16.01 18.48 20.28 24.32 26.02 7
8 1.344 1.646 2.180 2.733 3.490 5.071 7.344 8.350 9.524 11.03 12.03 13.36 14.27 15.51 17.53 20.09 21.95 26.12 27.87 8
9 1.735 2.088 2.700 3.325 4.168 5.899 8.343 9.414 10.66 12.24 13.29 14.68 15.63 16.92 19.02 21.67 23.59 27.88 29.67 9
10 2.156 2.558 3.247 3.940 4.865 6.737 9.342 10.47 11.78 13.44 14.53 15.99 16.97 18.31 20.48 23.21 25.19 29.59 31.42 10
11 2.603 3.053 3.816 4.575 5.578 7.584 10.34 11.53 12.90 14.63 15.77 17.28 18.29 19.68 21.92 24.72 26.76 31.26 33.14 11
12 3.074 3.571 4.404 5.226 6.304 8.438 11.34 12.58 14.01 15.81 16.99 18.55 19.60 21.03 23.34 26.22 28.30 32.91 34.82 12
13 3.565 4.107 5.009 5.892 7.042 9.299 12.34 13.64 15.12 16.98 18.20 19.81 20.90 22.36 24.74 27.69 29.82 34.53 36.48 13
14 4.075 4.660 5.629 6.570 7.790 10.17 13.34 14.69 16.22 18.15 19.41 21.06 22.18 23.68 26.12 29.14 31.32 36.12 38.11 14
15 4.601 5.229 6.262 7.261 8.547 11.04 14.34 15.73 17.32 19.31 20.60 22.31 23.45 25.00 27.49 30.58 32.80 37.70 39.72 15
16 5.142 5.812 6.908 7.962 9.312 11.91 15.34 16.78 18.42 20.47 21.79 23.54 24.72 26.30 28.85 32.00 34.27 39.25 41.31 16
17 5.697 6.408 7.564 8.672 10.09 12.79 16.34 17.82 19.51 21.61 22.98 24.77 25.97 27.59 30.19 33.41 35.72 40.79 42.88 17
18 6.265 7.015 8.230 9.390 10.86 13.68 17.34 18.87 20.60 22.76 24.16 25.99 27.22 28.87 31.53 34.81 37.16 42.31 44.43 18
19 6.844 7.633 8.907 10.12 11.65 14.56 18.34 19.91 21.69 23.90 25.33 27.20 28.46 30.14 32.85 36.19 38.58 43.82 45.97 19
20 7.434 8.260 9.590 10.85 12.44 15.45 19.34 20.95 22.77 25.04 26.50 28.41 29.69 31.41 34.17 37.57 40.00 45.31 47.50 20
21 8.034 8.897 10.28 11.59 13.24 16.34 20.34 21.99 23.86 26.17 27.66 29.62 30.92 32.67 35.48 38.93 41.40 46.80 49.01 21
22 8.643 9.542 10.98 12.34 14.04 17.24 21.34 23.03 24.94 27.30 28.82 30.81 32.14 33.92 36.78 40.29 42.80 48.27 50.51 22
23 9.260 10.20 11.69 13.09 14.85 18.14 22.34 24.07 26.02 28.43 29.98 32.01 33.36 35.17 38.08 41.64 44.18 49.73 52.00 23
24 9.886 10.86 12.40 13.85 15.66 19.04 23.34 25.11 27.10 29.55 31.13 33.20 34.57 36.42 39.36 42.98 45.56 51.18 53.48 24
25 10.52 11.52 13.12 14.61 16.47 19.94 24.34 26.14 28.17 30.68 32.28 34.38 35.78 37.65 40.65 44.31 46.93 52.62 54.95 25
26 11.16 12.20 13.84 15.38 17.29 20.84 25.34 27.18 29.25 31.79 33.43 35.56 36.98 38.89 41.92 45.64 48.29 54.05 56.41 26
27 11.81 12.88 14.57 16.15 18.11 21.75 26.34 28.21 30.32 32.91 34.57 36.74 38.18 40.11 43.19 46.96 49.64 55.48 57.86 27
Isabel Natário
28 12.46 13.56 15.31 16.93 18.94 22.66 27.34 29.25 31.39 34.03 35.71 37.92 39.38 41.34 44.46 48.28 50.99 56.89 59.30 28
29 13.12 14.26 16.05 17.71 19.77 23.57 28.34 30.28 32.46 35.14 36.85 39.09 40.57 42.56 45.72 49.59 52.34 58.30 60.73 29
30 13.79 14.95 16.79 18.49 20.60 24.48 29.34 31.32 33.53 36.25 37.99 40.26 41.76 43.77 46.98 50.89 53.67 59.70 62.16 30
31 14.46 15.66 17.54 19.28 21.43 25.39 30.34 32.35 34.60 37.36 39.12 41.42 42.95 44.99 48.23 52.19 55.00 61.10 63.58 31
32 15.13 16.36 18.29 20.07 22.27 26.30 31.34 33.38 35.66 38.47 40.26 42.58 44.13 46.19 49.48 53.49 56.33 62.49 65.00 32
33 15.82 17.07 19.05 20.87 23.11 27.22 32.34 34.41 36.73 39.57 41.39 43.75 45.31 47.40 50.73 54.78 57.65 63.87 66.40 33
34 16.50 17.79 19.81 21.66 23.95 28.14 33.34 35.44 37.80 40.68 42.51 44.90 46.49 48.60 51.97 56.06 58.96 65.25 67.80 34
35 17.19 18.51 20.57 22.47 24.80 29.05 34.34 36.47 38.86 41.78 43.64 46.06 47.66 49.80 53.20 57.34 60.27 66.62 69.20 35
36 17.89 19.23 21.34 23.27 25.64 29.97 35.34 37.50 39.92 42.88 44.76 47.21 48.84 51.00 54.44 58.62 61.58 67.99 70.59 36
37 18.59 19.96 22.11 24.07 26.49 30.89 36.34 38.53 40.98 43.98 45.89 48.36 50.01 52.19 55.67 59.89 62.88 69.35 71.97 37
38 19.29 20.69 22.88 24.88 27.34 31.81 37.34 39.56 42.05 45.08 47.01 49.51 51.17 53.38 56.90 61.16 64.18 70.70 73.35 38
39 20.00 21.43 23.65 25.70 28.20 32.74 38.34 40.59 43.11 46.17 48.13 50.66 52.34 54.57 58.12 62.43 65.48 72.05 74.73 39
40 20.71 22.16 24.43 26.51 29.05 33.66 39.34 41.62 44.16 47.27 49.24 51.80 53.50 55.76 59.34 63.69 66.77 73.40 76.10 40
45 24.31 25.90 28.37 30.61 33.35 38.29 44.34 46.76 49.45 52.73 54.81 57.50 59.29 61.66 65.41 69.96 73.17 80.08 82.88 45
50 27.99 29.71 32.36 34.76 37.69 42.94 49.33 51.89 54.72 58.16 60.35 63.17 65.03 67.50 71.42 76.15 79.49 86.66 89.56 50
60 35.53 37.48 40.48 43.19 46.46 52.29 59.33 62.13 65.23 68.97 71.34 74.40 76.41 79.08 83.30 88.38 91.95 99.60 102.7 60
70 43.28 45.44 48.76 51.74 55.33 61.70 69.33 72.36 75.69 79.71 82.26 85.53 87.68 90.53 95.02 100.4 104.2 112.3 115.6 70
80 51.17 53.54 57.15 60.39 64.28 71.14 79.33 82.57 86.12 90.40 93.10 96.58 98.86 101.9 106.6 112.3 116.3 124.8 128.3 80
90 59.20 61.75 65.65 69.13 73.29 80.62 89.33 92.76 96.52 101.1 103.9 107.6 110.0 113.1 118.1 124.1 128.3 137.2 140.8 90
100 67.33 70.06 74.22 77.93 82.36 90.13 99.33 102.9 106.9 111.7 114.7 118.5 121.0 124.3 129.6 135.8 140.2 149.4 153.2 100
120 83.85 86.92 91.57 95.70 100.6 109.2 119.3 123.3 127.6 132.8 136.1 140.2 143.0 146.6 152.2 159.0 163.6 173.6 177.6 120
150 109.1 112.7 118.0 122.7 128.3 138.0 149.3 153.8 158.6 164.3 168.0 172.6 175.6 179.6 185.8 193.2 198.4 209.3 213.6 150
200 152.2 156.4 162.7 168.3 174.8 186.2 199.3 204.4 210.0 216.6 220.7 226.0 229.5 234.0 241.1 249.4 255.3 267.5 272.4 200
235
Capı́tulo 16
Bibliografia sugerida (ordem alfabética)
• Guimarães e Cabral(1997). Estatı́stica. McGraw-Hill.
• Kvanli (1988). Statistics. West Publishing Company.
• Montgomery e Runger (2002). Applied Statistics and Probability for Engineers. Wiley.
• Mood, Graybill e Boes (1974). Introduction to the Theory of Statistics. McGraw-Hill.
• Paulino e Branco (2005). Exercı́cios de Probabilidade e Estatı́stica. Escolar Editora.
• Rohatgi (1976). An Introduction to Probability Theory and Mathematical Statistics. Wiley.
• Sokal e Rohlf (1995). Biometry. Freeman.
• Tiago de Oliveira (1990). Probabilidades e Estatı́stica: Conceitos, Métodos e Aplicações, vol. I,

II. McGraw-Hill.
236

Probabilidades e Estatística: Introdução

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Probabilidades e Estatística: Introdução

Enviado por

Direitos autorais:

Formatos disponíveis

PROBABILIDADES E ESTATÍSTICA

Universidade Nova de Lisboa, 2829-516, Caparica, Portugal

Especial agradecimento à Profa Fátima Miguéns por contribuições várias

Notas produzidas no âmbito da disciplina

de Probabilidades e Estatı́stica para os cursos de Engenharia

Qualquer gralha ou incorrecção encontrada agradece-se que seja reportada à autora

2 Teoria das Probabilidades 16

4 Momentos e outros parâmetros de uma distribuição de probabilidade 42

7 Teorema Limite Central 96

8 Inferência Estatı́stica. Estimação Pontual. Distribuições por Amostragem. 101

9 Intervalos de Confiança 117

10 Testes de Hipóteses 131

11 Regressão Linear Simples 169

12 Exercı́cios variados 186

13 Soluções dos exercı́cios propostos 198

16 Bibliografia sugerida (ordem alfabética) 236

1.2 Distribuições de frequência e representação gráfica de dados

onde n é a dimensão do conjunto de dados.

obtém-se a amplitude de cada classe, l, como:

Repare que Fk = n. Ao conjunto das {Fi , i = 1, . . . , k} chama-se distribuição de frequências

Observe-se que estas frequências se encontram em [0, 1] e que:

Associadas a fi∗ encontram-se as correspondentes frequências relativas acumuladas:

Frequência Freq. absoluta Frequência Freq. relativa

3.4 3.6 3.8 4.0 4.2 4.4 4.6 4.8 5.0

1.3 Medidas descritivas

2. Quão ”espalhados”se encontram os dados?

3. São os meus dados simétricos?

1.3.1 Medidas de localização

Q1 = d0.25neésimo valor do conjunto D ordenado

Q3 = d0.75neésimo valor do conjunto D ordenado

1.3.2 Medidas de dispersão

Desvio padrão amostral:

Desvio padrão amostral:

1.3.3 Medidas de forma

Coeficiente de enviesamento de Pearson:

Os valores de Sk variam entre −3 e 3. Se os dados forem perfeitamente simétricos então Sk = 0,

Confirma ligeiro enviesamento direito verificado no histograma. A distribuição é pois apenas

1 Pk 3×(3.5−4.153)2 +8×(3.7−4.153)2 +...

1.4 Diagrama de caixa-e-bigodes

3.5 4.0 4.5 5.0

Confirma-se ligeira assimetria direita dos dados.

1.5 Exercı́cios Propostos

(a) Determine as frequências relativas e as frequências relativas acumuladas. Coloque-as em

(a) Construa um histograma de frequências. O que indica a sua forma?

(a) Construa as distribuições de frequências absolutas e relativas correspondentes.

Teoria das Probabilidades

Definição 2.1 Uma experiência aleatória é uma experiência na qual:

- todos os possı́veis resultados da experiência são conhecidos à partida;

- a experiência pode sempre ser repetida sob idênticas condições.

Definição 2.3 A probabilidade de um acontecimento A é avaliada através de informação existente

2.2 Espaço amostral

1. Ω é o conjunto de todos os possı́veis resultados da experiência (espaço de resultados ou

2. S é uma σ−álgebra, i.e.:

1. Os pontos em Ω designam-se por pontos amostrais.

2. Muito frequentemente S é o conjunto de todos os subconjuntos de Ω, S ≡ P(Ω). Este conjunto

3. Qualquer conjunto A ∈ S é chamado um acontecimento. A é um conjunto de pontos amostrais.

4. Qualquer acontecimento A diz-se ter ocorrido se algum ponto de A corresponder ao resultado

6. Ao conjunto Ω chamamos acontecimento certo.

7. Ao conjunto ∅ chamamos acontecimento impossı́vel.

8. A álgebra assim construı́da, também designada por álgebra de acontecimentos, é ”pare-

(i) A é subacontecimento de B, e escreve-se A ⊂ B, se e só se a realização de A implica a

9. Dois acontecimentos A e B dizem-se mutuamente exclusivos se não têm elementos em comum,

Consideremos agora a experiência aleatória do lançamento ao ar de duas moedas equilibradas. Temos