Probabilidade

Versão em construção
(páginas 1 a 175)
Julho de 2010
Noções de
Probabilidades e Estatística
Esmeralda Gonçalves, Emília Nogueira e Ana Cristina Rosa
Departamento de Matemática da Faculdade de Ciências e Tecnologia

Universidade de Coimbra
1
2
Aos nossos alunos, antigos e actuais.
Este texto é um manual de estudo cujo conteúdo corresponde ao ensino das Probabilidades e
Estatística geralmente leccionado no primeiro ciclo universitário, numa unidade curricular em que as
palavras chave são Probabilidades, Estimação, Testes de Hipóteses e Regressão.
É fundamentalmente dirigido a estudantes de Ciências da Engenharia ou Bio-ciências podendo
também ser útil em Ciências de Economia ou Gestão.
Os 8 módulos que compõem o texto podem ser agrupados em 3 grandes partes. A primeira
(módulos 1, 2, 3 e 4) é dedicada à teoria das Probabilidades, às Variáveis e Vectores aleatórios reais
e aos principais resultados probabilistas. A segunda parte (módulos 5, 6 e 7) apresenta a teoria da
Amostragem e Estimação, os Testes de Hipóteses e o modelo de Regressão. O módulo 8 é dedicado à
resolução de diversas provas de avaliação.
Este texto é o resultado de vários anos de leccionação a diversos cursos da Faculdade de Ciências
e Tecnologia da Universidade de Coimbra.
3
4
ÍNDICE
Módulo 1 - Probabilidades 7
1. Experiência aleatória
2. Espaço de resultados
3. Acontecimentos
4. Probabilidade de um acontecimento
5. Propriedades de uma probabilidade
6. Probabilidade condicionada por um acontecimento
7. Acontecimentos independentes
Módulo 2 - Variáveis aleatórias reais 19
1. Variável aleatória real. Definição

2. Função de repartição de uma variável aleatória real
3. Variáveis aleatórias reais discretas
4. Variáveis aleatórias reais contínuas
5. Momentos de uma variável aleatória real
5.1. Esperança matemática de uma variável aleatória real
5.2. Momentos de uma variável aleatória real. Variância
6. Parâmetros de ordem de uma variável aleatória real
Módulo 3 - Vectores aleatórios reais 37
1. Vector aleatório real. Definição

2. Função de repartição de um vector aleatório real bidimensional
3. Vectores aleatórios reais bidimensionais discretos
4. Vectores aleatórios reais bidimensionais contínuos
5. Leis condicionais
6. Momentos de um vector aleatório real
7. Esperança condicional
8. Exemplos
Módulo 4 - Complementos sobre variáveis aleatórias 51
1. Leis discretas
2. Leis contínuas
3. Aplicações do teorema do limite central
Módulo 5 - Elementos de Estimação Paramétrica 65
1. Preliminares
2. Estimação pontual
2.1. Estimadores cêntricos. Estimadores consistentes
5
2.2. Aplicações
2.3. Método dos momentos
3. Estimação intervalar
3.1. Introdução
3.2. Intervalos de confiança. Método da variável fulcral
3.3. Exemplos de intervalos de confiança
Módulo 6 - Testes de hipóteses 83
1. Preliminares
2. Testes paramétricos
2.1. Introdução
2.2. Testes para a média de uma população
2.3. Exemplos
2.4. Testes para a variância de uma população gaussiana
3. Testes de ajustamento do Qui-quadrado
3.1. Introdução
3.2. Testes de ajustamento a uma determinada lei de probabilidade
3.3. Testes de ajustamento a uma família de leis de probabilidade
Módulo 7 - Modelo de regressão linear simples 99
1. Introdução
2. Definição e hipóteses
3. Propriedades dos estimadores dos mínimos quadrados
4. Inferência sobre os parâmetros do modelo no caso normal
Módulo 8 - Provas de avaliação com resolução 111
Anexo A - Resumo de Estatística Descritiva 165
Anexo B - Resultados de apoio 169
Anexo C - Tabelas da função de repartição das leis de Poisson, Normal,

Student e Qui-quadrado 171
Bibliografia 175
6
Módulo 1 - Probabilidades
A Estatística é um ramo da Matemática que fornece métodos que permitem obter conclusões sobre
características com interesse em conjuntos com elevado número de elementos (isto é, em populações)
associadas a fenómenos aleatórios (isto é, a situações não deterministas, em que a forma como a
característica se manifesta em cada elemento é imprevisível).
A característica de interesse é estudada sobre os elementos (ou indivíduos) de um subconjunto
da população, tão representativo quanto possível. Tal subconjunto é denominado amostra. A parte
da Estatística que se dedica ao estudo da amostra designa-se Estatística Descritiva.
Que conclusões se poderão tirar para a população, a partir da descrição e do resumo da amostra
fornecido pela Estatística Descritiva?
Como o nosso conhecimento da população é parcial e como as características com relevância para
a Estatística estão associadas a fenómenos aleatórios, qualquer conclusão sobre a população terá
associado um grau de incerteza.
A Estatística Indutiva fornece procedimentos que orientam a realização de inferências acompa-
nhadas de uma medida do grau de incerteza associado. A medida do grau de incerteza é obtida
recorrendo às Probabilidades.
A Teoria das Probabilidades tem por objectivo construir e estudar modelos matemáticos que
descrevam situações aleatórias (ou seja, em que mesmo mantendo as condições de realização, não há
conhecimento suficiente para prever com exactidão o que vai acontecer).
1. Experiência aleatória
O estudo dos fenómenos aleatórios é feito recorrendo ao conceito de experiência aleatória.

Experiência é qualquer processo ou conjunto de circunstâncias capaz de produzir resultados
observáveis. Diremos que uma experiência é aleatória se não podemos prever com exactidão o seu
resultado e se, repetida em condições idênticas, pode produzir resultados diferentes.
As características fundamentais de uma experiência aleatória são, então, as seguintes:
(i) o aspecto imprevisível dos resultados (cada realização da experiência conduz a um resultado
individual mas não há conhecimento suficiente para o prever com exactidão);
(ii) a possibilidade de repetição (a experiência aleatória pode ser repetida um grande número de
vezes nas mesmas condições ou em condições muito semelhantes);
(iii) a regularidade estatística (após um grande número de realizações da experiência aleatória observa-
-se uma forte regularidade nos resultados obtidos quando analisados em conjunto).
E. Consideremos as seguintes experiências aleatórias:
a) lançamento de uma moeda e observação da face exposta;
b) lançamento de um dado e observação da face exposta;
c) extracção de uma carta de um baralho e registo das suas características;
d) registo da duração das chamadas telefónicas recebidas numa central durante um certo período;
e) registo do comprimento de recém-nascidos numa determinada maternidade. △
7
É claro, no primeiro exemplo, que
- o lançamento pode repetir-se um grande número de vezes nas mesmas condições
- em cada lançamento o resultado (“cara” ou “coroa”) é imprevisível.
Para ilustrar a característica da regularidade estatística suponhamos que a moeda é equilibrada; se

efectuarmos um grande número de lançamentos constataremos que o número de vezes que sai “cara”
é aproximadamente igual ao número de vezes que sai “coroa” (isto é, a proporção de observações da
face “cara” estará próxima de 50%).
São também claras, em todos os outros exemplos, quer a possibilidade de repetir a experiência
quer a impossibilidade de prever, com exactidão, os resultados individuais.
2. Espaço de resultados
Ao realizarmos uma experiência aleatória obtemos um resultado individual, ω. Ao conjunto for-

mado por todos os resultados que é possível obter quando se efectua a experiência em causa chamamos
espaço dos resultados. Representá-lo-emos por Ω.
E.
a) Ao efectuarmos o lançamento de uma moeda com o objectivo de observar a face exposta temos
como espaço de resultados Ω1 = {C, K}, onde C representa “a face que fica exposta é cara” e
K representa “a face que fica exposta é coroa”.
b) Na experiência aleatória que consiste em lançar um dado, com as faces numeradas de 1 a 6, e

observar a face exposta temos Ω2 = {1, 2, ..., 6} onde i representa “fica exposta a face com o
número i” , i = 1, ..., 6.
c) Se a experiência aleatória consiste em registar o número de chamadas telefónicas recebidas numa

central durante um certo período temos Ω3 = N0 .
d) Ao registar a duração de uma lâmpada extraída de uma cadeia de fabrico

teremos Ω4 = [0, +∞[ .
e) Ao efectuar a tiragem simultânea de 3 cartas de um baralho com 52, temos, com notação sim-
bólica, Ω5 = {AO 6C 3P , DE AO 3E , ...} . Como Ω5 é o conjunto constituído por todos os grupos

de três cartas distintas, o número de resultados possíveis é card (Ω5 ) = 52
3 .
A definição do espaço de resultados é a primeira etapa na modelação de uma experiência aleatória.

Convém referir que o espaço de resultados pode conter elementos que não sejam resultados possíveis
da experiência (não havendo inconveniente neste procedimento); grave é considerar como espaço de
resultados um conjunto que não inclua algum dos resultados possíveis da experiência.
O conjunto Ω diz-se discreto (resp., contínuo) se tem um número finito ou infinito numerável (resp.,
não numerável) de elementos.
8
3. Acontecimentos
A segunda etapa na modelação de uma experiência aleatória tem subjacente a noção de aconteci-
mento.
Chamamos acontecimento a todo o subconjunto de Ω.
Se ω é um elemento de Ω então {ω} é um acontecimento. Estes subconjuntos singulares de Ω
dizem-se acontecimentos elementares.
E. Na experiência aleatória “lançamento de uma moeda e observação da face exposta”, onde
Ω = {C, K}, temos como acontecimentos {C}, que representa a saída de cara, {K} , que representa a
saída de coroa, e ainda {C, K} e ∅.
O conjunto de todos os acontecimentos possíveis desta experiência aleatória é, então,
{{C} , {K} , {C, K} , ∅} , isto é, o conjunto das partes de Ω, habitualmente designado por P(Ω).
Para as experiências aleatórias referidas nos exemplos b), c) e d) do parágrafo anterior, podemos
definir, respectivamente, os seguintes acontecimentos:
• A1 = a face exposta apresenta número par, isto é, A1 = {2, 4, 6} ;
• A2 = o número de chamadas telefónicas está entre 10 e 20, isto é, A2 = {11, ..., 19};
• A3 = a duração da lâmpada é superior a 50 horas, isto é, A3 = ]50, +∞[.
△
Dizemos que o acontecimento A se realiza (ou ocorre) se, ao realizar a experiência, o resultado
individual que se obtém, ω, é um elemento de A, isto é, ω ∈ A.
Notemos que Ω é um acontecimento que se realiza sempre, pelo que é denominado acontecimento
certo. Por outro lado, o conjunto vazio, ∅, que nunca se realiza, é chamado acontecimento impos-
sível.
Toda a álgebra de conjuntos é aplicável aos acontecimentos. Relembremos, pois, algumas operações
e terminologia correspondente adaptada aos acontecimentos.
Sejam A e B dois subconjuntos quaisquer de Ω.
1. Escrevemos A ⊂ B quando a realização de A implica a realização de B.
2. Dizemos que A e B são idênticos, e escrevemos A = B, se A ⊂ B e B ⊂ A.
3. O conjunto A ∪ B representa um acontecimento que se realiza se e só se pelo menos um dos dois

acontecimentos A ou B se realiza. Este acontecimento é chamado acontecimento união de A e
B.
4. O conjunto A ∩ B representa um acontecimento que ocorre se e só se ambos os acontecimentos

A e B ocorrem conjuntamente. Denomina-se acontecimento intersecção de A e B
5. O conjunto A\B representa um acontecimento que se realiza quando A se realiza e não se realiza
B.
Em particular, Ω\B = B diz-se acontecimento contrário de B.
Relembremos ainda que A\B = A ∩ B.
Se a realização conjunta, ou simultânea, de dois acontecimentos não é possível, dizemos que são
incompatíveis. Assim,
D
. Os acontecimentos A e B dizem-se incompatíveis quando A ∩ B = ∅ .
9
As operações de intersecção e união de dois acontecimentos admitem generalizações naturais. De
facto, se A1, A2, ..., An são subconjuntos de Ω, definem-se os acontecimentos
n
A1 ∪ A2 ∪ ... ∪ An = ∪ Ai ,
i=1
n
A1 ∩ A2 ∩ ... ∩ An = ∩ Ai .
i=1
Quando o cardinal de Ω não é finito pode ser necessário lidar com a intersecção, ou união, de
uma infinidade numerável de acontecimentos. Seja, então, (An )n∈N uma sucessão de subconjuntos de
Ω. Os acontecimentos seguintes traduzem, respectivamente, a união e a intersecção numeráveis de
acontecimentos.

+∞
6. O conjunto An representa um acontecimento que se realiza se e só se pelo menos um dos
n=1
acontecimentos A1 , A2 , ..., An , ... se realiza.

+∞
7. O conjunto An representa um acontecimento que se realiza se e só se todos os acontecimentos
n=1
A1 , A2 , ..., An , ... se realizam.
As uniões ou intersecções infinitas numeráveis aparecem explicitamente quando trabalhamos com

sucessões de conjuntos monótonas.
D
. Seja (An )n∈N uma sucessão de subconjuntos de um conjunto Ω.
a) (An )n∈N é uma sucessão monótona crescente se
∀n ∈ N, An ⊂ An+1 .
b) (An )n∈N é uma sucessão monótona decrescente se
∀n ∈ N, An+1 ⊂ An .
E. A sucessão de termo geral An = [1, 2n[ , n ∈ N, é claramente crescente e tem-se

+∞
+∞

An = [1, 2[ , An = [1, +∞[ .
n=1 n=1

A sucessão de termo geral Bn = −2, 1 + n1 , n ∈ N, é decrescente e tem-se
+∞
+∞

Bn = ]−2, 2[ , Bn = ]−2, 1] .
n=1 n=1
Do estudo do comportamento de uma sucessão de conjuntos (An )n∈N quando n tende para +∞,
isto é, da análise da sua convergência, destacamos apenas o seguinte:
10
a) Se (An )n∈N é uma sucessão crescente de conjuntos, tem-se
+∞

lim An = An .
n→+∞
n=1
b) Se (An )n∈N é uma sucessão decrescente de conjuntos, tem-se

+∞

lim An = An .
n→+∞
n=1
4. Probabilidade de um acontecimento
A regularidade estatística de uma experiência aleatória levou à seguinte definição de probabilidade

de um acontecimento A: P (A) é o número em torno do qual tende a estabilizar a frequência relativa
de ocorrências de A quando a experiência aleatória é realizada um grande número de vezes nas mesmas
condições.
Esta definição é utilizada para ilustrar a interpretação frequencista de probabilidade.
A primeira tentativa de construir um modelo matemático capaz de traduzir a medida do acaso, do
aleatório, data de 1812 e é devida a Laplace. A definição proposta é actualmente conhecida por
Definição clássica de probabilidade. Se o espaço de resultados, Ω, é não vazio e finito e se

todos os resultados da experiência aleatória têm a mesma possibilidade de ocorrer, a probabilidade do
acontecimento A é
card (A)
P (A) = .
card (Ω)
O .
1. P (A) é o quociente entre o número de casos favoráveis à realização de A e o número de casos

favoráveis à realização de Ω (número de casos possíveis).
2. Quando todos os resultados da experiência aleatória têm a mesma possibilidade de ocorrer

dizemos que há equiprobabilidade.
3. Tem-se P (Ω) = 1, P (∅) = 0.
4. P (A) ∈ [0, 1] , qualquer que seja o acontecimento A.
5. A definição tem o inconveniente de envolver o próprio conceito.
6. Em termos formais, estamos perante uma aplicação que "actua" sobre qualquer subconjunto de
Ω. Ou seja, quando Ω é finito e há equiprobabilidade, define-se
P : P(Ω) −→ [0, 1]
card (A)
A −→ P (A) =
card (Ω)
onde P(Ω) designa o conjunto das partes de Ω .
E se Ω não é finito? E se não há equiprobabilidade? Kolmogorov propõe uma solução em 1933.

Vejamos como terá surgido a sua proposta.
Pretendemos associar a cada acontecimento A um número real P (A) .
11
Assim P será uma aplicação definida sobre um conjunto A composto por todos os subconjuntos
aos quais seja possível atribuir uma probabilidade.
Se Ω é discreto (finito ou infinito numerável) podemos tomar A igual a P(Ω).
Mas por vezes P(Ω) é demasiado vasto (em particular quando Ω é não numerável). Bastará que
uma tal classe A seja um subconjunto de P(Ω) estável para as operações usuais de conjuntos, de modo
a que todos os acontecimentos que nos interessam pertençam a A. Ou seja, basta que A seja uma
tribo de acontecimentos.
D
. Seja A um subconjunto de P(Ω). Diz-se que A é uma tribo sobre Ω se:
a) Ω ∈ A.
b) ∀A ⊂ Ω, A ∈ A =⇒ A ∈ A.

+∞
c) Se (An )n∈N é uma sucessão qualquer de acontecimentos de A então An ∈ A.
n=1
Verifica-se facilmente que se A é uma tribo sobre Ω então ∅ ∈ A e, por exemplo, todas as reuniões
e intersecções finitas de elementos de A são ainda elementos de A.
Notemos que se Ω é finito, as reuniões e intersecções numeráveis reduzem-se a uniões e intersecções
finitas.
E.
1. {∅, Ω} é uma tribo sobre Ω.

2. Sendo A um subconjunto de Ω, A, A, Ω, ∅ é uma tribo sobre Ω.
3. Se Ω é discreto então P(Ω) é uma tribo sobre Ω.
4. Se Ω = R consideremos o conjunto, B, constituído por todos os intervalos reais (abertos, fechados,

semi-abertos - degenerados ou não, limitados ou não) e por todos os subconjuntos de números
reais que deles se obtêm pelas operações de intersecção ou união (finitas ou infinitas numeráveis)
e complementação. B é uma tribo sobre R chamada tribo de Borel de R.
△
O par (Ω, A) denomina-se espaço probabilizável.
Uma vez construída esta estrutura, Kolmogorov define probabilidade do seguinte modo.
D
. Uma probabilidade P sobre (Ω, A) é toda a aplicação
P : A −→ [0, 1]
tal que
a) P (Ω) = 1.
b) Para toda a sucessão (An )n∈N de elementos de A dois a dois incompatíveis tem-se
+∞ +∞

P An = P (An ).
n=1 n=1
12
À estrutura (Ω, A, P ) chamamos espaço de probabilidade.
Se Ω é discreto consideramos A = P(Ω). Se Ω = R consideramos A = B.
A definição de probabilidade segundo Kolmogorov legitima a definição clássica correspondente a

experiências aleatórias com um ”número finito de resultados igualmente possíveis”. De facto, sendo
Ω um conjunto finito e não vazio e havendo equiprobabilidade, a função P definida em P(Ω) por
card (A)
∀A ∈ P(Ω), P (A) =
card (Ω)
é uma probabilidade sobre (Ω, P(Ω)), como facilmente se prova.
5. Propriedades de uma probabilidade
Seja P uma probabilidade definida sobre um espaço probabilizável (Ω, A). Esta função goza de
algumas propriedades que passamos a detalhar.
Propriedade. A probabilidade do acontecimento impossível é nula: P (∅) = 0.
Prova. Consideremos a sucessão de acontecimentos definida por
A1 = Ω e ∀n ≥ 2, An = ∅.
Sendo uma sucessão de acontecimentos dois a dois incompatíveis, vem

+∞ +∞

P An = P (A1 ) + P (An )
n=1 n=2
pelo que
+∞

P (An ) = 0
n=2
o que implica P (∅) = 0, pois P é uma função não negativa.

Notemos que o facto de se ter P (A) = 0 não implica que A = ∅.
Propriedade. (Aditividade de P). Se A1 , A2 ,..., An são acontecimentos de A dois a dois incom-

patíveis, então n
n
P Ak = P (Ak ).
k=1 k=1

Em particular, se A e B são dois acontecimentos de A tais que A ∩ B = ∅, tem-se
P (A ∪ B) = P (A) + P (B).
13
Propriedade. (Monotonia de P). Se A e B são acontecimentos de A tais que A ⊂ B, então
P (A) ≤ P (B).
Prova. Como P é uma função não negativa e como B = A ∪ (B\A), com A ∩ (B\A) = ∅, o resultado
decorre de
P (B) = P (A) + P (B\A).

Em particular, vemos que, se A ⊂ B, então P (B\A) = P (B) − P (A).
Propriedade. Se A e B são dois acontecimentos quaisquer de A, então
P (B\A) = P (B) − P (A ∩ B).
Prova. Basta ver que B = (B\A) ∪ (A ∩ B) e usar a aditividade.

Em particular, temos
Propriedade. (Probabilidade do acontecimento contrário). Sendo A um acontecimento de A, tem-se
P ( A ) = 1 − P (A).
Teorema da probabilidade total. Se A e B são acontecimentos quaisquer de A, tem-se
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Prova. Basta partir de A ∪ B = A ∪ (B\(A ∩ B)) e notar que A ∩ (B\(A ∩ B)) = ∅.

Exercício. Prove que se A, B e C são acontecimentos quaisquer de A, então
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C).
Teorema. (Continuidade monótona de P). Seja (An )n∈N uma sucessão de acontecimentos de A
monótona crescente ou decrescente. Então
P ( lim An ) = lim P (An ) .

n→+∞ n→+∞
14
6. Probabilidade condicionada por um acontecimento
D
. Sejam A e B acontecimentos de A tais que P (B) > 0. Chama-se probabilidade de A
condicionada por B (ou probabilidade de A dado B) ao quociente
P (A ∩ B)
PB (A) = P (A/B) = .
P (B)
Sendo B ∈ A tal que P (B) > 0, a aplicação
PB : A −→ [0, 1]
P (A ∩ B)
A −→ PB (A) =
P (B)
é uma probabilidade sobre (Ω, A). De facto,
• PB é uma função definida em A com valores em [0, 1] , pois ∀A ∈ A, A ∩ B ⊂ B.
• Tem-se também PB (Ω) = P (Ω ∩ B)/P (B) = 1.
• Finalmente, se (An )n∈N é uma sucessão de acontecimentos de A dois a dois incompatíveis,

verifica-se que +∞ +∞

PB An = PB (An ).
n=1 n=1
Assim, PB verifica todas as propriedades vistas no parágrafo anterior. Em particular,
PB (A) = 1 − PB ( A )
PB (A ∪ C) = PB (A) + PB (C) − PB (A ∩ C).
Da definição de probabilidade condicionada, obtemos
P (A ∩ B) = P (A/B)P (B)
= P (B/A)P (A)
desde que P (A) > 0 e P (B) > 0.
Este resultado é um caso particular do seguinte teorema.
Teorema
n−1 da probabilidade composta. Sejam A1 , A2 , ..., An acontecimentos de A tais que

P Ai > 0. Então
i=1
n−1

P (A1 ∩ A2 ∩ ... ∩ An ) = P (A1 ) P (A2 /A1 ) P (A3 /A1 ∩ A2 ) ... P (An / Ai ).
i=1
Notemos que a condição P (A1 ∩ A2 ∩ ... ∩ An−1 ) > 0 implica P (A1 ) > 0, P (A1 ∩ A2 ) > 0, ... ,
P (A1 ∩ A2 ∩ ... ∩ An−2 ) > 0, pelo que todos os condicionamentos envolvidos na igualdade anterior são
válidos.
15
Teorema. Se A1 , A2 , ..., An são acontecimentos de A todos de probabilidade positiva e dois a dois
incompatíveis e se B é um acontecimento tal que
n
B⊂ ∪ Ai ,
i=1
então
n

P (B) = P (Ai ) P (B/Ai ) .
i=1

n n
Prova. Basta ter em conta que B = B ∩ ∪ Ai = ∪ (B ∩ Ai ) e usar a aditividade de P, uma vez
i=1 i=1
que estamos perante uma união de acontecimentos dois a dois incompatíveis.

De modo imediato surge então o resultado seguinte.
Fórmula de Bayes. Se A1 , A2 , ..., An são acontecimentos de A todos de probabilidade positiva e

dois a dois incompatíveis e se B é um acontecimento tal que P (B) > 0 e
n
B⊂ ∪ Ai ,
i=1
então
P (Ai ) P (B/Ai )
∀i ∈ {1, ..., n} , P (Ai /B) =
n .
P (Ai ) P (B/Ai )
i=1

7. Acontecimentos independentes
Consideremos de novo uma experiência aleatória modelada por um espaço de probabilidade (Ω, A, P ).
Sejam A e B dois acontecimentos.
D
. A e B dizem-se independentes (ou P -independentes) se
P (A ∩ B) = P (A)P (B).
O .
1. Não deverá confundir-se esta noção com a de acontecimentos incompatíveis. De facto, a noção
de incompatibilidade é uma noção intrínseca dos acontecimentos, isto é, não depende da proba-
bilidade definida no espaço de base (Ω, A), o mesmo não acontecendo com a de independência
que está directamente ligada àquela probabilidade.
2. Se A e B são tais que P (A) > 0 e P (B) > 0, então A e B são independentes se e só se
P (A/B) = P (A) e P (B/A) = P (B).
Esta propriedade, cuja prova é deixada ao leitor, corresponde à ideia natural de independên-
cia. Alguns autores usam-na como definição de independência de dois acontecimentos (mas só
aplicável a acontecimentos de probabilidade estritamente positiva).
16
Propriedade. Se A e B são acontecimentos independentes, então também são independentes
a) A e B b) A e B c) A e B.
Prova. Por exemplo,

P ( A ∩ B ) = P ( A ∪ B ) = 1 − [P (A) + P (B) − P (A ∩ B)] = [1 − P (A)] [1 − P (B)] = P ( A )P ( B ).

A próxima definição é uma generalização natural do conceito de independência.
D
. Sendo C um acontecimento tal que P (C) > 0, dizemos que os acontecimentos A e B são
condicionalmente independentes relativamente a C (ou PC − independentes) se
PC (A ∩ B) = PC (A)PC (B).
Passemos agora à definição de família finita de acontecimentos mutuamente independentes.
D
. Os acontecimentos A1 , A2 , ..., An são mutuamente independentes se
∀k > 1, ∀{i1 , ..., ik } ⊂ {1, ..., n}, P (Ai1 ∩ ... ∩ Aik ) = P (Ai1 )...P (Aik ).
Assim, dados três acontecimentos A1 , A2 e A3 , eles são mutuamente independentes se


 P (A1 ∩ A2 ) = P (A1 )P (A2 )

P (A1 ∩ A3 ) = P (A1 )P (A3 )

 P (A2 ∩ A3 ) = P (A2 )P (A3 )

P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 ).
Se os acontecimentos A1 , A2 e A3 verificam as três primeiras igualdades mas não verificam a última
dizem-se independentes dois a dois.
Mais geralmente, se A1 , A2 , ..., An são tais que Ai e Aj são independentes para todos os índices i,
j ∈ {1, ..., n} , com i = j, dizemos que A1 , A2 , ..., An são independentes dois a dois.
É claro que se n acontecimentos são mutuamente independentes eles são dois a dois independentes.
No entanto, acontecimentos dois a dois independentes podem não ser mutuamente independentes. O
exemplo seguinte ilustra tal situação.
E. Uma caixa contém 4 cartões de papel, absolutamente idênticos, que estão relacionados
com a atribuição de três prémios. Assim, o cartão 1 atribui o prémio 1, o cartão 2 atribui o prémio 2,
o cartão 3 atribui o prémio 3 e o cartão 4 atribui os prémios 1, 2 e 3.
Consideremos a experiência aleatória que consiste em seleccionar, ao acaso, um cartão da caixa e
registar o prémio que é atribuído e sejam A1 , A2 e A3 os seguintes acontecimentos:
A1 = é atribuído o prémio 1,
A2 = é atribuído o prémio 2,
A3 = é atribuído o prémio 3.
Estes acontecimentos são dois a dois independentes pois

P (A1 ) = P (A2 ) = P (A3 ) = 1/2 e P (A1 ∩ A2 ) = P (A1 ∩ A3 ) = P (A2 ∩ A3 ) = 1/4.
No entanto não são mutuamente independentes porque
P (A1 ∩ A2 ∩ A3 ) = 1/4 = P (A1 )P (A2 )P (A3 ).
△
17
18
Módulo 2 - Variáveis aleatórias reais
1. Variável aleatória real. Definição
Seja Ω o espaço de resultados associado a uma experiência aleatória. Em muitos casos Ω é, desde
logo, um subconjunto de números reais (se, por exemplo, a experiência aleatória consiste em medir
uma temperatura, um comprimento ou o valor de um preço). Noutros casos, Ω pode não ser um
conjunto numérico mas pode interessar-nos fazer corresponder a cada elemento ω de Ω um número ou
vários números reais.
Consideremos, por exemplo, a experiência que consiste em escolher ao acaso um aluno da FCTUC.
O espaço de resultados associado a esta experiência é, à partida, Ω = {ω 1 , ω 2 , ..., ωn } , onde n é o
número total de alunos e ωi representa o aluno i, i = 1, 2, ..., n.
Para cada aluno, podemos estar interessados em conhecer o número de disciplinas em que já obteve
aprovação, o número de matrículas, a idade, ...
Em cada um destes casos é notória a necessidade de associar a cada resultado da experiência o
número real que descreve o estudo em causa.
Formalizamos matematicamente a atribuição de um número a cada resultado ω da experiência

aleatória em estudo introduzindo uma função real X definida sobre Ω, isto é, considerando
X : Ω −→ R
ω −→ X(ω).
Se estivermos interessados em analisar em simultâneo várias características dos elementos da po-
pulação haverá necessidade de traduzir cada resultado da experiência por um conjunto ordenado de
números reais. Somos assim conduzidos à introdução de uma função vectorial
X : Ω −→ RK
ω −→ (X1 (ω) , X2 (ω) , ..., XK (ω)) .

Neste módulo dedicar-nos-emos apenas ao caso unidimensional K = 1.
Dispomos então de um espaço de probabilidade (Ω, A, P ), associado à experiência aleatória em

estudo, e de uma aplicação
X : Ω −→ R.
Vejamos como podemos, a partir de P e de X, definir uma probabilidade sobre R.
Já foi referido que, sobre R, o conjunto de acontecimentos probabilizáveis que consideramos é a

tribo de Borel, B.
Se tivermos em conta a definição de imagem inversa de um conjunto por uma aplicação tem-se
ω ∈ X −1 (B) ⇔ X (ω) ∈ B
e não surpreende que se defina a seguinte aplicação sobre B

Q(B) = P X −1 (B) , B ∈ B.
Esta definição só terá sentido se X −1 (B) fôr um elemento de A. Só assim poderemos calcular

P X −1 (B) = P ({ω ∈ Ω : X(ω) ∈ B}) = P (X ∈ B) .
19
Esta é, pois, uma restrição natural a exigir a X.
D
. Dada uma aplicação X : Ω −→ R, dizemos que X é uma variável aleatória real se
∀B ∈ B, X −1 (B) ∈ A.
Assim, se X é uma variável aleatória real (abreviadamente v.a.r.), a aplicação
Q: B −→ R
B −→ Q (B) = P X −1 (B) = P (X ∈ B)
está bem definida e é, como veremos em seguida, uma probabilidade sobre (R, B). Utilizaremos a
notação mais sugestiva Q = PX .
Propriedade. Seja P uma probabilidade sobre (Ω, A) e X : Ω −→ R uma variável aleatória real. A
aplicação PX definida por
∀B ∈ B, PX (B) = P (X ∈ B)
é uma probabilidade sobre (R, B) .
De facto, a definição de PX e as propriedades de P permitem afirmar que
• ∀B ∈ B, PX (B) ∈ [0, 1] ,
• PX (R) = 1,
+∞
+∞
• PX ∪ Bn = PX (Bn ) para toda a sucessão (Bn )n∈N de elementos de B dois a dois incom-
n=1 n=1
patíveis.
A probabilidade PX definida sobre (R, B) pela relação anterior diz-se lei de probabilidade da
variável aleatória real X.
E. Consideremos a experiência aleatória que consiste em efectuar dois lançamentos sucessivos
de um dado equilibrado e seja X a v.a.r. que representa o total dos pontos obtidos. Podemos calcular,
por exemplo,
1
PX ({2}) = P ({w : X(w) = 2}) = P (X = 2) = P ({(1, 1)}) =
36
PX ( ]9, +∞[ ) = P ({w : X(w) > 9}) = P (X > 9) =
6
= P ({(4, 6), (5, 5), (5, 6), (6, 4), (6, 5), (6, 6)}) =
36
PX ( ]0, 2[ ) = P ({w : 0 < X(w) < 2}) = P (0 < X < 2) = P (∅) = 0.
△
Se conhecermos P , a probabilidade PX fica então inteiramente conhecida, ou seja, conhecemos a

probabilidade de qualquer subconjunto de R que pertença a B. Mas, como veremos em seguida, há
outras formas de descrever ou caracterizar estas probabilidades.
20
2. Função de repartição de uma variável aleatória real
Sabemos que ]−∞, x] ∈ B, qualquer que seja x ∈ R. Então, se X é uma variável aleatória real
podemos sempre calcular a probabilidade seguinte

PX ( ]−∞, x] ) = P X −1 ( ]−∞, x] ) = P ({ω : X (ω) ≤ x}) = P (X ≤ x) .
Surge então a definição seguinte.

D
. Seja X uma variável aleatória real. A função real de variável real definida por
FX : R −→ R
x −→ FX (x) = P (X ≤ x)
diz-se função de repartição de X.
A função de repartição da variável aleatória X dá-nos, no ponto x, a probabilidade associada ao

intervalo ]−∞, x] .
Esta função tem propriedades interessantes e vai revelar-se fundamental para o conhecimento da
lei da variável aleatória real X.
Propriedade 1. FX é limitada: ∀x ∈ R, 0 ≤ FX (x) ≤ 1.
Propriedade 2. FX é monótona não decrescente: x1 < x2 =⇒ FX (x1 ) ≤ FX (x2 ) .
Prova. x1 < x2 =⇒ ]−∞, x1 ] ⊂ ]−∞, x2 ] =⇒ PX ( ]−∞, x1 ] ) ≤ PX ( ]−∞, x2 ] )

=⇒ FX (x1 ) ≤ FX (x2 ) .

Propriedade 3. lim FX (x) = 1.
x→+∞
Propriedade 4. lim FX (x) = 0.

x→−∞
Propriedade 5. FX é uma função contínua à direita sobre R, isto é,
∀a ∈ R, lim FX (x) = FX (a).

x→a+
Prova. (1 ) Temos de provar que lim FX (xn ) = FX (x) para toda a sucessão de números reais (xn )n∈N
n→+∞
que tende para a por valores maiores que a (xn → a+ ) . Mas, como FX é monótona e limitada, existem
os limites laterais de FX em todo a ∈ R, isto é, existe e é finito lim FX (y) (bem como lim FX (y)).
y→a+ y→a−
Desta forma, basta calcular então o valor deste limite no caso de a sucessão (xn )n∈N ser decrescente
e tender para a.
Seja então xn = a + n1 , n ∈ N. Temos

1
lim F (xn ) = lim P −∞, a +
n→+∞ X n→+∞ X n

1
= PX lim −∞, a +
n→+∞ n
= PX ( ]−∞, a] ) = FX (a),
1
Pretende-se que o leitor retenha apenas a ideia geral.
21

porque a sucessão −∞, a + n1 n∈N é decrescente e o seu limite é ]−∞, a] .

Observamos desde já que a função FX não é, em geral, contínua. Com efeito, tem-se o resultado
seguinte.
Propriedade 6. lim FX (x) = P (X < x0 ) .

x→x−
0
É claro que P (X < x0 ) = FX (x0 ) − P (X = x0 ) pelo que deduzimos, de imediato, o seguinte

resultado.
Propriedade 7. Seja x0 um ponto arbitrariamente fixo em R. A função FX é contínua em x0 se e só

se P (X = x0 ) = 0.
O conjunto dos pontos de descontinuidade de FX é então
D = {a ∈ R : P (X = a) > 0} .
Prova-se que este conjunto tem, quando muito, uma infinidade numerável de elementos. Conse-
quentemente, a função de repartição de uma variável aleatória real X ou é contínua sobre R ou tem,
quando muito, uma infinidade numerável de pontos de descontinuidade.
Propriedade 8. ∀a, b ∈ R, a < b,
P (a < X ≤ b) = FX (b) − FX (a).
Prova. De facto,
P (a < X ≤ b) = P (X ∈ ]a, b]) = PX ( ]a, b] )

= PX ( ]−∞, b] \ ]−∞, a] )
= PX ( ]−∞, b] ) − PX ( ]−∞, a] )
= FX (b) − FX (a).

É importante destacar que, como se infere directamente da definição de função de repartição, a
cada lei de probabilidade PX (e consequentemente a cada variável aleatória X) está associada uma só
função de repartição.
Inversamente, se G : R → R é tal que
a) G (x) ∈ [0, 1] , x ∈ R,
b) G é não decrescente,
c) lim G (x) = 0, lim G (x) = 1,

x→−∞ x→+∞
d) G é contínua à direita sobre R,
então há uma única lei de probabilidade PX tal que G é a sua função de repartição.
Das propriedades apresentadas deduzimos que, se conhecermos FX , podemos calcular a probabili-

dade de qualquer acontecimento de B. Por exemplo,
22
PX (]a, b[) = P (a < X < b) = P (a < X ≤ b) − P (X = b) = FX (b) − FX (a) − P (X = b)
e
P (X = b) = PX ({b}) = PX ( ]−∞, b] \ ]−∞, b[ )

= PX ( ]−∞, b] ) − PX ( ]−∞, b[ ) = FX (b) − FX (b− ) .
3. Variáveis aleatórias reais discretas
Os dois tipos de variáveis aleatórias reais que vamos estudar diferem no que diz respeito à natureza
dos valores que podem assumir. A diferença pode ser ilustrada considerando as seguintes variáveis
aleatórias:
• X igual ao número de caras obtidas em 2 lançamentos de uma moeda,
• Y igual ao número de chamadas telefónicas registadas numa central num período de grande
afluência,
• Z igual à duração de uma chamada telefónica.
Nos dois primeiros casos, as grandezas em estudo só podem assumir valores inteiros:
X (Ω) = {0, 1, 2}
′
Y Ω = {0, 1, 2, 3, ...}
ou seja, estes conjuntos são discretos (finitos ou infinitos numeráveis).

Quanto a Z, qualquer valor real não negativo poderá ser registado:
′′
Z Ω = [0, +∞[
ou seja, o conjunto dos valores possíveis é um conjunto contínuo.

Em termos práticos, as variáveis aleatórias reais que vamos apresentar dir-se-ão discretas ou con-
tínuas consoante a natureza da imagem do espaço de resultados.
Comecemos por introduzir as variáveis aleatórias reais discretas.
D
. Uma variável aleatória real X diz-se discreta se existe um subconjunto de R, S, discreto,
tal que P (X ∈ S) = 1.
Também dizemos que a lei de X é discreta.
O exemplo seguinte permite-nos afirmar que este subconjunto S não é único e realça o interesse
de retermos o menor subconjunto discreto de probabilidade 1.
E. Seja X igual ao número de caras obtidas em 2 lançamentos sucessivos de uma moeda
equilibrada. Temos
X (Ω) = {0, 1, 2}
1 2 1
e P (X = 0) = , P (X = 1) = , P (X = 2) = .
4 4 4
Então existe S ⊂ R, S discreto, tal que P (X ∈ S) = 1. De facto, poderá ser S = {0, 1, 2} = X (Ω) .
Podemos assim concluir que X é uma variável aleatória discreta.
23
Mas também poderíamos ter escolhido S = {0, 1, 2, 3, 4, 5} ou S = N0 , ..., pois em qualquer dos
casos S é discreto e P (X ∈ S) = 1.
△
D
. Chamamos suporte da variável aleatória real X discreta, e representamo-lo por SX , ao
menor subconjunto de S que verifica P (X ∈ SX ) = 1.
Propriedade. O suporte de uma variável aleatória real X discreta coincide com o conjunto dos
pontos de descontinuidade da sua função de repartição, isto é,
SX = D = {x ∈ R : P (X = x) > 0} .
O conhecimento do suporte da lei de X e das probabilidades dos seus elementos é extremamente

importante para o conhecimento completo da lei de X pois permitirá calcular P (X ∈ B) , B ∈ B. De
facto, para qualquer B ∈ B,

PX (B) = PX B ∩ SX ∪ SX

= PX (B ∩ SX ) + PX B ∩ SX
= PX (B ∩ SX )

= P (X = x) ,
x∈B∩SX
uma vez que B ∩ SX é discreto. (2 )

Vemos assim que é fundamental, neste tipo de variáveis aleatórias, conhecer P (X = x) , para
x ∈ SX . Esta informação é apresentada na denominada função de probabilidade gX .
D
. Chama—se função de probabilidade da variável aleatória real X à função
gX : R −→ R
x −→ gX (x) = P (X = x) .
Podemos destacar que os valores desta função pertencem ao intervalo [0, 1] , são nulos para x ∈
/ SX

e que P (X = x) = 1.
x∈SX
O conhecimento da função de probabilidade gX é pois equivalente ao da lei de X. Mas este, como

vimos, é equivalente ao da função de repartição FX . Vejamos agora como se relacionam gX e FX .
Por um lado, sendo X uma variável aleatória real discreta de função de repartição FX , temos

gX (a) = FX (a) − FX a− , ∀a ∈ R.
Por outro lado, para calcular a função de repartição de uma variável aleatória real X discreta, de
suporte SX e função de probabilidade gX , basta ter em conta que

∀x ∈ R, FX (x) = PX ( ]−∞, x] ) = gX (a) .
a∈]−∞,x]∩SX
2
Se B ∩ SX = ∅ consideramos, por convenção, P (X = x) = 0.
x∈B∩SX
24
E. Seja X a variável aleatória real que representa o número de caras obtidas ao efectuar dois
lançamentos sucessivos de uma moeda equilibrada. X é discreta de suporte SX = {0, 1, 2} e função
de probabilidade 

 1/4, x ∈ {0, 2}

gX (x) = 1/2, x = 1 .



0, x ∈ R\ {0, 1, 2}
A função de repartição de X é então


 0, x<0


 1/4, 0≤x<1
FX (x) = .

 3/4, 1≤x<2



1, x ≥ 2.
Esboçamos, de seguida, o gráfico desta função de repartição.
Este é o aspecto característico da função de repartição de uma v.a.r. discreta, o de função em

escada.
△
4. Variáveis aleatórias reais contínuas
Vamos agora introduzir as variáveis aleatórias reais (absolutamente) contínuas. Para definir a
lei de probabilidade deste tipo de variáveis precisamos de introduzir uma função, chamada função
densidade, que nos indique a forma como a probabilidade se distribui ao longo de intervalos.
D
. Uma função f : R −→ R é uma densidade de probabilidade sobre R se
a) f é não negativa;
+∞
b) −∞ f (t) dt = 1.
D
. Uma variável aleatória real X diz-se contínua se existe uma densidade de probabilidade
sobre R, f, tal que
b
∀a, b ∈ R, a < b, P (a < X ≤ b) = f (t) dt.
a
Nestas condições, dizemos que a lei de X, PX , é contínua.
Chamamos a f densidade de probabilidade da v.a.r. X e denotamo-la fX .
25
b
Reparemos que não impomos à função fX qualquer hipótese de continuidade. Assim, a fX (t) dt
pode ser um integral impróprio.
Analogamente ao que vimos no caso discreto, chamamos suporte de PX ao subconjunto de R, SX ,
onde fX é estritamente positiva.
Propriedade. Se X é uma variável aleatória real contínua tem-se
∀a ∈ R, P (X = a) = 0.
Deduzimos que se X é uma v.a.r. contínua então
P (a < X < b) = P (a ≤ X < b) = P (a ≤ X ≤ b) = P (a ≤ X < b) .
Além disso, o conjunto

D = {a ∈ R : P (X = a) > 0}
é vazio, ou seja, a função de repartição de uma variável aleatória real contínua é uma função contínua.
Conhecida a densidade de probabilidade, fX , de uma v.a.r. X contínua, podemos construir a

correspondente função de repartição, FX .
De facto, tem-se x
∀x ∈ R, FX (x) = fX (t) dt.
−∞
Prova. (3 ) Esbocemos a prova considerando a sucessão
An = ]−n, x] , n ∈ N,
e supondo x > −1. Esta sucessão é crescente e, como tal,

FX (x) = PX ( ]−∞, x] ) = PX lim An = lim PX (An )
n→+∞ n→+∞
x x
= lim P (−n < X ≤ x) = lim fX (t) dt = fX (t) dt.
n→+∞ n→+∞ −n −∞
Para x ≤ −1, a prova segue os mesmos passos.

Analisemos o problema inverso, isto é, conhecida a função de repartição vejamos como determinar
a correspondente densidade. x
Relembremos que, sendo FX (x) = fX (t) dt, se x0 é um ponto de continuidade de fX , então
−∞
′
FX é derivável em x0 e tem-se FX (x0 ) = fX (x0 ) .
Prova-se também que a função de repartição, FX , é derivável sobre R ou sobre R\E com E um
conjunto discreto (finito ou infinito numerável).
É claro que se duas funções densidade diferirem apenas num conjunto discreto elas vão definir
a mesma função de repartição. Assim, a uma mesma v.a.r. X podemos associar várias densidades.
Quando dissermos “a densidade de X” estaremos a referir-nos a uma delas, por exemplo, a
d
dx FX (x) , nos pontos x onde FX é derivável
fX (x) = .
0, nos outros pontos (por convenção)
3
Pretende-se que o leitor retenha apenas a ideia geral.
26
E. Seja X uma v.a.r. contínua de função de repartição FX : R −→ R tal que
1 λx
2
e , x<0
FX (x) = 1 −λx
,
1− 2 e , x≥0
com λ > 0 .
Facilmente se verifica que uma versão da densidade de X é dada por (4 )

λ −λ| x|
f(x) = e , x ∈ R.
2
Podemos também determinar a função de repartição da v.a.r. Y = |X|, o que permite ilustrar a
forma de obter a lei de probabilidade de uma variável aleatória que é função de X. Tem-se
FY (y) = P (Y ≤ y) = P (|X| ≤ y) .
Se y < 0 então P (|X| ≤ y) = 0 .
Se y ≥ 0, então P (|X| ≤ y) = P (−y ≤ X ≤ y) = FX (y) − FX (−y) = 1 − e−λy .
Finalmente
0, y<0
FY (y) = −λy .
1−e , y≥0
4
Esta versão da densidade difere da fixada pela convenção em x = 0 (note-se que FX não é derivável em x = 0).
27
5. Momentos de uma variável aleatória real
Há por vezes necessidade de resumir a informação contida na lei de probabilidade da variável

aleatória em estudo, ou de evidenciar alguma característica dessa lei, através de um número real.
Assim, os parâmetros que vamos introduzir neste parágrafo não caracterizam, em geral, a lei de
probabilidade a que estão associados mas fornecem informação relevante sobre a localização, dispersão,
simetria, ..., dos valores da variável em estudo.
Vamos apresentar as definições separando sistematicamente o caso discreto do caso contínuo.
5.1 Esperança matemática de uma variável aleatória real

Começamos por introduzir a definição de esperança matemática de uma variável aleatória real
discreta.
D
. Seja X uma v.a.r. discreta de suporte SX . A esperança matemática de X é

E(X) = xP (X = x)
x∈SX

desde que |x| P (X = x) < +∞.
x∈SX
Se SX é finito, E(X) existe sempre. Mas, se SX é infinito numerável E(X) só existe quando a série
envolvida na definição é absolutamente convergente.
E.
1. Seja X a v.a.r. de suporte SX = {1, 2, 3, 4} e tal que

1 1
P (X = 1) = P (X = 4) = ; P (X = 2) = P (X = 3) = .
3 6
1 1 1 1
É claro que E(X) existe e tem-se E(X) = 1 × 3 +2× 6 +3× 6 +4× 3 = 2.5.
Este exemplo ilustra também o facto de E(X) não ser necessariamente um valor do suporte da
variável aleatória.
2. Seja X uma v.a.r. discreta de suporte SX = Z\ {0} e tal que

1
P (X = n) = P (X = −n) = , n ∈ N.
2n(n + 1)
Note-se que a lei de probabilidade de X está bem definida pois
+∞
1
P (X = n) = = 1.
n=1
n (n + 1)
n∈SX
Contudo, a v.a.r. X não possui esperança matemática porque
+∞
1
|n| P (X = n) = = +∞.
n+1
n∈SX n=1
28
△
Apresentamos agora a definição de esperança matemática de uma variável aleatória real contínua.
D
. Seja X uma variável aleatória real contínua com função densidade fX . A esperança
matemática de X é +∞
E(X) = xfX (x)dx
−∞
+∞
desde que −∞ |x| fX (x)dx < +∞.

e−x−1 , x > −1
E. Seja X uma v.a.r. seguindo a lei de densidade fX (x) = .
0, x ≤ −1
A esperança matemática de X existe porque

+∞ 0 +∞
|x| fX (x)dx = (−x) fX (x)dx + xfX (x)dx
−∞ −∞ 0
0 +∞
−x−1 2
= − xe dx + xe−x−1 dx = < +∞.
−1 0 e
Então E(X) é igual a
+∞ −1 +∞ +∞
E(X) = xfX (x)dx = xfX (x)dx + xfX (x)dx = xe−x−1 dx = 0.
−∞ −∞ −1 −1
△
No exemplo seguinte apresenta-se uma variável aleatória real contínua cuja esperança matemática
não existe.
1 1
E. Seja X uma v.a.r. seguindo a lei de densidade fX (x) = , x ∈ R.
π 1 + x2
A esperança matemática de X não existe porque

+∞ 0 +∞
−∞ |x| fX (x) dx = −∞ (−x) fX (x) dx + 0 xfX (x) dx
29
0 +∞
−x x
= dx + dx
−∞ π (1 + x2 )
0 π (1 + x2 )

1
2
1
2

= 2π lim log 1 + a + 2π lim log 1 + b = +∞.
a→−∞ b→+∞
△
A esperança matemática de uma variável aleatória real X também se denomina valor médio,
média ou ainda valor esperado de X.
O valor médio pode interpretar-se como sendo o centro de massas (de probabilidade) da variável
aleatória real X. Com efeito, se considerarmos, por exemplo, uma variável aleatória real discreta e
associarmos a cada valor x, assumido pela variável, um ponto material de massa P (X = x), o conjunto
de tais pontos forma um sistema material que tem por centro de gravidade (ou de massas) m = E(X).
Corresponde pois a um ponto de equilíbrio da distribuição. Dizemos por isso que o valor médio é um
parâmetro de localização.
D
. Dizemos que uma variável aleatória real X é centrada se E(X) = 0.
Propriedades da esperança matemática
Propriedade 1. Seja a um número real arbitrário. Se X é uma variável aleatória real tal que
P (X = a) = 1 então E(X) = a.
Prova. Nestas condições, X é uma v.a.r. discreta de suporte SX = {a} . Então
E(X) = aP (X = a) = a.
Vamos agora ver uma propriedade que nos dá informação sobre a esperança matemática de uma
função de uma variável aleatória real. A lei de uma função de X, digamos Φ(X), pode ser deduzida
à custa da lei de X, como já foi ilustrado. O resultado que vai ser apresentado tem a particularidade
de permitir calcular E (Φ(X)) sem ser necessário conhecer a lei de Φ(X). Supomos que a função Φ é
tal que mantém a natureza de X e Φ(X) (isto é, ambas discretas ou ambas contínuas).
Propriedade 2. Seja X uma variável aleatória real e considere-se uma função Φ : R −→ R tal que
Φ(X) seja uma variável aleatória real.

1. Se X é discreta de suporte SX , E (Φ(X)) existe se e só se |Φ (x)| P (X = x) < +∞ e tem-se
x∈SX

E(Φ(X)) = Φ (x) P (X = x) .
x∈SX
+∞
2. Se X é contínua de densidade fX , E (Φ(X)) existe se e só se −∞ |Φ (x)| fX (x)dx < +∞ e tem-se
+∞
E(Φ(X)) = Φ (x) fX (x)dx.
−∞
Concluímos também que E(X) existe se e só se E (|X|) existe.
30
Propriedade 3. Sejam a, b dois números reais. Se E(X) existe, tem-se
E (aX + b) = aE (X) + b.
É claro que de toda a variável aleatória real X possuindo esperança matemática se deduz uma
variável aleatória real centrada; de facto, basta considerar a variável aleatória real
Z = X − E(X).
Propriedade 4. (Linearidade da esperança matemática) (5 ) Sejam X1 , X2 , ..., Xn variáveis aleatórias

reais definidas sobre (Ω, A, P ) tais que E (Xk ) existe para k = 1, 2, ..., n. Sejam a0 , a1 , a2 , ..., an
n
números reais e consideremos Y = a0 + ak Xk .
k=1
Então E(Y ) existe e tem-se
n
n

E a0 + ak Xk = a0 + ak E (Xk ) .
k=1 k=1

Em particular, n
n

E Xk = E (Xk ) .
k=1 k=1
Há um resultado semelhante para o produto de variáveis aleatórias quando as variáveis interve-

nientes são independentes.
D
. Dizemos que as variáveis aleatórias X1 , ... , Xn são independentes se
∀ B1 , ... , Bn ∈ B ,
P (X1 ∈ B1 ∩ ... ∩ Xn ∈ Bn ) = P (X1 ∈ B1 ) × ... × P (Xn ∈ Bn ) .
Propriedade 5. Sejam X1 , X2 , ..., Xn variáveis aleatórias reais definidas sobre (Ω, A, P ) indepen-
dentes e tais que E (Xk ) existe para k = 1, 2, ..., n. Então
n n

E Xk = E (Xk ) .
k=1 k=1
5.2 Momentos de uma variável aleatória real. Variância

O valor médio indica-nos o centro de gravidade da lei de probabilidade mas não é suficiente para
a caracterizar. Para confirmarmos este facto basta considerarmos a variável aleatória real X com
suporte SX = {−2, −1, 1, 2} e tal que
1
P (X = x) = , x ∈ SX ,
4
5
No caso do programa da disciplina incluir o capítulo dos vectores aleatórios reais, esta propriedade, a definição e a
propriedade seguintes serão apresentadas nesse capítulo.
31
e a v.a.r. Y com suporte SY = SX e tal que
1 3
P (Y = −2) = P (Y = 2) = e P (Y = −1) = P (Y = 1) = .
8 8
Tem-se E (X) = E (Y ) = 0. Mas no caso de Y a concentração em torno da origem é mais forte.
Vamos então recorrer a outros parâmetros que, conjuntamente com a média, nos permitirão co-
nhecer um pouco melhor a lei da variável aleatória.
Seja então X uma variável aleatória real e seja k ∈ N. A propriedade 2 da esperança matemática
permite escrever
 k

 xk P (X = x) , se X é discreta e tal que x P (X = x) < +∞
k  x∈SX x∈SX
E X =
 +∞ k
 +∞ xk f (x)dx,

se X é contínua e tal que x f (x)dx < +∞.
−∞ X −∞ X

D
. Chama-se momento simples de ordem k de X ao valor de E X k . Representa-se
por mk .
A propriedade seguinte diz-nos que se existe o momento de ordem k, então existem todos os
momentos de ordem inferior a k.

Propriedade. Se E X k existe então E (X n ) existe para todo o n ≤ k, n ∈ N.

Vamos agora introduzir os momentos centrados. Seja X uma v.a.r. tal que E(X) = m existe. Pela
propriedade 2 da esperança matemática, tem-se


 (x − m)k P (X = x) , se X é discreta e tal

 x∈SX



 k

 que (x − m) P (X = x) < +∞;
k x∈SX
E (X − m) =


 +∞



 (x − m)k fX (x)dx, se X é contínua e tal
 −∞

 +∞
que −∞ (x − m)k fX (x)dx < +∞.

D
. Chama-se momento centrado de ordem k de X a E (X − m)k . Representa-se por
µk .
Notemos que µ1 = 0.

O momento centrado de ordem 2 , µ2 = E (X − m)2 , é habitualmente designado por variância
de X e representado por V (X) ou σ2X .
O desvio-padrão de X é
!
σX = E (X − m)2
e é utilizado para medir a dispersão dos valores de X em torno do seu valor médio.
32
Propriedades da variância
Propriedade 1. Seja a um número real. Se X é uma v.a.r. tal que P (X = a) = 1, então V (X) = 0.

A propriedade seguinte é útil para calcular a variância de uma v.a. real.

Propriedade 2. (Fórmula de Köenig) Seja X uma v.a.r. tal que E X 2 existe. Tem-se

V (X) = E X 2 − (E (X))2 .

Prova. V (X) = E (X − m)2 = E X 2 + m2 − 2mX = E X 2 − m2 , pela propriedade 4 da espe-
rança matemática.

Propriedade 3. Se X é uma v.a.r. tal que E X 2 existe, tem-se
∀a, b ∈ R, V (aX + b) = a2 V (X).

Prova. V (aX + b) = E (aX + b − E (aX + b))2 = E (aX − aE (X))2

= a2 E (X − E (X))2 = a2 V (X).

D
. A v.a.r. X diz-se reduzida se V (X) = 1.
Propriedade 4. Seja X uma v.a.r. tal que V (X) existe. Se V (X) > 0, a v.a.r.
X − E(X)
Z= "
V (X)
é centrada e reduzida.
Propriedade 5. (6 ) Sejam X1 , X2 , ..., Xn variáveis aleatórias reais independentes definidas sobre

(Ω, A, P ) e tais que V (Xk ) existe para k = 1, 2, ..., n. Sendo a0 , a1 , a2 , ..., an números reais, tem-se
n
n

V a0 + ak Xk = a2k V (Xk ) .
k=1 k=1

Em particular, se as v.a.r. envolvidas são independentes
n n

V Xk = V (Xk ) ,
k=1 k=1
e, por exemplo,
V (X1 − X2 ) = V (X1 ) + V (X2 ) .
6
No caso do programa da disciplina incluir o capítulo dos vectores aleatórios reais, esta propriedade será apresentada
nesse capítulo.
33
6. Parâmetros de ordem de uma variável aleatória real
Os parâmetros que são em seguida introduzidos permitem-nos avaliar em simultâneo a concentração

e a localização da lei de probabilidade em estudo. Além disso, são particularmente úteis quando as
variáveis aleatórias não possuem momentos.
Começamos por introduzir uma medida de localização da lei de probabilidade de X que, contra-
riamente ao que sucede com a esperança matemática, existe sempre mas pode não ser única.
D
. Mediana da variável aleatória real X é todo o número real x tal que

 FX (x− ) ≤ 12
,

FX (x+ ) ≥ 12
com FX a função de repartição de X.
Se, em particular, a v.a.r. X é contínua então FX é contínua e as condições da definição de mediana

reduzem-se a FX (x) = 12 .
E. Seja X uma variável aleatória real contínua de função densidade definida por


 x, 0≤x≤1


fX (x) = 2, 2 ≤ x ≤ 2.25 .



 0, x ∈ ]−∞, 0[ ∪ ]1, 2[ ∪ ]2.25, +∞[
Constatamos que qualquer valor do intervalo [1, 2] verifica a definição de mediana pelo que, neste
caso, a mediana de X não é única.
△
A definição seguinte generaliza a de mediana.
D
. Seja p ∈ ]0, 1[ . O quantil de ordem p da variável aleatória real X é todo o número
real qp tal que 
 FX (qp − ) ≤ p
.
 +
FX (qp ) ≥ p
Se a v.a.r. X é contínua, as duas desigualdades anteriores reduzem-se a FX (qp ) = p.
34
Os casos particulares mais importantes correspondem aos quartis (obtidos considerando p igual
a 14 , 24 e 34 ), aos decis (obtidos considerando p igual a 10
1 2
, 10 9
,..., 10 ) e aos percentis (obtidos
1 2 99
considerando p igual a 100 , 100 , ..., 100 ).
1
Notemos também que a mediana corresponde à escolha p = 2 .
1 1
E. Seja X uma v.a.r. contínua seguindo a lei de densidade f (x) = , x ∈ R. Os quartis
π 1 + x2
de X são
q1/4 = −1, q2/4 = 0, q3/4 = 1
1
uma vez que P (X ≤ 0) = P (X ≥ 0) = 2 e P (X ≤ −1) = P (X ≥ 1) = 14 .
△
Recorrendo a estes parâmetros, concretamente aos quartis, podemos definir (em caso de unicidade)
um coeficiente que nos permite ter uma ideia da dispersão dos valores de X relativamente à mediana.

D
. A amplitude interquartil da lei da v.a.r. X é a amplitude do intervalo q 1 , q 3 .
4 4
Notemos que neste intervalo estão sensivelmente (mais exactamente, pelo menos) 50% dos valores
de X. Assim, se aquela amplitude for muito pequena poderemos afirmar que os valores de X estão
fortemente concentrados em torno da mediana.
35
36
Módulo 3 - Vectores aleatórios reais
1. Vector aleatório real. Definição
Seja (Ω, A, P ) o espaço de probabilidade associado a uma experiência aleatória.

Por vezes o resultado de uma tal experiência exprime-se por um par de números (como, por
exemplo, ao efectuar a medição simultânea da altura e peso de indivíduos escolhidos ao acaso numa
população) ou mesmo por k números reais, k ∈ N. Neste caso, fazemos corresponder a cada elemento
do espaço de resultados, Ω, um ponto de Rk :
Ω → Rk
ω ֒→ (X1 (ω) , ..., Xk (ω)) = (X1 , ..., Xk ) (ω)
onde Xi (ω) representa o valor da característica numérica Xi sobre o indivíduo ω,

i = 1, ..., k.
D
. (X1 , ..., Xk ) é um vector aleatório real de dimensão k sobre (Ω, A, P ) se X1 , ..., Xk são
variáveis aleatórias reais definidas sobre (Ω, A, P ) .
D
. A X1 , ..., Xk chamamos margens do vector (X1 , ..., Xk ) .
Relembremos que, para i ∈ {1, ..., k} , Xi é uma variável aleatória real sobre (Ω, A, P ) se
∀C ∈ B, Xi−1 (C) ∈ A,
com B a tribo de Borel sobre R, e que definimos, à custa de P e de Xi , uma probabilidade sobre (R, B)
considerando
PXi (C) = P ({ω ∈ Ω : Xi (ω) ∈ C})

= P Xi −1 (C) .
Também agora, se considerarmos Rk munido da sua tribo de Borel (7 ), BRk , podemos dizer que
(X1 , ..., Xk ) é um vector aleatório real de dimensão k sobre (Ω, A, P ) se
∀B ∈ BRk , (X1 , ..., Xk )−1 (B) ∈ A,
com
(X1 , ..., Xk )−1 (B) = {ω ∈ Ω : (X1 (ω) , ..., Xk (ω)) ∈ B}
a imagem inversa de B por (X1 , ..., Xk ) .
k
Podemos então definir uma probabilidade sobre R , BRk considerando, para qualquer
B ∈ BRk ,
P(X (B) = P [{ω ∈ Ω : (X1 (ω) , ..., Xk (ω)) ∈ B}]

1 ,...,Xk )

= P (X1 , ..., Xk ) −1 (B) .
7
A tribo de Borel sobre Rk é o subconjunto das partes de Rk constituído por todos os subconjuntos de Rk da forma
B1 × B2 × ... × Bk com Bi ∈ B, i = 1, ..., k, e por todos os subconjuntos que deles se obtêm pelas operações de união,
intersecção (em número finito ou infinito numerável) e complementação.
37
D
. P(X diz-se lei de probabilidade do vector aleatório (X1 , ..., Xk ) (8 ).
1 ,...,Xk )
D
. PXi é denominada lei de probabilidade da margem Xi , i = 1, ..., k.
Notemos que, no caso particular em que B = B1 × ... × Bk , Bi ∈ B, se tem
P(X (B1 × ... × Bk ) = P [{ω ∈ Ω : (X1 , ..., Xk ) (ω) ∈ B1 × ... × Bk }]

1 ,...,Xk )
= P [{ω ∈ Ω : X1 (ω) ∈ B1 , ..., Xk (ω) ∈ Bk }]

= P ({X1 ∈ B1 } ∩ ... ∩ {Xk ∈ Bk })
= P (X1 ∈ B1 , ..., Xk ∈ Bk ) ,
com notação semelhante à utilizada no contexto de uma variável aleatória real.
Conhecida a lei de probabilidade P(X ,...,X ) é possível conhecer as leis marginais PXi , i = 1, ..., k.
1 k
De facto, para todo o Bi ∈ B,
PXi (Bi ) = P (Xi ∈ Bi )

= P (X1 ∈ R, ..., Xi−1 ∈ R, Xi ∈ Bi , Xi+1 ∈ R, ..., Xk ∈ R)
= P(X (R × ... × R × Bi × R × ... × R) .
1 ,...,Xk )
Em contrapartida, as leis marginais não determinam, em geral, a lei do vector.
D
. As variáveis aleatórias reais X1 , ..., Xk dizem-se independentes se
P (X1 ∈ B1 , ..., Xk ∈ Bk ) = P (X1 ∈ B1 )...P (Xk ∈ Bk )
para quaisquer Bi ∈ B, i = 1, ..., k.
As transformações de variáveis aleatórias independentes conduzem, em geral, a variáveis aleatórias

independentes. De facto, se X1 , ..., Xk são variáveis aleatórias independentes e g1 , ..., gk são funções
reais tais que Yj = gj (Xj ), j = 1, ..., k, são também variáveis aleatórias, então Y1 , ..., Yk são indepen-
dentes. Em particular, o resultado é válido se as funções g1 , ..., gk são contínuas.
Vamos ilustrar o estudo dos vectores aleatórios detalhando o caso correspondente a k = 2.

Em vez da notação (X1 , X2 ) utilizaremos, no que se segue, (X, Y ) .
2. Função de repartição de um vector aleatório real bidimensional
D
. A função F(X,Y ) : R2 → R definida por
F(X,Y ) (x, y) = P(X,Y ) (]−∞, x] × ]−∞, y])

= P (X ≤ x, Y ≤ y)
diz-se função de repartição do vector aleatório (X, Y ) (9 ).

8
Ou lei de probabilidade conjunta das variáveis aleatórias reais X1 , ..., Xk .
9
Ou função de repartição conjunta das variáveis aleatórias X e Y .
38
Valem as seguintes propriedades:
• ∀ (x, y) ∈ R2 , F(X,Y ) (x, y) ∈ [0, 1] ;
• F(X,Y ) é não decrescente relativamente a cada variável;
• F(X,Y ) é contínua à direita relativamente a cada variável, isto é, com notações óbvias:

F(X,Y ) x+ , y = F(X,Y ) (x, y)

F(X,Y ) x, y + = F(X,Y ) (x, y) ;
• lim F(X,Y ) (x, y) = lim F(X,Y ) (x, y) = 0;

x→−∞ y→−∞
• lim lim F(X,Y ) (x, y) = 1.

x→+∞ y→+∞
Seja I o rectângulo de R2 dado por I = {(x, y) : x1 < x ≤ x2 , y1 < y ≤ y2 } , com x1 , x2 , y1 , y2

reais, x1 < x2 , y1 < y2 .
Sendo F(X,Y ) a função de repartição conjunta das variáveis aleatórias X e Y, tem-se
P [(X, Y ) ∈ I] = P (x1 < X ≤ x2 , y1 < Y ≤ y2 )

= F(X,Y ) (x2 , y2 ) − F(X,Y ) (x1 , y2 ) − F(X,Y ) (x2 , y1 ) + F(X,Y ) (x1 , y1 ) .
Conhecida a função de repartição de (X, Y ) , é possível obter as funções de repartição de X e de

Y , conhecidas por funções de repartição marginais. De facto, a função
FX (x) = P (X ≤ x) = P (X ≤ x, Y ∈ R)
= lim F(X,Y ) (x, y) , x ∈ R,
y→+∞
diz-se função de repartição da margem X.
39
Analogamente, a função de repartição da margem Y é a função real de variável real definida
por
∀y ∈ R, FY (y) = P (Y ≤ y) = lim F(X,Y ) (x, y) .
x→+∞
O conceito de variáveis aleatórias independentes pode exprimir-se em termos das funções de repar-
tição conjunta e marginais. De facto, tem-se
Propriedade 4. As variáveis aleatórias reais X e Y são independentes se e só se a função de repartição

conjunta é o produto das funções de repartição marginais, isto é,
∀ (x, y) ∈ R2 , F(X,Y ) (x, y) = FX (x) FY (y) .

Notemos que esta condição é equivalente a
P ({X ≤ x} ∩ {Y ≤ y}) = P (X ≤ x) P (Y ≤ y) ,
para quaisquer reais x e y, ou seja, X e Y são independentes se os acontecimentos {X ≤ x} e {Y ≤ y}

são independentes quaisquer que sejam os reais x e y.
3. Vectores aleatórios reais bidimensionais discretos
D
. Um vector aleatório (X, Y ) é discreto se existe um subconjunto de R2 ,

D = (x, y) ∈ R2 : P (X = x, Y = y) > 0 ,
finito ou infinito numerável, tal que P [(X, Y ) ∈ D] = 1.
O conjunto D denomina-se suporte da lei de probabilidade de (X, Y ).
D
. A função
g(X,Y ) (x, y) = P (X = x, Y = y) , (x, y) ∈ R2
diz-se função de probabilidade de (X, Y ) (10 ).
Esta função é tal que
(i) g(X,Y ) ≥ 0

(ii) g(X,Y ) (x, y) = 1.
(x,y)∈D
As funções de probabilidade das margens X e Y são dadas, respectivamente, por
gX (x) = P (X = x)
= P (X = x, Y ∈ R)

= g(X,Y ) (x, y) , x ∈ R
y∈R:(x,y)∈D
10
Ou função de probabilidade conjunta das variáveis aleatórias X e Y.
40
e
gY (y) = P (Y = y)
= P (X ∈ R, Y = y)

= g(X,Y ) (x, y) , y ∈ R.
x∈R:(x,y)∈D
Vemos, em concordância com uma observação já feita, que as funções de probabilidade marginais
podem determinar-se a partir da função de probabilidade conjunta. O inverso só é verdadeiro quando
as variáveis são independentes. De facto, temos o resultado seguinte (cuja prova se admite).
Propriedade. As variáveis aleatórias discretas X e Y são independentes se e só se
P (X = x, Y = y) = P (X = x) P (Y = y)
isto é, se e só se
g(X,Y ) (x, y) = gX (x) gY (y)
para todo (x, y) ∈ D.
4. Vectores aleatórios reais bidimensionais contínuos
D
. Uma função f(X,Y ) : R2 → R diz-se uma função densidade de probabilidade sobre
R2 se
(i) f(X,Y ) é não negativa;

+∞ +∞
(ii) −∞ −∞ f(X,Y ) (x, y) dxdy = 1.
E. Seja f : R2 → R a função definida por

2, x > 0, y > 0, x + y < 1
f (x, y) = .
0, caso contrário
Provemos que f é uma densidade sobre R2 .
Seja A = (x, y) ∈ R2 : x > 0, y > 0, x + y < 1 .
41
Como f (x, y) = 2 se (x, y) ∈ A e f (x, y) = 0 se (x, y) ∈ R2 \A, tem-se f ≥ 0. Por outro lado,
+∞ +∞ 1 1−x
f (x, y) dxdy = 2dy dx
−∞ −∞ 0 0
1 1
x2
= 2 [1 − x] dx = 2 x − = 1.
0 2 0
△
D
. Dizemos que um vector aleatório real bidimensional (X, Y ) é contínuo se existe uma
densidade de probabilidade sobre R2 , f(X,Y ) , tal que
x2 y2
P [x1 < X ≤ x2 , y1 < Y ≤ y2 ] = f(X,Y ) (u, v) dv du,
x1 y1
para todos os reais x1 , x2 , y1 , y2 com x1 < x2 e y1 < y2 .
A função f(X,Y ) diz-se função densidade de (X, Y ) (11 ).
A partir da função densidade conjunta podemos conhecer a função de repartição conjunta

pois, para quaisquer reais x e y,
x y
F(X,Y ) (x, y) = f(X,Y ) (u, v) dv du.
−∞ −∞
Inversamente, se f(X,Y ) for contínua no ponto (x, y) , podemos obtê-la a partir da função de repar-
tição conjunta, pois
∂ 2 F(X,Y ) (x, y)
f(X,Y ) (x, y) = .
∂x∂y
A função densidade da margem X é

+∞
fX (x) = f(X,Y ) (x, y) dy, x ∈ R
−∞
e a densidade da margem Y é
+∞
fY (y) = f(X,Y ) (x, y) dx, y ∈ R.
−∞
Notemos que, por exemplo, para qualquer x ∈ R,

FX (x) = lim F (x, y)
y→+∞ (X,Y )
x +∞
= f(X,Y ) (t, y) dy dt
−∞
x
−∞
= fX (t) dt.
−∞
Se as variáveis aleatórias reais contínuas X e Y são tais que

f(X,Y ) (x, y) = fX (x) fY (y) , (x, y) ∈ R2 ,
é fácil estabelecer que X e Y são independentes. A implicação inversa é também verdadeira.
11
Ou função densidade conjunta de X e Y.
42
5. Leis condicionais
O conceito de lei condicional é baseado no de probabilidade condicionada. Comecemos pelo caso

discreto.
A probabilidade de X = x condicionada pela realização do acontecimento Y = y, com y fixo em

SY (12 ), dada por
P (X = x, Y = y)
P (X = x|Y = y) = ,
P (Y = y)
define, para todo o real x tal que (x, y) ∈ D, a função de probabilidade de X condicionada por
Y = y , habitualmente representada por gX|Y =y ( ou apenas gX|Y , por simplicidade(13 )).
Assim (14 ),
g(X,Y ) (x, y)
gX|Y (x) = , x ∈ R.
gY (y)
Passemos agora ao caso em que o vector (X, Y ) é contínuo.

Seja y tal que fY (y) > 0. A função densidade de X condicionada por Y = y é
f(X,Y ) (x, y)
fX|Y (x) = , x ∈ R.
fY (y)
É claro que +∞
fX|Y (x) dx = 1.
−∞
Podemos também determinar a função de repartição de X condicionada por Y = y. No caso

contínuo, por exemplo, a função de repartição de X condicionada por Y = y é
x
FX|Y (x) = fX|Y (u) du, x ∈ R.
−∞
De modo análogo se define, quando o vector (X, Y ) é discreto, a função de probabilidade de

Y condicionada por X = x, com x fixo em SX , gY |X=x (ou apenas gY |X , por simplicidade)
g(X,Y ) (x, y)
gY |X (y) = , y ∈ R,
gX (x)
e, se o vector (X, Y ) é contínuo, a função densidade de Y condicionada por X = x, sendo x tal
que fX (x) > 0,
f(X,Y ) (x, y)
fY |X (y) = , y ∈ R.
fX (x)
Analogamente, a função de repartição de Y condicionada por X = x é, se o vector (X, Y )
é contínuo, y
FY |X (y) = fY |X (v) dv, y ∈ R.
−∞
12
Relembramos que SY = {y ∈ R : P (Y = y) > 0} .
13
Este procedimento será sistematicamente adoptado nesta apresentação.
14
Notemos que temos tantas funções deste tipo quantos os elementos de SY .
43
6. Momentos de um vector aleatório bidimensional
Seja (X, Y ) um vector aleatório bidimensional e Φ : R2 −→ R uma função tal que Φ (X, Y ) é
uma variável aleatória.
Define-se


 Φ (x, y) g(X,Y ) (x, y) , se (X, Y ) é discreto
 (x,y)∈D
E [Φ (X, Y )] = ,

 +∞ +∞ Φ (x, y) f

(x, y) dxdy, se (X, Y ) é contínuo
−∞ −∞ (X,Y )
desde que a série, ou o integral, seja absolutamente convergente.
Se Φ (X, Y ) = X s Y t com s e t inteiros não negativos, obtemos, sob a condição de existência, o

momento simples de (X, Y ) de ordem (s, t) :


 xs y t g(X,Y ) (x, y) , se (X, Y ) é discreto
s t  (x,y)∈D
ms,t = E X Y =

 +∞ +∞ xs y t f

(x, y) dxdy, se (X, Y ) é contínuo.
−∞ −∞ (X,Y )
Surgem, como casos particulares, a esperança matemática da margem X
m1,0 = E (X) = mX
e a esperança matemática da margem Y
m0,1 = E (Y ) = mY .
A esperança matemática do vector (X, Y ) é o vector E (X, Y ) = (E (X) , E (Y )) .
O momento centrado de (X, Y ) de ordem (s, t) é, sob a condição de existência,

µs,t = E (X − mX )s (Y − mY )t .
Em particular,
µ2,0 = V (X)
µ0,2 = V (Y ) .
O momento centrado de ordem (1, 1) ,
µ1,1 = E [(X − mX ) (Y − mY )] ,
é denominado covariância entre X e Y e denotado por Cov (X, Y ) .
Este momento dá-nos informação sobre o grau de ligação linear entre X e Y e sobre a dispersão
dos valores de (X, Y ) em torno de (E (X) , E (Y )) .
44
A matriz quadrada, de ordem 2,

V (X) Cov (X, Y )
Σ=
Cov (X, Y ) V (Y )
diz-se matriz de variâncias-covariâncias de (X, Y ) .
Como facilmente se verifica, tem-se
Cov (X, Y ) = E (XY ) − E (X) E (Y ) .
Da definição de E [Φ (X, Y )] concluímos também que
E (X + Y ) = E (X) + E (Y )
e se X e Y são variáveis aleatórias independentes então
E (XY ) = E (X) E (Y ) .
Consequentemente, se X e Y são variáveis aleatórias independentes, então Cov (X, Y ) = 0.
Quando Cov (X, Y ) = 0 dizemos que X e Y são não correlacionadas. Destaquemos que não
podemos concluir que elas são independentes.
A igualdade seguinte relaciona a variância da soma de variáveis aleatórias reais com a soma das
correspondentes variâncias e covariância:
V (X + Y ) = V (X) + V (Y ) + 2Cov (X, Y ) .
O resultado seguinte, cuja prova esboçamos, é conhecido por desigualdade de Cauchy-Schwartz:

Propriedade. [E (XY )]2 ≤ E X 2 E Y 2 .

Prova. Seja h(x) = E (xX − Y )2 = x2 E X 2 − 2xE (XY ) + E Y 2 , x ∈ R.
Como h(x) ≥ 0, a equação h(x) = 0 (do segundo grau em x) ou não tem solução ou tem só uma
solução (correspondente a uma raiz dupla); isto acontece quando

∆ = 4 [E (XY )]2 − 4E X 2 E Y 2 ≤ 0.
Quando V (X) > 0 e V (Y ) > 0, a desigualdade anterior leva à introdução do coeficiente de

correlação entre X e Y :
Cov (X, Y )
ρ= # .
V (X) V (Y )
Propriedade. −1 ≤ ρ ≤ 1.
Prova. Basta considerar, na propriedade anterior, X substituída por X − mX e Y substituída por
Y − mY .
Notemos que se X e Y são independentes então ρ = 0.
45
Quando ρ = ±1, existe uma relação linear entre X e Y , isto é, existem reais a e b tais que
Y = a + bX (B. Murteira, Vol. I, p. 188).
Os resultados seguintes são generalizações de alguns anteriormente referidos.
Propriedade 1. (Linearidade da esperança matemática) Sejam X1 , X2 , ..., Xn variáveis aleatórias

reais definidas sobre (Ω, A, P ) tais que E (Xk ) existe para k = 1, 2, ..., n. Sejam a0 , a1 , a2 , ..., an
n
números reais e consideremos Y = a0 + ak Xk .
k=1
Então E(Y ) existe e tem-se
n
n

E a0 + ak Xk = a0 + ak E (Xk ) .
k=1 k=1

Em particular, n
n

E Xk = E (Xk ) .
k=1 k=1
Há um resultado semelhante para o produto de variáveis aleatórias quando as variáveis interve-

nientes são independentes. Relembremos que as variáveis aleatórias X1 e X2 são independentes se e
só se, para quaisquer reais x1 , x2 ,
F(X1 ,X2 ) (x1 , x2 ) = FX1 (x1 ) FX2 (x2 ) .
Mais geralmente, as variáveis aleatórias X1 ,X2 , ..., Xn são independentes se e só se
F(X1 ,X2 ,...,Xn ) (x1 , x2 , ..., xn ) = FX1 (x1 ) FX2 (x2 ) ...FXn (xn ) ,
para quaisquer reais x1 , ..., xn.
Propriedade 2. Sejam X1 , X2 , ..., Xn variáveis aleatórias reais definidas sobre (Ω, A, P ) indepen-
dentes e tais que E (Xk ) existe para k = 1, 2, ..., n. Então
n n

E Xk = E (Xk ) .
k=1 k=1
Propriedade 3. Sejam X1 , X2 , ..., Xn variáveis aleatórias reais independentes definidas sobre (Ω, A, P )
e tais que V (Xk ) existe para k = 1, 2, ..., n. Sendo a0 , a1 , a2 , ..., an números reais tem-se
n
n

V a0 + ak Xk = a2k V (Xk ) .
k=1 k=1

Em particular, se as v.a.r. envolvidas são independentes

n n

V Xk = V (Xk )
k=1 k=1
e
V (X1 − X2 ) = V (X1 ) + V (X2 ) .
46
7. Esperança condicional
A noção de esperança matemática pode definir-se também em relação a leis condicionais.

Seja, então, Z = Φ (X, Y ) uma variável aleatória real.
D
.
a) Se (X, Y ) é discreto e x é tal que P (X = x) > 0, a esperança de Φ (X, Y ) condicionada por

X=xé
E [Φ (X, Y ) |X = x] = Φ (x, y) gY |X (y)
y:(x,y)∈D
desde que a série seja absolutamente convergente.
b) Se (X, Y ) é contínuo e x é tal que fX (x) > 0, a esperança de Φ (X, Y ) condicionada por
X=xé +∞
E [Φ (X, Y ) |X = x] = Φ (x, y) fY |X (y) dy
−∞
desde que o integral seja absolutamente convergente.
Em particular, a esperança de Y condicionada por X = x é

+∞
E (Y |X = x) = yfY |X (y) dy 15
−∞
no caso contínuo.
De modo semelhante se define a esperança de Φ (X, Y ) condicionada por Y = y, assim como

a esperança de X condicionada por Y = y que assume, no caso contínuo, a seguinte forma:
+∞
E (X|Y = y) = xfX|Y (x) dx.
−∞
A esperança condicionada surge explicitamente quando pretendemos aproximar Y por uma função
de X, digamos, Ψ (X) , minimizando
E [Y − Ψ (X)]2 .
Prova-se que esta esperança é mínima quando Ψ (x) = E (Y |X = x) .
Ao conjunto dos pontos de R2 de coordenadas (x, E (Y |X = x)) chamamos curva de regressão
de Y em X.
8. Exemplos
1. Seja (X, Y ) um vector aleatório real discreto de suporte contido em {1, 2, 3} × {0, 1, 2, 3} e cuja
função de probabilidade se encontra resumida no quadro seguinte.
y
x\ 0 1 2 3
1 0.1 0.2 0.1 0.1
2 0.1 0 0 0.1
3 0.1 0 0.2 0
15
Notemos que E (Y |X = x) funço de x.
47
As funções de probabilidade marginais de (X, Y ) são, respectivamente,

 0.5, x = 1 

  0.3, y ∈ {0, 2}
0.2, x = 2
gX (x) = e gY (y) = 0.2, y ∈ {1, 3}

 0.3, x = 3 
 0, y ∈ R\ {0, 1, 2, 3} .
0, x ∈ R\ {1, 2, 3}
Podemos afirmar que as variáveis aleatórias X e Y não são independentes porque, por exemplo,
P (X = 1, Y = 0) = 0.1 e P (X = 1) P (Y = 0) = 0.5 × 0.3 = 0.15.
Tem-se
E (X) = 1 × 0.5 + 2 × 0.2 + 3 × 0.3 = 1.8,
E (Y ) = 1.4,
E (XY ) = 0×1×0.1+1×1×0.2+2×1×0.1+3×1×0.1+0×2×0.1+3×2×0.1+0×3×0.1+2×3×0.2
= 2.5.
Consequentemente Cov (X, Y ) = 2.5 − (1.8) (1.4) = −0.02.
Se quisermos determinar a lei de Y dado X = 1, teremos de calcular

P (X = 1, Y = 0) 0.1
P (Y = 0|X = 1) = = = 0.2
P (X = 1) 0.5
0.2
P (Y = 1|X = 1) = = 0.4
0.5
0.1
P (Y = 2|X = 1) = = 0.2
0.5
0.1
P (Y = 3|X = 1) = = 0.2.
0.5
Então a função de probabilidade de Y condicionada por X = 1 é


 0.2, y ∈ {0, 2, 3}
gY |X=1 (y) = 0.4, y=1

0, y ∈ R\ {0, 1, 2, 3}
e a esperança de Y dado X = 1 vale
E (Y |X = 1) = 0 × 0.2 + 1 × 0.4 + 2 × 0.2 + 3 × 0.2 = 1.4.
Determinemos finalmente a curva de regressão de Y em X, isto é, o conjunto dos pontos de R2 de

coordenadas (x, E (Y |X = x)), para x ∈ SX .
Para x = 1, obtivemos já o ponto (1, 1.4). Procedendo analogamente para x = 2 vem

0.5, y ∈ {0, 3}
gY |X=2 (y) =
0, y ∈ R\ {0, 1, 2, 3} .
Como E (Y |X = 2) = 1.5, obtemos o ponto (2, 1.5). Para x = 3 vem E (Y |X = 3) = 43 .

A curva de regressão de Y em X é então constituída pelos três pontos (1, 1.4), (2, 1.5) e (3, 43 ).
2. Seja (X, Y ) um vector aleatório real com densidade

−(x+y)
e , x > 0, y > 0
f(X,Y ) (x, y) =
0, caso contrário.
48
A densidade de X é
+∞
0, se x < 0
fX (x) = f(X,Y ) (x, y)dy = +∞
−∞ 0 e−(x+y) dy, se x ≥ 0

0, se x < 0
= −x
e , se x ≥ 0.
Analogamente se obtém a densidade da margem Y

0, se y < 0
fY (y) =
e−y , se y ≥ 0.
Notemos que X e Y têm a mesma lei. Além disso, como
f(X,Y ) (x, y) = fX (x)fY (y), (x, y) ∈ R2 ,
podemos afirmar que as margens do vector são independentes.
Determinemos a função de repartição de (X, Y ) . Para (x, y) ∈ R2 , temos, pela independência,
F(X,Y ) (x, y) = P (X ≤ x, Y ≤ y)
= FX (x)FY (y)

 0, (x ≤ 0, y ≤ 0) ou (x ≤ 0, y > 0) ou
= (x > 0, y ≤ 0)
 x −u y −v
0 e du 0 e dv , x > 0, y > 0

 0, x ≤ 0 ou y ≤ 0
=

(1 − e−x ) (1 − e−y ) , x > 0, y > 0.
Calculemos agora E (XY ) , V (X) e V (Y ) .

+∞ +∞ +∞ +∞
E (XY ) = xyf(X,Y ) (x, y)dxdy = xye−(x+y) dxdy = 1.
−∞ −∞ 0 0
Finalmente,
+∞ +∞
2 2
E(X ) = x fX (x)dx = x2 e−x dx = 2
−∞ 0
pelo que, pela fórmula de Köenig,
V (X) = 2 − 1 = 1 = V (Y )
tendo em conta que X e Y têm a mesma lei.
49
50
Módulo 4 - Complementos sobre variáveis aleatórias
Apresentamos neste módulo os principais resultados relativos às leis de probabilidade sobre R mais
utilizadas.
1. Leis discretas
1.1 Lei de Bernoulli

Sejam Ω o espaço de resultados associado a uma experiência aleatória e A um acontecimento tal
que P (A) = p ∈ ]0, 1[ .
Consideremos X : Ω −→ R tal que
X (ω) = 1 se ω ∈ A
X (ω) = 0 se ω ∈ A.
Tem-se, então,
P (X = 1) = P (A) = p

P (X = 0) = P A = 1 − p.
Assim, X é uma v.a.r. discreta cuja lei de probabilidade é caracterizada pela função de probabili-
dade
gX : R −→ [0, 1] 

 p, se x = 1

x −
→ gX (x) = 1 − p, se x = 0


 0, se x ∈ R\ {0, 1} .
Dizemos que X segue a lei de Bernoulli de parâmetro p e escrevemos simbolicamente

X ∼ B (p) .
Tem-se
E (X) = p

V (X) = E X 2 − [E (X)]2 = p − p2 = p(1 − p).
1.2 Lei Binomial

Seja E uma experiência aleatória, Ω o espaço de resultados associado a E e A um acontecimento
de probabilidade p, p ∈ ]0, 1[ .
Consideremos agora a experiência aleatória E ′ que consiste em realizar E, n vezes, sempre nas
mesmas condições.
Seja X a variável aleatória real que representa o número de vezes que A ocorre nas n experiências.
Desta forma,
51
X (Ω′ ) = {0, 1, 2, ..., n} = SX
onde Ω′ denota o espaço de resultados associado a E ′ .

Para conhecer a lei de probabilidade de X temos de calcular P (X = k), k ∈ SX .
Neste sentido, seja Ai = “o acontecimento A ocorre na i−ésima repetição de E, i = 1, ..., n.

Note-se que:
• sendo B1 = A1 ∩ A2 ∩...∩Ak ∩ Ak+1 ∩...∩An tem-se B1 ⊂ {X = k} e

P (B1 ) = P A1 ∩ A2 ∩ ... ∩ Ak ∩ Ak+1 ∩ ... ∩ An = pk (1 − p)n−k ;
• sendo B2 = A1 ∩ A2 ∩...∩Ak+1 ∩ Ak+2 ∩...∩An tem-se B2 ⊂ {X = k} e P (B2 ) = pk (1 − p)n−k ;
... ... ...
• o número de “situações” favoráveis à realização de {X = k} é

n! n
= ,
k! (n − k)! k
tendo cada uma delas probabilidade de ocorrer igual a pk (1 − p)n−k .
Consequentemente tem-se

n k
P (X = k) = p (1 − p)n−k , k ∈ {0, 1, 2, ..., n} .
k
Notemos que P (X = k) > 0 e que

n
n
n k
P (X = k) = p (1 − p)n−k = (p + 1 − p)n = 1.
k
k=0 k=0
Assim, X é uma v.a.r. discreta cuja lei de probabilidade é caracterizada pela função de probabili-
dade
gX : R −→ [0, 1]
n x n−x
x p (1 − p) , se x ∈ {0, 1, ..., n}
x −→ gX (x) =
0, se x ∈ R\ {0, 1, ..., n} .
Dizemos que X segue a lei binomial de parâmetros n e p e escrevemos simbolicamente
X ∼ B (n, p) .
Tem-se E (X) = np e V (X) = np(1 − p).
52
Com efeito, por exemplo,
n

E (X) = kP (X = k)
k=0
n
n!
= k pk (1 − p)n−k
k! (n − k)!
k=1
n
(n − 1)!
= np pk−1 (1 − p)n−k
(k − 1)! (n − k)!
k=1
n − 1
n−1
= np pm (1 − p)n−1−m
m
m=0
= np (p + 1 − p)n−1 = np.
O .
• A lei B (1, p) coincide com a lei B (p) .
• Se X ∼ B (n, p) então Y = n − X ∼ B (n, 1 − p) .
• Se as v.a. reais X1 , X2 , ..., Xm são independentes e Xj segue a lei B (p) , j = 1, 2, ..., m, então
m

Xj ∼ B (m, p) .
j=1
E. Extracções com reposição

A lei Binomial é adequada para modelar situações que sejam comparáveis a tiragens com reposição.
De facto, suponhamos que dispomos de uma caixa que contém M bolas das quais B são amarelas.
Consideremos a experiência aleatória E que consiste em extrair uma bola da caixa e o acontecimento
A = “a bola é amarela”.
Interessa-nos o número de vezes que A ocorre em n realizações de E, quando há reposição após

cada extracção.
Como as n experiências são realizadas sempre nas mesmas condições e a probabilidade de A ocorrer
se mantém constante em cada extracção, podemos afirmar que a v.a.r.
X = "número de vezes que A ocorre em n realizações de E"

B
segue a lei B (n, p) , com p = P (A) = M.
△
Deparamo-nos frequentemente com situações comparáveis à que acaba de ser descrita no exemplo,
mas em que a hipótese de reposição não é sustentável. Nesses casos, a lei hipergeométrica, que veremos
de seguida, revela-se mais adequada.
53
1.3 Lei Hipergeométrica
Retomemos o exemplo anterior, em que dispomos de uma caixa contendo M bolas das quais B são
amarelas.
A experiência aleatória, E, consiste em extrair uma bola da caixa e o acontecimento de interesse
continua a ser A = “a bola é amarela”.
Interessa-nos agora o número de vezes que A ocorre em n realizações de E, quando não há reposição
após cada extracção.
É claro que as n experiências não são realizadas nas mesmas condições. A probabilidade de A
ocorrer varia de extracção para extracção.
Neste caso, sendo X a variável aleatória real que representa o número de vezes que A ocorre em n
realizações de E, tem-se
BM−B
k
P (X = k) = Mn−k
, max (0, n − (M − B)) ≤ k ≤ min (n, B) ,
n
uma vez que

• k ≤ n e k ≤ B ⇔ k ≤ min (n, B) ;
• n − k ≤ n e n − k ≤ M − B ⇔ k ≥ 0 e k ≥ n − (M − B)
⇔ k ≥ max (0, n − (M − B)) .
Prova-se que, sendo SX = {max (0, n − (M − B)) , ..., min (n, B)} , se tem P (X = k) > 0, k ∈ SX

e P (X = k) = 1.
k∈SX
Então X é uma v.a.r. discreta cuja lei de probabilidade é caracterizada pela seguinte função de
probabilidade
gX : R −→ [0, 1]
 BM−B


 k n−k
, se k ∈ SX
M
k −→ gX (k) = n



0, se k ∈ R\SX .
Dizemos que, no esquema de tiragens sem reposição, X segue uma lei hipergeométrica de
parâmetros n, M e B. Escrevemos, de modo abreviado,
X ∼ H (n, M, B) .
Propriedade. Seja p ∈ ]0, 1[ . Tem-se

B M−B
k n k
∀k, lim Mn−k
= p (1 − p)n−k .
M → +∞ n
k
B → +∞
B
M →p
54
n
B
Em termos práticos, se X ∼ H (n, M, B) e se M ≤ 0.1 então, sendo Y ∼ B n, M , valem as
aproximações
• P (X = k) ≃ P (Y = k)
• P (X ≤ x) ≃ P (Y ≤ x) , x ∈ R.
• B
Escrevemos, neste caso, X ∼ B n, M .
1.4 Lei de Poisson

Seja λ um número real positivo.
Dizemos que X segue a lei de Poisson de parâmetro λ, e escrevemos
X ∼ P (λ) , se X é uma v.a.r. discreta de função de probabilidade

k
e−λ λk! , k ∈ N0
gX (k) = P (X = k) =
0, k ∈ R\N0 .

+∞
+∞
λk
Note-se que P (X = k) > 0, k ∈ N0 , e que P (X = k) = e−λ k! = e−λ eλ = 1 .
k=0 k=0
Tem-se E (X) = λ e V (X) = λ .
Com efeito, por exemplo,

+∞

E (X) = kP (X = k)
k=0
+∞
λk
= ke−λ
k!
k=1
+∞
−λ λk−1
= e λ
(k − 1)!
k=1
+∞
λm
= e−λ λ
m=0
m!
= e−λ λeλ = λ .
A lei de Poisson encontra-se tabelada para alguns valores do parâmetro λ. As tabelas que uti-
lizaremos para esta lei apresentam os valores da correspondente função de repartição (Anexo C).
Propriedade. Seja λ > 0. Tem-se

n k λk
∀k, lim p (1 − p)n−k = e−λ .
n → +∞ k k!
p→0
np → λ
55
Em termos práticos, se X ∼ B (n, p) e se p ≤ 0.1 então, sendo Y ∼ P (np) , valem as aproximações
• P (X = k) ≃ P (Y = k)
• P (X ≤ x) ≃ P (Y ≤ x) , x ∈ R .
•
Escrevemos, nestas condições, X ∼ P (np) .
O .
1. P (λ) é conhecida por lei dos fenómenos raros.
2. Seja X ∼ B (n, p) , com p ≥ 0.9 . Então Z = n − X ∼ B (n, q) com q = 1 − p ≤ 0.1.

•
Portanto Z ∼ P (nq). Desta forma, por exemplo,
P (X ≤ x) = P (n − X ≥ n − x)
= P (Z ≥ n − x) , Z ∼ B (n, q) , q ≤ 0.1
≃ P (Y ≥ n − x) , Y ∼ P (nq)
= 1 − P (Y < n − x) .
2. Leis contínuas
2.1 Lei Uniforme

Sejam a, b reais, a < b. A função

 1
 , x ∈ [a, b]
f (x) = b−a

 0, x ∈ R\ [a, b]
é uma densidade de probabilidade sobre R.
Dizemos que X segue a lei uniforme no intervalo [a, b] , e escrevemos X ∼ U [a, b] , se X é uma
v.a.r. contínua de densidade f.
56
Neste caso tem-se
a+b (b − a)2
E (X) = , V (X) = .
2 12
Notemos que f é uma função simétrica em relação à recta x = a+b

2 . Dizemos, neste caso, que
a+b
X é uma variável simétrica de centro de simetria s = 2 (ou ainda que a lei uniforme é simétrica
relativamente a s = a+b
2 ).
2.2 Lei Exponencial

Seja λ ∈ ]0, +∞[ . A função
λ e−λ x , x>0
f (x) =
0, x≤0
Se X é uma v.a.r. contínua de densidade f, dizemos que X segue a lei exponencial de parâmetro
λ, e escrevemos simbolicamente X ∼ E (λ) .
Tem-se k!
E Xk = k , k ∈ N ,
λ
e, portanto,
1 1
E (X) = , V (X) = .
λ λ2
2.3 Lei normal ou Gaussiana

Sejam m ∈ R, σ ∈ ]0, +∞[ . A função
$ %
1 1 x−m 2
f (x) = √ exp − , x ∈ R,
σ 2π 2 σ
57
Dizemos que X segue a lei normal de parâmetros m e σ, e escrevemos simbolicamente
X ∼ N (m, σ) , se X é uma v.a.r. contínua de densidade f.
O .
1. Se X ∼ N (m, σ) tem-se E (X) = m e V (X) = σ2 .
2. Diz-se também que X é normalmente distribuída com parâmetros m e σ, ou que X é uma v.a.r.
gaussiana de parâmetros m e σ .
3. Como
∀x ∈ R+ , f (m + x) = f (m − x) ,
diz-se que X é uma v.a.r. simétrica, de centro de simetria m, ou que a lei normal é simétrica
em relação a m.
4. Um caso particular importante é aquele em que m = 0, σ = 1.
Temos então que U ∼ N (0, 1) se U é uma v.a.r. contínua de densidade

2
1 u
g (u) = √ exp − , u ∈ R.
2π 2
Portanto E (U ) = 0 e V (U ) = 1. Por esta razão é usual denominar a lei N (0, 1) por lei normal
centrada e reduzida (ou estandardizada).
Uma vez que g é uma função par, U é uma v.a.r. simétrica, de centro de simetria 0. Daí decorre
que:
• ∀x ∈ R, P (U ≤ −x) = P (U ≥ x) .
• ∀x ∈ R, FU (−x) = 1 − FU (x) , com FU a função de repartição de U.
• P (U ≤ 0) = P (U ≥ 0) = 12 .
Propriedade. Se X ∼ N (m, σ) , a, b ∈ R, a = 0, então Y = aX + b ∼ N (am + b, |a| σ) .
Sugere-se ao leitor a realização da prova deste resultado.
58
Como consequência vem
X −m
X ∼ N (m, σ) ⇐⇒ U = ∼ N (0, 1) .
σ
Propriedade. (Estabilidade da lei normal)
Seja b ∈ R. Sejam a1 , ..., an (n ≥ 1) constantes reais não nulas.

Sejam X1 , ..., Xn v.a. reais independentes tais que
∀i ∈ {1, ..., n} , Xi ∼ N (mi , σ i ) , com mi ∈ R, σi ∈ ]0, +∞[.
Então  ( 
n n ) n
)
Y =b+ ai Xi ∼ N b + ai mi , * a2i σ2i  .
i=1 i=1 i=1

Em particular, podemos concluir que
• Se X1 , ..., Xn são independentes e Xi ∼ N (mi , σi ) , mi ∈ R, σi ∈ ]0, +∞[ , i = 1, ..., n, então

 ( 
n n ) n
)
Xi ∼ N  mi , * σ 2i  ;
i=1 i=1 i=1
• Se X1 , ..., Xn são independentes e Xi ∼ N (m, σ) , m ∈ R, σ ∈ ]0, +∞[ , i = 1, ..., n, então

n
√
Xi ∼ N nm, σ n .
i=1
Teorema do limite central. Seja (Xn )n∈N uma sucessão de variáveis aleatórias reais indepen-
dentes, identicamente distribuídas, tais que existem m = E (Xn ) e σ 2 = V (Xn ) , n ∈ N, com σ2 > 0 .
Seja

n
Xi − nm
i=1
Un = √ , n∈N.
σ n
Tem-se
∀x ∈ R, lim P (Un ≤ x) = P (U ≤ x) , com U ∼ N (0, 1) .
n→+∞

Consequência prática. Sejam X1 , X2 , ..., Xn variáveis aleatórias reais independentes, seguindo a mesma
lei de média m = E (Xi ) e variância σ2 = V (Xi ) , i ∈ {1, 2, ..., n} , com σ2 > 0.
Nestas condições, se n > 30 tem-se
n
• √
Xi ∼ N nm, σ n .
i=1
No caso de as v.a.r. X1 , X2 , ..., Xn verificarem ainda
59
• são v.a.r. que assumem valores inteiros e
• tais que o módulo da diferença entre dois valores consecutivos do suporte é igual a 1
então a aproximação acima referida pode ser melhorada fazendo a correcção de continuidade, isto
é,
n
• √
Xi ∼ N nm, σ n , com correcção de continuidade.
i=1

n √
Concretamente, sendo Y = Xi e Z ∼ N (nm, σ n) , a correcção de continuidade consiste em
i=1
considerar, para a e b pontos do suporte de Y , com a ≤ b,
P (a ≤ Y ≤ b) ≃ P (a − 0.5 ≤ Z ≤ b + 0.5) .
2.4 Lei do Qui-quadrado

A variável aleatória real X segue a lei do qui-quadrado com k graus de liberdade, k ∈ N, de
modo abreviado X ∼ χ2k , se X é contínua de densidade

 1 k x

 k
x 2 −1 e− 2 , x > 0
∀x ∈ R, f(x) = 2 2 Γ(k/2) ,


 0, x≤0
+∞
onde Γ(u) = 0 e−v vu−1 dv, u > 0.
Propriedades.
• Se X ∼ χ2k tem-se E(X) = k e V (X) = 2k.
• Se U ∼ N (0, 1) então U 2 ∼ χ21 .
• Se U1 , . . . , Uk são v.a.r. independentes tais que Ui ∼ N (0, 1) , i = 1, ..., k, então

k

Y = Ui2 ∼ χ2k .
i=1
√ √ •
• Se X ∼ χ2k , com k > 30, então 2X − 2k − 1 ∼ N (0, 1) .
60
2.5 Lei de Student
A variável aleatória real X segue a lei de Student com k graus de liberdade, k ∈ N, de modo
abreviado X ∼ Tk , se X é contínua de densidade
− k+1
1 Γ( k+1
2 ) x2 2
f(x) = √ k
1+ , x ∈ R.
k π Γ( 2 ) k
Propriedades.
• Se X ∼ Tk então
k
E(X) = 0, se k > 1, V (X) = , se k > 2.
k−2
• Se U e Y são v.a.r. independentes e tais que U ∼ N (0, 1) e Y ∼ χ2k , então
U
# ∼ Tk .
Y
k
•
• Se X ∼ Tk , com k > 30, então X ∼ N (0, 1) .
3. Aplicações do teorema do limite central
Nesta secção veremos como o teorema do limite central vai permitir aproximar pela lei normal
certas leis Binomiais ou de Poisson.
3.1 Aplicação à lei Binomial

Sejam X1 , X2 , ..., Xn variáveis aleatórias reais independentes tais que Xi segue a lei de Bernoulli
de parâmetro p:
Xi ∼ B(p), i = 1, ..., n, com p ∈ ]0, 1[ .
Nestas condições, sabemos que E (Xi ) = p e V (Xi ) = p (1 − p) , i = 1, ..., n.
Então, se n é grande, pelo teorema do limite central temos
n
"
•
Xi ∼ N np, np (1 − p) .
i=1
Notemos que a correcção de continuidade permite melhorar tal aproximação.
61
Por outro lado
n

Xi ∼ B(n, p).
i=1
Tendo em conta estes dois

factos tem-se que, se uma variável aleatória Y ∼ B(n, p) e n é grande,
• "
então Y ∼ N np, np (1 − p) com correcção de continuidade.
Do exposto vemos que esta aproximação é válida para qualquer valor de p. Mas se p ≤ 0.1 (ou
p ≥ 0.9) já conhecemos a aproximação da lei Binomial pela lei de Poisson. Deverá ser esta a utilizada
nestes casos pois produz melhores resultados.
Quando 0.1 < p < 0.9 constata-se que a aproximação já é satisfatória para n > 10.
"
•
Em resumo, se Y ∼ B(n, p), com n > 10 e 0.1 < p < 0.9, então Y ∼ N np, np (1 − p) com
correcção de continuidade.
3.2 Aplicação à lei de Poisson

Sejam X1 , X2 , ..., Xn variáveis aleatórias reais independentes tais que Xi segue a lei de Poisson de
parâmetro λ:
Xi ∼ P(λ), i = 1, ...n, com λ > 0.
Nestas condições, sabemos que E (Xi ) = λ e V (Xi ) = λ, i = 1, ..., n.
Então, se n é grande, temos pelo teorema do limite central que
n
√
•
Xi ∼ N nλ, nλ .
i=1
O suporte das variáveis Xi é N0 , pelo que a correcção de continuidade permite melhorar tal
aproximação.
Por outro lado
n
Xi ∼ P(nλ).
i=1
√
•
Tendo em conta estes dois factos tem-se que, se Y ∼ P(nλ) e n é grande, então Y ∼ N nλ, nλ
com correcção de continuidade.
A aproximação é satisfatória se o parâmetro da lei de Poisson é superior a 18.
√
•
Em resumo, se Y ∼ P(θ), θ > 18, então Y ∼ N θ, θ com correcção de continuidade.
O . Resumimos, em seguida, algumas das relações entre as diversas leis focadas neste
módulo.
1. Se X ∼ B(n, p) então Y = n − X ∼ B(n, 1 − p).
B •
2. Se X ∼ H(n, M, B) e n ≤ 0.1M então X ∼ B(n, M ).
•
3. Se X ∼ B(n, p) e p ≤ 0.1 então X ∼ P (np).
62
• "
4. Se X ∼ B(n, p), n > 10 e 0.1 < p < 0.9 então X ∼ N(np, np(1 − p))
• √
5. Se X ∼ P (λ) e λ > 18 então X ∼ N(λ, λ) com correcção de continuidade.
•
6. Se X ∼ T (k) e k > 30 então X ∼ N(0, 1).
√ √ •
7. Se X ∼ χ2 (k) e k > 30 então 2X − 2k − 1 ∼ N(0, 1).
63
64
Módulo 5 - Elementos de Estimação Paramétrica
1. Preliminares
O objecto principal da Estatística é a população, isto é, um conjunto numeroso de elementos com

uma característica em comum.
Esta característica está associada a um fenómeno aleatório, ou seja, não é conhecida de modo
determinista sobre os elementos da população.
Além disso, as características com interesse em termos estatísticos são de natureza numérica e,
como temos vindo a fazer desde há algum tempo, podem ser interpretadas como variáveis aleatórias
reais.
Assim, modelamos o comportamento aleatório da característica numérica de interesse por meio de
uma lei de probabilidade (que, por exemplo, pode ser discreta ou contínua).
A impossibilidade de conhecer o valor da característica sobre todos os elementos da população leva-
-nos a estudá-la sobre um seu subconjunto, escolhido convenientemente, a que chamamos amostra.
Apresentamos, no que se segue, procedimentos estatísticos que permitem, a partir do conhecimento
da amostra, extrair conclusões para a população. Tais procedimentos são geralmente acompanhados
por uma medida da credibilidade (ou do erro) da validade da conclusão na população.
Identificamos a população com a característica em estudo, isto é, abstraímos dos outros aspectos
da população concentrando-nos apenas na característica de interesse.
Seja então X uma população (variável aleatória real).
Há fundamentalmente duas abordagens para enquadrar o estudo apresentado:
• a abordagem não-paramétrica, em que não é feita qualquer hipótese de trabalho sobre a lei de
X, usando-se apenas o facto de tal lei ser discreta ou contínua.
• a abordagem paramétrica em que, para além de sabermos se X é discreta ou contínua, se supõe
que conhecemos parcialmente a sua lei, ou seja, supomos que a lei de X tem uma função de pro-
babilidade (ou densidade) cuja forma é conhecida mas na qual intervém um parâmetro θ, θ ∈ Θ,
que é desconhecido. Neste contexto, o objectivo fundamental é obter conclusões sobre o valor deste
parâmetro pois conhecê-lo permite conhecer completamente a lei de X.
Concentrar-nos-emos fundamentalmente em procedimentos estatísticos paramétricos.
Assim, supomos que a lei da população, X, depende de um parâmetro real θ desconhecido,
θ ∈ Θ ⊂ R.
Embora as conclusões sobre a população em estudo (e, em particular, sobre θ) dependam da
amostra que se observa, (x1 , ..., xn ) , já os procedimentos estatísticos em que se baseiam tais conclusões
não devem depender de uma amostra particular. Surge, assim, a necessidade de introduzir a seguinte
noção.
D
. (X1 , ..., Xn ) é uma amostra aleatória de X de dimensão n, n ∈ N, se X1 , ..., Xn são
independentes e seguem a mesma lei de X.
2. Estimação pontual
2.1 Estimadores cêntricos. Estimadores consistentes.

Seja (X1 , ... , Xn ) uma amostra aleatória de uma variável aleatória real X cuja lei de probabilidade
depende de um parâmetro real desconhecido θ , θ ∈ Θ ⊂ R .
65
D
.
a) Estimador do parâmetro θ é toda a variável aleatória real Tn que é função de X1 , ..., Xn (mas
não de θ), isto é,
Tn = T (X1 , ..., Xn )
com T : Rn −→ Θ.
b) Estimativa de θ é qualquer valor particular de Tn , isto é,
tn = T (x1 , ..., xn ) .
E. Suponhamos que X segue uma lei de Poisson de parâmetro λ, com λ positivo e desco-
nhecido.
O parâmetro λ varia portanto em ]0, +∞[ pelo que Θ = ]0, +∞[ .

n
n
Um estimador possível para λ é Tn = n1 Xi . Outros exemplos são n1 Xi2 e 2X1 + nXn .
i=1 i=1
1 1 2
n n
As estimativas correspondentes são tn = n xi , n xi e 2x1 + nxn .
i=1 i=1
1
n
Notemos, por outro lado, que n (Xi − λ) não é um estimador de λ.
i=1
△
O exemplo anterior permite mostrar, de modo claro, que para um mesmo parâmetro é possível
propôr variados estimadores.
Coloca-se naturalmente a questão de qual deles escolher. Como pretendemos que o estimador nos
forneça boas estimativas do parâmetro desconhecido, e sendo ele uma variável aleatória, os critérios
para a escolha de um estimador baseiam-se nas propriedades da sua lei de probabilidade. Limi-
tar-nos-emos ao estudo dos estimadores cêntricos, ou assintoticamente cêntricos, e consistentes.
Seja Tn um estimador do parâmetro θ.
D
.
a) Se E (Tn ) = θ, para todo o θ ∈ Θ, dizemos que Tn é um estimador cêntrico de θ.
b) Se lim E (Tn ) = θ, para todo o θ ∈ Θ, dizemos que Tn é um estimador assintoticamente

n→+∞
cêntrico de θ.
D
. Tn diz-se consistente para o parâmetro θ se
∀ε > 0, lim P (|Tn − θ| < ε) = 1.

n→+∞
Propriedade. (Critérios de consistência)

Seja Tn um estimador do parâmetro θ tal que E (Tn ) e V (Tn ) existem, para todo o θ ∈ Θ.
a) Se ∀θ ∈ Θ, E (Tn ) = θ e lim V (Tn ) = 0, então Tn é consistente para o parâmetro θ .

n→+∞
b) Se ∀θ ∈ Θ, lim E (Tn ) = θ e lim V (Tn ) = 0, então Tn é consistente para o parâmetro θ.

n→+∞ n→+∞
66
Sendo a lei de X dependente de θ, E(X) e V (X) (caso existam) também dependem, em geral,
de θ . Vejamos então como estimar, de modo adequado, estas funções de θ a partir de uma amostra
aleatória (X1 , ..., Xn ) de X.
2.2 Aplicações
Seja X uma população (variável aleatória real) cuja lei depende de um parâmetro real θ desco-
nhecido, θ ∈ Θ ⊂ R.
Supomos que E(X) e V (X) existem, para qualquer valor de θ, e são desconhecidas tendo-se
E(X) = g1 (θ) e V (X) = g2 (θ) .
1. Média empírica
Consideremos a variável aleatória real

n
1
Xn = Xi ,
n
i=1
denominada média empírica.
Propriedade. X n é um estimador cêntrico e consistente de E(X).

Prova. E X n existe porque E (Xi ) existe, i = 1, ..., n, e pela linearidade da esperança matemática
vem
n
1 n n
E X n = E n Xi = n1 E (Xi ) = n1 E (X) = E (X) .
i=1 i=1 i=1
Assim, X n é um estimador cêntrico de E(X).
Por outro lado, tendo em conta a independência de X1 , ..., Xn , tem-se

n
1
2
n n
V (X)
V X n = V n Xi = n1 V (Xi ) = n12 V (X) = n .
i=1 i=1 i=1

Assim, como lim V X n = 0 e E X n = E(X), concluímos que X n é um estimador consistente
n→+∞
de E(X).

1
n
Uma concretização de X n , isto é, xn = n xi , é uma estimativa de E(X) que, por X n gozar das
i=1
propriedades acima referidas, se diz uma estimativa cêntrica e consistente de E(X).
O . Quando n for conhecido, poderemos omitir o índice de X n (resp., xn ) escrevendo apenas
X (resp., x).
67
2. Variância empírica
Consideremos a variável aleatória real

n
1 2
Sn2 = Xi − X n ,
n
i=1
denominada variância empírica.
Outra forma frequentemente usada para a variância empírica é

n
1 2 2
Sn2 = Xi − X n ,
n
i=1
uma vez que
1 2
n n
1 2 2
Xi − X n = Xi + X n − 2Xi X n
n n
i=1 i=1
n
n
1 2 2 1
= X + X n − 2X n Xi
n i=1 i n i=1
n
1 2 2
= Xi − X n .
n
i=1
Propriedade. Sn2 é um estimador assintoticamente cêntrico e consistente de V (X) .(16 )
Prova. Vamos apenas verificar que Sn2 é um estimador assintoticamente cêntrico de V (X).
n
1 2

2
E Sn2 = E Xi − E X n
n
i=1
2
= E X2 − V Xn + E Xn

2 V (X) 2
= V (X) + m − +m
n

n−1
= V (X) .
n

Como lim E Sn2 = lim V (X) n−1
n = V (X), concluímos que Sn2 é um estimador assintoti-
n→+∞ n→+∞
camente cêntrico de V (X).

É possível construir, a partir de Sn2 , um estimador cêntrico de V (X). De facto, basta considerar
n
S-n2 = S2 ,
n−1 n
denominada variância empírica corrigida.
n

16
Quando E(X) = m é conhecida, é usual utilizar Tn = 1
n
(Xi − m)2 como estimador de V (X) o qual é cêntrico e
i=1
consistente.
68
Propriedade. S-n2 é um estimador cêntrico e consistente de V (X).

n
1
Portanto, s2n = (xi − xn )2 é uma estimativa assintoticamente cêntrica e consistente de V (X)
n
i=1
n 2
e s-2n = n−1 sn é uma estimativa cêntrica e consistente de V (X).
O . Tal como no caso anterior, quando n for conhecido escreveremos apenas S 2 (resp.,
S-2 , s2 , s-2 ) em vez de Sn2 (resp., S-n2 , s2n , s-2n ).
E. A fábrica A possui uma máquina que enche determinado tipo de garrafas com refrigerante
gaseificado. A altura de vazio de cada garrafa cheia (em centímetros), i.e., a altura da parte da garrafa
que fica sem líquido, é uma variável aleatória real de função densidade

 2
 3x , 0≤x<θ
3
fθ (x) = θ ,

 0, x<0 ∨ x≥θ
onde θ é um parâmetro real positivo desconhecido. Nestas condições, tem-se E(X) = 34 θ e

3 2
V (X) = 80 θ .
Seleccionaram-se aleatoriamente 50 garrafas e registou-se a altura de vazio de cada uma delas. Os
valores obtidos são apresentados no quadro seguinte.
Altura de vazio (cm) ]1,2] ]2,3] ]3,4] ]4,5]
Número de garrafas 3 8 15 24
Pretendemos determinar estimativas cêntricas e consistentes da média e variância da altura de
vazio de uma garrafa.
Ora, uma estimativa cêntrica e consistente de E(X) é x e uma estimativa cêntrica e consistente de
n
V (X) é s-2 = s2 , com n = 50.
n−1
As observações estão distribuídas por 4 classes. Consideremos o quadro estatístico seguinte no
′ ′
qual temos de introduzir a variável das marcas X . Relembremos que a marca da classe i, xi , é o ponto
médio da classe i, i = 1, ..., 4.
′ ′
′ 2
Classes ni xi ni xi ni xi
]1, 2] 3 1.5 4.5 6.75
]2, 3] 8 2.5 20.0 50
]3, 4] 15 3.5 52.5 183.75
]4, 5] 24 4.5 108.0 486
Total 50 185 726.5
Então, consideramos
4
1 ′ 185
x = x′ = ni xi = = 3.7
50 50
i=1
e
1 ′ 2 ′ 2
4
726.5
2
s = s2X ′ = ni xi − x = − (3.7)2 = 0.84
50 50
i=1
′
onde x′ e s2X ′ representam, respectivamente, a média e a variância da variável das marcas X .
69
Finalmente
50 2 50
s-2 = s = 0.84 = 0.857.
49 49
4
Pode ainda verificar-se que X é um estimador cêntrico e consistente de θ. Então, uma estimativa
3
4
cêntrica e consistente de θ é x = 4.93 .
3
△
O . Estimativa de uma proporção
Seja A um acontecimento associado a uma experiência aleatória, de probabilidade P (A) = p

desconhecida, p ∈ ]0, 1[.
Consideremos a variável aleatória

1, se A ocorre
Y =
0, se A não ocorre.
Esta variável segue a lei de Bernoulli de parâmetro p, Y ∼ B (p) , e, em particular, tem-se

E (Y ) = p.
n
Então Y n = n1 Yi é um estimador cêntrico e consistente de p, onde (Y1 , Y2 , ...Yn ) é uma amostra
i=1
aleatória de Y .
Assim, o problema da determinação de uma estimativa de uma proporção p pode ser encarado
como um caso particular do abordado para a média empírica, introduzindo a variável de Bernoulli
adequada.
2.3 Método dos momentos

Seja (X1 , X2 , ..., Xn ) uma amostra aleatória de uma variável aleatória real, X, cuja lei de proba-
bilidade depende de um parâmetro θ real desconhecido.
O primeiro método geral de construção de estimadores foi proposto por Karl Pearson, em 1894, e
é conhecido por método dos momentos.
Posteriormente surgiram outros métodos, igualmente interessantes, permitindo obter, sob condições
diversas, estimadores para o parâmetro θ, ou funções deste, com boas propriedades. Alguns deles
(máxima verosimilhança, proposto por Fisher, mínimos quadrados, Bayes, χ2 mínimo) encontram-se
descritos em Mood, Graybill et al (1974), por exemplo.
Devido à sua forte componente intuitiva, limitamo-nos à apresentação do método dos momentos.
A utilização deste método pressupõe a existência de todos os momentos de X até uma certa ordem
r, isto é,
∃ r ∈ N : E (X r ) existe.
Assim, existem m1 = E(X), m2 = E(X 2 ), ..., mr = E(X r ).
Consideremos ainda que o parâmetro desconhecido θ é uma função de m1 , m2 , ..., mr , isto é,
θ = Ψ (m1 , m2 , ..., mr )
onde Ψ é uma função, Ψ : Rr −→ R.

O método dos momentos consiste em propôr como estimador de θ a mesma função Ψ calculada
nos momentos empíricos, ou seja,
Tn = Ψ (M1 , M2 , ..., Mr )
70
n
1 k
com Mk = Mk,n = n Xi o momento empírico de ordem k, k = 1, 2, ..., r.
i=1
Prova-se que se a aplicação Ψ é contínua, o estimador Tn é consistente para estimar

θ = Ψ (m1 , m2 , ..., mr ) .
Apesar de nesta apresentação do método dos momentos nos termos limitado à estimação do
parâmetro desconhecido de uma lei de probabilidade, facilmente reconhecemos que ele pode ser adap-
tado a situações mais gerais como sejam:
- a estimação de parâmetros generalizados (ou seja, de funções de θ),
- a estimação de vários parâmetros (se a lei de X depender de vários parâmetros desconhecidos).
E. Seja X uma variável aleatória real seguindo a lei Gaussiana de média m, desconhecida, e
desvio padrão 1. Pretendemos estimar o 3o quartil de X, isto é, o real β tal que
3 3
FX (β) = ⇔ P (X ≤ β) =
4 4
3
⇔ P (U ≤ β − m) = , U ∼ N(0, 1)
4
⇔ β − m = FU−1 (0.75)
⇔ β = m + 0.68.
Assim, β = Ψ (m1 ) . Um estimador para β construído pelo método dos momentos, claramente
consistente, é
Tn = Ψ (M1 )
= M1 + 0.68
= X + 0.68.
3. Estimação intervalar
3.1 Introdução
Seja X uma variável aleatória real cuja lei depende de um parâmetro real θ desconhecido, θ ∈ Θ.
Questionamo-nos sobre o verdadeiro valor do parâmetro θ.
Já vimos como podemos obter, a partir de uma amostra, valores reais, tn que nos dão uma boa
informação, de acordo com certos critérios, sobre o verdadeiro valor de θ. A tn chamamos estimativa
de θ e, se necessário, é este valor que propomos para θ.
Mas, é claro que ao considerarmos θ como sendo tn poderemos estar a cometer um erro. Como
poderemos avaliar esse erro? Ou, por outras palavras, como avaliar a confiança que atribuímos ao
valor que pretendemos propor para θ?
Vamos introduzir um procedimento para avaliar tal confiança. Concretamente, vamos construir
intervalos de confiança pelo método da variável fulcral.
71
3.2 Intervalos de confiança. Método da variável fulcral
Seja (X1 , ..., Xn ) uma amostra aleatória de X.
Sejam T1,n = T1 (X1 , ..., Xn ) e T2,n = T2 (X1 , ..., Xn ) duas funções da amostra aleatória que não
dependem de θ e tais que
• T1,n < T2,n
• ∀θ ∈ Θ, P (T1,n < θ < T2,n ) = β.
A probabilidade β é denominada grau de confiança.
Observada uma amostra, (x1 , ..., xn ), consideremos os valores correspondentes de T1,n e T2,n , isto
é, t1,n = T1 (x1 , ..., xn ) e t2,n = T2 (x1 , ..., xn ) .
O intervalo com estes extremos, ]t1,n , t2,n [ , é um intervalo real denominado intervalo de confi-
ança para θ ao grau de confiança β.
O valor de β é, quando fixado pelo utilizador e pelo próprio sentido de confiança, um valor elevado.
Valores frequentemente utilizados são, como veremos, 0.99, 0.95, ...
Assim, o intervalo de confiança é a concretização do intervalo aleatório ]T1,n , T2,n [ uma vez obser-
vada a amostra. Vemos, pois, que é determinante obter os extremos do intervalo aleatório, isto é, T1,n
e T2,n . Antes de apresentar o conceito de variável fulcral, que nos permitirá em muitos casos obter
estes extremos, vejamos como podemos interpretar um intervalo de confiança.
Comecemos por precisar que não podemos afirmar que θ ∈ ]t1,n , t2,n [ com probabilidade β (de
facto, tal probabilidade ou é 0 ou é 1).
Em contrapartida, como P (T1,n < θ < T2,n ) = β, se utilizarmos a definição frequencista de pro-
babilidade (17 ) poderemos dizer que, se da população X extrairmos k amostras conduzindo a k par-
ticularizações de ]T1,n , T2,n [ e se k é grande, então
kA
β≃
k
onde kA é o número de tais intervalos a que θ pertence.
Portanto, β é a proporção de intervalos, entre aqueles k, a que θ pertence.
D
. Seja Zn = Z (X1 , ..., Xn , θ) uma variável aleatória real que é função da amostra aleatória
(X1 , ..., Xn ) e de θ. Se a lei de Zn não depende de θ, dizemos que Zn é uma variável fulcral.
Como vemos, Zn não é um estimador de θ. Mas uma variável fulcral para um parâmetro é fre-
quentemente obtida à custa de um estimador do parâmetro.
O exemplo seguinte ilustra o conceito de variável fulcral bem como o facto de não ser única.
E. Seja X ∼ N(m, 1), com m ∈ R desconhecida.

Como a população de base é gaussiana podemos, pela estabilidade da lei normal, indicar a lei

n
exacta da média empírica, X n = n1 Xi . De facto,
i=1
1
X n ∼ N(m, √ ).
n
Podemos concluir, de imediato, que X n não é variável fulcral.

17
Seja A um acontecimento associado a uma experiência aleatória. Repetimos a experiência k vezes (k suficientemente
grande). Seja kA = no de vezes que A ocorre nas k experiências.
Então P (A) ≃ kkA .
72
Em contrapartida, X n − m ∼ N(0, √1n ) pelo que a lei de X n − m não depende de m.
X n −m
Analogamente, √1
∼ N(0, 1).
n
X n −m
Vemos pois que, neste contexto, X n − m e √1
são variáveis fulcrais.
n
△
Esbocemos agora o método de construir um intervalo de confiança através de uma variável fulcral.
Seja então Zn uma variável fulcral. Como a sua lei não depende de θ, existem reais z1 e z2 , z1 < z2
tais que
∀θ ∈ Θ, P (z1 < Zn < z2 ) = β,
com β arbitrariamente fixo em ]0, 1[, não dependente de θ.
O par (z1 , z2 ) não é único pelo que exigimos, adicionalmente, que
P (Zn ≤ z1 ) = P (Zn ≥ z2 ) .
Se fôr possível estabelecer, para todo θ ∈ Θ, uma equivalência da forma
z1 < Zn < z2 ⇐⇒ T1 (X1 , ..., Xn ) < θ < T2 (X1 , ..., Xn ) ,
teremos um procedimento para construir intervalos de confiança para θ.
O .
1. Notemos que sempre que a lei de Zn é simétrica relativamente à origem, decorre da igualdade
P (Zn ≤ z1 ) = P (Zn ≥ z2 ) que z1 = −z2 , z2 > 0.
2. Se a lei de Zn é discreta, a condição P (z1 < Zn < z2 ) = β pode não ter solução, pelo que é
substituída por
P (z1 < Zn < z2 ) ≥ β.
3. O método pode ser adaptado à determinação de intervalos de confiança para um parâmetro

generalizado, Ψ (θ) . Basta que seja possível estabelecer uma equivalência da forma
′ ′
z1 < Zn < z2 ⇐⇒ T1 (X1 , ..., Xn ) < Ψ (θ) < T2 (X1 , ..., Xn ) .
′ ′
4. Pode acontecer que se conheça Zn = Z (X1 , ..., Xn , θ) para a qual seja possível estabelecer uma
equivalência da forma indicada
′
z1 < Zn < z2 ⇐⇒ T1,n < θ < T2,n ,
mas cuja lei se desconhece.

Neste caso não é possível encontrar (z1 , z2 ) verificando as condições atrás referidas.
′
No entanto, se conhecermos uma aproximação, τ , da lei de Zn que não dependa de θ, poderemos
ainda construir um intervalo de confiança aproximado. Concretamente, determinamos z1 , z2 ∈ R tais
que z1 < z2 e
∀θ ∈ Θ, P (z1 < Y < z2 ) = β, Y ∼ τ ,
exigindo, também, que
∀θ ∈ Θ, P (Y ≤ z1 ) = P (Y ≥ z2 ).
73
′
Nestes casos, o grau de confiança dos intervalos obtidos é apenas aproximadamente igual a β e Zn
diz-se variável assintoticamente fulcral.
E. Seja X uma população (qualquer) de média m desconhecida e desvio padrão σ = 1.

′ X −m
Consideremos Zn = 1 .
√
n
Temos,
′ z2 z1
∀m ∈ R, ∀z1 , z2 ∈ R, z1 < z2 : z1 < Zn < z2 ⇐⇒ X − √ < m < X − √ .
n n
′
Não conhecemos
′
′de Zn pelo que
a lei
′
não
conseguimos encontrar z1 e z2 tais que
P z1 < Zn < z2 = β e P Zn ≤ z1 = P Zn ≥ z2 .
Mas, se n ≥ 30 sabemos, pelo teorema do limite central, que
′ •
Zn ∼ N (0, 1).
Assim, podemos escrever

′

∀m ∈ R, P z1 < Zn < z2 ≃ P (z1 < U < z2 ) , U ∼ N (0, 1).
Procuramos então z1 e z2 tais que

P (z1 < U < z2 ) = β
P (U ≤ z1 ) = P (U ≥ z2 )
obtendo, em particular, z1 =
−z2 . ′
Teremos, finalmente, P −z2 < Zn < z2 ≃ β e, consequentemente,

z2 z2
P m ∈ X − √ ,X + √ ≃ β.
n n
Os intervalos reais obtidos por particularização do intervalo aleatório dizem-se também intervalos
de confiança de grau de confiança β.
△
5. O método da variável fulcral pode sistematizar-se em quatro etapas, que apresentamos em

seguida. As observações anteriores estão também incluídas neste resumo.
74
I C
θ (resp., Ψ(θ)), θ ∈ Θ ⊂ R
Método da variável fulcral
(A) Escolher
• o grau de confiança, β (β ∈ ]0, 1[)
• uma variável fulcral adequada, Zn
•
∗ Zn = Z (X1 , ..., Xn , θ) e tal que a lei de Zn é independente de θ ou Zn ∼ τ , com τ uma lei de
probabilidade independente de θ.
(B) Determinar z1 , z2 ∈ R tais que z1 < z2 e
∀θ ∈ Θ, P (z1 < Zn < z2 ) = β

( ≥ β, se a lei de Zn é discreta)
Exigir, ainda, que
∀θ ∈ Θ, P (Zn ≤ z1 ) = P (Zn ≥ z2 ).
•
∗ Se Zn ∼ τ , substituir o problema anterior pela determinação de z1 , z2 ∈ R tais que z1 < z2 e
∀θ ∈ Θ, P (z1 < Y < z2 ) = β, Y ∼ τ ,

exigindo, também, que
∀θ ∈ Θ, P (Y ≤ z1 ) = P (Y ≥ z2 ) .
∗ Se a lei de Zn (ou de Y ) é simétrica em relação à origem, tem-se z1 = − z2 , com z2 > 0.
(C) Encontrar T1,n = T1 (X1 , ..., Xn ) e T2,n = T2 (X1 , ..., Xn ) tais que, para todo θ ∈ Θ, verifiquem
z1 < Zn < z2 ⇔ T1,n < θ < T2,n (resp., z1 < Zn < z2 ⇔ T1,n < Ψ(θ) < T2,n ).
∗ ]T1,n , T2,n [ é um intervalo aleatório tal que
∀θ ∈ Θ, P ( θ ∈ ]T1,n , T2,n [ ) = β (ou ≥ β ou ≃ β)

(resp., P ( Ψ(θ) ∈ ]T1,n , T2,n [ ) = β (ou ≥ β ou ≃ β)).
(D) Um intervalo de confiança para θ (resp., Ψ(θ)), ao grau de confiança β , é
]t1,n , t2,n [
onde t1,n = T1 (x1 , ..., xn ) e t2,n = T2 (x1 , ..., xn ).
75
6. Se a lei de X depender de mais do que um parâmetro desconhecido (por exemplo, X ∼ N (m, σ) ,
m desconhecido, σ desconhecido) podem estimar-se simultaneamente os vários parâmetros, obtendo
assim, regiões de confiança (esta abordagem não será aqui desenvolvida).
Mas também poderemos construir, separadamente, intervalos de confiança para cada um dos
parâmetros. Teremos de ter o cuidado de considerar, para cada parâmetro, uma variável fulcral
que não dependa dos outros parâmetros desconhecidos.
′
E. Seja X ∼ N (m, σ) , m desconhecido, σ desconhecido. Consideremos Zn = X n√σ−m .
n
Esta variável aleatória segue a lei N (0, 1) pelo que é uma variável fulcral.
′
No entanto, se pretendermos um intervalo de confiança para m, Zn não é adequada pois o intervalo
de confiança a que conduz depende de σ, que é desconhecido.
Neste caso é aconselhável usar a variável aleatória
Xn − m
,
Sn
√
n
X n −m
que também é fulcral pois n
S
∼ T (n − 1) .
√
n
△
7. Nos dois quadros que se seguem estão indicadas as variáveis fulcrais habitualmente utilizadas
na estimação intervalar da média e da variância de uma população.
I C
m (m = E(X))
desvio padrão variável fulcral tamanho da amostra

lei de X lei de Zn
σ Zn n
Xn − m N(m, σ) qualquer Zn ∼ N(0, 1)

conhecido √σ
n
•
qualquer n > 30 Zn ∼ N(0, 1)
Xn − m N(m, σ) qualquer Zn ∼ T (n − 1)
desconhecido Sn
√
n
•
qualquer n > 30 Zn ∼ N(0, 1)
I C
σ2 (σ2 = V (X) com X ∼ N(m, σ))
média (m) variável fulcral (Zn ) lei de Zn

n
Xi − m 2
conhecida Zn ∼ χ2 (n)
σ
i=1
n 2
Xi − X n
desconhecida Zn ∼ χ2 (n − 1)
σ
i=1
76
8. Se pretendermos um intervalo de confiança para uma proporção p, introduzimos uma variável
de Bernoulli, X ∼ B (p) .
Estamos perante a determinação de um intervalo de confiança para E(X) = p, com V (X) = p(1−p)
desconhecida. Se n > 30, a variável (assintoticamente) fulcral usada é
X −p •
# ∼ N (0, 1).
X(1−X)
n
9. O método apresentado pode ser aplicado à construção de intervalos de confiança para diferenças
de médias de duas populações, para o quociente de variâncias ou diferença de proporções, por exemplo,
bastando escolher uma variável fulcral adequada (Murteira et al, 2007).
3.3 Exemplos de intervalos de confiança
1. Intervalo de confiança para uma proporção p (p ∈ ]0, 1[)
E. Para conhecer a intenção de voto num candidato, A, às próximas eleições presiden-
ciais, foram inquiridos 900 eleitores escolhidos ao acaso. Se 576 manifestaram a intenção de
votar neste candidato, determinar um intervalo de confiança para a proporção de eleitores que
tencionam votar no candidato A nas referidas eleições.
Resolução. Sejam
Ω = “conjunto dos portugueses que constam dos cadernos eleitorais das próximas eleições pres-
idenciais”,
p = “proporção de eleitores que tencionam votar no Sr. A nas próximas eleições presidenciais”,
p desconhecido , p ∈ ] 0 , 1 [.
Pb: estimar p
Dados: Respostas sobre a intenção de voto (relativamente às próximas eleições presidenciais)

de 900 eleitores (escolhidos ao acaso), dos quais 576 se manifestaram favoravelmente ao Sr. A.
Sejam

 1 se ω tenciona votar no Sr. A
• ∀ ω ∈ Ω, X (ω) =

0 se ω não tenciona votar no Sr. A.
Portanto, X ∼ B(p).
77
• (X1 , ..., X900 ) uma amostra aleatória de X.
• ∀ i ∈ {1, 2, ..., 900} ,


 1 se o i-ésimo indivíduo seleccionado tenciona votar no Sr. A
xi =

0 se o i-ésimo indivíduo seleccionado não tenciona votar no Sr. A.
900

Portanto, xi = 576 589.
i=1
900

1
Estimador cêntrico e consistente de p − X = 900 Xi .
i=1
900

1 576
Estimativa cêntrica e consistente de p − x = 900 xi = 900 = 0.64 .
i=1
Intervalo de confiança para p
(A) grau de confiança − β = 0.99

X −p •
variável fulcral − Z = # ∼ N (0, 1)
X (1−X )
900
(B) Determinar z ′ , z ∈ IR tais que z ′ < z e

P (z ′ < Z < z) ≃ 0.99
∀p ∈ ]0, 1[ ,
P (Z ≤ z ′ ) = P (Z ≥ z).
•
Como Z ∼ N (0, 1)), determinam-se z ′ , z ∈ IR tais que z ′ < z e

P (z ′ < U < z) = 0.99
, U ∼ N (0, 1) .
P (U ≤ z ′ ) = P (U ≥ z)
Do facto da lei N (0, 1) ser simétrica, decorre que z ′ = −z , com z > 0.
Ora 0.99 = P (−z < U < z)

= F (z) − F (−z) (F f.d.r. da lei N (0, 1))
= F (z) − (1 − F (z)) (simetria da lei N (0, 1))
= 2F (z) − 1.
1+0.99
Assim, F (z) = 2 = 0.995 . Consequentemente,
z = 2.576 e z ′ = −2.576.
78
•
Mas, uma vez que, para todo o p , p ∈ ]0, 1[ , Z ∼ N (0, 1) , tem-se
P (−2.576 < Z < 2.576) ≃ P (−2.576 < U < 2.576).
Portanto,
∀p ∈ ]0, 1[, P (−2.576 < Z < 2.576) ≃ 0.99.
(C) Encontrar T1 = T1 (X1 , ... , X900 ) e T2 = T2 (X1 , ... , X900 ) tais que, para todo o p, p ∈ ]0, 1[ ,
−2.576 < Z < 2.576 ⇔ T1 < p < T2 .
Ora,
−2.576 < Z < 2.576 ⇔ −2.576 < X−p < 2.576
X ( 1−X )
900
# #
X ( 1−X ) X ( 1−X )
⇔ −2.576 900 < X − p < 2.576 900
# #
X ( 1−X ) X ( 1−X )
⇔ X − 2.576 900 < p < X + 2.576 900 .
# #
X ( 1−X ) X ( 1−X )
Assim, T1 = X − 2.576 900 e T2 = X + 2.576 900
Intervalo aleatório # #
X ( 1−X ) X ( 1−X )
]T1 , T2 [ = X − 2.576 900 , X + 2.576 900
.
Portanto, ∀p ∈ ]0, 1[ , P (p ∈]T1 , T2 [) ≃ 0.99.
(D) Um intervalo de confiança para p , ao grau de confiança 0.99 , é ]t1 , t2 [

#
x( 1−x)
onde t1 = T1 (x1 , ... , x900 ) = x − 2.576 900
#
x( 1−x)
t2 = T2 (x1 , ... , x900 ) = x + 2.576 900 .
Mas x = 0.64 , logo
#
0.64 ( 1−0.64)
t1 = 0.64 − 2.576 900 ≃ 0.599
#
0.64 ( 1−0.64)
t2 = 0.64 + 2.576 900 ≃ 0.681.
Um intervalo de confiança para p, ao grau de confiança 0.99, é então ]0.599, 0.681[ .
79
2. Intervalos de confiança para a média e para a variância de uma população gaussiana
E. Seja X = “tensão de ruptura de determinado tipo de cabos, produzidos pela

companhia C. Admitamos que
X ∼ N (m, σ) , com m e σ desconhecidos, m , σ ∈ ] 0 , + ∞ [.
Os resultados de um ensaio efectuado a 21 cabos daquele tipo (escolhidos ao acaso), forneceu

uma tensão de ruptura média de 1250kg e um desvio padrão de 75kg. Pretendemos determinar
estimativas cêntricas e consistentes de m e σ2 assim como intervalos de confiança para estes
parâmetros.
Resolução. Seja (X1 , ... , X21 ) uma amostra aleatória de X.
Estimativa cêntrica e consistente de m − x = 1250

21
Estimativa cêntrica e consistente de σ 2 − ŝ2 = 20 × 752 = 5906.25 .
A. Intervalo de confiança para m

√ X −m
variável fulcral − Y = 21 (pois σ é desconhecido)
S-
Y ∼ T (20) (pois X é variável gaussiana)
(B) Determinar z ′ , z ∈ IR tais que z ′ < z e

P (z ′ < Y < z) = 0.9
∀m ∈ ]0, + ∞[ ,
P (Y ≤ z ′ ) = P (Y ≥ z).
Como a lei T (20) é simétrica, vem
z ′ = −z, com z > 0 .
Portanto, determinemos z , z ∈ ] 0 , +∞ [ , tal que

P (−z < Y < z) = 0.9.
Ora 0.9 = P (−z < Y < z)
= F (z) − F (−z) (F f.d.r. da lei T (20))
= F (z) − (1 − F (z)) (simetria da lei T (20))
= 2F (z) − 1.
1+0.9
Assim F (z) = 2 = 0.95 e consequentemente
z = 1.725 e z ′ = −1.725.
Portanto,
∀m ∈ ]0, +∞[ , P (−1.725 < Y < 1.725) = 0.9.
80
(C) Encontrar B1 = B1 (X1 , ... , X21 ) e B2 = B2 (X1 , ... , X21 ) tais que, para todo o m,
m ∈ ]0, + ∞[ ,
−1.725 < Y < 1.725 ⇐⇒ B1 < m < B2 .
√ X −m
−1.725 < Z < 1.725 ⇔ −1.725 < 21 < 1.725
Ŝ
Ŝ Ŝ
⇔ −1.725 √ < X − m < 1.725 √
21 21
Ŝ Ŝ
⇔ X − 1.725 √ < m < X + 1.725 √ .
21 21
Ŝ Ŝ
Assim, B1 = X − 1.725 √ e B2 = X + 1.725 √ .
21 21
% $
Ŝ Ŝ
Intervalo aleatório: ]B1 , B2 [ = X − 1.725 √ , X + 1.725 √
21 21
Portanto, ∀m ∈ ]0, + ∞[ , P (m ∈]B1 , B2 [) = 0.9.
(D) Um intervalo de confiança para m , ao grau de confiança 0.9 , é ]b1 , b2 [

onde b1 =B1 (x1 , ... , x21 ) = x − 1.725 √s21
b2 =B2 (x1 , ... , x21 ) = x + 1.725 √s21 .
#
21
Mas x = 1250 e s- = 20 × 75 logo
b1 = 1250 − 1.725 × √75 ≃ 1221.7
20
b2 = 1250 + 1.725 × √75 ≃ 1278.3.
20
Portanto, um intervalo de confiança para m , ao grau de confiança 0.9 , é ]1221.7, 1278.3[ .
B. Intervalo de confiança para σ2 = V (X)

2
21 Xi − X
variável fulcral − W = (pois m é desconhecido)
i=1 σ
W ∼ X 2 (20)
(B) Determinar z ′ , z ∈ IR+ tais que z ′ < z e

P (z ′ < W < z) = 0.95
2
∀ σ ∈ ]0, + ∞[ ,
P (W ≤ z ′ ) = P (W ≥ z).
81
Mas,

P (z ′ < W < z) = 0.95 FW (z) − FW (z ′ ) = 0.95
⇔
P (W ≤ z ′ ) = P (W ≥ z) FW (z ′ ) = 1 − FW (z)

FW (z) − [1 − FW (z)] = 0.95
⇔
−

FW (z) = 0.9755
⇔
FW (z ′ ) = 0.025.
Assim, vem z ′ = 9.59 e z = 34.2 .

Então, ∀ σ2 ∈ ]0, +∞[ , P (9.59 < W < 34.2) = 0.95 .
(C) Encontrar H1 = H1 (X1 , ... , X21 ) e H2 = H2 (X1 , ... , X21 ) tais que, para todo o σ2 ,
σ2 ∈ ]0, + ∞[ ,
9.59 < W < 34.2 ⇐⇒ H1 < σ2 < H2 .
Ora
21
2
Xi − X
9.59 < W < 34.2 ⇔ 9.59 < < 34.2
σ
i=1
1 σ2 1
⇔ < 21 <
34.2 2 9.59
Xi − X
i=1
21
21

2 2
Xi − X Xi − X
i=1 i=1
⇔ < σ2 < .
34.2 9.59
Assim,
21 2 21 2
i=1 Xi − X i=1 Xi − X
H1 = e H2 = .
34.2 9.59
Intervalo aleatório:
% 2 $
21 2 21
i=1 Xi −X i=1 Xi − X
]H1 , H2 [ = ,
34.2 9.59

tal que, ∀ σ 2 ∈ ]0, + ∞[ , P σ2 ∈]H1 , H2 [ = 0.95 .
1. (D) Um intervalo de confiança para σ2 , ao grau de confiança 0.95 , é ]h1 , h2 [ onde

21 2 21 2
i=1 ( xi −x ) i=1 ( xi −x )
h1 = H1 (x1 , ..., x21 ) = 34.2 , h2 = H2 (x1 , ..., x21 ) = 9.59
21 21×752 21×752
Mas s2 = 1
21 i=1 ( xi − x )2 = 752 , logo h1 = 34.2 = 3453.9 e h2 = 9.59 = 12317.5 .
Então, um intervalo de confiança para σ 2 , ao grau de confiança 0.95, é ]3453.9, 12317.5[ .
82
Módulo 6 - Testes de hipóteses
1. Preliminares
Como já foi afirmado, o objectivo da Estatística é tirar conclusões sobre o comportamento de uma
característica, X, dos indivíduos de uma população, em particular sobre o comportamento da sua lei
de probabilidade, a partir do conhecimento dessa característica numa amostra extraída da população.
Neste módulo, apresentaremos alguns dos procedimentos que a Estatística propõe para decidir
entre duas conjecturas ou hipóteses, ditas hipóteses estatísticas, sobre a lei de probabilidade de X face
a uma amostra observada.
Se a lei de probabilidade de X depende de um parâmetro real desconhecido, θ, ou seja
PX ∈ {Pθ , θ ∈ Θ} , Θ ⊂ R,
tais conclusões dirão respeito ao parâmetro da lei de X. As hipóteses, neste caso, são duas conjecturas
sobre o valor do parâmetro θ, ditas hipóteses paramétricas, e os procedimentos propostos são
conhecidos por testes paramétricos.
Como veremos, a Estatística fornece procedimentos que permitem decidir entre tais hipóteses
avaliando também as probabilidades dos erros que poderão estar associados às decisões tomadas.
Para além desta abordagem paramétrica, veremos ainda como pode a Estatística
responder à questão de saber se a amostra recolhida se pode considerar, ou não, como proveniente
de uma variável aleatória com determinada lei conhecida. Neste caso, a conjectura envolve a lei da
população e não apenas o valor de um parâmetro nela interveniente, o que inclui este problema na
área da denominada Estatística não-paramétrica.
Existem vários procedimentos para analisar este tipo de problema (teste de Kolmogorov, de
Cramer-Von-Mises) mas limitar-nos-emos a apresentar o teste do Qui-quadrado.
Recordemos que são, frequentemente, procedimentos empíricos que nos encaminham para uma lei
de probabilidade passível de ser adaptada aos dados observados. Por exemplo, a forma do histograma
pode sugerir-nos certos modelos. Outros métodos empíricos envolvem ajustamentos gráficos mas não
vamos detalhá-los aqui.
A análise empírica dá-nos, assim, uma indicação sobre um modelo de probabilidade que poderá
estar subjacente aos dados produzidos ou, por outras palavras, que possa ser considerado compatível
com os dados observados. A construção de um teste de ajustamento, como o do Qui-quadrado,
permitir-nos-á validar tal indicação.
2. Testes paramétricos
2.1. Introdução
As hipóteses estatísticas escrevem-se, neste caso, na forma
H0 : θ ∈ Θ0 , H1 : θ ∈ Θ1
onde Θ0 e Θ1 são dois subconjuntos de Θ com Θ0 ∩ Θ1 = ∅.

Como exemplos, referimos:

H0 : θ = θ0 H0 : θ = θ0 H0 : θ = θ0
H1 : θ = θ0 H1 : θ > θ0 H1 : θ < θ0
83
onde θ0 é um valor fixo em Θ.
A hipótese H0 é denominada hipótese nula sendo H1 denominada hipótese alternativa.
Uma hipótese diz-se simples quando, ao ser verdadeira, especifica completamente a lei de X (isto
é, indica o valor de θ); uma hipótese diz-se composta quando não é especificado o valor concreto de
θ (por exemplo, θ < θ0 , θ > θ0 ou θ = θ 0 ).
Testar uma hipótese estatística significa decidir se a hipótese é válida, ou não, face aos resul-
tados fornecidos por uma amostra, (x1 , x2 , ..., xn ) , retirada ao acaso da população. Se tais resultados
são compatíveis com H0 então aceitamos H0 como verdadeira. Caso contrário, rejeitamos H0
(aceitando H1 ).
Está, pois, implícita a presença de um procedimento de decisão. Tal procedimento consiste em
definir um subconjunto de Rn , denominado região crítica e que representaremos por RC, tal que
• se (x1 , x2 , ..., xn ) ∈ RC, rejeitamos H0 ,
• se (x1 , x2 , ..., xn ) ∈
/ RC, aceitamos H0 .
Ao conjunto RC chamamos região crítica ou região de rejeição (de H0 ).

Ao complementar de RC, Rn \RC, chamamos região de aceitação.
Um aspecto importante é o facto de ao aceitarmos uma hipótese como verdadeira isso não significar
que ela seja efectivamente verdadeira; de facto, a nossa decisão está a ser tomada face a uma amostra e
... há muitas outras. Ou seja, podemos cometer erros que o quadro seguinte ilustra, de modo bastante
claro.
Situação real
H0 verdadeira H1 verdadeira
Decisão
Decisão incorrecta
H0 verdadeira Decisão correcta
(erro de 2a espécie)
Decisão incorrecta
H1 verdadeira Decisão correcta
(erro de 1a espécie)
Por exemplo, cometemos o erro de 1a espécie quando somos conduzidos a rejeitar a hipótese H0
mas na realidade H0 é verdadeira.
Pretendemos, obviamente, que estes erros tenham probabilidades de ocorrência reduzidas, ou seja,
gostaríamos de controlar as probabilidades seguintes:
α = P (erro de 1a espécie) = P (rejeitar H0 supondo H0 verdadeira)
β = P (erro de 2a espécie) = P (rejeitar H1 supondo H1 verdadeira)

A probabilidade de cometer o erro de 1a espécie, α, é denominada nível de significância.
Analisamos, de seguida, o caso de θ ser a média ou a variância de uma população.
84
2.2. Testes para a média de uma população
Seja X uma variável aleatória real tal que E(X) existe. Utilizaremos sistematicamente a notação
m = E(X).
Supomos que V (X) também existe e que é positiva. Denotá-la-emos frequentemente por σ2 .
As hipóteses estatísticas serão, agora, afirmações sobre o valor de m.
Seja (x1 , x2 , ..., xn ) uma amostra de X. Sabemos já que a média desta amostra, xn , nos dá uma
boa ideia sobre o valor de m, pois é uma estimativa cêntrica e consistente de m.
Não surpreende, pois, que a definição da região crítica de um teste para o parâmetro m envolva
xn .
No entanto, como veremos, a forma da região crítica vai depender do teste que estivermos a
considerar, ou seja, depende particularmente da hipótese H1 .
2.2.1 Teste de H0 : m = m0 contra H1 : m = m0
A forma da região crítica quando pretendemos testar

H0 : m = m0 contra H1 : m = m0,
onde m0 é um valor fixo, tem por base uma ideia intuitiva muito simples: se m0 é o verdadeiro valor
de m então xn estará próximo de m0 , ou, de modo equivalente, se xn se afastar de m0 tenderemos a
rejeitar H0 .
Surgem pois, associadas à rejeição de H0 , as condições xn < m0 − c ou xn > m0 + c, isto é,

|xn − m0 | > c, com c > 0.
Então,
• se (x1 , x2 , ..., xn ) é tal que |xn − m0 | > c, rejeitamos H0 ,
• se (x1 , x2 , ..., xn ) é tal que |xn − m0 | ≤ c, aceitamos H0 .
Assim, consideramos como região crítica associada a este teste

RC = {(x1 , x2 , ..., xn ) : |xn − m0 | > c} , c > 0.
Surge, naturalmente, a questão "que valor considerar para c?".

Tentaremos determinar c de tal modo que as probabilidades dos erros de 1a e 2a espécie sejam
pequenos. Mas constata-se que não é possível minimizar conjuntamente estas duas probabilidades
(quando a dimensão da amostra está fixa). Adopta-se então o procedimento a seguir descrito:
a) Fixa-se a probabilidade do erro de 1a espécie (os valores habitualmente utilizados são 0.1, 0.01,
0.05, ...):
P (erro de 1a espécie) = P (rejeitar H0 supondo H0 verdadeira)
= α.
Refira-se que se a decisão é tomada com o nível de significância, α, igual a 0.05 é considerada
significativa; se α = 0.01, a decisão tomada diz-se altamente significativa.
85
b) Determinamos a constante c a partir da igualdade anterior.
c) Determinamos, se necessário e possível, a probabilidade do erro de 2a espécie correspondente

àquele valor de c.
Notemos que, no teste que estamos a construir,
P (erro de 1a espécie) = P (rejeitar H0 quando H0 verdadeira)

= P (rejeitar H0 / m = m0 )

= P (X n − m0 > c / m = m0 ).
Vemos que, para determinar o valor de c, precisamos de conhecer a lei de X n sob a hipótese H0 .
Reparemos que, de modo análogo,
P (erro de 2a espécie) = P (rejeitar H1 supondo H1 verdadeira)

= P (aceitar H0 / m = m0 )

= P (X n − m0 ≤ c / m = m0 )
e, para calcular esta probabilidade, iremos precisar de conhecer a lei de X n sob a hipótese H1 (18 ).
Vamos prosseguir com a questão de determinar o valor de c, tendo fixado o valor de α. A abordagem
a seguir depende fundamentalmente do facto de, sob H0 , a variância de X ser ou não conhecida.
(i) Se σ é conhecido (bastando que o seja sob H0 ) vem

α = P (X n − m0 > c / m = m0 )

X n − m0 c
= P σ > σ / m = m0 .
√ √
n n
Se a lei de X é gaussiana então, sob H0 , vem X ∼ N(m0 , σ) e, consequentemente,
X n − m0
∼ N(0, 1).
√σ
n
Se a lei de X não é necessariamente normal mas n é grande, teremos, sob H0 ,
X n − m0 •
∼ N(0, 1).
√σ
n
Podemos, pois, introduzindo uma variável aleatória U ∼ N(0, 1), resumir estes 2 casos da
seguinte forma
α = P (X n − m0 > c / m = m0 )

|X n −m0 |
=P √σ > √σ / m = m0
c
n n
c
= P |U | > √σ , U ∼ N(0, 1)
(≃) n
o que permitirá determinar o valor c a partir da tabela da lei N(0, 1).

18
Notemos que, sob H1 , o valor de m não é especificado pelo que esta probabilidade é uma função de m.
86
(ii) Se σ é desconhecido (sob H0 ), convém reescrever a região crítica numa forma equivalente
RC = {(x1 , x2 , ..., xn ) : |xn − m0 | > c} , c > 0

.
|xn − m0 |
= (x1 , x2 , ..., xn ) : s
> c′ , c′ > 0.
√
n
Trabalhamos então com esta forma para conhecer o valor de c′ .

Se a lei de X é gaussiana então, sob H0 , vem X ∼ N(m0 , σ) e, consequentemente,
X n − m0

∼ T (n − 1)
√S
n
pelo que o valor de c′ surgirá por consulta da tabela da lei de Student.
Se a lei de X não é necessariamente normal mas n é grande, teremos, sob H0 ,
X n − m0 •

∼ N(0, 1).
√S
n
X n − m0 X n − m0
Vemos que foi fundamental, no primeiro caso, conhecer a lei de (resp., no
√σ
√S
n n
segundo) sob a hipótese nula; tal variável aleatória é denominada estatística de teste.
Obtido o valor de c (ou c′ ) poderá, em certos casos, calcular-se a probabilidade do erro de segunda
espécie, tendo também de ter-se em conta se V (X) é conhecida, ou não, sob a hipótese alternativa.
Observamos que a construção de um teste para o valor de uma proporção p da forma
H0 : p = p0 contra H1 : p = p0
com p0 previamente fixado, é um caso particular do que foi exposto pois p pode interpretar-se como
sendo E(Y ), com Y uma variável aleatória seguindo a lei de Bernoulli de parâmetro p.
Assim, teremos
RC = {(y1 , y2 , ..., yn ) : |y n − p0 | > c} , c > 0

e α = P (rejeitar H0 supondo H0 verdadeira) = P Y n − p0 ≥ c / p = p0 .
Sob a hipótese H0 , temos V (Y ) = p0 (1 − p0 ) e, portanto, V (Y ) é conhecida; então, se n for grande,

vem
Y − p0 •
√n ∼ N(0, 1)
p0 (1−p0 )
√
n
pelo que  
c
α ≃ P |U | > #  , U ∼ N(0, 1)
p0 (1−p0 )
n
o que permite obter o valor aproximado de c.
87
2.2.2 Teste de H0 : m = m0 contra H1 : m > m0
Interessamo-nos agora pelo teste
H0 : m = m0 contra H1 : m > m0
onde m0 é um valor fixado.

Neste caso, a forma da região crítica baseia-se na ideia de que, se xn for bastante maior do que
m0 , a tendência será aceitar H1 (rejeitando H0 ).
Assim, se xn > m0 + c, com c > 0, somos conduzidos a rejeitar H0 ; se xn ≤ m0 + c, seremos

conduzidos a aceitar H0 (pois é mais plausível que m seja m0 do que um valor superior).
Então
RC = {(x1 , x2 , ..., xn ) : xn > m0 + c} , c > 0.
A determinação de c é feita de modo análogo ao anterior, ou seja, de modo resumido:
a) fixamos o nível de significância, α;
b) a partir de
α = P (rejeitar H0 quando H0 verdadeira)

= P X n − m0 > c / m = m0
determinamos o valor de c, usando as leis vistas no parágrafo anterior e prestando atenção ao

facto de, sob H0 , σ ser ou não conhecido.
Destacamos que o procedimento usado neste teste se adapta ao teste de
H0 : m = m0 contra H1 : m < m0
atendendo à forma da região crítica que é agora

RC = (x1 , x2 , ..., xn ) : xn − m0 < c′ , c′ < 0.
Tendo em conta o facto de, sob H0 , σ ser conhecido ou não, determinamos o valor de c′ usando as
leis referidas no parágrafo anterior.
Os dois tipos de testes abordados neste parágrafo dizem-se unilaterais (por oposição ao primeiro,
denominado bilateral).
2.2.3 Exemplos
1. O número de chamadas telefónicas que chegam diariamente a uma determinada central entre as
23 e as 24 horas é bem descrito por uma lei de Poisson de parâmetro λ, desconhecido. Foi realizado
88
um estudo estatístico empírico, que levou a inferir o valor 2 para o parâmetro λ. Correspondendo
actualmente o período de observação a um horário de tarifa bonificada, pensa-se que a intensidade de
chamadas λ deverá ter aumentado. Para testar tais hipóteses fez-se, durante 150 dias, a observação do
número de chamadas que ocorreram no referido período. Os valores obtidos encontram-se resumidos
na tabela seguinte:
no de chamadas 0 1 2 3 4
no de dias 8 20 40 50 32
Testemos, ao nível de significância 0.05, a hipótese H0 : λ = 2 contra H1 : λ > 2.
Seja X a variável aleatória real que representa o número de chamadas telefónicas que chegam
diariamente à central entre as 23 e as 24 horas.
Dispondo nós de uma amostra de dimensão 150 de X, (x1 , x2 , ..., x150 ) , a região crítica é da forma
RC = {(x1 , ..., x150 ) : x > 2 + c} , c > 0

= {(x1 , ..., x150 ) : x − 2 > c} .
Determinemos c.
Como X ∼ P (λ) , sabemos que V (X) = λ. Então, V (X) é conhecida sob H0 tendo-se, neste caso,
V (X) = 2. Consequentemente,
0.05 = P (rejeitar H0 / H0 verdadeira)

= P (X − 2 > c / λ = 2)
 
X −2 c
= P √ > √ / λ = 2 .
√ 2 √ 2
150 150
Como n é grande (n = 150 > 30), temos, sob H0 ,
X −2 •
√ ∼ N(0, 1).
√ 2
150
Então
√
0.05 ≃ P (U > c 75),U ∼ N(0, 1)
√
⇔ 0.95 ≃ P (U ≤ c 75)
√
⇔ c 75 ≃ 1.645
pela tabela da lei normal, o que conduz ao valor c ≃ 0.19.

Então
RC = {(x1 , ..., x150 ) : x − 2 > 0.19} .
A amostra observada é tal que
150 4
1 1 1
x= xi = nj xj = (20 + 80 + 150 + 128) = 2.52
150 150 150
i=1 j=1
e
x − 2 = 0.52
que é maior do que 0.19, pelo que a amostra pertence à região crítica. Rejeitamos, ao nível de
significância 0.05, a hipótese H0 . Podemos então concluir, a este nível, que a intensidade das chamadas
aumentou.
△
89
2. Um estudo feito numa universidade revela que em 100 dos seus finalistas, escolhidos ao acaso, há
16 que pretendem prosseguir os seus estudos, inscrevendo-se em programas de doutoramento. Será
aceitável, ao nível de significância 0.05, afirmar que a proporção de alunos daquela universidade que
pretendem prosseguir os seus estudos é 0.2?
Pretendemos testar as hipóteses
H0 : p = 0.2 contra H1 : p = 0.2
onde p representa a proporção de finalistas da universidade que pretendem prosseguir os seus estudos
em programas de doutoramento.
Introduzamos a variável aleatória

1, se o finalista ω pretende prosseguir estudos
Y (ω) =
0, se o finalista ω não pretende prosseguir estudos.
É claro que Y segue a lei de Bernoulli de parâmetro p, Y ∼ B(p) e, como E(Y ) = p, estamos
perante um teste para a média da lei de Bernoulli. Relembremos que, neste caso, V (Y ) = p(1 − p).
Dispondo nós de uma amostra de dimensão 100 de Y , (y1 , y2 , ..., y100 ) , a região crítica é da forma
RC = {(y1 , y2 , ..., y100 ) : |y − 0.2| > c} , c > 0.
Mas

0.05 = P (rejeitar H0 / H0 verdadeira) = P (Y − 0.2 > c / p = 0.2).
Sob H0 tem-se V (Y ) = 0.2(1 − 0.2) = 0.16, isto é, a variância de Y é conhecida pelo que, uma vez
que n é grande (n = 100 > 30),
Y − 0.2 •
√ ∼ N(0, 1).
√0.16
100
Então

Y − 0.2 c
0.05 = P > / p = 0.2
0.04 0.04
≃ P (|U | > 25c), U ∼ N(0, 1)
o que equivale a
0.95 ≃ P (|U | ≤ 25c)

= FU (25c) − FU (−25c)
= 2FU (25c) − 1
e conduz, pela tabela da função de repartição da lei normal standard, ao valor c ≃ 0.0784.
Então
RC = {(y1 , y2 , ..., y100 ) : |y − 0.2| > 0.0784} .
1
100
16
A amostra observada é tal que y = 100 yi = 100 = 0.16, pelo que
i=1
|y − 0.2| = |0.16 − 0.2| = 0.04
que não é maior do que 0.0784, pelo que a amostra não pertence à região crítica.
90
Assim, aceitamos H0 ao nível de significância 0.05, ou seja, a este nível de significância poderemos
afirmar que 20% dos estudantes daquela universidade pretendem prosseguir os seus estudos.
Ao fazermos esta afirmação poderemos cometer um erro, concretamente o erro de 2a espécie:
aceitar H0 e, no entanto, H0 ser falsa.
△
3. O tempo médio de secagem de uma tinta spray de determinada marca é de 90 segundos. A secção
de investigação da companhia que produz a tinta admite que poderá acelerar o processo de secagem
se lhe adicionar um novo ingrediente químico. A fim de verificar esta opinião, juntou-se o produto
químico à tinta e aplicou-se esta sobre 25 superfícies, tendo-se verificado que o tempo médio de secagem
era de 86 segundos com desvio padrão de 4.5 segundos. Admitindo que o tempo de secagem da tinta
é normalmente distribuído, verifique se a secção de investigação está significativamente certa da sua
opinião.
Seja X a variável aleatória real que descreve o tempo de secagem da tinta spray. Sabemos que
X segue a lei N(m, σ) e que dispomos de uma amostra de X de dimensão 25, (x1 , x2 , ..., x25 ), tal que
x = 86 e s = 4.5.
Pretendemos testar a hipótese H0 : m = 90 contra a hipótese H1 : m < 90, ao nível de significância
α = 0.05.
A região crítica é da forma
RC = {(x1 , x2 , ..., x25 ) : x < 90 − c} , c > 0

= (x1 , x2 , ..., x25 ) : x − 90 < c′ , c′ < 0

.
x − 90 ′′ ′′
= (x1 , x2 , ..., x25 ) : s

< c ,c < 0
√
25
pois, sob H0 , a variável aleatória X segue a lei N(90, σ), com σ desconhecido.
′′
Para determinar c consideramos então
 
X − 90
< c / H0 verdadeira .
′′
0.05 = P (rejeitar H0 / H0 verdadeira) = P 
√S
25
X−90
Sob H0 , a estatística de teste segue a lei de Student com 24 graus de liberdade pelo que
√S
25
′′
0.05 = P (T < c ), T ∼ T (24)
′′
= P (T > −c )
′′
= 1 − P (T ≤ −c ).
′′
A tabela da lei de Student conduz então a −c = 1.711 de onde decorre
.
x − 90
RC = (x1 , x2 , ..., x25 ) : s
< −1.711 .
√
25
#
25 √5 4.5,
Como x = 86 e s- = 24 s= 24
então
x − 90 86 − 90
= 4.5 ≃ −4.35
√s √
25 24
que é claramente inferior a −1.711. A amostra pertence à região crítica e, ao nível de significância 0.05,
podemos concluir que a secção de investigação tem razão ao afirmar que reduz o tempo de secagem
com a adição do novo ingrediente químico. Com tal conclusão poderemos cometer um erro, o de
primeira espécie, com probabilidade
91
P (rejeitar H0 / H0 verdadeira) = 0.05.
2.3. Testes para a variância de uma população gaussiana

Considerando o caso em que X segue uma lei N(m, σ), afloremos agora a construção de testes
envolvendo a variância de X, por exemplo, da forma
H0 : σ 2 = σ 20 contra H1 : σ 2 > σ 20
onde σ20 é um valor positivo, previamente fixado.
Consideremos o caso, mais usual, de m ser desconhecida sob H0 .

Neste caso, uma forma natural e intuitiva de analisar a não compatibilidade da amostra com a
hipótese de o valor de σ2 ser σ20 é comparar a variância empírica com σ20 .
Desta forma, a região crítica será definida por

n .
1 xi − x 2 ′ ′
RC = (x1 , x2 , ..., xn ) : > c , c > 1,
n i=1 σ0
ou, de modo equivalente,

n .
xi − x 2 ′
RC = (x1 , x2 , ..., xn ) : > c , c = nc .
σ0
i=1
n
2
Xi −X
Uma vez que, sob H0 , E1 = σ0 ∼ χ2 (n − 1) , a constante c é determinada a partir de
i=1
α = P (E1 > c) , E1 ∼ χ2 (n − 1) .
n
2
Xi −m
No caso de, sob H0 , m ser conhecida, a estatística de teste será E2 = σ0 e a região crítica
i=1
definida por .
n
xi − m 2
RC = (x1 , x2 , ..., xn ) : >c
σ0
i=1
com c tal que
α = P (E2 > c) , E2 ∼ χ2 (n) .
A construção de testes da forma
H0 : σ 2 = σ 20 contra H1 : σ 2 < σ 20
segue passos semelhantes aos anteriormente descritos.
O teste
H0 : σ 2 = σ 20 contra H1 : σ 2 = σ 20
tem um tratamento que é uma mistura dos dois anteriores. De facto, a região crítica de um tal teste
no caso, por exemplo, de m ser desconhecida sob H0 , é
92
n n /
xi −x 2 xi −x 2
RC = (x1 , x2 , ..., xn ) : σ0 < c1 ou σ0 > c2
i=1 i=1
com 0 < c1 < 1, c2 > 1 e tal que

n n
Xi −X 2 Xi −X 2
α=P σ0 < c1 ∪ σ0 > c2 / H0 .
i=1 i=1
Notemos que esta condição não define univocamente um par de valores (c1 , c2 ). Daí que, tal como
nos intervalos de confiança, se determinem c1 , c2 tais que

P ((E1 < c1 ) ∪ (E1 > c2 )) = α
P (E1 < c1 ) = P (E1 > c2 ) ,
com E1 ∼ χ2 (n − 1) .
3. Testes de ajustamento do Qui-quadrado
3.1. Introdução
O objectivo dos testes de ajustamento é verificar se a amostra recolhida se pode considerar, ou
não, como sendo proveniente de uma variável aleatória com lei conhecida, P0 .
Pretendemos então testar
19
H0 : X ∼ P0 contra H1 : X ≁ P0 .
Existem vários procedimentos para analisar este tipo de problema (teste de Kolmogorov, de
Cramer-Von-Mises) mas limitar-nos-emos ao teste do Qui-quadrado.
Recordemos que são, frequentemente, procedimentos empíricos que nos encaminham para uma lei
de probabilidade passível de ser adaptada aos dados observados. Por exemplo, a forma do histograma
pode sugerir-nos certos modelos, ou a eliminação de outros se, em particular, não estão presentes
propriedades de simetria.
Deveremos também verificar se certas propriedades relativas aos parâmetros do modelo sugerido
pelo histograma são reproduzidas pelos dados; por exemplo se o modelo sugerido é uma lei de Poisson,
convém verificar se x é um valor próximo de s2 .
Outros métodos empíricos envolvem ajustamentos gráficos mas não vamos detalhá-los aqui.
A análise empírica dá-nos, assim, uma indicação sobre um modelo de probabilidade que poderá
representar adequadamente os dados observados. A construção de um teste de ajustamento, como o
do Qui-quadrado, permitir-nos-á validar tal indicação.
3.2. Teste de ajustamento a uma determinada lei de probabilidade

Seja X a característica de interesse na população em estudo. Observamos uma amostra de X,
recolhida de modo aleatório, e pretendemos ver se tal amostra é compatível com a hipótese de a lei de
X seguir determinado modelo probabilista, P0 .
Designemos por S o conjunto dos valores possíveis de X sob H0 , isto é, quando consideramos que
a lei de X é P0 . Tem-se S ⊂ R, sendo S o suporte de P0 .
Consideramos k ∈ N e subconjuntos de R, A1 , ..., Ak , que constituam uma partição de S que
designamos, genericamente, por modalidades.
Para cada i, i = 1, ..., k, seja pi =P (X ∈ Ai ), quando X ∼ P0 .
93
Seja, então, (x1 , x2 , ..., xn ) uma amostra de X de dimensão n e representemos por ni a frequência
absoluta da modalidade i, i = 1, 2, ..., k.
Consideremos o número real seguinte
k
(ni − npi )2
d2 = .
npi
i=1
Trata-se de uma medida do desvio entre as frequências absolutas (realmente) observadas e as

frequências absolutas esperadas sob a validade do modelo de probabilidade em causa. Se houver a
compatibilidade anunciada esperamos, intuitivamente, que d2 não seja muito grande.
Assim, para o teste de

H0 : X ∼ P0 contra H1 : X ≁ P0
consideramos a região crítica da forma
k
.
(ni − npi )2
RC = (x1 , x2 , ..., xn ) : >c
npi
i=1
com c > 0.
Tal como nos testes paramétricos anteriormente estudados, a constante c é determinada a partir
da seguinte condição
α = P (rejeitar H0 / H0 verdadeira)
que, neste caso, é equivalente a

k
(Ni − npi )2
α=P >c / X ∼ P0
npi
i=1
onde Ni representa a frequência absoluta da classe i, i = 1, 2, ..., k, ao considerarmos uma amostra

aleatória (X1 , X2 , ..., Xn ) de X.
k
(Ni −npi )2
Mas, sabe-se que quando X ∼ P0 a lei da estatística de teste D2 = npi é bem aproximada
i=1
pela lei do χ2 com k − 1 graus de liberdade, desde que npi > 5, i = 1, 2, ..., k. Neste caso, o valor de c
é, então, determinado a partir da seguinte equação
α = P (W > c) , W ∼ χ2 (k − 1) .
Se tal não acontecer, devemos proceder a reagrupamentos de modalidades adjacentes (este agru-
pamento irá reduzir o número de graus de liberdade da lei do χ2 ).
3.3. Teste de ajustamento a uma família de leis de probabilidade

Há situações em que apenas é especificado o tipo de lei de probabilidade (Poisson, Gauss, ...) não
sendo possível especificar os valores dos parâmetros identificadores dessa lei. Neste caso as hipóteses
estatísticas serão:
H0 : PX ∈ {Pθ , θ ∈ Θ} contra H1 : PX ∈ / {Pθ , θ ∈ Θ}
onde Θ ⊂ Rm , m ∈ N, e PX denota, como habitualmente, a lei de probabilidade de X.
94
O tratamento de tal teste é semelhante ao anteriormente apresentado. No entanto, o facto de
H0 não ser uma hipótese simples, isto é, de a lei de X não ser completamente especificada, obriga a
procedimentos adicionais, uma vez que as probabilidades pi são, neste caso, desconhecidas.
Designemos por -θ uma estimativa de θ obtida a partir da amostra observada.
Sejam S o suporte da lei de probabilidade Pθ , A1 , ..., Ak uma partição de S e
p-i = P (X ∈ Ai ), X ∼ Pθ , i = 1, ..., k.
A região crítica do teste
H0 : PX ∈ {Pθ , θ ∈ Θ} contra H1 : PX ∈
/ {Pθ , θ ∈ Θ}
é então da forma .
k
pi )2
(ni − n-
RC = (x1 , x2 , ..., xn ) : > c , c > 0.
n-
pi
i=1
Mas, quando X ∼ Pθ , a estatística de teste segue aproximadamente a lei do χ2 com k − m − 1

graus de liberdade, desde que n-
pi > 5, i = 1, 2, ..., k. Neste caso, o valor de c é determinado a partir
da seguinte equação
α = P (W1 > c) , W1 ∼ χ2 (k − m − 1) .
Se tal não acontecer, devemos, como no teste anterior, proceder a reagrupamentos de modalidades
adjacentes o que conduz a uma redução no número de graus de liberdade da lei da estatística de teste.
3.4. Exemplos
1. O quadro seguinte apresenta o número de acidentes que se registaram diariamente, numa determi-
nada cidade, ao longo de 50 dias.
No de acidentes No de dias
0 21
1 18
2 7
3 3
4 1
Total 50
Pretendemos averiguar se a amostra é compatível com a hipótese da variável aleatória X, que

representa o número de acidentes que se registam diariamente naquela cidade, seguir uma distribuição
de Poisson.
Assim, as hipóteses estatísticas são
H0 : PX ∈ {P (θ) , θ > 0} contra H1 : PX ∈

/ {P (θ) , θ > 0}
onde P (θ) representa a lei de Poisson de parâmetro θ.

Procuramos uma estimativa de θ, - θ, obtida a partir da amostra observada. Sabemos que, sob H0 ,
E (X) = θ pelo que podemos considerar - θ = x = 0.9.
Consideramos então
4
.
(ni − n-pi )2
RC = (x1 , x2 , ..., x50 ) : > c , c > 0.
n-
pi
i=0
95
Precisamos de conhecer os valores teóricos p-i = P (X = i), i = 0, 1, 2, 3, 4 ou mais, quando
X ∼ P (0.9) , que obtemos recorrendo à tabela desta lei. Notemos que a partição de S = N0 considerada
é {0} , {1} , {2} , {3} e {4, 5, 6, ...} .
(ni −npi )2
i ni p-i n-pi ni − n-
pi pi )2
(ni − n- n
pi
0 21 0.4066 20.330
1 18 0.3659 18.295
2 7 0.1647 8.235
3 3 0.0494 2.470
4 ou mais 1 0.0134 0.670
Total 50 1 50
Constatamos que as duas últimas frequências esperadas são inferiores a 5 pelo que é necessário
proceder ao agrupamento das linhas correspondentes a i = 2, 3, 4 ou mais.
Assim, retomando o quadro anterior, vem
(ni −npi )2
i ni p-i n-pi ni − n-
pi pi )2
(ni − n- n
pi
0 21 0.4066 20.330 0.670 0.4489 0.0220
1 18 0.3659 18.295 −0.295 0.0870 0.0047
2, 3, 4 ou mais 11 0.2275 11.375 −0.375 0.1406 0.0123
Total 50 1 50 0.0390
Desta forma, a constante c da região crítica será determinada a partir de
0.05 ≃ P (W > c) , W ∼ χ2 (3 − 1 − 1) ,
uma vez que estimamos o parâmetro da lei de Poisson por x.

Consequentemente, c = 3.84.
Concluímos que a amostra não pertence à região crítica pelo que aceitamos, ao nível de significância
0.05, a hipótese de que a distribuição de X é bem ajustada por uma lei de Poisson.
△
2. A secção de controlo de qualidade de uma fábrica pretende obter informação sobre a distribuição
que poderá estar subjacente ao diâmetro das peças produzidas por uma determinada máquina. Com
esse objectivo, recolheu uma amostra de 545 peças, tendo as medições efectuadas conduzido ao quadro
seguinte.
Diâmetro (em mm) ]1.5, 2.5] ]2.5, 3.5] ]3.5, 4.5] ]4.5, 5.5] ]5.5, 6.5] ]6.5, 7.5]
No de peças 8 86 120 210 109 12
Poderá admitir-se, ao nível de significância 0.01, a hipótese dos diâmetros das peças serem nor-
malmente distribuídos?
Seja X a variável aleatória real que representa o diâmetro, em mm, das peças produzidas pela
máquina.
Pretendemos testar

H0 : PX ∈ N (m, σ) , m ∈ R, σ ∈ R+ contra H1 : PX ∈ / N (m, σ) , m ∈ R, σ ∈ R+
onde N (m, σ) representa a lei normal de parâmetros m e σ.

A partir da amostra observada procuramos estimativas de m e σ. Sabemos que, sob H0 , E (X) = m
e V (X) = σ 2 pelo que a média da amostra, x, e a variância corrigida da amostra, s-2 , conduzem a
estimativas adequadas. O quadro seguinte sistematiza os cálculos para a obtenção destes valores.
96
′ ′
′ 2
]1.5, 2.5] 8 2 16 32
]2.5, 3.5] 86 3 258 774
]3.5, 4.5] 120 4 480 1920
]4.5, 5.5] 210 5 1050 5250
]5.5, 6.5] 109 6 654 3924
]6.5, 7.5] 12 7 84 588
Totais 545 2542 12488
Obtemos
2542
x = x′ = = 4.664 ≃ 4.7
545
12488
s2 = s2X ′ = − (4.7)2 = 22.914 − 22.09 = 0.824.
545
545
Temos então s-2 = 0.824 = 0.826, pelo que
544
√
s- = 0.826 = 0.908 ≃ 0.9
é uma estimativa adequada para σ.
Assim, a lei normal com a qual a amostra poderá ser compatível é a N (4.7, 0.9).
A região crítica do teste é

6
.
pi )2
(ni − n-
RC = (x1 , x2 , ..., x545 ) : > c , c > 0.
n-
pi
i=1
Para obter os valores teóricos p-i , i = 1, 2, ..., 6, consideramos a seguinte partição de R: ]−∞, 2.5] ,
]2.5, 3.5] , ]3.5, 4.5] , ]4.5, 5.5] , ]5.5, 6.5] e ]6.5, +∞[ .
Obtemos os valores p-i , i = 1, 2, ..., 6, recorrendo à lei N (4.7, 0.9). Por exemplo,

2.5 − 4.7
p-1 = P (X ∈ ]−∞, 2.5]) = P (X ≤ 2.5) = P U ≤
0.9
= FU (−2.44) = 1 − FU (2.44) = 1 − 0.9927 = 0.0073, U ∼ N (0, 1) .

2.5 − 4.7 3.5 − 4.7
p-2 = P (X ∈ ]2.5, 3.5]) = P (2.5 < X ≤ 3.5) = P <U ≤
0.9 0.9
= P (−2.44 < U ≤ −1.33) = 0.0845 .
Procedendo de modo análogo com as outras classes, obtêm-se os valores p-i presentes no quadro
seguinte.
(ni −npi )2
Classes ni p-i n-pi ni − n-
pi pi )2
(ni − n- n
pi
]−∞, 2.5] 8 0.0073 3.98
]2.5, 3.5] 86 0.0845 46.05
]3.5, 4.5] 120 0.3211 174.99
]4.5, 5.5] 210 0.3977 216.75
]5.5, 6.5] 109 0.1666 90.80
]6.5, +∞[ 12 0.0228 12.43
Totais 545 1.0
97
Como deverá ter-se n-
pi > 5, i = 1, 2, ..., 6, temos de agrupar as duas primeiras classes. Vem, então,
(ni −npi )2
Classes ni p-i n-pi ni − n-
pi pi )2
(ni − n- n
pi
]−∞, 3.5] 94 0.0918 50.03 43.97 1933.4 38.64
]3.5, 4.5] 120 0.3211 174.99 −54.99 3023.9 17.28
]4.5, 5.5] 210 0.3977 216.75 −6.75 45.6 0.21
]5.5, 6.5] 109 0.1666 90.80 18.2 331.24 3.65
]6.5, +∞[ 12 0.0228 12.43 −0.43 0.185 0.01
Totais 545 1.0 59.79
Atendendo ao agrupamento feito, o parâmetro c da região crítica é tal que
0.01 ≃ P (W > c) , W ∼ χ2 (5 − 2 − 1)
pois estimamos os 2 parâmetros da lei Normal.

Consultando a tabela do Qui-quadrado com 2 graus de liberdade obtemos c = 9.21.
Como 59.79 > 9.21, a amostra pertence à região crítica pelo que não podemos considerar, ao nível
de significância 0.01, que o diâmetro das peças segue uma lei normal. △
98
Módulo 7 - Modelo de regressão linear simples
1. Introdução
Um dos objectivos fundamentais quando se estudam vários atributos é a procura do grau de

dependência que possa existir entre eles. Em particular, se os atributos são de natureza quantitativa,
podemos ir mais longe e procurar a relação funcional que melhor descreve tal dependência.
Tal tentativa de explicar as relações existentes entre certas variáveis não é mais do que a procura
de modelos matemáticos que as representem. Estes modelos podem ser de natureza totalmente de-
terminista. Mas, o não determinismo da realidade que nos cerca impõe a necessidade frequente de
inclusão de componentes aleatórias. A situação que a seguir descrevemos ilustra tal necessidade.
Suponhamos que desejamos estudar o modo como o rendimento mensal de um agregado familiar
influencia os seus gastos mensais. Podemos começar por pensar que o agregado familiar tem, men-
salmente, gastos considerados fixos (iguais a um certo valor b) e despesas que variam em função do
rendimento.
Assim, se representarmos o rendimento do mês i por ri e admitirmos que as despesas variáveis
representam uma parte a de ri podemos tentar estudar a influência referida através de um modelo do
tipo
gi = ari + b
onde gi representa os gastos no mês i.
Mas há, por vezes, despesas (resp., receitas) imprevistas como, por exemplo, as associadas a uma
ida ao médico ou à realização de uma viagem não planeada (resp., a venda de um terreno) que não
estão a ser tidas em conta no modelo anterior. Somos, então, levados a considerar que a ligação linear
existente entre os rendimentos e os gastos mensais envolve uma perturbação aleatória, U , isto é, o
modelo será mais realista se for do tipo
gi = ari + b + ui ,
com ui a perturbação no mês i, i = 1, 2, ..., n.
Os números reais a e b, desconhecidos, dizem-se parâmetros do modelo. Se dispusermos dos valores
dos rendimentos e dos gastos do agregado familiar durante n meses, (ri , gi ) , i = 1, 2, ..., n, podemos
obter estimativas dos parâmetros do modelo a e b, que permitem usar tal relação para, por exemplo,
prever os gastos de um mês que se avizinha.
2. Definição e hipóteses
A formulação genérica de um modelo de regressão linear simples entre duas características numéri-
cas x (não aleatória) e Y (aleatória), observadas sobre o mesmo indivíduo de uma população, é a
seguinte
Yi = axi + b + Ui , i = 1, 2, ..., n
onde xi e Yi representam os valores de x e de Y sobre o indivíduo i, i = 1, 2, ..., n.
Nesta formulação x diz-se variável explicativa, independente ou exógena e Y diz-se variável expli-
cada, dependente ou endógena. As variáveis aleatórias U1 , ..., Un denominam-se erros e os números
reais a e b dizem-se parâmetros ou coeficientes do modelo.
Estas quantidades têm naturezas diferentes quanto ao seu aspecto determinista ou aleatório e ao
facto de serem quantidades observáveis ou não. Assim, enquanto que x é considerada não aleatória, a
introdução do erro leva a que a variável dependente seja naturalmente aleatória. Por outro lado, quer
99
x quer Y são grandezas observáveis mas, obviamente, nem a varável aleatória erro nem os parâmetros
o são. O quadro seguinte sistematiza tais diferenças.
aleatório não aleatório

observável Y x
não observável U1 , ..., Un a, b
Notemos que, de modo coerente com o seguido até aqui, usamos letras maiúsculas para todas as
quantidades aleatórias e minúsculas para as que o não são.
No estudo que se segue, supomos que os erros Ui , i = 1, 2, ..., n, são centrados, de variância σ2 e
com distribuição normal, isto é,
Ui ∼ N (0, σ), i = 1, 2, ..., n.
Supomos ainda que U1 , U2 , ..., Un são independentes. (20 )
Em consequência, valem as seguintes propriedades para as variáveis aleatórias Yi :
E(Yi ) = axi + b, V (Yi ) = σ2 , i = 1, 2, ..., n.
Além disso,
Yi ∼ N (axi + b, σ), i = 1, 2, ..., n,
e, enquanto transformações contínuas de variáveis aleatórias independentes, Y1 , Y2 , ..., Yn são indepen-
dentes.
3. Propriedades dos estimadores dos mínimos quadrados
Nesta secção são propostos estimadores dos parâmetros a e b do modelo em estudo e estudadas as
suas propriedades gerais.
Seja (y1 , y2 , ..., yn ) um valor particular, qualquer, de (Y1 , Y2 , ..., Yn ) . Consideremos a função
n
n

Q (a, b) = u2i = (yi − axi − b)2 ,
i=1 i=1
a que chamamos erro quadrático médio entre os pontos observados (xi , yi ) e os pontos de igual abcissa
da recta y = ax + b.
O problema da minimização de Q (a, b) envolve a procura das raízes das equações normais:

∂Q(a,b)
∂a =0
∂Q(a,b)
∂b = 0,

as quais conduzem a um minimizante único - a, -
b dado por

n

 xi (yi −y)

 a= i=1
 - n
xi (xi −x)
i=1




-
b = y−- a x,
20
As propriedades apresentadas na secção seguinte são válidas apenas sob a hipótese de que as variáveis
Ui , i = 1, 2, ..., n, são centradas, de variância σ2 e não correlacionadas.
100
n n
1 1
com x = n xi ey= n yi .
i=1 i=1
a e -b chamamos estimativas dos mínimos quadrados de a e b, respectivamente.

D
. A -
As estimativas dos mínimos quadrados admitem a seguinte interpretação geométrica: - ae-b são,
respectivamente, o declive e a ordenada na origem da recta para a qual é mínima a soma dos quadra-
dos das distâncias dos pontos da nuvem {(xi , yi ) , i = 1, 2, ..., n} aos pontos da recta com as mesmas
abcissas, isto é, da recta de regressão de Y sobre x.
As variáveis aleatórias cujos valores particulares são - a e -b são definidas por


n

 xi (Yi −Y )

 A- = i=1
 n
xi (xi −x)
n=1




 - - x,
B =Y −A
1
n
onde Y = n Yi .
i=1
- e B
D
. A A - chamamos estimadores dos mínimos quadrados de a e b, respectivamente.
- são
Outras formas alternativas para A

n
n
n
(xi − x) Yi − Y (xi − x) Yi xi Yi − nxY
-= i=1 i=1 i=1
A n = n = n
2 2
(xi − x) (xi − x) x2i − n (x)2
i=1 i=1 i=1

n n

uma vez que (xi − x) = Yi − Y = 0.
i=1 i=1
σ2
Note-se que E Y = ax + b e V Y = n . Estes factos serão úteis na prova da propriedade
seguinte.
- eB
P. A - são estimadores cêntricos de a e b, respectivamente.
101
Prova. Temos

n
n
(xi − x) E (Yi ) (xi − x) (axi + b)
- = i=1 i=1
E A n = n .

(xi − x)2 (xi − x)2
i=1 i=1
Mas n n n n

(xi − x) (axi + b) = a (xi − x) xi + b (xi − x) = a (xi − x)2
i=1 i=1 i=1 i=1

n
pois (xi − x) = 0.
i=1
Logo E A - = a.
Por outro lado,

- = E Y − Ax
E B - =E Y −E A
- x = ax + b − ax = b.
-eB
P. Os estimadores A - dos parâmetros a e b verificam

n
σ2 x2i
- = σ2 - = i=1
V A ; V B .

n
2
n
2
(xi − x) n (xi − x)
i=1 i=1
Prova. Sendo as variáveis aleatórias Yi , i = 1, 2, ..., n, independentes e de variância σ2 , vem

 n  n
(xi − x) Y i (x − x)2 V (Yi )
 i=1  i=1 i σ2
V A - =V  = = .
 n 
n 2
n
(xi − x)2 (xi − x)2 (xi − x)2
i=1 i=1 i=1
Por outro lado,


n   2
(xi − x) Yi n

  1 
-
V B - = V Y − x i=1
= V Y − Ax =  − x (xi − x)  V (Yi )
 n  n n 
(xi − x)2 i=1 (xi − x)2
i=1 i=1
 

n n
n x (xi − x) (x)2 (xi − x)2 
 2 i=1 
= σ2  2 − n + i=1 2 
n n n 
(xi − x)2 (xi − x) 2
i=1 i=1
   n  n
2 2
2 (xi − x) + n (x) (xi )2
 1 (x)   
= σ2   = σ2  i=1  = σ2 i=1
n +
n   n 
n
(xi − x)2 n (xi − x)2 n (xi − x)2
i=1 i=1 i=1
n

pois (xi − x) = 0.
i=1

102
Conhecidas as estimativas -ae-b dos parâmetros a e b do modelo, é possível obter os denominados
valores ajustados da v.a.r. dependente, concretamente:
axi + -b, i = 1, ..., n.

y-i = -
D
. O vector (não aleatório) u
- = y − y- cujas componentes são

-i = yi − -
u axi + -b , i = 1, ..., n,
denomina-se vector dos resíduos.
Notemos que u -i nos dá o valor particular da variável aleatória do erro correspondente à i-ésima
observação efectuada
-i = Yi − Ax
U - i+B - , i = 1, ..., n.
4. Inferência sobre os parâmetros do modelo
4.1 Análise probabilista dos estimadores

Relembremos que as variáveis aleatórias Y1 , ..., Yn são normais e independentes. Atendendo a que
-eB
os estimadores A - são transformações lineares de Y1 , ..., Yn , decorre, da estabilidade da lei normal,
que    ( ) 
) n
   ) σ2 x2i 
 σ   ) i=1 
- ∼ N a, 8
A  e B - ∼ N b, ) .
   *
n

 n  n (xi − x) 2
(xi − x)2 n=1
i=1
Sob a hipótese de normalidade dos erros U1 , ..., Un , é possível estabelecer a independência entre
- (resp. B)
as variáveis aleatórias A - eU
-i , i = 1, ...n. De facto, tem-se o resultado seguinte (ver, por
exemplo, G., M.L. 2000):
P.
-eU
a) A -i são independentes, i = 1, 2, ..., n.
-eU
b) B -i são independentes, i = 1, 2, ..., n.

Estas relações de independência permitem, em particular, deduzir a lei da soma dos quadrados dos
resíduos da regressão,
n
2
SQR = -i .
U
i=1
De facto, tem-se
1
SQR ∼ χ2 (n − 2) .
σ2
Este resultado é particularmente útil na estimação de σ (desvio padrão dos erros), o qual é também
um parâmetro desconhecido no modelo em estudo.
n
2
Em particular, atendendo a que a média da lei χ2 (n − 2) é n − 2, deduz-se que n−2 1 -i é
U
i=1
um estimador cêntrico de σ2 .
103
1
Por outro lado, σ2
SQR é uma variável fulcral que nos permite obter intervalos de confiança para
σ2.
4.2 Teste à linearidade do modelo

Uma das análises estatísticas mais importantes que podemos associar ao modelo de regressão linear
Y = ax + b + U
tem a ver com a verificação de que Y depende, de facto, linearmente da variável explicativa x.
Para tal poder-se-á considerar um teste estatístico que permita decidir entre as hipóteses
H0 : a = 0 e H1 : a = 0.
-−a
A
-e
Dos resultados anteriores sobre as leis das variáveis A 1
SQR e tendo em conta que
σ2 σ

n
(xi −x)2
i=1
e SQR são independentes, deduzimos que a variável aleatória real
(
) n
9 8 )
-−a 1 ) (n − 2) (xi − x)2
∗ A σ2 SQR * i=1 -−a
A = σ = A
n−2 SQR
n
(xi −x)2
i=1
segue a lei de Student com n − 2 graus de liberdade, isto é, A∗ ∼ T (n − 2) .

Sob H0 tem-se a = 0 e, então,
(
)
n
)
) (n − 2) (xi − x)2
* i=1 - ∼ T (n − 2) .
A
SQR
Dado α ∈ ]0, 1[ , determinemos o real t = t(α) tal que

α
P (T < t) = 1 − ,
2
onde T é uma variável aleatória seguindo a lei T (n − 2) . Nestas condições, a região de R2n
 ( 
 ) n 

 ) 2 

 ) (n − 2) (xi − x) 
* i=1
RC = (x1 , ..., xn , y1 , ..., yn ) : |-
a| > t ,

 sqR 


 

onde sqR é o valor de SQR correspondente à amostra observada, é a região crítica de um teste de H0
contra H1 com nível de significância α. 8

n
(n−2) (xi −x)2
Então, ao nível de significância α, aceitamos a hipótese H0 se i=1
sqR |-
a| ≤ t (α) ,
rejeitando-a se esta desigualdade não é verificada.
104
4.3 Outras inferências no modelo de regressão
A variável A∗ permite também obter intervalos de confiança para o parâmetro a ao grau de
confiança β. Assim, pelo método da variável fulcral, determinamos c ∈ R+ tal que
 ( 
) n
) 2
 ) (n − 2) (xi − x) 
 * i=1 - − a < c
P −c < A =β
 SQR 
1+β
onde c é tal que FT (n−2) (c) = 2 . Assim
 
 ( ( 
- ) sqR ) sqR 
a − c ) , a
- + c)
 *
n
2 *
n
2

(n − 2) (xi − x) (n − 2) (xi − x)
i=1 i=1
é um intervalo de confiança para a, com grau de confiança β.
O estudo que acabamos de efectuar sobre o parâmetro a, presente no modelo de regressão, ilustra
algumas das questões que poderão surgir aquando da sua utilização.
Há ainda outros aspectos que poderão também revelar-se importantes. Em particular, de modo
análogo ao anterior, podemos efectuar inferências sobre o parâmetro b, através da construção de
intervalos de confiança e de testes. Nestes estudos é habitualmente utilizada a v.a.r.
-−b
B
B∗ = (
)
n
) SQR x2i
) i=1
*
n
n(n−2) (xi −x)2
i=1
a qual, sob as hipóteses impostas, segue a lei de Student com n − 2 graus de liberdade.
Além disso, podemos pretender prever valores de Y , tanto pontualmente como de forma intervalar.
A previsão pontual para yn+1 , por exemplo, a partir de uma observação xn+1 é o número real
axn+1 + -b.
y-n+1 = -
Claro que admitimos que as hipóteses feitas sobre os erros do modelo inicial, U1 , ..., Un , valem
para U1 , ... , Un+1 .
Notemos que - axn+1 + -b é uma estimativa cêntrica de E(Yn+1 ).
O erro de previsão é, então,

yn+1 − y-n+1 = axn+1 + b + un+1 − - axn+1 + -
b

= (a − -a) xn+1 + b − -b + un+1 ,
valor particular da variável aleatória En+1 = Yn+1 − Y-n+1 .

Relativamente às propriedades elementares do erro de previsão temos

E (En+1 ) = E a − A - xn+1 + b − B - + Un+1 = 0.
105
Por outro lado, a variância do erro de previsão é
2
V (En+1 ) = E En+1
(  
)
)
) 
) 2 1 (xn+1 − x)2  ,
= )σ 1 + + n 
* n 2
(xi − x)
i=1

- ,V B
tendo em conta os valores de V A - ,E a−A
- b−B
- = −σ2 n x
e a independência

(xi −x)2
i=1
de U1 , ..., Un+1 .
Sendo U1 , ..., Un gaussianos, podemos obter um intervalo de confiança para E(Yn+1 ) e, como ve-
remos, um intervalo, denominado intervalo de previsão, para os valores possíveis de yn+1 .
De facto, sendo A -eB - funções lineares de Y1 , ..., Yn , então Y-n+1 é também uma função linear de
Y1 , ..., Yn . Assim, Y-n+1 segue uma lei normal tendo-se
 (  
)
)
 ) 1 (xn+1 − x)2  
-  ) 2 
Yn+1 − E(Yn+1 ) ∼ N 0, )σ  + n .
 * n 
(xi − x)2
i=1
Por outro lado, concluímos também que

 (  
)
)
 )  1 (xn+1 − x)2  
 ) 
Y-n+1 − Yn+1 ∼ N 0, )σ 2 1 + +  .
 *  n n

(xi − x)2
i=1
- e de B,
Além disso, sendo SQR independente de A - as variáveis aleatórias
Y-n+1 − E (Yn+1 ) Y-n+1 − Yn+1

U=(   e V =(  
) )
) )
) SQR  1 (xn+1 −x) 2 ) SQR  2
(xn+1 −x) 
* n−2 n + n
2
* n−2 1 + n1 + n
2
(xi −x) (xi −x)
i=1 i=1
seguem leis de Student com n − 2 graus de liberdade.
A variável aleatória U é uma variável fulcral pelo que, dado β ∈ ]0, 1[ , um intervalo de confiança
para E (Yn+1 ), de grau de confiança β, é
 (   (  
) )
) )
 ) 2 ) 2 
 ) sqR   1 + (xn+1 − x) , y-n+1 + c) sqR  1 + (xn+1 − x) 
y-n+1 − c) ) 
 *n − 2 n n
2
 *n − 2 n
n
2 
(xi − x) (xi − x)
i=1 i=1
onde c é tal que P (|T | ≤ c) = β, com T ∼ T (n − 2) .
Consideremos agora a variável aleatória V.

1+β
Dado β ∈ ]0, 1[, seja c tal que β = P (−c < V < c) , isto é, FT (n−2) (c) = 2 .
106
n
1
Assim, como n (xi − x)2 = s2X , temos
i=1
 ( ( 
) )
) SQR 1 (xn+1 − x)2 ) SQR 2
1 (xn+1 − x) 
β = P Y-n+1 − c* 1+ + 2 < Yn+1 < Y-n+1 + c* 1+ + ,
n−2 n nsX n − 2 n ns2X
e, portanto, obtemos, para valores possíveis da variável explicativa xn+1 , diversos intervalos da forma
 ( ( 
) )
) sqR 1 (x − x) 2 ) sq 1 (x − x)2
y-n+1 − c* 1+ +
n+1
, y-n+1 + c*
R
1+ +
n+1 
n−2 n ns2X n−2 n ns2X
que se denominam intervalos de previsão para yn+1 , de grau de confiança β (por analogia com os
intervalos de confiança).
Um outro aspecto fundamental neste tipo de estudo consiste em verificar a adequação aos
dados do modelo de regressão obtido. Uma forma de avaliar tal ajustamento consiste em verificar se
os resíduos estandardizados
- i+B
Yi − Ax -
# , i = 1, ..., n,
SQR
n−2
verificam as hipóteses do modelo, concretamente, se são variáveis aleatórias normais centradas, reduzi-
das e independentes. Estes procedimentos podem ser efectuados recorrendo aos métodos de análise
estatística anteriormente apresentados.
5. Exemplos
1. Os valores, expressos em unidades u, do volume de investimento em tecnologia, Y , e do volume de

negócios, x, de um determinado sector da economia, observados durante 6 anos, foram registados
no quadro seguinte.
Ano Volume de investimento em tecnologia (u) Vol. negócios (u)

1 18 62
2 22 66
3 21 72
4 26 78
5 25 81
6 28 86
Pretende testar-se a existência de uma relação linear entre as variáveis x e Y :
Yi = axi + b + Ui , i = 1, ..., n
supondo que as variáveis aleatórias Ui são normais, centradas, de variância σ 2 , i = 1, ..., n, e

independentes.
a) Represente a nuvem de pontos (xi , yi ) , i = 1, ..., 6.
107
a e -b, dos parâmetros
b) Usando o método dos mínimos quadrados, determine as estimativas, -
a e b.
c) Obtenha uma estimativa cêntrica de σ2 .
d) Poderá dizer que a é significativamente diferente de zero ao nível de significância 0.05?
e) Suponha que o volume de negócios no ano 8 é 95 u.
(i) Com base na relação linear estimada, qual é o volume de investimento em tecnologia
previsto para o ano 8?
(ii) Obtenha um intervalo de confiança, de grau de confiança 0.95, para o volume médio
de investimento em tecnologia daquele sector no ano 8.
Resolução. b) O quadro seguinte facilita a organização dos cálculos para a determinação de

ae-
- b.
i xi yi xi yi (xi )2
1 62 18 1116 3844
2 66 22 1452 4356
3 72 21 1512 5184
4 78 26 2028 6084
5 81 25 2025 6561
6 86 28 2408 7396
Total 445 140 10541 33425
Como n = 6 vem
445
x = = 74.2
6
140
y = = 23.3.
6
Consequentemente,
n
xi yi − nxy
i=1 10541 − 6 (74.2) (23.3) 10541 − 10373.16 167.84
a =
- n = 2 = = ≃ 0.4
2 2 33425 − 6 (74.2) 33425 − 33033.84 391.16
xi − n (x)
i=1
-b = y − -
ax = 23.3 − 0.4 (74.2) = −6.38 ≃ −6.4.
c) Uma estimativa cêntrica de σ2 é dada por

6
1 1
sqR = ui )2 ,
(-
n−2 4
i=1
com u axi + -b, i = 1, ..., 6.

-i = yi − y-i , y-i = -
Retomamos o quadro anterior, incluindo nele alguns dos cálculos necessários.
i xi yi xi yi (xi )2 y-i yi − y-i (yi − y-i )2
1 62 18 1116 3844 18.4 −0.4 0.16
2 66 22 1452 4356 20 2.0 4
3 72 21 1512 5184 22.4 −1.4 1.96
4 78 26 2028 6084 24.8 1.2 1.44
5 81 25 2025 6561 26 −1 1
6 86 28 2408 7396 28 0 0
Total 445 140 10541 33425 8.56
108
1
6
Uma estimativa cêntrica de σ2 é, então 4 (yi − y-i )2 = 14 8.56 = 2.14.
i=1
d) Para avaliar se a é significativamente diferente de zero ao nível de significância 0.05, consider-

amos o teste da hipótese H0 : a = 0 contra H1 : a = 0 cuja região crítica é
 ( 
 ) n 

 ) 2 2 

 ) xi − n (x) 
* i=1
RC = (x1 , ..., x6 , y1 , ..., y6 ) : 1 |-
a| > c

 n−2 sqR



 

com c > 0 tal que
0.05 = P (rejeitar H0 / H0 verdadeira) = P (|T | > c) , T ∼ T (4) .
Obtemos
0.95 = P (|T | ≤ c) = FT (c) − [1 − FT (c)] = 2FT (c) − 1
pelo que FT (c) = 0.975, o que conduz a c = 2.776.
Para a amostra observada, a estatística de teste é igual a
(
) n
) x2 − n (x)2 !
)
* i=1 i 391.16
1 |-
a| = 0.4 ≃ 13.5(0.4) = 5.4 .
n−2 sqR
2.14
Concluímos que a amostra pertence à região crítica pelo que consideramos, ao nível de significância
0.05, a significativamente diferente de zero.
e) (i) Se o volume de negócios no ano 8 é x8 = 95 u, o volume de investimento em tecnologia

previsto para o ano 8 é, tendo em conta a relação estimada,
ax8 + -b = 0.4 (95) − 6.4 = 31.6.

y-8 = -
(ii) Para construir um intervalo de confiança para o volume médio de investimento em tecnologia
daquele sector no ano 8, E (Y8 ) , consideramos a variável fulcral
Y-8 − E (Y8 )
T =(  
)
)
) SQR  1 (x8 −x)2

* 4 6 + n
2
x2i −n(x)
i=1
que, como sabemos, segue a lei de Student com 4 graus de liberdade.

Sendo o grau de confiança 0.95, procuramos z > 0 tal que 0.95 = P (−z < T < z) . Obtemos
z = 2.776. Então,
−2.776 < T < 2.776 ⇔

(   (  
) )
) )
) SQ  1 − 2  ) SQ 1 2 
- )
⇔ Y8 −2.776)
R  +
(x 8 x)  - )
< E (Y8 ) < Y8 +2.776)
R  + (x8 − x) .
* 4 6 n  * 4 6 n 
x2i − n (x)2 2
xi − n (x)2
i=1 i=1
Para a amostra observada tem-se
109
 
391.16+2595.84
sqR 1 + (x8 −x)2  = 2.14 1 (95−74.2)2
4 6
n 6 + 391.16 = 2.14 2346.96 = 2.14 (1.27) ≃ 2.7.
x2i −n(x)2
i=1
Concluímos que um intervalo de confiança para E (Y8 ), ao grau de confiança 0.95, é

√ √
31.6 − 2.776 2.7, 31.6 + 2.776 2.7 = ]31.6 − 4.6, 31.6 + 4.6[ = ]27, 36.2[ .
2. No quadro abaixo estão representados os pesos e as alturas, em quilogramas e centímetros,

respectivamente, de uma amostra de 8 estudantes extraída ao acaso entre os alunos do segundo
ano de um determinado estabelecimento de ensino superior:
Peso (x) 70 63 72 67 62 70 74 65
.
Altura (y) 155 150 180 145 162 168 178 160
Teste, ao nível de significância 0.05, a existência de uma relação linear entre a variável explicativa
x e a variável aleatória explicada Y , assumindo que as variáveis aleatórias dos erros associados
são normais, centradas e independentes.
110
Módulo 8 - Provas de avaliação com resolução
D M U C
Prova 1 21
I
No quadro seguinte encontra-se resumida a distribuição dos quilómetros percorridos diariamente por
um determinado taxista durante o mês de Setembro de 2009.
Quilómetros percorridos ]150, 250] ]250, 350] ]350, 450] ]450, 550]
no de dias 9 12 6 3
Determine a média e o desvio padrão dos quilómetros percorridos diariamente pelo referido taxista
durante aquele mês.
II
Foi realizado um inquérito junto dos clientes de um determinado hipermercado com o objectivo de
relacionar a forma de pagamento (cartão de crédito, cartão multibanco, cheque ou dinheiro) utilizada
com o valor das compras efectuadas em cada ida ao hipermercado.
Com base nos resultados desse inquérito concluiu-se que, em cada ida ao hipermercado,
• os clientes utilizam apenas uma das referidas formas de pagamento;
• 11% dos clientes pagam com cartão de crédito, 50% com cartão multibanco e 5% com cheque;
• todos os clientes que pagam com cartão de crédito gastam mais de 50€;
• 30% dos clientes pagam com cartão multibanco e gastam quando muito 50€;
• 80% dos clientes que pagam com cheque gastam mais de 50€;
• 12.5% dos clientes que gastam mais de 50€ pagam em dinheiro.
Selecciona-se aleatoriamente um cliente daquele hipermercado que acabou de pagar as suas compras.
1. Verifique que a probabilidade do cliente ter gasto mais de 50€ é 0.4.
2. Serão os acontecimentos "o cliente paga com cartão multibanco"e "o cliente gasta mais de
50€"independentes?
3. Sabendo que o referido cliente gastou mais de 50€, qual a probabilidade de não ter pago as suas
compras com cheque nem com cartão multibanco?
III
Cada período de estacionamento de uma viatura num determinado parque de estacionamento tem
a duração máxima de 3 horas. Em cada um destes períodos, o tempo de permanência (expresso em
21
Prova incidente sobre a primeira parte do programa da unidade curricular.
111
horas) de uma viatura no referido parque é bem representado por uma variável aleatória real contínua,
X, com função de repartição


 0, x<0





 x

 , 0≤x<1

 2
F (x) =

 x2 3 1

 − + x − , 1≤x<3



 8 4 8




1, x ≥ 3.
1. Determine o primeiro quartil de X. Como interpreta o valor obtido?

2. Obtenha a função densidade de X.
3. Qual o tempo médio de permanência de uma viatura no parque, em cada período de estaciona-
mento?
4. Sabendo que, em determinado período de estacionamento, uma viatura permaneceu no parque mais
de 2 horas, calcule a probabilidade dessa viatura ali ter permanecido menos de 2 horas e 30 minutos.
112
Proposta de resolução da prova 1
Dispomos de uma amostra relativa aos quilómetros percorridos diariamente por um taxista durante
o mês de Setembro de 2009 e pretendemos determinar a média e o desvio padrão da amostra, isto é,
x e sX . Consideremos o quadro seguinte.
′ ′
′ 2
]150, 250] 9 200 1800 36×104
]250, 350] 12 300 3600 108×104
]350, 450] 6 400 2400 96×104
]450, 550] 3 500 1500 75×104
Total 30 9300 315×104
′
Neste quadro xi denota a marca da classe i, i = 1, 2, 3, 4. Tem-se
4
′1 ′ 9300
x=x = ni xi = = 310
30 1=1 30
1 ′ 2 ′ 2 315
4
s2X = s2X ′ = ni xi − x = × 104 − (310)2 = 105000 − 96100 = 8900
30 1=1 30
pelo que √
sX = 8900 ≃ 94.
Assim, durante o mês de Setembro, o taxista percorreu por dia, em média, 310 Km. O desvio
padrão da amostra observada é aproximadamente 94 Km.
II
Consideremos os acontecimentos:
Cr = o cliente paga com cartão de Crédito

Mu = o cliente paga com cartão Multibanco
Ch = o cliente paga com Cheque
D = o cliente paga com Dinheiro.
Sabemos que estes acontecimentos são dois a dois incompatíveis.

Além disso, Cr ∪ Mu ∪ Ch ∪ D = {clientes que pagam as suas compras} = Ω.
Consideremos ainda o acontecimento
M = cliente gasta mais de 50 €.
É dada a seguinte informação:

11 5 5
P (Cr) = , P (Mu) = , P (Ch) = ,
100 10 100
3 8 125
Cr ⊂ M, P (Mu ∩ M) = , P (M/Ch) = , P (D/M) = .
10 10 1000
113
4
1. Pretendemos mostrar que P (M) = 10 .
P (M) = P [M ∩ (Cr ∪ Mu ∪ Ch ∪ D)] ,

porque Cr ∪ Mu ∪ Ch ∪ D = Ω
= P (M ∩ Cr) + P (M ∩ Mu) + P (M ∩ Ch) + P (M ∩ D),
porque Cr, Mu, Ch, D são 2 a 2 incompatíveis
= P (Cr) + P (M ∩ Mu) + P (Ch)P (M/Ch) + P (M)P (D/M)
porque Cr ⊂ M e pela definição de probabilidade condicional.
Mas, como
3
= P (Mu ∩ M) = P (Mu) − P (Mu ∩ M),
10
obtemos
3 5 2
= − P (Mu ∩ M) ⇔ P (Mu ∩ M) = .
10 10 10
Concluímos que
11 2 5 8 125
P (M) = + + + P (M)
100 10 100 10 1000

125 11 + 20 + 4
⇔ P (M) 1 − =
1000 100
350
⇔ P (M) = = 0.4.
875
2. Os acontecimentos Mu e M são independentes se P (Mu ∩ M) = P (Mu)P (M). Ora
5 4 2
P (Mu)P (M) = =
10 10 10
2
P (Mu ∩ M) =
10
pelo que podemos concluir que são independentes.
3. Temos
P (Ch ∩ M u /M) = P (Ch ∪ Mu/M)

= 1 − P ( Ch ∪ Mu /M )
= 1 − [P ( Ch /M) + P ( Mu /M)] , porque Ch e Mu são incompatíveis.
Desta forma, atendendo à independência entre Mu e M, tem-se P (Mu/M) = P (Mu) e, conse-

quentemente,
P ( Ch ∩ M)
P (Ch ∩ Mu /M) = 1 − − P (Mu)
P (M)
P (M/Ch)P (Ch)
= 1− − P (M u)
P (M)
4
100 5 2
= 1− 4 − = .
10
10 5
III
1. Como a variável aleatória X é contínua, o primeiro quartil de X é todo o número real x tal que
F (x) = 14 .
114
Por outro lado, da expressão de F vemos que F (0) = 0 e F (1) = 12 .
Então, como F é uma função não decrescente, temos necessariamente 0 < x < 1, pelo que
1 x 1
F (x) = ⇔ = ⇔ x = 0.5 .
4 2 4
Assim, o primeiro quartil de X é 0.5 . Isto significa que em 25% dos casos, o tempo de permanência
de uma viatura é de quando muito meia hora.
′
F (x) , para todo x ∈ R em que F é derivável
2. Sabemos que f (x) =
0, outros casos.
Ora F é derivável em R \ {0}, vindo então



 0, x≤0 ∨ x>3


1
f (x) = 2, 0<x<1 .


 1

4 (−x + 3) , 1≤x≤3
3. O tempo médio pedido é dado por

+∞ 1 3
1 1
E (X) = xf(x)dx = x dx + x (−x + 3) dx, pois f(x) = 0, x ∈
/ [0, 3]
2 4
−∞ 0 1
x=1 x=3
1 x2 1 x3 x2
= + − +3
2 2 x=0 4 3 2 x=1

1 1 27 1 3 1 1 10 13
= + −9 + + − = + = ,
4 4 2 3 2 4 4 3 12
ou seja, o tempo médio de permanência de uma viatura no parque é de 1.08 h, isto é, de aproximada-
mente 1 hora e 5 minutos.
4. Pela definição de probabilidade condicionada,
P ((X < 2.5) ∩ (X > 2))

P (X < 2.5/X > 2) =
P (X > 2)
P (2 < X < 2.5)
=
1 − P (X ≤ 2)
F (2.5) − F (2)
=
1 − F (2)
Mas F (2) = − 12 + 6
4 − 1
8 = 7
8 e F (2.5) = − 25
32 +
15
8 − 1
8 = 31
32 .
Então
3
32 3
P (X < 2.5/X > 2) = 1 = .
8
4
115
D M U C
Prova 2 22
1. Uma companhia de seguros classifica os seus segurados do ramo automóvel em três categorias:
baixo risco, risco médio e risco elevado. Os registos da companhia permitem concluir que:
• 10% dos segurados pertencem à categoria de baixo risco;

• 10% dos segurados pertencem à categoria de risco elevado e envolvem-se anualmente nalgum
acidente;
1
• 3 dos segurados que não pertencem à categoria de baixo risco envolvem-se anualmente
nalgum acidente;
• na categoria de risco elevado, 75% dos segurados não se envolvem anualmente em qualquer
acidente; na categoria de baixo risco a percentagem correspondente é 80%.
Escolhe-se, ao acaso, um dos segurados da companhia.
a) Mostre que a probabilidade do segurado pertencer à categoria de risco elevado é 0.4 .

b) Se o segurado pertence à categoria de risco médio, qual a probabilidade de não se envolver
anualmente em qualquer acidente?
c) Em cada uma das categorias, os acidentes em anos diferentes ocorrem de forma indepen-
dente. Qual a probabilidade de um segurado não se envolver em qualquer acidente em dois
anos consecutivos?
2. Seja Y a variável aleatória real discreta que representa o número anual de acidentes de automóvel
participados à companhia por um dos seus segurados. Suponha que a função de probabilidade
de Y é definida por 
 0.68 , y = 0




 α , y ∈ {1, 2}
g(y) = 0.02 , y = 3 ,



 0 , y ∈ R\{ 0 , 1 , 2 , 3}


onde α denota determinada constante real positiva.
a) Determine o valor de α .
b) Calcule o desvio padrão de Y .
c) Qual a probabilidade de, em determinado ano, o segurado participar à companhia menos
de 2 acidentes?
3. Admita agora que a indemnização (expressa em u.m.) paga pela companhia, por cada acidente de
automóvel participado, é uma variável aleatória real contínua, X, de função densidade definida
por


 0 , x<0

x
fX (x) = 8 , 0≤x≤2 , x ∈ IR .


 6
x3
, x>2
22
116
a) Construa a função de repartição de X .
b) Determine o 3o quartil de X e interprete o valor obtido.
c) Sabendo que a companhia pagou, por determinado acidente participado, uma indemnização
superior a 1 u.m. , calcule a probabilidade dessa indemnização não ter excedido 3 u.m. .
117
1. Consideremos os acontecimentos:
B = “segurado é de baixo risco”

M = “segurado é de risco médio”
E = “segurado é de risco elevado”.
10 1
Sabemos que P (B) = 100 = 10 .
Consideremos ainda o acontecimento

A = “segurado envolve-se anualmente nalgum acidente”.
1 1 3 2
P (E ∩ A) = , P (A/B) = , P (A/E) = , P (A/B) = .
10 3 4 5
4
a) Pretendemos mostrar que P (E) = 10 .
Ora,

P (E) = P E ∩ A∪A
= P (E ∩ A) + P (E ∩ A), pois A ∩ A = ∅
1
= 10 + P (E)P (A/E)
1
= 10 + P (E) 34 .
Concluímos que
1 1 4
P (E) = ⇔ P (E) = .
4 10 10
b) Da definição de probabilidade condicionada,
P (A ∩ M)
P (A/M) = 1 − P (A/M) = 1 − .
P (M)
Ora B ∪ M ∪ E = Ω = {segurados da companhia} , com B, M e E acontecimentos dois a dois

1 4
incompatíveis. Como P (B) = 10 e P (E) = 10 , vem
1 4 1
P (B) + P (M) + P (E) = 1 ⇔ + + P (M) = 1 ⇔ P (M) = .
10 10 2
Por outro lado, de
1 P (A ∩ B) P (A ∩ (M ∪ E)) P (A ∩ M) + P (A ∩ E)
= P (A/B) = = = 9
3 P B 1 − P (B) 10
obtemos
1 9
3 × 10 = P (A ∩ M) + P (A ∩ E)
3 1
⇔ 10 = P (A ∩ M) + 10
⇔ P (A ∩ M) = 15 .
118
Então
1
P (A ∩ M) 5 2 3
P (A/M) = 1 − =1− 1 =1− = .
P (M ) 2
5 5
c) Seja Ai ="segurado não se envolve em qualquer acidente no ano i", i = 1, 2.

Temos P A1 ∩ A2 =

= P A1 ∩ A2 ∩ (B ∪ M ∪ E)

=P A1 ∩ A2 ∩ B ∪ A1 ∩ A2 ∩ M ∪ A1 ∩ A2 ∩ E

= P A1 ∩ A2 ∩ B + P A1 ∩ A2 ∩ M + P A1 ∩ A2 ∩ E , pois B, M, E são 2 a 2 incompativeis

= P (B) P A1 ∩ A2 /B + P (M) P A1 ∩ A2 /M + P (E) P A1 ∩ A2 /E .
1. Como, em cada categoria, os acidentes em anos diferentes são independentes, vem

1 1 4
P A1 ∩ A2 = P A1 /B P A2 /B + P A1 /M P A2 /M + P A1 /E P A2 /E
10 2 10
64 9 9 469
= + + = .
1000 50 40 1000
2. Seja Y a v.a.r. que representa o número anual de acidentes de automóvel participados à com-
panhia por um dos seus segurados.
a) Se 

 0.68, y =0

α, y ∈ {1, 2}
g (y) =

 0.02, y =3

0, y ∈ R\ {0, 1, 2, 3}
com α real positivo, é função de probabilidade de Y, então g (y) = P (Y = y) , y ∈ R.

Por outro lado, sendo SY o suporte de Y , tem-se SY = {y ∈ R : P (Y = y) > 0} . Consequente-
mente, SY = {0, 1, 2, 3} , pois α > 0 e ∀y ∈ R\ {0, 1, 2, 3} , P (Y = y) = 0.
Finalmente, como P (Y ∈ SY ) = 1, obtemos

1 = P (Y = y) = 0.7 + 2α
y∈SY
⇔ α = 0.15.
b) Tem-se
15 30 6 51
E (Y ) = yP (Y = y) = + + =
100 100 100 100
y∈SY
15 60 18 93
E Y2 = y2 P (Y = y) = + + = .
100 100 100 100
y∈SY
Pela fórmula de Koënig, obtemos

6699
V (Y ) = E Y 2 − [E (Y )]2 =
10000
√
6699
pelo que o desvio padrão de Y é σY = 100 .
119
c) Temos
P (Y < 2) = P (Y ≤ 1) , porque SY = {0, 1, 2, 3}
= P (Y = 0) + P (Y = 1)
= 0.83.
3. Seja X a v.a.r. que representa a indemnização paga pela companhia por cada acidente de
automóvel participado.
x
a) Para qualquer x ∈ R, FX (x) = fX (t) dt. Então,
−∞
x
• se x ≤ 0, FX (x) = 0dt = 0
−∞
0 x x t x2
• se 0 < x ≤ 2, FX (x) = 0dt + fX (t) dt = 8 dt = 16
−∞ 0 0
0 2 t
x 6 3
• se x > 2, FX (x) = 0dt + 8 dt + t3
dt =1− x2
.
−∞ 0 2
b) Sendo X uma variável aleatória real contínua, o terceiro quartil de X é todo o número
real x que verifique FX (x) = 34 . Por outro lado, como FX (2) = 14 , necessariamente x > 2
porque FX é não decrescente. Assim,
3 3 3
FX (x) = 4 ⇔ 1− x2
= 4
⇔ x2 = 12√
⇔ x = ±2 3.
√ √
Como −2 3 ≯ 2, concluímos que o terceiro quartil de X é 2 3.
Concluímos
√ então que 75% das indemnizações pagas pela companhia têm valor inferior ou
igual
√ a 2 3 u.m.(ou que 25% das indemnizações pagas pela companhia têm valor superior
a 2 3 u.m.).
c) Temos
P [(X ≤ 3) ∩ (X > 1)]

P (X ≤ 3/X > 1) =
P (X > 1)
P (1 < X ≤ 3)
=
P (X > 1)
FX (3) − FX (1)
= .
1 − FX (1)
2 1
Ora FX (3) = 3 e FX (1) = 16 . Obtemos, então,
29
P (X ≤ 3/X > 1) = .
45
120
D M U C
Prova 3 23
I
Um psicólogo realizou um inquérito sobre a qualidade das instalações de uma determinada residên-
cia universitária. Todos os residentes participaram no inquérito e, relativamente ao grau de satisfação
declarado sobre as referidas instalações, foram classificados em três níveis: satisfeito, parcialmente
satisfeito e insatisfeito.
Sabe-se que 40% dos residentes declarou estar satisfeito e que, destes, 25% são caloiros. Constatou-
-se também que 16% dos residentes parcialmente satisfeitos são caloiros e que 60% dos residentes
insatisfeitos não são caloiros. Sabe-se ainda que 22% dos residentes são caloiros.
1. Escolhe-se ao acaso um dos residentes.
a) Qual a probabilidade de ele estar insatisfeito com as instalações da residência?

b) Se o residente não é caloiro, qual a probabilidade de estar parcialmente satisfeito com as
instalações da residência?
2. Poderá afirmar que o facto de um residente estar satisfeito com as instalações da residência é
independente de ele ser caloiro?
II
Uma empresa executa projectos de engenharia. Considere a variável aleatória real, X, que re-
presenta a diferença entre o número de dias previsto para a execução de um projecto de determinado
tipo e o número efectivo de dias de execução do projecto. Admita que a função de probabilidade de
X é dada por


 0.05, x = −2

 0.15, x = −1



0.3, x=0
gX (x) =

 0.4, x=1



 0.1, x=2

0, x ∈ R\ {−2, −1, 0, 1, 2} .
1. Construa a função de repartição de X.
2. Qual a probabilidade de um projecto daquele tipo ser concluído antes do prazo previsto?
3. A empresa recebe 30 u.m. por cada projecto daquele tipo. Contudo, sempre que o projecto não
é concluído dentro do prazo previsto, a empresa sofre uma penalização de 5 u.m. por cada dia
de atraso. Determine a função de probabilidade da variável aleatória que representa a receita
obtida pela empresa com a execução de um daqueles projectos.
23
121
III
Numa investigação sobre memória e inteligência, ensinam-se ratos a percorrer um labirinto até
chegarem ao fim, onde encontram uma recompensa em comida. O tempo, expresso em centenas de
segundos, que um rato demora a percorrer o labirinto é bem representado pela variável aleatória
contínua, X, com função de repartição dada por


 0, x<0


 x2 , 0≤x<1
3
F (x) = 2
 x 1
 − 6 + x − 2, 1 ≤ x < 3



1, x ≥ 3.
1. Determine a mediana de X e interprete o resultado obtido.
2. Se um rato percorrer o labirinto em menos de 200 segundos, qual a probabilidade de efectuar

tal percurso em mais de 50 segundos?
3. Obtenha a função densidade de X.
4. Quanto tempo demora, em média, um rato a percorrer o labirinto?
122
S = o residente está satisfeito com as instalações

SP = o residente está parcialmente satisfeito com as instalações
I = o residente está insatisfeito com as instalações
C = o residente é caloiro.
Sabemos que os acontecimentos S, SP e I são dois a dois incompatíveis.

Além disso, S ∪ SP ∪ I = {residentes} = Ω.
P (S) = 0.4, P (C) = 0.22, P (C / S) = 0.25, P (C / SP ) = 0.16, P (C / I) = 0.6.
1. a) Pretendemos calcular P (I). Ora
0.22 = P (C) = P [C ∩ (S ∪ SP ∪ I)]

= P [(C ∩ S) ∪ (C ∩ SP ) ∪ (C ∩ I)]
= P (S ∩ C) + P (SP ∩ C) + P (I ∩ C)
uma vez que os acontecimentos são dois a dois incompatíveis.

Mas
P (S ∩ C) = P (S) P (C/S) = 0.4 × 0.25 = 0.1
P (SP ∩ C) = P (SP ) P (C/SP ) = 0.16P (SP )
e
P (I ∩ C) = P (I) P (C/I) = 0.4P (I) .
Portanto
0.22 = 0.1 + 0.16P (SP ) + 0.4P (I) .
Por outro lado,
P (Ω) = 1 = P (S) + P (SP ) + P (I)
pois os acontecimentos S, SP e I são dois a dois incompatíveis. Consequentemente,
P (SP ) = 0.6 − P (I) .
Então
0.12 = [0.6 − P (I)] 0.16 + 0.4P (I)
e portanto P (I) = 0.1.
Note-se que P (SP ) = 0.6 − 0.1 = 0.5.

P SP ∩ C P (SP ) P (C/SP ) 0.5 (1 − 0.16) 0.42 7
b) P SP/C = = = = = .
P (C) 1 − P (C) 1 − 0.22 0.78 13
123
2. P (S ∩ C) = P (S) P (C/S) = 0.4 × 0.25 = 0.1
P (S) P (C) = 0.4 × 0.22 = 0.088
Como P (S ∩ C) = P (S) P (C), S e C não são independentes.
Assim, não podemos afirmar que o facto de um residente estar satisfeito com as instalações é
independente de ele ser caloiro.
II
Seja X = "diferença entre o número de dias previsto para a execução do projecto e o número
efectivo de dias de execução".
1. Temos 

 0, x < −2

 0.05, −2 ≤ x < −1



0.2, −1 ≤ x < 0
FX (x) = P (X ≤ x) =

 0.5, 0≤x<1



 0.9, 1≤x<2

1, x ≥ 2.
2. Notemos que o projecto é concluído antes do prazo previsto se o número de dias de execução é
inferior ao número de dias previsto, isto é, se X > 0.
Então P (X > 0) = P (X = 1) + P (X = 2) = 0.5.
3. Seja R = "receita obtida pela empresa com a realização do projecto (em euros)".
Os valores assumidos por R são


 30, se X ≥ 0
R= 30 − 5, se X = −1

30 − 10, se X = −2
com P (R = 20) = P (X = −2) = 0.05

P (R = 25) = P (X = −1) = 0.15
P (R = 30) = P (X ≥ 0) = 0.8.
Então R é uma variável aleatória discreta de suporte SR = {20, 25, 30} e função de probabilidade


 0.05, r = 20

0.15, r = 25
fR (r) = P (R = r) =

 0.8, r = 30

0, r∈/ {20, 25, 30} .
III
Seja X ="tempo que um rato demora a efectuar o percurso (em centenas de segundos)".
1. Mediana de X é todo o real x tal que FX (x) = 0.5.

Ora FX (1) = 13 < 0.5 e FX (3) = 1 > 0.5 pelo que a mediana pertence ao intervalo ]1, 3[ .
124
Então
x2 1 1
FX (x) = 0.5 +x− =
⇐⇒ −
6 2 2
⇐⇒ x2 − 6x +√ 6 = 0
6 ± 36 − 24 √
⇐⇒ x = ⇐⇒ x = 3 ± 3.
2
√ √
Como 3 + 3 ∈ / ]1, 3[ , concluímos que a mediana de X é 3 − 3.
√
Em 50% dos percursos efectuados pelo rato, ele demora quando muito 3− 3 centenas de segundos
a percorrer o labirinto.
2. Temos
P ((X > 0.5) ∩ (X < 2)) P (0.5 < X < 2)
P (X > 0.5/X < 2) = =
P (X < 2) P (X < 2)
4 1
FX (2) − FX (0.5) − 6 + 2 − 12 − 12 9
= = 4 1 = .
FX (2) −6 + 2 − 2 10
3. Sabemos que
′
FX (x) , nos pontos x onde esta derivada existe
fX (x) =
0, nos pontos x onde esta derivada não existe.
′ ′
Ora, se x < 0 ou x > 3 tem-se FX (x) = 0. Se 0 < x < 1, tem-se FX (x) = 23 x. Quando 1 < x < 3,
′
vem FX (x) = − x3 + 1.
Falta apenas analisar as derivadas nos pontos 0, 1 e 3. Como
′ ′ ′
FX (0) = 0, FX (1) = 23 , FX (3) = 0
tem-se 
 0, x ≤ 0 ou x ≥ 3
2
fX (x) = x, 0<x≤1
 3x
− 3 + 1, 1 < x < 3.
4. Temos

+∞ 1 3
2 2 x
E (X) = xfX (x) dx = x dx + x − + 1 dx, pois fX (x) = 0, x ∈
/ ]0, 3[
3 3
−∞ 0 1
1
3 3
2 x3 x x2
= + − +
3 3 0 9 2 1

2 9 1 1
= + −3 + − − +
9 2 9 2
2 10 4
= + = .
9 9 3
400
Assim, um rato demora, em média, 3 segundos a percorrer o labirinto.
125
D M U C
Prova 4 24
I
Numa determinada região, o número de filhos dos sexos feminino e masculino, por casal, é bem
representado pelas variáveis aleatórias discretas X e Y , respectivamente. No quadro seguinte encontra-
-se resumida a função de probabilidade do vector (X, Y ).
Y =0 Y =1 Y =2 Y =3
X =0 0.15 0.1 0.05 0.02
X =1 0.1 0.1 0.05 0.1
X =2 0.09 0.08 0.1 0
X =3 0.04 0.02 0 0
1. Calcule o número médio de filhos do sexo feminino por casal.
2. Qual a probabilidade de um casal ter 4 filhos?
3. Qual a probabilidade de um casal com 4 filhos ter no máximo duas crianças do sexo feminino?
4. Sabendo que E(Y ) = 1.06, calcule Cov(X, Y ). O que pode afirmar sobre a independência das
variáveis aleatórias X e Y ?
II
1. O tempo de vida, expresso em anos, de determinado electrodoméstico produzido pelo fabricante

A segue uma distribuição normal com média 4.7 e desvio padrão 1.2.
a) Verifique que 0.3% dos electrodomésticos produzidos pelo fabricante duram mais de 8 anos.
b) Em 100 electrodomésticos, extraídos ao acaso da produção do fabricante, qual a probabili-
dade de pelo menos 4 durarem mais de 8 anos?
c) O fabricante compromete-se a substituir todos os electrodomésticos que avariem no período
de garantia. Qual o período de garantia que ele deve atribuir a cada aparelho por forma a
substituir apenas 5% dos electrodomésticos?
2. Aquele tipo de electrodoméstico é também produzido por um outro fabricante, B, constatando-se

que o tempo de vida correspondente é também normalmente distribuído com média 4.4 e desvio
padrão 1.6. Escolhidos ao acaso dois electrodomésticos, um de cada fabricante, com tempos
de vida independentes, qual a probabilidade de o electrodoméstico produzido pelo fabricante A
durar mais do que o produzido pelo fabricante B?
III
A intensidade da corrente, expressa em amperes, num circuito eléctrico é normalmente distribuída.
A observação de uma amostra de dimensão 24, seleccionada de modo aleatório, conduziu aos valores
apresentados no quadro seguinte.
24
Prova incidente sobre a parte final do programa da unidade curricular.
126
Intensidade (amperes) ]1, 2] ]2, 3] ]3, 4]
No de observações 8 10 6
1. Determine estimativas cêntricas para a média e para a variância da intensidade da corrente no

circuito.
2. Construa um intervalo de confiança para o desvio padrão da intensidade da corrente no circuito,

ao grau de confiança 0.95.
127
1. O número médio de filhos do sexo feminino por casal é dado por

E(X) = xP (X = x)
x∈{0,1,2,3}

com P (X = x) = P (X = x, Y = y) , x ∈ R.
y
Ora, atendendo aos valores do suporte de (X, Y ), temos
P (X = 0) = P (X = 0, Y = 0) + P (X = 0, Y = 1) + P (X = 0, Y = 2) + P (X = 0, Y = 3)
= 0.15 + 0.1 + 0.05 + 0.02 = 0.32
P (X = 1) = P (X = 1, Y = 0) + P (X = 1, Y = 1) + P (X = 1, Y = 2) + P (X = 1, Y = 3)
= 0.1 + 0.1 + 0.05 + 0.1 = 0.35
e, analogamente,
P (X = 2) = 0.27
P (X = 3) = 0.06.
Então
E(X) = 0 × 0.32 + 1 × 0.35 + 2 × 0.27 + 3 × 0.06 = 1.07.
2. P (X + Y = 4) = P (X = 3, Y = 1) + P (X = 2, Y = 2) + P (X = 1, Y = 3)
= 0.02 + 0.1 + 0.1 = 0.22
3. Temos
P [(X ≤ 2) ∩ (X + Y = 4)]
P (X ≤ 2 / X + Y = 4) =
P (X + Y = 4)
P (X = 1, Y = 3) + P (X = 2, Y = 2) 0.2 1
= = = .
0.22 0.22 11
4. Sabemos que Cov(X, Y ) = E (XY ) − E (X) E (Y ) .

Ora,

E (XY ) = xyP (X = x, Y = y)
(x,y)∈S(X,Y )
= 1 × 1 × 0.1 + 1 × 2 × 0.05 + 1 × 3 × 0.1
+2 × 1 × 0.08 + 2 × 2 × 0.1 + 3 × 1 × 0.02
= 0.1 + 0.1 + 0.3 + 0.16 + 0.4 + 0.06
= 0.9 + 0.22 = 1.12.
Então,
Cov(X, Y ) = 1.12 − 1.06 × 1.07 = 1.12 − 1.1342 = −0.0142.
128
Como Cov(X, Y ) = 0 então X e Y não são independentes.
II
Seja X = "tempo de vida de um electrodoméstico, em anos".

Sabemos que X ∼ N (4.7, 1.2) .
1. a) Queremos mostrar que 0.003 = P (X > 8) . Ora,

X − 4.7 8 − 4.7
P (X > 8) = P >
1.2 1.2
X − 4.7
= P (U > 2.75) , U= ∼ N (0, 1)
1.2
= 1 − FU (2.75)
= 1 − 0.997 = 0.003
b) Seja Y = "no de electrodomésticos, em 100 extraídos, que duram mais de 8 anos".
Pretendemos calcular P (Y ≥ 4) .
As 100 extracções de electrodomésticos da produção da fábrica são feitas, naturalmente, uma a

uma sem reposição, pelo que Y ∼ H (100, M, B) com M desconhecido e B = 0.003M.
n •
Consideremos M = 100
M ≤ 0.1 (isto é, supomos M ≥ 1000). Nestas condições, Y ∼ B (100, 0.003) .
Então
P (Y ≥ 4) ≃ P (Y1 ≥ 4) , Y1 ∼ B (100, 0.003) .

•
Mas 0.003 < 0.1 e, portanto, Y1 ∼ P (100 × 0.003) .
Então,
P (Y ≥ 4) ≃ P (Y1 ≥ 4) ≃ P (Y2 ≥ 4) , Y2 ∼ P (0.3)

= 1 − P (Y2 < 4)
= 1 − P (Y2 ≤ 3) , porque o suporte de Y2 é N0
= 1 − 0.9997 = 0.0003.
c) Seja t o período de garantia. Vem

X − 4.7 t − 4.7
0.05 = P (X ≤ t) = P ≤
1.2 1.2

t − 4.7 X − 4.7
= P U≤ , U= ∼ N (0, 1)
1.2 1.2

t − 4.7
= FU
1.2

t − 4.7
= 1 − FU −
1.2
pelo que
t − 4.7
0.95 = FU − t−4.7
1.2 ⇐⇒ − = 1.645 ⇐⇒ t = 4.7 − 1.2 × 1.645 = 2.726.
1.2
129
2. Seja Z = "tempo de vida de um electrodoméstico fabricado por B, em anos".
Sabemos que Z ∼ N (4.4, 1.6).
Queremos calcular P (X > Z) = P (X − Z > 0) .
A lei de X − Z pode ser determinada usando a estabilidade da lei normal, porque X e Z são
gaussianas e independentes. Assim,
X − Z ∼ N (m, σ)
com m = E (X − Z) = E (X) − E (Z) = 4.7 − 4.4 = 0.3
σ2 = V (X − Z) = V (X) + V (Z) = 1.22 + 1.62 = 4 =⇒ σ = 2.
Então
P (X > Z) = P (X − Z > 0)

0 − 0.3 X − Z − 0.3
= P V ≤ , V = ∼ N (0, 1)
2 2
= 1 − FV (−0.15)
= FV (0.15) = 0.5596
III
Seja X = "intensidade da corrente (em amperes) num circuito eléctrico".

Sabemos que X ∼ N(m, σ).
1. Estimativas cêntricas e consistentes para a média e variância de X são, respectivamente, a
média da amostra, x, e a variância corrigida da amostra, ŝ2X .
Consideremos o quadro seguinte (no qual as 24 observações estão distribuídas por 3 classes)
′ ′ ′
Classes ni xi ni xi ni (xi )2
]1, 2] 8 1.5 12 18
]2, 3] 10 2.5 25 62.5
]3, 4] 6 3.5 21 73.5
Total 24 58 154
′
em que xi é a marca da classe i, i = 1, 2, 3.
Tem-se
3
′1 ′ 58 29
x=x = ni xi = = ≃ 2.417
24 1=1 24 12
e 2
1 ′ 2 ′ 2 154
3
29
s2X = s2X ′ = ni xi − x = − ≃ 6.417 − 5.842 = 0.575
24 1=1 24 12
e, consequentemente,
n 2 24
ŝ2X = sX ≃ 0.575 ≃ 0.6.
n−1 23
Então, uma estimativa cêntrica e consistente para E (X) é 2.417 e uma estimativa cêntrica e
consistente para V (X) é 0.6.
2. Pretendemos construir um intervalo de confiança para o desvio padrão de X, σ, com um grau

de confiança β = 0.95.
130
Atendendo a que m é desconhecida e X ∼ N(m, σ), podemos considerar como variável fulcral
24
(Xi − X̄)2
Z= ∼ χ2 (23).
1=1
σ2
Escolhemos reais z1 e z2 tais que

P (z1 < Z < z2 ) = 0.95 F (z2 ) − F (z1 ) = 0.95
⇐⇒
P (Z ≤ z1 ) = P (Z ≥ z2 ) F (z1 ) = 1 − F (z2 )

F (z2 ) − [1 − F (z2 )] = 0.95 F (z2 ) = 0.975 z1 = 11.7
⇐⇒ ⇐⇒ ⇐⇒
− F (z1 ) = 0.025 z2 = 38.1
pela tabela da lei do χ2 . Então

24 24
− X̄)2
i=1 (Xi 2 (Xi − X̄)2
11.7 < Z < 38.1 ⇐⇒ < σ < i=1
8 38.1 8 11.7
24 2
24 2
i=1 (Xi − X̄) i=1 (Xi − X̄)
⇐⇒ <σ< .
38.1 11.7
Para a amostra observada, tem-se

24

(xi − x̄)2 = 24s2X ≃ 24 × 0.575 = 13.8.
i=1
Então, um intervalo de confiança para σ, ao grau de confiança 0.95, é

%! ! $
13.8 13.8 √ √
, = 0.3622, 1.1795 = ]0.602, 1.086[ .
38.1 11.7
131
D M U C
Prova 5 25
1. A empresa Cyber fornece acesso à internet através de três centrais, A, B e C. Constata-se que
as centrais B e C fornecem o mesmo número de acessos enquanto que a central A fornece o
dobro dos acessos de qualquer uma das outras. Sabe-se também que:
• 5% dos acessos fornecidos pela central A registam falhas;

• dos acessos que registam falhas, 20% são fornecidos por B ;
• 94% dos acessos fornecidos por C não registam falhas.
a) Relativamente a um dos acessos à internet fornecido pela Cyber,

(i) mostre que a probabilidade de não registar falhas é 0.95 .
(ii) se foram registadas falhas no acesso, qual a central que mais provavelmente o forneceu?
b) Supondo que os acessos à internet se processam de forma independente, qual a probabilidade
de em 500 acessos haver quando muito 465 que não registam falhas?
2. A quantidade de informação, em unidades u, que a Cyber tem de gerir diariamente é bem

modelada por uma variável aleatória real gaussiana, X, de média m e desvio padrão σ , com
m , σ ∈ IR+ . A fim de estimar estes parâmetros, a empresa observou a quantidade de informação
gerida durante 25 dias, escolhidos ao acaso. Os valores registados encontram-se resumidos no
quadro seguinte.
quantidade de informação (unidades u) ]2, 6] ]6, 10] ]10, 14] ]14, 18]
número de dias 1 12 10 2
a) Determine estimativas cêntricas e consistentes para a média e para a variância da quantidade

de informação gerida diariamente pela empresa.
b) Obtenha, utilizando o método dos momentos (26 ), uma estimativa consistente para o terceiro
quartil de X.
c) Construa um intervalo de confiança para a variância da quantidade de informação gerida
diariamente pela empresa, com grau de confiança 0.98 .
d) A empresa equipou as centrais de modo a garantir a gestão diária de uma quantidade média
de informação de 11 u . No entanto, suspeita que esta quantidade tem vindo a diminuir.
Face à amostra observada, o que pode concluir ao nível de significância 0.01? Que tipo de
erro poderá estar associado à conclusão anterior?
e) Considere agora que m = 11 e σ = 3. Supondo que as quantidades de informação geridas
pela empresa em dias distintos são independentes, qual a probabilidade da quantidade de
informação gerida durante dezasseis dias exceder 152 u ?
25
Prova incidente sobre todo o programa da unidade curricular.
26
Nalguns anos lectivos, o método dos momentos não é leccionado.
132
II
A proporção de pessoas que responde a determinado inquérito realizado por uma empresa é uma
variável aleatória real contínua, X, com função densidade definida por

 k − 12 k x − 1 2 , x ∈ [0, 1]
5 2
f (x) = ,
 0 , x ∈ IR \ [0, 1]
onde k denota determinada constante real positiva.

5
1. Verifique que k = 4 .
2. Construa a função de repartição de X .
3. Calcule P ( X ≤ 0.7 / X ≥ 0.3 ) .
4. Determine a mediana de X .
5. Para levar a cabo o inquérito, a empresa vai contactar 1000 pessoas. Por outro lado, decidiu
que o funcionário encarregue de efectuar os contactos será remunerado em função do número de
respostas obtidas (isto é, em função de Y = 1000 X ). Concretamente, o funcionário receberá:
• 250 € caso obtenha menos de 300 respostas;

• 2000 € caso obtenha mais de 700 respostas;
• 1000 € nos outros casos.
a) Determine a função de probabilidade da variável aleatória real, Z, que representa a quantia

paga pela empresa ao referido funcionário.
b) Calcule o valor médio de Z.
133
1. Relativamente ao espaço Ω = {acessos à internet fornecidos pela empresa Cyber} , considerem-

-se os acontecimentos
A = o acesso à internet é fornecido pela central A

B = o acesso à internet é fornecido pela central B
C = o acesso à internet é fornecido pela central C
F = o acesso à internet regista falha.
Tem-se
(1) Ω = A ∪ B ∪ C, com A, B e C dois a dois incompatíveis
(2) P (B) = P (C), P (A) = 2P (B)
(3) P (F/A) = 0.05, P (B/F ) = 0.2 e P (F̄ /C) = 0.94.
De (1) e (2) decorre
  
 P (B) = P (C)  P (B) = P (C)  P (C) = 1/4
P (A) = 2P (B) ⇐⇒ P (A) = 2P (B) ⇐⇒ P (A) = 1/2
  
P (A ∪ B ∪ C) = 1 P (A) + P (B) + P (C) = 1 P (B) = 1/4.
a) (i) Pretendemos mostrar que P (F̄ ) = 0.95.

Sabemos, recorrendo ao acontecimento contrário, que P (F̄ ) = 1 − P (F ). Por outro lado
P (F ) = P (F ∩ (A ∪ B ∪ C))
= P ((F ∩ A) ∪ (F ∩ B) ∪ (F ∩ C))
= P (F ∩ A) + P (F ∩ B) + P (F ∩ C), pois A, B, C são 2 a 2 incompatíveis
= P (A)P (F/A) + P (F )P (B/F ) + P (C)P (F/C)
= 0.5 × 0.05 + P (F ) × 0.2 + 0.25 × (1 − P (F̄ /C)).
Então
0.8P (F ) = 0.025 + 0.015 ⇐⇒ P (F ) = 0.05
e, consequentemente, P (F̄ ) = 1 − 0.05 = 0.95.
(ii) Queremos comparar as probabilidades P (A/F ), P (B/F ) e P (C/F ). Ora,
P (B/F ) = 0.2
P (A ∩ F ) P (A)P (F/A) 0.5 × 0.05
P (A/F ) = = = = 0.5
P (F ) 0.05 0.05
P (C ∩ F ) P (C)P (F/C) 0.25 × 0.06
P (C/F ) = = = = 0.3.
P (F ) 0.05 0.05
Concluímos que, se são registadas falhas no acesso, o mais provável é que ele tenha sido fornecido
pela central A.
b) Pretendemos determinar P (X ≤ 465) com X = "número de acessos, em 500, que não registam
falhas".
Ora, X ∼ B(500, p), em que p = P (F̄ ) = 0.95.
Como p > 0.9, seja Y = n − X = 500 − X. Então Y ∼ B(500, q), em que q = 1 − p = 0.05.
134
Desta forma
P (X ≤ 465) = P (500 − X ≥ 500 − 465) = P (Y ≥ 35).
•
Como q = 0.05 < 0.1, então Y ∼ P(λ), com λ = 500 × 0.05 = 25. Donde
P (Y ≥ 35) ≃ P (Z ≥ 35), com Z ∼ P(25).

• √
Mas, atendendo a que λ = 25 > 18, Z ∼ N(25, 25) com correcção de continuidade. Então
P (Z ≥ 35) ≃ P (Z1 ≥ 34.5), Z1 ∼ N(25, 5).
Mas
Z1 −25
P (Z1 ≥ 34.5) = P (U ≥ 9.5
5 ), U= 5 ∼ N(0, 1)
= P (U ≥ 1.9)
= 1 − P (U ≤ 1.9), pois U é contínua
= 1 − 0.9713 = 0.0287.
Então P (X ≤ 465) ≃ 0.0287.
2. Seja X = "quantidade de informação (em unidades u) gerida diariamente pela empresa".

Sabemos que X ∼ N(m, σ).
a) Estimativas cêntricas e consistentes para a média e variância são, respectivamente, a média da
amostra, x, e a variância corrigida da amostra, ŝ2X .
Consideremos o quadro seguinte (no qual as 25 observações estão distribuídas por 4 classes)
′ ′ ′
Classes ni xi ni xi ni (xi )2
]2, 6] 1 4 4 16
]6, 10] 12 8 96 768
]10, 14] 10 12 120 1440
]14, 18] 2 16 32 512
Total 25 252 2736
′
em que xi é a marca da classe i, i = 1, 2, 3, 4.
Tem-se
4
′ 1 ′ 252
x=x = ni xi = = 10.08
25 25
1=1
e
1 ′ 2 ′ 2 2736
4
s2X = s2X ′ = ni xi − x = − (10.08)2 = 7.8336
25 1=1 25
e, consequentemente,
n 2 25
ŝ2X =
sX = 7.8336 = 8.16.
n−1 24
Então, uma estimativa cêntrica e consistente para a média é x = 10.08 e uma estimativa cêntrica
e consistente para a variância é ŝ2X = 8.16.
b) Pretendemos encontrar um estimador consistente, pelo método dos momentos, para Q3 . Ora
Q3 é tal que FX (Q3 ) = 34 , com FX a função de repartição de X.
Notemos que Q3 existe e é único, porque FX é estritamente crescente. Tem-se, então,
3
FX (Q3 ) = 4 ⇐⇒ P (X ≤ Q3 ) = 34
⇐⇒ P (U ≤ Q3σ−m ) = 34
⇐⇒ Q3σ−m = 0.675
⇐⇒ Q3 = m + 0.675σ,
135
em que U = X−m
σ ∼ N(0, 1).
Portanto #
Q3 = m1 + 0.675 m2 − (m1 )2 ,
isto é, Q3 = ψ(m1 , m2 ) com
"
ψ(x, y) = x + 0.675 y − x2 , (x, y) ∈ Dψ = {(x, y) ∈ R2 : y ≥ x2 }.
Um estimador para o 3o quartil é então

#
Tn = ψ(M1 , M2 ) = M1 + 0.675 M2 − M12
1 k
n
onde Mk = n Xi , k = 1, 2.
i=1
Então, uma vez que M1 = X e Sn2 = M2 − M12 , tem-se
Tn = X + 0.675Sn ,
com Tn consistente pois ψ é contínua.

Desta forma, uma estimativa consistente para o 3o quartil é
√
tn = x + 0.675sX = 10.08 + 0.675 7.8336 ≃ 12.
c) Pretendemos construir um intervalo de confiança para σ 2 , com um grau de confiança β = 0.98.

Atendendo a que m é desconhecida e X ∼ N(m, σ), podemos considerar como variável fulcral
25
(Xi − X̄)2
Z= ∼ χ2 (24).
σ2
1=1
Escolhemos z1 , z2 tais que P (z1 < Z < z2 ) = 0.98 e P (Z ≤ z1 ) = P (Z ≥ z2 ).

Sabendo que
0.02 = P (Z ∈]z
/ 1 , z2 [) = P (Z ≤ z1 ) + P (Z ≥ z2 ) = 2P (Z ≤ z1 ),
então, pela tabela da lei do χ2 , vem

P (Z ≤ z1 ) = 0.01 z1 = 10.9 z1 = 10.9
⇐⇒ ⇐⇒ .
P (Z ≥ z2 ) = 0.01 P (Z ≤ z2 ) = 0.99 z2 = 43.0
Então 25 25

25
(Xi − X̄)2 i=1 (Xi − X̄)2 2 i=1 (Xi − X̄)2
10.9 < < 43.0 ⇐⇒ <σ < .
σ2 43 10.9
i=1
Para a amostra observada, tem-se

25

(xi − x̄)2 = 25s2X ≃ 25 × 7.83 = 195.75.
i=1
Um intervalo de confiança para σ2 , ao grau de confiança 0.98, é então

195.75 195.75
, = ]4.55, 17.96[ .
43 10.9
136
d) Pretendemos testar
H0 : m = 11 contra H1 : m < 11,
ao nível de significância α = 0.01. Atendendo a que, sob H0 , σ é desconhecido, a região crítica do teste
é definida por
RC = {(x1 , ..., x25 ) : x̄ < 11 − c}, c > 0

x̄ − 11
= {(x1 , ..., x25 ) : ŝ
< c′ }, c′ < 0.
√
25
X−11
Sabemos também que, sob H0 ,
S
∼ T (24), porque X ∼ N(11, σ). Então
5
0.01 = P (rejeitar H0 / H0 verdadeira)

X̄ − 11
= P
< c′ / m = 11
S
5
= P (Z < c′ ), Z ∼ T (24),
′
= P (Z > −c ), pela simetria da lei de Student,
′
= 1 − P (Z ≤ −c ), passando ao acontecimento contrário.
Desta forma,
P (Z ≤ −c′ ) = 0.99, Z ∼ T (24).
Logo, por consulta da tabela da lei de Student, −c′ = 2.492 e, consequentemente, c′ = −2.492.
Donde, a região crítica é
.
x̄ − 11
RC = (x1 , ..., x25 ) : ŝ
< −2.492 .
√
25
A amostra observada forneceu

x̄ − 11 10.08 − 11 −4.6 −4.6
ŝ
= √ =√ ≃ ≃ −1.6.
5
8.16 8.16 2.86
5
Como −1.6 > −2.492, a amostra observada não pertence à RC pelo que aceitamos H0 , ao nível
0.01.
Poderemos estar a aceitar H0 sendo H0 falsa pelo que poderemos estar a cometer o erro de 2a
espécie.
e) Sabemos que
X = "quantidade de informação gerida diariamente pela empresa"
é tal que X ∼ N(11, 3). Seja ainda
Xi = "quantidade de informação gerida pela empresa no dia i”, i = 1, ..., 16.
A quantidade de informação gerida durante 16 dias é

16

T = Xi .
i=1
137
As variáveis X1 , X2 , ..., X16 são independentes e verificam Xi ∼ N(11, 3), i = 1, ..., 16. Assim, pela
estabilidade da lei normal, T ∼ N(mT , σT ), com
16 16

mT = E(T ) = E Xi = E(Xi ) = 16 × 11 = 176
i=1 i=1
16 16

σ 2T = V (T ) = V Xi = V (Xi ) = 16 × 9.
i=1 i=1
Em particular, obtemos √
σT = 16 × 9 = 12.
Então
P (T > 152) = P U > 152−176
12 , U= T −176
12 ∼ N(0, 1)
= P (U > −2)
= P (U < 2), pela simetria da lei N(0, 1)
= 0.9772.
II
Seja X = "proporção de pessoas que responde a determinado inquérito realizado por uma empresa".
Sabemos que X é uma variável aleatória real contínua com função densidade definida por
2
k − 12 k x − 12 , x ∈ [0, 1]
fX (x) = 5
0, x ∈ R\ [0, 1]
onde k denota determinada constante real positiva.
1. Pretendemos mostrar que k = 54 .
A função densidade fX verifica +∞

fX (x)dx = 1,
−∞
isto é,
0 1 +∞
1 = fX (x)dx + fX (x)dx + fX (x)dx
−∞ 0 1
1
12 1 2
= k− k x− dx
0 5 2
$ %1
1 12 (x − 12 )3
= [kx]0 − k
5 3
0
12 1 1
= k− k +
5 24 24
4
= k.
5
Concluímos que
5
k= .
4
Tem-se, então,
5
2
4 − 3 x − 12 , x ∈ [0, 1]
fX (x) = .
0, x ∈ R\ [0, 1]
138
Verifiquemos que fX (x) ≥ 0, para x ∈ [0, 1].
A função fX é contínua em [0,1]. Por outro lado,

1
′ 1 > 0, se x < 2
fX (x) = −6 x − = 1 .
2 < 0, se x > 2
Se 0 < x < 12 , fX é crescente; caso contrário, fX é decrescente. Atendendo a que

2
5 1 1 1
f (0) = −3 = > 0, f (1) = > 0,
4 2 2 2
tem-se fX (x) > 0, x ∈ [0, 1].
x
2. Sabemos que FX (x) = −∞ fX (t)dt, x ∈ R. Tem-se, então,
x
•x<0 =⇒ FX (x) = −∞ 0dt = 0.
0 x 5
1 2
•0≤x<1 =⇒ FX (x) = 0dt + − 3 t − dt
−∞ 0 1 43 x 2
5 x (t− )
= 4 t 0 − 3 32
3 0
= 54 x − x − 12 + 18 .
0 2
•x≥1 =⇒ FX (x) = + 01 54 − 3 t − 12
−∞ 0dt dt + 1x 0dt
5
1 3 1 5 2
= 4 × 1 − 2 + 8 = 4 − 8 = 1.
A função de repartição de X é, pois, definida por


 0,
x<0
FX (x) = 5 1 3 1
x − x − 2 − 8, 0 ≤ x < 1
 4
1, x ≥ 1.
3. Recorrendo à definição de probabilidade condicionada,

P [(X ≤ 0.7) ∩ (X ≥ 0.3)] P (0.3 ≤ X ≤ 0.7)
P (X ≤ 0.7/X ≥ 0.3) = =
P (X ≥ 0.3) 1 − P (X < 0.3)
3 7 7 3
P ( 10 < X ≤ 10 ) FX ( 10 ) − FX ( 10 )
= 3 = 3
1 − P (X ≤ 10 ) 1 − FX ( 10 )
Por outro lado,

3
7 5 7 7 12 3 1 1 7
371
FX ( ) = − − − =− = −
10 4 10 10 210 8 8 8
500
3 3
3 5 3 3 1 1 1 1 129
FX ( ) = − − − = + =
10 4 10 10 2 8 4 5 500
pelo que
371
500− 129
500 242
P (X ≤ 0.7/X ≥ 0.3) = 129 = 371 .
1 − 500
139
4. Pretendemos obter a mediana de X. A partir do gráfico da função densidade de X, constatamos
que tal função é simétrica relativamente à recta x = 12 , isto é, tem-se

1 1
fX + x = fX −x ,
2 2
qualquer que seja x > 0.
1
De facto, se x > 2 a igualdade é trivial; caso contrário,

1 5
fX + x = − 3x2
2 4
e
1 5
fX − x = − 3(−x)2 .
2 4
1
2 +∞
1 1
Então fX (x) dx = fX (x) dx = 2 pelo que 2 é a mediana de X e é única.
−∞ 1
2
5. Seja Z = "quantia paga pela empresa ao funcionário encarregue de efectuar os contactos".
a) Vamos construir a função de probabilidade de Z.

Notemos que
P (Z = 250) = P (Y < 300) = P (1000X < 300) = P (X < 0.3)
129
= 500 = 0.258
P (Z = 2000) = P (Y > 700) = P (1000X > 700) = P (X > 0.7)
371 129
= 1 − P (X ≤ 0.7) = 1 − 500 = 500 = 0.258
P (Z = 1000) = P (300 ≤ Y ≤ 700) = P (0.3 ≤ X ≤ 0.7)
371 129 242
= FX (0.7) − FX (0.3) = 500 − 500 = 500 = 0.484.
Como 0.258 + 0.484 + 0.258 = 1, então Z é discreta de suporte SZ = {250, 1000, 2000}. A função
de probabilidade de Z é 

 0.258, z = 250

0.484, z = 1000
fZ (z) =

 0.258, z = 2000

0, z∈ / {250, 1000, 2000} .
b) O valor médio de Z existe, porque SZ é finito, e é igual a

E(Z) = zP (Z = z) = 250 × 0.258 + 1000 × 0.484 + 2000 × 0.258
z∈SZ
= 1064.5.
140
D M U C
Prova 6 27
I
Relativamente aos habitantes de determinada zona de Coimbra, sabe-se que:
• 20% tem formação superior;
• dos habitantes que têm formação superior, 80% utiliza a internet e 60% tem acesso à TV por
cabo;
• dos habitantes que têm formação superior e utilizam a internet, 62.5% tem acesso à TV por
cabo;
• dos habitantes que não utilizam a internet, 7% tem formação superior.
Escolhe-se, ao acaso, um habitante da referida zona.
1. Calcule a probabilidade desse habitante utilizar a internet.
2. Se esse habitante tem formação superior, qual a probabilidade de ter acesso à TV por cabo ou
utilizar a internet?
II
Uma máquina automática de bebidas está regulada de modo a que a quantidade de bebida (expressa
em ml) servida em cada copo, X, seja normalmente distribuída com média 150. Desconhece-se,
contudo, o valor do desvio padrão de X , denotado por σ, σ ∈ ]0, +∞[.
1. Com o objectivo de estimar este parâmetro, recolheu-se uma amostra de X de dimensão 25 , que
se resumiu no quadro seguinte.
quantidade de bebida (ml) ]123, 135] ]135, 147] ]147, 159] ]159, 171]
número de copos 2 8 11 4
a) Calcule o desvio padrão da amostra.

b) Determine um intervalo de confiança para σ , ao grau de confiança 0.95 .
2. Considere agora que σ = 10.2 e que a bebida é servida em copos cuja capacidade é 170 ml.
Suponha ainda que as quantidades de bebida servidas pela máquina nos diferentes copos são
independentes.
a) Calcule a probabilidade da bebida servida num copo transbordar.

b) Qual a probabilidade de, em 100 copos servidos, haver mais de 92 em que a bebida não
transborda?
c) Se, em determinado momento, a máquina contiver 7.3 litros de bebida, qual a probabilidade
de esta quantidade ser suficiente para servir 49 copos?
27
141
III
1. Seja Y uma variável aleatória real contínua de função de repartição dada por


 0 se y ≤ 0

√
FY (y) = y se 0 < y ≤ 1 .



1 se y > 1
a) Obtenha a função densidade de Y .

1
b) Verifique que E Y k = , k ∈ IN .
2k + 1
2. O tempo (expresso em unidades u) que um processador Pentium 4 a 2.3 GHz leva a executar
determinado programa é bem modelado pela variável aleatória real X = 24 Y + θ , onde θ é um
parâmetro real positivo desconhecido.
a) (i) Determine o primeiro quartil de X e interprete o valor obtido.

(ii) Calcule a média e a variância de X .
b) Sendo (X1 , ... , Xn ) uma amostra aleatória de X ,
(i) construa, utilizando o método dos momentos (28 ), um estimador de θ ;
n
1
(ii) prove que Tn = Xi − 8 é um estimador cêntrico e consistente de θ .
n i=1
c) Escolheram-se, ao acaso, 50 processadores do referido tipo e registaram-se os respectivos
50

tempos de execução do programa, (x1 , ... , x50 ) , tendo-se constatado que xi = 3438 u .
i=1
Calcule uma estimativa cêntrica e consistente de θ .
d) O fabricante dos processadores afirma que o tempo médio de execução do programa é 67 u .
No entanto, tem recebido queixas de alguns clientes que afirmam que aquele tempo médio
é excedido.
(i) Face à amostra fornecida na alínea c) e ao nível de significância 0.05, que pode concluir
sobre o referido tempo médio? Que tipo de erro poderá estar associado à conclusão
anterior e qual a sua probabilidade?
(ii) Tendo em conta a conclusão obtida na alínea anterior, que pode afirmar sobre a pro-
babilidade de o processador levar mais do que 65 u a executar o programa?
28
Nalguns anos lectivos, o método dos momentos não é leccionado.
142
S = o habitante tem formação superior,

I = o habitante usa a internet,
T = o habitante usa TV por cabo.
20 80 60 625 7
P (S) = , P (I/S) = , P (T /S) = , P (T /S ∩ I) = , P( S / I ) = 100 .
100 100 100 1000
1. Pretendemos calcular P (I). Ora,
7 P( S ∩ I ) P (S)−P (S∩I) 7 2
= P( S / I ) = P( I )
= P( I )
⇔ P( I ) = 10 − P (S ∩ I)
100 100
7 2
⇔ P ( I ) = 10 − P (S)P (I/S)
100
2
2 8 100 4
⇔ P ( I ) = 10 − 10 10 7 = 7.
4 3
Consequentemente P (I) = 1 − = .
7 7
2. Pretendemos calcular P (T ∪ I / S). Ora,
P (T ∪ I / S) = P (T /S) + P (I/S) − P (T ∩ I / S)
6 8 P (T ∩ I ∩ S)
= + −
10 10 P (S)
14 P (S)P (I/S)P (T / I ∩ S)
= −
10 P (S)
14 8 625 9
= − = .
10 10 1000 10
II
Seja X a v.a.r. que representa a quantidade de bebida servida em cada copo.

Sabemos que X ∼ N (150, σ), com σ desconhecido.
1. a) Dada a amostra de n = 25 elementos, vamos construir o quadro estatístico correspondente
onde x′i representa a marca da classe i, i = 1, 2, 3, 4.
143
ni x′i ni x′i ni (x′i )2
]123, 135] 2 129 258 33282
]135, 147] 8 141 1128 159048
]147, 159] 11 153 1683 257499
]159, 171] 4 165 660 108900
25 3729 558729
A média da amostra é
4
1 3729
x = x′ = ni x′i = = 149.16.
25 25
i=1
A variância da amostra é
4
1
s2X = s2X ′ = ni (x′i )2 − (x′ )2
25 i=1
558729
= − (149.16)2 ≃ 100.455.
25
Assim, o desvio padrão da amostra é
# √
sX = s2X ≃ 100.455 ≃ 10.02.
b) Determinemos um intervalo de confiança para σ, ao grau de confiança β = 0.95.

25
Xi − 150 2
Consideremos a variável fulcral Z = ∼ χ2 (25), uma vez que m = 150 é conhecida
i=1
σ
e X ∼ N (150, σ).
Determinemos dois reais z1 , z2 tais que P (z1 < Z < z2 ) = 0.95 e P (Z ≤ z1 ) = P (Z ≥ z2 ).
Então, de
0.95 = P (z1 < Z < z2 ) = P (Z < z2 ) − P (Z ≤ z1 ) = P (Z < z2 ) − P (Z ≥ z2 )
vem
0.95 = 2P (Z < z2 ) − 1 ⇔ P (Z ≤ z2 ) = 0.975.
Temos, então,
P (Z ≤ z1 ) = 0.025 z1 = 13.1
⇒
P (Z ≤ z2 ) = 0.975 z2 = 40.6
pela tabela da lei do χ2 .
Mas
25
25

25
(Xi − 150)2 (Xi − 150)2
(Xi − 150)2 i=1 i=1
z1 < Z < z2 ⇔ 13.1 < < 40.6 ⇔ < σ2 < .
σ2 40.6 13.1
i=1
Como a amostra observada é tal que

25
25
25
25

(xi − 150)2 = (x2i + 1502 − 300xi ) = x2i + 25 × 1502 − 300 xi
i=1 i=1 i=1 i=1
= 558729 + 25 × 1502 − 300 × 3729 = 2529,
144
um intervalo de confiança para σ 2 , ao grau de confiança 0.95, é

2529 2529
, = ]62.3, 193.1[ .
40.6 13.1
Consequentemente, um intervalo de confiança para σ, ao grau de confiança 0.95, é

√ √
62.3, 193.1 = ]7.89, 13.89[ .
2. Seja agora σ = 10.2. Então X ∼ N (150, 10.2).

Seja Xi a v.a.r. que representa a quantidade de bebida servida no copo i em ml, i = 1, . . . , n, com
X1 , . . . , Xn v.a.r. independentes (n ∈ N) .
a) Se B = "a bebida servida num copo de 170 ml transborda", então
P (B) = P (X > 170).

Assim, centrando e reduzindo, vem

170 − 150
P (X > 170) = P U > ,
10.2
X − 150
com U = ∼ N (0, 1). Finalmente, usando a tabela da lei N (0, 1), vem
10.2
P (X > 170) = P (U > 1.9607) ≈ 1 − P (U ≤ 1.96) = 1 − 0.975 = 0.025.
b) Seja Y a v.a.r. que representa o número de copos de 170 ml, em 100 servidos, em que a bebida
não transborda e determinemos P (Y > 92).
Sabemos que Y ∼ B(100, p), onde p = P (B) = 0.975. Como p = 0.975 > 0.9, introduzimos a v.a.r.
Z = 100 − Y , tendo-se assim Z ∼ B(100, q), com q = 1 − p = 0.025. Então,
P (Y > 92) = P (100 − Y < 100 − 92) = P (Z < 8).

•
Uma vez que q = 0.025 < 0.1, então Z ∼ P(λ), com λ = n × q = 2.5, e
P (Y > 92) ≈ P (Z ′ < 8),
com Z ′ ∼ P(2.5). Como a lei de Poisson é discreta de suporte N0 , de acordo com as tabelas desta lei
vem
P (Z ′ < 8) = P (Z ′ ≤ 7) = 0.9958.
Então P (Y > 92) ≃ 0.9958.
49

c) Pretendemos calcular P Xi ≤ 7300 .
i=1
49

Consideremos a v.a.r. S = Xi .
i=1
Ora X1 , . . . , X49 são v.a.r. independentes e ∀i, Xi ∼ N (150, 10.2). Logo, pela estabilidade da lei
normal, sabemos que S ∼ N (mS , σS ), onde
mS = E(S) = 49E(X) = 49 × 150 = 7350, "
σ2S = V (S) = 49V (X) = 49 × (10.2)2 ⇒ σS = 49 × (10.2)2 = 7 × 10.2 = 71.4.
Então,
145
7300−7350
S − 7350
P (S ≤ 7300) =P U ≤ 71.4 , onde U = ∼ N (0, 1)
71.4
= P (U ≤ −0.7)
= P (U ≥ 0.7), pela simetria da lei normal
= 1 − P (U ≤ 0.7)
= 1 − 0.7580 = 0.2420.
III
dFY
1. a) A função densidade de Y é dada por fY (y) = (y) nos pontos onde FY é derivável.
dy
Se y < 0 ou y > 1, então fY (y) = 0.
dFY √ 1
Se 0 < y < 1, então fY (y) = (y) = ( y)′ = √ .
dy 2 y
Em y = 0 e y = 1 FY não é derivável e, consequentemente, por convenção, fY (y) = 0. Então,

 0, y ∈ IR\]0, 1[
fY (y) = 1 .
 √ , 0<y<1
2 y
b) Dado k ∈ N,
+∞
E(Y k ) = y k fY (y) dy
−∞
0 1 +∞ 1
k 1 yk−1/2
= 0 dy + y √ dy + 0 dy = dy
−∞ 0 2 y 1 0 2
$ %1
1 y k+1/2 1 1 1
= = −0 = .
2 k + 1/2 2 k + 1/2 2k + 1
0
2. Seja X a v.a.r. que representa o tempo que o processador leva a executar o programa. Sabemos
que X = 24Y + θ, com θ um parâmetro real positivo desconhecido.
a) (i) Como X é uma v.a.r. contínua, Q1 é todo o número real tal que FX (Q1 ) = 14 . Então
1 1
FX (Q1 ) = 4 ⇔ P (X ≤ Q1 ) =
4
1
⇔ P (24Y + θ ≤ Q1 ) =
4

Q1 − θ 1
⇔ P Y ≤ =
24 4

Q1 − θ 1
⇔ FY =
24 4
!
Q1 − θ 1
⇔ = ,
24 4
1 Q1 −θ
pois como FY (0) = 0 < 4 < FY (1) = 1 e FY é não decrescente então 24 ∈ ]0, 1[ .
Finalmente
146
#
Q1 −θ 1 Q1 − θ 1
24 = 4 ⇒ =
24 16
3
⇔ Q1 = + θ.
2
Em 25% das execuções do programa, o processador demora quando muito (3/2 + θ) u (ou, de
modo equivalente, em 75% das execuções do programa, o processador demora mais de (3/2 + θ) u).
(ii) Temos
24
E(X) = E(24Y + θ) = 24E(Y ) + θ = + θ = 8 + θ,
3
pela linearidade da esperança matemática, e
V (X) = V (24Y + θ) = 242 V (Y ).
Mas, pela fórmula de Köenig,

2
2 1 2 1 4
V (Y ) = E(Y ) − (E(Y )) = − = .
5 3 45
Logo,
4 162
= V (X) = 242
.
45 5
b) (i) Determinemos um estimador para θ pelo método dos momentos. Em a)(ii) obtivemos
E(X) = θ + 8,
logo θ = E(X) − 8 = m1 − 8. Portanto θ = ψ(m1 ), com

ψ : IR → IR
x → x − 8.
Então, um estimador para θ, construído pelo método dos momentos, é
Tn = ψ(M1 )
n
1
com M1 = E(Xi ) = X. Logo
n
i=1
Tn = X − 8.
(ii) Por um lado,

n
E(Tn ) = E n1 ni=1 Xi − 8 = 1
n i=1 E(Xi ) − 8, pois a esperança matemática é linear
= E(X) − 8, porque X1 , . . . , Xn têm a lei de X
= θ+8−8 = θ
pelo que Tn é um estimador cêntrico de θ. Por outro lado,
n n
1 1
V (Tn ) = V Xi − 8 = V Xi ,
n i=1 n i=1
n

1
= n2 V (Xi ), pois X1 , . . . , Xn são independentes
i=1
1 162
= n2
nV (X) = 5n , porque X1 , . . . , Xn têm a lei de X.
147
Assim, como Tn é cêntrico e
162
lim V (Tn ) = lim = 0,
n→+∞ n→+∞ 5n
podemos concluir que Tn é um estimador consistente de θ.
c) Por b)(ii) sabemos que uma estimativa cêntrica e consistente de θ é

50
1 3438
t50 = x50 − 8 = xi − 8 = − 8 = 68.76 − 8 = 60.76.
50 50
i=1
d) (i) Vamos testar H0 : E(X) = 67 contra H1 : E(X) > 67 ao nível α = 0.05. A região crítica é
.
x − 67 ′
RC = {(x1 , . . . , x50 ) : x > 67 + c} = (x1 , . . . , x50 ) : σ >c
√
50
.
√ x − 67
= (x1 , . . . , x50 ) : 50 16 > c′ , c′ > 0,
√
5
" 16
uma vez que, sob H0 , σ = V (X) = √ é conhecido. Determinemos c′ .
5

X − 67 ′
0.05 = P (rejeitar H0 / H0 é verdadeira) = P 16 > c / m = 67 .
√
250
Sob H0 , uma vez que n = 50 > 30 e X não segue uma lei gaussiana, temos, pelo teorema do limite
central,
X − 67 •
16 ∼ N (0, 1).
√
250
Desta forma,

X − 67
P > c′ / m = 67 ≃ P U > c′ , com U ∼ N (0, 1).
√16
250
Determinemos então c′ tal que

P U > c′ = 0.05.
Usando a tabela da lei N (0, 1), vem c′ = 1.645.
Assim, .
x − 67
RC = (x1 , . . . , x50 ) : > 1.645 .
√16
250
√
x − 67 68.76 − 67 250
= = 1.76 = 1.739.
√16 √16 16
250 250
Como 1.739 > 1.645, concluímos que a amostra pertence à região crítica. Somos conduzidos, ao
nível de significância 0.05, a rejeitar H0 , isto é, aceitamos a este nível que E(X) > 67.
148
Podemos estar a rejeitar H0 sendo H0 verdadeira, ou seja, podemos estar a cometer um erro de 1a
espécie, com probabilidade
P (rejeitar H0 / H0 é verdadeira) = 0.05.
(ii) Em d)(i) concluímos, ao nível de significância 0.05, que E(X) > 67. Mas
E(X) > 67 ⇔ 8 + θ > 67 ⇔ θ > 59.
Por outro lado,

65 − θ 65 − θ
P (X > 65) = P (24Y + θ > 65) = P Y > = 1 − FY .
24 24
Mas
65 − θ 65 − 59 65 − θ 1
θ > 59 ⇔ −θ < −59 ⇔ < ⇔ <
24 24 24 4
e como FY é uma função crescente

65 − θ 1 65 − θ 1 1 1
FY ≤ FY ⇒ 1 − FY ≥ 1 − FY =1− = .
24 4 24 4 2 2
1
Assim, P (X > 65) ≥ .
2
149
D M U C
Prova 7 29
Após observação prolongada do conteúdo das mensagens que recebe no seu correio electrónico, deter-
minado utilizador decidiu classificar tais mensagens em três categorias:
M1 = "mensagem publicitária de conteúdo duvidoso",
M2 = "mensagem publicitária de conteúdo não duvidoso",
M3 = "mensagem não publicitária".
Constatou que 60% das mensagens eram do tipo M1 , 30% do tipo M2 e as restantes do tipo M3 e
concluiu, ainda, que o caracter ”$” aparece em 80% das mensagens do tipo M1 , em 20% das do tipo
M2 e em 10% das do tipo M3 .
Numa manhã, abriu o correio electrónico e escolheu aleatoriamente uma mensagem.
1. Qual a probabilidade da mensagem conter o caracter ”$”?
2. Se a mensagem não contém o caracter ”$”, qual a categoria a que mais provavelmente per-
tencerá?
II
O tempo de execução de um trabalho de determinado tipo, expresso em horas, é descrito por uma
variável aleatória real, X, de função densidade dada por

 x, 0<x≤1
fX (x) = −x + 2, 1 < x ≤ 2

0, caso contrário.

2. Determine o primeiro quartil de X e interprete o resultado obtido.

3. Calcule P X > 1.5 / X > 14 .
4. Sabendo que o tempo médio de execução de um trabalho daquele tipo é 1 hora, mostre que
V (X) = 16 .
5. Qual a probabilidade de em 96 trabalhos, com tempos de execução independentes, pelo menos
6 terem tempos de execução inferiores a 14 hora?
6. O tempo de execução de um outro tipo de trabalho, também expresso em horas, é independente
de X e é descrito por uma variável aleatória real, Y, com distribuição uniforme no intervalo ]0, 2] , isto
é, com função densidade 1
fY (y) = 2, 0 < y ≤ 2
0, caso contrário.
a) Obtenha a função densidade do vector (X, Y ) .
b) Calcule a probabilidade dos tempos de execução de dois trabalhos, um de cada tipo, serem
ambos superiores a 1.5 hora.
2k
c) Sabendo que E Y k = , k ∈ N, calcule E (3X − Y ) e V (3X − Y ) .
k+1
29
150
III
O consumo mensal de energia eléctrica, expresso em centenas de kW h, de determinado cliente

da EDP é descrito por uma variável aleatória real gaussiana, X, de média m e desvio padrão σ,
m ∈ R, σ ∈ R+ . O registo dos consumos do cliente durante 24 meses, escolhidos ao acaso, conduziu
aos valores presentes no quadro seguinte.
consumo mensal ]2.8, 3.6] ]3.6, 4.4] ]4.4, 5.2]

no de meses 4 13 7
1. Determine estimativas cêntricas da média e da variância do consumo mensal de energia eléctrica

do cliente.
2. Construa um intervalo de confiança para a variância do consumo mensal de energia eléctrica
do cliente, com grau de confiança 0.95.
3. Teste, ao nível de significância 0.05, as hipóteses H0 : m = 4 e H1 : m > 4. Face à decisão a que
é conduzido, qual o tipo de erro que poderá estar a cometer?
4. Considere, a partir de agora, m = 4 e σ = 0.04. Com o objectivo de facilitar a facturação
dos consumos, a EDP debita mensalmente a cada cliente um consumo teórico de energia eléctrica, t,
calculado de tal modo que a probabilidade do consumo efectivo, X, exceder t seja 0.3085.
a) Determine o valor de t que é mensalmente debitado ao referido cliente.
b) Admitindo a independência dos consumos mensais de energia eléctrica do cliente, qual a pro-
babilidade do seu consumo durante 9 meses exceder o consumo teórico total que lhe é debitado nesse
período?
151
M1 = "a mensagem publicitária é de conteúdo duvidoso",
M2 = "a mensagem publicitária é de conteúdo não duvidoso",
M3 = "a mensagem é não publicitária"
C = "o caracter $ aparece na mensagem".
Tem-se, do enunciado, que
Ω = {mensagens} = M1 ∪ M2 ∪ M3
com M1 , M2 e M3 dois a dois incompatíveis (Mi ∩ Mj = ∅, i = j, i, j = 1, 2, 3).

Além disso,
P (M1 ) = 0.6, P (M2 ) = 0.3, P (C/M1 ) = 0.8, P (C/M2 ) = 0.2, P (C/M3 ) = 0.1.
Concluímos, então, que
P (M3 ) = P (Ω) − P (M1 ) − P (M2 ) = 1 − 0.6 − 0.3 = 0.1.
1. Pretendemos calcular P (C) . Ora,
P (C) = P (C ∩ Ω) = P (C ∩ (M1 ∪ M2 ∪ M3 ))
= P ((C ∩ M1 ) ∪ (C ∩ M2 ) ∪ (C ∩ M3 ))
= P (C ∩ M1 ) + P (C ∩ M2 ) + P (C ∩ M3 ) (acontecimentos 2 a 2 incompatíveis)
= P (M1 ) P (C/M1 ) + P (M2 ) P (C/M2 ) + P (M3 ) P (C/M3 )
= 0.6 × 0.8 + 0.3 × 0.2 + 0.1 × 0.1 = 0.55.
2. Para i = 1, 2, 3,

P Mi ∩ C P (Mi ) − P (Mi ∩ C)
P Mi /C = =
P C 1 − P (C)
pelo que
0.6 − 0.48 0.12
P M1 /C = = ≃ 0.27
1 − 0.55 0.45
0.3 − 0.06
P M2 /C = ≃ 0.53
0.45
0.1 − 0.01
P M3 /C = = 0.2.
0.45

Como P M2 /C > P Mi /C , i = 1, 3, concluímos que, se a mensagem não contiver o caracter
$, o mais provável é que pertença à categoria M2 .
II
x
1. Sabemos que ∀x ∈ R, FX (x) = fX (t) dt.
−∞
Então,
152
x
•x≤0: FX (x) = 0dt = 0
−∞
0 x x
t2 x2
•0<x≤1: FX (x) = 0dt + tdt = 2 0 = 2
−∞ 0
0 x 1
•1<x≤2: FX (x) = 0dt + tdt + (2 − t) dt
−∞ 0 1
x
t2 2
= 2 + 2t − 2 = − x2 + 2x − 1
1
1
0 1 2 x
•x>2: FX (x) = 0dt + tdt + (2 − t) dt + 0dt = 1.
−∞ 0 1 2
2. O primeiro quartil é todo o número real Q1 tal que

1
FX (Q1 ) = .
4
Como FX (0) = 0 e FX (1) = 12 , então Q1 ∈ ]0, 1[ , pois FX é monótona não decrescente. Assim,
√
1 x2 1 2
FX (x) = 4 ⇔ 2 = 4 ⇔x=± 2 .
√
2
Consequentemente Q1 = 2 (≃ 0.71) .
Poderemos então afirmar que em 25% dos trabalhos daquele tipo, o tempo de execução é quando
muito 0.71 horas, isto é, 42m 36s.
3.

1 P (X > 1.5) ∩ X > 14
P X > 1.5/X > =
4 P X > 14
P (X > 1.5) 1 − FX (1.5)
= 1
=
P X>4 1 − FX 14
2

1 − − 1.52 + 2 × 1.5 − 1 4
= 1 2
= .
( ) 31
1 − 42
4. Sabemos que E(X) = 1. Além disso,

+∞
2
E(X ) = x2 fX (x) dx
−∞
0 1 2
+∞
2 3 2
= x × 0 dx + x dx + x (2 − x) dx + x2 × 0 dx
−∞ 0 1 2
1 3 2
x4 x x4 7
= + 2 − = .
4 0 3 4 1 6
Então, usando a fórmula de Köenig,
7 1
V (X) = E(X 2 ) − (E(X))2 = −1= .
6 6
5. Introduzindo a variável aleatória Z = "no de trabalhos com tempos de execução inferiores a

1
4 h, em 96 trabalhos seleccionados", pretendemos calcular P (Z ≥ 6) .
153

Mas Z ∼ B (96, p) com p = P X < 14 = FX 14 = 32 1
.
• 1

Como p < 0.1, então Z ∼ P 96 × 32 = P (3) , pelo que

P (Z ≥ 6) ≃ P Z ′ ≥ 6 , Z ′ ∼ P (3)

= 1 − P Z′ < 6
= 1 − FZ ′ (5) , Z ′ discreta de suporte N0
= 1 − 0.9161.
6. a) X e Y independentes ⇒ ∀ (x, y) ∈ R2 , f(X,Y ) (x, y) = fX (x) fY (y) pelo que

 x
 2,
 0<x≤1 e 0<y≤2
2−x
f(X,Y ) (x, y) = 2 , 1<x≤2 e 0<y≤2


0, caso contrário.
b) Temos P ((X > 1.5) ∩ (Y > 1.5)) = P (X > 1.5) P (Y > 1.5), pois X e Y são independentes.
Como
P (X > 1.5) = 18 , por 3., e
+∞
2 1
P (Y > 1.5) = fY (y) dy = 2 dy, pois fY (y) = 0, y ∈ ]2, +∞[
1.5 1.5
2
= y2 1.5 = 14 ,
vem
1 1 1
P ((X > 1.5) ∩ (Y > 1.5)) = × = .
8 4 32
c) Tem-se
E (3X − Y ) = 3E (X) − E (Y ) pela linearidade da esperança matemática,

= 3 − 1 = 2.
Por outro lado, V (3X − Y ) = 9V (X) + V (Y ) − 6Cov (X, Y ) e sabemos que

• Cov (X, Y ) = 0, porque X e Y são independentes,

• V (Y ) = E Y 2 − [E (Y )]2 = 43 − 1 = 13 ,
pelo que
9 1 11
V (3X − Y ) = 9V (X) + V (Y ) = 6 + 3 = 6 .
III
1. Uma estimativa cêntrica da média do consumo mensal de energia eléctrica é x e uma estimativa
cêntrica da variância de tal consumo é s-2X .
A construção do quadro estatístico permite organizar os cálculos e introduzir a marca da classe i,
′
xi , i = 1, 2, 3.
classes ni x′i ni x′i ni (x′i )2
]2.8, 3.6] 4 3.2 12.8 40.96
]3.6, 4.4] 13 4.0 52 208
]4.4, 5.2] 7 4.8 33.6 161.28
totais 24 98.4 410.24
154
Obtemos
3
1 98.4
x = x′ = ni x′i = = 4.1
24 i=1 24
3
1 410.24
s2X = s2X ′ = ni (x′i )2 − (x′ )2 = − (4.1)2 ≃ 0.283
24 24
i=1
24 2
s-2X
= s ≃ 0.296 .
23 X
Assim, uma estimativa cêntrica da média do consumo mensal de energia eléctrica é 4.1 kW h e
uma estimativa cêntrica da variância de tal consumo é 0.296 kW h2 .
2. Determinemos um intervalo de confiança para σ 2 , com grau de confiança β = 0.95.

24 2
Xi − X
Consideremos a variável fulcral Z = ∼ χ2 (23), uma vez que m é desconhecida e
σ
i=1
X ∼ N (m, σ).
Determinemos dois reais z1 , z2 tais que P (z1 < Z < z2 ) = 0.95 e P (Z ≤ z1 ) = P (Z ≥ z2 ).
Então, uma vez que
0.95 = P (z1 < Z < z2 ) = P (Z < z2 ) − P (Z ≤ z1 ) = P (Z < z2 ) − P (Z ≥ z2 )
vem
0.95 = 2P (Z < z2 ) − 1 ⇔ P (Z ≤ z2 ) = 0.975.
Temos, então,
P (Z ≤ z1 ) = 0.025 z1 = 11.7
⇒
P (Z ≤ z2 ) = 0.975 z2 = 38.1
por consulta da tabela do χ2 .
Mas
24
(Xi − X)2
z1 < Z < z2 ⇔ 11.7 < < 38.1
σ2
i=1
24
24

(Xi − X)2 (Xi − X)2
i=1 i=1
⇔ < σ2 < .
38.1 11.7
Para a amostra observada, obteve-se
24

(xi − x)2 = 24s2X ≃ 6.792
i=1
pelo que um intervalo de confiança para σ2 , ao grau de confiança 0.95, é

6.792 6.792
, = ]0.178, 0.581[ .
38.1 11.7
3. Vamos testar H0 : m = 4 contra H1 : m > 4, ao nível α = 0.05. A região crítica do teste é da

forma
RC = {(x1 , . . . , x24 ) : x > 4 + c} = {(x1 , . . . , x24 ) : x − 4 > c}
 
 x−4 
= (x , . . . , x24 ) : s > c , c′ > 0,
′
 1 √X 
24
155
uma vez que, sob H0 , σ é desconhecido. Determinemos c′ .
 
X −4
0.05 = P (rejeitar H0 / H0 é verdadeira) = P  > c ′ / m = 4 .
SX
√
24
Sob H0 , X ∼ N (4, σ) pelo que

X −4
∼ T (23) .
SX
√
24
Desta forma,  
X −4
P > c′ / m = 4 = P T > c′ , com T ∼ T (23) .
SX
√
24
Determinemos então c′ tal que

P T ≤ c′ = 1 − 0.05 = 0.95.
Usando a tabela da lei T (23), vem c′ = 1.714.

Assim,  
 x−4 
RC = (x1 , . . . , x24 ) : s > 1.714 .
 √X 
24

√
x−4 4.1 − 4 24
sX

= √ = 0.1 √ ≃ 0.9.
√ 0.296
√ 0.296
24 24
Como 0.9 ≯ 1.714, concluímos que a amostra não pertence à região crítica. Somos conduzidos, ao
nível de significância 0.05, a aceitar H0 , isto é, aceitamos a este nível que m = 4.
Associado a esta decisão poderá estar um erro de 2a espécie se, na verdade, H0 for falsa.
4. a) Sabemos que X ∼ N (4, 0.04) . Então,

X −4 t−4
P (X > t) = 0.3085 ⇔ P > = 0.3085
0.04 0.04

t−4
⇔P U > = 0.3085, U ∼ N (0, 1)
0.04

t−4
⇔P U ≤ = 0.6915
0.04
t−4
⇔ = 0.5
0.04
⇔ t = 4.02.
b) Consideremos a variável aleatória
T = "consumo total do cliente durante 9 meses (em kW h)".
Tem-se
9

T = Xi
i=1
com Xi = "consumo do cliente durante o i-ésimo mês", i = 1, ..., 9.
156
Pretendemos calcular P (T > 9 × 4.02) .
Como X1 , ..., X9 são independentes e Xi ∼ N (4, 0.04) , i = 1, ..., 9, então, pela estabilidade da lei
normal,
T ∼ N (mT , σT )
com
9
9
mT = E Xi = E (Xi ) = 9 × 4 = 36
i=1 i=1
9 9
σ 2T = V Xi = V (Xi ) = 9 × 0.042 ⇒ σT = 3 × 0.04 = 0.12.
i=1 i=1
Então,

T − 36 36.18 − 36
P (T > 9 × 4.02) = P >
0.12 0.12
= P (U > 1.5) , U ∼ N (0, 1)
= 1 − P (U ≤ 1.5)
= 1 − 0.9332
= 0.0668.
157
D M U C
Prova 8 30
I
Um computador sofreu uma falha no seu funcionamento. Sabe-se que a falha apenas pode ser
provocada por uma, e só uma, das seguintes anomalias: erro de leitura do disco, dano na memória
central ou sobreaquecimento do processador. Informações técnicas sobre este tipo de computador
permitem afirmar que a falha é provocada por erro de leitura do disco, dano na memória central ou
sobreaquecimento do processador com probabilidades 0.2, 0.3 e 0.5, respectivamente. Por outro lado,
sabe-se que quando a falha é provocada por erro de leitura do disco, a probabilidade de ser reparada
é 0.6; no caso de ser provocada por dano na memória central, a probabilidade de ser reparada é 0.4;
e quando é devida a sobreaquecimento do processador, a probabilidade de ser reparada é 0.7.
1. Qual a probabilidade da falha ser reparada?
2. Sabendo que a falha não foi reparada, qual a anomalia que mais provavelmente a provocou?
II
O tempo de espera para aceder a uma máquina Multibanco e o tempo de utilização da máquina para
efectuar uma operação de levantamento, expressos em minutos, são descritos por variáveis aleatórias
reais contínuas, X e Y, respectivamente, independentes e com funções densidade dadas por
1
3x2 , 0 < x < 1 2, 0 < y < 2 ,
fX (x) = e fY (y) =
0, x∈/ ]0, 1[ 0, y ∈/ ]0, 2[
3
respectivamente. Nestas condições, tem-se V (X) = 80 .
2. Determine o terceiro quartil de X e interprete o resultado obtido.
3. Sabendo que o tempo de espera para aceder à máquina é superior a 20 segundos, qual a proba-
bilidade de não exceder 40 segundos?
4. Obtenha a função densidade do vector aleatório (X, Y ) .
5. Calcule a probabilidade do tempo de espera ser superior ao tempo de utilização da máquina.
6. Obtenha a matriz de variâncias-covariâncias de (X, Y ) .
7. Suponha que os tempos de espera para aceder à máquina são independentes. Qual a probabili-
dade de ocorrerem mais de 75 tempos de espera superiores a 20 segundos, em 81 observados?
30
158
III
O consumo diário de energia eléctrica, expresso em centenas de kW h, de uma pequena localidade

é bem modelado por uma variável aleatória real contínua, C, seguindo a lei normal de média 20 e
desvio padrão 2.
1. Qual a probabilidade de, num dia, o consumo de energia eléctrica estar compreendido entre 18
e 23 centenas de kW h?
2. Supondo que os consumos de energia eléctrica em dias distintos são independentes, qual a pro-
babilidade de, numa semana (7 dias), serem consumidos mais de 130 centenas de kW h?
3. Uma parte da energia eléctrica é gasta em iluminação pública. Admite-se que a energia eléctrica
utilizada diariamente em iluminação pública naquela localidade é descrita pela variável aleatória
real X = θC, onde θ é um parâmetro real desconhecido, 0 < θ < 1.
a) Identifique a lei de X.
b) O registo da quantidade de energia eléctrica utilizada em iluminação pública na referida lo-
calidade em 30 dias, escolhidos ao acaso, conduziu aos valores presentes no quadro seguinte.
Energia eléctrica gasta em

]9, 11] ]11, 13] ]13, 15]
iluminação pública (centenas de kW h)
No de dias 5 20 5
(i) Determine estimativas cêntricas e consistentes de E(X) e de V (X).

(ii) Construa um intervalo de confiança para V (X), com grau de confiança 0.99.
(iii) Poderá afirmar, ao nível de significância 0.05, que a quantidade média de energia eléctrica
utilizada diariamente em iluminação pública na localidade é 1240 kW h? O que conclui
sobre o valor de θ?
159
E = "a falha é provocada por erro de leitura do disco",
D = "a falha é provocada por dano na memória central",
S = "a falha é provocada por sobreaquecimento do processador"
R = "a falha é reparada".
Tem-se, do enunciado, que
Ω = {ocorreu falha} = E ∪ D ∪ S
com E, D e S dois a dois incompatíveis (E ∩ D = E ∩ S = D ∩ S = ∅).

Além disso,
P (E) = 0.2, P (D) = 0.3, P (S) = 0.5, P (R/E) = 0.6, P (R/D) = 0.4, P (R/S) = 0.7.
1. Pretendemos calcular P (R) . Ora,
P (R) = P (R ∩ Ω) = P (R ∩ (E ∪ D ∪ S))
= P ((R ∩ E) ∪ (R ∩ D) ∪ (R ∩ S))
= P (R ∩ E) + P (R ∩ D) + P (R ∩ S) (acontecimentos 2 a 2 incompatíveis)
= P (E) P (R/E) + P (D) P (R/D) + P (S) P (R/S)
= 0.2 × 0.6 + 0.3 × 0.4 + 0.5 × 0.7 = 0.59.

2. Devemos comparar P E/R , P D/R e P S/R . Ora

P E∩R P (E) − P (E ∩ R) 0.2 − 0.12 0.08
P E/R = = = =
P R 1 − P (R) 0.41 0.41

P D∩R P (D) − P (D ∩ R) 0.3 − 0.12 0.18
P D/R = = = =
P R 1 − P (R) 0.41 0.41

P S∩R P (S) − P (S ∩ R) 0.5 − 0.35 0.15
P S/R = = = = .
P R 1 − P (R) 0.41 0.41

Como P D/R > P S/R > P E/R concluímos que, se a falha não foi reparada, a anomalia
que mais provavelmente a provocou foi dano na memória central.
II
Sejam X = “tempo de espera para aceder à máquina (em minutos)”

e Y = “tempo de utilização da máquina (em minutos)”.
x
1. Sabemos que ∀x ∈ R, FX (x) = fX (t) dt.
−∞
Então,
x
• x ≤ 0, FX (x) = 0dt = 0
−∞
0 x x
• 0 < x ≤ 1, FX (x) = 0dt + 3t2 dt = t3 0 = x3
−∞ 0
160
0 1 x
• x > 1, FX (x) = 0dt + 3t2 dt + 0dt = 1.
−∞ 0 1
2. O terceiro quartil de X, Q3 , é todo o número real tal que FX (Q3 ) = 34 .

Como FX é contínua e não decrescente, # necessariamente Q3 ∈ ]0, 1[ .
Ora FX (x) = 34 ⇐⇒ x3 = 34 ⇐⇒ x = 3 34 ≃ 0.91.
Logo, Q3 = 0.91 e, portanto, em 75% das vezes, o tempo de acesso é inferior ou igual a 0.91
minutos.
3. Temos

2 1 P X ≤ 23 ∩ X > 13
P X≤ /X> =
3 3 P X > 13

P 13 < X ≤ 23
=
1 − P X ≤ 13
2 3 1 3
FX 23 − FX 13 −
= 1 = 3 33 .
1 − FX 3 1− 1 3
4. Como X e Y são independentes, vem 3 2

2x , se 0 < x < 1 e 0 < y < 2
∀ (x, y) ∈ R2 , f(X,Y ) (x, y) = fX (x) fY (y) =
0, caso contrário.
x
1 x 3 3
1 3
1 3 x4
1
5. P (X > Y ) = 2 x2 dy dx =
2 x2 dy dx = 2 x3 dx = 2 4 0 = 38 .
0 0 0 0 0
6. A matriz de variâncias-covariâncias de (X, Y ) é

V (X) cov(X, Y )
.
cov(X, Y ) V (Y )
3
Temos, do enunciado, V (X) = 80 . Por outro lado,

+∞ 2 y
E (Y ) = yfY (y) dy = 2 dy =1
−∞ 0
+∞ 2 2 2
y2 1 y3
E Y2 = y fY (y) dy = 2 dy = 2 3 0 = 43 ,
−∞ 0
atendendo a que fY (y) = 0, y ∈

/ [0, 2] .

Pela fórmula de Köenig, vem V (Y ) = E Y 2 − [E (Y )]2 = 4
3 − 1 = 13 .
Como X e Y são independentes, cov(X, Y ) = 0.
Então, a matriz pedida é 3
80 0
1 .
0 3
7. Consideremos a variável aleatória Z = “número de tempos de espera superiores a 20 segundos,

em 81 observados”.
Pretendemos calcular P (Z > 75) .
3
Ora, Z ∼ B(81, p), com p = P X > 13 = 1 − 13 = 1 − 27 1
= 26
27 .
161
1
Como p > 0.9, consideremos W = 81 − Z ∼ B(81, 27 ).
Então
P (Z > 75) = P (81 − W > 75) = P (W < 6) .
1 •
Como 27 < 0.1, vem W ∼ P (3) pelo que
P (W < 6) ≃ P (W1 < 6) , W1 ∼ P (3) .
Então
P (Z > 75) ≃ P (W1 < 6) = P (W1 ≤ 5) = 0.9161.
III
Seja C = “consumo de energia eléctrica da localidade (em centenas de kW h)”.

Sabemos que C ∼ N (20, 2) .
1. Tem-se

18 − 20 C − 20 23 − 20
P (18 ≤ C ≤ 23) = P ≤ ≤
2 2 2
C − 20
= P (−1 ≤ U ≤ 1.5) , onde U = ∼ N (0, 1)
2
= FU (1.5) − FU (−1)
= FU (1.5) − [1 − FU (1)]
= 0.9332 − (1 − 0.8413) = 0.7745.
2. Seja T = “consumo total de energia eléctrica da localidade em 7 dias (em centenas de kW h)”.
É claro que
7
T = Ci
i=1
com Ci = “consumo de energia eléctrica no i-ésimo dia”, i = 1, ..., 7.
Como Ci ∼ N (20, 2) , i = 1, ..., 7, e C1 , ..., C7 são independentes, pela estabilidade da lei normal
vem
T ∼ N (mT , σ T )
√
com mT = E(T ) = 7 × 20 = 140 e σ2T = V (T ) = 7 × 4 pelo que σT = 2 7.
Então

T − 140 130 − 140
P (T > 130) = P √ > √
2 7 2 7

5 T − 140
= P U > −√ , com U = √ ∼ N (0, 1)
7 2 7

5
= P U<√ , pela simetria em relação à origem
7
≃ P (U < 1.89) = 0.9706.
3. Seja X = “energia eléctrica consumida diariamente em iluminação pública (em centenas de

kW h)”.
Tem-se X = θC, 0 < θ < 1.
162
a) Uma vez que C ∼ N (20, 2) e da definição de X, X = θC, vem X ∼ N (20θ, 2θ) .
b) (i) Uma estimativa cêntrica e consistente de E(X) é x e uma estimativa cêntrica e consistente
de V (X) é s-2X .
A construção do quadro estatístico permite organizar os cálculos e introduzir a marca da classe i,
′
xi , i = 1, 2, 3.
classes ni x′i ni x′i ni (x′i )2
]9, 11] 5 10 50 500
]11, 13] 20 12 240 2880
]13, 15] 5 14 70 980
totais 30 360 4360
Obtemos
3
1 360
x = x′ = ni x′i = = 12
30 30
i=1
3
1 4360 40 4
s2X = s2X ′ = ni (x′i )2 − (x′ )2 = − 122 = =
30 30 30 3
i=1
30 2 30 4
s-2X = sX = ≃ 1.38.
29 29 3
Assim, uma estimativa cêntrica e consistente de E(X) é 12 centenas de kW h e uma estimativa
cêntrica e consistente de V (X) é 1.38 × 104 kW h.
(ii) Determinemos um intervalo de confiança para V (X), com grau de confiança β = 0.99.
30 2
Xi − X
Consideremos a variável fulcral Z = ∼ χ2 (29), uma vez que m é desconhecida e
σ
i=1
X ∼ N (m, σ).
Determinemos os reais z1 , z2 tais que

P (z1 < Z < z2 ) = 0.99
P (Z ≤ z1 ) = P (Z ≥ z2 )

FZ (z2 ) − FZ (z1 ) = 0.99 FZ (z2 ) − (1 − FZ (z2 )) = 0.99
⇐⇒ ⇐⇒
FZ (z1 ) = 1 − FZ (z2 ) _

2FZ (z2 ) = 1.99 FZ (z2 ) = 0.995 z2 = 52.3
⇐⇒ ⇐⇒ =⇒
_ FZ (z1 ) = 0.005 z1 = 13.1
por consulta da tabela do χ2 .

Mas
30
(Xi − X)2
z1 < Z < z2 ⇔ 13.1 < < 52.3
σ2
i=1
30
30

(Xi − X)2 (Xi − X)2
i=1 i=1
⇔ < σ2 < .
52.3 13.1
Para a amostra observada, obteve-se
30

(xi − x)2 = 30s2X = 40
i=1
163
pelo que um intervalo de confiança para V (X), ao grau de confiança 0.99, é

40 40
, = ]0.765, 3.05[ .
52.3 13.1
(iii) Vamos testar H0 : E(X) = 12.4 contra H1 : E(X) = 12.4, ao nível α = 0.05. A região
crítica do teste é da forma
RC = {(x1 , . . . , x30 ) : |x − 12.4| > c}, c > 0.
Notemos que, sob H0 , σ é conhecido pois
E(X) = 12.4 =⇒ 20θ = 12.4 =⇒ θ = 0.62 =⇒ σ = 2θ = 1.24.
Determinemos c. Temos

X − 12.4 c

0.05 = P (rejeitar H0 / H0 é verdadeira) = P 1.24 > 1.24 / E(X) = 12.4 .
√ √
30 30
Ora, sob H0 , X ∼ N (12.4, 1.24) pelo que
X − 12.4
U= 1.24 ∼ N (0, 1) .
√
30
√
30
Pretendemos c tal que 0.05 = P |U | > 1.24 c .
√
30
Seja c′ = 1.24 c e determinemosc′ tal que 0.05 = P (|U | > c′ ) . Mas, pela simetria da lei de U ,
P (|U | > c′ ) = P (U < −c′ ) + P (U > c′ ) = 2P (U > c′ ) = 2 − 2FU (c′ ) .
Portanto
FU (c′ ) = 0.975
pelo que c′ = 1.96 e, consequentemente,

1.24
c = 1.96 √ 30
≃ 0.44.
Assim,
RC = {(x1 , . . . , x30 ) : |x − 12.4| > 0.44}.
|x − 12.4| = |12 − 12.4| = 0.40.
Como 0.40 ≯ 0.44, concluímos que a amostra não pertence à região crítica. Somos conduzidos, ao
nível de significância 0.05, a aceitar H0 , isto é, aceitamos a este nível que E(X) = 12.4.
Como E(X) = 20θ, vem 20θ = 12.4 ⇐⇒ θ = 0.62. Assim, ao nível de significância 0.05, concluímos
que, naquela localidade, a percentagem de energia eléctrica gasta em iluminação pública é 62%.
164
Anexo A - Resumo de Estatística Descritiva
1. Preliminares
Designamos por população um conjunto de indivíduos para os quais se pretende estudar alguma
característica (ou atributo) em comum.
A Estatística estuda características da população que não se podem prever de modo determinista.
Às diferentes formas que um atributo pode tomar chamamos modalidades.
Exemplo. População: Habitantes da cidade de Coimbra

Indivíduo: Um qualquer habitante da cidade de Coimbra
Atributo: Estado civil
Modalidades: Solteiro, casado, viúvo, divorciado.
Um atributo pode ser mensurável ou não. Se é mensurável diz-se que o atributo é quantitativo;
caso contrário diz-se qualitativo.
Por exemplo, o estado civil, a profissão e o sexo de um indivíduo são atributos qualitativos enquanto
que a idade, a altura e o número de irmãos de um indivíduo são atributos quantitativos.
Um atributo quantitativo diz-se discreto (resp. contínuo) se as modalidades são em número finito
ou infinito numerável (resp. não numerável).
As populações podem ser finitas ou infinitas consoante seja finito ou infinito o número de elementos
que as compõem.
O conhecimento do atributo em estudo para todos os elementos da população não é, em geral,
viável por razões variadas (temporais, económicas, . . .). Opta-se por observar o valor de tal atributo
sobre um subconjunto finito e representativo da população, que designamos por amostra.
As noções de população e amostra conduzem-nos à distinção de dois ramos fundamentais da

Estatística: a Estatística Descritiva e a Estatística Indutiva.
A Estatística Descritiva estuda os métodos que permitem resumir a informação relevante contida
na amostra e a Estatística Indutiva estuda os métodos que permitem extrair conclusões da amostra
para a população.
2. Estatística Descritiva
Denotamos por X a característica quantitativa em estudo e por xi = X (ω i ) , i = 1, ..., n, o valor

que ela assume no i-ésimo indivíduo da amostra.
165
Usualmente, também se designa por amostra o conjunto {x1 , x2 , ..., xn } .
2. A. Caso discreto
2. A.1. Apresentação da amostra
Suponhamos que há k observações distintas na amostra. Sem perda de generalidade, representemo-

las por
x1 , x2 , ..., xk com x1 < x2 < ... < xk .
• ni = frequência absoluta de xi , i = 1, . . . , k.
k
Note-se que ni = n.
i=1
{(xi , ni ) : i = 1, . . . , k} : distribuição de frequências absolutas;
ni
• fi = = frequência relativa de xi , i = 1, . . . , k.
n
k
Tem-se fi = 1.
i=1
{(xi , fi ) : i = 1, . . . , k} : distribuição de frequências relativas.
• Função cumulativa: F : R −→ [0, 1], tal que



 0, x < x1

 x1 ≤ x < x2
 F1 ,
F (x) = fi = ... ...


{i:xi ≤x} 
 F , xk−1 ≤ x < xk
 k−1
1, x ≥ xk
onde
Fi = f1 + f2 + ... + fi , i = 1, ..., k − 1
é a frequência relativa acumulada de xi .
2. A.2. Resumos da amostra

a) Média da amostra (ou média empírica)
k k
1
x= ni xi = fi xi .
n i=1
i=1
A média da amostra é uma medida de tendência central.
b) Variância da amostra (ou variância empírica)
k k k
1 F ó rm u la d e K o en ig 1 2
s2X = ni (xi − x)2 = fi (xi − x)2 = ni xi − x2 .
n n
i=1 i=1 i=1
166
#
Desvio padrão da amostra: sX = + s2X .
O desvio padrão da amostra é uma medida de dispersão.
c) Quartis da amostra
Qi = i-ésimo quartil se 
 i
 F Q−i ≤
4 , i = 1, 2, 3.
 F Q+ ≥ i
 i
4
• Q2 (2o quartil) designa-se por Mediana (Medida de tendência central)
• Amplitude interquartil = Q3 − Q1 (Medida de dispersão).
2. B. Caso contínuo
2. B.1. Apresentação da amostra
• Classes Ii =]ai−1 , ai ], i = 1, . . . , k.
• ni = frequência absoluta da classe Ii =]ai−1 , ai ], i = 1, . . . , k.
k
Note-se que ni = n.
i=1
{(Ii , ni ) : i = 1 . . . , k} : distribuição de frequências absolutas;
ni
• fi = = frequência relativa da classe Ii =]ai−1 , ai ], i = 1, . . . , k.
n

k
Tem-se fi = 1.
i=1
{(Ii , fi ) : i = 1, . . . , k} : distribuição de frequências relativas.
• Função cumulativa: F : R −→ [0, 1], tal que



 0, x < a0

 x − a0

 f1 , a0 ≤ x ≤ a1

 a − a0

 ... 1 ...
F (x) = x − a i−1

 Fi−1 + fi , ai−1 ≤ x ≤ ai , i = 2, ..., k

 ai − ai−1



 ... ...


1, x ≥ ak
onde
Fi−1 = F (ai ) = f1 + f2 + · · · + fi , i = 1, . . . , k − 1
é a frequência relativa acumulada de ai .
2. B.2. Resumos da amostra

{(Ii , fi ) : i = 1, . . . , k} ֒→ {(x′i , fi ) : i = 1, . . . , k},
onde
ai−1 + ai
x′i =
2
é a marca da i-ésima classe, i = 1, . . . , k.
167
Representando por X ′ a variável cujos valores são as marcas das classes, sabemos calcular a média
das marcas das classes, x′ , e a variância das marcas, s2X ′ . A média e a variância da amostra obtêm-se
a partir destes valores. Concretamente,
a) Média da amostra (ou média empírica)

Assume-se que x = x′ (x′ média das marcas das classes).
A média da amostra é uma medida de tendência central.
b) Variância da amostra (ou variãncia empírica)

Assume-se que s2X = s2X ′ (s2X ′ variância das marcas).
#
Desvio padrão da amostra: sX = + s2X .
O desvio padrão da amostra é uma medida de dispersão.
c) Quartis da amostra
Qi = i-ésimo quartil se
i
F (Qi ) = , i = 1, 2, 3.
4
3. Exercícios de aplicação
1. O registo dos tempos de execução (em segundos) de um programa informático conduziu aos
seguintes valores:
20.4 20.2 20.0 19.6 20.6 20.0 20.2 19.8
20.0 20.2 20.0 19.8 20.2 20.0 20.0 19.8
a) (i) Construa a função cumulativa da amostra.

(ii) Determine a média e o desvio padrão dos tempos de execução registados.
(iii) Determine os quartis da amostra e interprete os resultados obtidos.
b) (i) Classifique a amostra dada utilizando para tal três classes de igual amplitude.
(ii) Faça o estudo da distribuição dos tempos de execução registados a partir da amostra
classificada seguindo o plano apresentado em a). Indique vantagens e inconvenientes
da amostra classificada em relação à amostra recolhida.
2. O quadro seguinte apresenta a duração (em minutos) de 100 chamadas efectuadas por um cliente
de uma empresa de telecomunicações.
duração (minutos) ]1.2, 1.3] ]1.3, 1.4] ]1.4, 1.5] ]1.5, 1.6] ]1.6, 1.7]
no de chamadas 10 20 38 25 7
a) Construa a função cumulativa da amostra.

b) Determine a média, o desvio padrão e os quartis da amostra.
c) Determine a proporção de chamadas com duração inferior a 1.44 minutos.
168
D M U C
Anexo B - Resultados de apoio
1. Se X ∼ B(n, p) então Y = n − X ∼ B(n, 1 − p).
B •
2. Se X ∼ H(n, M, B) e n ≤ 0.1M então X ∼ B(n, M ).
•
3. Se X ∼ B(n, p) e p ≤ 0.1 então X ∼ P (np).
• "
4. Se X ∼ B(n, p), n > 10 e 0.1 < p < 0.9 então X ∼ N(np, np(1 − p))
• √
5. Se X ∼ P (λ) e λ > 18 então X ∼ N(λ, λ) com correcção de continuidade.
•
6. Se X ∼ T (k) e k > 30 então X ∼ N(0, 1).
√ √ •
7. Se X ∼ χ2 (k) e k > 30 então 2X − 2k − 1 ∼ N(0, 1).
8. Seja (X1 , X2 , ..., Xn ) uma amostra aleatória de uma variável aleatória real X de média m
n 2
1
n
e desvio padrão σ, σ > 0. Sejam Xn = n1 Xi e S-n2 = n−1 Xi − Xn .
i=1 i=1
8.1. Se n > 30
Xn − m • Xn − m •
a) ∼ N(0, 1) b) ∼ N(0, 1).
√σ Sn
√
n n
8.2. Se X ∼ N(m, σ)
Xn − m Xn − m
a) ∼ N(0, 1) b) ∼ T (n − 1)
√σ n
S
√
n n
n n 2
Xi − m 2 Xi − Xn
c) ∼ χ2 (n) d) ∼ χ2 (n − 1).
σ σ
i=1 i=1
169
170
Anexo C - TABELAS
Lei de Poisson
Se X segue a lei de Poisson de parâmetro λ, λ ∈ R+ , a tabela seguinte apresenta valores da

função F (x) = P (X ≤ x). Por exemplo, se X segue a lei de Poisson de parâmetro λ = 3.5, tem-se
P (X ≤ 4) = 0.7254.
x \ λ 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

0 0.9048 0.8187 0.7408 0.6703 0.6065 0.5488 0.4966 0.4493 0.4066
1 0.9953 0.9825 0.9631 0.9384 0.9098 0.8781 0.8442 0.8088 0.7725
2 0.9998 0.9988 0.9964 0.9920 0.9856 0.9769 0.9659 0.9526 0.9372
3 1 0.9999 0.9997 0.9992 0.9982 0.9966 0.9942 0.9909 0.9866
4 1 1 0.9999 0.9998 0.9996 0.9992 0.9986 0.9977
5 1 1 1 0.9999 0.9998 0.9997
6 1 1
x \ λ 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0 0.3697 0.2231 0.1353 0.0821 0.0498 0.0302 0.0183 0.0111 0.0067
1 0.7358 0.5573 0.4060 0.2873 0.1991 0.1359 0.0916 0.0611 0.0404
2 0.9197 0.8088 0.6767 0.5438 0.4232 0.3208 0.2381 0.1736 0.1247
3 0.9810 0.9344 0.8571 0.7576 0.6472 0.5366 0.4335 0.3423 0.2650
4 0.9963 0.9814 0.9473 0.8912 0.8153 0.7254 0.6288 0.5321 0.4405
5 0.9994 0.9955 0.9834 0.9579 0.9161 0.8576 0.7851 0.7029 0.6160
6 0.9999 0.9991 0.9955 0.9858 0.9665 0.9347 0.8893 0.8311 0.7622
7 1 0.9998 0.9989 0.9958 0.9881 0.9733 0.9489 0.9134 0.8666
8 1 0.9998 0.9989 0.9962 0.9901 0.9786 0.9597 0.9319
9 1 0.9997 0.9989 0.9967 0.9919 0.9829 0.9682
10 0.9999 0.9997 0.9990 0.9972 0.9933 0.9863
11 1 0.9999 0.9997 0.9991 0.9976 0.9945
12 1 0.9999 0.9997 0.9992 0.9980
13 1 0.9999 0.9997 0.9993
14 1 0.9999 0.9998
15 1 0.9999
16 1
x \ λ 5.5 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5

0 0.0041 0.0025 0.0015 0.0009 0.0006 0.0003 0.0002 0.0001 0.0001
1 0.0266 0.0174 0.0113 0.0073 0.0047 0.0030 0.0019 0.0012 0.0008
2 0.0884 0.0620 0.0430 0.0296 0.0203 0.0138 0.0093 0.0062 0.0042
3 0.2017 0.1512 0.1118 0.0818 0.0591 0.0424 0.0301 0.0212 0.0149
4 0.3575 0.2851 0.2237 0.1730 0.1321 0.0996 0.0746 0.0550 0.0403
5 0.5289 0.4457 0.3690 0.3007 0.2414 0.1912 0.1496 0.1157 0.0885
6 0.6860 0.6063 0.5265 0.4497 0.3782 0.3134 0.2562 0.2068 0.1649
7 0.8095 0.7440 0.6728 0.5987 0.5246 0.4530 0.3856 0.3239 0.2687
8 0.9044 0.8472 0.7916 0.7291 0.6620 0.5925 0.5231 0.4557 0.3918
9 0.9462 0.9161 0.8774 0.8305 0.7764 0.7166 0.6530 0.5874 0.5218
10 0.9747 0.9574 0.9332 0.9015 0.8622 0.8159 0.7634 0.7060 0.6453
11 0.9890 0.9799 0.9661 0.9466 0.9208 0.8881 0.8487 0.8030 0.7520
12 0.9955 0.9912 0.9840 0.9730 0.9573 0.9362 0.9091 0.8758 0.8364
13 0.9983 0.9964 0.9929 0.9872 0.9784 0.9658 0.9486 0.9261 0.8981
14 0.9994 0.9986 0.9970 0.9943 0.9897 0.9827 0.9726 0.9585 0.9400
15 0.9998 0.9995 0.9988 0.9976 0.9954 0.9918 0.9862 0.9780 0.9665
16 0.9999 0.9998 0.9996 0.9990 0.9980 0.9963 0.9934 0.9889 0.9823
17 1 1 0.9998 0.9996 0.9992 0.9984 0.9970 0.9947 0.9911
18 1 0.9999 0.9997 0.9993 0.9987 0.9976 0.9957
19 1 0.9999 0.9997 0.9995 0.9989 0.9980
20 1 0.9999 0.9998 0.9996 0.9991
21 1 0.9999 0.9998 0.9996
22 1 0.9999 0.9998
23 1 0.9999
24 1
171
x \ λ 10 10.5 11 11.5 12 12.5 13 13.5 14
0
1 0.0005 0.0003 0.0002 0.0001 0.0001
2 0.0028 0.0018 0.0012 0.0008 0.0005 0.0003 0.0002 0.0001 0.0001
3 0.0104 0.0071 0.0049 0.0034 0.0023 0.0015 0.0010 0.0007 0.0005
4 0.0293 0.0210 0.0151 0.0108 0.0076 0.0053 0.0037 0.0026 0.0018
5 0.0671 0.0503 0.0375 0.0278 0.0203 0.0148 0.0107 0.0077 0.0055
6 0.1302 0.1016 0.0786 0.0603 0.0458 0.0345 0.0259 0.0192 0.0142
7 0.2203 0.1785 0.1432 0.1138 0.0895 0.0698 0.0540 0.0414 0.0316
8 0.3329 0.2794 0.2320 0.1907 0.1550 0.1249 0.0997 0.0789 0.0620
9 0.4580 0.3971 0.3405 0.2889 0.2424 0.2014 0.1658 0.1352 0.1093
10 0.5831 0.5207 0.4599 0.4018 0.3472 0.2970 0.2517 0.2112 0.1756
11 0.6968 0.6387 0.5793 0.5199 0.4616 0.4057 0.3532 0.3044 0.2600
12 0.7916 0.7419 0.6887 0.6330 0.5760 0.5189 0.4631 0.4093 0.3584
13 0.8645 0.8253 0.7813 0.7331 0.6816 0.6278 0.5730 0.5182 0.4644
14 0.9166 0.8878 0.8541 0.8153 0.7721 0.7250 0.6751 0.6232 0.5704
15 0.9513 0.9316 0.9075 0.8783 0.8445 0.8060 0.7636 0.7177 0.6393
16 0.9730 0.9603 0.9442 0.9236 0.8988 0.8693 0.8355 0.7975 0.7559
17 0.9857 0.9780 0.9679 0.9542 0.9371 0.9158 0.8905 0.8608 0.8272
18 0.9928 0.9884 0.9824 0.9738 0.9626 0.9481 0.9302 0.9083 0.8826
19 0.9965 0.9941 0.9908 0.9857 0.9787 0.9694 0.9574 0.9420 0.9235
20 0.9984 0.9971 0.9954 0.9925 0.9884 0.9827 0.9751 0.9648 0.9521
21 0.9993 0.9986 0.9978 0.9962 0.9939 0.9906 0.9860 0.9794 0.9712
22 0.9997 0.9993 0.9990 0.9982 0.9969 0.9951 0.9925 0.9884 0.9833
23 0.9999 0.9996 0.9996 0.9992 0.9985 0.9975 0.9962 0.9937 0.9907
24 0.9999 0.9997 0.9999 0.9997 0.9993 0.9988 0.9982 0.9967 0.9950
25 1 0.9998 0.9999 0.9999 0.9997 0.9994 0.9992 0.9983 0.9974
26 1 1 1 0.9999 0.9997 0.9997 0.9991 0.9987
27 1 0.9998 0.9999 0.9995 0.9994
28 1 1 0.9997 0.9997
29 0.9998 0.9999
30 1 1
x \ λ 14.5 15 15.5 16 16.5 17 17.5 18

0
1
2 0.0001
3 0.0004 0.0002 0.0001 0.0001 0.0001
4 0.0013 0.0009 0.0005 0.0004 0.0003 0.0002 0.0001 0.0001
5 0.0040 0.0028 0.0019 0.0014 0.0010 0.0007 0.0004 0.0003
6 0.0105 0.0076 0.0055 0.0040 0.0029 0.0021 0.0014 0.0010
7 0.0240 0.0180 0.0134 0.0100 0.0074 0.0054 0.0039 0.0029
8 0.0484 0.0374 0.0287 0.0220 0.0167 0.0126 0.0094 0.0071
9 0.0878 0.0698 0.0551 0.0433 0.0338 0.0261 0.0201 0.0154
10 0.1449 0.1184 0.0960 0.0774 0.0619 0.0491 0.0387 0.0304
11 0.2202 0.1847 0.1531 0.1270 0.1041 0.0847 0.0684 0.0549
12 0.3112 0.2676 0.2282 0.1931 0.1621 0.1350 0.1116 0.0917
13 0.4126 0.3622 0.3170 0.2745 0.2357 0.2009 0.1698 0.1426
14 0.5177 0.4656 0.4153 0.3675 0.3225 0.2808 0.2426 0.2081
15 0.6193 0.5680 0.5169 0.4667 0.4180 0.3714 0.3275 0.2867
16 0.7113 0.6640 0.6153 0.5659 0.5165 0.4677 0.4204 0.3750
17 0.7898 0.7487 07050 0.6593 0.6121 0.5440 0.5160 0.4686
18 0.8530 0.8193 0.7823 0.7423 0.6997 0.6550 0.6089 0.5622
19 0.9013 0.8751 0.8453 0.8122 0.7758 0.7363 0.6945 0.6509
20 0.9363 0.9169 0.8942 0.8681 0.8386 0.8055 0.7694 0.7307
21 0.9605 0.9468 0.9303 0.9107 0.8879 0.8615 0.8318 0.7991
22 0.9764 0.9672 0.9557 0.9617 0.9249 0.9048 0.8814 0.8551
23 0.9864 0.9805 0.9728 0.9633 0.9514 0.9367 0.9192 0.8989
24 0.9925 0.9888 0.9839 0.9777 0.9696 0.9593 0.9467 0.9313
25 0.9960 0.9938 0.9908 0.9869 0.9816 0.9748 0.9660 0.9554
26 0.9980 0.9967 0.9949 0.9926 0.9892 0.9848 0.9790 0.9718
27 0.9991 0.9983 0.9972 0.9960 0.9939 0.9912 0.9874 0.9827
28 0.9996 0.9992 0.9985 0.9979 0.9967 0.9950 0.9927 0.9897
29 0.9999 0.9996 0.9992 0.9989 0.9983 0.9973 0.9959 0.9941
30 0.9999 0.9998 0.9996 0.9995 0.9992 0.9986 0.9978 0.9967
31 1 0.9999 0.9998 0.9998 0.9997 0.9993 0.9988 0.9982
32 1 0.9999 0.9999 0.9999 0.9996 0.9994 0.9990
33 1 1 1 0.9998 0.9997 0.9995
34 0.9999 0.9999 0.9998
35 1 1 0.9999
36 1
172
Lei normal centrada e reduzida
Se Z segue a lei normal centrada e reduzida, a tabela seguinte apresenta valores da função
F (z) = P (Z ≤ z) . Por exemplo, F (0.15) = 0.5596.
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
Outros valores de z
z 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.8 4.0

F(z) 0.9987 0.99904 0.99931 0.99952 0.99966 0.99976 0.999841 0.999928 0.999968
z 1.282 1.645 1.960 2.326 2.576 3.090 3.291 3.891 4.417

F(z) 0.9 0.95 0.975 0.99 0.995 0.999 0.9995 0.99995 0.999995
173
Lei de Student
Se T segue a lei de Student com m graus de liberdade, a tabela seguinte indica, para α ≥ 0.6, o
valor tα tal que P(T ≤ tα ) = F (tα ) = α. Para α ≤ 0.4 decorre, da simetria da lei, que tα = t1−α . Por
exemplo, se m = 9 tem-se F (2.262) = 0.975 e F (−2.262) = 0.025.
m \ α 0.60 0.70 0.80 0.90 0.925 0.95 0.975 0.990 0.995 0.999 0.9995
1 0.325 0.727 1.376 3.078 4.165 6.314 12.71 31.82 63.66 318.3 636.6
2 0.289 0.617 1.061 1.886 2.282 2.920 4.303 6.965 9.925 22.33 31.60
3 0.277 0.584 0.978 1.638 1.924 2.353 3.182 4.541 5.841 10.22 12.94
4 0.271 0.569 0.941 1.533 1.778 2.132 2.776 3.747 4.604 7.173 8.610
5 0.267 0.559 0.920 1.476 1.699 2.015 2.571 3.365 4.032 5.893 6.859
6 0.265 0.553 0.906 1.440 1.650 1.943 2.447 3.143 3.707 5.208 5.959
7 0.263 0.549 0.896 1.415 1.617 1.895 2.365 2.998 3.499 4.785 5.405
8 0.262 0.546 0.889 1.397 1.592 1.860 2.306 2.896 3.355 4.501 5.041
9 0.261 0.543 0.883 1.383 1.574 1.833 2.262 2.821 3.250 4.297 4.781
10 0.260 0.542 0.879 1.372 1.559 1.812 2.228 2.764 3.169 4.144 4.587
11 0.260 0.540 0.876 1.363 1.548 1.796 2.201 2.718 3.106 4.025 4.437
12 0.259 0.539 0.873 1.356 1.538 1.782 2.179 2.681 3.055 3.930 4.318
13 0.259 0.538 0.870 1.350 1.530 1.771 2.160 2.650 3.012 3.852 4.221
14 0.258 0.537 0.868 1.345 1.523 1.761 2.145 2.624 2.977 3.787 4.140
15 0.258 0.536 0.866 1.341 1.517 1.753 2.131 2.602 2.947 3.733 4.073
16 0.257 0.535 0.865 1.337 1.512 1.746 2.120 2.583 2.921 3.686 4.015
17 0.257 0.534 0.863 1.333 1.508 1.740 2.110 2.567 2.898 3.646 3.965
18 0.257 0.534 0.862 1.330 1.504 1.734 2.101 2.552 2.878 3.611 3.922
19 0.257 0.533 0.861 1.328 1.500 1.729 2.093 2.539 2.861 3.579 3.883
20 0.257 0.533 0.860 1.325 1.497 1.725 2.086 2.528 2.845 3.552 3.850
21 0.257 0.532 0.859 1.323 1.494 1.721 2.080 2.518 2.831 3.527 3.819
22 0.256 0.532 0.858 1.321 1.492 1.717 2.074 2.508 2.819 3.505 3.792
23 0.256 0.532 0.858 1.319 1.489 1.714 2.069 2.500 2.807 3.485 3.767
24 0.256 0.531 0.857 1.318 1.487 1.711 2.064 2.492 2.797 3.467 3.745
25 0.256 0.531 0.856 1.316 1.485 1.708 2.060 2.485 2.787 3.450 3.725
26 0.256 0.531 0.856 1.315 1.483 1.706 2.056 2.479 2.779 3.435 3.707
27 0.256 0.531 0.855 1.314 1.482 1.703 2.052 2.473 2.771 3.421 3.690
28 0.256 0.530 0.855 1.313 1.480 1.701 2.048 2.467 2.763 3.408 3.674
29 0.256 0.530 0.854 1.311 1.479 1.699 2.045 2.462 2.756 3.396 3.659
30 0.256 0.530 0.854 1.310 1.477 1.697 2.042 2.457 2.750 3.385 3.646
Lei do Qui-quadrado
Se X segue a lei do Qui-quadrado com m graus de liberdade, a tabela seguinte indica o valor xα
tal que P(X ≤ xα ) = F (xα ) = α. Por exemplo, se m = 5 tem-se F (12.8) = 0.975.
m\ α 0.001 0.005 0.010 0.025 0.05 0.10 0.50 0.90 0.95 0.975 0.990 0.995 0.999
1 0.000 0.000 0.000 0.001 0.004 0.016 0.455 2.71 3.84 5.02 6.63 7.88 10.8
2 0.002 0.010 0.020 0.051 0.103 0.211 1.39 4.61 5.99 7.38 9.21 10.6 13.8
3 0.024 0.072 0.115 0.216 0.352 0.584 2.37 6.25 7.81 9.35 11.3 12.8 16.3
4 0.091 0.207 0.297 0.484 0.711 1.06 3.36 7.78 9.49 11.1 13.3 14.9 18.5
5 0.210 0.412 0.554 0.831 1.15 1.61 4.35 9.24 11.1 12.8 15.1 16.7 20.5
6 0.381 0.676 0.872 1.24 1.64 2.20 5.35 10.6 12.6 14.4 16.8 18.5 22.5
7 0.598 0.989 1.24 1.69 2.17 2.83 6.35 12.0 14.1 16.0 18.5 20.3 24.3
8 0.857 1.34 1.65 2.18 2.73 3.49 7.34 13.4 15.5 17.5 20.1 22.0 26.1
9 1.15 1.73 2.09 2.70 3.33 4.17 8.34 14.7 16.9 19.0 21.7 23.6 27.9
10 1.48 2.16 2.56 3.25 3.94 4.87 9.34 16.0 18.3 20.5 23.2 25.2 29.6
11 1.83 2.60 3.05 3.82 4.57 5.58 10.3 17.3 19.7 21.9 24.7 26.8 31.3
12 2.21 3.07 3.57 4.40 5.23 6.30 11.3 18.5 21.0 23.3 26.2 28.3 32.9
13 2.62 3.57 4.11 5.01 5.89 7.04 12.3 19.8 22.4 24.7 27.7 29.8 34.5
14 3.04 4.07 4.66 5.63 6.57 7.79 13.3 21.1 23.7 26.1 29.1 31.3 36.1
15 3.48 4.60 5.23 6.26 7.26 8.55 14.3 22.3 25.0 27.5 30.6 32.8 37.7
16 3.94 5.14 5.81 6.91 7.96 9.31 15.3 23.5 26.3 28.8 32.0 34.3 39.3
17 4.42 5.70 6.41 7.56 8.67 10.1 16.3 24.8 27.6 30.2 33.4 35.7 40.8
18 4.90 6.26 7.01 8.23 9.39 10.9 17.3 26.0 28.9 31.5 34.8 37.2 42.3
19 5.41 6.84 7.63 8.91 10.1 11.7 18.3 27.2 30.1 32.9 36.2 38.6 43.8
20 5.92 7.43 8.26 9.59 10.9 12.4 19.3 28.4 31.4 34.2 37.6 40.0 45.3
21 6.45 8.03 8.90 10.3 11.6 13.2 20.3 29.6 32.7 35.5 38.9 41.4 46.8
22 6.98 8.64 9.54 11.0 12.3 14.0 21.3 30.8 33.9 36.8 40.3 42.8 48.3
23 7.53 9.26 10.2 11.7 13.1 14.8 22.3 32.0 35.2 38.1 41.6 44.2 49.7
24 8.08 9.89 10.9 12.4 13.8 15.7 23.3 33.2 36.4 39.4 43.0 45.6 51.2
25 8.65 10.5 11.5 13.1 14.6 16.5 24.3 34.4 37.7 40.6 44.3 46.9 52.6
26 9.22 11.2 12.2 13.8 15.4 17.3 25.3 35.6 38.9 41.9 45.6 48.3 54.1
27 9.80 11.8 12.9 14.6 16.2 18.1 26.3 36.7 40.1 43.2 47.0 49.6 55.5
28 10.4 12.5 13.6 15.3 16.9 18.9 27.3 37.9 41.3 44.5 48.3 51.0 56.9
29 11.0 13.1 14.3 16.0 17.7 19.8 28.3 39.1 42.6 45.7 49.6 52.3 58.3
30 11.6 13.8 15.0 16.8 18.5 20.6 29.3 40.3 43.8 47.0 50.9 53.7 59.7
174
Bibliografia
Andrews, L.C., R.L. Phillips, Mathematical Techniques for Engineers and Scientists, 2003,
Spie, Washington.
Devore, J. L., Probability and Statistics for Engineering and the Sciences, 2000, 5th ed., Duxbury.
Gonçalves, E., N. Mendes Lopes, Probabilidades - Princípios teóricos, 2000, Escolar Editora,
Lisboa.
Guimarães R., J. Sarsfield Cabral, Estatística, 2007, 2a ed., McGraw-Hill, Lisboa.
Montgomery, D.C., G.C. Runger, Applied Statistics and Probability for Engineers, 2007, 4th
ed., Wiley, USA.
Mood, A., F.A. Graybill, D.C. Boes, Introduction to the theory of Statistics, 1974, 3rd ed.,
McGraw-Hill International Editions, Singapore.
Moore, D., G. McCabe, Introduction to the practice of statistics, 2006, Freeman, New York.
Murteira, B., C. S. Ribeiro, J. A. Silva, C. Pimenta, Introdução à Estatística, 2007, 2a ed.,
McGraw-Hill, Lisboa.
Reis, E., P. Melo, R. Andrade, T. Calapez, Estatística Aplicada, 1997, Edições Sílabo,
Lisboa.
175

Probabilidade

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Probabilidade

Enviado por

Direitos autorais:

Formatos disponíveis

Versão em construção

Esmeralda Gonçalves, Emília Nogueira e Ana Cristina Rosa

Departamento de Matemática da Faculdade de Ciências e Tecnologia

Módulo 2 - Variáveis aleatórias reais 19

1. Variável aleatória real. Definição

Módulo 3 - Vectores aleatórios reais 37

1. Vector aleatório real. Definição

Módulo 4 - Complementos sobre variáveis aleatórias 51

Módulo 5 - Elementos de Estimação Paramétrica 65

Módulo 6 - Testes de hipóteses 83

Módulo 7 - Modelo de regressão linear simples 99

Módulo 8 - Provas de avaliação com resolução 111

Anexo A - Resumo de Estatística Descritiva 165

Anexo B - Resultados de apoio 169

Anexo C - Tabelas da função de repartição das leis de Poisson, Normal,

O estudo dos fenómenos aleatórios é feito recorrendo ao conceito de experiência aleatória.

E. Consideremos as seguintes experiências aleatórias:

a) lançamento de uma moeda e observação da face exposta;

b) lançamento de um dado e observação da face exposta;

c) extracção de uma carta de um baralho e registo das suas características;

e) registo do comprimento de recém-nascidos numa determinada maternidade. △

- o lançamento pode repetir-se um grande número de vezes nas mesmas condições

- em cada lançamento o resultado (“cara” ou “coroa”) é imprevisível.

Para ilustrar a característica da regularidade estatística suponhamos que a moeda é equilibrada; se

Ao realizarmos uma experiência aleatória obtemos um resultado individual, ω. Ao conjunto for-

b) Na experiência aleatória que consiste em lançar um dado, com as faces numeradas de 1 a 6, e

c) Se a experiência aleatória consiste em registar o número de chamadas telefónicas recebidas numa

d) Ao registar a duração de uma lâmpada extraída de uma cadeia de fabrico

A definição do espaço de resultados é a primeira etapa na modelação de uma experiência aleatória.

1. Escrevemos A ⊂ B quando a realização de A implica a realização de B.

2. Dizemos que A e B são idênticos, e escrevemos A = B, se A ⊂ B e B ⊂ A.

3. O conjunto A ∪ B representa um acontecimento que se realiza se e só se pelo menos um dos dois

4. O conjunto A ∩ B representa um acontecimento que ocorre se e só se ambos os acontecimentos

As uniões ou intersecções infinitas numeráveis aparecem explicitamente quando trabalhamos com

a) (An )n∈N é uma sucessão monótona crescente se

b) (An )n∈N é uma sucessão monótona decrescente se

E. A sucessão de termo geral An = [1, 2n[ , n ∈ N, é claramente crescente e tem-se

b) Se (An )n∈N é uma sucessão decrescente de conjuntos, tem-se

A regularidade estatística de uma experiência aleatória levou à seguinte definição de probabilidade

Definição clássica de probabilidade. Se o espaço de resultados, Ω, é não vazio e finito e se

1. P (A) é o quociente entre o número de casos favoráveis à realização de A e o número de casos

2. Quando todos os resultados da experiência aleatória têm a mesma possibilidade de ocorrer

3. Tem-se P (Ω) = 1, P (∅) = 0.

4. P (A) ∈ [0, 1] , qualquer que seja o acontecimento A.

5. A definição tem o inconveniente de envolver o próprio conceito.

E se Ω não é finito? E se não há equiprobabilidade? Kolmogorov propõe uma solução em 1933.

1. {∅, Ω} é uma tribo sobre Ω.

2. Sendo A um subconjunto de Ω, A, A, Ω, ∅ é uma tribo sobre Ω.

3. Se Ω é discreto então P(Ω) é uma tribo sobre Ω.

4. Se Ω = R consideremos o conjunto, B, constituído por todos os intervalos reais (abertos, fechados,

O par (Ω, A) denomina-se espaço probabilizável.

Se Ω é discreto consideramos A = P(Ω). Se Ω = R consideramos A = B.

A definição de probabilidade segundo Kolmogorov legitima a definição clássica correspondente a

é uma probabilidade sobre (Ω, P(Ω)), como facilmente se prova.

5. Propriedades de uma probabilidade

Propriedade. A probabilidade do acontecimento impossível é nula: P (∅) = 0.

Prova. Consideremos a sucessão de acontecimentos definida por

Sendo uma sucessão de acontecimentos dois a dois incompatíveis, vem

o que implica P (∅) = 0, pois P é uma função não negativa.

Notemos que o facto de se ter P (A) = 0 não implica que A = ∅.

Propriedade. (Aditividade de P). Se A1 , A2 ,..., An são acontecimentos de A dois a dois incom-

Em particular, se A e B são dois acontecimentos de A tais que A ∩ B = ∅, tem-se

Em particular, vemos que, se A ⊂ B, então P (B\A) = P (B) − P (A).

Propriedade. Se A e B são dois acontecimentos quaisquer de A, então

E. Consideremos as seguintes experiências aleatórias:

E. A sucessão de termo geral An = [1, 2n[ , n ∈ N, é claramente crescente e tem-se

ω −→ (X1 (ω) , X2 (ω) , ..., XK (ω)) .