Escolar Documentos
Profissional Documentos
Cultura Documentos
(páginas 1 a 175)
Julho de 2010
Noções de
Probabilidades e Estatística
1
2
Aos nossos alunos, antigos e actuais.
Este texto é um manual de estudo cujo conteúdo corresponde ao ensino das Probabilidades e
Estatística geralmente leccionado no primeiro ciclo universitário, numa unidade curricular em que as
palavras chave são Probabilidades, Estimação, Testes de Hipóteses e Regressão.
É fundamentalmente dirigido a estudantes de Ciências da Engenharia ou Bio-ciências podendo
também ser útil em Ciências de Economia ou Gestão.
Os 8 módulos que compõem o texto podem ser agrupados em 3 grandes partes. A primeira
(módulos 1, 2, 3 e 4) é dedicada à teoria das Probabilidades, às Variáveis e Vectores aleatórios reais
e aos principais resultados probabilistas. A segunda parte (módulos 5, 6 e 7) apresenta a teoria da
Amostragem e Estimação, os Testes de Hipóteses e o modelo de Regressão. O módulo 8 é dedicado à
resolução de diversas provas de avaliação.
Este texto é o resultado de vários anos de leccionação a diversos cursos da Faculdade de Ciências
e Tecnologia da Universidade de Coimbra.
3
4
ÍNDICE
Módulo 1 - Probabilidades 7
1. Experiência aleatória
2. Espaço de resultados
3. Acontecimentos
4. Probabilidade de um acontecimento
5. Propriedades de uma probabilidade
6. Probabilidade condicionada por um acontecimento
7. Acontecimentos independentes
1. Leis discretas
2. Leis contínuas
3. Aplicações do teorema do limite central
1. Preliminares
2. Estimação pontual
2.1. Estimadores cêntricos. Estimadores consistentes
5
2.2. Aplicações
2.3. Método dos momentos
3. Estimação intervalar
3.1. Introdução
3.2. Intervalos de confiança. Método da variável fulcral
3.3. Exemplos de intervalos de confiança
1. Preliminares
2. Testes paramétricos
2.1. Introdução
2.2. Testes para a média de uma população
2.3. Exemplos
2.4. Testes para a variância de uma população gaussiana
3. Testes de ajustamento do Qui-quadrado
3.1. Introdução
3.2. Testes de ajustamento a uma determinada lei de probabilidade
3.3. Testes de ajustamento a uma família de leis de probabilidade
1. Introdução
2. Definição e hipóteses
3. Propriedades dos estimadores dos mínimos quadrados
4. Inferência sobre os parâmetros do modelo no caso normal
Bibliografia 175
6
Módulo 1 - Probabilidades
A Estatística é um ramo da Matemática que fornece métodos que permitem obter conclusões sobre
características com interesse em conjuntos com elevado número de elementos (isto é, em populações)
associadas a fenómenos aleatórios (isto é, a situações não deterministas, em que a forma como a
característica se manifesta em cada elemento é imprevisível).
A característica de interesse é estudada sobre os elementos (ou indivíduos) de um subconjunto
da população, tão representativo quanto possível. Tal subconjunto é denominado amostra. A parte
da Estatística que se dedica ao estudo da amostra designa-se Estatística Descritiva.
Que conclusões se poderão tirar para a população, a partir da descrição e do resumo da amostra
fornecido pela Estatística Descritiva?
Como o nosso conhecimento da população é parcial e como as características com relevância para
a Estatística estão associadas a fenómenos aleatórios, qualquer conclusão sobre a população terá
associado um grau de incerteza.
A Estatística Indutiva fornece procedimentos que orientam a realização de inferências acompa-
nhadas de uma medida do grau de incerteza associado. A medida do grau de incerteza é obtida
recorrendo às Probabilidades.
A Teoria das Probabilidades tem por objectivo construir e estudar modelos matemáticos que
descrevam situações aleatórias (ou seja, em que mesmo mantendo as condições de realização, não há
conhecimento suficiente para prever com exactidão o que vai acontecer).
1. Experiência aleatória
(i) o aspecto imprevisível dos resultados (cada realização da experiência conduz a um resultado
individual mas não há conhecimento suficiente para o prever com exactidão);
(ii) a possibilidade de repetição (a experiência aleatória pode ser repetida um grande número de
vezes nas mesmas condições ou em condições muito semelhantes);
(iii) a regularidade estatística (após um grande número de realizações da experiência aleatória observa-
-se uma forte regularidade nos resultados obtidos quando analisados em conjunto).
d) registo da duração das chamadas telefónicas recebidas numa central durante um certo período;
7
É claro, no primeiro exemplo, que
2. Espaço de resultados
E.
a) Ao efectuarmos o lançamento de uma moeda com o objectivo de observar a face exposta temos
como espaço de resultados Ω1 = {C, K}, onde C representa “a face que fica exposta é cara” e
K representa “a face que fica exposta é coroa”.
e) Ao efectuar a tiragem simultânea de 3 cartas de um baralho com 52, temos, com notação sim-
bólica, Ω5 = {AO 6C 3P , DE AO 3E , ...} . Como Ω5 é o conjunto constituído por todos os grupos
de três cartas distintas, o número de resultados possíveis é card (Ω5 ) = 52
3 .
8
3. Acontecimentos
A segunda etapa na modelação de uma experiência aleatória tem subjacente a noção de aconteci-
mento.
Chamamos acontecimento a todo o subconjunto de Ω.
Se ω é um elemento de Ω então {ω} é um acontecimento. Estes subconjuntos singulares de Ω
dizem-se acontecimentos elementares.
E. Na experiência aleatória “lançamento de uma moeda e observação da face exposta”, onde
Ω = {C, K}, temos como acontecimentos {C}, que representa a saída de cara, {K} , que representa a
saída de coroa, e ainda {C, K} e ∅.
O conjunto de todos os acontecimentos possíveis desta experiência aleatória é, então,
{{C} , {K} , {C, K} , ∅} , isto é, o conjunto das partes de Ω, habitualmente designado por P(Ω).
Para as experiências aleatórias referidas nos exemplos b), c) e d) do parágrafo anterior, podemos
definir, respectivamente, os seguintes acontecimentos:
• A1 = a face exposta apresenta número par, isto é, A1 = {2, 4, 6} ;
• A2 = o número de chamadas telefónicas está entre 10 e 20, isto é, A2 = {11, ..., 19};
• A3 = a duração da lâmpada é superior a 50 horas, isto é, A3 = ]50, +∞[.
△
Dizemos que o acontecimento A se realiza (ou ocorre) se, ao realizar a experiência, o resultado
individual que se obtém, ω, é um elemento de A, isto é, ω ∈ A.
Notemos que Ω é um acontecimento que se realiza sempre, pelo que é denominado acontecimento
certo. Por outro lado, o conjunto vazio, ∅, que nunca se realiza, é chamado acontecimento impos-
sível.
Toda a álgebra de conjuntos é aplicável aos acontecimentos. Relembremos, pois, algumas operações
e terminologia correspondente adaptada aos acontecimentos.
Sejam A e B dois subconjuntos quaisquer de Ω.
5. O conjunto A\B representa um acontecimento que se realiza quando A se realiza e não se realiza
B.
Em particular, Ω\B = B diz-se acontecimento contrário de B.
Relembremos ainda que A\B = A ∩ B.
Se a realização conjunta, ou simultânea, de dois acontecimentos não é possível, dizemos que são
incompatíveis. Assim,
D
. Os acontecimentos A e B dizem-se incompatíveis quando A ∩ B = ∅ .
9
As operações de intersecção e união de dois acontecimentos admitem generalizações naturais. De
facto, se A1, A2, ..., An são subconjuntos de Ω, definem-se os acontecimentos
n
A1 ∪ A2 ∪ ... ∪ An = ∪ Ai ,
i=1
n
A1 ∩ A2 ∩ ... ∩ An = ∩ Ai .
i=1
Quando o cardinal de Ω não é finito pode ser necessário lidar com a intersecção, ou união, de
uma infinidade numerável de acontecimentos. Seja, então, (An )n∈N uma sucessão de subconjuntos de
Ω. Os acontecimentos seguintes traduzem, respectivamente, a união e a intersecção numeráveis de
acontecimentos.
+∞
6. O conjunto An representa um acontecimento que se realiza se e só se pelo menos um dos
n=1
acontecimentos A1 , A2 , ..., An , ... se realiza.
+∞
7. O conjunto An representa um acontecimento que se realiza se e só se todos os acontecimentos
n=1
A1 , A2 , ..., An , ... se realizam.
D
. Seja (An )n∈N uma sucessão de subconjuntos de um conjunto Ω.
∀n ∈ N, An ⊂ An+1 .
∀n ∈ N, An+1 ⊂ An .
Do estudo do comportamento de uma sucessão de conjuntos (An )n∈N quando n tende para +∞,
isto é, da análise da sua convergência, destacamos apenas o seguinte:
10
a) Se (An )n∈N é uma sucessão crescente de conjuntos, tem-se
+∞
lim An = An .
n→+∞
n=1
4. Probabilidade de um acontecimento
O .
6. Em termos formais, estamos perante uma aplicação que "actua" sobre qualquer subconjunto de
Ω. Ou seja, quando Ω é finito e há equiprobabilidade, define-se
P : P(Ω) −→ [0, 1]
card (A)
A −→ P (A) =
card (Ω)
onde P(Ω) designa o conjunto das partes de Ω .
11
Assim P será uma aplicação definida sobre um conjunto A composto por todos os subconjuntos
aos quais seja possível atribuir uma probabilidade.
Se Ω é discreto (finito ou infinito numerável) podemos tomar A igual a P(Ω).
Mas por vezes P(Ω) é demasiado vasto (em particular quando Ω é não numerável). Bastará que
uma tal classe A seja um subconjunto de P(Ω) estável para as operações usuais de conjuntos, de modo
a que todos os acontecimentos que nos interessam pertençam a A. Ou seja, basta que A seja uma
tribo de acontecimentos.
D
. Seja A um subconjunto de P(Ω). Diz-se que A é uma tribo sobre Ω se:
a) Ω ∈ A.
b) ∀A ⊂ Ω, A ∈ A =⇒ A ∈ A.
+∞
c) Se (An )n∈N é uma sucessão qualquer de acontecimentos de A então An ∈ A.
n=1
Verifica-se facilmente que se A é uma tribo sobre Ω então ∅ ∈ A e, por exemplo, todas as reuniões
e intersecções finitas de elementos de A são ainda elementos de A.
Notemos que se Ω é finito, as reuniões e intersecções numeráveis reduzem-se a uniões e intersecções
finitas.
E.
Uma vez construída esta estrutura, Kolmogorov define probabilidade do seguinte modo.
D
. Uma probabilidade P sobre (Ω, A) é toda a aplicação
P : A −→ [0, 1]
tal que
a) P (Ω) = 1.
b) Para toda a sucessão (An )n∈N de elementos de A dois a dois incompatíveis tem-se
+∞ +∞
P An = P (An ).
n=1 n=1
12
À estrutura (Ω, A, P ) chamamos espaço de probabilidade.
card (A)
∀A ∈ P(Ω), P (A) =
card (Ω)
Seja P uma probabilidade definida sobre um espaço probabilizável (Ω, A). Esta função goza de
algumas propriedades que passamos a detalhar.
A1 = Ω e ∀n ≥ 2, An = ∅.
pelo que
+∞
P (An ) = 0
n=2
P (A ∪ B) = P (A) + P (B).
13
Propriedade. (Monotonia de P). Se A e B são acontecimentos de A tais que A ⊂ B, então
P (A) ≤ P (B).
Prova. Como P é uma função não negativa e como B = A ∪ (B\A), com A ∩ (B\A) = ∅, o resultado
decorre de
P (B) = P (A) + P (B\A).
Em particular, temos
P ( A ) = 1 − P (A).
Teorema. (Continuidade monótona de P). Seja (An )n∈N uma sucessão de acontecimentos de A
monótona crescente ou decrescente. Então
14
6. Probabilidade condicionada por um acontecimento
D
. Sejam A e B acontecimentos de A tais que P (B) > 0. Chama-se probabilidade de A
condicionada por B (ou probabilidade de A dado B) ao quociente
P (A ∩ B)
PB (A) = P (A/B) = .
P (B)
PB : A −→ [0, 1]
P (A ∩ B)
A −→ PB (A) =
P (B)
é uma probabilidade sobre (Ω, A). De facto,
PB (A) = 1 − PB ( A )
PB (A ∪ C) = PB (A) + PB (C) − PB (A ∩ C).
P (A ∩ B) = P (A/B)P (B)
= P (B/A)P (A)
Teorema
n−1 da probabilidade composta. Sejam A1 , A2 , ..., An acontecimentos de A tais que
P Ai > 0. Então
i=1
n−1
P (A1 ∩ A2 ∩ ... ∩ An ) = P (A1 ) P (A2 /A1 ) P (A3 /A1 ∩ A2 ) ... P (An / Ai ).
i=1
Notemos que a condição P (A1 ∩ A2 ∩ ... ∩ An−1 ) > 0 implica P (A1 ) > 0, P (A1 ∩ A2 ) > 0, ... ,
P (A1 ∩ A2 ∩ ... ∩ An−2 ) > 0, pelo que todos os condicionamentos envolvidos na igualdade anterior são
válidos.
15
Teorema. Se A1 , A2 , ..., An são acontecimentos de A todos de probabilidade positiva e dois a dois
incompatíveis e se B é um acontecimento tal que
n
B⊂ ∪ Ai ,
i=1
então
n
P (B) = P (Ai ) P (B/Ai ) .
i=1
n n
Prova. Basta ter em conta que B = B ∩ ∪ Ai = ∪ (B ∩ Ai ) e usar a aditividade de P, uma vez
i=1 i=1
que estamos perante uma união de acontecimentos dois a dois incompatíveis.
então
P (Ai ) P (B/Ai )
∀i ∈ {1, ..., n} , P (Ai /B) =
n .
P (Ai ) P (B/Ai )
i=1
7. Acontecimentos independentes
Consideremos de novo uma experiência aleatória modelada por um espaço de probabilidade (Ω, A, P ).
Sejam A e B dois acontecimentos.
D
. A e B dizem-se independentes (ou P -independentes) se
P (A ∩ B) = P (A)P (B).
O .
1. Não deverá confundir-se esta noção com a de acontecimentos incompatíveis. De facto, a noção
de incompatibilidade é uma noção intrínseca dos acontecimentos, isto é, não depende da proba-
bilidade definida no espaço de base (Ω, A), o mesmo não acontecendo com a de independência
que está directamente ligada àquela probabilidade.
2. Se A e B são tais que P (A) > 0 e P (B) > 0, então A e B são independentes se e só se
P (A/B) = P (A) e P (B/A) = P (B).
Esta propriedade, cuja prova é deixada ao leitor, corresponde à ideia natural de independên-
cia. Alguns autores usam-na como definição de independência de dois acontecimentos (mas só
aplicável a acontecimentos de probabilidade estritamente positiva).
16
Propriedade. Se A e B são acontecimentos independentes, então também são independentes
a) A e B b) A e B c) A e B.
D
. Sendo C um acontecimento tal que P (C) > 0, dizemos que os acontecimentos A e B são
condicionalmente independentes relativamente a C (ou PC − independentes) se
PC (A ∩ B) = PC (A)PC (B).
D
. Os acontecimentos A1 , A2 , ..., An são mutuamente independentes se
∀k > 1, ∀{i1 , ..., ik } ⊂ {1, ..., n}, P (Ai1 ∩ ... ∩ Aik ) = P (Ai1 )...P (Aik ).
Assim, dados três acontecimentos A1 , A2 e A3 , eles são mutuamente independentes se
P (A1 ∩ A2 ) = P (A1 )P (A2 )
P (A1 ∩ A3 ) = P (A1 )P (A3 )
P (A2 ∩ A3 ) = P (A2 )P (A3 )
P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 ).
Se os acontecimentos A1 , A2 e A3 verificam as três primeiras igualdades mas não verificam a última
dizem-se independentes dois a dois.
Mais geralmente, se A1 , A2 , ..., An são tais que Ai e Aj são independentes para todos os índices i,
j ∈ {1, ..., n} , com i = j, dizemos que A1 , A2 , ..., An são independentes dois a dois.
É claro que se n acontecimentos são mutuamente independentes eles são dois a dois independentes.
No entanto, acontecimentos dois a dois independentes podem não ser mutuamente independentes. O
exemplo seguinte ilustra tal situação.
E. Uma caixa contém 4 cartões de papel, absolutamente idênticos, que estão relacionados
com a atribuição de três prémios. Assim, o cartão 1 atribui o prémio 1, o cartão 2 atribui o prémio 2,
o cartão 3 atribui o prémio 3 e o cartão 4 atribui os prémios 1, 2 e 3.
Consideremos a experiência aleatória que consiste em seleccionar, ao acaso, um cartão da caixa e
registar o prémio que é atribuído e sejam A1 , A2 e A3 os seguintes acontecimentos:
A1 = é atribuído o prémio 1,
A2 = é atribuído o prémio 2,
A3 = é atribuído o prémio 3.
17
18
Módulo 2 - Variáveis aleatórias reais
1. Variável aleatória real. Definição
Seja Ω o espaço de resultados associado a uma experiência aleatória. Em muitos casos Ω é, desde
logo, um subconjunto de números reais (se, por exemplo, a experiência aleatória consiste em medir
uma temperatura, um comprimento ou o valor de um preço). Noutros casos, Ω pode não ser um
conjunto numérico mas pode interessar-nos fazer corresponder a cada elemento ω de Ω um número ou
vários números reais.
Consideremos, por exemplo, a experiência que consiste em escolher ao acaso um aluno da FCTUC.
O espaço de resultados associado a esta experiência é, à partida, Ω = {ω 1 , ω 2 , ..., ωn } , onde n é o
número total de alunos e ωi representa o aluno i, i = 1, 2, ..., n.
Para cada aluno, podemos estar interessados em conhecer o número de disciplinas em que já obteve
aprovação, o número de matrículas, a idade, ...
Em cada um destes casos é notória a necessidade de associar a cada resultado da experiência o
número real que descreve o estudo em causa.
X : Ω −→ R
ω −→ X(ω).
Se estivermos interessados em analisar em simultâneo várias características dos elementos da po-
pulação haverá necessidade de traduzir cada resultado da experiência por um conjunto ordenado de
números reais. Somos assim conduzidos à introdução de uma função vectorial
X : Ω −→ RK
ω ∈ X −1 (B) ⇔ X (ω) ∈ B
Esta definição só terá sentido se X −1 (B) fôr um elemento de A. Só assim poderemos calcular
P X −1 (B) = P ({ω ∈ Ω : X(ω) ∈ B}) = P (X ∈ B) .
19
Esta é, pois, uma restrição natural a exigir a X.
D
. Dada uma aplicação X : Ω −→ R, dizemos que X é uma variável aleatória real se
∀B ∈ B, X −1 (B) ∈ A.
Q: B −→ R
B −→ Q (B) = P X −1 (B) = P (X ∈ B)
está bem definida e é, como veremos em seguida, uma probabilidade sobre (R, B). Utilizaremos a
notação mais sugestiva Q = PX .
Propriedade. Seja P uma probabilidade sobre (Ω, A) e X : Ω −→ R uma variável aleatória real. A
aplicação PX definida por
∀B ∈ B, PX (B) = P (X ∈ B)
é uma probabilidade sobre (R, B) .
• ∀B ∈ B, PX (B) ∈ [0, 1] ,
• PX (R) = 1,
+∞
+∞
• PX ∪ Bn = PX (Bn ) para toda a sucessão (Bn )n∈N de elementos de B dois a dois incom-
n=1 n=1
patíveis.
A probabilidade PX definida sobre (R, B) pela relação anterior diz-se lei de probabilidade da
variável aleatória real X.
E. Consideremos a experiência aleatória que consiste em efectuar dois lançamentos sucessivos
de um dado equilibrado e seja X a v.a.r. que representa o total dos pontos obtidos. Podemos calcular,
por exemplo,
1
PX ({2}) = P ({w : X(w) = 2}) = P (X = 2) = P ({(1, 1)}) =
36
PX ( ]9, +∞[ ) = P ({w : X(w) > 9}) = P (X > 9) =
6
= P ({(4, 6), (5, 5), (5, 6), (6, 4), (6, 5), (6, 6)}) =
36
PX ( ]0, 2[ ) = P ({w : 0 < X(w) < 2}) = P (0 < X < 2) = P (∅) = 0.
△
20
2. Função de repartição de uma variável aleatória real
Sabemos que ]−∞, x] ∈ B, qualquer que seja x ∈ R. Então, se X é uma variável aleatória real
podemos sempre calcular a probabilidade seguinte
PX ( ]−∞, x] ) = P X −1 ( ]−∞, x] ) = P ({ω : X (ω) ≤ x}) = P (X ≤ x) .
FX : R −→ R
x −→ FX (x) = P (X ≤ x)
diz-se função de repartição de X.
Esta função tem propriedades interessantes e vai revelar-se fundamental para o conhecimento da
lei da variável aleatória real X.
Propriedade 3. lim FX (x) = 1.
x→+∞
Prova. (1 ) Temos de provar que lim FX (xn ) = FX (x) para toda a sucessão de números reais (xn )n∈N
n→+∞
que tende para a por valores maiores que a (xn → a+ ) . Mas, como FX é monótona e limitada, existem
os limites laterais de FX em todo a ∈ R, isto é, existe e é finito lim FX (y) (bem como lim FX (y)).
y→a+ y→a−
Desta forma, basta calcular então o valor deste limite no caso de a sucessão (xn )n∈N ser decrescente
e tender para a.
Seja então xn = a + n1 , n ∈ N. Temos
1
lim F (xn ) = lim P −∞, a +
n→+∞ X n→+∞ X n
1
= PX lim −∞, a +
n→+∞ n
= PX ( ]−∞, a] ) = FX (a),
1
Pretende-se que o leitor retenha apenas a ideia geral.
21
porque a sucessão −∞, a + n1 n∈N é decrescente e o seu limite é ]−∞, a] .
Observamos desde já que a função FX não é, em geral, contínua. Com efeito, tem-se o resultado
seguinte.
D = {a ∈ R : P (X = a) > 0} .
Prova-se que este conjunto tem, quando muito, uma infinidade numerável de elementos. Conse-
quentemente, a função de repartição de uma variável aleatória real X ou é contínua sobre R ou tem,
quando muito, uma infinidade numerável de pontos de descontinuidade.
Prova. De facto,
É importante destacar que, como se infere directamente da definição de função de repartição, a
cada lei de probabilidade PX (e consequentemente a cada variável aleatória X) está associada uma só
função de repartição.
Inversamente, se G : R → R é tal que
a) G (x) ∈ [0, 1] , x ∈ R,
b) G é não decrescente,
então há uma única lei de probabilidade PX tal que G é a sua função de repartição.
22
PX (]a, b[) = P (a < X < b) = P (a < X ≤ b) − P (X = b) = FX (b) − FX (a) − P (X = b)
e
Os dois tipos de variáveis aleatórias reais que vamos estudar diferem no que diz respeito à natureza
dos valores que podem assumir. A diferença pode ser ilustrada considerando as seguintes variáveis
aleatórias:
• Y igual ao número de chamadas telefónicas registadas numa central num período de grande
afluência,
Nos dois primeiros casos, as grandezas em estudo só podem assumir valores inteiros:
X (Ω) = {0, 1, 2}
′
Y Ω = {0, 1, 2, 3, ...}
D
. Uma variável aleatória real X diz-se discreta se existe um subconjunto de R, S, discreto,
tal que P (X ∈ S) = 1.
O exemplo seguinte permite-nos afirmar que este subconjunto S não é único e realça o interesse
de retermos o menor subconjunto discreto de probabilidade 1.
E. Seja X igual ao número de caras obtidas em 2 lançamentos sucessivos de uma moeda
equilibrada. Temos
X (Ω) = {0, 1, 2}
1 2 1
e P (X = 0) = , P (X = 1) = , P (X = 2) = .
4 4 4
Então existe S ⊂ R, S discreto, tal que P (X ∈ S) = 1. De facto, poderá ser S = {0, 1, 2} = X (Ω) .
Podemos assim concluir que X é uma variável aleatória discreta.
23
Mas também poderíamos ter escolhido S = {0, 1, 2, 3, 4, 5} ou S = N0 , ..., pois em qualquer dos
casos S é discreto e P (X ∈ S) = 1.
△
D
. Chamamos suporte da variável aleatória real X discreta, e representamo-lo por SX , ao
menor subconjunto de S que verifica P (X ∈ SX ) = 1.
Propriedade. O suporte de uma variável aleatória real X discreta coincide com o conjunto dos
pontos de descontinuidade da sua função de repartição, isto é,
SX = D = {x ∈ R : P (X = x) > 0} .
D
. Chama—se função de probabilidade da variável aleatória real X à função
gX : R −→ R
x −→ gX (x) = P (X = x) .
Podemos destacar que os valores desta função pertencem ao intervalo [0, 1] , são nulos para x ∈
/ SX
e que P (X = x) = 1.
x∈SX
Por outro lado, para calcular a função de repartição de uma variável aleatória real X discreta, de
suporte SX e função de probabilidade gX , basta ter em conta que
∀x ∈ R, FX (x) = PX ( ]−∞, x] ) = gX (a) .
a∈]−∞,x]∩SX
2
Se B ∩ SX = ∅ consideramos, por convenção, P (X = x) = 0.
x∈B∩SX
24
E. Seja X a variável aleatória real que representa o número de caras obtidas ao efectuar dois
lançamentos sucessivos de uma moeda equilibrada. X é discreta de suporte SX = {0, 1, 2} e função
de probabilidade
1/4, x ∈ {0, 2}
gX (x) = 1/2, x = 1 .
0, x ∈ R\ {0, 1, 2}
A função de repartição de X é então
0, x<0
1/4, 0≤x<1
FX (x) = .
3/4, 1≤x<2
1, x ≥ 2.
Vamos agora introduzir as variáveis aleatórias reais (absolutamente) contínuas. Para definir a
lei de probabilidade deste tipo de variáveis precisamos de introduzir uma função, chamada função
densidade, que nos indique a forma como a probabilidade se distribui ao longo de intervalos.
D
. Uma função f : R −→ R é uma densidade de probabilidade sobre R se
a) f é não negativa;
+∞
b) −∞ f (t) dt = 1.
D
. Uma variável aleatória real X diz-se contínua se existe uma densidade de probabilidade
sobre R, f, tal que
b
∀a, b ∈ R, a < b, P (a < X ≤ b) = f (t) dt.
a
Nestas condições, dizemos que a lei de X, PX , é contínua.
Chamamos a f densidade de probabilidade da v.a.r. X e denotamo-la fX .
25
b
Reparemos que não impomos à função fX qualquer hipótese de continuidade. Assim, a fX (t) dt
pode ser um integral impróprio.
Analogamente ao que vimos no caso discreto, chamamos suporte de PX ao subconjunto de R, SX ,
onde fX é estritamente positiva.
∀a ∈ R, P (X = a) = 0.
An = ]−n, x] , n ∈ N,
Analisemos o problema inverso, isto é, conhecida a função de repartição vejamos como determinar
a correspondente densidade. x
Relembremos que, sendo FX (x) = fX (t) dt, se x0 é um ponto de continuidade de fX , então
−∞
′
FX é derivável em x0 e tem-se FX (x0 ) = fX (x0 ) .
Prova-se também que a função de repartição, FX , é derivável sobre R ou sobre R\E com E um
conjunto discreto (finito ou infinito numerável).
É claro que se duas funções densidade diferirem apenas num conjunto discreto elas vão definir
a mesma função de repartição. Assim, a uma mesma v.a.r. X podemos associar várias densidades.
Quando dissermos “a densidade de X” estaremos a referir-nos a uma delas, por exemplo, a
d
dx FX (x) , nos pontos x onde FX é derivável
fX (x) = .
0, nos outros pontos (por convenção)
3
Pretende-se que o leitor retenha apenas a ideia geral.
26
E. Seja X uma v.a.r. contínua de função de repartição FX : R −→ R tal que
1 λx
2
e , x<0
FX (x) = 1 −λx
,
1− 2 e , x≥0
com λ > 0 .
Podemos também determinar a função de repartição da v.a.r. Y = |X|, o que permite ilustrar a
forma de obter a lei de probabilidade de uma variável aleatória que é função de X. Tem-se
FY (y) = P (Y ≤ y) = P (|X| ≤ y) .
Se y < 0 então P (|X| ≤ y) = 0 .
Se y ≥ 0, então P (|X| ≤ y) = P (−y ≤ X ≤ y) = FX (y) − FX (−y) = 1 − e−λy .
Finalmente
0, y<0
FY (y) = −λy .
1−e , y≥0
4
Esta versão da densidade difere da fixada pela convenção em x = 0 (note-se que FX não é derivável em x = 0).
27
5. Momentos de uma variável aleatória real
D
. Seja X uma v.a.r. discreta de suporte SX . A esperança matemática de X é
E(X) = xP (X = x)
x∈SX
desde que |x| P (X = x) < +∞.
x∈SX
Se SX é finito, E(X) existe sempre. Mas, se SX é infinito numerável E(X) só existe quando a série
envolvida na definição é absolutamente convergente.
E.
+∞
1
P (X = n) = = 1.
n=1
n (n + 1)
n∈SX
+∞
1
|n| P (X = n) = = +∞.
n+1
n∈SX n=1
28
△
Apresentamos agora a definição de esperança matemática de uma variável aleatória real contínua.
D
. Seja X uma variável aleatória real contínua com função densidade fX . A esperança
matemática de X é +∞
E(X) = xfX (x)dx
−∞
+∞
desde que −∞ |x| fX (x)dx < +∞.
e−x−1 , x > −1
E. Seja X uma v.a.r. seguindo a lei de densidade fX (x) = .
0, x ≤ −1
△
No exemplo seguinte apresenta-se uma variável aleatória real contínua cuja esperança matemática
não existe.
1 1
E. Seja X uma v.a.r. seguindo a lei de densidade fX (x) = , x ∈ R.
π 1 + x2
29
0 +∞
−x x
= dx + dx
−∞ π (1 + x2 )
0 π (1 + x2 )
1
2
1
2
= 2π lim log 1 + a + 2π lim log 1 + b = +∞.
a→−∞ b→+∞
△
A esperança matemática de uma variável aleatória real X também se denomina valor médio,
média ou ainda valor esperado de X.
O valor médio pode interpretar-se como sendo o centro de massas (de probabilidade) da variável
aleatória real X. Com efeito, se considerarmos, por exemplo, uma variável aleatória real discreta e
associarmos a cada valor x, assumido pela variável, um ponto material de massa P (X = x), o conjunto
de tais pontos forma um sistema material que tem por centro de gravidade (ou de massas) m = E(X).
Corresponde pois a um ponto de equilíbrio da distribuição. Dizemos por isso que o valor médio é um
parâmetro de localização.
D
. Dizemos que uma variável aleatória real X é centrada se E(X) = 0.
Propriedade 1. Seja a um número real arbitrário. Se X é uma variável aleatória real tal que
P (X = a) = 1 então E(X) = a.
E(X) = aP (X = a) = a.
Vamos agora ver uma propriedade que nos dá informação sobre a esperança matemática de uma
função de uma variável aleatória real. A lei de uma função de X, digamos Φ(X), pode ser deduzida
à custa da lei de X, como já foi ilustrado. O resultado que vai ser apresentado tem a particularidade
de permitir calcular E (Φ(X)) sem ser necessário conhecer a lei de Φ(X). Supomos que a função Φ é
tal que mantém a natureza de X e Φ(X) (isto é, ambas discretas ou ambas contínuas).
Propriedade 2. Seja X uma variável aleatória real e considere-se uma função Φ : R −→ R tal que
Φ(X) seja uma variável aleatória real.
1. Se X é discreta de suporte SX , E (Φ(X)) existe se e só se |Φ (x)| P (X = x) < +∞ e tem-se
x∈SX
E(Φ(X)) = Φ (x) P (X = x) .
x∈SX
+∞
2. Se X é contínua de densidade fX , E (Φ(X)) existe se e só se −∞ |Φ (x)| fX (x)dx < +∞ e tem-se
+∞
E(Φ(X)) = Φ (x) fX (x)dx.
−∞
30
Propriedade 3. Sejam a, b dois números reais. Se E(X) existe, tem-se
E (aX + b) = aE (X) + b.
É claro que de toda a variável aleatória real X possuindo esperança matemática se deduz uma
variável aleatória real centrada; de facto, basta considerar a variável aleatória real
Z = X − E(X).
Em particular, n
n
E Xk = E (Xk ) .
k=1 k=1
D
. Dizemos que as variáveis aleatórias X1 , ... , Xn são independentes se
∀ B1 , ... , Bn ∈ B ,
Propriedade 5. Sejam X1 , X2 , ..., Xn variáveis aleatórias reais definidas sobre (Ω, A, P ) indepen-
dentes e tais que E (Xk ) existe para k = 1, 2, ..., n. Então
n n
E Xk = E (Xk ) .
k=1 k=1
31
e a v.a.r. Y com suporte SY = SX e tal que
1 3
P (Y = −2) = P (Y = 2) = e P (Y = −1) = P (Y = 1) = .
8 8
Tem-se E (X) = E (Y ) = 0. Mas no caso de Y a concentração em torno da origem é mais forte.
Vamos então recorrer a outros parâmetros que, conjuntamente com a média, nos permitirão co-
nhecer um pouco melhor a lei da variável aleatória.
Seja então X uma variável aleatória real e seja k ∈ N. A propriedade 2 da esperança matemática
permite escrever
k
xk P (X = x) , se X é discreta e tal que x P (X = x) < +∞
k x∈SX x∈SX
E X =
+∞ k
+∞ xk f (x)dx,
se X é contínua e tal que x f (x)dx < +∞.
−∞ X −∞ X
D
. Chama-se momento simples de ordem k de X ao valor de E X k . Representa-se
por mk .
A propriedade seguinte diz-nos que se existe o momento de ordem k, então existem todos os
momentos de ordem inferior a k.
Propriedade. Se E X k existe então E (X n ) existe para todo o n ≤ k, n ∈ N.
Vamos agora introduzir os momentos centrados. Seja X uma v.a.r. tal que E(X) = m existe. Pela
propriedade 2 da esperança matemática, tem-se
(x − m)k P (X = x) , se X é discreta e tal
x∈SX
k
que (x − m) P (X = x) < +∞;
k x∈SX
E (X − m) =
+∞
(x − m)k fX (x)dx, se X é contínua e tal
−∞
+∞
que −∞ (x − m)k fX (x)dx < +∞.
D
. Chama-se momento centrado de ordem k de X a E (X − m)k . Representa-se por
µk .
Notemos que µ1 = 0.
O momento centrado de ordem 2 , µ2 = E (X − m)2 , é habitualmente designado por variância
de X e representado por V (X) ou σ2X .
O desvio-padrão de X é
!
σX = E (X − m)2
e é utilizado para medir a dispersão dos valores de X em torno do seu valor médio.
32
Propriedades da variância
Propriedade 1. Seja a um número real. Se X é uma v.a.r. tal que P (X = a) = 1, então V (X) = 0.
D
. A v.a.r. X diz-se reduzida se V (X) = 1.
Propriedade 4. Seja X uma v.a.r. tal que V (X) existe. Se V (X) > 0, a v.a.r.
X − E(X)
Z= "
V (X)
é centrada e reduzida.
Em particular, se as v.a.r. envolvidas são independentes
n n
V Xk = V (Xk ) ,
k=1 k=1
e, por exemplo,
6
No caso do programa da disciplina incluir o capítulo dos vectores aleatórios reais, esta propriedade será apresentada
nesse capítulo.
33
6. Parâmetros de ordem de uma variável aleatória real
D
. Mediana da variável aleatória real X é todo o número real x tal que
FX (x− ) ≤ 12
,
FX (x+ ) ≥ 12
E. Seja X uma variável aleatória real contínua de função densidade definida por
x, 0≤x≤1
fX (x) = 2, 2 ≤ x ≤ 2.25 .
0, x ∈ ]−∞, 0[ ∪ ]1, 2[ ∪ ]2.25, +∞[
Constatamos que qualquer valor do intervalo [1, 2] verifica a definição de mediana pelo que, neste
caso, a mediana de X não é única.
△
D
. Seja p ∈ ]0, 1[ . O quantil de ordem p da variável aleatória real X é todo o número
real qp tal que
FX (qp − ) ≤ p
.
+
FX (qp ) ≥ p
34
Os casos particulares mais importantes correspondem aos quartis (obtidos considerando p igual
a 14 , 24 e 34 ), aos decis (obtidos considerando p igual a 10
1 2
, 10 9
,..., 10 ) e aos percentis (obtidos
1 2 99
considerando p igual a 100 , 100 , ..., 100 ).
1
Notemos também que a mediana corresponde à escolha p = 2 .
1 1
E. Seja X uma v.a.r. contínua seguindo a lei de densidade f (x) = , x ∈ R. Os quartis
π 1 + x2
de X são
q1/4 = −1, q2/4 = 0, q3/4 = 1
1
uma vez que P (X ≤ 0) = P (X ≥ 0) = 2 e P (X ≤ −1) = P (X ≥ 1) = 14 .
△
Recorrendo a estes parâmetros, concretamente aos quartis, podemos definir (em caso de unicidade)
um coeficiente que nos permite ter uma ideia da dispersão dos valores de X relativamente à mediana.
D
. A amplitude interquartil da lei da v.a.r. X é a amplitude do intervalo q 1 , q 3 .
4 4
Notemos que neste intervalo estão sensivelmente (mais exactamente, pelo menos) 50% dos valores
de X. Assim, se aquela amplitude for muito pequena poderemos afirmar que os valores de X estão
fortemente concentrados em torno da mediana.
35
36
Módulo 3 - Vectores aleatórios reais
Ω → Rk
ω ֒→ (X1 (ω) , ..., Xk (ω)) = (X1 , ..., Xk ) (ω)
D
. (X1 , ..., Xk ) é um vector aleatório real de dimensão k sobre (Ω, A, P ) se X1 , ..., Xk são
variáveis aleatórias reais definidas sobre (Ω, A, P ) .
D
. A X1 , ..., Xk chamamos margens do vector (X1 , ..., Xk ) .
Relembremos que, para i ∈ {1, ..., k} , Xi é uma variável aleatória real sobre (Ω, A, P ) se
∀C ∈ B, Xi−1 (C) ∈ A,
com B a tribo de Borel sobre R, e que definimos, à custa de P e de Xi , uma probabilidade sobre (R, B)
considerando
Também agora, se considerarmos Rk munido da sua tribo de Borel (7 ), BRk , podemos dizer que
(X1 , ..., Xk ) é um vector aleatório real de dimensão k sobre (Ω, A, P ) se
com
(X1 , ..., Xk )−1 (B) = {ω ∈ Ω : (X1 (ω) , ..., Xk (ω)) ∈ B}
a imagem inversa de B por (X1 , ..., Xk ) .
k
Podemos então definir uma probabilidade sobre R , BRk considerando, para qualquer
B ∈ BRk ,
37
D
. P(X diz-se lei de probabilidade do vector aleatório (X1 , ..., Xk ) (8 ).
1 ,...,Xk )
D
. PXi é denominada lei de probabilidade da margem Xi , i = 1, ..., k.
Conhecida a lei de probabilidade P(X ,...,X ) é possível conhecer as leis marginais PXi , i = 1, ..., k.
1 k
De facto, para todo o Bi ∈ B,
D
. As variáveis aleatórias reais X1 , ..., Xk dizem-se independentes se
D
. A função F(X,Y ) : R2 → R definida por
38
Valem as seguintes propriedades:
• F(X,Y ) é contínua à direita relativamente a cada variável, isto é, com notações óbvias:
F(X,Y ) x+ , y = F(X,Y ) (x, y)
F(X,Y ) x, y + = F(X,Y ) (x, y) ;
FX (x) = P (X ≤ x) = P (X ≤ x, Y ∈ R)
= lim F(X,Y ) (x, y) , x ∈ R,
y→+∞
39
Analogamente, a função de repartição da margem Y é a função real de variável real definida
por
∀y ∈ R, FY (y) = P (Y ≤ y) = lim F(X,Y ) (x, y) .
x→+∞
O conceito de variáveis aleatórias independentes pode exprimir-se em termos das funções de repar-
tição conjunta e marginais. De facto, tem-se
Notemos que esta condição é equivalente a
P ({X ≤ x} ∩ {Y ≤ y}) = P (X ≤ x) P (Y ≤ y) ,
D
. Um vector aleatório (X, Y ) é discreto se existe um subconjunto de R2 ,
D = (x, y) ∈ R2 : P (X = x, Y = y) > 0 ,
D
. A função
(i) g(X,Y ) ≥ 0
(ii) g(X,Y ) (x, y) = 1.
(x,y)∈D
gX (x) = P (X = x)
= P (X = x, Y ∈ R)
= g(X,Y ) (x, y) , x ∈ R
y∈R:(x,y)∈D
10
Ou função de probabilidade conjunta das variáveis aleatórias X e Y.
40
e
gY (y) = P (Y = y)
= P (X ∈ R, Y = y)
= g(X,Y ) (x, y) , y ∈ R.
x∈R:(x,y)∈D
Vemos, em concordância com uma observação já feita, que as funções de probabilidade marginais
podem determinar-se a partir da função de probabilidade conjunta. O inverso só é verdadeiro quando
as variáveis são independentes. De facto, temos o resultado seguinte (cuja prova se admite).
P (X = x, Y = y) = P (X = x) P (Y = y)
isto é, se e só se
g(X,Y ) (x, y) = gX (x) gY (y)
para todo (x, y) ∈ D.
D
. Uma função f(X,Y ) : R2 → R diz-se uma função densidade de probabilidade sobre
R2 se
41
Como f (x, y) = 2 se (x, y) ∈ A e f (x, y) = 0 se (x, y) ∈ R2 \A, tem-se f ≥ 0. Por outro lado,
+∞ +∞ 1 1−x
f (x, y) dxdy = 2dy dx
−∞ −∞ 0 0
1 1
x2
= 2 [1 − x] dx = 2 x − = 1.
0 2 0
△
D
. Dizemos que um vector aleatório real bidimensional (X, Y ) é contínuo se existe uma
densidade de probabilidade sobre R2 , f(X,Y ) , tal que
x2 y2
P [x1 < X ≤ x2 , y1 < Y ≤ y2 ] = f(X,Y ) (u, v) dv du,
x1 y1
para todos os reais x1 , x2 , y1 , y2 com x1 < x2 e y1 < y2 .
Inversamente, se f(X,Y ) for contínua no ponto (x, y) , podemos obtê-la a partir da função de repar-
tição conjunta, pois
∂ 2 F(X,Y ) (x, y)
f(X,Y ) (x, y) = .
∂x∂y
= fX (t) dt.
−∞
11
Ou função densidade conjunta de X e Y.
42
5. Leis condicionais
É claro que +∞
fX|Y (x) dx = 1.
−∞
g(X,Y ) (x, y)
gY |X (y) = , y ∈ R,
gX (x)
e, se o vector (X, Y ) é contínuo, a função densidade de Y condicionada por X = x, sendo x tal
que fX (x) > 0,
f(X,Y ) (x, y)
fY |X (y) = , y ∈ R.
fX (x)
Analogamente, a função de repartição de Y condicionada por X = x é, se o vector (X, Y )
é contínuo, y
FY |X (y) = fY |X (v) dv, y ∈ R.
−∞
12
Relembramos que SY = {y ∈ R : P (Y = y) > 0} .
13
Este procedimento será sistematicamente adoptado nesta apresentação.
14
Notemos que temos tantas funções deste tipo quantos os elementos de SY .
43
6. Momentos de um vector aleatório bidimensional
Seja (X, Y ) um vector aleatório bidimensional e Φ : R2 −→ R uma função tal que Φ (X, Y ) é
uma variável aleatória.
Define-se
Φ (x, y) g(X,Y ) (x, y) , se (X, Y ) é discreto
(x,y)∈D
E [Φ (X, Y )] = ,
+∞ +∞ Φ (x, y) f
(x, y) dxdy, se (X, Y ) é contínuo
−∞ −∞ (X,Y )
m1,0 = E (X) = mX
m0,1 = E (Y ) = mY .
Em particular,
µ2,0 = V (X)
µ0,2 = V (Y ) .
µ1,1 = E [(X − mX ) (Y − mY )] ,
Este momento dá-nos informação sobre o grau de ligação linear entre X e Y e sobre a dispersão
dos valores de (X, Y ) em torno de (E (X) , E (Y )) .
44
A matriz quadrada, de ordem 2,
V (X) Cov (X, Y )
Σ=
Cov (X, Y ) V (Y )
E (X + Y ) = E (X) + E (Y )
E (XY ) = E (X) E (Y ) .
Quando Cov (X, Y ) = 0 dizemos que X e Y são não correlacionadas. Destaquemos que não
podemos concluir que elas são independentes.
A igualdade seguinte relaciona a variância da soma de variáveis aleatórias reais com a soma das
correspondentes variâncias e covariância:
Propriedade. −1 ≤ ρ ≤ 1.
Prova. Basta considerar, na propriedade anterior, X substituída por X − mX e Y substituída por
Y − mY .
45
Quando ρ = ±1, existe uma relação linear entre X e Y , isto é, existem reais a e b tais que
Y = a + bX (B. Murteira, Vol. I, p. 188).
Em particular, n
n
E Xk = E (Xk ) .
k=1 k=1
Propriedade 2. Sejam X1 , X2 , ..., Xn variáveis aleatórias reais definidas sobre (Ω, A, P ) indepen-
dentes e tais que E (Xk ) existe para k = 1, 2, ..., n. Então
n n
E Xk = E (Xk ) .
k=1 k=1
Propriedade 3. Sejam X1 , X2 , ..., Xn variáveis aleatórias reais independentes definidas sobre (Ω, A, P )
e tais que V (Xk ) existe para k = 1, 2, ..., n. Sendo a0 , a1 , a2 , ..., an números reais tem-se
n
n
V a0 + ak Xk = a2k V (Xk ) .
k=1 k=1
46
7. Esperança condicional
D
.
b) Se (X, Y ) é contínuo e x é tal que fX (x) > 0, a esperança de Φ (X, Y ) condicionada por
X=xé +∞
E [Φ (X, Y ) |X = x] = Φ (x, y) fY |X (y) dy
−∞
desde que o integral seja absolutamente convergente.
A esperança condicionada surge explicitamente quando pretendemos aproximar Y por uma função
de X, digamos, Ψ (X) , minimizando
E [Y − Ψ (X)]2 .
Prova-se que esta esperança é mínima quando Ψ (x) = E (Y |X = x) .
Ao conjunto dos pontos de R2 de coordenadas (x, E (Y |X = x)) chamamos curva de regressão
de Y em X.
8. Exemplos
1. Seja (X, Y ) um vector aleatório real discreto de suporte contido em {1, 2, 3} × {0, 1, 2, 3} e cuja
função de probabilidade se encontra resumida no quadro seguinte.
y
x\ 0 1 2 3
1 0.1 0.2 0.1 0.1
2 0.1 0 0 0.1
3 0.1 0 0.2 0
15
Notemos que E (Y |X = x) funço de x.
47
As funções de probabilidade marginais de (X, Y ) são, respectivamente,
0.5, x = 1
0.3, y ∈ {0, 2}
0.2, x = 2
gX (x) = e gY (y) = 0.2, y ∈ {1, 3}
0.3, x = 3
0, y ∈ R\ {0, 1, 2, 3} .
0, x ∈ R\ {1, 2, 3}
Podemos afirmar que as variáveis aleatórias X e Y não são independentes porque, por exemplo,
P (X = 1, Y = 0) = 0.1 e P (X = 1) P (Y = 0) = 0.5 × 0.3 = 0.15.
Tem-se
E (X) = 1 × 0.5 + 2 × 0.2 + 3 × 0.3 = 1.8,
E (Y ) = 1.4,
E (XY ) = 0×1×0.1+1×1×0.2+2×1×0.1+3×1×0.1+0×2×0.1+3×2×0.1+0×3×0.1+2×3×0.2
= 2.5.
Consequentemente Cov (X, Y ) = 2.5 − (1.8) (1.4) = −0.02.
48
A densidade de X é
+∞
0, se x < 0
fX (x) = f(X,Y ) (x, y)dy = +∞
−∞ 0 e−(x+y) dy, se x ≥ 0
0, se x < 0
= −x
e , se x ≥ 0.
F(X,Y ) (x, y) = P (X ≤ x, Y ≤ y)
= FX (x)FY (y)
0, (x ≤ 0, y ≤ 0) ou (x ≤ 0, y > 0) ou
= (x > 0, y ≤ 0)
x −u y −v
0 e du 0 e dv , x > 0, y > 0
0, x ≤ 0 ou y ≤ 0
=
(1 − e−x ) (1 − e−y ) , x > 0, y > 0.
Finalmente,
+∞ +∞
2 2
E(X ) = x fX (x)dx = x2 e−x dx = 2
−∞ 0
pelo que, pela fórmula de Köenig,
V (X) = 2 − 1 = 1 = V (Y )
49
50
Módulo 4 - Complementos sobre variáveis aleatórias
Apresentamos neste módulo os principais resultados relativos às leis de probabilidade sobre R mais
utilizadas.
1. Leis discretas
X (ω) = 1 se ω ∈ A
X (ω) = 0 se ω ∈ A.
Tem-se, então,
P (X = 1) = P (A) = p
P (X = 0) = P A = 1 − p.
Assim, X é uma v.a.r. discreta cuja lei de probabilidade é caracterizada pela função de probabili-
dade
gX : R −→ [0, 1]
p, se x = 1
x −
→ gX (x) = 1 − p, se x = 0
0, se x ∈ R\ {0, 1} .
Tem-se
E (X) = p
V (X) = E X 2 − [E (X)]2 = p − p2 = p(1 − p).
Consideremos agora a experiência aleatória E ′ que consiste em realizar E, n vezes, sempre nas
mesmas condições.
Seja X a variável aleatória real que representa o número de vezes que A ocorre nas n experiências.
Desta forma,
51
X (Ω′ ) = {0, 1, 2, ..., n} = SX
Consequentemente tem-se
n k
P (X = k) = p (1 − p)n−k , k ∈ {0, 1, 2, ..., n} .
k
Assim, X é uma v.a.r. discreta cuja lei de probabilidade é caracterizada pela função de probabili-
dade
gX : R −→ [0, 1]
n x n−x
x p (1 − p) , se x ∈ {0, 1, ..., n}
x −→ gX (x) =
0, se x ∈ R\ {0, 1, ..., n} .
X ∼ B (n, p) .
52
Com efeito, por exemplo,
n
E (X) = kP (X = k)
k=0
n
n!
= k pk (1 − p)n−k
k! (n − k)!
k=1
n
(n − 1)!
= np pk−1 (1 − p)n−k
(k − 1)! (n − k)!
k=1
n − 1
n−1
= np pm (1 − p)n−1−m
m
m=0
= np (p + 1 − p)n−1 = np.
O .
• Se as v.a. reais X1 , X2 , ..., Xm são independentes e Xj segue a lei B (p) , j = 1, 2, ..., m, então
m
Xj ∼ B (m, p) .
j=1
Como as n experiências são realizadas sempre nas mesmas condições e a probabilidade de A ocorrer
se mantém constante em cada extracção, podemos afirmar que a v.a.r.
Deparamo-nos frequentemente com situações comparáveis à que acaba de ser descrita no exemplo,
mas em que a hipótese de reposição não é sustentável. Nesses casos, a lei hipergeométrica, que veremos
de seguida, revela-se mais adequada.
53
1.3 Lei Hipergeométrica
Retomemos o exemplo anterior, em que dispomos de uma caixa contendo M bolas das quais B são
amarelas.
A experiência aleatória, E, consiste em extrair uma bola da caixa e o acontecimento de interesse
continua a ser A = “a bola é amarela”.
Interessa-nos agora o número de vezes que A ocorre em n realizações de E, quando não há reposição
após cada extracção.
É claro que as n experiências não são realizadas nas mesmas condições. A probabilidade de A
ocorrer varia de extracção para extracção.
Neste caso, sendo X a variável aleatória real que representa o número de vezes que A ocorre em n
realizações de E, tem-se
BM−B
k
P (X = k) = Mn−k
, max (0, n − (M − B)) ≤ k ≤ min (n, B) ,
n
• n − k ≤ n e n − k ≤ M − B ⇔ k ≥ 0 e k ≥ n − (M − B)
⇔ k ≥ max (0, n − (M − B)) .
Prova-se que, sendo SX = {max (0, n − (M − B)) , ..., min (n, B)} , se tem P (X = k) > 0, k ∈ SX
e P (X = k) = 1.
k∈SX
Então X é uma v.a.r. discreta cuja lei de probabilidade é caracterizada pela seguinte função de
probabilidade
gX : R −→ [0, 1]
BM−B
k n−k
, se k ∈ SX
M
k −→ gX (k) = n
0, se k ∈ R\SX .
Dizemos que, no esquema de tiragens sem reposição, X segue uma lei hipergeométrica de
parâmetros n, M e B. Escrevemos, de modo abreviado,
X ∼ H (n, M, B) .
54
n
B
Em termos práticos, se X ∼ H (n, M, B) e se M ≤ 0.1 então, sendo Y ∼ B n, M , valem as
aproximações
• P (X = k) ≃ P (Y = k)
• P (X ≤ x) ≃ P (Y ≤ x) , x ∈ R.
• B
Escrevemos, neste caso, X ∼ B n, M .
+∞
+∞
λk
Note-se que P (X = k) > 0, k ∈ N0 , e que P (X = k) = e−λ k! = e−λ eλ = 1 .
k=0 k=0
A lei de Poisson encontra-se tabelada para alguns valores do parâmetro λ. As tabelas que uti-
lizaremos para esta lei apresentam os valores da correspondente função de repartição (Anexo C).
55
Em termos práticos, se X ∼ B (n, p) e se p ≤ 0.1 então, sendo Y ∼ P (np) , valem as aproximações
• P (X = k) ≃ P (Y = k)
• P (X ≤ x) ≃ P (Y ≤ x) , x ∈ R .
•
Escrevemos, nestas condições, X ∼ P (np) .
O .
P (X ≤ x) = P (n − X ≥ n − x)
= P (Z ≥ n − x) , Z ∼ B (n, q) , q ≤ 0.1
≃ P (Y ≥ n − x) , Y ∼ P (nq)
= 1 − P (Y < n − x) .
2. Leis contínuas
Dizemos que X segue a lei uniforme no intervalo [a, b] , e escrevemos X ∼ U [a, b] , se X é uma
v.a.r. contínua de densidade f.
56
Neste caso tem-se
a+b (b − a)2
E (X) = , V (X) = .
2 12
Se X é uma v.a.r. contínua de densidade f, dizemos que X segue a lei exponencial de parâmetro
λ, e escrevemos simbolicamente X ∼ E (λ) .
Tem-se k!
E Xk = k , k ∈ N ,
λ
e, portanto,
1 1
E (X) = , V (X) = .
λ λ2
57
Dizemos que X segue a lei normal de parâmetros m e σ, e escrevemos simbolicamente
X ∼ N (m, σ) , se X é uma v.a.r. contínua de densidade f.
O .
2. Diz-se também que X é normalmente distribuída com parâmetros m e σ, ou que X é uma v.a.r.
gaussiana de parâmetros m e σ .
3. Como
∀x ∈ R+ , f (m + x) = f (m − x) ,
diz-se que X é uma v.a.r. simétrica, de centro de simetria m, ou que a lei normal é simétrica
em relação a m.
Portanto E (U ) = 0 e V (U ) = 1. Por esta razão é usual denominar a lei N (0, 1) por lei normal
centrada e reduzida (ou estandardizada).
Uma vez que g é uma função par, U é uma v.a.r. simétrica, de centro de simetria 0. Daí decorre
que:
• ∀x ∈ R, P (U ≤ −x) = P (U ≥ x) .
• P (U ≤ 0) = P (U ≥ 0) = 12 .
58
Como consequência vem
X −m
X ∼ N (m, σ) ⇐⇒ U = ∼ N (0, 1) .
σ
Então (
n n ) n
)
Y =b+ ai Xi ∼ N b + ai mi , * a2i σ2i .
i=1 i=1 i=1
Em particular, podemos concluir que
Teorema do limite central. Seja (Xn )n∈N uma sucessão de variáveis aleatórias reais indepen-
dentes, identicamente distribuídas, tais que existem m = E (Xn ) e σ 2 = V (Xn ) , n ∈ N, com σ2 > 0 .
Seja
n
Xi − nm
i=1
Un = √ , n∈N.
σ n
Tem-se
∀x ∈ R, lim P (Un ≤ x) = P (U ≤ x) , com U ∼ N (0, 1) .
n→+∞
Consequência prática. Sejam X1 , X2 , ..., Xn variáveis aleatórias reais independentes, seguindo a mesma
lei de média m = E (Xi ) e variância σ2 = V (Xi ) , i ∈ {1, 2, ..., n} , com σ2 > 0.
Nestas condições, se n > 30 tem-se
n
• √
Xi ∼ N nm, σ n .
i=1
59
• são v.a.r. que assumem valores inteiros e
• tais que o módulo da diferença entre dois valores consecutivos do suporte é igual a 1
então a aproximação acima referida pode ser melhorada fazendo a correcção de continuidade, isto
é,
n
• √
Xi ∼ N nm, σ n , com correcção de continuidade.
i=1
n √
Concretamente, sendo Y = Xi e Z ∼ N (nm, σ n) , a correcção de continuidade consiste em
i=1
considerar, para a e b pontos do suporte de Y , com a ≤ b,
P (a ≤ Y ≤ b) ≃ P (a − 0.5 ≤ Z ≤ b + 0.5) .
Propriedades.
60
2.5 Lei de Student
A variável aleatória real X segue a lei de Student com k graus de liberdade, k ∈ N, de modo
abreviado X ∼ Tk , se X é contínua de densidade
− k+1
1 Γ( k+1
2 ) x2 2
f(x) = √ k
1+ , x ∈ R.
k π Γ( 2 ) k
Propriedades.
• Se X ∼ Tk então
k
E(X) = 0, se k > 1, V (X) = , se k > 2.
k−2
• Se U e Y são v.a.r. independentes e tais que U ∼ N (0, 1) e Y ∼ χ2k , então
U
# ∼ Tk .
Y
k
•
• Se X ∼ Tk , com k > 30, então X ∼ N (0, 1) .
Nesta secção veremos como o teorema do limite central vai permitir aproximar pela lei normal
certas leis Binomiais ou de Poisson.
61
Por outro lado
n
Xi ∼ B(n, p).
i=1
Do exposto vemos que esta aproximação é válida para qualquer valor de p. Mas se p ≤ 0.1 (ou
p ≥ 0.9) já conhecemos a aproximação da lei Binomial pela lei de Poisson. Deverá ser esta a utilizada
nestes casos pois produz melhores resultados.
Quando 0.1 < p < 0.9 constata-se que a aproximação já é satisfatória para n > 10.
"
•
Em resumo, se Y ∼ B(n, p), com n > 10 e 0.1 < p < 0.9, então Y ∼ N np, np (1 − p) com
correcção de continuidade.
O
. Resumimos, em seguida, algumas das relações entre as diversas leis focadas neste
módulo.
B •
2. Se X ∼ H(n, M, B) e n ≤ 0.1M então X ∼ B(n, M ).
•
3. Se X ∼ B(n, p) e p ≤ 0.1 então X ∼ P (np).
62
• "
4. Se X ∼ B(n, p), n > 10 e 0.1 < p < 0.9 então X ∼ N(np, np(1 − p))
com correcção de continuidade.
• √
5. Se X ∼ P (λ) e λ > 18 então X ∼ N(λ, λ) com correcção de continuidade.
•
6. Se X ∼ T (k) e k > 30 então X ∼ N(0, 1).
√ √ •
7. Se X ∼ χ2 (k) e k > 30 então 2X − 2k − 1 ∼ N(0, 1).
63
64
Módulo 5 - Elementos de Estimação Paramétrica
1. Preliminares
D
. (X1 , ..., Xn ) é uma amostra aleatória de X de dimensão n, n ∈ N, se X1 , ..., Xn são
independentes e seguem a mesma lei de X.
2. Estimação pontual
65
D
.
a) Estimador do parâmetro θ é toda a variável aleatória real Tn que é função de X1 , ..., Xn (mas
não de θ), isto é,
Tn = T (X1 , ..., Xn )
com T : Rn −→ Θ.
tn = T (x1 , ..., xn ) .
E. Suponhamos que X segue uma lei de Poisson de parâmetro λ, com λ positivo e desco-
nhecido.
O parâmetro λ varia portanto em ]0, +∞[ pelo que Θ = ]0, +∞[ .
n
n
Um estimador possível para λ é Tn = n1 Xi . Outros exemplos são n1 Xi2 e 2X1 + nXn .
i=1 i=1
1 1 2
n n
As estimativas correspondentes são tn = n xi , n xi e 2x1 + nxn .
i=1 i=1
1
n
Notemos, por outro lado, que n (Xi − λ) não é um estimador de λ.
i=1
△
O exemplo anterior permite mostrar, de modo claro, que para um mesmo parâmetro é possível
propôr variados estimadores.
Coloca-se naturalmente a questão de qual deles escolher. Como pretendemos que o estimador nos
forneça boas estimativas do parâmetro desconhecido, e sendo ele uma variável aleatória, os critérios
para a escolha de um estimador baseiam-se nas propriedades da sua lei de probabilidade. Limi-
tar-nos-emos ao estudo dos estimadores cêntricos, ou assintoticamente cêntricos, e consistentes.
D
.
D
. Tn diz-se consistente para o parâmetro θ se
66
Sendo a lei de X dependente de θ, E(X) e V (X) (caso existam) também dependem, em geral,
de θ . Vejamos então como estimar, de modo adequado, estas funções de θ a partir de uma amostra
aleatória (X1 , ..., Xn ) de X.
2.2 Aplicações
Seja X uma população (variável aleatória real) cuja lei depende de um parâmetro real θ desco-
nhecido, θ ∈ Θ ⊂ R.
Supomos que E(X) e V (X) existem, para qualquer valor de θ, e são desconhecidas tendo-se
E(X) = g1 (θ) e V (X) = g2 (θ) .
1. Média empírica
1
n
Uma concretização de X n , isto é, xn = n xi , é uma estimativa de E(X) que, por X n gozar das
i=1
propriedades acima referidas, se diz uma estimativa cêntrica e consistente de E(X).
O
. Quando n for conhecido, poderemos omitir o índice de X n (resp., xn ) escrevendo apenas
X (resp., x).
67
2. Variância empírica
1
2
n n
1
2 2
Xi − X n = Xi + X n − 2Xi X n
n n
i=1 i=1
n
n
1
2 2 1
= X + X n − 2X n Xi
n i=1 i n i=1
n
1
2 2
= Xi − X n .
n
i=1
Prova. Vamos apenas verificar que Sn2 é um estimador assintoticamente cêntrico de V (X).
n
1
2
2
E Sn2 = E Xi − E X n
n
i=1
2
= E X2 − V Xn + E Xn
2 V (X) 2
= V (X) + m − +m
n
n−1
= V (X) .
n
Como lim E Sn2 = lim V (X) n−1
n = V (X), concluímos que Sn2 é um estimador assintoti-
n→+∞ n→+∞
camente cêntrico de V (X).
É possível construir, a partir de Sn2 , um estimador cêntrico de V (X). De facto, basta considerar
n
S-n2 = S2 ,
n−1 n
denominada variância empírica corrigida.
n
16
Quando E(X) = m é conhecida, é usual utilizar Tn = 1
n
(Xi − m)2 como estimador de V (X) o qual é cêntrico e
i=1
consistente.
68
Propriedade. S-n2 é um estimador cêntrico e consistente de V (X).
n
1
Portanto, s2n = (xi − xn )2 é uma estimativa assintoticamente cêntrica e consistente de V (X)
n
i=1
n 2
e s-2n = n−1 sn é uma estimativa cêntrica e consistente de V (X).
O
. Tal como no caso anterior, quando n for conhecido escreveremos apenas S 2 (resp.,
S-2 , s2 , s-2 ) em vez de Sn2 (resp., S-n2 , s2n , s-2n ).
E. A fábrica A possui uma máquina que enche determinado tipo de garrafas com refrigerante
gaseificado. A altura de vazio de cada garrafa cheia (em centímetros), i.e., a altura da parte da garrafa
que fica sem líquido, é uma variável aleatória real de função densidade
2
3x , 0≤x<θ
3
fθ (x) = θ ,
0, x<0 ∨ x≥θ
Então, consideramos
4
1
′ 185
x = x′ = ni xi = = 3.7
50 50
i=1
e
1
′ 2 ′ 2
4
726.5
2
s = s2X ′ = ni xi − x = − (3.7)2 = 0.84
50 50
i=1
′
onde x′ e s2X ′ representam, respectivamente, a média e a variância da variável das marcas X .
69
Finalmente
50 2 50
s-2 = s = 0.84 = 0.857.
49 49
4
Pode ainda verificar-se que X é um estimador cêntrico e consistente de θ. Então, uma estimativa
3
4
cêntrica e consistente de θ é x = 4.93 .
3
△
θ = Ψ (m1 , m2 , ..., mr )
70
n
1 k
com Mk = Mk,n = n Xi o momento empírico de ordem k, k = 1, 2, ..., r.
i=1
Apesar de nesta apresentação do método dos momentos nos termos limitado à estimação do
parâmetro desconhecido de uma lei de probabilidade, facilmente reconhecemos que ele pode ser adap-
tado a situações mais gerais como sejam:
E. Seja X uma variável aleatória real seguindo a lei Gaussiana de média m, desconhecida, e
desvio padrão 1. Pretendemos estimar o 3o quartil de X, isto é, o real β tal que
3 3
FX (β) = ⇔ P (X ≤ β) =
4 4
3
⇔ P (U ≤ β − m) = , U ∼ N(0, 1)
4
⇔ β − m = FU−1 (0.75)
⇔ β = m + 0.68.
Assim, β = Ψ (m1 ) . Um estimador para β construído pelo método dos momentos, claramente
consistente, é
Tn = Ψ (M1 )
= M1 + 0.68
= X + 0.68.
3. Estimação intervalar
3.1 Introdução
Seja X uma variável aleatória real cuja lei depende de um parâmetro real θ desconhecido, θ ∈ Θ.
Questionamo-nos sobre o verdadeiro valor do parâmetro θ.
Já vimos como podemos obter, a partir de uma amostra, valores reais, tn que nos dão uma boa
informação, de acordo com certos critérios, sobre o verdadeiro valor de θ. A tn chamamos estimativa
de θ e, se necessário, é este valor que propomos para θ.
Mas, é claro que ao considerarmos θ como sendo tn poderemos estar a cometer um erro. Como
poderemos avaliar esse erro? Ou, por outras palavras, como avaliar a confiança que atribuímos ao
valor que pretendemos propor para θ?
Vamos introduzir um procedimento para avaliar tal confiança. Concretamente, vamos construir
intervalos de confiança pelo método da variável fulcral.
71
3.2 Intervalos de confiança. Método da variável fulcral
Seja (X1 , ..., Xn ) uma amostra aleatória de X.
Sejam T1,n = T1 (X1 , ..., Xn ) e T2,n = T2 (X1 , ..., Xn ) duas funções da amostra aleatória que não
dependem de θ e tais que
• T1,n < T2,n
• ∀θ ∈ Θ, P (T1,n < θ < T2,n ) = β.
Observada uma amostra, (x1 , ..., xn ), consideremos os valores correspondentes de T1,n e T2,n , isto
é, t1,n = T1 (x1 , ..., xn ) e t2,n = T2 (x1 , ..., xn ) .
O intervalo com estes extremos, ]t1,n , t2,n [ , é um intervalo real denominado intervalo de confi-
ança para θ ao grau de confiança β.
O valor de β é, quando fixado pelo utilizador e pelo próprio sentido de confiança, um valor elevado.
Valores frequentemente utilizados são, como veremos, 0.99, 0.95, ...
Assim, o intervalo de confiança é a concretização do intervalo aleatório ]T1,n , T2,n [ uma vez obser-
vada a amostra. Vemos, pois, que é determinante obter os extremos do intervalo aleatório, isto é, T1,n
e T2,n . Antes de apresentar o conceito de variável fulcral, que nos permitirá em muitos casos obter
estes extremos, vejamos como podemos interpretar um intervalo de confiança.
Comecemos por precisar que não podemos afirmar que θ ∈ ]t1,n , t2,n [ com probabilidade β (de
facto, tal probabilidade ou é 0 ou é 1).
Em contrapartida, como P (T1,n < θ < T2,n ) = β, se utilizarmos a definição frequencista de pro-
babilidade (17 ) poderemos dizer que, se da população X extrairmos k amostras conduzindo a k par-
ticularizações de ]T1,n , T2,n [ e se k é grande, então
kA
β≃
k
onde kA é o número de tais intervalos a que θ pertence.
Portanto, β é a proporção de intervalos, entre aqueles k, a que θ pertence.
D
. Seja Zn = Z (X1 , ..., Xn , θ) uma variável aleatória real que é função da amostra aleatória
(X1 , ..., Xn ) e de θ. Se a lei de Zn não depende de θ, dizemos que Zn é uma variável fulcral.
Como vemos, Zn não é um estimador de θ. Mas uma variável fulcral para um parâmetro é fre-
quentemente obtida à custa de um estimador do parâmetro.
O exemplo seguinte ilustra o conceito de variável fulcral bem como o facto de não ser única.
1
X n ∼ N(m, √ ).
n
72
Em contrapartida, X n − m ∼ N(0, √1n ) pelo que a lei de X n − m não depende de m.
X n −m
Analogamente, √1
∼ N(0, 1).
n
X n −m
Vemos pois que, neste contexto, X n − m e √1
são variáveis fulcrais.
n
△
Esbocemos agora o método de construir um intervalo de confiança através de uma variável fulcral.
Seja então Zn uma variável fulcral. Como a sua lei não depende de θ, existem reais z1 e z2 , z1 < z2
tais que
∀θ ∈ Θ, P (z1 < Zn < z2 ) = β,
com β arbitrariamente fixo em ]0, 1[, não dependente de θ.
O par (z1 , z2 ) não é único pelo que exigimos, adicionalmente, que
P (Zn ≤ z1 ) = P (Zn ≥ z2 ) .
O .
1. Notemos que sempre que a lei de Zn é simétrica relativamente à origem, decorre da igualdade
P (Zn ≤ z1 ) = P (Zn ≥ z2 ) que z1 = −z2 , z2 > 0.
2. Se a lei de Zn é discreta, a condição P (z1 < Zn < z2 ) = β pode não ter solução, pelo que é
substituída por
P (z1 < Zn < z2 ) ≥ β.
′ ′
4. Pode acontecer que se conheça Zn = Z (X1 , ..., Xn , θ) para a qual seja possível estabelecer uma
equivalência da forma indicada
′
z1 < Zn < z2 ⇐⇒ T1,n < θ < T2,n ,
73
′
Nestes casos, o grau de confiança dos intervalos obtidos é apenas aproximadamente igual a β e Zn
diz-se variável assintoticamente fulcral.
obtendo, em particular, z1 =
−z2 . ′
Teremos, finalmente, P −z2 < Zn < z2 ≃ β e, consequentemente,
z2 z2
P m ∈ X − √ ,X + √ ≃ β.
n n
Os intervalos reais obtidos por particularização do intervalo aleatório dizem-se também intervalos
de confiança de grau de confiança β.
△
74
I C
θ (resp., Ψ(θ)), θ ∈ Θ ⊂ R
(A) Escolher
• o grau de confiança, β (β ∈ ]0, 1[)
• uma variável fulcral adequada, Zn
•
∗ Zn = Z (X1 , ..., Xn , θ) e tal que a lei de Zn é independente de θ ou Zn ∼ τ , com τ uma lei de
probabilidade independente de θ.
•
∗ Se Zn ∼ τ , substituir o problema anterior pela determinação de z1 , z2 ∈ R tais que z1 < z2 e
(C) Encontrar T1,n = T1 (X1 , ..., Xn ) e T2,n = T2 (X1 , ..., Xn ) tais que, para todo θ ∈ Θ, verifiquem
z1 < Zn < z2 ⇔ T1,n < θ < T2,n (resp., z1 < Zn < z2 ⇔ T1,n < Ψ(θ) < T2,n ).
]t1,n , t2,n [
75
6. Se a lei de X depender de mais do que um parâmetro desconhecido (por exemplo, X ∼ N (m, σ) ,
m desconhecido, σ desconhecido) podem estimar-se simultaneamente os vários parâmetros, obtendo
assim, regiões de confiança (esta abordagem não será aqui desenvolvida).
Mas também poderemos construir, separadamente, intervalos de confiança para cada um dos
parâmetros. Teremos de ter o cuidado de considerar, para cada parâmetro, uma variável fulcral
que não dependa dos outros parâmetros desconhecidos.
′
E. Seja X ∼ N (m, σ) , m desconhecido, σ desconhecido. Consideremos Zn = X n√σ−m .
n
Esta variável aleatória segue a lei N (0, 1) pelo que é uma variável fulcral.
′
No entanto, se pretendermos um intervalo de confiança para m, Zn não é adequada pois o intervalo
de confiança a que conduz depende de σ, que é desconhecido.
Neste caso é aconselhável usar a variável aleatória
Xn − m
,
Sn
√
n
X n −m
que também é fulcral pois n
S
∼ T (n − 1) .
√
n
△
7. Nos dois quadros que se seguem estão indicadas as variáveis fulcrais habitualmente utilizadas
na estimação intervalar da média e da variância de uma população.
I C
m (m = E(X))
•
qualquer n > 30 Zn ∼ N(0, 1)
Xn − m N(m, σ) qualquer Zn ∼ T (n − 1)
desconhecido Sn
√
n
•
qualquer n > 30 Zn ∼ N(0, 1)
I C
σ2 (σ2 = V (X) com X ∼ N(m, σ))
76
8. Se pretendermos um intervalo de confiança para uma proporção p, introduzimos uma variável
de Bernoulli, X ∼ B (p) .
Estamos perante a determinação de um intervalo de confiança para E(X) = p, com V (X) = p(1−p)
desconhecida. Se n > 30, a variável (assintoticamente) fulcral usada é
X −p •
# ∼ N (0, 1).
X(1−X)
n
9. O método apresentado pode ser aplicado à construção de intervalos de confiança para diferenças
de médias de duas populações, para o quociente de variâncias ou diferença de proporções, por exemplo,
bastando escolher uma variável fulcral adequada (Murteira et al, 2007).
E. Para conhecer a intenção de voto num candidato, A, às próximas eleições presiden-
ciais, foram inquiridos 900 eleitores escolhidos ao acaso. Se 576 manifestaram a intenção de
votar neste candidato, determinar um intervalo de confiança para a proporção de eleitores que
tencionam votar no candidato A nas referidas eleições.
Resolução. Sejam
Ω = “conjunto dos portugueses que constam dos cadernos eleitorais das próximas eleições pres-
idenciais”,
p = “proporção de eleitores que tencionam votar no Sr. A nas próximas eleições presidenciais”,
p desconhecido , p ∈ ] 0 , 1 [.
Pb: estimar p
Sejam
1 se ω tenciona votar no Sr. A
• ∀ ω ∈ Ω, X (ω) =
0 se ω não tenciona votar no Sr. A.
Portanto, X ∼ B(p).
77
• (X1 , ..., X900 ) uma amostra aleatória de X.
900
Portanto, xi = 576 589.
i=1
900
1
Estimador cêntrico e consistente de p − X = 900 Xi .
i=1
900
1 576
Estimativa cêntrica e consistente de p − x = 900 xi = 900 = 0.64 .
i=1
•
Como Z ∼ N (0, 1)), determinam-se z ′ , z ∈ IR tais que z ′ < z e
P (z ′ < U < z) = 0.99
, U ∼ N (0, 1) .
P (U ≤ z ′ ) = P (U ≥ z)
1+0.99
Assim, F (z) = 2 = 0.995 . Consequentemente,
z = 2.576 e z ′ = −2.576.
78
•
Mas, uma vez que, para todo o p , p ∈ ]0, 1[ , Z ∼ N (0, 1) , tem-se
Portanto,
∀p ∈ ]0, 1[, P (−2.576 < Z < 2.576) ≃ 0.99.
(C) Encontrar T1 = T1 (X1 , ... , X900 ) e T2 = T2 (X1 , ... , X900 ) tais que, para todo o p, p ∈ ]0, 1[ ,
Ora,
−2.576 < Z < 2.576 ⇔ −2.576 < X−p < 2.576
X ( 1−X )
900
# #
X ( 1−X ) X ( 1−X )
⇔ −2.576 900 < X − p < 2.576 900
# #
X ( 1−X ) X ( 1−X )
⇔ X − 2.576 900 < p < X + 2.576 900 .
# #
X ( 1−X ) X ( 1−X )
Assim, T1 = X − 2.576 900 e T2 = X + 2.576 900
Intervalo aleatório # #
X ( 1−X ) X ( 1−X )
]T1 , T2 [ = X − 2.576 900 , X + 2.576 900
.
#
0.64 ( 1−0.64)
t1 = 0.64 − 2.576 900 ≃ 0.599
#
0.64 ( 1−0.64)
t2 = 0.64 + 2.576 900 ≃ 0.681.
79
2. Intervalos de confiança para a média e para a variância de uma população gaussiana
1+0.9
Assim F (z) = 2 = 0.95 e consequentemente
z = 1.725 e z ′ = −1.725.
Portanto,
∀m ∈ ]0, +∞[ , P (−1.725 < Y < 1.725) = 0.9.
80
(C) Encontrar B1 = B1 (X1 , ... , X21 ) e B2 = B2 (X1 , ... , X21 ) tais que, para todo o m,
m ∈ ]0, + ∞[ ,
−1.725 < Y < 1.725 ⇐⇒ B1 < m < B2 .
√ X −m
−1.725 < Z < 1.725 ⇔ −1.725 < 21 < 1.725
Ŝ
Ŝ Ŝ
⇔ −1.725 √ < X − m < 1.725 √
21 21
Ŝ Ŝ
⇔ X − 1.725 √ < m < X + 1.725 √ .
21 21
Ŝ Ŝ
Assim, B1 = X − 1.725 √ e B2 = X + 1.725 √ .
21 21
% $
Ŝ Ŝ
Intervalo aleatório: ]B1 , B2 [ = X − 1.725 √ , X + 1.725 √
21 21
81
Mas,
P (z ′ < W < z) = 0.95 FW (z) − FW (z ′ ) = 0.95
⇔
P (W ≤ z ′ ) = P (W ≥ z) FW (z ′ ) = 1 − FW (z)
FW (z) − [1 − FW (z)] = 0.95
⇔
−
FW (z) = 0.9755
⇔
FW (z ′ ) = 0.025.
(C) Encontrar H1 = H1 (X1 , ... , X21 ) e H2 = H2 (X1 , ... , X21 ) tais que, para todo o σ2 ,
σ2 ∈ ]0, + ∞[ ,
9.59 < W < 34.2 ⇐⇒ H1 < σ2 < H2 .
Ora
21
2
Xi − X
9.59 < W < 34.2 ⇔ 9.59 < < 34.2
σ
i=1
1 σ2 1
⇔ < 21 <
34.2
2 9.59
Xi − X
i=1
21
21
2 2
Xi − X Xi − X
i=1 i=1
⇔ < σ2 < .
34.2 9.59
Assim,
21 2 21 2
i=1 Xi − X i=1 Xi − X
H1 = e H2 = .
34.2 9.59
Intervalo aleatório:
% 2 $
21 2 21
i=1 Xi −X i=1 Xi − X
]H1 , H2 [ = ,
34.2 9.59
tal que, ∀ σ 2 ∈ ]0, + ∞[ , P σ2 ∈]H1 , H2 [ = 0.95 .
82
Módulo 6 - Testes de hipóteses
1. Preliminares
Como já foi afirmado, o objectivo da Estatística é tirar conclusões sobre o comportamento de uma
característica, X, dos indivíduos de uma população, em particular sobre o comportamento da sua lei
de probabilidade, a partir do conhecimento dessa característica numa amostra extraída da população.
Neste módulo, apresentaremos alguns dos procedimentos que a Estatística propõe para decidir
entre duas conjecturas ou hipóteses, ditas hipóteses estatísticas, sobre a lei de probabilidade de X face
a uma amostra observada.
PX ∈ {Pθ , θ ∈ Θ} , Θ ⊂ R,
tais conclusões dirão respeito ao parâmetro da lei de X. As hipóteses, neste caso, são duas conjecturas
sobre o valor do parâmetro θ, ditas hipóteses paramétricas, e os procedimentos propostos são
conhecidos por testes paramétricos.
Como veremos, a Estatística fornece procedimentos que permitem decidir entre tais hipóteses
avaliando também as probabilidades dos erros que poderão estar associados às decisões tomadas.
Para além desta abordagem paramétrica, veremos ainda como pode a Estatística
responder à questão de saber se a amostra recolhida se pode considerar, ou não, como proveniente
de uma variável aleatória com determinada lei conhecida. Neste caso, a conjectura envolve a lei da
população e não apenas o valor de um parâmetro nela interveniente, o que inclui este problema na
área da denominada Estatística não-paramétrica.
Existem vários procedimentos para analisar este tipo de problema (teste de Kolmogorov, de
Cramer-Von-Mises) mas limitar-nos-emos a apresentar o teste do Qui-quadrado.
Recordemos que são, frequentemente, procedimentos empíricos que nos encaminham para uma lei
de probabilidade passível de ser adaptada aos dados observados. Por exemplo, a forma do histograma
pode sugerir-nos certos modelos. Outros métodos empíricos envolvem ajustamentos gráficos mas não
vamos detalhá-los aqui.
A análise empírica dá-nos, assim, uma indicação sobre um modelo de probabilidade que poderá
estar subjacente aos dados produzidos ou, por outras palavras, que possa ser considerado compatível
com os dados observados. A construção de um teste de ajustamento, como o do Qui-quadrado,
permitir-nos-á validar tal indicação.
2. Testes paramétricos
2.1. Introdução
As hipóteses estatísticas escrevem-se, neste caso, na forma
H0 : θ ∈ Θ0 , H1 : θ ∈ Θ1
83
onde θ0 é um valor fixo em Θ.
A hipótese H0 é denominada hipótese nula sendo H1 denominada hipótese alternativa.
Uma hipótese diz-se simples quando, ao ser verdadeira, especifica completamente a lei de X (isto
é, indica o valor de θ); uma hipótese diz-se composta quando não é especificado o valor concreto de
θ (por exemplo, θ < θ0 , θ > θ0 ou θ = θ 0 ).
Testar uma hipótese estatística significa decidir se a hipótese é válida, ou não, face aos resul-
tados fornecidos por uma amostra, (x1 , x2 , ..., xn ) , retirada ao acaso da população. Se tais resultados
são compatíveis com H0 então aceitamos H0 como verdadeira. Caso contrário, rejeitamos H0
(aceitando H1 ).
Está, pois, implícita a presença de um procedimento de decisão. Tal procedimento consiste em
definir um subconjunto de Rn , denominado região crítica e que representaremos por RC, tal que
• se (x1 , x2 , ..., xn ) ∈
/ RC, aceitamos H0 .
Situação real
H0 verdadeira H1 verdadeira
Decisão
Decisão incorrecta
H0 verdadeira Decisão correcta
(erro de 2a espécie)
Decisão incorrecta
H1 verdadeira Decisão correcta
(erro de 1a espécie)
Por exemplo, cometemos o erro de 1a espécie quando somos conduzidos a rejeitar a hipótese H0
mas na realidade H0 é verdadeira.
Pretendemos, obviamente, que estes erros tenham probabilidades de ocorrência reduzidas, ou seja,
gostaríamos de controlar as probabilidades seguintes:
84
2.2. Testes para a média de uma população
Seja X uma variável aleatória real tal que E(X) existe. Utilizaremos sistematicamente a notação
m = E(X).
Supomos que V (X) também existe e que é positiva. Denotá-la-emos frequentemente por σ2 .
As hipóteses estatísticas serão, agora, afirmações sobre o valor de m.
Seja (x1 , x2 , ..., xn ) uma amostra de X. Sabemos já que a média desta amostra, xn , nos dá uma
boa ideia sobre o valor de m, pois é uma estimativa cêntrica e consistente de m.
Não surpreende, pois, que a definição da região crítica de um teste para o parâmetro m envolva
xn .
No entanto, como veremos, a forma da região crítica vai depender do teste que estivermos a
considerar, ou seja, depende particularmente da hipótese H1 .
a) Fixa-se a probabilidade do erro de 1a espécie (os valores habitualmente utilizados são 0.1, 0.01,
0.05, ...):
P (erro de 1a espécie) = P (rejeitar H0 supondo H0 verdadeira)
= α.
Refira-se que se a decisão é tomada com o nível de significância, α, igual a 0.05 é considerada
significativa; se α = 0.01, a decisão tomada diz-se altamente significativa.
85
b) Determinamos a constante c a partir da igualdade anterior.
Vemos que, para determinar o valor de c, precisamos de conhecer a lei de X n sob a hipótese H0 .
Reparemos que, de modo análogo,
e, para calcular esta probabilidade, iremos precisar de conhecer a lei de X n sob a hipótese H1 (18 ).
Vamos prosseguir com a questão de determinar o valor de c, tendo fixado o valor de α. A abordagem
a seguir depende fundamentalmente do facto de, sob H0 , a variância de X ser ou não conhecida.
X n − m0
∼ N(0, 1).
√σ
n
X n − m0 •
∼ N(0, 1).
√σ
n
Podemos, pois, introduzindo uma variável aleatória U ∼ N(0, 1), resumir estes 2 casos da
seguinte forma
α = P (X n − m0 > c / m = m0 )
|X n −m0 |
=P √σ > √σ / m = m0
c
n n
c
= P |U | > √σ , U ∼ N(0, 1)
(≃) n
86
(ii) Se σ é desconhecido (sob H0 ), convém reescrever a região crítica numa forma equivalente
X n − m0 X n − m0
Vemos que foi fundamental, no primeiro caso, conhecer a lei de (resp., no
√σ
√S
n n
segundo) sob a hipótese nula; tal variável aleatória é denominada estatística de teste.
Obtido o valor de c (ou c′ ) poderá, em certos casos, calcular-se a probabilidade do erro de segunda
espécie, tendo também de ter-se em conta se V (X) é conhecida, ou não, sob a hipótese alternativa.
H0 : p = p0 contra H1 : p = p0
com p0 previamente fixado, é um caso particular do que foi exposto pois p pode interpretar-se como
sendo E(Y ), com Y uma variável aleatória seguindo a lei de Bernoulli de parâmetro p.
Assim, teremos
RC = {(y1 , y2 , ..., yn ) : |y n − p0 | > c} , c > 0
e α = P (rejeitar H0 supondo H0 verdadeira) = P Y n − p0 ≥ c / p = p0 .
pelo que
c
α ≃ P |U | > # , U ∼ N(0, 1)
p0 (1−p0 )
n
87
2.2.2 Teste de H0 : m = m0 contra H1 : m > m0
H0 : m = m0 contra H1 : m > m0
Então
RC = {(x1 , x2 , ..., xn ) : xn > m0 + c} , c > 0.
A determinação de c é feita de modo análogo ao anterior, ou seja, de modo resumido:
b) a partir de
H0 : m = m0 contra H1 : m < m0
Tendo em conta o facto de, sob H0 , σ ser conhecido ou não, determinamos o valor de c′ usando as
leis referidas no parágrafo anterior.
Os dois tipos de testes abordados neste parágrafo dizem-se unilaterais (por oposição ao primeiro,
denominado bilateral).
2.2.3 Exemplos
1. O número de chamadas telefónicas que chegam diariamente a uma determinada central entre as
23 e as 24 horas é bem descrito por uma lei de Poisson de parâmetro λ, desconhecido. Foi realizado
88
um estudo estatístico empírico, que levou a inferir o valor 2 para o parâmetro λ. Correspondendo
actualmente o período de observação a um horário de tarifa bonificada, pensa-se que a intensidade de
chamadas λ deverá ter aumentado. Para testar tais hipóteses fez-se, durante 150 dias, a observação do
número de chamadas que ocorreram no referido período. Os valores obtidos encontram-se resumidos
na tabela seguinte:
no de chamadas 0 1 2 3 4
no de dias 8 20 40 50 32
Testemos, ao nível de significância 0.05, a hipótese H0 : λ = 2 contra H1 : λ > 2.
Seja X a variável aleatória real que representa o número de chamadas telefónicas que chegam
diariamente à central entre as 23 e as 24 horas.
Dispondo nós de uma amostra de dimensão 150 de X, (x1 , x2 , ..., x150 ) , a região crítica é da forma
Determinemos c.
Como X ∼ P (λ) , sabemos que V (X) = λ. Então, V (X) é conhecida sob H0 tendo-se, neste caso,
V (X) = 2. Consequentemente,
X −2 •
√ ∼ N(0, 1).
√ 2
150
Então
√
0.05 ≃ P (U > c 75),U ∼ N(0, 1)
√
⇔ 0.95 ≃ P (U ≤ c 75)
√
⇔ c 75 ≃ 1.645
e
x − 2 = 0.52
que é maior do que 0.19, pelo que a amostra pertence à região crítica. Rejeitamos, ao nível de
significância 0.05, a hipótese H0 . Podemos então concluir, a este nível, que a intensidade das chamadas
aumentou.
△
89
2. Um estudo feito numa universidade revela que em 100 dos seus finalistas, escolhidos ao acaso, há
16 que pretendem prosseguir os seus estudos, inscrevendo-se em programas de doutoramento. Será
aceitável, ao nível de significância 0.05, afirmar que a proporção de alunos daquela universidade que
pretendem prosseguir os seus estudos é 0.2?
Pretendemos testar as hipóteses
onde p representa a proporção de finalistas da universidade que pretendem prosseguir os seus estudos
em programas de doutoramento.
Introduzamos a variável aleatória
1, se o finalista ω pretende prosseguir estudos
Y (ω) =
0, se o finalista ω não pretende prosseguir estudos.
É claro que Y segue a lei de Bernoulli de parâmetro p, Y ∼ B(p) e, como E(Y ) = p, estamos
perante um teste para a média da lei de Bernoulli. Relembremos que, neste caso, V (Y ) = p(1 − p).
Dispondo nós de uma amostra de dimensão 100 de Y , (y1 , y2 , ..., y100 ) , a região crítica é da forma
Mas
0.05 = P (rejeitar H0 / H0 verdadeira) = P (Y − 0.2 > c / p = 0.2).
Sob H0 tem-se V (Y ) = 0.2(1 − 0.2) = 0.16, isto é, a variância de Y é conhecida pelo que, uma vez
que n é grande (n = 100 > 30),
Y − 0.2 •
√ ∼ N(0, 1).
√0.16
100
Então
Y − 0.2 c
0.05 = P > / p = 0.2
0.04 0.04
≃ P (|U | > 25c), U ∼ N(0, 1)
o que equivale a
e conduz, pela tabela da função de repartição da lei normal standard, ao valor c ≃ 0.0784.
Então
RC = {(y1 , y2 , ..., y100 ) : |y − 0.2| > 0.0784} .
1
100
16
A amostra observada é tal que y = 100 yi = 100 = 0.16, pelo que
i=1
que não é maior do que 0.0784, pelo que a amostra não pertence à região crítica.
90
Assim, aceitamos H0 ao nível de significância 0.05, ou seja, a este nível de significância poderemos
afirmar que 20% dos estudantes daquela universidade pretendem prosseguir os seus estudos.
Ao fazermos esta afirmação poderemos cometer um erro, concretamente o erro de 2a espécie:
aceitar H0 e, no entanto, H0 ser falsa.
△
3. O tempo médio de secagem de uma tinta spray de determinada marca é de 90 segundos. A secção
de investigação da companhia que produz a tinta admite que poderá acelerar o processo de secagem
se lhe adicionar um novo ingrediente químico. A fim de verificar esta opinião, juntou-se o produto
químico à tinta e aplicou-se esta sobre 25 superfícies, tendo-se verificado que o tempo médio de secagem
era de 86 segundos com desvio padrão de 4.5 segundos. Admitindo que o tempo de secagem da tinta
é normalmente distribuído, verifique se a secção de investigação está significativamente certa da sua
opinião.
Seja X a variável aleatória real que descreve o tempo de secagem da tinta spray. Sabemos que
X segue a lei N(m, σ) e que dispomos de uma amostra de X de dimensão 25, (x1 , x2 , ..., x25 ), tal que
x = 86 e s = 4.5.
Pretendemos testar a hipótese H0 : m = 90 contra a hipótese H1 : m < 90, ao nível de significância
α = 0.05.
A região crítica é da forma
RC = {(x1 , x2 , ..., x25 ) : x < 90 − c} , c > 0
pois, sob H0 , a variável aleatória X segue a lei N(90, σ), com σ desconhecido.
′′
Para determinar c consideramos então
X − 90
< c / H0 verdadeira .
′′
0.05 = P (rejeitar H0 / H0 verdadeira) = P
√S
25
X−90
Sob H0 , a estatística de teste segue a lei de Student com 24 graus de liberdade pelo que
√S
25
′′
0.05 = P (T < c ), T ∼ T (24)
′′
= P (T > −c )
′′
= 1 − P (T ≤ −c ).
′′
A tabela da lei de Student conduz então a −c = 1.711 de onde decorre
.
x − 90
RC = (x1 , x2 , ..., x25 ) : s
< −1.711 .
√
25
#
25 √5 4.5,
Como x = 86 e s- = 24 s= 24
então
x − 90 86 − 90
= 4.5 ≃ −4.35
√s √
25 24
que é claramente inferior a −1.711. A amostra pertence à região crítica e, ao nível de significância 0.05,
podemos concluir que a secção de investigação tem razão ao afirmar que reduz o tempo de secagem
com a adição do novo ingrediente químico. Com tal conclusão poderemos cometer um erro, o de
primeira espécie, com probabilidade
91
P (rejeitar H0 / H0 verdadeira) = 0.05.
H0 : σ 2 = σ 20 contra H1 : σ 2 > σ 20
α = P (E1 > c) , E1 ∼ χ2 (n − 1) .
n
2
Xi −m
No caso de, sob H0 , m ser conhecida, a estatística de teste será E2 = σ0 e a região crítica
i=1
definida por .
n
xi − m 2
RC = (x1 , x2 , ..., xn ) : >c
σ0
i=1
com c tal que
α = P (E2 > c) , E2 ∼ χ2 (n) .
H0 : σ 2 = σ 20 contra H1 : σ 2 < σ 20
O teste
H0 : σ 2 = σ 20 contra H1 : σ 2 = σ 20
tem um tratamento que é uma mistura dos dois anteriores. De facto, a região crítica de um tal teste
no caso, por exemplo, de m ser desconhecida sob H0 , é
92
n n /
xi −x 2 xi −x 2
RC = (x1 , x2 , ..., xn ) : σ0 < c1 ou σ0 > c2
i=1 i=1
Notemos que esta condição não define univocamente um par de valores (c1 , c2 ). Daí que, tal como
nos intervalos de confiança, se determinem c1 , c2 tais que
P ((E1 < c1 ) ∪ (E1 > c2 )) = α
P (E1 < c1 ) = P (E1 > c2 ) ,
com E1 ∼ χ2 (n − 1) .
3.1. Introdução
O objectivo dos testes de ajustamento é verificar se a amostra recolhida se pode considerar, ou
não, como sendo proveniente de uma variável aleatória com lei conhecida, P0 .
Pretendemos então testar
19
H0 : X ∼ P0 contra H1 : X ≁ P0 .
Existem vários procedimentos para analisar este tipo de problema (teste de Kolmogorov, de
Cramer-Von-Mises) mas limitar-nos-emos ao teste do Qui-quadrado.
Recordemos que são, frequentemente, procedimentos empíricos que nos encaminham para uma lei
de probabilidade passível de ser adaptada aos dados observados. Por exemplo, a forma do histograma
pode sugerir-nos certos modelos, ou a eliminação de outros se, em particular, não estão presentes
propriedades de simetria.
Deveremos também verificar se certas propriedades relativas aos parâmetros do modelo sugerido
pelo histograma são reproduzidas pelos dados; por exemplo se o modelo sugerido é uma lei de Poisson,
convém verificar se x é um valor próximo de s2 .
Outros métodos empíricos envolvem ajustamentos gráficos mas não vamos detalhá-los aqui.
A análise empírica dá-nos, assim, uma indicação sobre um modelo de probabilidade que poderá
representar adequadamente os dados observados. A construção de um teste de ajustamento, como o
do Qui-quadrado, permitir-nos-á validar tal indicação.
93
Seja, então, (x1 , x2 , ..., xn ) uma amostra de X de dimensão n e representemos por ni a frequência
absoluta da modalidade i, i = 1, 2, ..., k.
Consideremos o número real seguinte
k
(ni − npi )2
d2 = .
npi
i=1
com c > 0.
Tal como nos testes paramétricos anteriormente estudados, a constante c é determinada a partir
da seguinte condição
α = P (rejeitar H0 / H0 verdadeira)
α = P (W > c) , W ∼ χ2 (k − 1) .
Se tal não acontecer, devemos proceder a reagrupamentos de modalidades adjacentes (este agru-
pamento irá reduzir o número de graus de liberdade da lei do χ2 ).
94
O tratamento de tal teste é semelhante ao anteriormente apresentado. No entanto, o facto de
H0 não ser uma hipótese simples, isto é, de a lei de X não ser completamente especificada, obriga a
procedimentos adicionais, uma vez que as probabilidades pi são, neste caso, desconhecidas.
Designemos por -θ uma estimativa de θ obtida a partir da amostra observada.
Sejam S o suporte da lei de probabilidade Pθ , A1 , ..., Ak uma partição de S e
H0 : PX ∈ {Pθ , θ ∈ Θ} contra H1 : PX ∈
/ {Pθ , θ ∈ Θ}
é então da forma .
k
pi )2
(ni − n-
RC = (x1 , x2 , ..., xn ) : > c , c > 0.
n-
pi
i=1
3.4. Exemplos
1. O quadro seguinte apresenta o número de acidentes que se registaram diariamente, numa determi-
nada cidade, ao longo de 50 dias.
No de acidentes No de dias
0 21
1 18
2 7
3 3
4 1
Total 50
95
Precisamos de conhecer os valores teóricos p-i = P (X = i), i = 0, 1, 2, 3, 4 ou mais, quando
X ∼ P (0.9) , que obtemos recorrendo à tabela desta lei. Notemos que a partição de S = N0 considerada
é {0} , {1} , {2} , {3} e {4, 5, 6, ...} .
(ni −npi )2
i ni p-i n-pi ni − n-
pi pi )2
(ni − n- n
pi
0 21 0.4066 20.330
1 18 0.3659 18.295
2 7 0.1647 8.235
3 3 0.0494 2.470
4 ou mais 1 0.0134 0.670
Total 50 1 50
Constatamos que as duas últimas frequências esperadas são inferiores a 5 pelo que é necessário
proceder ao agrupamento das linhas correspondentes a i = 2, 3, 4 ou mais.
Assim, retomando o quadro anterior, vem
(ni −npi )2
i ni p-i n-pi ni − n-
pi pi )2
(ni − n- n
pi
0 21 0.4066 20.330 0.670 0.4489 0.0220
1 18 0.3659 18.295 −0.295 0.0870 0.0047
2, 3, 4 ou mais 11 0.2275 11.375 −0.375 0.1406 0.0123
Total 50 1 50 0.0390
0.05 ≃ P (W > c) , W ∼ χ2 (3 − 1 − 1) ,
2. A secção de controlo de qualidade de uma fábrica pretende obter informação sobre a distribuição
que poderá estar subjacente ao diâmetro das peças produzidas por uma determinada máquina. Com
esse objectivo, recolheu uma amostra de 545 peças, tendo as medições efectuadas conduzido ao quadro
seguinte.
Diâmetro (em mm) ]1.5, 2.5] ]2.5, 3.5] ]3.5, 4.5] ]4.5, 5.5] ]5.5, 6.5] ]6.5, 7.5]
No de peças 8 86 120 210 109 12
Poderá admitir-se, ao nível de significância 0.01, a hipótese dos diâmetros das peças serem nor-
malmente distribuídos?
Seja X a variável aleatória real que representa o diâmetro, em mm, das peças produzidas pela
máquina.
Pretendemos testar
96
′ ′
′ 2
Classes ni xi ni xi ni xi
]1.5, 2.5] 8 2 16 32
]2.5, 3.5] 86 3 258 774
]3.5, 4.5] 120 4 480 1920
]4.5, 5.5] 210 5 1050 5250
]5.5, 6.5] 109 6 654 3924
]6.5, 7.5] 12 7 84 588
Totais 545 2542 12488
Obtemos
2542
x = x′ = = 4.664 ≃ 4.7
545
12488
s2 = s2X ′ = − (4.7)2 = 22.914 − 22.09 = 0.824.
545
545
Temos então s-2 = 0.824 = 0.826, pelo que
544
√
s- = 0.826 = 0.908 ≃ 0.9
Assim, a lei normal com a qual a amostra poderá ser compatível é a N (4.7, 0.9).
Para obter os valores teóricos p-i , i = 1, 2, ..., 6, consideramos a seguinte partição de R: ]−∞, 2.5] ,
]2.5, 3.5] , ]3.5, 4.5] , ]4.5, 5.5] , ]5.5, 6.5] e ]6.5, +∞[ .
Obtemos os valores p-i , i = 1, 2, ..., 6, recorrendo à lei N (4.7, 0.9). Por exemplo,
2.5 − 4.7
p-1 = P (X ∈ ]−∞, 2.5]) = P (X ≤ 2.5) = P U ≤
0.9
= FU (−2.44) = 1 − FU (2.44) = 1 − 0.9927 = 0.0073, U ∼ N (0, 1) .
2.5 − 4.7 3.5 − 4.7
p-2 = P (X ∈ ]2.5, 3.5]) = P (2.5 < X ≤ 3.5) = P <U ≤
0.9 0.9
= P (−2.44 < U ≤ −1.33) = 0.0845 .
Procedendo de modo análogo com as outras classes, obtêm-se os valores p-i presentes no quadro
seguinte.
(ni −npi )2
Classes ni p-i n-pi ni − n-
pi pi )2
(ni − n- n
pi
]−∞, 2.5] 8 0.0073 3.98
]2.5, 3.5] 86 0.0845 46.05
]3.5, 4.5] 120 0.3211 174.99
]4.5, 5.5] 210 0.3977 216.75
]5.5, 6.5] 109 0.1666 90.80
]6.5, +∞[ 12 0.0228 12.43
Totais 545 1.0
97
Como deverá ter-se n-
pi > 5, i = 1, 2, ..., 6, temos de agrupar as duas primeiras classes. Vem, então,
(ni −npi )2
Classes ni p-i n-pi ni − n-
pi pi )2
(ni − n- n
pi
]−∞, 3.5] 94 0.0918 50.03 43.97 1933.4 38.64
]3.5, 4.5] 120 0.3211 174.99 −54.99 3023.9 17.28
]4.5, 5.5] 210 0.3977 216.75 −6.75 45.6 0.21
]5.5, 6.5] 109 0.1666 90.80 18.2 331.24 3.65
]6.5, +∞[ 12 0.0228 12.43 −0.43 0.185 0.01
Totais 545 1.0 59.79
0.01 ≃ P (W > c) , W ∼ χ2 (5 − 2 − 1)
98
Módulo 7 - Modelo de regressão linear simples
1. Introdução
gi = ari + b + ui ,
com ui a perturbação no mês i, i = 1, 2, ..., n.
Os números reais a e b, desconhecidos, dizem-se parâmetros do modelo. Se dispusermos dos valores
dos rendimentos e dos gastos do agregado familiar durante n meses, (ri , gi ) , i = 1, 2, ..., n, podemos
obter estimativas dos parâmetros do modelo a e b, que permitem usar tal relação para, por exemplo,
prever os gastos de um mês que se avizinha.
2. Definição e hipóteses
A formulação genérica de um modelo de regressão linear simples entre duas características numéri-
cas x (não aleatória) e Y (aleatória), observadas sobre o mesmo indivíduo de uma população, é a
seguinte
Yi = axi + b + Ui , i = 1, 2, ..., n
onde xi e Yi representam os valores de x e de Y sobre o indivíduo i, i = 1, 2, ..., n.
Nesta formulação x diz-se variável explicativa, independente ou exógena e Y diz-se variável expli-
cada, dependente ou endógena. As variáveis aleatórias U1 , ..., Un denominam-se erros e os números
reais a e b dizem-se parâmetros ou coeficientes do modelo.
Estas quantidades têm naturezas diferentes quanto ao seu aspecto determinista ou aleatório e ao
facto de serem quantidades observáveis ou não. Assim, enquanto que x é considerada não aleatória, a
introdução do erro leva a que a variável dependente seja naturalmente aleatória. Por outro lado, quer
99
x quer Y são grandezas observáveis mas, obviamente, nem a varável aleatória erro nem os parâmetros
o são. O quadro seguinte sistematiza tais diferenças.
Notemos que, de modo coerente com o seguido até aqui, usamos letras maiúsculas para todas as
quantidades aleatórias e minúsculas para as que o não são.
No estudo que se segue, supomos que os erros Ui , i = 1, 2, ..., n, são centrados, de variância σ2 e
com distribuição normal, isto é,
Ui ∼ N (0, σ), i = 1, 2, ..., n.
Supomos ainda que U1 , U2 , ..., Un são independentes. (20 )
Além disso,
Yi ∼ N (axi + b, σ), i = 1, 2, ..., n,
e, enquanto transformações contínuas de variáveis aleatórias independentes, Y1 , Y2 , ..., Yn são indepen-
dentes.
Nesta secção são propostos estimadores dos parâmetros a e b do modelo em estudo e estudadas as
suas propriedades gerais.
Seja (y1 , y2 , ..., yn ) um valor particular, qualquer, de (Y1 , Y2 , ..., Yn ) . Consideremos a função
n
n
Q (a, b) = u2i = (yi − axi − b)2 ,
i=1 i=1
a que chamamos erro quadrático médio entre os pontos observados (xi , yi ) e os pontos de igual abcissa
da recta y = ax + b.
O problema da minimização de Q (a, b) envolve a procura das raízes das equações normais:
∂Q(a,b)
∂a =0
∂Q(a,b)
∂b = 0,
as quais conduzem a um minimizante único - a, -
b dado por
n
xi (yi −y)
a= i=1
- n
xi (xi −x)
i=1
-
b = y−- a x,
20
As propriedades apresentadas na secção seguinte são válidas apenas sob a hipótese de que as variáveis
Ui , i = 1, 2, ..., n, são centradas, de variância σ2 e não correlacionadas.
100
n n
1 1
com x = n xi ey= n yi .
i=1 i=1
As estimativas dos mínimos quadrados admitem a seguinte interpretação geométrica: - ae-b são,
respectivamente, o declive e a ordenada na origem da recta para a qual é mínima a soma dos quadra-
dos das distâncias dos pontos da nuvem {(xi , yi ) , i = 1, 2, ..., n} aos pontos da recta com as mesmas
abcissas, isto é, da recta de regressão de Y sobre x.
1
n
onde Y = n Yi .
i=1
- e B
D
. A A - chamamos estimadores dos mínimos quadrados de a e b, respectivamente.
- são
Outras formas alternativas para A
n
n
n
(xi − x) Yi − Y (xi − x) Yi xi Yi − nxY
-= i=1 i=1 i=1
A n = n = n
2 2
(xi − x) (xi − x) x2i − n (x)2
i=1 i=1 i=1
n n
uma vez que (xi − x) = Yi − Y = 0.
i=1 i=1
σ2
Note-se que E Y = ax + b e V Y = n . Estes factos serão úteis na prova da propriedade
seguinte.
- eB
P. A - são estimadores cêntricos de a e b, respectivamente.
101
Prova. Temos
n
n
(xi − x) E (Yi ) (xi − x) (axi + b)
- = i=1 i=1
E A n = n .
(xi − x)2 (xi − x)2
i=1 i=1
Mas n n n n
(xi − x) (axi + b) = a (xi − x) xi + b (xi − x) = a (xi − x)2
i=1 i=1 i=1 i=1
n
pois (xi − x) = 0.
i=1
Logo E A - = a.
-eB
P. Os estimadores A - dos parâmetros a e b verificam
n
σ2 x2i
- = σ2 - = i=1
V A ; V B .
n
2
n
2
(xi − x) n (xi − x)
i=1 i=1
n
pois (xi − x) = 0.
i=1
102
Conhecidas as estimativas -ae-b dos parâmetros a e b do modelo, é possível obter os denominados
valores ajustados da v.a.r. dependente, concretamente:
D
. O vector (não aleatório) u
- = y − y- cujas componentes são
-i = yi − -
u axi + -b , i = 1, ..., n,
Notemos que u -i nos dá o valor particular da variável aleatória do erro correspondente à i-ésima
observação efectuada
-i = Yi − Ax
U - i+B - , i = 1, ..., n.
Sob a hipótese de normalidade dos erros U1 , ..., Un , é possível estabelecer a independência entre
- (resp. B)
as variáveis aleatórias A - eU
-i , i = 1, ...n. De facto, tem-se o resultado seguinte (ver, por
exemplo, G., M.L. 2000):
P.
-eU
a) A -i são independentes, i = 1, 2, ..., n.
-eU
b) B -i são independentes, i = 1, 2, ..., n.
Estas relações de independência permitem, em particular, deduzir a lei da soma dos quadrados dos
resíduos da regressão,
n
2
SQR = -i .
U
i=1
De facto, tem-se
1
SQR ∼ χ2 (n − 2) .
σ2
Este resultado é particularmente útil na estimação de σ (desvio padrão dos erros), o qual é também
um parâmetro desconhecido no modelo em estudo.
n
2
Em particular, atendendo a que a média da lei χ2 (n − 2) é n − 2, deduz-se que n−2 1 -i é
U
i=1
um estimador cêntrico de σ2 .
103
1
Por outro lado, σ2
SQR é uma variável fulcral que nos permite obter intervalos de confiança para
σ2.
Y = ax + b + U
tem a ver com a verificação de que Y depende, de facto, linearmente da variável explicativa x.
Para tal poder-se-á considerar um teste estatístico que permita decidir entre as hipóteses
H0 : a = 0 e H1 : a = 0.
-−a
A
-e
Dos resultados anteriores sobre as leis das variáveis A 1
SQR e tendo em conta que
σ2 σ
n
(xi −x)2
i=1
e SQR são independentes, deduzimos que a variável aleatória real
(
) n
9 8 )
-−a 1 ) (n − 2) (xi − x)2
∗ A σ2 SQR * i=1 -−a
A = σ = A
n−2 SQR
n
(xi −x)2
i=1
onde sqR é o valor de SQR correspondente à amostra observada, é a região crítica de um teste de H0
contra H1 com nível de significância α. 8
n
(n−2) (xi −x)2
Então, ao nível de significância α, aceitamos a hipótese H0 se i=1
sqR |-
a| ≤ t (α) ,
rejeitando-a se esta desigualdade não é verificada.
104
4.3 Outras inferências no modelo de regressão
A variável A∗ permite também obter intervalos de confiança para o parâmetro a ao grau de
confiança β. Assim, pelo método da variável fulcral, determinamos c ∈ R+ tal que
(
) n
) 2
) (n − 2) (xi − x)
* i=1 - − a < c
P −c < A =β
SQR
1+β
onde c é tal que FT (n−2) (c) = 2 . Assim
( (
- ) sqR ) sqR
a − c ) , a
- + c)
*
n
2 *
n
2
(n − 2) (xi − x) (n − 2) (xi − x)
i=1 i=1
O estudo que acabamos de efectuar sobre o parâmetro a, presente no modelo de regressão, ilustra
algumas das questões que poderão surgir aquando da sua utilização.
Há ainda outros aspectos que poderão também revelar-se importantes. Em particular, de modo
análogo ao anterior, podemos efectuar inferências sobre o parâmetro b, através da construção de
intervalos de confiança e de testes. Nestes estudos é habitualmente utilizada a v.a.r.
-−b
B
B∗ = (
)
n
) SQR x2i
) i=1
*
n
n(n−2) (xi −x)2
i=1
a qual, sob as hipóteses impostas, segue a lei de Student com n − 2 graus de liberdade.
Além disso, podemos pretender prever valores de Y , tanto pontualmente como de forma intervalar.
A previsão pontual para yn+1 , por exemplo, a partir de uma observação xn+1 é o número real
axn+1 + -b.
y-n+1 = -
Claro que admitimos que as hipóteses feitas sobre os erros do modelo inicial, U1 , ..., Un , valem
para U1 , ... , Un+1 .
Notemos que - axn+1 + -b é uma estimativa cêntrica de E(Yn+1 ).
O erro de previsão é, então,
yn+1 − y-n+1 = axn+1 + b + un+1 − - axn+1 + -
b
= (a − -a) xn+1 + b − -b + un+1 ,
105
Por outro lado, a variância do erro de previsão é
2
V (En+1 ) = E En+1
(
)
)
)
) 2 1 (xn+1 − x)2 ,
= )σ 1 + + n
* n 2
(xi − x)
i=1
- ,V B
tendo em conta os valores de V A - ,E a−A
- b−B
- = −σ2 n x
e a independência
(xi −x)2
i=1
de U1 , ..., Un+1 .
Sendo U1 , ..., Un gaussianos, podemos obter um intervalo de confiança para E(Yn+1 ) e, como ve-
remos, um intervalo, denominado intervalo de previsão, para os valores possíveis de yn+1 .
De facto, sendo A -eB - funções lineares de Y1 , ..., Yn , então Y-n+1 é também uma função linear de
Y1 , ..., Yn . Assim, Y-n+1 segue uma lei normal tendo-se
(
)
)
) 1 (xn+1 − x)2
- ) 2
Yn+1 − E(Yn+1 ) ∼ N 0, )σ + n .
* n
(xi − x)2
i=1
- e de B,
Além disso, sendo SQR independente de A - as variáveis aleatórias
A variável aleatória U é uma variável fulcral pelo que, dado β ∈ ]0, 1[ , um intervalo de confiança
para E (Yn+1 ), de grau de confiança β, é
( (
) )
) )
) 2 ) 2
) sqR 1 + (xn+1 − x) , y-n+1 + c) sqR 1 + (xn+1 − x)
y-n+1 − c) )
*n − 2 n n
2
*n − 2 n
n
2
(xi − x) (xi − x)
i=1 i=1
106
n
1
Assim, como n (xi − x)2 = s2X , temos
i=1
( (
) )
) SQR 1 (xn+1 − x)2 ) SQR 2
1 (xn+1 − x)
β = P Y-n+1 − c* 1+ + 2 < Yn+1 < Y-n+1 + c* 1+ + ,
n−2 n nsX n − 2 n ns2X
e, portanto, obtemos, para valores possíveis da variável explicativa xn+1 , diversos intervalos da forma
( (
) )
) sqR 1 (x − x) 2 ) sq 1 (x − x)2
y-n+1 − c* 1+ +
n+1
, y-n+1 + c*
R
1+ +
n+1
n−2 n ns2X n−2 n ns2X
que se denominam intervalos de previsão para yn+1 , de grau de confiança β (por analogia com os
intervalos de confiança).
Um outro aspecto fundamental neste tipo de estudo consiste em verificar a adequação aos
dados do modelo de regressão obtido. Uma forma de avaliar tal ajustamento consiste em verificar se
os resíduos estandardizados
- i+B
Yi − Ax -
# , i = 1, ..., n,
SQR
n−2
verificam as hipóteses do modelo, concretamente, se são variáveis aleatórias normais centradas, reduzi-
das e independentes. Estes procedimentos podem ser efectuados recorrendo aos métodos de análise
estatística anteriormente apresentados.
5. Exemplos
Yi = axi + b + Ui , i = 1, ..., n
107
a e -b, dos parâmetros
b) Usando o método dos mínimos quadrados, determine as estimativas, -
a e b.
c) Obtenha uma estimativa cêntrica de σ2 .
d) Poderá dizer que a é significativamente diferente de zero ao nível de significância 0.05?
e) Suponha que o volume de negócios no ano 8 é 95 u.
(i) Com base na relação linear estimada, qual é o volume de investimento em tecnologia
previsto para o ano 8?
(ii) Obtenha um intervalo de confiança, de grau de confiança 0.95, para o volume médio
de investimento em tecnologia daquele sector no ano 8.
108
1
6
Uma estimativa cêntrica de σ2 é, então 4 (yi − y-i )2 = 14 8.56 = 2.14.
i=1
Obtemos
0.95 = P (|T | ≤ c) = FT (c) − [1 − FT (c)] = 2FT (c) − 1
pelo que FT (c) = 0.975, o que conduz a c = 2.776.
Para a amostra observada, a estatística de teste é igual a
(
) n
) x2 − n (x)2 !
)
* i=1 i 391.16
1 |-
a| = 0.4 ≃ 13.5(0.4) = 5.4 .
n−2 sqR
2.14
Concluímos que a amostra pertence à região crítica pelo que consideramos, ao nível de significância
0.05, a significativamente diferente de zero.
(ii) Para construir um intervalo de confiança para o volume médio de investimento em tecnologia
daquele sector no ano 8, E (Y8 ) , consideramos a variável fulcral
Y-8 − E (Y8 )
T =(
)
)
) SQR 1 (x8 −x)2
* 4 6 + n
2
x2i −n(x)
i=1
109
391.16+2595.84
sqR 1 + (x8 −x)2 = 2.14 1 (95−74.2)2
4 6
n 6 + 391.16 = 2.14 2346.96 = 2.14 (1.27) ≃ 2.7.
x2i −n(x)2
i=1
Peso (x) 70 63 72 67 62 70 74 65
.
Altura (y) 155 150 180 145 162 168 178 160
Teste, ao nível de significância 0.05, a existência de uma relação linear entre a variável explicativa
x e a variável aleatória explicada Y , assumindo que as variáveis aleatórias dos erros associados
são normais, centradas e independentes.
110
Módulo 8 - Provas de avaliação com resolução
Prova 1 21
I
No quadro seguinte encontra-se resumida a distribuição dos quilómetros percorridos diariamente por
um determinado taxista durante o mês de Setembro de 2009.
Quilómetros percorridos ]150, 250] ]250, 350] ]350, 450] ]450, 550]
no de dias 9 12 6 3
Determine a média e o desvio padrão dos quilómetros percorridos diariamente pelo referido taxista
durante aquele mês.
II
Foi realizado um inquérito junto dos clientes de um determinado hipermercado com o objectivo de
relacionar a forma de pagamento (cartão de crédito, cartão multibanco, cheque ou dinheiro) utilizada
com o valor das compras efectuadas em cada ida ao hipermercado.
Com base nos resultados desse inquérito concluiu-se que, em cada ida ao hipermercado,
• os clientes utilizam apenas uma das referidas formas de pagamento;
• 11% dos clientes pagam com cartão de crédito, 50% com cartão multibanco e 5% com cheque;
• todos os clientes que pagam com cartão de crédito gastam mais de 50€;
• 30% dos clientes pagam com cartão multibanco e gastam quando muito 50€;
• 80% dos clientes que pagam com cheque gastam mais de 50€;
• 12.5% dos clientes que gastam mais de 50€ pagam em dinheiro.
Selecciona-se aleatoriamente um cliente daquele hipermercado que acabou de pagar as suas compras.
1. Verifique que a probabilidade do cliente ter gasto mais de 50€ é 0.4.
2. Serão os acontecimentos "o cliente paga com cartão multibanco"e "o cliente gasta mais de
50€"independentes?
3. Sabendo que o referido cliente gastou mais de 50€, qual a probabilidade de não ter pago as suas
compras com cheque nem com cartão multibanco?
III
Cada período de estacionamento de uma viatura num determinado parque de estacionamento tem
a duração máxima de 3 horas. Em cada um destes períodos, o tempo de permanência (expresso em
21
Prova incidente sobre a primeira parte do programa da unidade curricular.
111
horas) de uma viatura no referido parque é bem representado por uma variável aleatória real contínua,
X, com função de repartição
0, x<0
x
, 0≤x<1
2
F (x) =
x2 3 1
− + x − , 1≤x<3
8 4 8
1, x ≥ 3.
112
Proposta de resolução da prova 1
Dispomos de uma amostra relativa aos quilómetros percorridos diariamente por um taxista durante
o mês de Setembro de 2009 e pretendemos determinar a média e o desvio padrão da amostra, isto é,
x e sX . Consideremos o quadro seguinte.
′ ′
′ 2
Classes ni xi ni xi ni xi
]150, 250] 9 200 1800 36×104
]250, 350] 12 300 3600 108×104
]350, 450] 6 400 2400 96×104
]450, 550] 3 500 1500 75×104
Total 30 9300 315×104
′
Neste quadro xi denota a marca da classe i, i = 1, 2, 3, 4. Tem-se
4
′1
′ 9300
x=x = ni xi = = 310
30 1=1 30
1
′ 2 ′ 2 315
4
s2X = s2X ′ = ni xi − x = × 104 − (310)2 = 105000 − 96100 = 8900
30 1=1 30
pelo que √
sX = 8900 ≃ 94.
Assim, durante o mês de Setembro, o taxista percorreu por dia, em média, 310 Km. O desvio
padrão da amostra observada é aproximadamente 94 Km.
II
Consideremos os acontecimentos:
113
4
1. Pretendemos mostrar que P (M) = 10 .
Mas, como
3
= P (Mu ∩ M) = P (Mu) − P (Mu ∩ M),
10
obtemos
3 5 2
= − P (Mu ∩ M) ⇔ P (Mu ∩ M) = .
10 10 10
Concluímos que
11 2 5 8 125
P (M) = + + + P (M)
100 10 100 10 1000
125 11 + 20 + 4
⇔ P (M) 1 − =
1000 100
350
⇔ P (M) = = 0.4.
875
2. Os acontecimentos Mu e M são independentes se P (Mu ∩ M) = P (Mu)P (M). Ora
5 4 2
P (Mu)P (M) = =
10 10 10
2
P (Mu ∩ M) =
10
3. Temos
P ( Ch ∩ M)
P (Ch ∩ Mu /M) = 1 − − P (Mu)
P (M)
P (M/Ch)P (Ch)
= 1− − P (M u)
P (M)
4
100 5 2
= 1− 4 − = .
10
10 5
III
1. Como a variável aleatória X é contínua, o primeiro quartil de X é todo o número real x tal que
F (x) = 14 .
114
Por outro lado, da expressão de F vemos que F (0) = 0 e F (1) = 12 .
Então, como F é uma função não decrescente, temos necessariamente 0 < x < 1, pelo que
1 x 1
F (x) = ⇔ = ⇔ x = 0.5 .
4 2 4
Assim, o primeiro quartil de X é 0.5 . Isto significa que em 25% dos casos, o tempo de permanência
de uma viatura é de quando muito meia hora.
′
F (x) , para todo x ∈ R em que F é derivável
2. Sabemos que f (x) =
0, outros casos.
+∞ 1 3
1 1
E (X) = xf(x)dx = x dx + x (−x + 3) dx, pois f(x) = 0, x ∈
/ [0, 3]
2 4
−∞ 0 1
x=1 x=3
1 x2 1 x3 x2
= + − +3
2 2 x=0 4 3 2 x=1
1 1 27 1 3 1 1 10 13
= + −9 + + − = + = ,
4 4 2 3 2 4 4 3 12
ou seja, o tempo médio de permanência de uma viatura no parque é de 1.08 h, isto é, de aproximada-
mente 1 hora e 5 minutos.
Mas F (2) = − 12 + 6
4 − 1
8 = 7
8 e F (2.5) = − 25
32 +
15
8 − 1
8 = 31
32 .
Então
3
32 3
P (X < 2.5/X > 2) = 1 = .
8
4
115
D M U C
Prova 2 22
1. Uma companhia de seguros classifica os seus segurados do ramo automóvel em três categorias:
baixo risco, risco médio e risco elevado. Os registos da companhia permitem concluir que:
2. Seja Y a variável aleatória real discreta que representa o número anual de acidentes de automóvel
participados à companhia por um dos seus segurados. Suponha que a função de probabilidade
de Y é definida por
0.68 , y = 0
α , y ∈ {1, 2}
g(y) = 0.02 , y = 3 ,
0 , y ∈ R\{ 0 , 1 , 2 , 3}
a) Determine o valor de α .
b) Calcule o desvio padrão de Y .
c) Qual a probabilidade de, em determinado ano, o segurado participar à companhia menos
de 2 acidentes?
3. Admita agora que a indemnização (expressa em u.m.) paga pela companhia, por cada acidente de
automóvel participado, é uma variável aleatória real contínua, X, de função densidade definida
por
0 , x<0
x
fX (x) = 8 , 0≤x≤2 , x ∈ IR .
6
x3
, x>2
22
Prova incidente sobre a primeira parte do programa da unidade curricular.
116
a) Construa a função de repartição de X .
b) Determine o 3o quartil de X e interprete o valor obtido.
c) Sabendo que a companhia pagou, por determinado acidente participado, uma indemnização
superior a 1 u.m. , calcule a probabilidade dessa indemnização não ter excedido 3 u.m. .
117
Proposta de resolução da prova 2
1. Consideremos os acontecimentos:
10 1
Sabemos que P (B) = 100 = 10 .
= P (E ∩ A) + P (E ∩ A), pois A ∩ A = ∅
1
= 10 + P (E)P (A/E)
1
= 10 + P (E) 34 .
Concluímos que
1 1 4
P (E) = ⇔ P (E) = .
4 10 10
b) Da definição de probabilidade condicionada,
P (A ∩ M)
P (A/M) = 1 − P (A/M) = 1 − .
P (M)
1 P (A ∩ B) P (A ∩ (M ∪ E)) P (A ∩ M) + P (A ∩ E)
= P (A/B) = = = 9
3 P B 1 − P (B) 10
obtemos
1 9
3 × 10 = P (A ∩ M) + P (A ∩ E)
3 1
⇔ 10 = P (A ∩ M) + 10
⇔ P (A ∩ M) = 15 .
118
Então
1
P (A ∩ M) 5 2 3
P (A/M) = 1 − =1− 1 =1− = .
P (M ) 2
5 5
2. Seja Y a v.a.r. que representa o número anual de acidentes de automóvel participados à com-
panhia por um dos seus segurados.
a) Se
0.68, y =0
α, y ∈ {1, 2}
g (y) =
0.02, y =3
0, y ∈ R\ {0, 1, 2, 3}
b) Tem-se
15 30 6 51
E (Y ) = yP (Y = y) = + + =
100 100 100 100
y∈SY
15 60 18 93
E Y2 = y2 P (Y = y) = + + = .
100 100 100 100
y∈SY
119
c) Temos
P (Y < 2) = P (Y ≤ 1) , porque SY = {0, 1, 2, 3}
= P (Y = 0) + P (Y = 1)
= 0.83.
3. Seja X a v.a.r. que representa a indemnização paga pela companhia por cada acidente de
automóvel participado.
x
a) Para qualquer x ∈ R, FX (x) = fX (t) dt. Então,
−∞
x
• se x ≤ 0, FX (x) = 0dt = 0
−∞
0 x x t x2
• se 0 < x ≤ 2, FX (x) = 0dt + fX (t) dt = 8 dt = 16
−∞ 0 0
0 2 t
x 6 3
• se x > 2, FX (x) = 0dt + 8 dt + t3
dt =1− x2
.
−∞ 0 2
b) Sendo X uma variável aleatória real contínua, o terceiro quartil de X é todo o número
real x que verifique FX (x) = 34 . Por outro lado, como FX (2) = 14 , necessariamente x > 2
porque FX é não decrescente. Assim,
3 3 3
FX (x) = 4 ⇔ 1− x2
= 4
⇔ x2 = 12√
⇔ x = ±2 3.
√ √
Como −2 3 ≯ 2, concluímos que o terceiro quartil de X é 2 3.
Concluímos
√ então que 75% das indemnizações pagas pela companhia têm valor inferior ou
igual
√ a 2 3 u.m.(ou que 25% das indemnizações pagas pela companhia têm valor superior
a 2 3 u.m.).
c) Temos
29
P (X ≤ 3/X > 1) = .
45
120
D M U C
Prova 3 23
I
Um psicólogo realizou um inquérito sobre a qualidade das instalações de uma determinada residên-
cia universitária. Todos os residentes participaram no inquérito e, relativamente ao grau de satisfação
declarado sobre as referidas instalações, foram classificados em três níveis: satisfeito, parcialmente
satisfeito e insatisfeito.
Sabe-se que 40% dos residentes declarou estar satisfeito e que, destes, 25% são caloiros. Constatou-
-se também que 16% dos residentes parcialmente satisfeitos são caloiros e que 60% dos residentes
insatisfeitos não são caloiros. Sabe-se ainda que 22% dos residentes são caloiros.
2. Poderá afirmar que o facto de um residente estar satisfeito com as instalações da residência é
independente de ele ser caloiro?
II
Uma empresa executa projectos de engenharia. Considere a variável aleatória real, X, que re-
presenta a diferença entre o número de dias previsto para a execução de um projecto de determinado
tipo e o número efectivo de dias de execução do projecto. Admita que a função de probabilidade de
X é dada por
0.05, x = −2
0.15, x = −1
0.3, x=0
gX (x) =
0.4, x=1
0.1, x=2
0, x ∈ R\ {−2, −1, 0, 1, 2} .
2. Qual a probabilidade de um projecto daquele tipo ser concluído antes do prazo previsto?
3. A empresa recebe 30 u.m. por cada projecto daquele tipo. Contudo, sempre que o projecto não
é concluído dentro do prazo previsto, a empresa sofre uma penalização de 5 u.m. por cada dia
de atraso. Determine a função de probabilidade da variável aleatória que representa a receita
obtida pela empresa com a execução de um daqueles projectos.
23
Prova incidente sobre a primeira parte do programa da unidade curricular.
121
III
Numa investigação sobre memória e inteligência, ensinam-se ratos a percorrer um labirinto até
chegarem ao fim, onde encontram uma recompensa em comida. O tempo, expresso em centenas de
segundos, que um rato demora a percorrer o labirinto é bem representado pela variável aleatória
contínua, X, com função de repartição dada por
0, x<0
x2 , 0≤x<1
3
F (x) = 2
x 1
− 6 + x − 2, 1 ≤ x < 3
1, x ≥ 3.
122
Proposta de resolução da prova 3
Consideremos os acontecimentos:
Então
123
2. P (S ∩ C) = P (S) P (C/S) = 0.4 × 0.25 = 0.1
P (S) P (C) = 0.4 × 0.22 = 0.088
Como P (S ∩ C) = P (S) P (C), S e C não são independentes.
Assim, não podemos afirmar que o facto de um residente estar satisfeito com as instalações é
independente de ele ser caloiro.
II
Seja X = "diferença entre o número de dias previsto para a execução do projecto e o número
efectivo de dias de execução".
1. Temos
0, x < −2
0.05, −2 ≤ x < −1
0.2, −1 ≤ x < 0
FX (x) = P (X ≤ x) =
0.5, 0≤x<1
0.9, 1≤x<2
1, x ≥ 2.
2. Notemos que o projecto é concluído antes do prazo previsto se o número de dias de execução é
inferior ao número de dias previsto, isto é, se X > 0.
Então P (X > 0) = P (X = 1) + P (X = 2) = 0.5.
3. Seja R = "receita obtida pela empresa com a realização do projecto (em euros)".
Então R é uma variável aleatória discreta de suporte SR = {20, 25, 30} e função de probabilidade
0.05, r = 20
0.15, r = 25
fR (r) = P (R = r) =
0.8, r = 30
0, r∈/ {20, 25, 30} .
III
Seja X ="tempo que um rato demora a efectuar o percurso (em centenas de segundos)".
124
Então
x2 1 1
FX (x) = 0.5 +x− =
⇐⇒ −
6 2 2
⇐⇒ x2 − 6x +√ 6 = 0
6 ± 36 − 24 √
⇐⇒ x = ⇐⇒ x = 3 ± 3.
2
√ √
Como 3 + 3 ∈ / ]1, 3[ , concluímos que a mediana de X é 3 − 3.
√
Em 50% dos percursos efectuados pelo rato, ele demora quando muito 3− 3 centenas de segundos
a percorrer o labirinto.
2. Temos
P ((X > 0.5) ∩ (X < 2)) P (0.5 < X < 2)
P (X > 0.5/X < 2) = =
P (X < 2) P (X < 2)
4 1
FX (2) − FX (0.5) − 6 + 2 − 12 − 12 9
= = 4 1 = .
FX (2) −6 + 2 − 2 10
3. Sabemos que
′
FX (x) , nos pontos x onde esta derivada existe
fX (x) =
0, nos pontos x onde esta derivada não existe.
′ ′
Ora, se x < 0 ou x > 3 tem-se FX (x) = 0. Se 0 < x < 1, tem-se FX (x) = 23 x. Quando 1 < x < 3,
′
vem FX (x) = − x3 + 1.
Falta apenas analisar as derivadas nos pontos 0, 1 e 3. Como
′ ′ ′
FX (0) = 0, FX (1) = 23 , FX (3) = 0
tem-se
0, x ≤ 0 ou x ≥ 3
2
fX (x) = x, 0<x≤1
3x
− 3 + 1, 1 < x < 3.
4. Temos
+∞ 1 3
2 2 x
E (X) = xfX (x) dx = x dx + x − + 1 dx, pois fX (x) = 0, x ∈
/ ]0, 3[
3 3
−∞ 0 1
1
3 3
2 x3 x x2
= + − +
3 3 0 9 2 1
2 9 1 1
= + −3 + − − +
9 2 9 2
2 10 4
= + = .
9 9 3
400
Assim, um rato demora, em média, 3 segundos a percorrer o labirinto.
125
D M U C
Prova 4 24
I
Numa determinada região, o número de filhos dos sexos feminino e masculino, por casal, é bem
representado pelas variáveis aleatórias discretas X e Y , respectivamente. No quadro seguinte encontra-
-se resumida a função de probabilidade do vector (X, Y ).
Y =0 Y =1 Y =2 Y =3
X =0 0.15 0.1 0.05 0.02
X =1 0.1 0.1 0.05 0.1
X =2 0.09 0.08 0.1 0
X =3 0.04 0.02 0 0
3. Qual a probabilidade de um casal com 4 filhos ter no máximo duas crianças do sexo feminino?
4. Sabendo que E(Y ) = 1.06, calcule Cov(X, Y ). O que pode afirmar sobre a independência das
variáveis aleatórias X e Y ?
II
a) Verifique que 0.3% dos electrodomésticos produzidos pelo fabricante duram mais de 8 anos.
b) Em 100 electrodomésticos, extraídos ao acaso da produção do fabricante, qual a probabili-
dade de pelo menos 4 durarem mais de 8 anos?
c) O fabricante compromete-se a substituir todos os electrodomésticos que avariem no período
de garantia. Qual o período de garantia que ele deve atribuir a cada aparelho por forma a
substituir apenas 5% dos electrodomésticos?
III
A intensidade da corrente, expressa em amperes, num circuito eléctrico é normalmente distribuída.
A observação de uma amostra de dimensão 24, seleccionada de modo aleatório, conduziu aos valores
apresentados no quadro seguinte.
24
Prova incidente sobre a parte final do programa da unidade curricular.
126
Intensidade (amperes) ]1, 2] ]2, 3] ]3, 4]
No de observações 8 10 6
127
Proposta de resolução da prova 4
P (X = 0) = P (X = 0, Y = 0) + P (X = 0, Y = 1) + P (X = 0, Y = 2) + P (X = 0, Y = 3)
= 0.15 + 0.1 + 0.05 + 0.02 = 0.32
P (X = 1) = P (X = 1, Y = 0) + P (X = 1, Y = 1) + P (X = 1, Y = 2) + P (X = 1, Y = 3)
= 0.1 + 0.1 + 0.05 + 0.1 = 0.35
e, analogamente,
P (X = 2) = 0.27
P (X = 3) = 0.06.
Então
E(X) = 0 × 0.32 + 1 × 0.35 + 2 × 0.27 + 3 × 0.06 = 1.07.
2. P (X + Y = 4) = P (X = 3, Y = 1) + P (X = 2, Y = 2) + P (X = 1, Y = 3)
= 0.02 + 0.1 + 0.1 = 0.22
3. Temos
P [(X ≤ 2) ∩ (X + Y = 4)]
P (X ≤ 2 / X + Y = 4) =
P (X + Y = 4)
P (X = 1, Y = 3) + P (X = 2, Y = 2) 0.2 1
= = = .
0.22 0.22 11
Então,
128
Como Cov(X, Y ) = 0 então X e Y não são independentes.
II
Pretendemos calcular P (Y ≥ 4) .
129
2. Seja Z = "tempo de vida de um electrodoméstico fabricado por B, em anos".
Sabemos que Z ∼ N (4.4, 1.6).
Queremos calcular P (X > Z) = P (X − Z > 0) .
A lei de X − Z pode ser determinada usando a estabilidade da lei normal, porque X e Z são
gaussianas e independentes. Assim,
X − Z ∼ N (m, σ)
com m = E (X − Z) = E (X) − E (Z) = 4.7 − 4.4 = 0.3
σ2 = V (X − Z) = V (X) + V (Z) = 1.22 + 1.62 = 4 =⇒ σ = 2.
Então
P (X > Z) = P (X − Z > 0)
0 − 0.3 X − Z − 0.3
= P V ≤ , V = ∼ N (0, 1)
2 2
= 1 − FV (−0.15)
= FV (0.15) = 0.5596
III
′
em que xi é a marca da classe i, i = 1, 2, 3.
Tem-se
3
′1
′ 58 29
x=x = ni xi = = ≃ 2.417
24 1=1 24 12
e 2
1
′ 2 ′ 2 154
3
29
s2X = s2X ′ = ni xi − x = − ≃ 6.417 − 5.842 = 0.575
24 1=1 24 12
e, consequentemente,
n 2 24
ŝ2X = sX ≃ 0.575 ≃ 0.6.
n−1 23
Então, uma estimativa cêntrica e consistente para E (X) é 2.417 e uma estimativa cêntrica e
consistente para V (X) é 0.6.
130
Atendendo a que m é desconhecida e X ∼ N(m, σ), podemos considerar como variável fulcral
24
(Xi − X̄)2
Z= ∼ χ2 (23).
1=1
σ2
F (z2 ) − [1 − F (z2 )] = 0.95 F (z2 ) = 0.975 z1 = 11.7
⇐⇒ ⇐⇒ ⇐⇒
− F (z1 ) = 0.025 z2 = 38.1
131
D M U C
Prova 5 25
1. A empresa Cyber fornece acesso à internet através de três centrais, A, B e C. Constata-se que
as centrais B e C fornecem o mesmo número de acessos enquanto que a central A fornece o
dobro dos acessos de qualquer uma das outras. Sabe-se também que:
quantidade de informação (unidades u) ]2, 6] ]6, 10] ]10, 14] ]14, 18]
número de dias 1 12 10 2
25
Prova incidente sobre todo o programa da unidade curricular.
26
Nalguns anos lectivos, o método dos momentos não é leccionado.
132
II
A proporção de pessoas que responde a determinado inquérito realizado por uma empresa é uma
variável aleatória real contínua, X, com função densidade definida por
k − 12 k x − 1 2 , x ∈ [0, 1]
5 2
f (x) = ,
0 , x ∈ IR \ [0, 1]
4. Determine a mediana de X .
5. Para levar a cabo o inquérito, a empresa vai contactar 1000 pessoas. Por outro lado, decidiu
que o funcionário encarregue de efectuar os contactos será remunerado em função do número de
respostas obtidas (isto é, em função de Y = 1000 X ). Concretamente, o funcionário receberá:
133
Proposta de resolução da prova 5
Tem-se
(1) Ω = A ∪ B ∪ C, com A, B e C dois a dois incompatíveis
(2) P (B) = P (C), P (A) = 2P (B)
(3) P (F/A) = 0.05, P (B/F ) = 0.2 e P (F̄ /C) = 0.94.
De (1) e (2) decorre
P (B) = P (C) P (B) = P (C) P (C) = 1/4
P (A) = 2P (B) ⇐⇒ P (A) = 2P (B) ⇐⇒ P (A) = 1/2
P (A ∪ B ∪ C) = 1 P (A) + P (B) + P (C) = 1 P (B) = 1/4.
P (F ) = P (F ∩ (A ∪ B ∪ C))
= P ((F ∩ A) ∪ (F ∩ B) ∪ (F ∩ C))
= P (F ∩ A) + P (F ∩ B) + P (F ∩ C), pois A, B, C são 2 a 2 incompatíveis
= P (A)P (F/A) + P (F )P (B/F ) + P (C)P (F/C)
= 0.5 × 0.05 + P (F ) × 0.2 + 0.25 × (1 − P (F̄ /C)).
Então
0.8P (F ) = 0.025 + 0.015 ⇐⇒ P (F ) = 0.05
e, consequentemente, P (F̄ ) = 1 − 0.05 = 0.95.
(ii) Queremos comparar as probabilidades P (A/F ), P (B/F ) e P (C/F ). Ora,
P (B/F ) = 0.2
P (A ∩ F ) P (A)P (F/A) 0.5 × 0.05
P (A/F ) = = = = 0.5
P (F ) 0.05 0.05
P (C ∩ F ) P (C)P (F/C) 0.25 × 0.06
P (C/F ) = = = = 0.3.
P (F ) 0.05 0.05
Concluímos que, se são registadas falhas no acesso, o mais provável é que ele tenha sido fornecido
pela central A.
b) Pretendemos determinar P (X ≤ 465) com X = "número de acessos, em 500, que não registam
falhas".
Ora, X ∼ B(500, p), em que p = P (F̄ ) = 0.95.
Como p > 0.9, seja Y = n − X = 500 − X. Então Y ∼ B(500, q), em que q = 1 − p = 0.05.
134
Desta forma
P (X ≤ 465) = P (500 − X ≥ 500 − 465) = P (Y ≥ 35).
•
Como q = 0.05 < 0.1, então Y ∼ P(λ), com λ = 500 × 0.05 = 25. Donde
Mas
Z1 −25
P (Z1 ≥ 34.5) = P (U ≥ 9.5
5 ), U= 5 ∼ N(0, 1)
= P (U ≥ 1.9)
= 1 − P (U ≤ 1.9), pois U é contínua
= 1 − 0.9713 = 0.0287.
Então P (X ≤ 465) ≃ 0.0287.
b) Pretendemos encontrar um estimador consistente, pelo método dos momentos, para Q3 . Ora
Q3 é tal que FX (Q3 ) = 34 , com FX a função de repartição de X.
Notemos que Q3 existe e é único, porque FX é estritamente crescente. Tem-se, então,
3
FX (Q3 ) = 4 ⇐⇒ P (X ≤ Q3 ) = 34
⇐⇒ P (U ≤ Q3σ−m ) = 34
⇐⇒ Q3σ−m = 0.675
⇐⇒ Q3 = m + 0.675σ,
135
em que U = X−m
σ ∼ N(0, 1).
Portanto #
Q3 = m1 + 0.675 m2 − (m1 )2 ,
isto é, Q3 = ψ(m1 , m2 ) com
"
ψ(x, y) = x + 0.675 y − x2 , (x, y) ∈ Dψ = {(x, y) ∈ R2 : y ≥ x2 }.
1 k
n
onde Mk = n Xi , k = 1, 2.
i=1
Então, uma vez que M1 = X e Sn2 = M2 − M12 , tem-se
Tn = X + 0.675Sn ,
0.02 = P (Z ∈]z
/ 1 , z2 [) = P (Z ≤ z1 ) + P (Z ≥ z2 ) = 2P (Z ≤ z1 ),
136
d) Pretendemos testar
H0 : m = 11 contra H1 : m < 11,
ao nível de significância α = 0.01. Atendendo a que, sob H0 , σ é desconhecido, a região crítica do teste
é definida por
X−11
Sabemos também que, sob H0 ,
S
∼ T (24), porque X ∼ N(11, σ). Então
5
Desta forma,
P (Z ≤ −c′ ) = 0.99, Z ∼ T (24).
Logo, por consulta da tabela da lei de Student, −c′ = 2.492 e, consequentemente, c′ = −2.492.
Donde, a região crítica é
.
x̄ − 11
RC = (x1 , ..., x25 ) : ŝ
< −2.492 .
√
25
Como −1.6 > −2.492, a amostra observada não pertence à RC pelo que aceitamos H0 , ao nível
0.01.
Poderemos estar a aceitar H0 sendo H0 falsa pelo que poderemos estar a cometer o erro de 2a
espécie.
e) Sabemos que
137
As variáveis X1 , X2 , ..., X16 são independentes e verificam Xi ∼ N(11, 3), i = 1, ..., 16. Assim, pela
estabilidade da lei normal, T ∼ N(mT , σT ), com
16 16
mT = E(T ) = E Xi = E(Xi ) = 16 × 11 = 176
i=1 i=1
16 16
σ 2T = V (T ) = V Xi = V (Xi ) = 16 × 9.
i=1 i=1
Em particular, obtemos √
σT = 16 × 9 = 12.
Então
P (T > 152) = P U > 152−176
12 , U= T −176
12 ∼ N(0, 1)
= P (U > −2)
= P (U < 2), pela simetria da lei N(0, 1)
= 0.9772.
II
Seja X = "proporção de pessoas que responde a determinado inquérito realizado por uma empresa".
Sabemos que X é uma variável aleatória real contínua com função densidade definida por
2
k − 12 k x − 12 , x ∈ [0, 1]
fX (x) = 5
0, x ∈ R\ [0, 1]
138
Verifiquemos que fX (x) ≥ 0, para x ∈ [0, 1].
x
2. Sabemos que FX (x) = −∞ fX (t)dt, x ∈ R. Tem-se, então,
x
•x<0 =⇒ FX (x) = −∞ 0dt = 0.
0 x 5
1 2
•0≤x<1 =⇒ FX (x) = 0dt + − 3 t − dt
−∞ 0 1 43 x 2
5 x (t− )
= 4 t 0 − 3 32
3 0
= 54 x − x − 12 + 18 .
0 2
•x≥1 =⇒ FX (x) = + 01 54 − 3 t − 12
−∞ 0dt dt + 1x 0dt
5
1 3 1 5 2
= 4 × 1 − 2 + 8 = 4 − 8 = 1.
139
4. Pretendemos obter a mediana de X. A partir do gráfico da função densidade de X, constatamos
que tal função é simétrica relativamente à recta x = 12 , isto é, tem-se
1 1
fX + x = fX −x ,
2 2
qualquer que seja x > 0.
1
De facto, se x > 2 a igualdade é trivial; caso contrário,
1 5
fX + x = − 3x2
2 4
e
1 5
fX − x = − 3(−x)2 .
2 4
1
2 +∞
1 1
Então fX (x) dx = fX (x) dx = 2 pelo que 2 é a mediana de X e é única.
−∞ 1
2
Como 0.258 + 0.484 + 0.258 = 1, então Z é discreta de suporte SZ = {250, 1000, 2000}. A função
de probabilidade de Z é
0.258, z = 250
0.484, z = 1000
fZ (z) =
0.258, z = 2000
0, z∈ / {250, 1000, 2000} .
140
D M U C
Prova 6 27
I
Relativamente aos habitantes de determinada zona de Coimbra, sabe-se que:
• dos habitantes que têm formação superior, 80% utiliza a internet e 60% tem acesso à TV por
cabo;
• dos habitantes que têm formação superior e utilizam a internet, 62.5% tem acesso à TV por
cabo;
2. Se esse habitante tem formação superior, qual a probabilidade de ter acesso à TV por cabo ou
utilizar a internet?
II
Uma máquina automática de bebidas está regulada de modo a que a quantidade de bebida (expressa
em ml) servida em cada copo, X, seja normalmente distribuída com média 150. Desconhece-se,
contudo, o valor do desvio padrão de X , denotado por σ, σ ∈ ]0, +∞[.
1. Com o objectivo de estimar este parâmetro, recolheu-se uma amostra de X de dimensão 25 , que
se resumiu no quadro seguinte.
quantidade de bebida (ml) ]123, 135] ]135, 147] ]147, 159] ]159, 171]
número de copos 2 8 11 4
2. Considere agora que σ = 10.2 e que a bebida é servida em copos cuja capacidade é 170 ml.
Suponha ainda que as quantidades de bebida servidas pela máquina nos diferentes copos são
independentes.
27
Prova incidente sobre todo o programa da unidade curricular.
141
III
1. Seja Y uma variável aleatória real contínua de função de repartição dada por
0 se y ≤ 0
√
FY (y) = y se 0 < y ≤ 1 .
1 se y > 1
28
Nalguns anos lectivos, o método dos momentos não é leccionado.
142
Proposta de resolução da prova 6
Consideremos os acontecimentos:
20 80 60 625 7
P (S) = , P (I/S) = , P (T /S) = , P (T /S ∩ I) = , P( S / I ) = 100 .
100 100 100 1000
1. Pretendemos calcular P (I). Ora,
7 P( S ∩ I ) P (S)−P (S∩I) 7 2
= P( S / I ) = P( I )
= P( I )
⇔ P( I ) = 10 − P (S ∩ I)
100 100
7 2
⇔ P ( I ) = 10 − P (S)P (I/S)
100
2
2 8 100 4
⇔ P ( I ) = 10 − 10 10 7 = 7.
4 3
Consequentemente P (I) = 1 − = .
7 7
2. Pretendemos calcular P (T ∪ I / S). Ora,
P (T ∪ I / S) = P (T /S) + P (I/S) − P (T ∩ I / S)
6 8 P (T ∩ I ∩ S)
= + −
10 10 P (S)
14 P (S)P (I/S)P (T / I ∩ S)
= −
10 P (S)
14 8 625 9
= − = .
10 10 1000 10
II
143
ni x′i ni x′i ni (x′i )2
]123, 135] 2 129 258 33282
]135, 147] 8 141 1128 159048
]147, 159] 11 153 1683 257499
]159, 171] 4 165 660 108900
25 3729 558729
A média da amostra é
4
1
3729
x = x′ = ni x′i = = 149.16.
25 25
i=1
A variância da amostra é
4
1
s2X = s2X ′ = ni (x′i )2 − (x′ )2
25 i=1
558729
= − (149.16)2 ≃ 100.455.
25
Assim, o desvio padrão da amostra é
# √
sX = s2X ≃ 100.455 ≃ 10.02.
vem
Temos, então,
P (Z ≤ z1 ) = 0.025 z1 = 13.1
⇒
P (Z ≤ z2 ) = 0.975 z2 = 40.6
pela tabela da lei do χ2 .
Mas
25
25
25
(Xi − 150)2 (Xi − 150)2
(Xi − 150)2 i=1 i=1
z1 < Z < z2 ⇔ 13.1 < < 40.6 ⇔ < σ2 < .
σ2 40.6 13.1
i=1
144
um intervalo de confiança para σ 2 , ao grau de confiança 0.95, é
2529 2529
, = ]62.3, 193.1[ .
40.6 13.1
X − 150
com U = ∼ N (0, 1). Finalmente, usando a tabela da lei N (0, 1), vem
10.2
P (X > 170) = P (U > 1.9607) ≈ 1 − P (U ≤ 1.96) = 1 − 0.975 = 0.025.
b) Seja Y a v.a.r. que representa o número de copos de 170 ml, em 100 servidos, em que a bebida
não transborda e determinemos P (Y > 92).
Sabemos que Y ∼ B(100, p), onde p = P (B) = 0.975. Como p = 0.975 > 0.9, introduzimos a v.a.r.
Z = 100 − Y , tendo-se assim Z ∼ B(100, q), com q = 1 − p = 0.025. Então,
com Z ′ ∼ P(2.5). Como a lei de Poisson é discreta de suporte N0 , de acordo com as tabelas desta lei
vem
P (Z ′ < 8) = P (Z ′ ≤ 7) = 0.9958.
Então P (Y > 92) ≃ 0.9958.
49
c) Pretendemos calcular P Xi ≤ 7300 .
i=1
49
Consideremos a v.a.r. S = Xi .
i=1
Ora X1 , . . . , X49 são v.a.r. independentes e ∀i, Xi ∼ N (150, 10.2). Logo, pela estabilidade da lei
normal, sabemos que S ∼ N (mS , σS ), onde
mS = E(S) = 49E(X) = 49 × 150 = 7350, "
σ2S = V (S) = 49V (X) = 49 × (10.2)2 ⇒ σS = 49 × (10.2)2 = 7 × 10.2 = 71.4.
Então,
145
7300−7350
S − 7350
P (S ≤ 7300) =P U ≤ 71.4 , onde U = ∼ N (0, 1)
71.4
= P (U ≤ −0.7)
= P (U ≥ 0.7), pela simetria da lei normal
= 1 − P (U ≤ 0.7)
= 1 − 0.7580 = 0.2420.
III
dFY
1. a) A função densidade de Y é dada por fY (y) = (y) nos pontos onde FY é derivável.
dy
Se y < 0 ou y > 1, então fY (y) = 0.
dFY √ 1
Se 0 < y < 1, então fY (y) = (y) = ( y)′ = √ .
dy 2 y
Em y = 0 e y = 1 FY não é derivável e, consequentemente, por convenção, fY (y) = 0. Então,
0, y ∈ IR\]0, 1[
fY (y) = 1 .
√ , 0<y<1
2 y
b) Dado k ∈ N,
+∞
E(Y k ) = y k fY (y) dy
−∞
0 1 +∞ 1
k 1 yk−1/2
= 0 dy + y √ dy + 0 dy = dy
−∞ 0 2 y 1 0 2
$ %1
1 y k+1/2 1 1 1
= = −0 = .
2 k + 1/2 2 k + 1/2 2k + 1
0
2. Seja X a v.a.r. que representa o tempo que o processador leva a executar o programa. Sabemos
que X = 24Y + θ, com θ um parâmetro real positivo desconhecido.
a) (i) Como X é uma v.a.r. contínua, Q1 é todo o número real tal que FX (Q1 ) = 14 . Então
1 1
FX (Q1 ) = 4 ⇔ P (X ≤ Q1 ) =
4
1
⇔ P (24Y + θ ≤ Q1 ) =
4
Q1 − θ 1
⇔ P Y ≤ =
24 4
Q1 − θ 1
⇔ FY =
24 4
!
Q1 − θ 1
⇔ = ,
24 4
1 Q1 −θ
pois como FY (0) = 0 < 4 < FY (1) = 1 e FY é não decrescente então 24 ∈ ]0, 1[ .
Finalmente
146
#
Q1 −θ 1 Q1 − θ 1
24 = 4 ⇒ =
24 16
3
⇔ Q1 = + θ.
2
Em 25% das execuções do programa, o processador demora quando muito (3/2 + θ) u (ou, de
modo equivalente, em 75% das execuções do programa, o processador demora mais de (3/2 + θ) u).
(ii) Temos
24
E(X) = E(24Y + θ) = 24E(Y ) + θ = + θ = 8 + θ,
3
pela linearidade da esperança matemática, e
E(X) = θ + 8,
Tn = ψ(M1 )
n
1
com M1 = E(Xi ) = X. Logo
n
i=1
Tn = X − 8.
= θ+8−8 = θ
pelo que Tn é um estimador cêntrico de θ. Por outro lado,
n n
1
1
V (Tn ) = V Xi − 8 = V Xi ,
n i=1 n i=1
n
1
= n2 V (Xi ), pois X1 , . . . , Xn são independentes
i=1
1 162
= n2
nV (X) = 5n , porque X1 , . . . , Xn têm a lei de X.
147
Assim, como Tn é cêntrico e
162
lim V (Tn ) = lim = 0,
n→+∞ n→+∞ 5n
d) (i) Vamos testar H0 : E(X) = 67 contra H1 : E(X) > 67 ao nível α = 0.05. A região crítica é
.
x − 67 ′
RC = {(x1 , . . . , x50 ) : x > 67 + c} = (x1 , . . . , x50 ) : σ >c
√
50
.
√ x − 67
= (x1 , . . . , x50 ) : 50 16 > c′ , c′ > 0,
√
5
" 16
uma vez que, sob H0 , σ = V (X) = √ é conhecido. Determinemos c′ .
5
X − 67 ′
0.05 = P (rejeitar H0 / H0 é verdadeira) = P 16 > c / m = 67 .
√
250
Sob H0 , uma vez que n = 50 > 30 e X não segue uma lei gaussiana, temos, pelo teorema do limite
central,
X − 67 •
16 ∼ N (0, 1).
√
250
Desta forma,
X − 67
P > c′ / m = 67 ≃ P U > c′ , com U ∼ N (0, 1).
√16
250
Como 1.739 > 1.645, concluímos que a amostra pertence à região crítica. Somos conduzidos, ao
nível de significância 0.05, a rejeitar H0 , isto é, aceitamos a este nível que E(X) > 67.
148
Podemos estar a rejeitar H0 sendo H0 verdadeira, ou seja, podemos estar a cometer um erro de 1a
espécie, com probabilidade
(ii) Em d)(i) concluímos, ao nível de significância 0.05, que E(X) > 67. Mas
Mas
65 − θ 65 − 59 65 − θ 1
θ > 59 ⇔ −θ < −59 ⇔ < ⇔ <
24 24 24 4
e como FY é uma função crescente
65 − θ 1 65 − θ 1 1 1
FY ≤ FY ⇒ 1 − FY ≥ 1 − FY =1− = .
24 4 24 4 2 2
1
Assim, P (X > 65) ≥ .
2
149
D M U C
Prova 7 29
Após observação prolongada do conteúdo das mensagens que recebe no seu correio electrónico, deter-
minado utilizador decidiu classificar tais mensagens em três categorias:
M1 = "mensagem publicitária de conteúdo duvidoso",
M2 = "mensagem publicitária de conteúdo não duvidoso",
M3 = "mensagem não publicitária".
Constatou que 60% das mensagens eram do tipo M1 , 30% do tipo M2 e as restantes do tipo M3 e
concluiu, ainda, que o caracter ”$” aparece em 80% das mensagens do tipo M1 , em 20% das do tipo
M2 e em 10% das do tipo M3 .
Numa manhã, abriu o correio electrónico e escolheu aleatoriamente uma mensagem.
1. Qual a probabilidade da mensagem conter o caracter ”$”?
2. Se a mensagem não contém o caracter ”$”, qual a categoria a que mais provavelmente per-
tencerá?
II
O tempo de execução de um trabalho de determinado tipo, expresso em horas, é descrito por uma
variável aleatória real, X, de função densidade dada por
x, 0<x≤1
fX (x) = −x + 2, 1 < x ≤ 2
0, caso contrário.
29
Prova incidente sobre todo o programa da unidade curricular.
150
III
151
Proposta de resolução da prova 7
Consideremos os acontecimentos:
M1 = "a mensagem publicitária é de conteúdo duvidoso",
M2 = "a mensagem publicitária é de conteúdo não duvidoso",
M3 = "a mensagem é não publicitária"
C = "o caracter $ aparece na mensagem".
Tem-se, do enunciado, que
Ω = {mensagens} = M1 ∪ M2 ∪ M3
P (C) = P (C ∩ Ω) = P (C ∩ (M1 ∪ M2 ∪ M3 ))
= P ((C ∩ M1 ) ∪ (C ∩ M2 ) ∪ (C ∩ M3 ))
= P (C ∩ M1 ) + P (C ∩ M2 ) + P (C ∩ M3 ) (acontecimentos 2 a 2 incompatíveis)
= P (M1 ) P (C/M1 ) + P (M2 ) P (C/M2 ) + P (M3 ) P (C/M3 )
= 0.6 × 0.8 + 0.3 × 0.2 + 0.1 × 0.1 = 0.55.
2. Para i = 1, 2, 3,
P Mi ∩ C P (Mi ) − P (Mi ∩ C)
P Mi /C = =
P C 1 − P (C)
pelo que
0.6 − 0.48 0.12
P M1 /C = = ≃ 0.27
1 − 0.55 0.45
0.3 − 0.06
P M2 /C = ≃ 0.53
0.45
0.1 − 0.01
P M3 /C = = 0.2.
0.45
Como P M2 /C > P Mi /C , i = 1, 3, concluímos que, se a mensagem não contiver o caracter
$, o mais provável é que pertença à categoria M2 .
II
x
1. Sabemos que ∀x ∈ R, FX (x) = fX (t) dt.
−∞
Então,
152
x
•x≤0: FX (x) = 0dt = 0
−∞
0 x x
t2 x2
•0<x≤1: FX (x) = 0dt + tdt = 2 0 = 2
−∞ 0
0 x 1
•1<x≤2: FX (x) = 0dt + tdt + (2 − t) dt
−∞ 0 1
x
t2 2
= 2 + 2t − 2 = − x2 + 2x − 1
1
1
0 1 2 x
•x>2: FX (x) = 0dt + tdt + (2 − t) dt + 0dt = 1.
−∞ 0 1 2
Poderemos então afirmar que em 25% dos trabalhos daquele tipo, o tempo de execução é quando
muito 0.71 horas, isto é, 42m 36s.
3.
1 P (X > 1.5) ∩ X > 14
P X > 1.5/X > =
4 P X > 14
P (X > 1.5) 1 − FX (1.5)
= 1
=
P X>4 1 − FX 14
2
1 − − 1.52 + 2 × 1.5 − 1 4
= 1 2
= .
( ) 31
1 − 42
153
Mas Z ∼ B (96, p) com p = P X < 14 = FX 14 = 32 1
.
• 1
Como p < 0.1, então Z ∼ P 96 × 32 = P (3) , pelo que
P (Z ≥ 6) ≃ P Z ′ ≥ 6 , Z ′ ∼ P (3)
= 1 − P Z′ < 6
= 1 − FZ ′ (5) , Z ′ discreta de suporte N0
= 1 − 0.9161.
b) Temos P ((X > 1.5) ∩ (Y > 1.5)) = P (X > 1.5) P (Y > 1.5), pois X e Y são independentes.
Como
P (X > 1.5) = 18 , por 3., e
+∞
2 1
P (Y > 1.5) = fY (y) dy = 2 dy, pois fY (y) = 0, y ∈ ]2, +∞[
1.5 1.5
2
= y2 1.5 = 14 ,
vem
1 1 1
P ((X > 1.5) ∩ (Y > 1.5)) = × = .
8 4 32
c) Tem-se
9 1 11
V (3X − Y ) = 9V (X) + V (Y ) = 6 + 3 = 6 .
III
1. Uma estimativa cêntrica da média do consumo mensal de energia eléctrica é x e uma estimativa
cêntrica da variância de tal consumo é s-2X .
A construção do quadro estatístico permite organizar os cálculos e introduzir a marca da classe i,
′
xi , i = 1, 2, 3.
classes ni x′i ni x′i ni (x′i )2
]2.8, 3.6] 4 3.2 12.8 40.96
]3.6, 4.4] 13 4.0 52 208
]4.4, 5.2] 7 4.8 33.6 161.28
totais 24 98.4 410.24
154
Obtemos
3
1
98.4
x = x′ = ni x′i = = 4.1
24 i=1 24
3
1
410.24
s2X = s2X ′ = ni (x′i )2 − (x′ )2 = − (4.1)2 ≃ 0.283
24 24
i=1
24 2
s-2X
= s ≃ 0.296 .
23 X
Assim, uma estimativa cêntrica da média do consumo mensal de energia eléctrica é 4.1 kW h e
uma estimativa cêntrica da variância de tal consumo é 0.296 kW h2 .
vem
Temos, então,
P (Z ≤ z1 ) = 0.025 z1 = 11.7
⇒
P (Z ≤ z2 ) = 0.975 z2 = 38.1
por consulta da tabela do χ2 .
Mas
24
(Xi − X)2
z1 < Z < z2 ⇔ 11.7 < < 38.1
σ2
i=1
24
24
(Xi − X)2 (Xi − X)2
i=1 i=1
⇔ < σ2 < .
38.1 11.7
Para a amostra observada, obteve-se
24
(xi − x)2 = 24s2X ≃ 6.792
i=1
155
uma vez que, sob H0 , σ é desconhecido. Determinemos c′ .
X −4
0.05 = P (rejeitar H0 / H0 é verdadeira) = P > c ′ / m = 4 .
SX
√
24
Como 0.9 ≯ 1.714, concluímos que a amostra não pertence à região crítica. Somos conduzidos, ao
nível de significância 0.05, a aceitar H0 , isto é, aceitamos a este nível que m = 4.
Associado a esta decisão poderá estar um erro de 2a espécie se, na verdade, H0 for falsa.
Tem-se
9
T = Xi
i=1
com Xi = "consumo do cliente durante o i-ésimo mês", i = 1, ..., 9.
156
Pretendemos calcular P (T > 9 × 4.02) .
Como X1 , ..., X9 são independentes e Xi ∼ N (4, 0.04) , i = 1, ..., 9, então, pela estabilidade da lei
normal,
T ∼ N (mT , σT )
com
9
9
mT = E Xi = E (Xi ) = 9 × 4 = 36
i=1 i=1
9 9
σ 2T = V Xi = V (Xi ) = 9 × 0.042 ⇒ σT = 3 × 0.04 = 0.12.
i=1 i=1
Então,
T − 36 36.18 − 36
P (T > 9 × 4.02) = P >
0.12 0.12
= P (U > 1.5) , U ∼ N (0, 1)
= 1 − P (U ≤ 1.5)
= 1 − 0.9332
= 0.0668.
157
D M U C
Prova 8 30
I
Um computador sofreu uma falha no seu funcionamento. Sabe-se que a falha apenas pode ser
provocada por uma, e só uma, das seguintes anomalias: erro de leitura do disco, dano na memória
central ou sobreaquecimento do processador. Informações técnicas sobre este tipo de computador
permitem afirmar que a falha é provocada por erro de leitura do disco, dano na memória central ou
sobreaquecimento do processador com probabilidades 0.2, 0.3 e 0.5, respectivamente. Por outro lado,
sabe-se que quando a falha é provocada por erro de leitura do disco, a probabilidade de ser reparada
é 0.6; no caso de ser provocada por dano na memória central, a probabilidade de ser reparada é 0.4;
e quando é devida a sobreaquecimento do processador, a probabilidade de ser reparada é 0.7.
2. Sabendo que a falha não foi reparada, qual a anomalia que mais provavelmente a provocou?
II
O tempo de espera para aceder a uma máquina Multibanco e o tempo de utilização da máquina para
efectuar uma operação de levantamento, expressos em minutos, são descritos por variáveis aleatórias
reais contínuas, X e Y, respectivamente, independentes e com funções densidade dadas por
1
3x2 , 0 < x < 1 2, 0 < y < 2 ,
fX (x) = e fY (y) =
0, x∈/ ]0, 1[ 0, y ∈/ ]0, 2[
3
respectivamente. Nestas condições, tem-se V (X) = 80 .
3. Sabendo que o tempo de espera para aceder à máquina é superior a 20 segundos, qual a proba-
bilidade de não exceder 40 segundos?
7. Suponha que os tempos de espera para aceder à máquina são independentes. Qual a probabili-
dade de ocorrerem mais de 75 tempos de espera superiores a 20 segundos, em 81 observados?
30
Prova incidente sobre todo o programa da unidade curricular.
158
III
1. Qual a probabilidade de, num dia, o consumo de energia eléctrica estar compreendido entre 18
e 23 centenas de kW h?
2. Supondo que os consumos de energia eléctrica em dias distintos são independentes, qual a pro-
babilidade de, numa semana (7 dias), serem consumidos mais de 130 centenas de kW h?
3. Uma parte da energia eléctrica é gasta em iluminação pública. Admite-se que a energia eléctrica
utilizada diariamente em iluminação pública naquela localidade é descrita pela variável aleatória
real X = θC, onde θ é um parâmetro real desconhecido, 0 < θ < 1.
a) Identifique a lei de X.
b) O registo da quantidade de energia eléctrica utilizada em iluminação pública na referida lo-
calidade em 30 dias, escolhidos ao acaso, conduziu aos valores presentes no quadro seguinte.
159
Proposta de resolução da prova 8
Consideremos os acontecimentos:
E = "a falha é provocada por erro de leitura do disco",
D = "a falha é provocada por dano na memória central",
S = "a falha é provocada por sobreaquecimento do processador"
R = "a falha é reparada".
Tem-se, do enunciado, que
Ω = {ocorreu falha} = E ∪ D ∪ S
P (R) = P (R ∩ Ω) = P (R ∩ (E ∪ D ∪ S))
= P ((R ∩ E) ∪ (R ∩ D) ∪ (R ∩ S))
= P (R ∩ E) + P (R ∩ D) + P (R ∩ S) (acontecimentos 2 a 2 incompatíveis)
= P (E) P (R/E) + P (D) P (R/D) + P (S) P (R/S)
= 0.2 × 0.6 + 0.3 × 0.4 + 0.5 × 0.7 = 0.59.
2. Devemos comparar P E/R , P D/R e P S/R . Ora
P E∩R P (E) − P (E ∩ R) 0.2 − 0.12 0.08
P E/R = = = =
P R 1 − P (R) 0.41 0.41
P D∩R P (D) − P (D ∩ R) 0.3 − 0.12 0.18
P D/R = = = =
P R 1 − P (R) 0.41 0.41
P S∩R P (S) − P (S ∩ R) 0.5 − 0.35 0.15
P S/R = = = = .
P R 1 − P (R) 0.41 0.41
Como P D/R > P S/R > P E/R concluímos que, se a falha não foi reparada, a anomalia
que mais provavelmente a provocou foi dano na memória central.
II
x
• x ≤ 0, FX (x) = 0dt = 0
−∞
0 x x
• 0 < x ≤ 1, FX (x) = 0dt + 3t2 dt = t3 0 = x3
−∞ 0
160
0 1 x
• x > 1, FX (x) = 0dt + 3t2 dt + 0dt = 1.
−∞ 0 1
3. Temos
2 1 P X ≤ 23 ∩ X > 13
P X≤ /X> =
3 3 P X > 13
P 13 < X ≤ 23
=
1 − P X ≤ 13
2 3 1 3
FX 23 − FX 13 −
= 1 = 3 33 .
1 − FX 3 1− 1 3
x
1 x 3 3
1 3
1 3 x4
1
5. P (X > Y ) = 2 x2 dy dx =
2 x2 dy dx = 2 x3 dx = 2 4 0 = 38 .
0 0 0 0 0
+∞ 2 y
E (Y ) = yfY (y) dy = 2 dy =1
−∞ 0
+∞ 2 2 2
y2 1 y3
E Y2 = y fY (y) dy = 2 dy = 2 3 0 = 43 ,
−∞ 0
161
1
Como p > 0.9, consideremos W = 81 − Z ∼ B(81, 27 ).
Então
P (Z > 75) = P (81 − W > 75) = P (W < 6) .
1 •
Como 27 < 0.1, vem W ∼ P (3) pelo que
Então
P (Z > 75) ≃ P (W1 < 6) = P (W1 ≤ 5) = 0.9161.
III
1. Tem-se
18 − 20 C − 20 23 − 20
P (18 ≤ C ≤ 23) = P ≤ ≤
2 2 2
C − 20
= P (−1 ≤ U ≤ 1.5) , onde U = ∼ N (0, 1)
2
= FU (1.5) − FU (−1)
= FU (1.5) − [1 − FU (1)]
= 0.9332 − (1 − 0.8413) = 0.7745.
2. Seja T = “consumo total de energia eléctrica da localidade em 7 dias (em centenas de kW h)”.
É claro que
7
T = Ci
i=1
com Ci = “consumo de energia eléctrica no i-ésimo dia”, i = 1, ..., 7.
Como Ci ∼ N (20, 2) , i = 1, ..., 7, e C1 , ..., C7 são independentes, pela estabilidade da lei normal
vem
T ∼ N (mT , σ T )
√
com mT = E(T ) = 7 × 20 = 140 e σ2T = V (T ) = 7 × 4 pelo que σT = 2 7.
Então
T − 140 130 − 140
P (T > 130) = P √ > √
2 7 2 7
5 T − 140
= P U > −√ , com U = √ ∼ N (0, 1)
7 2 7
5
= P U<√ , pela simetria em relação à origem
7
≃ P (U < 1.89) = 0.9706.
162
a) Uma vez que C ∼ N (20, 2) e da definição de X, X = θC, vem X ∼ N (20θ, 2θ) .
b) (i) Uma estimativa cêntrica e consistente de E(X) é x e uma estimativa cêntrica e consistente
de V (X) é s-2X .
A construção do quadro estatístico permite organizar os cálculos e introduzir a marca da classe i,
′
xi , i = 1, 2, 3.
classes ni x′i ni x′i ni (x′i )2
]9, 11] 5 10 50 500
]11, 13] 20 12 240 2880
]13, 15] 5 14 70 980
totais 30 360 4360
Obtemos
3
1
360
x = x′ = ni x′i = = 12
30 30
i=1
3
1 4360 40 4
s2X = s2X ′ = ni (x′i )2 − (x′ )2 = − 122 = =
30 30 30 3
i=1
30 2 30 4
s-2X = sX = ≃ 1.38.
29 29 3
Assim, uma estimativa cêntrica e consistente de E(X) é 12 centenas de kW h e uma estimativa
cêntrica e consistente de V (X) é 1.38 × 104 kW h.
(ii) Determinemos um intervalo de confiança para V (X), com grau de confiança β = 0.99.
30 2
Xi − X
Consideremos a variável fulcral Z = ∼ χ2 (29), uma vez que m é desconhecida e
σ
i=1
X ∼ N (m, σ).
Determinemos os reais z1 , z2 tais que
P (z1 < Z < z2 ) = 0.99
P (Z ≤ z1 ) = P (Z ≥ z2 )
FZ (z2 ) − FZ (z1 ) = 0.99 FZ (z2 ) − (1 − FZ (z2 )) = 0.99
⇐⇒ ⇐⇒
FZ (z1 ) = 1 − FZ (z2 ) _
2FZ (z2 ) = 1.99 FZ (z2 ) = 0.995 z2 = 52.3
⇐⇒ ⇐⇒ =⇒
_ FZ (z1 ) = 0.005 z1 = 13.1
163
pelo que um intervalo de confiança para V (X), ao grau de confiança 0.99, é
40 40
, = ]0.765, 3.05[ .
52.3 13.1
(iii) Vamos testar H0 : E(X) = 12.4 contra H1 : E(X) = 12.4, ao nível α = 0.05. A região
crítica do teste é da forma
Determinemos c. Temos
X − 12.4 c
0.05 = P (rejeitar H0 / H0 é verdadeira) = P 1.24 > 1.24 / E(X) = 12.4 .
√ √
30 30
X − 12.4
U= 1.24 ∼ N (0, 1) .
√
30
√
30
Pretendemos c tal que 0.05 = P |U | > 1.24 c .
√
30
Seja c′ = 1.24 c e determinemosc′ tal que 0.05 = P (|U | > c′ ) . Mas, pela simetria da lei de U ,
Portanto
FU (c′ ) = 0.975
Assim,
RC = {(x1 , . . . , x30 ) : |x − 12.4| > 0.44}.
A amostra observada é tal que
Como 0.40 ≯ 0.44, concluímos que a amostra não pertence à região crítica. Somos conduzidos, ao
nível de significância 0.05, a aceitar H0 , isto é, aceitamos a este nível que E(X) = 12.4.
Como E(X) = 20θ, vem 20θ = 12.4 ⇐⇒ θ = 0.62. Assim, ao nível de significância 0.05, concluímos
que, naquela localidade, a percentagem de energia eléctrica gasta em iluminação pública é 62%.
164
Anexo A - Resumo de Estatística Descritiva
1. Preliminares
Designamos por população um conjunto de indivíduos para os quais se pretende estudar alguma
característica (ou atributo) em comum.
A Estatística estuda características da população que não se podem prever de modo determinista.
Às diferentes formas que um atributo pode tomar chamamos modalidades.
Um atributo pode ser mensurável ou não. Se é mensurável diz-se que o atributo é quantitativo;
caso contrário diz-se qualitativo.
Por exemplo, o estado civil, a profissão e o sexo de um indivíduo são atributos qualitativos enquanto
que a idade, a altura e o número de irmãos de um indivíduo são atributos quantitativos.
Um atributo quantitativo diz-se discreto (resp. contínuo) se as modalidades são em número finito
ou infinito numerável (resp. não numerável).
As populações podem ser finitas ou infinitas consoante seja finito ou infinito o número de elementos
que as compõem.
O conhecimento do atributo em estudo para todos os elementos da população não é, em geral,
viável por razões variadas (temporais, económicas, . . .). Opta-se por observar o valor de tal atributo
sobre um subconjunto finito e representativo da população, que designamos por amostra.
2. Estatística Descritiva
165
Usualmente, também se designa por amostra o conjunto {x1 , x2 , ..., xn } .
2. A. Caso discreto
2. A.1. Apresentação da amostra
• ni = frequência absoluta de xi , i = 1, . . . , k.
k
Note-se que ni = n.
i=1
{(xi , ni ) : i = 1, . . . , k} : distribuição de frequências absolutas;
ni
• fi = = frequência relativa de xi , i = 1, . . . , k.
n
k
Tem-se fi = 1.
i=1
{(xi , fi ) : i = 1, . . . , k} : distribuição de frequências relativas.
onde
Fi = f1 + f2 + ... + fi , i = 1, ..., k − 1
é a frequência relativa acumulada de xi .
k k
1
x= ni xi = fi xi .
n i=1
i=1
k k k
1
F ó rm u la d e K o en ig 1
2
s2X = ni (xi − x)2 = fi (xi − x)2 = ni xi − x2 .
n n
i=1 i=1 i=1
166
#
Desvio padrão da amostra: sX = + s2X .
O desvio padrão da amostra é uma medida de dispersão.
c) Quartis da amostra
Qi = i-ésimo quartil se
i
F Q−i ≤
4 , i = 1, 2, 3.
F Q+ ≥ i
i
4
• Q2 (2o quartil) designa-se por Mediana (Medida de tendência central)
• Amplitude interquartil = Q3 − Q1 (Medida de dispersão).
2. B. Caso contínuo
2. B.1. Apresentação da amostra
• Classes Ii =]ai−1 , ai ], i = 1, . . . , k.
• ni = frequência absoluta da classe Ii =]ai−1 , ai ], i = 1, . . . , k.
k
Note-se que ni = n.
i=1
{(Ii , ni ) : i = 1 . . . , k} : distribuição de frequências absolutas;
ni
• fi = = frequência relativa da classe Ii =]ai−1 , ai ], i = 1, . . . , k.
n
k
Tem-se fi = 1.
i=1
{(Ii , fi ) : i = 1, . . . , k} : distribuição de frequências relativas.
onde
ai−1 + ai
x′i =
2
é a marca da i-ésima classe, i = 1, . . . , k.
167
Representando por X ′ a variável cujos valores são as marcas das classes, sabemos calcular a média
das marcas das classes, x′ , e a variância das marcas, s2X ′ . A média e a variância da amostra obtêm-se
a partir destes valores. Concretamente,
c) Quartis da amostra
Qi = i-ésimo quartil se
i
F (Qi ) = , i = 1, 2, 3.
4
3. Exercícios de aplicação
1. O registo dos tempos de execução (em segundos) de um programa informático conduziu aos
seguintes valores:
20.4 20.2 20.0 19.6 20.6 20.0 20.2 19.8
20.0 20.2 20.0 19.8 20.2 20.0 20.0 19.8
2. O quadro seguinte apresenta a duração (em minutos) de 100 chamadas efectuadas por um cliente
de uma empresa de telecomunicações.
duração (minutos) ]1.2, 1.3] ]1.3, 1.4] ]1.4, 1.5] ]1.5, 1.6] ]1.6, 1.7]
no de chamadas 10 20 38 25 7
168
D M U C
B •
2. Se X ∼ H(n, M, B) e n ≤ 0.1M então X ∼ B(n, M ).
•
3. Se X ∼ B(n, p) e p ≤ 0.1 então X ∼ P (np).
• "
4. Se X ∼ B(n, p), n > 10 e 0.1 < p < 0.9 então X ∼ N(np, np(1 − p))
com correcção de continuidade.
• √
5. Se X ∼ P (λ) e λ > 18 então X ∼ N(λ, λ) com correcção de continuidade.
•
6. Se X ∼ T (k) e k > 30 então X ∼ N(0, 1).
√ √ •
7. Se X ∼ χ2 (k) e k > 30 então 2X − 2k − 1 ∼ N(0, 1).
8. Seja (X1 , X2 , ..., Xn ) uma amostra aleatória de uma variável aleatória real X de média m
n 2
1
n
e desvio padrão σ, σ > 0. Sejam Xn = n1 Xi e S-n2 = n−1 Xi − Xn .
i=1 i=1
8.1. Se n > 30
Xn − m • Xn − m •
a) ∼ N(0, 1) b) ∼ N(0, 1).
√σ Sn
√
n n
8.2. Se X ∼ N(m, σ)
Xn − m Xn − m
a) ∼ N(0, 1) b) ∼ T (n − 1)
√σ n
S
√
n n
n n 2
Xi − m 2
Xi − Xn
c) ∼ χ2 (n) d) ∼ χ2 (n − 1).
σ σ
i=1 i=1
169
170
Anexo C - TABELAS
Lei de Poisson
171
x \ λ 10 10.5 11 11.5 12 12.5 13 13.5 14
0
1 0.0005 0.0003 0.0002 0.0001 0.0001
2 0.0028 0.0018 0.0012 0.0008 0.0005 0.0003 0.0002 0.0001 0.0001
3 0.0104 0.0071 0.0049 0.0034 0.0023 0.0015 0.0010 0.0007 0.0005
4 0.0293 0.0210 0.0151 0.0108 0.0076 0.0053 0.0037 0.0026 0.0018
5 0.0671 0.0503 0.0375 0.0278 0.0203 0.0148 0.0107 0.0077 0.0055
6 0.1302 0.1016 0.0786 0.0603 0.0458 0.0345 0.0259 0.0192 0.0142
7 0.2203 0.1785 0.1432 0.1138 0.0895 0.0698 0.0540 0.0414 0.0316
8 0.3329 0.2794 0.2320 0.1907 0.1550 0.1249 0.0997 0.0789 0.0620
9 0.4580 0.3971 0.3405 0.2889 0.2424 0.2014 0.1658 0.1352 0.1093
10 0.5831 0.5207 0.4599 0.4018 0.3472 0.2970 0.2517 0.2112 0.1756
11 0.6968 0.6387 0.5793 0.5199 0.4616 0.4057 0.3532 0.3044 0.2600
12 0.7916 0.7419 0.6887 0.6330 0.5760 0.5189 0.4631 0.4093 0.3584
13 0.8645 0.8253 0.7813 0.7331 0.6816 0.6278 0.5730 0.5182 0.4644
14 0.9166 0.8878 0.8541 0.8153 0.7721 0.7250 0.6751 0.6232 0.5704
15 0.9513 0.9316 0.9075 0.8783 0.8445 0.8060 0.7636 0.7177 0.6393
16 0.9730 0.9603 0.9442 0.9236 0.8988 0.8693 0.8355 0.7975 0.7559
17 0.9857 0.9780 0.9679 0.9542 0.9371 0.9158 0.8905 0.8608 0.8272
18 0.9928 0.9884 0.9824 0.9738 0.9626 0.9481 0.9302 0.9083 0.8826
19 0.9965 0.9941 0.9908 0.9857 0.9787 0.9694 0.9574 0.9420 0.9235
20 0.9984 0.9971 0.9954 0.9925 0.9884 0.9827 0.9751 0.9648 0.9521
21 0.9993 0.9986 0.9978 0.9962 0.9939 0.9906 0.9860 0.9794 0.9712
22 0.9997 0.9993 0.9990 0.9982 0.9969 0.9951 0.9925 0.9884 0.9833
23 0.9999 0.9996 0.9996 0.9992 0.9985 0.9975 0.9962 0.9937 0.9907
24 0.9999 0.9997 0.9999 0.9997 0.9993 0.9988 0.9982 0.9967 0.9950
25 1 0.9998 0.9999 0.9999 0.9997 0.9994 0.9992 0.9983 0.9974
26 1 1 1 0.9999 0.9997 0.9997 0.9991 0.9987
27 1 0.9998 0.9999 0.9995 0.9994
28 1 1 0.9997 0.9997
29 0.9998 0.9999
30 1 1
172
Lei normal centrada e reduzida
Se Z segue a lei normal centrada e reduzida, a tabela seguinte apresenta valores da função
F (z) = P (Z ≤ z) . Por exemplo, F (0.15) = 0.5596.
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
Outros valores de z
173
Lei de Student
Se T segue a lei de Student com m graus de liberdade, a tabela seguinte indica, para α ≥ 0.6, o
valor tα tal que P(T ≤ tα ) = F (tα ) = α. Para α ≤ 0.4 decorre, da simetria da lei, que tα = t1−α . Por
exemplo, se m = 9 tem-se F (2.262) = 0.975 e F (−2.262) = 0.025.
m \ α 0.60 0.70 0.80 0.90 0.925 0.95 0.975 0.990 0.995 0.999 0.9995
1 0.325 0.727 1.376 3.078 4.165 6.314 12.71 31.82 63.66 318.3 636.6
2 0.289 0.617 1.061 1.886 2.282 2.920 4.303 6.965 9.925 22.33 31.60
3 0.277 0.584 0.978 1.638 1.924 2.353 3.182 4.541 5.841 10.22 12.94
4 0.271 0.569 0.941 1.533 1.778 2.132 2.776 3.747 4.604 7.173 8.610
5 0.267 0.559 0.920 1.476 1.699 2.015 2.571 3.365 4.032 5.893 6.859
6 0.265 0.553 0.906 1.440 1.650 1.943 2.447 3.143 3.707 5.208 5.959
7 0.263 0.549 0.896 1.415 1.617 1.895 2.365 2.998 3.499 4.785 5.405
8 0.262 0.546 0.889 1.397 1.592 1.860 2.306 2.896 3.355 4.501 5.041
9 0.261 0.543 0.883 1.383 1.574 1.833 2.262 2.821 3.250 4.297 4.781
10 0.260 0.542 0.879 1.372 1.559 1.812 2.228 2.764 3.169 4.144 4.587
11 0.260 0.540 0.876 1.363 1.548 1.796 2.201 2.718 3.106 4.025 4.437
12 0.259 0.539 0.873 1.356 1.538 1.782 2.179 2.681 3.055 3.930 4.318
13 0.259 0.538 0.870 1.350 1.530 1.771 2.160 2.650 3.012 3.852 4.221
14 0.258 0.537 0.868 1.345 1.523 1.761 2.145 2.624 2.977 3.787 4.140
15 0.258 0.536 0.866 1.341 1.517 1.753 2.131 2.602 2.947 3.733 4.073
16 0.257 0.535 0.865 1.337 1.512 1.746 2.120 2.583 2.921 3.686 4.015
17 0.257 0.534 0.863 1.333 1.508 1.740 2.110 2.567 2.898 3.646 3.965
18 0.257 0.534 0.862 1.330 1.504 1.734 2.101 2.552 2.878 3.611 3.922
19 0.257 0.533 0.861 1.328 1.500 1.729 2.093 2.539 2.861 3.579 3.883
20 0.257 0.533 0.860 1.325 1.497 1.725 2.086 2.528 2.845 3.552 3.850
21 0.257 0.532 0.859 1.323 1.494 1.721 2.080 2.518 2.831 3.527 3.819
22 0.256 0.532 0.858 1.321 1.492 1.717 2.074 2.508 2.819 3.505 3.792
23 0.256 0.532 0.858 1.319 1.489 1.714 2.069 2.500 2.807 3.485 3.767
24 0.256 0.531 0.857 1.318 1.487 1.711 2.064 2.492 2.797 3.467 3.745
25 0.256 0.531 0.856 1.316 1.485 1.708 2.060 2.485 2.787 3.450 3.725
26 0.256 0.531 0.856 1.315 1.483 1.706 2.056 2.479 2.779 3.435 3.707
27 0.256 0.531 0.855 1.314 1.482 1.703 2.052 2.473 2.771 3.421 3.690
28 0.256 0.530 0.855 1.313 1.480 1.701 2.048 2.467 2.763 3.408 3.674
29 0.256 0.530 0.854 1.311 1.479 1.699 2.045 2.462 2.756 3.396 3.659
30 0.256 0.530 0.854 1.310 1.477 1.697 2.042 2.457 2.750 3.385 3.646
Lei do Qui-quadrado
Se X segue a lei do Qui-quadrado com m graus de liberdade, a tabela seguinte indica o valor xα
tal que P(X ≤ xα ) = F (xα ) = α. Por exemplo, se m = 5 tem-se F (12.8) = 0.975.
m\ α 0.001 0.005 0.010 0.025 0.05 0.10 0.50 0.90 0.95 0.975 0.990 0.995 0.999
1 0.000 0.000 0.000 0.001 0.004 0.016 0.455 2.71 3.84 5.02 6.63 7.88 10.8
2 0.002 0.010 0.020 0.051 0.103 0.211 1.39 4.61 5.99 7.38 9.21 10.6 13.8
3 0.024 0.072 0.115 0.216 0.352 0.584 2.37 6.25 7.81 9.35 11.3 12.8 16.3
4 0.091 0.207 0.297 0.484 0.711 1.06 3.36 7.78 9.49 11.1 13.3 14.9 18.5
5 0.210 0.412 0.554 0.831 1.15 1.61 4.35 9.24 11.1 12.8 15.1 16.7 20.5
6 0.381 0.676 0.872 1.24 1.64 2.20 5.35 10.6 12.6 14.4 16.8 18.5 22.5
7 0.598 0.989 1.24 1.69 2.17 2.83 6.35 12.0 14.1 16.0 18.5 20.3 24.3
8 0.857 1.34 1.65 2.18 2.73 3.49 7.34 13.4 15.5 17.5 20.1 22.0 26.1
9 1.15 1.73 2.09 2.70 3.33 4.17 8.34 14.7 16.9 19.0 21.7 23.6 27.9
10 1.48 2.16 2.56 3.25 3.94 4.87 9.34 16.0 18.3 20.5 23.2 25.2 29.6
11 1.83 2.60 3.05 3.82 4.57 5.58 10.3 17.3 19.7 21.9 24.7 26.8 31.3
12 2.21 3.07 3.57 4.40 5.23 6.30 11.3 18.5 21.0 23.3 26.2 28.3 32.9
13 2.62 3.57 4.11 5.01 5.89 7.04 12.3 19.8 22.4 24.7 27.7 29.8 34.5
14 3.04 4.07 4.66 5.63 6.57 7.79 13.3 21.1 23.7 26.1 29.1 31.3 36.1
15 3.48 4.60 5.23 6.26 7.26 8.55 14.3 22.3 25.0 27.5 30.6 32.8 37.7
16 3.94 5.14 5.81 6.91 7.96 9.31 15.3 23.5 26.3 28.8 32.0 34.3 39.3
17 4.42 5.70 6.41 7.56 8.67 10.1 16.3 24.8 27.6 30.2 33.4 35.7 40.8
18 4.90 6.26 7.01 8.23 9.39 10.9 17.3 26.0 28.9 31.5 34.8 37.2 42.3
19 5.41 6.84 7.63 8.91 10.1 11.7 18.3 27.2 30.1 32.9 36.2 38.6 43.8
20 5.92 7.43 8.26 9.59 10.9 12.4 19.3 28.4 31.4 34.2 37.6 40.0 45.3
21 6.45 8.03 8.90 10.3 11.6 13.2 20.3 29.6 32.7 35.5 38.9 41.4 46.8
22 6.98 8.64 9.54 11.0 12.3 14.0 21.3 30.8 33.9 36.8 40.3 42.8 48.3
23 7.53 9.26 10.2 11.7 13.1 14.8 22.3 32.0 35.2 38.1 41.6 44.2 49.7
24 8.08 9.89 10.9 12.4 13.8 15.7 23.3 33.2 36.4 39.4 43.0 45.6 51.2
25 8.65 10.5 11.5 13.1 14.6 16.5 24.3 34.4 37.7 40.6 44.3 46.9 52.6
26 9.22 11.2 12.2 13.8 15.4 17.3 25.3 35.6 38.9 41.9 45.6 48.3 54.1
27 9.80 11.8 12.9 14.6 16.2 18.1 26.3 36.7 40.1 43.2 47.0 49.6 55.5
28 10.4 12.5 13.6 15.3 16.9 18.9 27.3 37.9 41.3 44.5 48.3 51.0 56.9
29 11.0 13.1 14.3 16.0 17.7 19.8 28.3 39.1 42.6 45.7 49.6 52.3 58.3
30 11.6 13.8 15.0 16.8 18.5 20.6 29.3 40.3 43.8 47.0 50.9 53.7 59.7
174
Bibliografia
Andrews, L.C., R.L. Phillips, Mathematical Techniques for Engineers and Scientists, 2003,
Spie, Washington.
Devore, J. L., Probability and Statistics for Engineering and the Sciences, 2000, 5th ed., Duxbury.
Gonçalves, E., N. Mendes Lopes, Probabilidades - Princípios teóricos, 2000, Escolar Editora,
Lisboa.
Guimarães R., J. Sarsfield Cabral, Estatística, 2007, 2a ed., McGraw-Hill, Lisboa.
Montgomery, D.C., G.C. Runger, Applied Statistics and Probability for Engineers, 2007, 4th
ed., Wiley, USA.
Mood, A., F.A. Graybill, D.C. Boes, Introduction to the theory of Statistics, 1974, 3rd ed.,
McGraw-Hill International Editions, Singapore.
Moore, D., G. McCabe, Introduction to the practice of statistics, 2006, Freeman, New York.
Murteira, B., C. S. Ribeiro, J. A. Silva, C. Pimenta, Introdução à Estatística, 2007, 2a ed.,
McGraw-Hill, Lisboa.
Reis, E., P. Melo, R. Andrade, T. Calapez, Estatística Aplicada, 1997, Edições Sílabo,
Lisboa.
175