Você está na página 1de 58

UNIVERSIDADE DA BEIRA INTERIOR

Apontamentos Teóricos
de
Probabilidades e Estatı́stica

Jorge Gama

Ano Lectivo 2005/2006

0
Capı́tulo 1

Teoria das Probabilidades

1.1 Introdução
Na Estatı́stica Descritiva descreveram-se e analisaram-se conjuntos de observações relativas a fenómenos aleató-
rios. Neste campo os conceitos estatı́sticos estabelecidos eram empı́ricos. Embora esse estudo seja importante,
é sem dúvida limitado quando se pretende analisar e interpretar ou tomar decisões no contexto dos fenómenos
em estudo.
Neste capı́tulo estudaremos as noções básicas da Teoria das Probabilidades, teoria esta que é o suporte sobre
a qual assenta a teoria da análise, interpretação e tomadas de decisão no contexto do estudo dos fenómenos
aleatórios, isto é, a Inferência Estatı́stica
A Teoria das Probabilidades (ou cálculo das probabilidades) pode caracterizar-se como o modelo matemático
das “regularidades”que se observam nas distribuições de frequências correspondentes aos fenómenos aleatórios
Todo o modelo matemático parte de determinadas propriedades básicas: os axiomas.
No entanto, antes de abordarmos os axiomas da Teoria das Probabilidades é necessário introduzirmos/com-
preendermos determinados conceitos.
Um fenómeno diz-se aleatório quando o acaso interfere na ocorrência de um ou mais dos resultados nos
quais tal fenómeno se pode traduzir. Conjugando determinado número de condições, um resultado aleatório
pode ocorrer ou não. Assim, um fenómeno aleatório caracteriza-se fundamentalmente pelo seguinte:

a) Pode ser repetido inúmeras vezes em idênticas condições.


b) Não se pode afirmar qual o resultado da realização de uma repetição antes da sua realização.
c) Apesar de os resultados das experiências se mostrarem irregulares, verifica-se que os resultados obtidos ao
cabo de uma longa repetição da experiência apresentam regularidade estatı́stica

Exemplos 1.1
1. Considere-se o lançamento ao ar de uma moeda e registo da face voltada para cima.

Observação 1.1 No caso de uma moeda perfeita, repetido o lançamento um número elevado de vezes
verifica-se aproximadamente o mesmo número de faces e coroas, isto é, pode prever-se qual a proporção
de faces e coroas num grande número de lançamentos (regularidade estatı́stica).

2. Lançamento de um dado e registo do número de pontos obtidos.


3. Extracção de uma carta de um baralho e registo das suas caracterı́sticas.
4. Selecção ao acaso de um habitante de uma cidade com o objectivo de conhecer as suas despesas mensais.
5. Observação do sexo de um recém-nascido numa série de nascimentos.

1.2 Espaço de Resultados


Definição 1.1 O conjunto de todos os resultados possı́veis associados a uma experiência aleatória denomina-
se espaço de resultados (ou espaço-amostra, ou espaço amostral, ou espaço universal, ou, ainda, espaço
fundamental)

1
Notação 1.1 O espaço de resultados associado a uma dada experiência aleatória será designado por Ω. Qual-
quer resultado individual é designado por ω (ω ∈ Ω).

Observação 1.2 Os elementos de Ω podem ser números, sequências de números, atributos ou grupos de atri-
butos ou, ainda, uma combinação de elementos quantitativos e qualitativos.

Exemplos 1.2

1. No lançamento de uma moeda se designarmos por F a face e por C a coroa, o espaço de resultados é
Ω = {F, C}.

2. No lançamento de um dado de seis faces existem seis resultados possı́veis. Designando por j, com
j = 1, . . . , 6, o resultado que consiste na “aparição da face com o número j de pontos”, o espaço de re-
sultados é
Ω = {1, 2, 3, 4, 5, 6}.

3. No lançamento de uma moeda e de um dado, o espaço de resultados poderá ser descrito por:

Ω = {F 1, F 2, F 3, F 4, F 5, F 6, C1, C2, C3, C4, C5, C6}.

1.3 Acontecimentos Aleatórios


Definição 1.2 Os subconjuntos de Ω designam-se por acontecimentos.

Notação 1.2

1. Os acontecimentos serão designados por letras maiúsculas (A, B, C, . . . , A1 , A2 , . . . ).

2. Representaremos por P(Ω) as partes de Ω, isto é, o conjunto de todos o acontecimentos de Ω.

Observações 1.3

1. Obviamente, Ω é um acontecimento (dito acontecimento certo) ( Ω ∈ P(Ω)).

2. Ao acontecimento formado por um único elemento ({ω}) damos a designação de acontecimento elemen-
tar.

3. O acontecimento ∅ denomina-se de acontecimento impossı́vel ( ∅ ∈ P(Ω)).

Exemplo 1.3 No lançamento de duas moedas

Ω = {(F, F ), (F, C), (C, F ), (C, C)}

ou, simplesmente,
Ω = {F F, F C, CF, CC} .
Acontecimentos elementares: {F F }, {F C}, {CF } e {CC}.
Outros acontecimentos:
A = {F C, CF } ≡ saı́da de exactamente uma face (ou de exactamente uma coroa);
B = {F F, F C} ≡ saı́da de face na 1a moeda;
C = {F C, CF, CC} ≡ saı́da de pelo menos uma coroa

1.3.1 Principais Conceitos da Álgebra de Acontecimentos


Como, por definição, os acontecimentos são conjuntos, podemos concluir que existe paralelismo entre a álgebra
dos conjuntos e a álgebra dos acontecimentos. Assim, podemos usar os sı́mbolos: ⊂, ⊃, ⊆, ⊇, =, ∪, ∩, \, etc.

Questões de Linguagem
Quando se diz que um acontecimento ocorre (se realiza) é porque se observou a ocorrência (realização)
de um seu elemento no contexto de uma experiência aleatória. Por exemplo, no lançamento de um dado de seis
faces, se a face voltada para cima era o elemento 2, então o acontecimento {1, 2, 3} ocorreu.
Sejam Ω um espaço de resultados e A e B acontecimentos de Ω.

2
1) A ocorrência (realização) de A implica a ocorrência de B se, e somente se, todo o elemento de A é elemento
de B. Escreve-se, então, A ⊂ B.

2) A e B são idênticos se, e somente se, a ocorrência de um implica a ocorrência do outro, isto é, A ⊂ B e
B ⊂ A. Escreve-se A = B.

3) Intersecção ou produto lógico de A por B é o acontecimento que ocorre se, e somente se, A e B ocorrem
simultaneamente. Representa-se este acontecimento por A ∩ B (ou AB).

4) Reunião entre os acontecimentos A e B é o acontecimento que ocorre se, e somente se, A ou B ocorre, isto
é, pelo menos um deles. Representa-se este acontecimento por A ∪ B.

5) A e B dizem-se incompatı́veis se, e somente se, a ocorrência de um deles implica a não ocorrência do outro,
isto é, A ∩ B = ∅.
Os acontecimentos A1 , A2 , . . . , An dizem-se mutuamente exclusivos se, e somente se, Ai ∩ Aj = ∅, para
i 6= j.

6) Diferença entre B e A é o acontecimento que ocorre se, e somente se, B ocorre sem que ocorra A.
Representa-se por B \ A (ou B − A).

7) Quando A ⊂ B, B \ A é o acontecimento complementar de A em relação a B.


Em particular, Ω\A designa-se por acontecimento complementar (contrário) de A e ocorre se, e somente
se, A não ocorre. É usual representar-se por A.
Nota: A ∩ A = ∅ e A ∪ A = Ω.

8) Diferença simétrica entre A e B é o acontecimento que ocorre se, e somente se, ou ocorre A ou ocorre B,
isto é, ocorre um e um só dos acontecimentos, ou ainda, ocorre A ou B, mas não simultaneamente os dois.
Este acontecimento representa-se por A∆B e A∆B = (A \ B) ∪ (B \ A) = (A ∪ B) \ (A ∩ B).

3
Proposições 1.1 Sejam Ω um espaço de resultados associado a uma dada experiência aleatória e
A, B, C ∈ Ω.
1. A operação reunião (resp. intersecção) é associativa:

A ∪ (B ∪ C) = (A ∪ B) ∪ C (A ∩ (B ∩ C) = (A ∩ B) ∩ C) .

2. A operação reunião (resp. intersecção) é comutativa:

A∪B =B∪A (A ∩ B = B ∩ A) .

3. A operação reunião (resp. intersecção) é distributiva relativamente à operação intersecção (resp. reunião):

A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) (A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)) .

4. A operação reunião (resp. intersecção) é idempotente:

A∪A=A (A ∩ A = A) .

5. i) A ⊂ B ⇒ A ∪ B = B ii) A ⊂ B ⇒ A ∩ B = A.
6. i) A ∪ Ω = Ω ii) A ∪ ∅ = A iii) A ∩ Ω = A iv) A ∩ ∅ = ∅.
7. Leis de De Morgan:
i) A ∪ B = A ∩ B ii) A ∩ B = A ∪ B.
8. A \ B = A ∩ B.

9. A = A.
10. i) (A ∩ B) ∪ (A ∩ B) = A ii) (A ∩ B) ∩ (A ∩ B) = ∅.

1.4 Axiomas da Teoria das Probabilidades


Definição 1.3 Seja Ω um espaço de resultados associado a uma dada experiência aleatória. Chama-se proba-
bilidade a uma função P : P(Ω) −→ R que satisfaz os seguintes axiomas:
(A1) P (A) ≥ 0; para todo o acontecimento A.
(A2) P (Ω) = 1;
(A3) Se A1 , A2 , A3 , . . . , são acontecimentos mutuamente exclusivos, isto é, Ai ∩ Aj = ∅, para i 6= j, então
 
[ X
P  Ai  = P (Ai ) .
i≥1 i≥1

Proposições 1.2 Sejam Ω um espaço de resultados e A, B e C três acontecimentos, quaisquer.


¡ ¢
1. P A = 1 − P (A);
2. P (∅) = 0;

4
3. P (A \ B) = P (A) − P (A ∩ B);
4. P (A ∪ B) = P (A) + P (B) − P (A ∩ B);
5. P (A ∪ B) ≤ P (A) + P (B);
6. A ⊆ B ⇒ P (A) ≤ P (B);
7. 0 ≤ P (A) ≤ 1;
8. P (A∆B) = P (A) + P (B) − 2P (A ∩ B);
9. P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C).

1.5 Espaços de Resultados Finitos. Definição Clássica de Probabi-


lidade
Suponhamos que o espaço de resultados Ω é finito. Então Ω = {ω1 , ω2 , . . . , ωn }. Vamos admitir a hipótese de
equiprobabilidade, isto é, vamos admitir que

P ({ω1 }) = P ({ω2 }) = · · · = P {ωn }).


1
Assim, podemos deduzir que o valor comum destas probabilidades é n. De facto tem-se

P (Ω)
à n= 1 ⇔!
[
⇔ P {ωi } = 1
i=1
n
X
⇔ P ({ωi }) = 1
i=1
⇔ nP ({ωj }) = 1, para j = 1, . . . , n
1
⇔ P ({ωj }) = , para j = 1, . . . , n.
n
E para qualquer acontecimento A = {ωi1 , ωi2 , . . . , ωim }, obtemos, por processos análogos,
m
P (A) =
.
n
Isto é, a probabilidade de um acontecimento é o quociente entre o número de resultados (casos) favoráveis
à ocorrência do acontecimento e o número de resultados possı́veis considerados como equiprováveis (Regra
Clássica de Laplace):
no de casos favoráveis #A
P (A) = = .
no de casos possı́veis #Ω

1.6 Probabilidades Condicionadas. Independência


Definição 1.4 Sejam Ω um espaço de resultados e A e B dois acontecimentos, em que P (B) > 0. A nova
função

P (A ∩ B)
P (A|B) =
P (B)
denomina-se probabilidade condicional (ou condicionada) de A (por B).

Observações 1.4
1. Obviamente, com B fixo, P ( . |B) satisfaz os axiomas das probabilidades.
2. P (A|B) ≡ prob. de ocorrer A, dado que ocorreu B (ou prob. de A condicionada pela realização de B).

Teorema 1.3 Sejam A1 , A2 , . . . , An acontecimentos tais que P (A1 ∩ A2 ∩ . . . ∩ An−1 ) > 0. Então

P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · P (An |A1 ∩ A2 ∩ . . . ∩ An−1 ).

5
Definição 1.5 Dois acontecimentos A e B dizem-se independentes se, e somente se,

P (A ∩ B) = P (A) · P (B).

Dois acontecimentos são independentes se a probabilidade da ocorrência de um não afecta a probabilidade


da ocorrência do outro. O teorema seguinte justifica esta afirmação.

Teorema 1.4 Os acontecimentos A e B de probabilidade positiva são independentes se, e somente se,
P (A|B) = P (A) (ou P (B|A) = P (B)).

Definição 1.6 Os acontecimentos A1 , A2 , . . . , An são mutuamente independentes se, e somente se, para todos
os inteiros i1 , i2 , . . . , ik , satisfazendo as condições

1 ≤ i1 < i2 < i3 < · · · < ik ≤ n,


se tem

P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P (Ai1 )P (Ai2 ) · · · P (Aik ).

Exemplo 1.4 Considerem-se 4 cartas numeradas de 1 a 4. Tira-se ao acaso uma carta e admita-se a hipótese
de equiprobabilidade.
Sejam:
E1 = “a carta retirada é 1 ou 4”;
E2 = “a carta retirada é 1 ou 3”;
E3 = “a carta retirada é 1 ou 2”.
1 1 1 1
Observe-se que P (E1 ) = P (E2 ) = P (E3 ) = e P (E1 ∩ E2 ) = = × = P (E1 ) · P (E2 ). Logo, E1 e E2
2 4 2 2
são independentes.
Analogamente, pode mostrar-se que E1 e E3 são independentes, assim como E2 e E3 . No entanto, os três
acontecimentos não são independentes, pois
1
P (E1 ∩ E2 ∩ E3 ) =
4
e
1 1 1 1
P (E1 ) · P (E2 ) · P (E3 ) = × × = .
2 2 2 8
Teorema 1.5 (Teorema da Probabilidade Total) Sejam A1 , A2 , . . . , An acontecimentos mutuamente ex-
clusivos (Ai ∩ Aj = ∅, para i 6= j) e exaustivos (∪ni=1 Ai = Ω). Se P (Ai ) > 0, para i = 1, . . . , n, então, para
qualquer acontecimento B,

P (B) = P (B|A1 ) · P (A1 ) + P (B|A2 ) · P (A2 ) + · · · + P (B|An ) · P (An )


Xn
= P (B|Ai ) · P (Ai ).
i=1

Observação 1.5 Quando os acontecimentos são mutuamente exclusivos e exaustivos é vulgar utilizar o termo
partição (de Ω) para os designar. Observe o diagrama seguinte:

Observe ainda que B = (B ∩ A1 ) ∪ (B ∩ A2 ) ∪ . . . ∪ (B ∩ An ).

6
Corolário 1.6 Seja A um acontecimento tal que 0 < P (A) < 1. Então, para qualquer acontecimento B,

P (B) = P (B|A) · P (A) + P (B|A) · P (A).

Teorema 1.7 (Teorema de Bayes) Sejam A1 , A2 , . . . , An acontecimentos mutuamente exclusivos e exausti-


vos. Se P (Ai ) > 0, para i = 1, . . . , n, e B é um acontecimento tal que P (B) > 0, então

P (B|Aj ) · P (Aj )
P (Aj |B) = n , i = 1, 2, . . . , n.
X
P (B|Ai ) · P (Ai )
i=1

Esta fórmula é conhecida por fórmula de Bayes ou fórmula das probabilidades à posteriori.

7
8
Capı́tulo 2

Variáveis Aleatórias Reais.


Distribuições de Probabilidade

2.1 Definição de Variável Aleatória


É sabido que numa experiência aleatória o espaço de resultados, Ω, pode ter ou não carácter quantitativo. Por
exemplo, no lançamento de uma moeda o espaço de resultados que lhe está associado tem carácter qualitativo,
mas se no lançamento de três moedas estivermos interessados no número de faces, o espaço de resultados que
lhe está associado já tem carácter quantitativo.
A aplicação de procedimentos estatı́sticos passa, correntemente, pela atribuição de um número real a cada
elemento ω ∈ Ω. Essa atribuição pode ser até puramente convencional. No entanto, esta atribuição terá que ser
feita com cuidado por forma a podermos calcular a probabilidade de ocorrência de valores em intervalos reais.
Daı́ a definição seguinte.

Definição 2.1 Seja Ω um espaço de resultados associado a uma dada experiência aleatória. Chama-se variável
aleatória (abreviadamente, v.a.) a uma função X : Ω −→ R tal que Ar = {ω ∈ Ω : X(ω) ≤ r}, com r ∈ R,
seja um acontecimento.

Notação 2.1 É usual representarem-se as variáveis aleatórias pelas últimas letras maiúsculas: X, Y , Z, W ,
X1 , X2 , . . . , Y1 , . . . .

O restrição imposta à função X tem como objectivo que o seu contradomı́nio seja um novo espaço de resul-
tados em que a cada um dos seus elementos associa-se uma probabilidade, calculável a partir das probabilidades
de ocorrência dos resultados iniciais.
As vantagens da utilização de variáveis aleatórias torna-se evidente em muitos casos que nos irão surgindo.
Uma dessas vantagens surge em inúmeros casos onde não interessa apreciar os elementos de Ω com todos os
pormenores de que se revestem, mas sim focarmos a nossa atenção na caracterı́stica numérica em estudo. Os
exemplos seguintes ilustram este ponto de vista.

Exemplos 2.1

1. O espaço de resultados associado ao lançamento de uma moeda três vezes pode ser definido por

Ω = {F F F, F F C, F CF, F CC, CCC, CCF, CF F, CF C}.

Considere-se a seguinte variável aleatória:


X = número de faces.
Esta variável aleatória tem como contradomı́nio Ω0 = {0, 1, 2, 3} e, admitindo-se a hipótese de equiprobabili-
dade,

9
1
P (X = 0) = P ({CCC}) =
8
3
P (X = 1) = P ({F CC, CCF, CF C}) =
8
3
P (X = 2) = P ({F F C, F CF, CF F }) =
8
1
P (X = 3) = P ({F F F }) =
8
A partir dos cálculos anteriores podemos calcular a probabilidade de outros acontecimentos. Por exemplo, a
probabilidade de ocorrer pelo menos duas faces:
1
P (X ≥ 2) = P (X = 2) + P (X = 3) = .
2
Ou ainda, a probabilidade de ocorrer menos de 3 faces:
7
P (X < 3) = 1 − P (X = 3) = .
8

2. Considere-se uma população de empresas das quais se escolhe uma ao acaso. O espaço de resultados é
Ω = {ω1 , ω2 , . . . , ωn }, onde n é o número total de empresas na população. Consoante os objectivos do
estudo, diversas variáveis aleatórias podem ser definidas. Eis alguns exemplos:

X1 = número de empregados de uma empresa;


X2 = capital social de uma empresa;
X3 = volume anual de vendas de uma empresa.

Proposição 2.1 Sejam Ω um espaço de resultados, X : Ω −→ R e Y : Ω −→ R duas variáveis aleatórias, e


c ∈ R. Então,
i) X + Y é uma variável aleatória;
ii) c · X é uma variável aleatória;
iii) X · Y é uma variável aleatória.

Definição 2.2 Seja X uma v.a.. Chama-se à função FX (ou F) função de distribuição (cumulativa) (f.d.)
de X, se FX : R −→ [0, 1] tal que
FX (x) = P (X ≤ x),
para todo x ∈ R.

A f.d., F (x), de uma v.a. X goza das seguintes propriedades:

Teorema 2.2

1. 0 ≤ F (x) ≤ 1;
2. F (x) é não decrescente;
3. F (−∞) = lim F (x) = 0; F (+∞) = lim F (x) = 1;
x→−∞ x→+∞

4. Para valores x1 e x2 quaisquer, finitos, com x2 > x1 , tem-se P (x1 < X ≤ x2 ) = F (x2 ) − F (x1 );
5. F (x) é contı́nua à direita, isto é, lim+ F (x) = F (a);
x→a


6. P (X = a) = F (a) − F (a ) = F (a) − lim F (x).
x→a−

Definição 2.3 Sejam X uma v.a. e D = {a : P (X = a) > 0} um conjunto, quando muito numerável, dos
pontos de descontinuidade de uma f.d.. A v.a. X diz-se discreta quando P (X ∈ D) = 1; a v.a. diz-se não
discreta quando P (X ∈ D) < 1.

10
Quando X é uma v.a. discreta existe um conjunto finito ou infinito numerável, D = {a1 , a2 , . . .}, tal que,
X
P (X ∈ D) = P (X = ai ) = 1,
i

P (X = ai ) > 0, i = 1, 2, . . . .

Estas duas propriedades permitem especificar a probabilidade de qualquer acontecimento de R em termos


de uma soma ou série de parcelas do tipo P (X = ai ), com ai ∈ D. De facto, com E ⊂ R,

P (X ∈ E) = P (X ∈ E ∩ D) + P (X ∈ E ∩ D);

como E ∩ D ⊂ D e P (X ∈ D) = 0, vem,
X
P (X ∈ E) = P (X = ai ).
ai ∈E∩D

Esta propriedade torna útil a seguinte definição:

Definição 2.4 Seja X uma v.a. discreta. Chama-se função de probabilidade (f.p.) de X à função fX (ou
f ) definida por:
½
P (X = x) se x ∈ D
fX (x) =
0 se x ∈ D

Definição 2.5 Seja X uma v.a. e F (x) a respectiva f.d.. A v.a. X diz-se contı́nua se

D = {a : P (X = a) > 0} = ∅

e existe uma função não negativa, fX (x) ≥ 0 (ou f ), tal que


Z x
FX (x) = fX (u) du.
−∞

A esta função fX (x) chama-se função de densidade de probabilidade, (f.d.p.), ou simplesmente função
de densidade.

Observações 2.1

1. Mostra-se que, se D = {a : P (X = a) > 0} = ∅, então F (x) não apresenta descontinuidades.

2. Atendendo às definições anteriores e aos axiomas das probabilidades mostra-se que toda a função de
probabilidade (resp. densidade) satisfaz as condições:

i) f (x) ≥ 0, ∀x ∈ R.
P R +∞
ii) i f (xi ) = 1 (resp. −∞ f (u) du = 1).
P
3. Se X é uma v.a. discreta, então FX (x) = {i: xi ≤x} fX (xi ).
0
4. Se X é uma v.a. contı́nua, então FX (x) = fX (x), excepto num conjunto finito ou infinito numerável de
pontos x de probabilidade nula.

Exemplos 2.2

1. Consideremos novamente o exemplo 1. dos Exemplos 2.1. A função de probabilidade desta v.a. é definida
por:

x 0 1 2 3

1 3 3 1
f (x)
8 8 8 8

11
E graficamente,
A sua função de distribuição é definida por:

 0 se x < 0

 1

 se 0 ≤ x < 1

 8 1
F (x) = 2 se 1 ≤ x < 2 ,

 7
se 2 ≤ x < 3

 8


 1 se x ≥ 3

ou, em forma de tabela,

x x<0 0≤x<1 1≤x<2 2≤x<3 x≥3

1 1 7
F (x) 0 1
8 2 8
E, graficamente,

Nota: O gráfico da função de distribuição de uma variável discreta é sempre em escada.


2. Seja Y uma v.a. cuja função de distribuição é definida por


 0 se y < 0



 y
F (y) = se 0 ≤ y < 3 .

 3




1 se y ≥ 3

Então, a sua função de densidade pode ser definida por



 1
 se 0 ≤ y ≤ 3
f (y) = 3 .


0 se y < 0 ∨ y > 3

E os seus gráficos:
Nota: O valor da probabilidade num intervalo corresponde a uma área entre o eixo das abcissas e o gráfico
de f , no intervalo considerado.

Definição 2.6 Uma v.a. discreta X diz-se constante se existe a ∈ R tal que P (X = a) = 1.

12
2.2 Medidas de Localização e Dispersão. Momentos
2.2.1 Medidas de Localização
Definição 2.7 Denomina-se média, esperança matemática ou valor esperado de uma v.a. X ao número,
caso exista, µX ou E(X) definido por:
P
i) E(X) = i xi f (xi ), se X é uma v.a. discreta tomando valores em {x1 , x2 , . . .}.
R +∞
ii) E(X) = −∞ xf (x) dx, se X é contı́nua.

Exemplos 2.3

1. Considerando novamente o exemplo 1 dos Exemplos 2.1,


1 3 3 1 3
E(X) = 0 × +1× +2× +3× = .
8 8 8 8 2

2. Se 
 1
 se 0 ≤ y ≤ 3
f (y) = 3


0 se y < 0 ∨ y > 3
é a função de densidade de probabilidade de uma v.a. Y , então
Z +∞ Z 0 Z 3 Z +∞
y 3
E(Y ) = yf (y) dy = y × 0 dy + dy + y × 0 dy = .
−∞ −∞ 0 3 3 2

Definição 2.8 Seja X uma v.a. e φ(X) uma função de X.


P
1. E(φ(X)) = i φ(xi )fX (xi ), se X é discreta;
R +∞
2. E(φ(X)) = −∞ φ(x)fX (x) dx, se X é contı́nua.

Proposições 2.3 Sejam X e Y duas variáveis aleatórias, φ(X) uma função de X, e a e b constantes reais.

1. E(a) = a;

2. E(a φ(X)) = a E(φ(X));

3. E(a X + b Y ) = a E(X) + b E(Y ).

Outras medidas de localização de uma v.a., alternativas à média, são a mediana (ηX ) e a moda (mX ).

Definição 2.9 Seja X uma variável aleatória. A mediana de X é o valor de x que satisfaz as desigualdades,
1 1
P (X ≤ x) ≥ e P (X ≥ x) ≥ ,
2 2
e representa-se por ηX ou, simplesmente, η. Em termos da função de distribuição, a dupla desigualdade é
equivalente a
1 1
≤ F (x) ≤ + P (X = x).
2 2

13
Se X é contı́nua, a mediana é o valor x que satisfaz,
Z x
1
F (x) = f (u) du = .
−∞ 2

Se existir mais do que um valor que sirva para mediana, então toma-se para mediana
xmin + xmax
η= ,
2
onde xmin e xmax representam, respectivamente, o mı́nimo e o máximo do conjunto de soluções.

Podemos, a partir da ideia de mediana, definir parâmetros usando outros valores de probabilidade.

Definição 2.10 Dado qualquer número p, 0 < p < 1, define-se p-ésimo quantil de uma v.a. ou de uma
distribuição como o valor x que satisfaz as desigualdades,

P (X ≤ x) ≥ p, P (X ≥ x) ≥ 1 − p,

isto é,
p ≤ F (x) ≤ p + P (X = x).
Se a v.a. é do tipo contı́nua, o quantil de ordem p é o número x que satisfaz a equação,
Z x
F (x) = p ou f (u) du = p.
−∞

O quantil de ordem p será representado por ζp .

Em particular, com p = s/4, s = 1, 2, 3, obtém-se os quartis, sendo o quartil de ordem 2 a mediana; com
p = s/10, s = 1, 2, . . . , 9, os decis, com p = s/100, s = 1, 2, . . . , 99, obtém-se os percentis.

Definição 2.11 Chama-se moda de uma v.a. X, mX , a um valor da variável (caso exista) do seu contra-
domı́nio para o qual fX (função de probabilidade ou função de densidade de probabilidade de X) toma um valor
máximo.

Exemplos 2.4

1. No contexto do exemplo 1. dos Exemplos 2.1,


1+2 3
ηX = =
2 2
e tem duas modas (bimodal), m1 = 1 e m2 = 2.
Nota: No caso de variáveis aleatórias discretas, existe alguma bibliografia que considera para moda o ponto
médio dos valores adjacentes da variável que maximizam a função de probabilidade.

2. No contexto do exemplo 2. dos Exemplos 2.2, existem uma infinidade de modas. Qualquer valor do
intervalo [0, 3] é uma moda.

2.2.2 Medidas de Dispersão


Definição 2.12

1. Se X é uma v.a. discreta tomando valores em {x1 , x2 , . . .}, chama-se desvio absoluto médio à medida de
dispersão definida por X
δX = |xi − µX | · fX (xi ).
i

2. Se X é uma v.a. contı́nua, o desvio absoluto médio define-se por


Z +∞
δX = |x − µX | · fX (x) dx.
−∞

14
Outra quantidade de grande importância, que permite definir outra medida de dispersão, é a variância de
uma variável aleatória.

Definição 2.13
2
1. Se X é uma v.a. discreta tomando valores em {x1 , x2 , . . .}, a variância de X, σX ou Var(X), define-se por
X
Var(X) = (xi − µX )2 · fX (xi ).
i

2. Se X é uma v.a. contı́nua, a variância define-se por


Z +∞
Var(X) = (x − µX )2 · fX (x) dx.
−∞

£ ¤
Observação 2.2 É evidente que Var(X) = E (X − µX )2 .

Proposições 2.4 Se X é uma v.a., então


2
1. Var(X) = E(X 2 ) − [E(X)] (fórmula de Köenigs).
2. Var(aX) = a2 Var(X), com a uma constante real.
P R +∞
Observação 2.3 E(X 2 ) = i x2i fX (xi ), se X é uma v.a. discreta, ou E(X 2 ) = −∞
x2 fX (x) dx, se X é uma
v.a. contı́nua.

À custa da variância define-se outra medida de dispersão.

Definição 2.14 Chama-se desvio padrão de uma v.a. X à medida de dispersão definida por
p
σ = Var(X).

2.2.3 Variáveis Estandardizadas


Definição 2.15 Seja X uma v.a. com média µ e desvio padrão σ. A v.a.
X −µ
Z=
σ
diz-se normalizada ou estandardizada.
X −µ
Proposição 2.5 A v.a. Z = tem média 0 e desvio padrão 1.
σ
A estandardização de uma v.a. permite uma mudança de escala e observe-se que uma v.a. estandardizada
não tem unidades. Desta forma, é possı́vel comparar as distribuições de variáveis aleatórias distintas.

2.2.4 Momentos
O valor esperado e a variância pertencem a uma famı́lia de parâmetros que se designam por momentos. Enquanto
o valor esperado pertence à subfamı́lia dos momentos ordinários (ou momentos na origem), a variância
pertence à subfamı́lia dos momentos centrados. Vejamos como se definem.

Definição 2.16 Chama-se momento ordinário de ordem k ao parâmetro


X
µ0k = xki · fX (xi ),
i

se X é uma v.a. discreta, ou Z +∞


µ0k = xk · fX (x) dx,
−∞

se X é uma v.a. contı́nua.

Observação 2.4 É evidente que o valor esperado é o momento ordinário de primeira ordem (µ01 = µ).

15
Definição 2.17 Chama-se momento centrado (na média) de ordem k ao parâmetro
X
µk = (xi − µX )k · fX (xi ),
i

se X é uma v.a. discreta, ou Z +∞


µk = (x − µX )k · fX (x) dx,
−∞
se X é uma v.a. contı́nua.
Observação 2.5 Repare-se que a variância é o momento centrado de segunda ordem (µ2 = σ 2 ).
Existem expressões que relacionam os momentos ordinários com os momentos centrados. De facto, qualquer
momento centrado de ordem k pode exprimir-se em função dos momentos ordinários de ordem não superior a
k e vice-versa:
k
X k
X
µk = (−1)ikCi (µ01 )i µ0k−1 e µ0k = k
Ci (µ01 )i µk−i .
i=0 i=0
Observe-se que, na primeira expressão fazendo-se k = 2, obtém-se a fórmula de Köenigs.
Além dos momentos já definidos, existem outros momentos centrados (centrados em outro parâmetros) e
ainda os momentos absolutos ordinários ou centrados. O desvio absoluto médio é o momento absoluto centrado
(na média) de primeira ordem.
Todos os parâmetros definidos (caso existam) caracterizam uma distribuição. Para que duas distribuições
sejam iguais é necessário que tenham a mesma sequência de momentos. No entanto, esta condição não é
suficiente, pois uma sequência de momentos não determina univocamente uma distribuição. Para que tal suceda,
é necessário garantir a existência de uma função que é designada por função geradora de momentos. Este
assunto será abordado na subsecção seguinte.
Na prática, raramente são calculados momentos de ordem superior a 4, pois tais momentos são de difı́cil
caracterização. No entanto, a igualdade de momentos não superiores a 4 é suficiente para que duas distribuições
sejam aproximadamente iguais. Vejamos algumas utilizações destes momentos.
Uma v.a. X é simétrica ou possui uma distribuição simétrica, se existe um número a tal que, para todo o
x, P (X < a − x) = P (X > a + x), isto é,
F (a − x) − P (X = a − x) = 1 − F (a + x).
O ponto a é chamado centro de simetria. Se a v.a. é do tipo contı́nuo, deduz-se da igualdade anterior que a sua
f.d.p., nos pontos onde é contı́nua, satisfaz a equação,
f (a − x) = f (a + x).
Se a v.a. é do tipo discreto, os pontos de salto e as correspondentes probabilidades dispõem-se simetricamente
em relação a a.
Quando uma distribuição é simétrica é fácil concluir que os momentos centrados na média de ordem ı́mpar
são nulos. Assim, desejando-se caracterizar a assimetria por meio de um parâmetro, parece natural a utilização
de um desses momentos, preferivelmente o de ordem 3, µ3 . Como este momento é de terceira ordem em termos
da unidade original, leva a que se utilize para medida de assimetria o parâmetro
µ3
γ1 = 3
σ
ou
µ2
β1 = 33 = γ12 .
µ2
Quando a assimetria é positiva (ramo esquerdo mais abrupto) são os desvios positivos que predominam no
cálculo de µ3 , que, por esse facto, leva a que γ1 > 0. A assimetria negativa caracteriza-se por γ1 < 0.
Outra função de momentos com algum interesse é,
µ4
β2 = 2 ,
µ2
que é usado para medir o excesso de Kurtosis da distribuição, conceito associado com o achatamento da f.d.p.
ou f.p. na zona central da distribuição. Costuma usar-se como meio de comparação a distribuição Normal
estandardizada (que estudaremos no capı́tulo seguinte). Nesta distribuição µ4 = 3 e µ2 = 1. Assim, em vez de
β2 , usa-se por vezes,
γ2 = β2 − 3.

16
2.2.5 Desigualdades Importantes para Momentos
Teorema 2.6 (Desigualdade de Markov) Seja ϕ(X) uma função de uma v.a. X. Se existir E[ϕ(X)], então,
para qualquer número real c > 0,
1
P (ϕ(X) ≥ c) ≤ E[ϕ(X)].
c
Corolário 2.7 Se X é uma v.a. não negativa e se existir E(X), então, para qualquer número real c > 0,
E(X)
P (X ≥ c) ≤ .
c
Corolário 2.8 Se X é uma v.a. e se existir E(X), então, para qualquer número real c > 0,
E(|X|)
P (|X| ≥ c) ≤ .
c
Corolário 2.9 Se X é uma v.a. e se existir E(|X|r ), para qualquer número real r > 0, então, para qualquer
número real c > 0,
E(|X|r )
P (|X| ≥ c) ≤ .
cr
Corolário 2.10 Se X é uma v.a. com média µ e variância σ 2 , finita, então, para qualquer número real t > 0,
1
P (|X − µ| ≥ tσ) ≤ .
t2
A desigualdade do corolário anterior, que, aliás como todas as outras, também se pode apresentar na forma
1
P (|X − µ| < tσ) ≥ 1 −
t2
é a bem conhecida desigualdade de Chebychev. Trata-se de um instrumento muito importante em aplicações.
Pois, observe-se que, para qualquer v.a. X, conhecidas a média e variância, a quantidade de probabilidade no
intervalo ]µ − tσ, µ + tσ[ nunca é inferior a 1 − 1/t2 , ou, o que é o mesmo, a quantidade de probabilidade fora
desse intervalo nunca é superior a 1/t2 . Esta desigualdade reforça a ideia da utilização de µ como medida de
localização e σ como medida de dispersão, permitindo empregar-se quando não se conhece a distribuição da
variável aleatória. Evidentemente, se a distribuição da variável for conhecida, a desigualdade passa a ter menos
interesse uma vez que pode calcular-se o valor exacto (ou pelo menos tão aproximado quanto se queira) de
P (|X − µ| < tσ). No entanto, neste caso a sua utilização pode permitir fazer um cálculo mais rápido.

2.2.6 Função Geradora de Momentos


No intuito de caracterizar uma distribuição é possı́vel, em muitos casos, obter uma função que permite gerar
todos os momentos em relação à origem.
Definição 2.18 Define-se função geradora de momentos, abreviadamente f.g.m., da v.a. X como sendo o
valor esperado de eXt , caso exista, e representa-se por
¡ ¢
GX (t) = E eXt .
Diz-se que a função geradora de momentos existe se existir uma constante positiva, a, para a qual GX (t)
seja finita para |t| < a. Observe-se, a partir da definição, que GX (0) = 1; a existência numa vizinhança de t = 0
depende da distribuição de X.
Teorema 2.11 Se a f.g.m. é definida para |t| < a, com a > 0, então
G (k) (0) = µ0k , k = 1, 2, 3, . . . .
Consequentemente, se G(t) existe numa vizinhança de 0, G(t) pode desenvolver-se, de uma única forma, em
série de MacLaurin,
G 00 (0)t2
G(t) = 1 + G 0 (0) + + ···
2!
+∞
X ¡ ¢ tk
= E Xk
k!
k=0
+∞
X tk
= µ0k
k!
k=0

17
Como é evidente, os momentos centrados de X são gerados pela f.g.m. da distribuição da v.a. X − µ:
³ ´
GX−µ (t) = E et(X−µ) = e−µt GX (t),

ou, equivalentemente,
GX (t) = eµt GX−µ (t).
Para a v.a. estandardizada U = (X − µ)/σ, tem-se
¡ ¢ ³ ´
GU (t) = E etU = E et(X−µ)/σ = e−µt/σ GX (t/σ),

ou
GX (t) = eµt GU (σt).
O teorema 2.11 não é a principal propriedade das f.g.m.. A principal reside no facto de permitirem identificar
as distribuições para as quais existem:

Teorema 2.12 A f.g.m. determina univocamente a f.d.; reciprocamente, se a f.g.m. existe, é única.

Exemplos 2.5
1. Considere-se a v.a. X cuja f.p. é definida por
½
p(1 − p)x−1 se x = 1, 2, . . .
f (x) =
0 o.v. de x

onde 0 < p < 1, fixo. Pretende-se determinar E(X) e V ar(X) a partir da f.g.m..

Resolução:
+∞
X
¡ ¢
GX (t) = E eXt = p(1 − p)x−1 ext
x=1
+∞
X
= p et (1 − p)x−1 e(x−1)t
x=1
+∞
X £ ¤x−1
= p et (1 − p)et
x=1

t 1
= pe
1 − (1 − p)et
desde que (1 − p)et < 1, isto é, quando t < − ln(1 − p).
Assim, resulta que
0 pet
GX (t) = 2
(1 − (1 − p)et )
e
0 1
E(X) = GX (0) = .
p
Para o cálculo da derivada de segunda ordem, observe-se primeiro que

0 GX (t)
GX (t) = .
1 − (1 − p)et
Logo,
0
00 GX (t) [1 − (1 − p)et ] + (1 − p)et GX (t)
GX (t) = 2
[1 − (1 − p)et ]
e
¡ ¢ 2−p
E X 2 = GX
00
(0) = .
p2
Consequentemente,
2−p 1 1−p
V ar(X) = − 2 = .
p2 p p2

18
2. Considere-se agora a v.a. Y com f.d.p. dada por:
½ −2y
2e se y ≥ 0
g(y) =
0 se y < 0

Pretende-se determinar E(Y ) a partir da f.g.m. de Y .

Resolução:
Z +∞
¡ ¢
GY (t) = E eY t = ety · 2e−2y dy
0
· ¸z
1 (t−2)y
= lim 2 · e
z→+∞ t−2 y=0
· ¸
2 (t−2)z
= lim e −1
t − 2 z→+∞
2
= (0 − 1)
t−2
2
=
2−t

sempre que t < 2. Logo, ¯


2 ¯ 1
E(X) = GY0 (t)|t=0 = ¯ = .
(2 − t)2 ¯t=0 2

2.3 Vectores Aleatórios


Quando se pretende estudar inúmeras situações, no estudo probabilı́stico ou estatı́stico, envolvendo n propri-
edades ou caracterı́sticas quantitativas dos elementos ω do espaço de resultados Ω, faz-se corresponder a cada
um desses elementos um ponto (x1 , x2 , . . . , xk ) ∈ Rn . Isto é,

ω −→ (X1 (ω), X2 (ω), . . . , Xn (ω)) .

Assim, por meio de uma aplicação Ω → Rn substitui-se o espaço de resultados pelo conjunto Rn .

Definição 2.19 Se para cada ponto (x1 , x2 , . . . , xn ) ∈ Rn , o conjunto de Ω,

{ω : X1 (ω) ≤ x1 , X2 (ω) ≤ x2 , . . . , Xn (ω) ≤ xn }

é um acontecimento, diz-se que


X(ω) = (X1 (ω), X2 (ω), . . . , Xn (ω)) ,
ou, simplesmente,
X = (X1 , X2 , . . . , Xn ) ,
é um vector aleatório ou uma variável aleatória n-dimensional.

Os conceitos abordados para uma variável aleatória (f.d., v.a. discretas, v.a. contı́nuas, f.p., f.d.p, etc...)
podem generalizar-se para uma variável aleatória n-dimensional. No entanto, grande parte de tal generalização
será feita somente para v.a. bidimensionais. Assim, dada uma v.a. bidimensional ou vector aleatório (X, Y ), a
probabilidade de obter um ponto na região do plano R2 pelas desigualdades, X ≤ x, Y ≤ y,

P (X ≤ x, Y ≤ y) = P {ω : X(ω) ≤ x, Y (ω) ≤ y}

existe sempre, por definição e podemos introduzir a seguinte

Definição 2.20 Chama-se função de distribuição da v.a. bidimensional (X, Y ) ou função de distri-
buição conjunta das v.a. X e Y a
F (x, y) = P (X ≤ x, Y ≤ y).

Teorema 2.13 Se F (x, y) é f.d. das v.a. X e Y e [x1 , x2 ] × [y1 , y2 ] é um intervalo de R2 , então

P (x1 ≤ X ≤ x2 , y1 ≤ Y ≤ y2 ) = F (x2 , y2 ) + F (x1 , y1 ) − F (x1 , y2 ) − F (x2 , y1 )

19
Teorema 2.14 Para qualquer f.d. F (x, y),

F (−∞, y) = F (x, −∞) = 0 e F (+∞, +∞) = 1.

Teorema 2.15 Toda a f.d. F (x, y) é não decrescente em relação a cada variável.

Teorema 2.16 Toda a f.d. F (X, Y ) é contı́nua à direita em relação a cada variável,

F (x+ , y) = F (x, y) = F (x, y + ).

Quando se trabalha com a distribuição conjunta das v.a. X e Y , pode interessar o cálculo da probabilidade
de se ter X ≤ x qualquer que seja o valor assumido pela v.a. Y . Esse cálculo,

P (X ≤ x) = P (X ≤ x, Y ≤ +∞) = lim F (x, y) = F (x, +∞),


y→+∞

conduz à definição de F1 (x) = F (x, +∞), distribuição marginal da v.a. X.


Analogamente,
P (Y ≤ y) = P (X ≤ +∞, Y ≤ y) = lim F (x, y) = F (+∞, y),
x→+∞

define a distribuição marginal da v.a. Y , F2 (y)


Se os acontecimentos, X ≤ x e Y ≤ y, são independentes, então resulta

P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y),

as v.a. X e Y dizem-se independentes e a respectiva f.d. conjunta é o produto das distribuições marginais,

F (x, y) = F1 (x)F2 (y),

para todo o ponto (x, y) ∈ R2 . Pode mostrar-se que esta condição é necessária e suficiente para que se tenha

P (X ∈ E1 , Y ∈ E2 ) = P (X ∈ E1 )P (Y ∈ E2 ),

para quaisquer acontecimentos E1 e E2 definidos, respectivamente, no eixo dos xx e no eixo dos yy.

Teorema 2.17 Dadas duas v.a. independentes, X e Y , considerem-se duas funções U = φ(X) e V = ψ(Y ).
Então, as v.a. U e V são independentes.

Teorema 2.18 Se X e Y são variáveis aleatórias independentes e possuem valor esperado, então

E(X · Y ) = E(X) · E(Y ).

O conceito de independência generaliza-se facilmente a um número finito (ou numerável) de v.a. X1 , X2 , . . . , Xn .

Definição 2.21 As variáveis aleatórias X1 , X2 , . . . , Xn dizem-se independentes se para n números reais ar-
bitrários, x1 , x2 , . . . , xn ,

F (x1 , x2 . . . , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn )
= P (X1 ≤ x1 ) · P (X2 ≤ x2 ) · · · P (Xn ≤ xn )
= F1 (x1 )F2 (x2 ) · · · Fn (xn ),

onde F é a função de distribuição conjunta das v.a. X1 , X2 , . . . , Xn e F1 , F2 , . . . , Fn as respectivas funções de


distribuição marginais.

Vectores Aleatórios Discretos


Definição 2.22 Uma v.a. bidimensional, (X, Y ), diz-se discreta, se dado o conjunto finito ou numerável

D = {(xi , yj ) : P (X = xi , Y = yj ) > 0} ,

se tem,
P [(X, Y ) ∈ D] = 1.

20
Agora, também podemos definir a função de probabilidade de (X, Y ),
½
> 0 se (x, y) ∈ D
f (x, y) = P (X = x, Y = y) ,
= 0 se (x, y) ∈ D

e tem as seguintes propriedades:

1. f (x, y) ≥ 0, ∀(x, y) ∈ R2 ;
X
2. f (xi , yj ) = 1;
(xi ,yj )∈D
X
3. P [(X, Y ) ∈ E] = f (xi , yj );
(xi ,yj )∈E∩D
X
4. F (x, y) = P (X ≤ x, Y ≤ y) = f (xi , yj ).
xi ≤x
yj ≤y

As f.p. marginais são definidas, com

D = {(xi , yj ) : i, j = 1, 2, . . .} ,

por, X
f1 (xi ) = P (X = xi ) = f (xi , yj ), i = 1, 2, . . .
j
X
f2 (yj ) = P (Y = yj ) = f (xi , yj ), j = 1, 2, . . .
i

sendo, evidentemente, f1 (x) = 0, se (x, yj ) 6∈ D, e f2 (y) = 0, se (xi , y) 6∈ D.


As v.a. X e Y são independentes quando discretas se, e somente se,

f (xi , yj ) = f1 (xi )f2 (yj ),

para todo o ponto (xi , yj ) ∈ D.

Vectores Aleatórios Contı́nuos


Definição 2.23 Uma v.a. bidimensional, (X, Y ), é do tipo contı́nuo se existir uma função não negativa, f (x, y),
tal que Z Z x y
F (x, y) = f (u, v) dudv,
−∞ −∞

para todo (x, y) ∈ R2 , onde F (x, y) é a função de distribuição de (X, Y ). A função f (x, y) diz-se função de
densidade de probabilidade de (X, Y ) ou função de densidade de probabilidade conjunta das v.a. X
e Y e satisfaz a igualdade,
Z +∞ Z +∞
f (x, y) dxdy = 1.
−∞ −∞

Se a f.d.p. f (x, y) for contı́nua no ponto (x, y) tem-se

∂ 2 F (x, y)
f (x, y) = .
∂x∂y

Por definição de f.d. marginal da v.a. X tem-se,


Z x Z +∞
F1 (x) = F (x, +∞) = f (u, v) dudv;
−∞ −∞

assim,
Z +∞
f1 (x) = F10 (x) = f (x, y) dy
−∞

21
é a função de densidade marginal de X. Analogamente,
Z +∞
0
f2 (y) = F2 (y) = f (x, y) dx,
−∞

é a função de densidade marginal de Y .


A generalização destes conceitos para uma v.a. n-dimensional é imediata.

Seja (X, Y ) uma v.a. bidimensional. O valor esperado


µ0rs = E(X r Y s ),
se existir, define um momento de ordem r + s em relação à origem.
Assim, existindo os momentos de ordem 1, tem-se
µ010 = E(X) e µ001 = E(Y ),
sendo os centros de gravidade das distribuições marginais de X e Y , respectivamente.
Existindo os momento de ordem 2, temos
µ020 = E(X 2 ), µ011 = E(XY ), µ002 = E(Y 2 ).
Para os momentos centrados, o valor esperado
µrs = E [(X − µX )r (Y − µY )s ] ,
se existir, define um momento de ordem r + s em relação à média.
Para os momentos de ordem 1, tem-se µ10 = 0 = µ01 , e para os de ordem 2,
µ20 = V ar(X), µ02 = V ar(Y ), µ11 = E [(X − µX )(Y − µY )] ;
µ11 , que se representa também por Cov(X, Y ), designa-se por covariância entre X e Y . Observe-se que
Cov(X, Y ) = E(XY ) − E(X)E(Y ).
Como consequência desta expressão e do teorema 2.18 temos o seguinte
Teorema 2.19 Se as v.a. X e Y são independentes, então Cov(X, Y ) = 0.

O interesse da covariância advém da seguinte interpretação: considere-se o centro de gravidade da distribuição


conjunta de X e Y , (µX , µY ), como origem de novos eixos coordenados. Observe a figura

Tem-se, em relação ao novo sistema de eixos, que (x − µX )(y − µY ) > 0, no 1o e 3o quadrantes,


(x − µX )(y − µY ) < 0, no 2o e 4o quadrantes. Assim, se X e Y variam no mesmo sentido, existe probabi-
lidade elevada para que os valores de X acima da média estejam associados com valores de Y acima da média e
para os valores de X abaixo da média estejam associados com valores de Y abaixo da média, isto é, predominam
os pontos no 1o e 3o quadrantes e a covariância sai positiva e relativamente grande. Por outro lado, X e Y
variam em sentido contrário se existe probabilidade elevada para que os valores de X acima da média estejam
associados com valores de Y abaixo da média e para valores de X abaixo da média estejam associados com
valores de Y acima da média. Neste caso, predominam os pontos no 2o e 4o quadrantes e a covariância sai
negativa e relativamente grande em valor absoluto.
A covariância depende das unidades em que se exprimem as v.a. X e Y . Ora, é desejável introduzir um
parâmetro que caracterize a associação entre as variáveis X e Y sem depender dessas unidades.

22
Definição 2.24 Chama-se coeficiente de correlação entre X e Y ao parâmetro
Cov(X, Y ) Cov(X, Y )
ρ= p = ,
V ar(X)V arY σX σY
ou
µ11
ρ= √ .
µ20 µ02

Teorema 2.20 (Desigualdade de Cauchy-Schwartz) Se X e Y são v.a. conjuntamente distribuı́das com mo-
mentos de ordem 2 finitos, então
h i2 ¡ ¢ ¡ ¢
E(XY ) ≤ E X 2 E Y 2 ,
verificando-se a igualdade se, e somente se, para alguma constante t0 ,

P (t0 X = Y ) = 1.

Teorema 2.21 O valor absoluto do coeficiente de correlação nunca exceda a unidade,

|ρ| ≤ 1;

além disso, ρ = ±1 quando e só quando, com probabilidade um,


(Y − µY ) (X − µX )
=± .
σY σX
Resumindo, se as v.a. X e Y são independentes, ρ = 0; se X e Y são linearmente independentes (com
probabilidade um), ρ = ±1; nos outros casos, os valores mais ou menos elevados de |ρ| traduzem o menor
ou maior afastamento entre duas rectas que delimitam a região do plano onde se concentram com elevada
probabilidade os valores de (X, Y ). Voltaremos a este assunto no último capı́tulo destes apontamentos.

Teorema 2.22 Se as v.a. X e Y possuem segundos momentos finitos, então

V ar(X ± Y ) = V ar(X) ± 2Cov(X, Y ) + V ar(Y ).

Corolário 2.23 Se as v.a. X e Y possuem segundos momentos finitos e covariância nula, então

V ar(X ± Y ) = V ar(X) + V ar(Y ).

Distribuições Condicionados
O conceito de distribuição condicionada é baseado no de probabilidade condicionada. Vamos somente estudar
o caso bidimensional e de uma forma abreviada.
No caso discreto, a probabilidade do acontecimento X = xi , condicionada pela realização do acontecimento
Y = yj , com P (Y = yj ) > 0, define-se por
P (X = xi , Y = yj )
P (X = xi |Y = yj ) = ,
P (Y = yj )
onde yj é um valor fixo e para i = 1, 2 . . .. De modo semelhante, define-se a probabilidade de Y = yj condicionada
por X = xi . As notações utilizadas para estas funções de probabilidade são, no primeiro caso,
f (xi , yj )
f (xi |yj ) = ,
f2 (yj )
com yj fixo e i = 1, 2, . . .; no segundo caso
f (xi , yj )
f (yj |xi ) = ,
f1 (xi )
com xi fixo e j = 1, 2 . . ..
No caso contı́nuo, a função de distribuição de Y condicionada por X = x, simbolicamente, F (y|x) ou
Fy|x (y|x) é dada por
Ry Ry
−∞
f (x, v) dv f (x, v) dv
F (y|x) = R +∞ = −∞ .
f (x, v) dv f1 (x)
−∞

23
Derivando em ordem a y obtém-se a correspondente função de densidade de Y condicionada por X = x,

f (x, y)
f (y|x) = .
f1 (x)

Analogamente, define-se função de densidade de X condicionada por Y = y,

f (x, y)
f (x|y) = .
f2 (y)

Vejamos agora o que se passa com os valores esperados destas distribuições condicionadas.

Definição 2.25 Considere-se a v.a. φ(X, Y ) função das v.a. X e Y . O valor esperado de φ(X, Y ) condicionado
por X = x, em sı́mbolos E[φ(X, Y )|X = x] ou, simplesmente, E[φ(X, Y )|x] é definido, consoante se trate do
caso discreto ou contı́nuo, por X
E[φ(X, Y )|xi ] = φ(xi , yj )f (yj |xi ),
j
ou, por, Z +∞
E[φ(X, Y )|x] = φ(x, y)f (y|x).
−∞

Define-se E[φ(X, Y )|y] de modo análogo.

Em particular, consoante se trate do caso discreto ou contı́nuo,


X
E(Y |xi ) = yj f (yj |xi )
j

ou Z +∞
E(Y |x) = yf (y|x) dy,
−∞

representa a média de Y condicionada por X = x, isto é, a média da distribuição condicionada com f.p ou f.d.p.
f (y|x). Fisicamente, E(Y |x) é o centro de gravidade da distribuição de probabilidade sobre a recta X = x.
Observe-se que E(Y |X) é uma v.a. função da v.a. X, que assume o valor E(Y |x) quando X assume o valor x.
Do mesmo modo, consoante se trate do caso discreto ou contı́nuo,
X
E(X|yj ) = xi f (xi |yj )
i

ou Z +∞
E(X|y) = xf (x|y) dx,
−∞

representa a média de X condicionada por Y = y, isto é, a média da distribuição condicionada com f.p ou f.d.p.
f (x|y) e E(X|Y ) é uma v.a. função da v.a. Y , que assume o valor E(X|y) quando Y assume o valor y.

Proposições 2.24 Existindo os valores esperados respectivos,


1. E(c|X) = c, onde c é uma constante;
2. E[mφ(Y ) + c|X] = mE[φ(Y )|X] + c;
3. E[φ1 (Y ) + φ2 (Y )|X] = E[φ1 (Y )|X] + E[φ2 (Y )|X];
4. E[φ1 (X)φ2 (Y )|X] = φ1 (X)E[φ2 (Y )|X];
5. E[φ(Y )] = E [E (φ(Y )|X)];

6. E(Y ) = E[E(Y |X)];


7. Se Y ≥ 0, E(Y |X) ≥ 0;
8. Se Y1 ≥ Y2 , E(Y1 |X) ≥ E(Y2 |X).

24
Capı́tulo 3

Distribuições Teóricas

3.1 Distribuição Uniforme Discreta em N Pontos


Definição 3.1 A v.a. X diz-se que tem uma distribuição uniforme discreta em N pontos quando a
respectiva f.p. é da forma
1
f (xi ) = P (X = xi ) = , i = 1, 2, . . . , N.
N
Proposição 3.1 Se X é uma v.a. com distribuição uniforme em N pontos, então
N
1 X txi
1. GX (t) = e ;
N i=1

N
1 X
2. E(X) = xi ;
N i=1

N
à N
!2
1 X 2 1 X
3. V ar(X) = x − xi
N i=1 i N i=1

N +1 N2 − 1
Observação 3.1 Em particular, se xi = i, i = 1, 2, . . . N , E(X) = e V ar(X) = .
2 12

3.2 Distribuição Binomial


A distribuição Binomial é um modelo probabilı́stico que permite o estudo de experiências aleatórias onde importa
a contagem do número de vezes que ocorre um determinado acontecimento. A utilização deste modelo requer
que as provas (experiências) sejam de Bernoulli, isto é, uma sequência de experiências aleatórias independentes
em cada umas das quais se observa a realização ou não realização de um acontecimento A com probabilidade p,
constante. A ocorrência de A constitui um sucesso e a ocorrência de A um insucesso.
No caso em que se considera uma única prova de Bernoulli, a respectiva distribuição de probabilidade é
definida da seguinte forma:

Definição 3.2 Uma v.a. X tem (segue) distribuição de Bernoulli de parâmetro p (0 ≤ p ≤ 1, fixo) se a
sua função de probabilidade é definida por
(
px (1 − p)1−x se x = 0 ∨ x = 1
fX (x) = .
0 se x ∈ R \ {0, 1}

Proposição 3.2 Se X é uma v.a. que tem distribuição de Bernoulli de parâmetro p, então
1. GX (t) = (1 − p) + p et ;
2. E(X) = p;
3. Var(X) = p(1 − p).

25
Se considerarmos N provas de Bernoulli, o modelo define-se da seguinte forma:

Definição 3.3 Uma v.a. X tem distribuição binomial de parâmetros N e p (com N ∈ N e 0 ≤ p ≤ 1),
abreviadamente escreve-se X ∼ B(x, N, p) ou, simplesmente, X ∼ B(N, p), se a sua f.p. é tal que
(
N
Cx px (1 − p)N −x se x = 0, 1, 2, . . . , N
fX (x) = .
0 o.v.

Observações 3.2

1. É evidente que uma v.a. com distribuição binomial é uma v.a. discreta. Diz-se então que a distribuição
binomial é uma distribuição discreta.
Px
2. Se X ∼ B(N, p), então FX (x) = P (X ≤ x) = i=0 NCi pi (1 − p)N −i .
N
X
N N
3. Obviamente, Ci pi (1 − p)N −i = (p + (1 − p)) = 1.
i=0

Proposição 3.3 Se X é uma v.a. tal que X ∼ B(N, p), então


N
1. GX (t) = [(1 − p) + p et ] ;

2. E(X) = N p;

3. Var(X) = N p(1 − p).

Exemplo 3.1 Considere-se a e.a.: Lançamento de um dado e registo do número de pontos obtidos.
Qual é a probabilidade de se obter duas vezes a face 3 em 6 lançamentos do dado?
Resolução: Defina-se
X = número de vezes que ocorre a face 3, em 6 lançamentos.
Então, X ∼ B(6, p), em que p = P (A) = 16 , com A = “saı́da da face 3”. Pretende-se calcular P (X = 2):
µ ¶2 µ ¶4
1 5
P (X = 2) = 6C2 ≈ 0.2009.
6 6
r
1 1 5 5 5
Observe-se ainda que E(X) = 6 × = 1, Var(X) = 6 × × = e σX = .
6 6 6 6 6

3.3 Distribuição Geométrica


Para a distribuição binomial, o número de provas de Bernoulli era fixo. Agora, tomaremos uma sucessão infinita
de provas de Bernoulli. A probabilidade de sucesso é p, constante de prova para prova, e uma variável aleatória
com distribuição geométrica representará o número de provas de Bernoulli, independentes, de parâmetro p, até
à ocorrência do primeiro sucesso. Assim,

Definição 3.4 Uma v.a. X tem distribuição geométrica de parâmetro p, abreviadamente X ∼ Geo(p),
quando a sua f.p. for da forma
½
(1 − p)x−1 p se x = 1, 2 . . . ,
f (x) =
0 o.v. de x.

Proposição 3.4 Se X é uma v.a. tal que X ∼ Geo(p), então


1
1. GX (t) = p et ;
1 − (1 − p)et
1
2. E(X) = ;
p
1−p
3. V ar(X) = .
p2

26
Teorema 3.5 Se X é uma v.a. tal que X ∼ Geo(p), então, para quaisquer inteiros positivos s e t,

P (X > s + t|X > s) = P (X > t).

Observação 3.3 Devido ao teorema anterior, é usual dizer-se que a distribuição geométrica não tem memória,
já que, decorridas mais de s provas sem que tenha ocorrido um sucesso, a probabilidade de ainda ter de esperar
mais t provas é exactamente igual à probabilidade de ter de esperar mais de t provas por um sucesso a partir
no momento inicial.

3.4 Distribuição Hipergeométrica


Vimos que a distribuição binomial é o modelo teórico adequado para estudar as propriedades dos esquemas
probabilı́sticos do seguinte tipo: Considere-se um conjunto (população) finito constituı́do por M elementos de
dois tipos (digamos, A e B) nas proporções p e q = 1−p, do qual se retira ao acaso e com reposição N elementos;
qual a probabilidade de obter x elementos de um determinado tipo (por exemplo, do tipo A), com 0 ≤ x ≤ N ?
Observe-se que, no esquema anterior, a extracção de um determinado elemento não depende de uma
extracção anterior, já que existe reposição desse elemento. Assim, as sucessivas provas (extracções) são inde-
pendentes (provas de Bernoulli). Se os elementos forem retirados sucessivamente sem reposição (ou em bloco)
a independência deixa de existir, pois a probabilidade de ocorrência de cada um dos resultados possı́veis não se
mantém constante de prova para prova. Então, passaremos a ter um modelo probabilı́stico diferente do binomial
que se define da seguinte forma:

Definição 3.5 Uma v.a. X segue uma distribuição hipergeométrica de parâmetros M , N e p (simbolica-
mente X ∼ H(M, N, p), se a sua f.p. é definida por
 Mp
 Cx · MqCN −x
MC
se x ∈ N0 ∧ max(0, N − M q) ≤ x ≤ min(N, M p)
fX (x) = N ,

0 o.v. de x

com q = 1 − p.

Proposição 3.6 Se X é uma v.a. tal que X ∼ H(M, N, p), então

1. E(X) = N p;
M −N
2. Var(X) = N p(1 − p) .
M −1

Observe-se que os valores esperados das distribuições B(N, p) e H(M, N, p) é o mesmo e as variâncias
apenas se distinguem pelo factor (M − N )/(M − 1). Quando M é grande comparado com N , naturalmente que
se esbate a diferença entre extracções com e sem reposição. Nesta situação, (M − N )/(M − 1) é próximo da
unidade e não surpreende o seguinte resultado:

Teorema 3.7 Com N e p fixos,


Mp
Cx · MqCN −x
lim MC
= NCx px q N −x ,
M →+∞ N

isto é, a distribuição hipergeométrica H(M, N, p) aproxima-se da distribuição binomial B(N, p), para M grande.

Exemplo 3.2 De um grupo de 1000 habitantes de uma certa região há 2% que são proprietários das casas
que habitam. Se se colhe ao acaso uma amostra de 100 indivı́duos, com e sem reposição, são as seguintes as
probabilidades de obter x indivı́duos com casa própria:
100
a) com reposição: Cx (0.02)x (0.98)100−x ;
20
Cx · 980C100−x
b) sem reposição: 1000C
.
100

No quadro seguinte faz-se a comparação dos respectivos valores não se tendo ido além de x = 9, por motivos
óbvios.

27
x B(N = 100, p = 0.02) H(M = 1000, N = 100, p = 0.02)
0 0.1326 0.1190
1 0.2707 0.2701
2 0.2734 0.2881
3 0.1823 0.1918
4 0.0902 0.0895
5 0.0353 0.0311
6 0.0114 0.0083
7 0.0031 0.0018
8 0.0007 0.0003
9 0.0002 0.0000

Quando N < M/10, a distribuição Binomial fornece já uma aproximação satisfatória da distribuição Hiper-
geométrica, podendo nesse caso beneficiar-se da sua maior acessibilidade.

3.5 Distribuição de Poisson


A distribuição de Poisson, desenvolvida por S.D. Poisson, permite descrever um vasto conjunto de fenómenos
aleatórios em que os acontecimentos se repetem no tempo (por exemplo, as entradas de clientes num super-
mercado) ou no espaço (por exemplo, os defeitos de isolamento registado ao longo de um cabo eléctrico ou os
defeitos de acabamento numa placa de vidro).
Uma v.a. discreta que represente o número de ocorrências de uma dado acontecimento por unidade de tempo
(ou espaço) seguirá uma distribuição de Poisson se verificar as seguintes condições:

C1. O números de ocorrência registadas em diferentes intervalos de tempo (espaço) são independentes entre si.

C2. A distribuição do número de ocorrências em cada intervalo de tempo (espaço) é a mesma para todos os
intervalos.

C3. A probabilidade de se registar uma ocorrência num intervalo qualquer de dimensão (comprimento) ∆t,
∆P1 , é praticamente proporcional à dimensão do intervalo, isto é, ∆P1 ≈ λ · ∆t.

Nestas condições, temos a definição seguinte:

Definição 3.6 Uma v.a. X tem distribuição de Poisson de parâmetro λ > 0, simbolicamente X ∼ P oisson(λ),
se a sua f.p. é definida por  −λ x
 e λ
se x ∈ N0
fX (x) = x! .

0 o.v. de x

+∞ x
X λ
Observação 3.4 Sendo eλ = , então resulta de imediato que, se X ∼ P oisson(λ),
x=0
x!

+∞
X +∞ −λ x
X +∞ x
X
e λ λ
P (X = x) = = e−λ = e−λ eλ = 1.
x=0 x=0
x! x=0
x!

Proposição 3.8 Se X é uma v.a. tal que X ∼ P oisson(λ), então

1. GX (t) = eλ(e −1)


t
;

2. E(X) = λ;

3. Var(X) = λ;

Teorema 3.9 Se as v.a. Xi , para i = 1, 2, . . . , n, são independentes e Xi ∼ P oisson(λi ), i = 1, 2, . . . , n, então


n
à n !
X X
X= Xi ∼ P oisson λi .
i=1 i=1

28
A distribuição de Poisson foi descoberta quando este matemático estudava formas limite da distribuição
binomial. A forma como uma distribuição binomial pode ser aproximada por uma distribuição de Poisson é
dada por:

Teorema 3.10 Seja X uma v.a. tal que X ∼ B(N, p). Então, quando N → +∞ e p é próximo de zero,
o
X ∼ P oisson(N p)

Observação 3.5 A qualidade da aproximação depende de N , λ e x. Em geral:

1. Fixados λ e x, melhora quando N aumenta;

2. Fixados N e x, melhora quando λ se aproxima de zero;

3. Fixados N e λ, piora quando x se afasta de λ.

Convém ainda referir que, quando N → +∞ e, simultaneamente, p → 0 de forma que N p → λ, a qualidade de


aproximação piora.

Exemplo 3.3 Seja X ∼ B(1000, 0.001). Sabemos, por exemplo, que

P (X > 1) = 1 − P (X = 0) − P (X = 1)
= 1 − 1000C0 (0.001)0 × (0.999)1000 − 1000C1 (0.001)1 × (0.999)999
= 0.264241087

e aproximando pela distribuição de Poisson:


o
X ∼ P oisson(1)

e−1 10 e−1 11
P (X > 1) ≈ 1 − − = 0.2642411177
0! 1!
O erro é inferior a 3.1 × 10−8 .

Seja Y ∼ B(2000, 0.001).

P (Y > 1) = 1 − P (Y = 0) − P (Y = 1)
= 1 − 2000C0 (0.001)0 × (0.999)2000 − 2000C1 (0.001)1 × (0.999)1999
= 0.5941295533

e aproximando pela distribuição de Poisson:


o
Y ∼ P oisson(2)

e−2 20 e−2 21
P (Y > 1) ≈ 1 − − = 0.5939941503
0! 1!
O erro é inferior a 1.4 × 10−4 mas superior a 3.1 × 10−8 .

O interesse prático de aproximar uma distribuição binomial por uma de Poisson resulta de o cálculo da função
de probabilidade ser mais simples no segundo caso. Tendo em conta o que foi referido na última observação
e usando simulações, tal aproximação só é razoável quando N ≥ 30 e só tem interesse quando a distribuição
Binomial for assimétrica com N p < 5. De facto, veremos mais à frente que se a distribuição Binomial for
simétrica (ou quase simétrica), é mais prático aproximá-la por uma outra distribuição (a distribuição Normal).
A distribuição de Poisson na forma como foi definida serve essencialmente para interpretar fenómenos (como
os descritos anteriormente) num intervalo de tempo ou espaço de comprimento 1. Em geral, para um intervalo
[0, t], a função de probabilidade é dada por

e−λt (λt)x
P (X = x) = , x = 0, 1, 2, . . . ,
x!
isto é, X ∼ P oisson(λt).

29
Exemplo 3.4 Durante o horário de almoço (das 12h às 14h), o número médio de automóveis que chegam a
um parque de estacionamento é de 360. Qual a probabilidade de, durante um minuto, chegarem 2 automóveis?

Resolução: A taxa média de chegadas por minuto é

λ = 360/120min. = 3/min..

Admitindo-se que a v.a. X = número de automóveis que chegam ao estacionamento por minuto, é tal que
X ∼ P oisson(3), então
e−3 32
P (X = 2) = ≈ 0.2240.
2!
Se fosse em 2 minutos, tinha-se Y ∼ P oisson(6) e

e−6 62
P (Y = 2) = ≈ 0.0446.
2!

3.6 Distribuição Uniforme


Com o estudo da Distribuição Uniforme inicia-se o estudo das distribuições contı́nuas.

Definição 3.7 Uma v.a. X, do tipo contı́nuo, tem distribuição Uniforme ou Rectangular no intervalo
limitado [a, b], simbolicamente X ∼ U (a, b), quando a sua f.d.p. é da forma,

 1
se a ≤ x ≤ b
f (x) = b−a .

0 se x < a ∨ x > b

É fácil encontrar a respectiva função de distribuição. Esta é dada por




 0 se x < a
 x−a
F (x) = se a ≤ x ≤ b .

 b−a

1 se x > b

Observe os gráficos seguintes:

Proposição 3.11 Se X é uma v.a. tal que X ∼ U (a, b), então

ebt − eat
1. GX (t) =
t(b − a)

a+b
2. E(X) =
2

(b − a)2
3. Var(X) =
12

30
3.7 Distribuição Exponencial
Definição 3.8 Uma v.a. X tem distribuição Exponencial (ou Exponencial Negativa) de parâmetro
λ > 0, abreviadamente X ∼ Exp(λ), se a sua f.d.p. é tal que
½
λ e−λx se x > 0
f (x) = .
0 se x ≤ 0

Teorema 3.12 Se X é uma v.a. tal que X ∼ Exp(λ), então


λ
1. GX (t) = ;
λ−t
1
2. E(X) = ;
λ
1
3. V ar(X) = .
λ2
Teorema 3.13 Seja X uma v.a. tal que X ∼ Exp(λ). Então a v.a. X ”não tem memória”, isto é,

P (X > s + t|X > s) = P (X > t).

3.8 Distribuição Normal


A distribuição Normal (ou de Gauss) é a distribuição mais importante, não só do ponto de vista teórico,
mas também do ponto de vista prático. Esta importância irá sendo evidenciada ao longo do curso à medida
que forem introduzidas no nosso estudo as suas propriedades. Pode, desde já, avançar-se que existem muitas
variáveis aleatórias obedecendo exactamente a esta lei de probabilidade ou então variáveis aleatórias que não
tendo distribuição Normal, aproximam-se muito de uma distribuição Normal.
Historicamente, esta lei de probabilidade foi descoberta por De Moivre, em 1733, no decurso de investigações
sobre o limite da distribuição Binomial.

Definição 3.9 Uma v.a. X tem distribuição Normal com média µ e desvio padrão σ (ou de parâmetros µ
e σ), simbolicamente X ∼ N (µ, σ), se a sua f.d.p. é definida por

1 (x−µ)2
f (x) = √ e− 2σ2 , x ∈ R.
2πσ
Observação 3.6 O que distingue uma distribuição Normal de outra distribuição Normal é a sua média e o seu
desvio padrão.

Teorema 3.14 Se X é uma v.a, tal que, X ∼ N (µ, σ), então


σ 2 t2
GX (t) = eµt+ 2 .

Graficamente, a f.d.p. de uma v.a. com distribuição Normal é representada por uma curva em forma de
sino, ou curva normal:
Propriedades da Curva Normal:

• É simétrica relativamente à recta de equação x = µ. Assim, a média, moda e mediana são iguais;

• Tem dois pontos de inflexão: pontos de abcissas µ − σ e µ + σ;

• A recta de equação y = 0 é uma assı́mptota horizontal, quando x → ±∞;

Já sabemos que, nas distribuições contı́nuas, áreas limitadas entre a curva da f.d.p e o eixo dos xx, para um
dado intervalo de números reais, representa probabilidades. Assim, suponhamos que pretendemos calcular a
área limitada entre a curva normal e o eixo dos xx relativamente ao intervalo [a, b], isto é, pretendemos calcular
Z b Z b
1 (x−µ)2
P (a ≤ X ≤ b) = f (x) dx = √ e− 2σ 2 dx.
a σ 2π a

31
0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
-1 0 1 2 3 4 5
f.d.p. da Dist. N(2,0.5)

Conhecidos µ e σ, o integral anterior envolve algumas dificuldades. E como futuramente teremos que calcular
com muita frequência probabilidades envolvendo a distribuição Normal, não é prático este sistema directo de
cálculo. Existem tabelas que nos permitem calcular, aproximadamente, probabilidades com a distribuição
Normal. No entanto, as tabelas existentes são para a distribuição Normal Estandardizada, isto é, a distribuição
normal com média 0 e desvio padrão 1. Então, é necessário seguir o seguinte procedimento para utilizar uma
tabela: suponhamos que pretendemos calcular P (a ≤ X ≤ b), com X ∼ N (µ, σ). Sabemos que
X −µ
Z= ∼ N (0, 1).
σ
Logo,
µ ¶
a−µ b−µ
P (a ≤ X ≤ b) = P ≤Z≤
σ σ
µ ¶ µ ¶
b−µ a−µ
= P Z≤ −P Z <
σ σ
Se os valores estandardizados de a e b são positivos, então basta usar a tabela da função de distribuição
Normal estandardizada para encontrar o valor pretendido. Se algum deles é negativo, é necessário previamente
usar a simetria da distribuição:

P (Z ≤ z) = P (Z ≥ −z).
Caso se queira utilizar a tabela que dá os valores de P (0 ≤ Z ≤ z), com z > 0, o procedimento poderá ser o
seguinte:
• Se os valores estandardizados de a e b são positivos,
µ ¶
a−µ b−µ
P (a ≤ X ≤ b) = P ≤Z≤
σ σ
µ ¶ µ ¶
b−µ a−µ
= P 0≤Z≤ −P 0≤Z < .
σ σ
• Se o valor estandardizado de a é negativo e o valor estandardizado de b é positivo,
µ ¶
a−µ b−µ
P (a ≤ X ≤ b) = P ≤Z≤
σ σ
µ ¶ µ ¶
b−µ a−µ
= P 0≤Z≤ +P 0≤Z ≤− .
σ σ
• Se os valores estandardizados de a e b são negativos,
µ ¶
a−µ b−µ
P (a ≤ X ≤ b) = P ≤Z≤
σ σ
µ ¶
b−µ a−µ
= P − ≤Z≤−
σ σ
µ ¶ µ ¶
a−µ b−µ
= P 0≤Z≤− −P 0≤Z <− .
σ σ

32
Exemplos 3.5

1. Suponhamos que Z ∼ N (0, 1). Então

i) P (Z ≤ 0) = P (Z ≥ 0) = 0.5;
ii) P (z ≤ 2) = P (Z ≤ 0) + P (0 ≤ Z ≤ 2) = 0.5 + 0.4772 = 0.9772;
iii) P (Z ≤ −1) = P (Z ≥ 1) = 0.5 − P (0 ≤ Z < 1) = 0.5 − 0.3413 = 0.1587;

X − 3.4
2. Suponhamos que X ∼ N (3.4, 0.23). Então Z = ∼ N (0, 1) e
0.23
µ ¶
4 − 3.4
i) P (X > 4) = P Z> ≈ 0.5 − P (0 ≤ Z ≤ 2.61) = 0.0045;
0.23
ii) P (3.2 ≤ X ≤ 3.8) ≈ P (−0.87 ≤ Z ≤ 1.74) = P (0 ≤ Z ≤ 1.74) + P (0 ≤ Z ≤ 0.87) = 0.7669.

Vejamos agora alguma propriedades importantes da distribuição Normal que têm inúmeras aplicações.

Teorema 3.15 Se X1 , X2 , . . . , Xn são variáveis aleatórias independentes tais que Xi ∼ N (µi , σi ) e ai constan-
tes reais, com i = 1, 2, . . . , n, então a combinação linear
 v 
n n u n
X X uX
X= ai Xi ∼ N µ = ai µi , σ = t a2i σi2  .
i=1 i=1 i=1

Teorema 3.16 (Teorema do Limite Central) Sejam X1 , X2 , . . . , Xn variáveis aleatórias independentes e


identicamente
Pn distribuı́das com média µ e variância σ2 (finitos). Se
Yn = i=1 Xi , então
Yn − nµ o
√ ∼ N (0, 1),
σ n
o √
isto é, Yn ∼ N (nµ, σ n), quando n → +∞.

o
Corolário
³ 3.17 (Teorema
´ de De Moivre-Laplace) Se X é uma v.a. tal que X ∼ B(N, p), então X ∼
p
N N p, N p(1 − p) , quando N → +∞.

Em termos práticos, o Teorema de De Moivre-Laplace significa que podemos aproximar uma distribuição
Binomial de parâmetros N e p pela distribuição Normal de média N p e desvio padrão N p(1 − p), quando N é
suficientemente grande.
Sendo a distribuição Binomial discreta e a distribuição Normal contı́nua, requer no cálculo de probabilidades
a necessidade de se proceder a uma correcção adequada, dita correcção de continuidade. A ideia consiste em
aproximar a área de rectângulos do histograma da distribuição Binomial por áreas debaixo da curva Normal.
Observe-se o seguinte gráfico.

33
o √
Por exemplo, se X ∼ B(32, 0.5), pelo Teorema de De Moivre-Laplace, X ∼ W ∼ N (16, 8), isto é,
X − 16 o W − 16
√ ∼Z= √ ∼ N (0, 1).
8 8
Se pretendermos calcular, aproximadamente, P (X = 18), basta procedermos da seguinte forma:

P (X = 18) ≈ P (17.5 ≤ W ≤ 18.5) ≈ P (0.53 ≤ Z ≤ 0.88) ≈ 0.3106 − 0.2019 = 0.1087,


que não se afasta muito do valor dado pela distribuição B(32, 0.5) que é, com dez casas decimais,

P (X = 18) = 32C18 (0.5)32 ≈ 0, 1097646542.


Em geral, se X ∼ B(N, p), pelo Teorema de De Moivre-Laplace
³ p ´
o
X ∼ W ∼ N µ = N p, σ = N p(1 − p) ,

isto é,
X − Np o W − Np
p ∼Z= p ∼ N (0, 1),
N p(1 − p) N p(1 − p)
e fazendo-se a correcção de continuidade temos, por exemplo, que
à !
a − 0.5 − N p a + 0.5 − N p
P (X = a) ≈ P (a − 0.5 ≤ W ≤ a + 0.5) = P p ≤Z≤ p .
N p(1 − p) N p(1 − p)
Quanto à qualidade da aproximação tem-se o seguinte:

1. fixados p, a e b, melhora quando N aumenta;


1
2. fixados N , a e b, melhora quando p está próximo de 2 e piora quando p se aproxima de 0 ou de 1;
3. para um dado N e fixado p, melhora quando a e b estão próximos de zero, o que significa que x está próximo
de N p.

Daqui resulta uma regra, muitas vezes adoptada, que permite bons resultados. Diz o seguinte: a aproximação
da distribuição Binomial pela distribuição Normal é suficientemente boa desde que N ≥ 30 e N p ≥ 5.
Também é possı́vel aproximar uma distribuição de Poisson por uma distribuição Normal. Basta atender ao
seguinte teorema e proceder à correcção de continuidade, já que a distribuição de Poisson também é discreta.

Teorema 3.18 Seja X uma v.a. tal que X ∼ P oisson(λ). Então


³ √ ´
o
X ∼ N λ, λ ,

quando λ → +∞.

Observação 3.7 Para λ ≥ 30 as aproximações são boas para a maioria das aplicações, sobretudo quando se
emprega a correcção de continuidade.

34
Capı́tulo 4

Amostragem

4.1 Métodos de Amostragem


A estatı́stica pode ser definida como uma disciplina que tem por objecto fundamental a recolha, a compilação,
a análise e a interpretação de dados. Para a clarificação do significado de análise e interpretação de dados,
convém distinguir estatı́stica descritiva e inferência estatı́stica. A primeira tem como objectivo sintetizar
e representar de um a forma compreensı́vel a informação contida num conjunto de dados (construção de tabe-
las, de gráficos e cálculo de medidas que representem convenientemente a informação contida nos dados). A
inferência estatı́stica tem objectivos mais ambiciosos que a estatı́stica descritiva e, naturalmente, os métodos
e técnicas requeridos são mais sofisticados. Com base na análise de um conjunto limitado de dados (uma
amostra), pretende-se caracterizar o todo a partir do qual tais dados foram obtidos (a população). Neste e
nos próximos capı́tulos pretende-se estudar a inferência estatı́stica. No entanto, também abordaremos alguns
conceitos elementares de estatı́stica descritiva, que poderão ser úteis.

Definição 4.1 Chama-se população ao conjunto de todos os elementos sobre o qual irá incidir as observações
com o objectivo de o estudar estatisticamente. Cada elemento da população chama-se unidade estatı́stica.

Observações 4.1

1. Num estudo estatı́stico cada unidade estatı́stica perde toda a individualidade para só ser encarada na medida
em que contribui para a estrutura do conjunto (população).

2. Uma população pode ser finita ou infinita, conforme o número de elementos que a compõe seja finito ou
infinito.

Definição 4.2 Chama-se amostra de uma população a qualquer seu subconjunto.

Uma unidade estatı́stica de uma população ou amostra pode ser observada segundo uma dada caracterı́stica.
Em estatı́stica, é usual denominar-se essa caracterı́stica por atributo. Exemplos de atributos: idade, peso,
estado civil, altura, filiação partidária, nı́vel sócio-económico, etc.
Chamam-se modalidades às situações possı́veis em que se pode encontrar uma unidade estatı́stica, em
relação a um dado atributo.

Exemplos 4.1

Atributo Modalidades
Sexo masculino, feminino
Estado civil solteiro, casado, divorciado, viúvo

Observação 4.2 As modalidades de determinado atributo devem ser incompatı́veis e exaustivas, isto é, cada
unidade estatı́stica deve pertencer a uma e uma só das modalidades do atributo considerado.

Definição 4.3 Um atributo diz-se qualitativo se as suas modalidades não são mensuráveis. Caso contrário,
diz-se quantitativo. Aos atributos quantitativos dá-se também o nome de variáveis estatı́sticas.

Exemplos 4.2

35
Atributos qualitativos estado civil, cor, filiação partidária
Atributos quantitativos altura, peso, idade, durabilidade

Observação 4.3 Os atributos quantitativos podem ser contı́nuos ou discretos.

Definição 4.4 O número de vezes que se repete uma modalidade de um dado atributo denomina-se de frequência
absoluta e representa-se por ni . No caso bidimensional, isto é, quando se considera, em conjunta, dois atri-
butos A e B, a frequência absoluta das modalidades i, do atributo A, e j, do atributo B representa-se por nij .
E as frequências absolutas marginais por ni· e n·j , respectivamente para a modalidade i, do atributo A, e j, do
atributo B.
O quociente entre uma frequência absoluta e o número total de observações (n), denomina-se frequência
relativa. No caso unidimensional, a frequência relativa da modalidade i representa-se por fi . No caso bidi-
mensional, a frequência relativa das modalidades i, do atributo A, e j, do atributo B, representa-se por fij . As
frequências relativas marginais representam-se por fi· e f·j .

Em geral, a estudo estatı́stico de uma população, relativamente a um dado atributo (caracterı́stica em


estudo), não se realiza sobre todas as unidades estatı́sticas dessa população, devido a diversas razões. Razões
tais como

• comodidade;

• tempo;

• económicas;

• impossibilidade de observar todas as unidades estatı́sticas.

Assim, o estudo far-se-á incidir somente sobre uma amostra extraı́da da população. Consequentemente, a
partir dessa amostra espera-se poder inferir sobre a população, relativamente ao atributo em estudo. Para se
fazerem tais inferências é necessário escolher um método de amostragem apropriado. A amostragem pode
ser de dois tipos: aleatória e não aleatória; existindo vários métodos de se obter uma amostra para cada
um dos tipos de amostragem.

4.1.1 Métodos de Amostragem Aleatória (Casual)


Nesta amostragem, ao contrário da não aleatória, toda a unidade estatı́stica tem igual probabilidade de fazer
parte da amostra. Assim, consegue evitar-se qualquer enviesamento de selecção, isto é, afasta-se qualquer
tendência sistemática para sub-representar ou sobrerrepresentar na amostra alguns elementos da população.
Nestas circunstâncias, todas as unidades estatı́sticas têm previamente que ser identificadas, exigindo, em geral,
a elaboração de uma lista com todas as unidades estatı́sticas da população, o que nem sempre é fácil.

1. Método de Amostragem Aleatória Simples - Este método consiste em utilizar um processo que possi-
bilite a que toda a unidade estatı́stica tenha igual probabilidade de fazer parte da amostra. Por exemplo,
podia-se escrever o nome de cada indivı́duo em um, e um só papel, introduziam-se todos num saco e ex-
traı́amos, com reposição, apenas alguns nomes. O processo que se utiliza na extracção das bolas do totoloto
é também aleatório, mas não simples. Um pesquisador quando pretende obter uma amostra aleatória sim-
ples, não utiliza um saco, mas sim uma tabela de números aleatórios ou números aleatórios gerados por
computador.

2. Método de Amostragem Sistemática - Este método consiste em incluir na amostra as n-ésimas unidades
estatı́sticas de uma população.

3. Método de Amostragem Estratificada - Este método consiste em dividir a população em subgrupos


(subpopulações) mais homogéneos (estratos) dos quais são extraı́das amostras aleatórias simples, que depois
se juntam para se obter uma amostra da população.
Exemplo: Suponhamos que se pretende estudar o salário mensal dos indivı́duos de certa população. Como
esta caracterı́stica varia com o sexo do indivı́duo e a sua classe social, podı́amos estratificar a população com
base nestes atributos, obtendo-se assim subpopulações homogéneas. Dado que as modalidades (situações
possı́veis em que se pode encontrar uma unidade estatı́stica, em relação a um dado atributo) do atributo
sexo são masculino e feminino e das classes sociais podiam ser alta, média e baixa, então pode-se obter as
seguintes subpopulações:

36
- Homens de classe alta;
- Homens de classe média;
- Homens de classe baixa;
- Mulheres de classe alta;
- Mulheres de classe média;
- Mulheres de classe baixa.
Agora bastará obter amostras aleatórias simples em cada uma das subpopulações de acordo com a percen-
tagem que têm na população.
4. Método de Amostragem por Conglomerados (¿clustersÀ) - Este método consiste em escolher alea-
toriamente algumas áreas bem delineadas (conglomerados) onde se concentram caracterı́sticas encontradas
na população total e seguidamente obter amostras aleatórias dentro de cada um dos conglomerados. Este
método é essencialmente utilizado para reduzir os custos de grandes pesquisas.

4.1.2 Métodos de Amostragem Não Aleatória (Não Casual)


Quando não haja preocupação de rigor na representatividade da amostra (por exemplo, na realização de es-
tudos pilotos ou de análises preliminares), podem utilizar-se métodos de amostragem não aleatórios (ou não
probabilı́sticos), que não permitem definir com rigor as probabilidades de inclusão dos diferentes elementos da
população na amostra. Estes métodos são mais expeditos e mais económicos do que os aleatórios.

1. Amostragem Acidental - Este método consiste em incluir na amostra somente as unidades estatı́sticas
convenientes, excluindo-se, então, as incovenientes.
2. Amostragem por Quotas - Este método consiste em incluir unidades estatı́sticas na amostra segundo
diversas caracterı́sticas da população (tais como: idade, sexo, nı́vel sócio-económico, etnia, etc...) e nas
mesmas proporções que figuram na população.
3. Amostragem por Julgamento ou Conveniência - Este método consiste em incluir na amostra as uni-
dades estatı́sticas que poderão proporcionar uma representatividade da população, de acordo com a lógica,
senso comum ou um julgamento equilibrado.

4.2 Amostragem Aleatória. Distribuições Amostrais


Em todo o estudo que fizermos até ao fim deste capı́tulo e capı́tulos seguintes somente consideraremos amostra-
gem aleatória simples. De acordo com o método de Amostragem simples, formaliza-se uma amostra aleatória
da seguinte forma:

Definição 4.5 Seja X uma variável aleatória que representa uma caracterı́stica numérica de uma população
em estudo (abusivamente diremos, simplesmente, população X). Chama-se amostra aleatória (a.a.) a um
conjunto de n variáveis aleatórias, X1 , X2 , . . . , Xn , independentes e identicamente distribuı́das a X.

Observações 4.4
1. É usual representar-se uma amostra aleatória em forma de sequência ordenada (vector): (X1 , X2 , . . . , Xn ).
2. n é o número total (dimensão, tamanho) de observações realizadas na população.
3. Na amostragem aleatória simples admite-se que a amostragem é efectuada com reposição. Se a amostragem
não for feita com reposição, as variáveis X2 , X2 , . . . , Xn deixam de ser independentes. No entanto, quando
a dimensão da população tende para infinito e a dimensão da amostra se mantém finita, a dependência entre
as variáveis X1 , X2 , . . . , Xn tende a desaparecer. Quando a população for infinita, é indiferente realizar uma
amostragem aleatória com ou sem reposição. A amostragem aleatória é simples em qualquer dos casos.
4. A v.a. Xk (k = 1, 2, . . . , n), indica o valor numérico da caracterı́stica em estudo na população sobre o k-
ésimo elemento da amostra. Retirada a amostra, observam-se os valores de X1 , X2 , . . . , Xn ; de acordo com
a notação que tem vindo a adoptar-se, esses valores observados representam-se por x1 , x2 , . . . , xn . Embora o
termo amostra aleatória seja reservado para designar a amostra genérica, (X1 , X2 , . . . , Xn ), o mesmo aplica-
se, por vezes, para designar também a amostra particular, (x1 , x2 , . . . , xn ). Deve, porém, distinguir-se entre
as duas acepções em que o termo é utilizado.

37
Definição 4.6 Chama-se estatı́stica a uma função dos valores observados, isto é, uma função de uma a.a.
(X1 , X2 , . . . , Xn ), sem parâmetros desconhecidos.

Exemplos 4.3
Pn
Xi
1. X = i=1 (Média Amostral)
n
Pn
2. T1 = X1 + X2 + · · · + Xn = i=1 Xi
Pn
3. T2 = i=1 Xi2
Pn
X2
4. T3 = i=1 i
n
5. T4 = X1 · X2 · · · Xn
6. T5 = max(X1 , X2 , . . . , Xn )
n
1 X¡ ¢2
7. S 2 = Xi − X (variância amostral)
n i=1
n
1 X¡ ¢2
8. s2 = Xi − X (variância amostral corrigida)
n − 1 i=1

9. Suponha-se que na população X ∼ N (µ, σ), os parâmetros µ e σ são desconhecidos. Então não são es-
tatı́sticas as funções, Pn Pn Pn 2
i=1 (Xi − µ) i=1 Xi i=1 Xi
, , ,
σ σ σ2
pois dependem de µ e σ.

Observação 4.5 Pode mostrar-se que


n
X n
¡ ¢2 X 2
Xi − X = Xi2 − nX .
i=1 i=1

Cada estatı́stica é uma nova variável aleatória e terá uma distribuição de probabilidade que é designada por
distribuição amostral. A procura dessa distribuição amostral pode ser muito complicada. De qualquer modo,
no estudo que faremos, as diferentes propriedades serão dadas sem demonstração e com um único objectivo: a
aplicação.

4.3 Estimação Pontual


Quando se inicia o estudo da Inferência Estatı́stica é-se levado com demasiada frequência a pensar em termos
analógicos. Assim, se por exemplo, para Pa população X se tem µ = E(X), 2isto P é, se µ é a média da população,
julga-se que a média da amostra, X = Xi /n, e a variância da amostra, s = (Xi − X)2 /n, são as melhores
estatı́sticas para estabelecer inferências sobre µ e σ 2 . Essa atitude, de certo modo intuitiva, é válida em muitos
casos, mas não pode generalizar-se. Muitas vezes conduzem a maus resultados.

Definição 4.7 Chama-se estimador a qualquer estatı́stica, Θ̂, usada para estimar um parâmetro, θ, (desco-
nhecido) da população ou uma função desse parâmetro. A um valor desse estimador, θ̂, chama-se estimativa.

A qualidade de um estimador de um parâmetro será melhor ou pior conforme certas propriedades que possua.
Não iremos fazer um estudo exaustivo dessas propriedades e utilizaremos somente o seguinte tipo de estimadores:

Definição 4.8 Diz-se que Θ̂ é estimador não-enviesado (ou cêntrico) do parâmetro θ se, e somente se,
E(Θ̂) = θ.

Observação 4.6 O enviesamento de um estimador Θ̂ define-se como a diferença entre o valor esperado do
estimador e o valor do parâmetro θ, isto é,

Enviesamento Θ̂ = E(Θ̂) − θ.

38
Como o não-enviesamento é uma propriedade importante, a utilização de um ou de outro estimador de um
parâmetro desconhecido pode depender desta propriedade. Observe-se o seguinte:
Teorema 4.1 Considere-se uma população X, com média µ e desvio padrão σ, e (X1 , . . . , Xn ) uma sua amostra
aleatória. Então
1. E(X) = µ;
σ2
2. V ar(X) = ;
n
n−1 2
3. E(S 2 ) = σ
n
4. E(s2 ) = σ 2 .
Observação 4.7 Na demonstração de 3. pode utilizar-se 2. e na demonstração de 4. pode utilizar-se 3., já
n
que s2 = n−1 S2.

O teorema anterior diz que a média amostral, X, é um estimador não-enviesado da média da população,
µ, e que a variância amostral corrigida, s2 é um estimador não-enviesado da variância da população, σ 2 . No
entanto, a variância amostral, S 2 , é um estimador enviesado da variância da população e, consequentemente,
utilizaremos sempre a variância amostral corrigida para estimar a variância da população.

4.4 Métodos de Estimação


Existem vários métodos que permitem estimar um parâmetro desconhecido de uma população, entre os quais:
Método dos Momentos, Método da Máxima Verosimilhança e Método dos Mı́nimos Quadrados. Nesta disciplina
iremos somente estudar o Método dos Momentos.

4.4.1 Método dos Momentos


Este método, de fácil implementação, consiste em igualar os momentos populacionais aos momentos amostrais.
Assim, considere-se uma população representada pela variável aleatória X com distribuição de probabilidade
conhecida a menos de r parâmetros, θ1 , θ2 , . . . , θr (por exemplo, se X ∼ N (µ, σ), os parâmetros µ e σ podem
ser desconhecidos). Em geral, os momentos populacionais ordinários são funções conhecidas dos parâmetros a
estimar, que expressaremos da seguinte forma:

µ0i = µ0i (θ1 , θ2 , . . . , θr ).


Seja X1 , X2 , . . . , Xn uma amostra aleatória extraı́da na população X e representem-se os momentos amostrais
ordinários por
n
1X
Mi0 = (Xk )i .
n
k=1
Observe-se que estes momentos são variáveis aleatórias, ao contrário do que acontecia durante o estudo da
Estatı́stica Descritiva.
Então, de acordo com o Método dos Momentos, os estimadores Θ̂1 , Θ̂2 , . . . , Θ̂r dos parâmetros θ1 , θ2 , . . . , θr
são obtidos a partir da resolução do seguinte sistema de equações nas incógnitas θ1 , θ2 , . . . , θr :

Mi0 = µ0i (θ1 , θ2 . . . , θr ).


Tais estimadores podem ser designados abreviadamente por estimadores M
Exemplo 4.4 Seja (X1 , . . . , Xn ), uma a.a. extraı́da numa população normal de média µ e variância σ 2 , des-
conhecidos. Pretende-se determinar, usando o Método dos Momentos, os estimadores M̂ e Σ̂2 de µ e σ 2 ,
respectivamente. Logo, tem-se o sistema
½
M10 = X P= µ01 (µ, σ) = E(X) = µ
1 n
M2 = n k=1 Xk2 = µ04 = σ 2 + µ9
0

donde resulta (
M̂ = X
1
Pn 2 1
Pn ¡ ¢2
Σ̂2 = M20 = n k=1 Xk2 − X = n k=1 Xk − X = S2

39
Em relação ao método que acabou de ser apresentado, note-se que ele admite variantes, sendo todas desi-
gnadas por método dos momentos: em vez de se definir o sistema com base nos momentos ordinários, pode
recorrer-se aos momentos centrados; em vez de se definir o sistema a partir dos r primeiros momentos (ordinários
ou centrados), pode recorrer-se a momentos de outras ordens.

4.5 Distribuição de um Estimador


Teorema 4.2 Seja X uma v.a. tal que X ∼ N (µ, σ) e (X1 , . . . , Xn ) uma amostra aleatória extraı́da na po-
pulação X. Então µ ¶
σ
X ∼ N µ, √ ,
n

isto é, X é uma v.a. com distribuição normal de média µ e desvio padrão σ/ n.

Observação 4.8 O teorema anterior é consequência directa do teorema 3.15

Exemplo 4.5 O conteúdo, em litros, de garrafas de óleo segue uma distribuição normal. Se µ = 0.99 ` e
σ = 0.02 `, pretende-se calcular a probabilidade de o conteúdo médio numa amostra de 16 garrafas, seleccionadas
ao acaso, seja superior a 1 `.
Resolução: Sendo
X = capacidade de uma garrafa de óleo, em `
uma v.a. tal que X ∼ N (0.99, 0.02), então, pelo teorema 4.2, X ∼ N (0.99, 0.005). Logo,
µ ¶
1 − 0.99
P (X > 1) = P Z > = P (Z > 2) = 0.5 − P (0 ≤ Z ≤ 2) = 0.5 − 0.4772 = 0.0228.
0.005

Teorema 4.3 Sejam X1 e X2 duas variáveis aleatórias tais que X1 ∼ N (µ1 , σ1 ) e X2 ∼ N (µ2 , σ2 ). Se
(X11 , X12 , . . . , X1n1 ) e (X21 , X22 , . . . , X2n2 ) são duas amostras aleatórias, independentes, extraı́das nas popu-
lações X1 e X2 , respectivamente, então
 s 
σ 2 σ 2
X 1 − X 2 ∼ N µ1 − µ2 , 1
+ 2,
n1 n2

isto é,
X 1 − X 2 − (µ1 − µ2 )
Z= s ∼ N (0, 1).
σ13 σ22
+
n1 n2

Observação 4.9 O teorema anterior é consequência dos teoremas 4.2 e 3.15 e observe-se que: se as amostras
são independentes, então X 1 e X 2 são variáveis aleatórias independentes e

E(X 1 − X 2 ) = E(X 1 ) − E(X 2 ) = µ1 − µ2 ,


σ12 σ2
V ar(X 1 − X 2 ) = V ar(X 1 ) + V ar(X 2 ) = + 2.
n1 n2
Teorema 4.4 Se X é uma v.a. de média µ e desvio padrão σ e (X1 , . . . , Xn ) é uma amostra aleatória extraı́da
na população X, então
X −µ o
Z= √ ∼ N (0, 1),
σ/ n
quando n → +∞.

Observações 4.10
1. O teorema anterior é consequência directa do Teorema do Limite Central (teorema 3.16).
2. Nas condições do teorema σ 2 ≈ s2 . Assim, quando σ é desconhecido podemos usar s e, consequentemente,

X −µ o
Z= √ ∼ N (0, 1).
s/ n

40
Corolário 4.5 Seja X ∼ Bernoulli(p) e (X1 , . . . , Xn ) uma amostra aleatória extraı́da nesta população. Então

X −p o
Z=r ∼ N (0, 1),
p(1 − p)
n
quando n → +∞.

Observação 4.11 No contexto de uma população de Bernoulli, X é a proporção de sucessos observados e é


vulgar representar-se por p̂.

Teorema 4.6 Sejam X1 e X2 duas variáveis aleatórias de médias µ1 e µ2 e variâncias σ12 e σ22 , respectiva-
mente. Se (X11 , X12 , . . . , X1n1 ) e (X21 , X22 , . . . , X2n2 ) são duas amostras aleatórias, independentes, extraı́das
nas populações X1 e X2 , respectivamente, então
 s 
σ 2 σ 2
o
X 1 − X 2 ∼ N µ1 − µ2 , 1
+ 2,
n1 n2

isto é,
X 1 − X 2 − (µ1 − µ2 ) o
Z= s ∼ N (0, 1),
σ12 σ22
+
n1 n2
quando n1 → +∞ e n2 → +∞.

Observações 4.12

1. O teorema anterior é consequência dos teoremas 3.16 e 3.15.

2. Nas condições do teorema σ12 ≈ s21 e σ22 ≈ s22 . Assim, quando σ1 e σ2 são desconhecidos podemos usar s1 e
s2 . Consequentemente,
X 1 − X 2 − (µ1 − µ2 ) o
Z= s ∼ N (0, 1).
s21 s22
+
n1 n2

Corolário 4.7 Sejam X1 ∼ Bernoulli(p1 ) e X2 ∼ Bernoulli(p2 ). Se (X11 , . . . , X1n1 ) e (X21 , . . . , X2n2 ) são
amostras aleatórias, independentes, extraı́das nas populações X1 e X2 , respectivamente, então

p̂1 − p̂2 − (p1 − p2 ) o


Z=s ∼ N (0, 1).
p1 (1 − p1 ) p2 (1 − p2 )
+
n1 n2

quando n1 → +∞ e n2 → +∞.

4.5.1 Distribuições Amostrais Relacionadas com a Distribuição Normal


Distribuição do Qui-Quadrado
Definição 4.9 Diz-se que uma v.a. X tem distribuição do χ2 (qui-quadrado) com n graus de liberdade (ou de
parâmetro n), simbolicamente X ∼ χ2n , se a sua f.d.p. é definida por

e−x/2 x(n/2)−1
fX (x) = ¡ ¢ , n ∈ N, x ∈ R+ ,
2n/2 Γ n2

onde Z +∞
Γ(t) = xt−1 e−x dx, t > 0.
0

41
0.1
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
0 5 10 15 20 25 30 35
f.d.p. da Dist. do Qui-quadrado com n=10

Teorema 4.8 Sejam X1 , X2 , . . . , Xn v.a. independentes tais que Xi ∼ N (µi , σi ), (i = 1, . . . , n). Então a v.a.
Xn µ ¶2
Xi − µi
U= ∼ χ2n
i=1
σi

Observação 4.13 O termo “graus de liberdade” refere-se ao número de quadrados independentes na soma
anterior.
Corolário 4.9 Sejam a população X ∼ N (µ, σ) e (X1 , . . . , Xn ) uma amostra aleatória. Então
(n − 1)s02
U= ∼ χ2n−1 .
σ2

Distribuição t de Student
Definição 4.10 Uma v.a. X tem distribuição t de Student com n graus de liberdade (ou de parâmetro n),
simbolicamente X ∼ Tn , se a sua f.d.p. é definida por
¡ ¢ µ ¶− n+1
Γ n+1 2¡ ¢ x2 2

fX (x) = √ n 1 + , x ∈ R, n ∈ N,
nπΓ 2 n
onde Z +∞
Γ(t) = xt−1 e−x dx, t > 0.
o

Observação 4.14 A distribuição t de Student é simétrica. Quando n = 4, é parecida com a distribuição


Normal estandardizada.

0.3

0.25

0.2

0.15

0.1

0.05

0
-4 -3 -2 -1 0 1 2 3 4
f.d.p. da Dist. t de Student com n=4

Teorema 4.10 Se as variáveis aleatórias X e Y são independentes tais que X ∼ N (0, 1) e Y ∼ χ2n , então
X
T =p ∼ Tn .
Y /n

42
Corolário 4.11 Se X é uma v.a. tal que X ∼ N (µ, σ) e (X1 , X2 , . . . , Xn ) é uma a.a., então o rácio de Student

X −µ

s/ n

tem distribuição t de Student com n − 1 graus de liberdade, isto é,

X −µ
√ ∼ Tn−1 .
s/ n

Dem.: Sabemos que



X −µ n(X − µ)
Z= √ = ∼ N (0, 1)
σ/ n σ
e

(n − 1)s2
Y = ∼ χ2n−1 .
σ2
Logo, pelo teorema 4.10,

Z
T =p ∼ Tn−1 .
Y /(n − 1)
Dado que
√ √
n(X−µ) n(X−µ)
X −µ
T = q σ 2 = σ
s = √ ,
(n−1)s
σ s/ n
σ 2 (n−1)

então

X −µ
√ ∼ Tn−1 . ¤
s/ n
o
Teorema 4.12 Quando n → +∞, Tn ∼ N (0, 1).

Teorema 4.13 Sejam X1 e X2 duas variáveis aleatórias independentes tais que X1 ∼ N (µ1 , σ1 ) e
X2 ∼ N (µ2 , σ2 ), com σ1 = σ2 . Se (X11 , X12 , . . . , X1n1 ) e (X21 , X22 , . . . , X2n2 ) são duas amostras aleatórias,
independentes, extraı́das nas populações X1 e X2 , respectivamente, então

X 1 − X 2 − (µ1 − µ2 )
T =s r ∼ Tn1 +n2 −2 .
(n1 − 1)s21 + (n2 − 1)s22 1 1
+
n1 + n2 − 2 n1 n2

Observação 4.15 O teorema anterior é consequência dos teoremas 4.3, 4.9, 4.10 e da aditividade da dis-
2
tribuição
Pn do Qui-Quadrado:
Pn Se as v.a. X1 , . . . , Xn são independentes e Xi ∼ χni , i = 1, . . . , n, então
2
i=1 Xi ∼ χm , com m = i=1 ni .

Distribuição F de Snedcor
Definição 4.11 Uma v.a. X tem distribuição F de Snedcor com m e n graus de liberdade (ou de parâmetros
m e n), simbolicamente X ∼ Fnm , quando a sua f.d.p. é definida por
¡ ¢ ³ ´m m−2
Γ m+n 2 ¡ ¢ m 2 x 2
fX (x) = ¡ ¢ ¡ ¢ m+n , x ∈ R+ .
Γ m2 Γ 2
n n 1+ m
n x
2

Teorema 4.14 Se a v.a. X é tal que X ∼ Fnm , então

1 n
∼ Fm .
X

43
0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
0 2 4 6 8 10
f.d.p da Dist. F-Snedcor com m=4 e n=5

Teorema 4.15 Se as variáveis aleatórias X e Y são independentes tais que X ∼ χ2m e Y ∼ χ2n , então

X/m
U= ∼ Fnm .
Y /n

Corolário 4.16 Se (X11 , X12 , . . . , X1n1 ) é uma amostra aleatória extraı́da da população X1 ∼ N (µ1 , σ1 ),
(X21 , X22 , . . . , X2n2 ) é uma amostra aleatória extraı́da da população X2 ∼ N (µ2 , σ2 ) e ambas são indepen-
dentes, então
s21 σ22
∼ Fnn21−1
−1
.
s22 σ12

Dem.: Sabemos que

(n1 − 1)s21
∼ χ2n1 −1
σ12
e

(n2 − 1)s22
∼ χ2n2 −1 .
σ22
Logo, pelo teorema 4.15,
(n1 −1)s21
(n1 −1)σ12 s21 σ22
= ∼ Fnn21−1
−1
. ¤
(n2 −1)s22 s22 σ12
(n2 −1)σ22

44
Capı́tulo 5

Estimação Intervalar

Considere-se uma (ou duas populações) onde se pretende estimar um parâmetro (ou uma relação entre parâmetros).
A estimação intervalar consiste na determinação, a partir de uma estimativa pontual do(s) parâmetro(s), de um
intervalo onde o parâmetro (ou relação entre parâmetros) esteja com uma dada probabilidade λ. Temos assim
um intervalo de confiança a λ × 100% (ou com grau de confiança a λ × 100%) para o parâmetro (ou relação de
parâmetros).
Assim, no caso de o parâmetro ser a média (µ) (ou uma diferença de médias (µ1 −µ2 )), pretende-se determinar
números reais a e b, com a < b, tais que

µ ∈ [X − b, X − a]
(respectivamente,

µ1 − µ2 ∈ [X 1 − X 2 − b, X 1 − X 1 − a]).
em que

P (a ≤ X − µ ≤ b) = λ
(respectivamente,

P (a ≤ X 1 − X2 − (µ1 − µ2 ) ≤ b) = λ).
O cálculo de a e b depende das condições iniciais:
• a(s) distribuição(ões) da(s) população(ões) são conhecida(s) ou desconhecida(s);
• a(s) amostra(s) é(são) suficientemente grande(s);
e, tendo em conta estas condições, da escolha de uma variável aleatória (dita variável fulcral), e respectiva-
mente distribuição, que relaciona o(s) parâmetro(s) com o respectivo estimador (ver capı́tulo anterior). Para
cada caso, verifica-se ainda que existem uma infinidade de soluções para a e b. No entanto, em geral, como a
distribuição da variável fulcral é a distribuição Normal (ou aproximadamente normal) ou a distribuição t de
Student, mostra-se que a amplitude (comprimento) do intervalo de confiança, fixado o seu grau de confiança, é
mı́nimo quando a = −b.
No caso do parâmetro ser a variância (ou quociente de variâncias) pretende-se determinar a e b, com c < d,
tais que
" #
2 θ̂ θ̂
σ ∈ ,
b a
(ou
· ¸
σ12 1 1
∈ θ̂, θ̂ ),
σ22 b a
com uma probabilidade λ, onde θ̂ tem a ver com s2 (ou s21 /s22 ).
Para cada caso, verifica-se que existem uma infinidade de soluções para a e b. Sendo, em geral, a distribuição
da variável fulcral a distribuição do Qui-quadrado ou a distribuição F de Snedcor, mostra-se, também, que existe

45
uma única solução para a e b que minimiza a amplitude do intervalo de confiança, fixado o seu grau de confiança.
No entanto, este cálculo é bastante trabalhoso. Assim, na prática, por uma questão de comodidade os valores
de a e b são determinados pelas condições
1−λ 1−λ
P (U ≤ a) = , P (U ≥ b) = ,
2 2
onde U ∼ χ2m ou U ∼ Fnm .
Observe-se o quadro na página seguinte, onde está representado o intervalo de confiança para cada um dos
parâmetros em estudo, de acordo com a condições iniciais.

Quando queremos estudar variáveis que surjam naturalmente associadas, são necessários alguns cuidados.
As duas amostras, cada uma proveniente da sua população, em vez de serem independentes são emparelhadas,
isto é, as amostras são constituı́das por pares ordenados medindo a mesma grandeza. Nestes casos, poderá, em
muitas circunstâncias, originar uma situação mais favorável, porque se traduz numa redução da variabilidade,
já que
var(X1 − X2 ) = var(X1 ) + var(X2 ) − 2cov(X1 , X2 ).
Se as duas populações em estudo são normais, então o problema é reduzido ao caso de uma população normal,
que é dada pela diferença das suas iniciais.

46
PAR. CONDIÇÕES V.A. FULCRAIS/DIST. INTERVALOS DE CONFIANÇA OBS.
Quando se desconhece
População normal X −µ · ¸ a distribuição da po-
Z= σ σ
µ com variância co- σ ∼ N (0, 1) X − z√ ,X + z√ pulação, mas n é grande
√ n n
nhecida n (n ≥ 30), a distribuição
é aprox. normal.
Com n grande, po-
População normal X −µ · ¸ pulação normal ou não,
∼ Tn−1 s s
de variância desco- s X − t√ , X + t√ a distribuição é aprox.
√ n n
nhecida n normal.
p̂ − p o
" r r #
População de Ber- Z=r ∼ N (0, 1) 0.25 0.25 Para n grande.
p p(1 − p) p̂ − z , p̂ + z
noulli n n
n · ¸
2 2
(n − 1)s2 (n − 1)s (n − 1)s
σ2 População normal ∼ χ2n−1 ,
σ2 b a
  Quando se desconhece
X 1 − X 2 − (µ1 − µ2 ) s s
Duas populações Z= s ∼ N (0, 1) a distribuição das po-
σ12 σ2 σ12 σ2
normais com vari- σ12 σ22 X 1 − X 2 − z + 2 , X1 − X2 + z + 2 pulações, mas n1 e n2
+ n1 n2 n1 n2

47
âncias conhecidas n1 n2 são grandes, a distri-
buição é aprox. normal.
Duas populações · q q
X 1 − X 2 − (µ1 − µ2 ) (n1 −1)s21 +(n2 −1)s22 1 1
normais com s ∼ Tn1 +n2 −2 X1 − X2 − t n1 +n2 −2 n1 + n2 ,
r ¸
µ1 − µ2 variâncias des- (n1 − 1)s21 + (n2 − 1)s22 1 1 q q
conhecidas mas + (n1 −1)s21 +(n2 −1)s22 1 1
n1 + n2 − 2 n1 n2 X1 − X2 + t n1 +n2 −2 n1 + n2
iguais
Duas populações
X 1 − X 2 − (µ1 − µ2 ) o  s s 
normais ou não, Z= s ∼ N (0, 1) s21 s22 s21 s22 
com variâncias s21 s22 X 1 − X 2 − z + , X1 − X2 + z +
desconhecidas mas + n1 n2 n1 n2
n1 n2
n1 e n2 grandes
p̂1 − p̂2 − (p1 − p2 ) o r r
Z=s ∼ N (0, 1) · ¸
Duas populações de 0.25 0.25 0.25 0.25
p1 − p2 p1 (1 − p1 ) p2 (1 − p2 ) p̂1 − p̂2 − z + , p̂1 − p̂2 + z + Para n1 e n2 grandes
Bernoulli + n1 n2 n1 n2
n1 n2
· ¸
σ12 Duas populações 1 s21 1 s21
s21 σ22 −1 ,
∼ Fnn21−1
σ22 normais s22 σ12 b s22 a s22
48
Capı́tulo 6

Teste de Hipóteses

Um outro procedimento muito importante na Inferência Estatı́stica consiste em verificar a compatibilidade de


dados amostrais (ou estimativas obtidas a partir destes dados) com determinadas populações (ou valores fixados
para parâmetros populacionais). Este procedimento - Teste de Hipóteses - leva, necessariamente, a uma de
duas respostas possı́veis para uma dada questão: afirmativa ou negativa. No entanto, como este procedimento
parte de dados amostrais, corre-se o risco de errar. Uma caracterı́stica do teste de hipóteses é, justamente, a de
permitir controlar ou minimizar tal risco.
A metodologia deste procedimento pode ser dividida em quatro fases:

i) Formulação das hipóteses.

ii) Identificação da estatı́stica do teste e respectiva distribuição.

iii) Definição da regra de decisão, com especificação do nı́vel de significância.

iv) Cálculo do valor do teste e tomada de decisão.

Para uma melhor compreensão de cada uma destas fases, iremos apresentá-las no contexto do problema
seguinte, que é um teste de hipótese do tipo paramétrico, isto é, um teste de hipótese onde a formulação das
hipóteses é feita para um parâmetro populacional desconhecido:
“Uma empresa tenciona importar um grande lote de instrumentos de precisão para posterior distribuição
no paı́s. Os fabricantes garantem que o respectivo peso médio é de 100 gramas. Sendo, no entanto, o peso
uma caracterı́stica importante na qualidade do produto, resolveu-se testar a garantia do fabricante. Para tal,
o departamento técnico da empresa importadora obteve uma amostra de 15 instrumentos, donde resultaram os
seguintes valores:

15
X 15
X ¡ ¢2
Xi = 1344 grs Xi − X = 3150 grs2
i=1 i=1

Admitindo que o peso é normalmente distribuı́do, diga qual a inferência a tirar, para um nı́vel de significância
de 1%.”.
Na resolução de um problema deste tipo é importante definir correctamente a caracterı́stica em estudo na
população, isto é, a variável aleatória, e saber quais os dados populacionais conhecidos (ou desconhecidos). No
problema em questão temos:
X = “peso de um instrumento de precisão, em gramas”.
X ∼ N (µ, σ), µ e σ desconhecidos.

i) Neste problema está em causa a afirmação dos fabricantes relativamente ao peso médio de um instrumento
por eles fabricado. Eles garantem que o peso médio de um instrumento de precisão é de 100 gramas. Assim,
temos a seguinte formulação de hipóteses:

H0 : µ = 100
HA : µ=6 100

49
A primeira (H0 ) é denominada por hipótese nula e a segunda (HA ) por hipótese alternativa. Em
geral, na formulação da hipótese nula é necessário ter-se um igual, podendo usar-se um dos sı́mbolos: =,
≤ ou ≥, pois um teste de hipótese paramétrico requer um valor a testar. A hipótese alternativa terá, no
contexto do problema, de ser complementar da hipótese nula, podendo usar-se um dos sı́mbolos: 6=, < ou
>.

ii) Para testarmos as hipóteses formuladas, necessitamos de uma estimativa pontual do parâmetro em estudo.
Para tal, é necessário recolher uma amostra aleatória na população em estudo. (Observe-se que, por razões
óbvias, somente faz sentido a recolha de uma amostra depois de estabelecidas as hipóteses a testar.) O
estimador em causa, no contexto do teste de hipóteses, é usualmente denominado de estatı́stica do teste
e terá uma distribuição amostral. No nosso problema, a estatı́stica do teste é X e como pretendemos testar
o valor expresso na hipótese nula, quando a população X segue uma distribuição normal de variância
desconhecida e a amostra recolhida é pequena (n=15), resulta

X − 100
T = √ ∼ T14
s/ n

Em geral, a identificação da estatı́stica do teste e respectiva distribuição amostral depende do parâmetro


em estudo, dos dados conhecidos (desconhecidos) da população e do tamanho da amostra (ou amostras).
Cada uma das variáveis fulcrais utilizadas nos intervalos de confiança transformam-se numa estatı́stica
do teste quando se substitui o parâmetro populacional em estudo pelo valor a testar, que se encontra na
hipótese nula. No caso da diferença de proporções, sendo a hipótese nula p1 = p2 (ou p1 ≤ p2 ou p1 ≥ p) )
a variável

p̂ − pˆ2 − (p1 − p2 )
q1
p1 (1−p1 )
n1 + p2 (1−p
n2
2)

transforma-se numa estatı́stica do teste quando se substitui p1 − p2 pelo valor a testar e, para estar de
acordo com a hipótese nula, p1 e p2 por
Pn1 Pn2
n1 p̂1 + n2 pˆ2 i=1 X1i + i=1 X2i
p̂ = = ,
n1 + n2 n1 + n2
que é a média ponderada dos sucessos observados conjuntamente nas duas amostras.

iii) Na definição da regra de decisão, que consiste em rejeitar ou não rejeitar a hipótese nula, é necessário
encontrar um valor (ou valores), dito crı́tico, que nos ajude nesta decisão. No nosso problema, rejeitamos
o valor 100 desde que uma estimativa da média esteja “afastada”deste valor. À partida, este afastamento
é muito relativo, o que nos leva a definir um critério de rejeição. De qualquer modo, ao se tomar a decisão
podemos cometer dois tipos de erro: rejeitar uma hipótese verdadeira (erro tipo I) ou não rejeitar uma
hipótese falsa (erro tipo II). Observe-se o quadro seguinte:

Situação Real (desconhecida)


Decisão H0 verdadeira H0 falsa
Não rejeitar H0 Decisão correcta Erro Tipo II
Rejeitar H0 Erro Tipo I Decisão correcta

A probabilidade de se cometer um erro tipo I será designada por α. E de se cometer um erro tipo II por
β. Isto é,
P (Rejeitar H0 |H0 é verdadeira) = α

P (Não Rejeitar H0 |H0 é falsa) = β.

A α chama-se nı́vel de significância do teste e a 1 − β a potência do teste.


Se rejeitarmos H0 , com um nı́vel de significância α, podemos aceitar HA com uma confiança 1 − α. O
valor de α diminui se β aumenta (e vice-versa). Por outro lado, a probabilidade de se cometer um erro do

50
tipo II, e portanto, a potência do teste, 1 − β, dependem da forma como a hipótese alternativa se afasta
da hipótese nula. Só existe uma forma de diminuir um dos riscos α ou β sem aumentar o outro: aumentar
o número de dados amostrais com base nos quais é calculada a estatı́stica do teste. Em grande parte dos
problemas a resolver, em particular no que nos serve de exemplo, é especificado o nı́vel de significância, já
que o objectivo é a rejeição de H0 . Quando o nı́vel de significância é especificado à partida, permite-nos
encontrar um conjunto de valores assumidos pela estatı́stica do teste para os quais rejeitamos H0 . Este
conjunto é denominado por Região Crı́tica e, no contexto do problema que estamos a tratar, esta região
é do tipo bilateral, pois HA : µ > 100 ∨ µ < 100, sendo dada por
© ª
RC = tobs : tobs ≤ −tc ∨ tobs ≥ tc ,

onde tc é denominado de valor crı́tico.


Se fosse HA : µ < µ0 (resp. HA : µ > µ0 ) a região crı́tica era do tipo unilateral esquerda (resp.
unilateral direita) e era dada por
© ª
RC = tobs : tobs ≤ tc ,

(resp.
© ª
RC = tobs : tobs ≥ tc ).

O valor crı́tico é determinado da seguinte forma:

P (Rejeitar H0 |H0 verdadeira) = α ⇔


⇔ P (X ∈ RC1 |µ = µ0 ) = 0.01
µ ¶
X − µ0 X − µ0
⇔ P √ ≤ −tc ∨ √ ≥ tc = 0.01
s/ n s/ n
⇔ P (T14 ≤ −tc ∨ T14 ≥ tc ) = 0.01
⇔ P (T14 ≥ tc ) = 0.005

(onde RC1 é a região crı́tica de valores não estandardizados)


e consultando-se uma tabela t de Student, obtemos para tc o valor 2.977.
iv) Depois de determinada a região crı́tica, podemos decidir a rejeição ou não rejeição de H0 . Para tal, temos
que calcular o valor do teste, isto é, o valor dado pela estatı́stica do teste calculado a partir da amostra(s)
recolhida(s). No nosso exemplo, o valor do teste é

89.6 − 100
tobs = √ ≈ −2.6853
15/ 15

Como este valor não pertence à região crı́tica, não rejeitamos H0 , isto é, não rejeitamos que um instrumento
de precisão tenha em média 100 gramas.

Em vez de termos especificado o nı́vel de significância, poderı́amos, a partir do valor do teste, encontrar
o nı́vel de significância, isto é, a probabilidade mı́nima que permita rejeitarmos H0 , se H0 é verdadeira. No
exemplo que temos vindo a tratar, um valor crı́tico que permita rejeitar H0 é, usando a tabela t de Student,
2.624 e o respectivo nı́vel de significância é 0.02. Assim, para o nı́vel de significância de 2% podemos rejeitar H0 ,
isto é, podemos rejeitar que um instrumento de precisão tenha em média 100 gramas. Nestas circunstâncias, a
garantia dada pelos fabricantes não está a ser respeitada.
Esta última abordagem sugere que se determine a probabilidade no extremo da cauda (ou caudas, no caso
bilateral) associada ao valor observado da estatı́stica do teste. A esta probabilidade chama-se valor-p do teste
e toma-se a decisão com base nessa probabilidade. Assim, no teste que temos vindo a explorar, o valor-p é dado
por
P (|T14 | ≥ | − 2.6853|),
e como se tem que
0.01 < P (|T14 | ≥ | − 2.6853|) < 0.02,

51
resulta a não rejeição da hipótese nula quando se toma α = 0.01 e a rejeição quando α = 0.02

Quando queremos estudar variáveis que surjam naturalmente associadas, o procedimento base é semelhante
ao adoptado durante o estudo da estimação intervalar (ver final do Capı́tulo 5).

52
Capı́tulo 7

Testes Não Paramétricos

Neste capı́tulo estudaremos dois testes, ditos do qui-quadrado, que não incidem explicitamente sobre um
parâmetro de uma ou mais populações.

7.1 Teste de Ajustamento (Teste de Aderência)


Este teste aplica-se quando se pretende ensaiar hipóteses relativas à distribuição de uma população em estudo.
Este teste consiste em comparar as frequência observadas numa amostra e as frequências que seriam de esperar
se a população em estudo seguisse a distribuição especificada. Assim, pretende-se ensaiar

Hipóteses:
H0 : A população segue a distribuição especificada
HA : A população não segue a distribuição especificada

para um nı́vel de significância α.


Recolhida uma amostra aleatória de tamanho n e classificando estes dados de acordo com as modalidades
A1 , A2 , . . . , Ak do atributo qualitativo ou quantitativo em estudo, necessitamos dos seguintes elementos para a
construção da estatı́stica do teste, para cada i = 1, 2, . . . , k:

ni = frequência absoluta (observada) da modalidade Ai


Xk
ni = n
i=1
pi = P (Ai ) = probabilidade de ocorrência de Ai , quando a distribuição da população é a especificada
Xk
pi = 1
i=1
npi = frequência absoluta esperada da modalidade Ai , quando a distribuição da população é a especificada

Logo, pode mostrar-se, que uma estatı́stica do teste para o ensaio das hipóteses H0 versus HA é
k
X 2
(ni − npi )
i=1
npi
ou, equivalentemente,

Xk
n2i
−n
i=1
npi
e sob H0
k
X 2
(ni − npi ) o
∼ χ2k−ν−1 ,
i=1
npi
sempre que n ≥ 30 e npi ≥ 5, i = 1, 2, . . . , k, e ν representa o número de parâmetros desconhecidos da população
que há necessidade de estimar.

53
Analisando-se a estatı́stica do teste, verifica-se que a hipótese H0 poderá ser verdadeira se as diferenças entre
as frequências observadas e esperadas forem pequenas. Logo,

1. Se o valor da estatı́stica do teste for nulo, então as frequências observadas e esperadas coincidem e a hipótese
H0 é verdadeira.

2. Se o valor da estatı́stica do teste for positivo, então as frequências observadas e esperadas não coincidem.
Quanto maior for o valor do teste, (χ2obs ), maior será a discrepância entre as frequências observadas e
esperadas. Se essa discrepância for suficientemente grande, rejeita-se H0 .

Consequentemente, neste teste, a região crı́tica é sempre unilateral direita:


© ª £ £
RC = χ2obs : χ2obs ≥ χ2c = χ2c , +∞

Exemplo 7.1 Uma máquina de lavar roupa é vendida em cinco cores: A1 = verde, A2 = castanho,
A3 = vermelha, A4 = azul e A5 = branco. Num estudo de mercado para apreciar a popularidade das várias
cores analisou-se uma amostra aleatória de 300 vendas recentes com o seguinte resultado:

Verde Castanho Vermelho Azul Branco TOTAL


88 65 52 40 55 300

Pretende ensaiar-se a hipótese de que os consumidores não manifestam tendência para preferir qualquer das
cores,

H0 : p1 = p2 = p3 = p4 = p5 = 0.2.
Os cálculos necessários para o teste encontram-se no quadro seguinte:

Classes A1 A2 A3 A4 A5 TOTAL
ni 88 65 52 40 55 300
npi 60 60 60 60 60 300
(ni − npi )2 /npi 13.07 0.42 1.07 9.67 0.42 21.65

Para α = 0.05 e para 4 graus de liberdade, RC = [9.49, +∞[. Como se obteve um valor do teste

χ2obs = 21.65 > 9.49,


a hipótese H0 é nitidamente de rejeitar: os dados não são compatı́veis com H0 , para um nı́vel de significância
de 5%.

7.2 Testes de Associação


7.2.1 Teste de Independência
Com este teste pretende ensaiar-se se dois atributos A e B, qualitativos ou quantitativos, com modalidades
A1 , A2 , . . . , Ar e B1 , B2 , . . . , Bs , respectivamente, são independentes, isto é, se

P (Ai ∩ Bj ) = P (Ai ) · P (Bj ) , i = 1, . . . , r, j = 1, . . . , s.


Assim:

Hipóteses:
H0 : Os atributos são independentes
HA : Os atributos não são independentes

para um nı́vel de significância α.


Dada uma amostra aleatória de tamanho n, considerem-se os seguintes elementos, para i = 1, . . . , r e
j = 1, . . . , s:

nij = frequência absoluta das modalidades Ai e Bj

54
r X
X s
nij = n
i=1 j=1

pi· = P (Ai ) = probabilidade de ocorrência da modalidade Ai


r
X
pi· = 1
i=1

p·j = P (Bj ) = probabilidade de ocorrência da modalidade Bj


s
X
p·j = 1
j=1

pij = P (Ai ∪ Bj ) = probabilidade de ocorrência simultânea das modalidades Ai e Bj


r X
X s
pij = 1
i=1 j=1

ni· = frequência absoluta da modalidade Ai , qualquer que seja a modalidade Bj


r
X
ni· = n
i=1
n·j = frequência absoluta da modalidade Bj , qualquer que seja a modalidade Ai
s
X
n·j = n
j=1

A hipótese H0 é verdadeira se pij = pi· p·j , para i = 1, . . . , r e j = 1, . . . , s. Mas estes valores são, obviamente,
nij
desconhecidos. Logo, o teste irá consistir em comparar o estimador de pij , p̂ij = , com o estimador de pi· p·j ,
n
ni· n·j ni· n·j
p̂i· p̂·j = · , ou, equivalentemente, comparar nij com np̂i· p̂·j = .
n n n
Uma estatı́stica do teste para o ensaio das hipóteses H0 versus HA é

Xr X s 2
(nij − np̂i· p̂·j )
i=1 j=1
np̂i· p̂·j
ou, equivalentemente,
r X
X s
n2ij
− n,
i=1 j=1
np̂i· p̂·j
e, sob H0

Xr X s 2
(nij − np̂i· p̂·j ) o 2
∼ χ(r−1)(s−1) ,
i=1 j=1
np̂i· p̂·j
sempre que n ≥ 30 e np̂i· p̂·j ≥ 5, para i = 1, . . . , r e j = 1, . . . , s.
À semelhança do teste de ajustamento, o teste de independência tem sempre uma região crı́tica unilateral
direita.
Para facilitar a análise e cálculos num teste de independência é usual utilizarem-se as tabelas de con-
tigência seguinte:
nij B1 B2 ··· Bs ni· np̂i· p̂·j B1 B2 ··· Bs ni·
A1 n11 n12 ··· nis n1· A1 np̂1· p̂·1 np̂1· p̂·2 ··· np̂1· p̂·s n1·
A2 n21 n22 ··· n2s n2· A2 np̂2· p̂·1 np̂2· p̂·2 ··· np̂2· p̂·s n2·
.. .. .. .. .. .. .. .. .. ..
. . . ··· . . . . . ··· . .
Ar nr1 nr2 ··· nrs nr· Ar np̂r· p̂·1 np̂r· p̂·2 ··· np̂r· p̂·s nr·
n·j n·1 n·2 ··· n·s n n·j n·1 n·2 ··· n·s n
ni· n·j
sendo np̂i· p̂·j = .
n

55
Exemplo 7.2 M. um corrector de bolsa, crê que quando a actividade da bolsa é fraca durante a manhã, tende
também a ser fraca durante a tarde. Em consequência, M. está a pensar em tirar, ocasionalmente, a tarde livre
quando a actividade da bolsa for fraca durante a manhã. Registou então o volume de negócios, durante 80 dias,
nos perı́odos da manhã e da tarde e classificou-os na seguinte tabela:

Manhã Tarde
Fraca Activa
Fraca 13 7
Activa 31 29

Pretendemos ensaiar se a actividade da bolsa de manhã é independente da actividade de tarde, para um nı́vel
de significância de 5%. Assim, sendo os atributos, e respectivas modalidades,

A = Actividade da bolsa durante a manhã


A1 = Fraca
A2 = Activa

B = Actividade da bolsa durante a tarde


B1 = Fraca
B2 = Activa

pretende ensaiar-se

Hipóteses:
H0 : Os atributos são independentes
HA : Os atributos não são independentes

Usando-se uma tabela de contigência

nij / np̂i· p̂·j B1 B2 ni·


A1 13 / 11 7/9 20
A2 31 / 33 29 / 27 60
n·j 44 36 n =80
ni· n·j
sendo np̂i· p̂·j = , resulta que
n
133 72 312 292
χ2obs = + + + − 80 ≈ 1.0774.
11 9 33 27
Como, para α = 0.05 e 1 grau de liberdade, RC = [3.84, +∞[, então não se rejeita H0 , isto é, não se rejeita
que as actividades da bolsa de manhã e de tarde sejam independentes. Em princı́pio, o corrector não deve tirar,
ocasionalmente, a tarde livre.

7.2.2 Teste de Homogeneidade


Este teste consiste em ensaiar se as proporções relativas às modalidades de um atributo B, para a mesma
modalidade de um atributo A, (Ai ), isto é, as proporções pi1 , pi2 , . . . , pis , podem ser iguais (homogéneas). Este
teste é muito utilizado quando uma amostra aleatória é dividida em grupos não aleatórios (exemplo: se n = 100
e formarmos dois grupos, n·1 = 50 e n·2 = 50). Por esta razão, é um teste muito utilizado em Biologia, no
sentido em que se pretende comparar dois grupos, sendo um de controlo.
O teste é igual ao de independência, sendo as hipóteses formuladas:

H0 : Existe homogeneidade
HA : Não existe homogeneidade

para um nı́vel de significância α.

56
Apêndice A

Técnicas de Contagem

A.1 Arranjos Completos de n Elementos Tomados p a p


Definição A.1 Seja C um conjunto finito. As sequências do conjunto
C p = {(c4 , c2 , . . . , cp ) : ci ∈ C, i = 1, 2, . . . , p}
chamam-se arranjos com repetição ou arranjos completos.
O número de arranjos com repetição de n elementos p a p é designado por n A0p ou A0n,p , onde n = #C.
n
Proposição A.1 A0p = np
Observação A.1 Na demonstração da proposição anterior utiliza-se o seguinte:
# (B1 × B2 × · · · × Bm ) = #B1 · #B2 · · · #Bm .
Isto é, o cardinal do produto cartesiano de m conjuntos é igual ao produto dos cardinais desses conjuntos.

A.2 Arranjos Sem Repetição de n Elementos Tomados p a p


Definição A.2 Chamam-se arranjos sem repetição ou arranjos simples às sequências constituı́das por
elementos todos distintos.
O número de arranjos simples de n elementos p a p é designado por n Ap ou An,p .
Em particular, se n = p, os arranjos simples denominam-se por permutações e n An = Pn .
n n!
Proposição A.2 Ap = n × (n − 1) × (n − 2) × · · · × (n − p + 1) =
(n − p)!
Observações A.2
1. Obviamente, nos arranjos simples n ≥ p.
2. Não esquecer que, por definição,
½
n × (n − 1) × · · · × 2 × 1 se n ∈ N \ {1},
n! =
1 se n = 1,
e, por convenção, 0! = 1. Assim, Pn = n!.

A.3 Combinações de n Elementos Tomados p a p


Definição A.3 Seja A um conjunto com n elementos. Chamam-se combinações desses n elementos p a p a
todos os subconjuntos desses ¡de¢ p elementos que é possı́vel considerar em A.
Designam-se por n Cp ou np o número total de combinações de n elementos p a p.
Observação A.3 Repare-se que abc e acb são arranjos simples distintos, mas a mesma combinação. Isto é,
nos arranjos tem-se em conta a ordem, mas não nas combinações.
n
n Ap n!
Proposição A.3 Cp = = , com n ≥ p.
Pp p!(n − p)!