Você está na página 1de 58

UNIVERSIDADE DA BEIRA INTERIOR

Apontamentos Teoricos
de
Probabilidades e Estatstica
Jorge Gama
Ano Lectivo 2005/2006
0
Captulo 1
Teoria das Probabilidades
1.1 Introducao
Na Estatstica Descritiva descreveram-se e analisaram-se conjuntos de observa coes relativas a fenomenos aleato-
rios. Neste campo os conceitos estatsticos estabelecidos eram empricos. Embora esse estudo seja importante,
e sem d uvida limitado quando se pretende analisar e interpretar ou tomar decisoes no contexto dos fenomenos
em estudo.
Neste captulo estudaremos as nocoes basicas da Teoria das Probabilidades, teoria esta que e o suporte sobre
a qual assenta a teoria da analise, interpretacao e tomadas de decisao no contexto do estudo dos fenomenos
aleatorios, isto e, a Inferencia Estatstica
A Teoria das Probabilidades (ou calculo das probabilidades) pode caracterizar-se como o modelo matematico
das regularidadesque se observam nas distribuicoes de frequencias correspondentes aos fenomenos aleatorios
Todo o modelo matematico parte de determinadas propriedades basicas: os axiomas.
No entanto, antes de abordarmos os axiomas da Teoria das Probabilidades e necessario introduzirmos/com-
preendermos determinados conceitos.
Um fenomeno diz-se aleatorio quando o acaso interfere na ocorrencia de um ou mais dos resultados nos
quais tal fenomeno se pode traduzir. Conjugando determinado n umero de condicoes, um resultado aleatorio
pode ocorrer ou nao. Assim, um fenomeno aleatorio caracteriza-se fundamentalmente pelo seguinte:
a) Pode ser repetido in umeras vezes em identicas condicoes.
b) Nao se pode armar qual o resultado da realizacao de uma repeticao antes da sua realizacao.
c) Apesar de os resultados das experiencias se mostrarem irregulares, verica-se que os resultados obtidos ao
cabo de uma longa repeticao da experiencia apresentam regularidade estatstica
Exemplos 1.1
1. Considere-se o lancamento ao ar de uma moeda e registo da face voltada para cima.
Observacao 1.1 No caso de uma moeda perfeita, repetido o lancamento um n umero elevado de vezes
verica-se aproximadamente o mesmo n umero de faces e coroas, isto e, pode prever-se qual a proporcao
de faces e coroas num grande n umero de lancamentos (regularidade estatstica).
2. Lancamento de um dado e registo do n umero de pontos obtidos.
3. Extraccao de uma carta de um baralho e registo das suas caractersticas.
4. Seleccao ao acaso de um habitante de uma cidade com o objectivo de conhecer as suas despesas mensais.
5. Observacao do sexo de um recem-nascido numa serie de nascimentos.
1.2 Espaco de Resultados
Denicao 1.1 O conjunto de todos os resultados possveis associados a uma experiencia aleatoria denomina-
se espaco de resultados (ou espaco-amostra, ou espaco amostral, ou espaco universal, ou, ainda, espaco
fundamental)
1
Notacao 1.1 O espaco de resultados associado a uma dada experiencia aleatoria sera designado por . Qual-
quer resultado individual e designado por ( ).
Observacao 1.2 Os elementos de podem ser n umeros, sequencias de n umeros, atributos ou grupos de atri-
butos ou, ainda, uma combinacao de elementos quantitativos e qualitativos.
Exemplos 1.2
1. No lancamento de uma moeda se designarmos por F a face e por C a coroa, o espaco de resultados e
= {F, C}.
2. No lancamento de um dado de seis faces existem seis resultados possveis. Designando por j, com
j = 1, . . . , 6, o resultado que consiste na aparicao da face com o n umero j de pontos, o espaco de re-
sultados e
= {1, 2, 3, 4, 5, 6}.
3. No lancamento de uma moeda e de um dado, o espaco de resultados podera ser descrito por:
= {F1, F2, F3, F4, F5, F6, C1, C2, C3, C4, C5, C6}.
1.3 Acontecimentos Aleatorios
Denicao 1.2 Os subconjuntos de designam-se por acontecimentos.
Notacao 1.2
1. Os acontecimentos serao designados por letras mai usculas (A, B, C, . . . , A
1
, A
2
, . . . ).
2. Representaremos por P() as partes de , isto e, o conjunto de todos o acontecimentos de .
Observacoes 1.3
1. Obviamente, e um acontecimento (dito acontecimento certo) ( P()).
2. Ao acontecimento formado por um unico elemento ({}) damos a designacao de acontecimento elemen-
tar.
3. O acontecimento denomina-se de acontecimento impossvel ( P()).
Exemplo 1.3 No lancamento de duas moedas
= {(F, F), (F, C), (C, F), (C, C)}
ou, simplesmente,
= {FF, FC, CF, CC} .
Acontecimentos elementares: {FF}, {FC}, {CF} e {CC}.
Outros acontecimentos:
A = {FC, CF} sada de exactamente uma face (ou de exactamente uma coroa);
B = {FF, FC} sada de face na 1
a
moeda;
C = {FC, CF, CC} sada de pelo menos uma coroa
1.3.1 Principais Conceitos da

Algebra de Acontecimentos
Como, por denic ao, os acontecimentos sao conjuntos, podemos concluir que existe paralelismo entre a algebra
dos conjuntos e a algebra dos acontecimentos. Assim, podemos usar os smbolos: , , , , =, , , \, etc.
Questoes de Linguagem
Quando se diz que um acontecimento ocorre (se realiza) e porque se observou a ocorrencia (realizacao)
de um seu elemento no contexto de uma experiencia aleatoria. Por exemplo, no lancamento de um dado de seis
faces, se a face voltada para cima era o elemento 2, entao o acontecimento {1, 2, 3} ocorreu.
Sejam um espaco de resultados e A e B acontecimentos de .
2
1) A ocorrencia (realizacao) de A implica a ocorrencia de B se, e somente se, todo o elemento de A e elemento
de B. Escreve-se, entao, A B.
2) A e B sao identicos se, e somente se, a ocorrencia de um implica a ocorrencia do outro, isto e, A B e
B A. Escreve-se A = B.
3) Interseccao ou produto logico de A por B e o acontecimento que ocorre se, e somente se, A e B ocorrem
simultaneamente. Representa-se este acontecimento por A B (ou AB).
4) Reuniao entre os acontecimentos A e B e o acontecimento que ocorre se, e somente se, A ou B ocorre, isto
e, pelo menos um deles. Representa-se este acontecimento por A B.
5) A e B dizem-se incompatveis se, e somente se, a ocorrencia de um deles implica a nao ocorrencia do outro,
isto e, A B = .
Os acontecimentos A
1
, A
2
, . . . , A
n
dizem-se mutuamente exclusivos se, e somente se, A
i
A
j
= , para
i = j.
6) Diferenca entre B e A e o acontecimento que ocorre se, e somente se, B ocorre sem que ocorra A.
Representa-se por B \ A (ou B A).
7) Quando A B, B \ A e o acontecimento complementar de A em relacao a B.
Em particular, \A designa-se por acontecimento complementar (contrario) de A e ocorre se, e somente
se, A nao ocorre.

E usual representar-se por A.
Nota: A A = e A A = .
8) Diferenca simetrica entre A e B e o acontecimento que ocorre se, e somente se, ou ocorre A ou ocorre B,
isto e, ocorre um e um so dos acontecimentos, ou ainda, ocorre A ou B, mas nao simultaneamente os dois.
Este acontecimento representa-se por AB e AB = (A\ B) (B \ A) = (A B) \ (A B).
3
Proposicoes 1.1 Sejam um espaco de resultados associado a uma dada experiencia aleatoria e
A, B, C .
1. A operacao reuniao (resp. interseccao) e associativa:
A (B C) = (A B) C (A (B C) = (A B) C) .
2. A operacao reuniao (resp. interseccao) e comutativa:
A B = B A (A B = B A) .
3. A operacao reuniao (resp. interseccao) e distributiva relativamente `a operacao interseccao (resp. reuniao):
A (B C) = (A B) (A C) (A (B C) = (A B) (A C)) .
4. A operacao reuniao (resp. interseccao) e idempotente:
A A = A (A A = A) .
5. i) A B A B = B ii) A B A B = A.
6. i) A = ii) A = A iii) A = A iv) A = .
7. Leis de De Morgan:
i) A B = A B ii) A B = A B.
8. A\ B = A B.
9. A = A.
10. i) (A B) (A B) = A ii) (A B) (A B) = .
1.4 Axiomas da Teoria das Probabilidades
Denicao 1.3 Seja um espaco de resultados associado a uma dada experiencia aleatoria. Chama-se proba-
bilidade a uma funcao P : P() R que satisfaz os seguintes axiomas:
(A1) P(A) 0; para todo o acontecimento A.
(A2) P() = 1;
(A3) Se A
1
, A
2
, A
3
, . . . , sao acontecimentos mutuamente exclusivos, isto e, A
i
A
j
= , para i = j, entao
P

i1
A
i

i1
P (A
i
) .
Proposicoes 1.2 Sejam um espaco de resultados e A, B e C tres acontecimentos, quaisquer.
1. P

= 1 P (A);
2. P() = 0;
4
3. P(A\ B) = P(A) P(A B);
4. P(A B) = P(A) +P(B) P(A B);
5. P(A B) P(A) +P(B);
6. A B P(A) P(B);
7. 0 P(A) 1;
8. P(AB) = P(A) +P(B) 2P(A B);
9. P(A B C) = P(A) +P(B) +P(C) P(A B) P(A C) P(B C) +P(A B C).
1.5 Espacos de Resultados Finitos. Denicao Classica de Probabi-
lidade
Suponhamos que o espaco de resultados e nito. Entao = {
1
,
2
, . . . ,
n
}. Vamos admitir a hipotese de
equiprobabilidade, isto e, vamos admitir que
P({
1
}) = P({
2
}) = = P{
n
}).
Assim, podemos deduzir que o valor comum destas probabilidades e
1
n
. De facto tem-se
P() = 1
P

i=1
{
i
}

= 1

i=1
P({
i
}) = 1
nP({
j
}) = 1, para j = 1, . . . , n
P({
j
}) =
1
n
, para j = 1, . . . , n.
E para qualquer acontecimento A = {
i
1
,
i
2
, . . . ,
i
m
}, obtemos, por processos analogos,
P(A) =
m
n
.
Isto e, a probabilidade de um acontecimento e o quociente entre o n umero de resultados (casos) favoraveis
`a ocorrencia do acontecimento e o n umero de resultados possveis considerados como equiprovaveis (Regra
Classica de Laplace):
P(A) =
n
o
de casos favoraveis
n
o
de casos possveis
=
#A
#
.
1.6 Probabilidades Condicionadas. Independencia
Denicao 1.4 Sejam um espaco de resultados e A e B dois acontecimentos, em que P(B) > 0. A nova
funcao
P(A|B) =
P(A B)
P(B)
denomina-se probabilidade condicional (ou condicionada) de A (por B).
Observacoes 1.4
1. Obviamente, com B xo, P( . |B) satisfaz os axiomas das probabilidades.
2. P(A|B) prob. de ocorrer A, dado que ocorreu B (ou prob. de A condicionada pela realizacao de B).
Teorema 1.3 Sejam A
1
, A
2
, . . . , A
n
acontecimentos tais que P(A
1
A
2
. . . A
n1
) > 0. Entao
P(A
1
A
2
. . . A
n
) = P(A
1
)P(A
2
|A
1
)P(A
3
|A
1
A
2
) P(A
n
|A
1
A
2
. . . A
n1
).
5
Denicao 1.5 Dois acontecimentos A e B dizem-se independentes se, e somente se,
P(A B) = P(A) P(B).
Dois acontecimentos sao independentes se a probabilidade da ocorrencia de um nao afecta a probabilidade
da ocorrencia do outro. O teorema seguinte justica esta armacao.
Teorema 1.4 Os acontecimentos A e B de probabilidade positiva sao independentes se, e somente se,
P(A|B) = P(A) (ou P(B|A) = P(B)).
Denicao 1.6 Os acontecimentos A
1
, A
2
, . . . , A
n
sao mutuamente independentes se, e somente se, para todos
os inteiros i
1
, i
2
, . . . , i
k
, satisfazendo as condicoes
1 i
1
< i
2
< i
3
< < i
k
n,
se tem
P(A
i
1
A
i
2
. . . A
i
k
) = P(A
i
1
)P(A
i
2
) P(A
i
k
).
Exemplo 1.4 Considerem-se 4 cartas numeradas de 1 a 4. Tira-se ao acaso uma carta e admita-se a hipotese
de equiprobabilidade.
Sejam:
E
1
= a carta retirada e 1 ou 4;
E
2
= a carta retirada e 1 ou 3;
E
3
= a carta retirada e 1 ou 2.
Observe-se que P(E
1
) = P(E
2
) = P(E
3
) =
1
2
e P(E
1
E
2
) =
1
4
=
1
2

1
2
= P(E
1
) P(E
2
). Logo, E
1
e E
2
sao independentes.
Analogamente, pode mostrar-se que E
1
e E
3
sao independentes, assim como E
2
e E
3
. No entanto, os tres
acontecimentos nao sao independentes, pois
P(E
1
E
2
E
3
) =
1
4
e
P(E
1
) P(E
2
) P(E
3
) =
1
2

1
2

1
2
=
1
8
.
Teorema 1.5 (Teorema da Probabilidade Total) Sejam A
1
, A
2
, . . . , A
n
acontecimentos mutuamente ex-
clusivos (A
i
A
j
= , para i = j) e exaustivos (
n
i=1
A
i
= ). Se P(A
i
) > 0, para i = 1, . . . , n, entao, para
qualquer acontecimento B,
P(B) = P(B|A
1
) P(A
1
) +P(B|A
2
) P(A
2
) + +P(B|A
n
) P(A
n
)
=
n

i=1
P(B|A
i
) P(A
i
).
Observacao 1.5 Quando os acontecimentos sao mutuamente exclusivos e exaustivos e vulgar utilizar o termo
particao (de ) para os designar. Observe o diagrama seguinte:
Observe ainda que B = (B A
1
) (B A
2
) . . . (B A
n
).
6
Corolario 1.6 Seja A um acontecimento tal que 0 < P(A) < 1. Entao, para qualquer acontecimento B,
P(B) = P(B|A) P(A) +P(B|A) P(A).
Teorema 1.7 (Teorema de Bayes) Sejam A
1
, A
2
, . . . , A
n
acontecimentos mutuamente exclusivos e exausti-
vos. Se P(A
i
) > 0, para i = 1, . . . , n, e B e um acontecimento tal que P(B) > 0, entao
P(A
j
|B) =
P(B|A
j
) P(A
j
)
n

i=1
P(B|A
i
) P(A
i
)
, i = 1, 2, . . . , n.
Esta formula e conhecida por formula de Bayes ou formula das probabilidades `a posteriori.
7
8
Captulo 2
Variaveis Aleatorias Reais.
Distribuicoes de Probabilidade
2.1 Denicao de Variavel Aleatoria

E sabido que numa experiencia aleatoria o espaco de resultados, , pode ter ou nao caracter quantitativo. Por
exemplo, no lancamento de uma moeda o espaco de resultados que lhe esta associado tem caracter qualitativo,
mas se no lancamento de tres moedas estivermos interessados no n umero de faces, o espaco de resultados que
lhe esta associado ja tem caracter quantitativo.
A aplicacao de procedimentos estatsticos passa, correntemente, pela atribuicao de um n umero real a cada
elemento . Essa atribuicao pode ser ate puramente convencional. No entanto, esta atribuicao tera que ser
feita com cuidado por forma a podermos calcular a probabilidade de ocorrencia de valores em intervalos reais.
Da a denicao seguinte.
Denicao 2.1 Seja um espaco de resultados associado a uma dada experiencia aleatoria. Chama-se variavel
aleatoria (abreviadamente, v.a.) a uma funcao X : R tal que A
r
= { : X() r}, com r R,
seja um acontecimento.
Notacao 2.1

E usual representarem-se as variaveis aleatorias pelas ultimas letras mai usculas: X, Y , Z, W,
X
1
, X
2
, . . . , Y
1
, . . . .
O restricao imposta `a funcao X tem como objectivo que o seu contradomnio seja um novo espaco de resul-
tados em que a cada um dos seus elementos associa-se uma probabilidade, calculavel a partir das probabilidades
de ocorrencia dos resultados iniciais.
As vantagens da utilizacao de variaveis aleatorias torna-se evidente em muitos casos que nos irao surgindo.
Uma dessas vantagens surge em in umeros casos onde nao interessa apreciar os elementos de com todos os
pormenores de que se revestem, mas sim focarmos a nossa atencao na caracterstica numerica em estudo. Os
exemplos seguintes ilustram este ponto de vista.
Exemplos 2.1
1. O espaco de resultados associado ao lancamento de uma moeda tres vezes pode ser denido por
= {FFF, FFC, FCF, FCC, CCC, CCF, CFF, CFC}.
Considere-se a seguinte variavel aleatoria:
X = n umero de faces.
Esta variavel aleatoria tem como contradomnio

= {0, 1, 2, 3} e, admitindo-se a hipotese de equiprobabili-


dade,
9
P(X = 0) = P({CCC}) =
1
8
P(X = 1) = P({FCC, CCF, CFC}) =
3
8
P(X = 2) = P({FFC, FCF, CFF}) =
3
8
P(X = 3) = P({FFF}) =
1
8
A partir dos calculos anteriores podemos calcular a probabilidade de outros acontecimentos. Por exemplo, a
probabilidade de ocorrer pelo menos duas faces:
P(X 2) = P(X = 2) +P(X = 3) =
1
2
.
Ou ainda, a probabilidade de ocorrer menos de 3 faces:
P(X < 3) = 1 P(X = 3) =
7
8
.
2. Considere-se uma populacao de empresas das quais se escolhe uma ao acaso. O espaco de resultados e
= {
1
,
2
, . . . ,
n
}, onde n e o n umero total de empresas na populacao. Consoante os objectivos do
estudo, diversas variaveis aleatorias podem ser denidas. Eis alguns exemplos:
X
1
= n umero de empregados de uma empresa;
X
2
= capital social de uma empresa;
X
3
= volume anual de vendas de uma empresa.
Proposicao 2.1 Sejam um espaco de resultados, X : R e Y : R duas variaveis aleatorias, e
c R. Entao,
i) X +Y e uma variavel aleatoria;
ii) c X e uma variavel aleat oria;
iii) X Y e uma variavel aleatoria.
Denicao 2.2 Seja X uma v.a.. Chama-se `a funcao F
X
(ou F) funcao de distribuicao (cumulativa) (f.d.)
de X, se F
X
: R [0, 1] tal que
F
X
(x) = P(X x),
para todo x R.
A f.d., F(x), de uma v.a. X goza das seguintes propriedades:
Teorema 2.2
1. 0 F(x) 1;
2. F(x) e nao decrescente;
3. F() = lim
x
F(x) = 0; F(+) = lim
x+
F(x) = 1;
4. Para valores x
1
e x
2
quaisquer, nitos, com x
2
> x
1
, tem-se P(x
1
< X x
2
) = F(x
2
) F(x
1
);
5. F(x) e contnua `a direita, isto e, lim
xa
+
F(x) = F(a);
6. P(X = a) = F(a) F(a

) = F(a) lim
xa

F(x).
Denicao 2.3 Sejam X uma v.a. e D = {a : P(X = a) > 0} um conjunto, quando muito numeravel, dos
pontos de descontinuidade de uma f.d.. A v.a. X diz-se discreta quando P(X D) = 1; a v.a. diz-se nao
discreta quando P(X D) < 1.
10
Quando X e uma v.a. discreta existe um conjunto nito ou innito numeravel, D = {a
1
, a
2
, . . .}, tal que,
P(X D) =

i
P(X = a
i
) = 1,
P(X = a
i
) > 0, i = 1, 2, . . . .
Estas duas propriedades permitem especicar a probabilidade de qualquer acontecimento de R em termos
de uma soma ou serie de parcelas do tipo P(X = a
i
), com a
i
D. De facto, com E R,
P(X E) = P(X E D) +P(X E D);
como E D D e P(X D) = 0, vem,
P(X E) =

a
i
ED
P(X = a
i
).
Esta propriedade torna util a seguinte denicao:
Denicao 2.4 Seja X uma v.a. discreta. Chama-se funcao de probabilidade (f.p.) de X `a funcao f
X
(ou
f) denida por:
f
X
(x) =

P(X = x) se x D
0 se x D
Denicao 2.5 Seja X uma v.a. e F(x) a respectiva f.d.. A v.a. X diz-se contnua se
D = {a : P(X = a) > 0} =
e existe uma func ao nao negativa, f
X
(x) 0 (ou f ), tal que
F
X
(x) =

f
X
(u) du.
A esta funcao f
X
(x) chama-se funcao de densidade de probabilidade, (f.d.p.), ou simplesmente funcao
de densidade.
Observacoes 2.1
1. Mostra-se que, se D = {a : P(X = a) > 0} = , entao F(x) nao apresenta descontinuidades.
2. Atendendo `as denicoes anteriores e aos axiomas das probabilidades mostra-se que toda a funcao de
probabilidade (resp. densidade) satisfaz as condicoes:
i) f(x) 0, x R.
ii)

i
f(x
i
) = 1 (resp.

+

f(u) du = 1).
3. Se X e uma v.a. discreta, entao F
X
(x) =

{i: x
i
x}
f
X
(x
i
).
4. Se X e uma v.a. contnua, entao F

X
(x) = f
X
(x), excepto num conjunto nito ou innito numeravel de
pontos x de probabilidade nula.
Exemplos 2.2
1. Consideremos novamente o exemplo 1. dos Exemplos 2.1. A funcao de probabilidade desta v.a. e denida
por:
x 0 1 2 3
f(x)
1
8
3
8
3
8
1
8
11
E gracamente,
A sua funcao de distribuicao e denida por:
F(x) =

0 se x < 0
1
8
se 0 x < 1
1
2
se 1 x < 2
7
8
se 2 x < 3
1 se x 3
,
ou, em forma de tabela,
x x < 0 0 x < 1 1 x < 2 2 x < 3 x 3
F(x) 0
1
8
1
2
7
8
1
E, gracamente,
Nota: O graco da funcao de distribuicao de uma variavel discreta e sempre em escada.
2. Seja Y uma v.a. cuja funcao de distribuicao e denida por
F(y) =

0 se y < 0
y
3
se 0 y < 3
1 se y 3
.
Entao, a sua funcao de densidade pode ser denida por
f(y) =

1
3
se 0 y 3
0 se y < 0 y > 3
.
E os seus gracos:
Nota: O valor da probabilidade num intervalo corresponde a uma area entre o eixo das abcissas e o graco
de f, no intervalo considerado.
Denicao 2.6 Uma v.a. discreta X diz-se constante se existe a R tal que P(X = a) = 1.
12
2.2 Medidas de Localizacao e Dispersao. Momentos
2.2.1 Medidas de Localizacao
Denicao 2.7 Denomina-se media, esperanca matematica ou valor esperado de uma v.a. X ao n umero,
caso exista,
X
ou E(X) denido por:
i) E(X) =

i
x
i
f(x
i
), se X e uma v.a. discreta tomando valores em {x
1
, x
2
, . . .}.
ii) E(X) =

xf(x) dx, se X e contnua.


Exemplos 2.3
1. Considerando novamente o exemplo 1 dos Exemplos 2.1,
E(X) = 0
1
8
+ 1
3
8
+ 2
3
8
+ 3
1
8
=
3
2
.
2. Se
f(y) =

1
3
se 0 y 3
0 se y < 0 y > 3
e a funcao de densidade de probabilidade de uma v.a. Y , entao
E(Y ) =

yf(y) dy =

y 0 dy +

3
0
y
3
dy +

+
3
y 0 dy =
3
2
.
Denicao 2.8 Seja X uma v.a. e (X) uma funcao de X.
1. E((X)) =

i
(x
i
)f
X
(x
i
), se X e discreta;
2. E((X)) =

(x)f
X
(x) dx, se X e contnua.
Proposicoes 2.3 Sejam X e Y duas variaveis aleatorias, (X) uma funcao de X, e a e b constantes reais.
1. E(a) = a;
2. E(a (X)) = a E((X));
3. E(a X +b Y ) = a E(X) +b E(Y ).
Outras medidas de localizacao de uma v.a., alternativas `a media, sao a mediana (
X
) e a moda (m
X
).
Denicao 2.9 Seja X uma variavel aleatoria. A mediana de X e o valor de x que satisfaz as desigualdades,
P(X x)
1
2
e P(X x)
1
2
,
e representa-se por
X
ou, simplesmente, . Em termos da funcao de distribuicao, a dupla desigualdade e
equivalente a
1
2
F(x)
1
2
+P(X = x).
13
Se X e contnua, a mediana e o valor x que satisfaz,
F(x) =

f(u) du =
1
2
.
Se existir mais do que um valor que sirva para mediana, entao toma-se para mediana
=
x
min
+x
max
2
,
onde x
min
e x
max
representam, respectivamente, o mnimo e o maximo do conjunto de solucoes.
Podemos, a partir da ideia de mediana, denir parametros usando outros valores de probabilidade.
Denicao 2.10 Dado qualquer n umero p, 0 < p < 1, dene-se p-esimo quantil de uma v.a. ou de uma
distribuicao como o valor x que satisfaz as desigualdades,
P(X x) p, P(X x) 1 p,
isto e,
p F(x) p +P(X = x).
Se a v.a. e do tipo contnua, o quantil de ordem p e o n umero x que satisfaz a equacao,
F(x) = p ou

f(u) du = p.
O quantil de ordem p sera representado por
p
.
Em particular, com p = s/4, s = 1, 2, 3, obtem-se os quartis, sendo o quartil de ordem 2 a mediana; com
p = s/10, s = 1, 2, . . . , 9, os decis, com p = s/100, s = 1, 2, . . . , 99, obtem-se os percentis.
Denicao 2.11 Chama-se moda de uma v.a. X, m
X
, a um valor da variavel (caso exista) do seu contra-
domnio para o qual f
X
(funcao de probabilidade ou funcao de densidade de probabilidade de X) toma um valor
maximo.
Exemplos 2.4
1. No contexto do exemplo 1. dos Exemplos 2.1,

X
=
1 + 2
2
=
3
2
e tem duas modas (bimodal), m
1
= 1 e m
2
= 2.
Nota: No caso de variaveis aleatorias discretas, existe alguma bibliograa que considera para moda o ponto
medio dos valores adjacentes da variavel que maximizam a func ao de probabilidade.
2. No contexto do exemplo 2. dos Exemplos 2.2, existem uma innidade de modas. Qualquer valor do
intervalo [0, 3] e uma moda.
2.2.2 Medidas de Dispersao
Denicao 2.12
1. Se X e uma v.a. discreta tomando valores em {x
1
, x
2
, . . .}, chama-se desvio absoluto medio `a medida de
dispersao denida por

X
=

i
|x
i

X
| f
X
(x
i
).
2. Se X e uma v.a. contnua, o desvio absoluto medio dene-se por

X
=

|x
X
| f
X
(x) dx.
14
Outra quantidade de grande importancia, que permite denir outra medida de dispersao, e a variancia de
uma variavel aleatoria.
Denicao 2.13
1. Se X e uma v.a. discreta tomando valores em {x
1
, x
2
, . . .}, a variancia de X,
2
X
ou Var(X), dene-se por
Var(X) =

i
(x
i

X
)
2
f
X
(x
i
).
2. Se X e uma v.a. contnua, a variancia dene-se por
Var(X) =

(x
X
)
2
f
X
(x) dx.
Observacao 2.2

E evidente que Var(X) = E

(X
X
)
2

.
Proposicoes 2.4 Se X e uma v.a., entao
1. Var(X) = E(X
2
) [E(X)]
2
(formula de Koenigs).
2. Var(aX) = a
2
Var(X), com a uma constante real.
Observacao 2.3 E(X
2
) =

i
x
2
i
f
X
(x
i
), se X e uma v.a. discreta, ou E(X
2
) =

x
2
f
X
(x) dx, se X e uma
v.a. contnua.
`
A custa da variancia dene-se outra medida de dispersao.
Denicao 2.14 Chama-se desvio padrao de uma v.a. X `a medida de dispersao denida por
=

Var(X).
2.2.3 Variaveis Estandardizadas
Denicao 2.15 Seja X uma v.a. com media e desvio padrao . A v.a.
Z =
X

diz-se normalizada ou estandardizada.


Proposicao 2.5 A v.a. Z =
X

tem media 0 e desvio padrao 1.


A estandardizacao de uma v.a. permite uma mudanca de escala e observe-se que uma v.a. estandardizada
nao tem unidades. Desta forma, e possvel comparar as distribuicoes de variaveis aleatorias distintas.
2.2.4 Momentos
O valor esperado e a variancia pertencem a uma famlia de parametros que se designam por momentos. Enquanto
o valor esperado pertence `a subfamlia dos momentos ordinarios (ou momentos na origem), a variancia
pertence `a subfamlia dos momentos centrados. Vejamos como se denem.
Denicao 2.16 Chama-se momento ordinario de ordem k ao parametro

k
=

i
x
k
i
f
X
(x
i
),
se X e uma v.a. discreta, ou

k
=

x
k
f
X
(x) dx,
se X e uma v.a. contnua.
Observacao 2.4

E evidente que o valor esperado e o momento ordinario de primeira ordem (

1
= ).
15
Denicao 2.17 Chama-se momento centrado (na media) de ordem k ao par ametro

k
=

i
(x
i

X
)
k
f
X
(x
i
),
se X e uma v.a. discreta, ou

k
=

(x
X
)
k
f
X
(x) dx,
se X e uma v.a. contnua.
Observacao 2.5 Repare-se que a variancia e o momento centrado de segunda ordem (
2
=
2
).
Existem expressoes que relacionam os momentos ordinarios com os momentos centrados. De facto, qualquer
momento centrado de ordem k pode exprimir-se em funcao dos momentos ordinarios de ordem nao superior a
k e vice-versa:

k
=
k

i=0
(1)
ik
C
i
(

1
)
i

k1
e

k
=
k

i=0
k
C
i
(

1
)
i

ki
.
Observe-se que, na primeira expressao fazendo-se k = 2, obtem-se a formula de Koenigs.
Alem dos momentos ja denidos, existem outros momentos centrados (centrados em outro parametros) e
ainda os momentos absolutos ordinarios ou centrados. O desvio absoluto medio e o momento absoluto centrado
(na media) de primeira ordem.
Todos os parametros denidos (caso existam) caracterizam uma distribuicao. Para que duas distribuicoes
sejam iguais e necessario que tenham a mesma sequencia de momentos. No entanto, esta condicao nao e
suciente, pois uma sequencia de momentos nao determina univocamente uma distribuicao. Para que tal suceda,
e necessario garantir a existencia de uma funcao que e designada por funcao geradora de momentos. Este
assunto sera abordado na subseccao seguinte.
Na pratica, raramente sao calculados momentos de ordem superior a 4, pois tais momentos sao de difcil
caracterizacao. No entanto, a igualdade de momentos nao superiores a 4 e suciente para que duas distribuicoes
sejam aproximadamente iguais. Vejamos algumas utilizacoes destes momentos.
Uma v.a. X e simetrica ou possui uma distribuicao simetrica, se existe um n umero a tal que, para todo o
x, P(X < a x) = P(X > a +x), isto e,
F(a x) P(X = a x) = 1 F(a +x).
O ponto a e chamado centro de simetria. Se a v.a. e do tipo contnuo, deduz-se da igualdade anterior que a sua
f.d.p., nos pontos onde e contnua, satisfaz a equacao,
f(a x) = f(a +x).
Se a v.a. e do tipo discreto, os pontos de salto e as correspondentes probabilidades dispoem-se simetricamente
em relacao a a.
Quando uma distribuicao e simetrica e facil concluir que os momentos centrados na media de ordem mpar
sao nulos. Assim, desejando-se caracterizar a assimetria por meio de um parametro, parece natural a utilizacao
de um desses momentos, preferivelmente o de ordem 3,
3
. Como este momento e de terceira ordem em termos
da unidade original, leva a que se utilize para medida de assimetria o parametro

1
=

3

3
ou

1
=

2
3

3
2
=
2
1
.
Quando a assimetria e positiva (ramo esquerdo mais abrupto) sao os desvios positivos que predominam no
calculo de
3
, que, por esse facto, leva a que
1
> 0. A assimetria negativa caracteriza-se por
1
< 0.
Outra func ao de momentos com algum interesse e,

2
=

4

2
2
,
que e usado para medir o excesso de Kurtosis da distribuicao, conceito associado com o achatamento da f.d.p.
ou f.p. na zona central da distribuicao. Costuma usar-se como meio de comparacao a distribuicao Normal
estandardizada (que estudaremos no captulo seguinte). Nesta distribuicao
4
= 3 e
2
= 1. Assim, em vez de

2
, usa-se por vezes,

2
=
2
3.
16
2.2.5 Desigualdades Importantes para Momentos
Teorema 2.6 (Desigualdade de Markov) Seja (X) uma funcao de uma v.a. X. Se existir E[(X)], entao,
para qualquer n umero real c > 0,
P((X) c)
1
c
E[(X)].
Corolario 2.7 Se X e uma v.a. nao negativa e se existir E(X), entao, para qualquer n umero real c > 0,
P(X c)
E(X)
c
.
Corolario 2.8 Se X e uma v.a. e se existir E(X), entao, para qualquer n umero real c > 0,
P(|X| c)
E(|X|)
c
.
Corolario 2.9 Se X e uma v.a. e se existir E(|X|
r
), para qualquer n umero real r > 0, entao, para qualquer
n umero real c > 0,
P(|X| c)
E(|X|
r
)
c
r
.
Corolario 2.10 Se X e uma v.a. com media e variancia
2
, nita, entao, para qualquer n umero real t > 0,
P(|X | t)
1
t
2
.
A desigualdade do corolario anterior, que, alias como todas as outras, tambem se pode apresentar na forma
P(|X | < t) 1
1
t
2
e a bem conhecida desigualdade de Chebychev. Trata-se de um instrumento muito importante em aplicacoes.
Pois, observe-se que, para qualquer v.a. X, conhecidas a media e variancia, a quantidade de probabilidade no
intervalo ] t, + t[ nunca e inferior a 1 1/t
2
, ou, o que e o mesmo, a quantidade de probabilidade fora
desse intervalo nunca e superior a 1/t
2
. Esta desigualdade reforca a ideia da utilizacao de como medida de
localizacao e como medida de dispersao, permitindo empregar-se quando nao se conhece a distribuicao da
variavel aleatoria. Evidentemente, se a distribuicao da variavel for conhecida, a desigualdade passa a ter menos
interesse uma vez que pode calcular-se o valor exacto (ou pelo menos tao aproximado quanto se queira) de
P(|X | < t). No entanto, neste caso a sua utilizacao pode permitir fazer um calculo mais rapido.
2.2.6 Funcao Geradora de Momentos
No intuito de caracterizar uma distribuicao e possvel, em muitos casos, obter uma funcao que permite gerar
todos os momentos em relacao `a origem.
Denicao 2.18 Dene-se funcao geradora de momentos, abreviadamente f.g.m., da v.a. X como sendo o
valor esperado de e
Xt
, caso exista, e representa-se por
G
X
(t) = E

e
Xt

.
Diz-se que a funcao geradora de momentos existe se existir uma constante positiva, a, para a qual G
X
(t)
seja nita para |t| < a. Observe-se, a partir da denicao, que G
X
(0) = 1; a existencia numa vizinhanca de t = 0
depende da distribuicao de X.
Teorema 2.11 Se a f.g.m. e denida para |t| < a, com a > 0, entao
G
(k)
(0) =

k
, k = 1, 2, 3, . . . .
Consequentemente, se G(t) existe numa vizinhanca de 0, G(t) pode desenvolver-se, de uma unica forma, em
serie de MacLaurin,
G(t) = 1 +G

(0) +
G

(0)t
2
2!
+
=
+

k=0
E

X
k

t
k
k!
=
+

k=0

k
t
k
k!
17
Como e evidente, os momentos centrados de X sao gerados pela f.g.m. da distribuicao da v.a. X :
G
X
(t) = E

e
t(X)

= e
t
G
X
(t),
ou, equivalentemente,
G
X
(t) = e
t
G
X
(t).
Para a v.a. estandardizada U = (X )/, tem-se
G
U
(t) = E

e
tU

= E

e
t(X)/

= e
t/
G
X
(t/),
ou
G
X
(t) = e
t
G
U
(t).
O teorema 2.11 nao e a principal propriedade das f.g.m.. A principal reside no facto de permitirem identicar
as distribuicoes para as quais existem:
Teorema 2.12 A f.g.m. determina univocamente a f.d.; reciprocamente, se a f.g.m. existe, e unica.
Exemplos 2.5
1. Considere-se a v.a. X cuja f.p. e denida por
f(x) =

p(1 p)
x1
se x = 1, 2, . . .
0 o.v. de x
onde 0 < p < 1, xo. Pretende-se determinar E(X) e V ar(X) a partir da f.g.m..
Resolucao:
G
X
(t) = E

e
Xt

=
+

x=1
p(1 p)
x1
e
xt
= p e
t
+

x=1
(1 p)
x1
e
(x1)t
= p e
t
+

x=1

(1 p)e
t

x1
= p e
t
1
1 (1 p)e
t
desde que (1 p)e
t
< 1, isto e, quando t < ln(1 p).
Assim, resulta que
G

X
(t) =
pe
t
(1 (1 p)e
t
)
2
e
E(X) = G

X
(0) =
1
p
.
Para o calculo da derivada de segunda ordem, observe-se primeiro que
G

X
(t) =
G
X
(t)
1 (1 p)e
t
.
Logo,
G

X
(t) =
G

X
(t) [1 (1 p)e
t
] + (1 p)e
t
G
X
(t)
[1 (1 p)e
t
]
2
e
E

X
2

= G

X
(0) =
2 p
p
2
.
Consequentemente,
V ar(X) =
2 p
p
2

1
p
2
=
1 p
p
2
.
18
2. Considere-se agora a v.a. Y com f.d.p. dada por:
g(y) =

2e
2y
se y 0
0 se y < 0
Pretende-se determinar E(Y ) a partir da f.g.m. de Y .
Resolucao:
G
Y
(t) = E

e
Y t

+
0
e
ty
2e
2y
dy
= lim
z+

2
1
t 2
e
(t2)y

z
y=0
=
2
t 2

lim
z+
e
(t2)z
1

=
2
t 2
(0 1)
=
2
2 t
sempre que t < 2. Logo,
E(X) = G

Y
(t)|
t=0
=
2
(2 t)
2

t=0
=
1
2
.
2.3 Vectores Aleatorios
Quando se pretende estudar in umeras situacoes, no estudo probabilstico ou estatstico, envolvendo n propri-
edades ou caractersticas quantitativas dos elementos do espaco de resultados , faz-se corresponder a cada
um desses elementos um ponto (x
1
, x
2
, . . . , x
k
) R
n
. Isto e,
(X
1
(), X
2
(), . . . , X
n
()) .
Assim, por meio de uma aplicac ao R
n
substitui-se o espaco de resultados pelo conjunto R
n
.
Denicao 2.19 Se para cada ponto (x
1
, x
2
, . . . , x
n
) R
n
, o conjunto de ,
{ : X
1
() x
1
, X
2
() x
2
, . . . , X
n
() x
n
}
e um acontecimento, diz-se que
X() = (X
1
(), X
2
(), . . . , X
n
()) ,
ou, simplesmente,
X = (X
1
, X
2
, . . . , X
n
) ,
e um vector aleatorio ou uma variavel aleatoria n-dimensional.
Os conceitos abordados para uma variavel aleatoria (f.d., v.a. discretas, v.a. contnuas, f.p., f.d.p, etc...)
podem generalizar-se para uma variavel aleatoria n-dimensional. No entanto, grande parte de tal generalizacao
sera feita somente para v.a. bidimensionais. Assim, dada uma v.a. bidimensional ou vector aleatorio (X, Y ), a
probabilidade de obter um ponto na regiao do plano R
2
pelas desigualdades, X x, Y y,
P(X x, Y y) = P{ : X() x, Y () y}
existe sempre, por denicao e podemos introduzir a seguinte
Denicao 2.20 Chama-se funcao de distribuicao da v.a. bidimensional (X, Y ) ou funcao de distri-
buicao conjunta das v.a. X e Y a
F(x, y) = P(X x, Y y).
Teorema 2.13 Se F(x, y) e f.d. das v.a. X e Y e [x
1
, x
2
] [y
1
, y
2
] e um intervalo de R
2
, entao
P(x
1
X x
2
, y
1
Y y
2
) = F(x
2
, y
2
) +F(x
1
, y
1
) F(x
1
, y
2
) F(x
2
, y
1
)
19
Teorema 2.14 Para qualquer f.d. F(x, y),
F(, y) = F(x, ) = 0 e F(+, +) = 1.
Teorema 2.15 Toda a f.d. F(x, y) e nao decrescente em rela cao a cada variavel.
Teorema 2.16 Toda a f.d. F(X, Y ) e contnua `a direita em relacao a cada variavel,
F(x
+
, y) = F(x, y) = F(x, y
+
).
Quando se trabalha com a distribuicao conjunta das v.a. X e Y , pode interessar o calculo da probabilidade
de se ter X x qualquer que seja o valor assumido pela v.a. Y . Esse calculo,
P(X x) = P(X x, Y +) = lim
y+
F(x, y) = F(x, +),
conduz `a denicao de F
1
(x) = F(x, +), distribuicao marginal da v.a. X.
Analogamente,
P(Y y) = P(X +, Y y) = lim
x+
F(x, y) = F(+, y),
dene a distribuicao marginal da v.a. Y , F
2
(y)
Se os acontecimentos, X x e Y y, sao independentes, entao resulta
P(X x, Y y) = P(X x)P(Y y),
as v.a. X e Y dizem-se independentes e a respectiva f.d. conjunta e o produto das distribuicoes marginais,
F(x, y) = F
1
(x)F
2
(y),
para todo o ponto (x, y) R
2
. Pode mostrar-se que esta condicao e necessaria e suciente para que se tenha
P(X E
1
, Y E
2
) = P(X E
1
)P(Y E
2
),
para quaisquer acontecimentos E
1
e E
2
denidos, respectivamente, no eixo dos xx e no eixo dos yy.
Teorema 2.17 Dadas duas v.a. independentes, X e Y , considerem-se duas funcoes U = (X) e V = (Y ).
Entao, as v.a. U e V sao independentes.
Teorema 2.18 Se X e Y sao variaveis aleatorias independentes e possuem valor esperado, entao
E(X Y ) = E(X) E(Y ).
O conceito de independencia generaliza-se facilmente a um n umero nito (ou numeravel) de v.a. X
1
, X
2
, . . . , X
n
.
Denicao 2.21 As variaveis aleatorias X
1
, X
2
, . . . , X
n
dizem-se independentes se para n n umeros reais ar-
bitrarios, x
1
, x
2
, . . . , x
n
,
F(x
1
, x
2
. . . , x
n
) = P(X
1
x
1
, X
2
x
2
, . . . , X
n
x
n
)
= P(X
1
x
1
) P(X
2
x
2
) P(X
n
x
n
)
= F
1
(x
1
)F
2
(x
2
) F
n
(x
n
),
onde F e a funcao de distribuicao conjunta das v.a. X
1
, X
2
, . . . , X
n
e F
1
, F
2
, . . . , F
n
as respectivas funcoes de
distribuicao marginais.
Vectores Aleatorios Discretos
Denicao 2.22 Uma v.a. bidimensional, (X, Y ), diz-se discreta, se dado o conjunto nito ou numeravel
D = {(x
i
, y
j
) : P(X = x
i
, Y = y
j
) > 0} ,
se tem,
P [(X, Y ) D] = 1.
20
Agora, tambem podemos denir a funcao de probabilidade de (X, Y ),
f(x, y) = P(X = x, Y = y)

> 0 se (x, y) D
= 0 se (x, y) D
,
e tem as seguintes propriedades:
1. f(x, y) 0, (x, y) R
2
;
2.

(x
i
,y
j
)D
f(x
i
, y
j
) = 1;
3. P [(X, Y ) E] =

(x
i
,y
j
)ED
f(x
i
, y
j
);
4. F(x, y) = P(X x, Y y) =

x
i
x
y
j
y
f(x
i
, y
j
).
As f.p. marginais sao denidas, com
D = {(x
i
, y
j
) : i, j = 1, 2, . . .} ,
por,
f
1
(x
i
) = P(X = x
i
) =

j
f(x
i
, y
j
), i = 1, 2, . . .
f
2
(y
j
) = P(Y = y
j
) =

i
f(x
i
, y
j
), j = 1, 2, . . .
sendo, evidentemente, f
1
(x) = 0, se (x, y
j
) D, e f
2
(y) = 0, se (x
i
, y) D.
As v.a. X e Y sao independentes quando discretas se, e somente se,
f(x
i
, y
j
) = f
1
(x
i
)f
2
(y
j
),
para todo o ponto (x
i
, y
j
) D.
Vectores Aleatorios Contnuos
Denicao 2.23 Uma v.a. bidimensional, (X, Y ), e do tipo contnuo se existir uma funcao nao negativa, f(x, y),
tal que
F(x, y) =

f(u, v) dudv,
para todo (x, y) R
2
, onde F(x, y) e a funcao de distribuicao de (X, Y ). A funcao f(x, y) diz-se funcao de
densidade de probabilidade de (X, Y ) ou funcao de densidade de probabilidade conjunta das v.a. X
e Y e satisfaz a igualdade,

f(x, y) dxdy = 1.
Se a f.d.p. f(x, y) for contnua no ponto (x, y) tem-se
f(x, y) =

2
F(x, y)
xy
.
Por denicao de f.d. marginal da v.a. X tem-se,
F
1
(x) = F(x, +) =

f(u, v) dudv;
assim,
f
1
(x) = F

1
(x) =

f(x, y) dy
21
e a funcao de densidade marginal de X. Analogamente,
f
2
(y) = F

2
(y) =

f(x, y) dx,
e a funcao de densidade marginal de Y .
A generalizacao destes conceitos para uma v.a. n-dimensional e imediata.
Seja (X, Y ) uma v.a. bidimensional. O valor esperado

rs
= E(X
r
Y
s
),
se existir, dene um momento de ordem r +s em relacao `a origem.
Assim, existindo os momentos de ordem 1, tem-se

10
= E(X) e

01
= E(Y ),
sendo os centros de gravidade das distribuicoes marginais de X e Y , respectivamente.
Existindo os momento de ordem 2, temos

20
= E(X
2
),

11
= E(XY ),

02
= E(Y
2
).
Para os momentos centrados, o valor esperado

rs
= E [(X
X
)
r
(Y
Y
)
s
] ,
se existir, dene um momento de ordem r +s em relacao `a media.
Para os momentos de ordem 1, tem-se
10
= 0 =
01
, e para os de ordem 2,

20
= V ar(X),
02
= V ar(Y ),
11
= E [(X
X
)(Y
Y
)] ;

11
, que se representa tambem por Cov(X, Y ), designa-se por covariancia entre X e Y . Observe-se que
Cov(X, Y ) = E(XY ) E(X)E(Y ).
Como consequencia desta expressao e do teorema 2.18 temos o seguinte
Teorema 2.19 Se as v.a. X e Y sao independentes, entao Cov(X, Y ) = 0.
O interesse da covariancia advem da seguinte interpreta cao: considere-se o centro de gravidade da distribuicao
conjunta de X e Y , (
X
,
Y
), como origem de novos eixos coordenados. Observe a gura
Tem-se, em relacao ao novo sistema de eixos, que (x
X
)(y
Y
) > 0, no 1
o
e 3
o
quadrantes,
(x
X
)(y
Y
) < 0, no 2
o
e 4
o
quadrantes. Assim, se X e Y variam no mesmo sentido, existe probabi-
lidade elevada para que os valores de X acima da media estejam associados com valores de Y acima da media e
para os valores de X abaixo da media estejam associados com valores de Y abaixo da media, isto e, predominam
os pontos no 1
o
e 3
o
quadrantes e a covariancia sai positiva e relativamente grande. Por outro lado, X e Y
variam em sentido contrario se existe probabilidade elevada para que os valores de X acima da media estejam
associados com valores de Y abaixo da media e para valores de X abaixo da media estejam associados com
valores de Y acima da media. Neste caso, predominam os pontos no 2
o
e 4
o
quadrantes e a covariancia sai
negativa e relativamente grande em valor absoluto.
A covariancia depende das unidades em que se exprimem as v.a. X e Y . Ora, e desejavel introduzir um
par ametro que caracterize a associacao entre as variaveis X e Y sem depender dessas unidades.
22
Denicao 2.24 Chama-se coeciente de correlacao entre X e Y ao parametro
=
Cov(X, Y )

V ar(X)V arY
=
Cov(X, Y )

Y
,
ou
=

11

20

02
.
Teorema 2.20 (Desigualdade de Cauchy-Schwartz) Se X e Y sao v.a. conjuntamente distribudas com mo-
mentos de ordem 2 nitos, entao

E(XY
)

2
E

X
2

Y
2

,
vericando-se a igualdade se, e somente se, para alguma constante t
0
,
P(t
0
X = Y ) = 1.
Teorema 2.21 O valor absoluto do coeciente de correlacao nunca exceda a unidade,
|| 1;
alem disso, = 1 quando e so quando, com probabilidade um,
(Y
Y
)

Y
=
(X
X
)

X
.
Resumindo, se as v.a. X e Y sao independentes, = 0; se X e Y sao linearmente independentes (com
probabilidade um), = 1; nos outros casos, os valores mais ou menos elevados de || traduzem o menor
ou maior afastamento entre duas rectas que delimitam a regiao do plano onde se concentram com elevada
probabilidade os valores de (X, Y ). Voltaremos a este assunto no ultimo captulo destes apontamentos.
Teorema 2.22 Se as v.a. X e Y possuem segundos momentos nitos, entao
V ar(X Y ) = V ar(X) 2Cov(X, Y ) +V ar(Y ).
Corolario 2.23 Se as v.a. X e Y possuem segundos momentos nitos e covariancia nula, entao
V ar(X Y ) = V ar(X) +V ar(Y ).
Distribuicoes Condicionados
O conceito de distribuicao condicionada e baseado no de probabilidade condicionada. Vamos somente estudar
o caso bidimensional e de uma forma abreviada.
No caso discreto, a probabilidade do acontecimento X = x
i
, condicionada pela realizacao do acontecimento
Y = y
j
, com P(Y = y
j
) > 0, dene-se por
P(X = x
i
|Y = y
j
) =
P(X = x
i
, Y = y
j
)
P(Y = y
j
)
,
onde y
j
e um valor xo e para i = 1, 2 . . .. De modo semelhante, dene-se a probabilidade de Y = y
j
condicionada
por X = x
i
. As notacoes utilizadas para estas funcoes de probabilidade sao, no primeiro caso,
f(x
i
|y
j
) =
f(x
i
, y
j
)
f
2
(y
j
)
,
com y
j
xo e i = 1, 2, . . .; no segundo caso
f(y
j
|x
i
) =
f(x
i
, y
j
)
f
1
(x
i
)
,
com x
i
xo e j = 1, 2 . . ..
No caso contnuo, a funcao de distribuicao de Y condicionada por X = x, simbolicamente, F(y|x) ou
F
y|x
(y|x) e dada por
F(y|x) =

f(x, v) dv

f(x, v) dv
=

f(x, v) dv
f
1
(x)
.
23
Derivando em ordem a y obtem-se a correspondente funcao de densidade de Y condicionada por X = x,
f(y|x) =
f(x, y)
f
1
(x)
.
Analogamente, dene-se funcao de densidade de X condicionada por Y = y,
f(x|y) =
f(x, y)
f
2
(y)
.
Vejamos agora o que se passa com os valores esperados destas distribuicoes condicionadas.
Denicao 2.25 Considere-se a v.a. (X, Y ) funcao das v.a. X e Y . O valor esperado de (X, Y ) condicionado
por X = x, em smbolos E[(X, Y )|X = x] ou, simplesmente, E[(X, Y )|x] e denido, consoante se trate do
caso discreto ou contnuo, por
E[(X, Y )|x
i
] =

j
(x
i
, y
j
)f(y
j
|x
i
),
ou, por,
E[(X, Y )|x] =

(x, y)f(y|x).
Dene-se E[(X, Y )|y] de modo analogo.
Em particular, consoante se trate do caso discreto ou contnuo,
E(Y |x
i
) =

j
y
j
f(y
j
|x
i
)
ou
E(Y |x) =

yf(y|x) dy,
representa a media de Y condicionada por X = x, isto e, a media da distribuicao condicionada com f.p ou f.d.p.
f(y|x). Fisicamente, E(Y |x) e o centro de gravidade da distribuicao de probabilidade sobre a recta X = x.
Observe-se que E(Y |X) e uma v.a. funcao da v.a. X, que assume o valor E(Y |x) quando X assume o valor x.
Do mesmo modo, consoante se trate do caso discreto ou contnuo,
E(X|y
j
) =

i
x
i
f(x
i
|y
j
)
ou
E(X|y) =

xf(x|y) dx,
representa a media de X condicionada por Y = y, isto e, a media da distribuicao condicionada com f.p ou f.d.p.
f(x|y) e E(X|Y ) e uma v.a. funcao da v.a. Y , que assume o valor E(X|y) quando Y assume o valor y.
Proposicoes 2.24 Existindo os valores esperados respectivos,
1. E(c|X) = c, onde c e uma constante;
2. E[m(Y ) +c|X] = mE[(Y )|X] +c;
3. E[
1
(Y ) +
2
(Y )|X] = E[
1
(Y )|X] +E[
2
(Y )|X];
4. E[
1
(X)
2
(Y )|X] =
1
(X)E[
2
(Y )|X];
5. E[(Y )] = E [E ((Y )|X)];
6. E(Y ) = E[E(Y |X)];
7. Se Y 0, E(Y |X) 0;
8. Se Y
1
Y
2
, E(Y
1
|X) E(Y
2
|X).
24
Captulo 3
Distribuicoes Teoricas
3.1 Distribuicao Uniforme Discreta em N Pontos
Denicao 3.1 A v.a. X diz-se que tem uma distribuicao uniforme discreta em N pontos quando a
respectiva f.p. e da forma
f(x
i
) = P(X = x
i
) =
1
N
, i = 1, 2, . . . , N.
Proposicao 3.1 Se X e uma v.a. com distribuic ao uniforme em N pontos, entao
1. G
X
(t) =
1
N
N

i=1
e
tx
i
;
2. E(X) =
1
N
N

i=1
x
i
;
3. V ar(X) =
1
N
N

i=1
x
2
i

1
N
N

i=1
x
i

2
Observacao 3.1 Em particular, se x
i
= i, i = 1, 2, . . . N, E(X) =
N + 1
2
e V ar(X) =
N
2
1
12
.
3.2 Distribuicao Binomial
A distribuicao Binomial e um modelo probabilstico que permite o estudo de experiencias aleatorias onde importa
a contagem do n umero de vezes que ocorre um determinado acontecimento. A utilizacao deste modelo requer
que as provas (experiencias) sejam de Bernoulli, isto e, uma sequencia de experiencias aleatorias independentes
em cada umas das quais se observa a realizacao ou nao realizacao de um acontecimento A com probabilidade p,
constante. A ocorrencia de A constitui um sucesso e a ocorrencia de A um insucesso.
No caso em que se considera uma unica prova de Bernoulli, a respectiva distribuicao de probabilidade e
denida da seguinte forma:
Denicao 3.2 Uma v.a. X tem (segue) distribuicao de Bernoulli de parametro p (0 p 1, xo) se a
sua funcao de probabilidade e denida por
f
X
(x) =

p
x
(1 p)
1x
se x = 0 x = 1
0 se x R \ {0, 1}
.
Proposicao 3.2 Se X e uma v.a. que tem distribuicao de Bernoulli de parametro p, entao
1. G
X
(t) = (1 p) +p e
t
;
2. E(X) = p;
3. Var(X) = p(1 p).
25
Se considerarmos N provas de Bernoulli, o modelo dene-se da seguinte forma:
Denicao 3.3 Uma v.a. X tem distribuicao binomial de parametros N e p (com N N e 0 p 1),
abreviadamente escreve-se X B(x, N, p) ou, simplesmente, X B(N, p), se a sua f.p. e tal que
f
X
(x) =

N
C
x
p
x
(1 p)
Nx
se x = 0, 1, 2, . . . , N
0 o.v.
.
Observacoes 3.2
1.

E evidente que uma v.a. com distribuicao binomial e uma v.a. discreta. Diz-se entao que a distribuicao
binomial e uma distribuicao discreta.
2. Se X B(N, p), entao F
X
(x) = P(X x) =

x
i=0
N
C
i
p
i
(1 p)
Ni
.
3. Obviamente,
N

i=0
N
C
i
p
i
(1 p)
Ni
= (p + (1 p))
N
= 1.
Proposicao 3.3 Se X e uma v.a. tal que X B(N, p), entao
1. G
X
(t) = [(1 p) +p e
t
]
N
;
2. E(X) = Np;
3. Var(X) = Np(1 p).
Exemplo 3.1 Considere-se a e.a.: Lancamento de um dado e registo do n umero de pontos obtidos.
Qual e a probabilidade de se obter duas vezes a face 3 em 6 lancamentos do dado?
Resolucao: Dena-se
X = n umero de vezes que ocorre a face 3, em 6 lancamentos.
Entao, X B(6, p), em que p = P(A) =
1
6
, com A = sada da face 3. Pretende-se calcular P(X = 2):
P(X = 2) =
6
C
2

1
6

5
6

4
0.2009.
Observe-se ainda que E(X) = 6
1
6
= 1, Var(X) = 6
1
6

5
6
=
5
6
e
X
=

5
6
.
3.3 Distribuicao Geometrica
Para a distribuicao binomial, o n umero de provas de Bernoulli era xo. Agora, tomaremos uma sucessao innita
de provas de Bernoulli. A probabilidade de sucesso e p, constante de prova para prova, e uma variavel aleatoria
com distribuicao geometrica representara o n umero de provas de Bernoulli, independentes, de parametro p, ate
`a ocorrencia do primeiro sucesso. Assim,
Denicao 3.4 Uma v.a. X tem distribuicao geometrica de parametro p, abreviadamente X Geo(p),
quando a sua f.p. for da forma
f(x) =

(1 p)
x1
p se x = 1, 2 . . . ,
0 o.v. de x.
Proposicao 3.4 Se X e uma v.a. tal que X Geo(p), entao
1. G
X
(t) = p e
t
1
1 (1 p)e
t
;
2. E(X) =
1
p
;
3. V ar(X) =
1 p
p
2
.
26
Teorema 3.5 Se X e uma v.a. tal que X Geo(p), entao, para quaisquer inteiros positivos s e t,
P(X > s +t|X > s) = P(X > t).
Observacao 3.3 Devido ao teorema anterior, e usual dizer-se que a distribuic ao geometrica nao tem memoria,
ja que, decorridas mais de s provas sem que tenha ocorrido um sucesso, a probabilidade de ainda ter de esperar
mais t provas e exactamente igual `a probabilidade de ter de esperar mais de t provas por um sucesso a partir
no momento inicial.
3.4 Distribuicao Hipergeometrica
Vimos que a distribuicao binomial e o modelo teorico adequado para estudar as propriedades dos esquemas
probabilsticos do seguinte tipo: Considere-se um conjunto (populacao) nito constitudo por M elementos de
dois tipos (digamos, A e B) nas proporcoes p e q = 1p, do qual se retira ao acaso e com reposicao N elementos;
qual a probabilidade de obter x elementos de um determinado tipo (por exemplo, do tipo A), com 0 x N?
Observe-se que, no esquema anterior, a extraccao de um determinado elemento nao depende de uma
extraccao anterior, ja que existe reposicao desse elemento. Assim, as sucessivas provas (extraccoes) sao inde-
pendentes (provas de Bernoulli). Se os elementos forem retirados sucessivamente sem reposicao (ou em bloco)
a independencia deixa de existir, pois a probabilidade de ocorrencia de cada um dos resultados possveis nao se
mantem constante de prova para prova. Entao, passaremos a ter um modelo probabilstico diferente do binomial
que se dene da seguinte forma:
Denicao 3.5 Uma v.a. X segue uma distribuicao hipergeometrica de parametros M, N e p (simbolica-
mente X H(M, N, p), se a sua f.p. e denida por
f
X
(x) =

Mp
C
x

Mq
C
Nx
M
C
N
se x N
0
max(0, N Mq) x min(N, Mp)
0 o.v. de x
,
com q = 1 p.
Proposicao 3.6 Se X e uma v.a. tal que X H(M, N, p), entao
1. E(X) = Np;
2. Var(X) = Np(1 p)
M N
M 1
.
Observe-se que os valores esperados das distribuicoes B(N, p) e H(M, N, p) e o mesmo e as variancias
apenas se distinguem pelo factor (M N)/(M 1). Quando M e grande comparado com N, naturalmente que
se esbate a diferenca entre extraccoes com e sem reposicao. Nesta situacao, (M N)/(M 1) e proximo da
unidade e nao surpreende o seguinte resultado:
Teorema 3.7 Com N e p xos,
lim
M+
Mp
C
x

Mq
C
Nx
M
C
N
=
N
C
x
p
x
q
Nx
,
isto e, a distribuicao hipergeometrica H(M, N, p) aproxima-se da distribuicao binomial B(N, p), para M grande.
Exemplo 3.2 De um grupo de 1000 habitantes de uma certa regiao ha 2% que sao propriet arios das casas
que habitam. Se se colhe ao acaso uma amostra de 100 indivduos, com e sem reposicao, sao as seguintes as
probabilidades de obter x indivduos com casa propria:
a) com reposicao:
100
C
x
(0.02)
x
(0.98)
100x
;
b) sem reposicao:
20
C
x

980
C
100x
1000
C
100
.
No quadro seguinte faz-se a comparacao dos respectivos valores nao se tendo ido alem de x = 9, por motivos
obvios.
27
x B(N = 100, p = 0.02) H(M = 1000, N = 100, p = 0.02)
0 0.1326 0.1190
1 0.2707 0.2701
2 0.2734 0.2881
3 0.1823 0.1918
4 0.0902 0.0895
5 0.0353 0.0311
6 0.0114 0.0083
7 0.0031 0.0018
8 0.0007 0.0003
9 0.0002 0.0000
Quando N < M/10, a distribuicao Binomial fornece ja uma aproximacao satisfatoria da distribuicao Hiper-
geometrica, podendo nesse caso beneciar-se da sua maior acessibilidade.
3.5 Distribuicao de Poisson
A distribuicao de Poisson, desenvolvida por S.D. Poisson, permite descrever um vasto conjunto de fenomenos
aleatorios em que os acontecimentos se repetem no tempo (por exemplo, as entradas de clientes num super-
mercado) ou no espaco (por exemplo, os defeitos de isolamento registado ao longo de um cabo electrico ou os
defeitos de acabamento numa placa de vidro).
Uma v.a. discreta que represente o n umero de ocorrencias de uma dado acontecimento por unidade de tempo
(ou espaco) seguira uma distribuicao de Poisson se vericar as seguintes condicoes:
C1. O n umeros de ocorrencia registadas em diferentes intervalos de tempo (espaco) sao independentes entre si.
C2. A distribuicao do n umero de ocorrencias em cada intervalo de tempo (espaco) e a mesma para todos os
intervalos.
C3. A probabilidade de se registar uma ocorrencia num intervalo qualquer de dimensao (comprimento) t,
P
1
, e praticamente proporcional `a dimensao do intervalo, isto e, P
1
t.
Nestas condicoes, temos a denicao seguinte:
Denicao 3.6 Uma v.a. X tem distribuicao de Poisson de parametro > 0, simbolicamente X Poisson(),
se a sua f.p. e denida por
f
X
(x) =

x
x!
se x N
0
0 o.v. de x
.
Observacao 3.4 Sendo e

=
+

x=0

x
x!
, entao resulta de imediato que, se X Poisson(),
+

x=0
P(X = x) =
+

x=0
e

x
x!
= e

x=0

x
x!
= e

= 1.
Proposicao 3.8 Se X e uma v.a. tal que X Poisson(), entao
1. G
X
(t) = e
(e
t
1)
;
2. E(X) = ;
3. Var(X) = ;
Teorema 3.9 Se as v.a. X
i
, para i = 1, 2, . . . , n, sao independentes e X
i
Poisson(
i
), i = 1, 2, . . . , n, entao
X =
n

i=1
X
i
Poisson

i=1

.
28
A distribuic ao de Poisson foi descoberta quando este matematico estudava formas limite da distribuicao
binomial. A forma como uma distribuicao binomial pode ser aproximada por uma distribuicao de Poisson e
dada por:
Teorema 3.10 Seja X uma v.a. tal que X B(N, p). Entao, quando N + e p e proximo de zero,
X
o
Poisson(Np)
Observacao 3.5 A qualidade da aproximacao depende de N, e x. Em geral:
1. Fixados e x, melhora quando N aumenta;
2. Fixados N e x, melhora quando se aproxima de zero;
3. Fixados N e , piora quando x se afasta de .
Convem ainda referir que, quando N + e, simultaneamente, p 0 de forma que Np , a qualidade de
aproximacao piora.
Exemplo 3.3 Seja X B(1000, 0.001). Sabemos, por exemplo, que
P(X > 1) = 1 P(X = 0) P(X = 1)
= 1
1000
C
0
(0.001)
0
(0.999)
1000

1000
C
1
(0.001)
1
(0.999)
999
= 0.264241087
e aproximando pela distribuicao de Poisson:
X
o
Poisson(1)
P(X > 1) 1
e
1
1
0
0!

e
1
1
1
1!
= 0.2642411177
O erro e inferior a 3.1 10
8
.
Seja Y B(2000, 0.001).
P(Y > 1) = 1 P(Y = 0) P(Y = 1)
= 1
2000
C
0
(0.001)
0
(0.999)
2000

2000
C
1
(0.001)
1
(0.999)
1999
= 0.5941295533
e aproximando pela distribuicao de Poisson:
Y
o
Poisson(2)
P(Y > 1) 1
e
2
2
0
0!

e
2
2
1
1!
= 0.5939941503
O erro e inferior a 1.4 10
4
mas superior a 3.1 10
8
.
O interesse pratico de aproximar uma distribuicao binomial por uma de Poisson resulta de o calculo da funcao
de probabilidade ser mais simples no segundo caso. Tendo em conta o que foi referido na ultima observacao
e usando simulacoes, tal aproximacao so e razoavel quando N 30 e so tem interesse quando a distribuicao
Binomial for assimetrica com Np < 5. De facto, veremos mais `a frente que se a distribuicao Binomial for
simetrica (ou quase simetrica), e mais pratico aproxima-la por uma outra distribuicao (a distribuicao Normal).
A distribuicao de Poisson na forma como foi denida serve essencialmente para interpretar fenomenos (como
os descritos anteriormente) num intervalo de tempo ou espaco de comprimento 1. Em geral, para um intervalo
[0, t], a funcao de probabilidade e dada por
P(X = x) =
e
t
(t)
x
x!
, x = 0, 1, 2, . . . ,
isto e, X Poisson(t).
29
Exemplo 3.4 Durante o horario de almoco (das 12h `as 14h), o n umero medio de automoveis que chegam a
um parque de estacionamento e de 360. Qual a probabilidade de, durante um minuto, chegarem 2 automoveis?
Resolucao: A taxa media de chegadas por minuto e
= 360/120min. = 3/min..
Admitindo-se que a v.a. X = n umero de automoveis que chegam ao estacionamento por minuto, e tal que
X Poisson(3), entao
P(X = 2) =
e
3
3
2
2!
0.2240.
Se fosse em 2 minutos, tinha-se Y Poisson(6) e
P(Y = 2) =
e
6
6
2
2!
0.0446.
3.6 Distribuicao Uniforme
Com o estudo da Distribuicao Uniforme inicia-se o estudo das distribuicoes contnuas.
Denicao 3.7 Uma v.a. X, do tipo contnuo, tem distribuicao Uniforme ou Rectangular no intervalo
limitado [a, b], simbolicamente X U(a, b), quando a sua f.d.p. e da forma,
f(x) =

1
b a
se a x b
0 se x < a x > b
.

E facil encontrar a respectiva funcao de distribuicao. Esta e dada por


F(x) =

0 se x < a
x a
b a
se a x b
1 se x > b
.
Observe os gracos seguintes:
Proposicao 3.11 Se X e uma v.a. tal que X U(a, b), entao
1. G
X
(t) =
e
bt
e
at
t(b a)
2. E(X) =
a +b
2
3. Var(X) =
(b a)
2
12
30
3.7 Distribuicao Exponencial
Denicao 3.8 Uma v.a. X tem distribuicao Exponencial (ou Exponencial Negativa) de parametro
> 0, abreviadamente X Exp(), se a sua f.d.p. e tal que
f(x) =

e
x
se x > 0
0 se x 0
.
Teorema 3.12 Se X e uma v.a. tal que X Exp(), entao
1. G
X
(t) =

t
;
2. E(X) =
1

;
3. V ar(X) =
1

2
.
Teorema 3.13 Seja X uma v.a. tal que X Exp(). Entao a v.a. X nao tem memoria, isto e,
P(X > s +t|X > s) = P(X > t).
3.8 Distribuicao Normal
A distribuicao Normal (ou de Gauss) e a distribuicao mais importante, nao so do ponto de vista teorico,
mas tambem do ponto de vista pratico. Esta importancia ira sendo evidenciada ao longo do curso `a medida
que forem introduzidas no nosso estudo as suas propriedades. Pode, desde ja, avancar-se que existem muitas
variaveis aleatorias obedecendo exactamente a esta lei de probabilidade ou entao variaveis aleatorias que nao
tendo distribuicao Normal, aproximam-se muito de uma distribuicao Normal.
Historicamente, esta lei de probabilidade foi descoberta por De Moivre, em 1733, no decurso de investiga coes
sobre o limite da distribuicao Binomial.
Denicao 3.9 Uma v.a. X tem distribuicao Normal com media e desvio padrao (ou de parametros
e ), simbolicamente X N(, ), se a sua f.d.p. e denida por
f(x) =
1

2
e

(x)
2
2
2
, x R.
Observacao 3.6 O que distingue uma distribuicao Normal de outra distribuicao Normal e a sua media e o seu
desvio padrao.
Teorema 3.14 Se X e uma v.a, tal que, X N(, ), entao
G
X
(t) = e
t+

2
t
2
2
.
Gracamente, a f.d.p. de uma v.a. com distribuicao Normal e representada por uma curva em forma de
sino, ou curva normal:
Propriedades da Curva Normal:


E simetrica relativamente `a recta de equacao x = . Assim, a media, moda e mediana sao iguais;
Tem dois pontos de inexao: pontos de abcissas e +;
A recta de equacao y = 0 e uma assmptota horizontal, quando x ;
Ja sabemos que, nas distribuicoes contnuas, areas limitadas entre a curva da f.d.p e o eixo dos xx, para um
dado intervalo de n umeros reais, representa probabilidades. Assim, suponhamos que pretendemos calcular a
area limitada entre a curva normal e o eixo dos xx relativamente ao intervalo [a, b], isto e, pretendemos calcular
P(a X b) =

b
a
f(x) dx =
1

b
a
e

(x)
2
2
2
dx.
31
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
-1 0 1 2 3 4 5
f.d.p. da Dist. N(2,0.5)
Conhecidos e , o integral anterior envolve algumas diculdades. E como futuramente teremos que calcular
com muita frequencia probabilidades envolvendo a distribuicao Normal, nao e pratico este sistema directo de
calculo. Existem tabelas que nos permitem calcular, aproximadamente, probabilidades com a distribuicao
Normal. No entanto, as tabelas existentes sao para a distribuicao Normal Estandardizada, isto e, a distribuicao
normal com media 0 e desvio padrao 1. Entao, e necessario seguir o seguinte procedimento para utilizar uma
tabela: suponhamos que pretendemos calcular P(a X b), com X N(, ). Sabemos que
Z =
X

N(0, 1).
Logo,
P(a X b) = P

Z
b

= P

Z
b

Z <
a

Se os valores estandardizados de a e b sao positivos, entao basta usar a tabela da funcao de distribuicao
Normal estandardizada para encontrar o valor pretendido. Se algum deles e negativo, e necessario previamente
usar a simetria da distribuicao:
P(Z z) = P(Z z).
Caso se queira utilizar a tabela que da os valores de P(0 Z z), com z > 0, o procedimento podera ser o
seguinte:
Se os valores estandardizados de a e b sao positivos,
P(a X b) = P

Z
b

= P

0 Z
b

0 Z <
a

.
Se o valor estandardizado de a e negativo e o valor estandardizado de b e positivo,
P(a X b) = P

Z
b

= P

0 Z
b

+P

0 Z
a

.
Se os valores estandardizados de a e b sao negativos,
P(a X b) = P

Z
b

= P

Z
a

= P

0 Z
a

0 Z <
b

.
32
Exemplos 3.5
1. Suponhamos que Z N(0, 1). Entao
i) P(Z 0) = P(Z 0) = 0.5;
ii) P(z 2) = P(Z 0) +P(0 Z 2) = 0.5 + 0.4772 = 0.9772;
iii) P(Z 1) = P(Z 1) = 0.5 P(0 Z < 1) = 0.5 0.3413 = 0.1587;
2. Suponhamos que X N(3.4, 0.23). Entao Z =
X 3.4
0.23
N(0, 1) e
i) P(X > 4) = P

Z >
4 3.4
0.23

0.5 P(0 Z 2.61) = 0.0045;


ii) P (3.2 X 3.8) P(0.87 Z 1.74) = P(0 Z 1.74) +P(0 Z 0.87) = 0.7669.
Vejamos agora alguma propriedades importantes da distribuicao Normal que tem in umeras aplicacoes.
Teorema 3.15 Se X
1
, X
2
, . . . , X
n
sao variaveis aleatorias independentes tais que X
i
N(
i
,
i
) e a
i
constan-
tes reais, com i = 1, 2, . . . , n, entao a combinacao linear
X =
n

i=1
a
i
X
i
N

=
n

i=1
a
i

i
, =

i=1
a
2
i

2
i

.
Teorema 3.16 (Teorema do Limite Central) Sejam X
1
, X
2
, . . . , X
n
variaveis aleatorias independentes e
identicamente distribudas com media e variancia
2
(nitos). Se
Y
n
=

n
i=1
X
i
, entao
Y
n
n

n
o
N(0, 1),
isto e, Y
n
o
N(n,

n), quando n +.
Corolario 3.17 (Teorema de De Moivre-Laplace) Se X e uma v.a. tal que X B(N, p), entao X
o

Np,

Np(1 p)

, quando N +.
Em termos praticos, o Teorema de De Moivre-Laplace signica que podemos aproximar uma distribuicao
Binomial de parametros N e p pela distribuicao Normal de media Np e desvio padrao Np(1 p), quando N e
sucientemente grande.
Sendo a distribuicao Binomial discreta e a distribuicao Normal contnua, requer no calculo de probabilidades
a necessidade de se proceder a uma correccao adequada, dita correccao de continuidade. A ideia consiste em
aproximar a area de rectangulos do histograma da distribuicao Binomial por areas debaixo da curva Normal.
Observe-se o seguinte graco.
33
Por exemplo, se X B(32, 0.5), pelo Teorema de De Moivre-Laplace, X
o
W N(16,

8), isto e,
X 16

8
o
Z =
W 16

8
N(0, 1).
Se pretendermos calcular, aproximadamente, P(X = 18), basta procedermos da seguinte forma:
P(X = 18) P(17.5 W 18.5) P(0.53 Z 0.88) 0.3106 0.2019 = 0.1087,
que nao se afasta muito do valor dado pela distribuicao B(32, 0.5) que e, com dez casas decimais,
P(X = 18) =
32
C
18
(0.5)
32
0, 1097646542.
Em geral, se X B(N, p), pelo Teorema de De Moivre-Laplace
X
o
W N

= Np, =

Np(1 p)

,
isto e,
X Np

Np(1 p)
o
Z =
W Np

Np(1 p)
N(0, 1),
e fazendo-se a correccao de continuidade temos, por exemplo, que
P(X = a) P(a 0.5 W a + 0.5) = P

a 0.5 Np

Np(1 p)
Z
a + 0.5 Np

Np(1 p)

.
Quanto `a qualidade da aproximacao tem-se o seguinte:
1. xados p, a e b, melhora quando N aumenta;
2. xados N, a e b, melhora quando p esta proximo de
1
2
e piora quando p se aproxima de 0 ou de 1;
3. para um dado N e xado p, melhora quando a e b estao proximos de zero, o que signica que x esta proximo
de Np.
Daqui resulta uma regra, muitas vezes adoptada, que permite bons resultados. Diz o seguinte: a aproximacao
da distribuic ao Binomial pela distribuicao Normal e sucientemente boa desde que N 30 e Np 5.
Tambem e possvel aproximar uma distribuicao de Poisson por uma distribuicao Normal. Basta atender ao
seguinte teorema e proceder `a correccao de continuidade, ja que a distribuicao de Poisson tambem e discreta.
Teorema 3.18 Seja X uma v.a. tal que X Poisson(). Entao
X
o
N

,
quando +.
Observacao 3.7 Para 30 as aproximacoes sao boas para a maioria das aplicacoes, sobretudo quando se
emprega a correccao de continuidade.
34
Captulo 4
Amostragem
4.1 Metodos de Amostragem
A estatstica pode ser denida como uma disciplina que tem por objecto fundamental a recolha, a compilacao,
a analise e a interpretacao de dados. Para a claricacao do signicado de analise e interpretacao de dados,
convem distinguir estatstica descritiva e inferencia estatstica. A primeira tem como objectivo sintetizar
e representar de um a forma compreensvel a informacao contida num conjunto de dados (construcao de tabe-
las, de gracos e calculo de medidas que representem convenientemente a informacao contida nos dados). A
inferencia estatstica tem objectivos mais ambiciosos que a estatstica descritiva e, naturalmente, os metodos
e tecnicas requeridos sao mais sosticados. Com base na analise de um conjunto limitado de dados (uma
amostra), pretende-se caracterizar o todo a partir do qual tais dados foram obtidos (a populacao). Neste e
nos proximos captulos pretende-se estudar a inferencia estatstica. No entanto, tambem abordaremos alguns
conceitos elementares de estatstica descritiva, que poderao ser uteis.
Denicao 4.1 Chama-se populacao ao conjunto de todos os elementos sobre o qual ira incidir as observacoes
com o objectivo de o estudar estatisticamente. Cada elemento da populacao chama-se unidade estatstica.
Observacoes 4.1
1. Num estudo estatstico cada unidade estatstica perde toda a individualidade para so ser encarada na medida
em que contribui para a estrutura do conjunto (populac ao).
2. Uma populacao pode ser nita ou innita, conforme o n umero de elementos que a compoe seja nito ou
innito.
Denicao 4.2 Chama-se amostra de uma populacao a qualquer seu subconjunto.
Uma unidade estatstica de uma populacao ou amostra pode ser observada segundo uma dada caracterstica.
Em estatstica, e usual denominar-se essa caracterstica por atributo. Exemplos de atributos: idade, peso,
estado civil, altura, liacao partidaria, nvel socio-economico, etc.
Chamam-se modalidades `as situacoes possveis em que se pode encontrar uma unidade estatstica, em
relacao a um dado atributo.
Exemplos 4.1
Atributo Modalidades
Sexo masculino, feminino
Estado civil solteiro, casado, divorciado, vi uvo
Observacao 4.2 As modalidades de determinado atributo devem ser incompatveis e exaustivas, isto e, cada
unidade estatstica deve pertencer a uma e uma so das modalidades do atributo considerado.
Denicao 4.3 Um atributo diz-se qualitativo se as suas modalidades nao sao mensuraveis. Caso contrario,
diz-se quantitativo. Aos atributos quantitativos da-se tambem o nome de variaveis estatsticas.
Exemplos 4.2
35
Atributos qualitativos estado civil, cor, liacao partidaria
Atributos quantitativos altura, peso, idade, durabilidade
Observacao 4.3 Os atributos quantitativos podem ser contnuos ou discretos.
Denicao 4.4 O n umero de vezes que se repete uma modalidade de um dado atributo denomina-se de frequencia
absoluta e representa-se por n
i
. No caso bidimensional, isto e, quando se considera, em conjunta, dois atri-
butos A e B, a frequencia absoluta das modalidades i, do atributo A, e j, do atributo B representa-se por n
ij
.
E as frequencias absolutas marginais por n
i
e n
j
, respectivamente para a modalidade i, do atributo A, e j, do
atributo B.
O quociente entre uma frequencia absoluta e o n umero total de observacoes (n), denomina-se frequencia
relativa. No caso unidimensional, a frequencia relativa da modalidade i representa-se por f
i
. No caso bidi-
mensional, a frequencia relativa das modalidades i, do atributo A, e j, do atributo B, representa-se por f
ij
. As
frequencias relativas marginais representam-se por f
i
e f
j
.
Em geral, a estudo estatstico de uma populacao, relativamente a um dado atributo (caracterstica em
estudo), nao se realiza sobre todas as unidades estatsticas dessa populacao, devido a diversas razoes. Razoes
tais como
comodidade;
tempo;
economicas;
impossibilidade de observar todas as unidades estatsticas.
Assim, o estudo far-se-a incidir somente sobre uma amostra extrada da populacao. Consequentemente, a
partir dessa amostra espera-se poder inferir sobre a populacao, relativamente ao atributo em estudo. Para se
fazerem tais inferencias e necessario escolher um metodo de amostragem apropriado. A amostragem pode
ser de dois tipos: aleatoria e nao aleatoria; existindo varios metodos de se obter uma amostra para cada
um dos tipos de amostragem.
4.1.1 Metodos de Amostragem Aleatoria (Casual)
Nesta amostragem, ao contrario da nao aleatoria, toda a unidade estatstica tem igual probabilidade de fazer
parte da amostra. Assim, consegue evitar-se qualquer enviesamento de seleccao, isto e, afasta-se qualquer
tendencia sistematica para sub-representar ou sobrerrepresentar na amostra alguns elementos da populacao.
Nestas circunstancias, todas as unidades estatsticas tem previamente que ser identicadas, exigindo, em geral,
a elaboracao de uma lista com todas as unidades estatsticas da populacao, o que nem sempre e facil.
1. Metodo de Amostragem Aleatoria Simples - Este metodo consiste em utilizar um processo que possi-
bilite a que toda a unidade estatstica tenha igual probabilidade de fazer parte da amostra. Por exemplo,
podia-se escrever o nome de cada indivduo em um, e um so papel, introduziam-se todos num saco e ex-
traamos, com reposicao, apenas alguns nomes. O processo que se utiliza na extraccao das bolas do totoloto
e tambem aleatorio, mas nao simples. Um pesquisador quando pretende obter uma amostra aleatoria sim-
ples, nao utiliza um saco, mas sim uma tabela de n umeros aleatorios ou n umeros aleatorios gerados por
computador.
2. Metodo de Amostragem Sistematica - Este metodo consiste em incluir na amostra as n-esimas unidades
estatsticas de uma populacao.
3. Metodo de Amostragem Estraticada - Este metodo consiste em dividir a populacao em subgrupos
(subpopulacoes) mais homogeneos (estratos) dos quais sao extradas amostras aleatorias simples, que depois
se juntam para se obter uma amostra da populacao.
Exemplo: Suponhamos que se pretende estudar o salario mensal dos indivduos de certa populacao. Como
esta caracterstica varia com o sexo do indivduo e a sua classe social, podamos estraticar a populacao com
base nestes atributos, obtendo-se assim subpopulacoes homogeneas. Dado que as modalidades (situacoes
possveis em que se pode encontrar uma unidade estatstica, em relacao a um dado atributo) do atributo
sexo sao masculino e feminino e das classes sociais podiam ser alta, media e baixa, entao pode-se obter as
seguintes subpopulacoes:
36
- Homens de classe alta;
- Homens de classe media;
- Homens de classe baixa;
- Mulheres de classe alta;
- Mulheres de classe media;
- Mulheres de classe baixa.
Agora bastara obter amostras aleatorias simples em cada uma das subpopulacoes de acordo com a percen-
tagem que tem na populacao.
4. Metodo de Amostragem por Conglomerados (clusters) - Este metodo consiste em escolher alea-
toriamente algumas areas bem delineadas (conglomerados) onde se concentram caractersticas encontradas
na populacao total e seguidamente obter amostras aleatorias dentro de cada um dos conglomerados. Este
metodo e essencialmente utilizado para reduzir os custos de grandes pesquisas.
4.1.2 Metodos de Amostragem Nao Aleatoria (Nao Casual)
Quando nao haja preocupacao de rigor na representatividade da amostra (por exemplo, na realizacao de es-
tudos pilotos ou de analises preliminares), podem utilizar-se metodos de amostragem nao aleatorios (ou nao
probabilsticos), que nao permitem denir com rigor as probabilidades de inclusao dos diferentes elementos da
populacao na amostra. Estes metodos sao mais expeditos e mais economicos do que os aleatorios.
1. Amostragem Acidental - Este metodo consiste em incluir na amostra somente as unidades estatsticas
convenientes, excluindo-se, entao, as incovenientes.
2. Amostragem por Quotas - Este metodo consiste em incluir unidades estatsticas na amostra segundo
diversas caractersticas da populacao (tais como: idade, sexo, nvel socio-economico, etnia, etc...) e nas
mesmas proporcoes que guram na populacao.
3. Amostragem por Julgamento ou Conveniencia - Este metodo consiste em incluir na amostra as uni-
dades estatsticas que poderao proporcionar uma representatividade da populacao, de acordo com a logica,
senso comum ou um julgamento equilibrado.
4.2 Amostragem Aleatoria. Distribuic oes Amostrais
Em todo o estudo que zermos ate ao m deste captulo e captulos seguintes somente consideraremos amostra-
gem aleatoria simples. De acordo com o metodo de Amostragem simples, formaliza-se uma amostra aleatoria
da seguinte forma:
Denicao 4.5 Seja X uma variavel aleatoria que representa uma caracterstica numerica de uma populacao
em estudo (abusivamente diremos, simplesmente, populacao X). Chama-se amostra aleatoria (a.a.) a um
conjunto de n variaveis aleatorias, X
1
, X
2
, . . . , X
n
, independentes e identicamente distribudas a X.
Observacoes 4.4
1.

E usual representar-se uma amostra aleatoria em forma de sequencia ordenada (vector): (X
1
, X
2
, . . . , X
n
).
2. n e o n umero total (dimensao, tamanho) de observacoes realizadas na populacao.
3. Na amostragem aleatoria simples admite-se que a amostragem e efectuada com reposicao. Se a amostragem
nao for feita com reposic ao, as variaveis X
2
, X
2
, . . . , X
n
deixam de ser independentes. No entanto, quando
a dimensao da populacao tende para innito e a dimensao da amostra se mantem nita, a dependencia entre
as variaveis X
1
, X
2
, . . . , X
n
tende a desaparecer. Quando a populacao for innita, e indiferente realizar uma
amostragem aleatoria com ou sem reposicao. A amostragem aleatoria e simples em qualquer dos casos.
4. A v.a. X
k
(k = 1, 2, . . . , n), indica o valor numerico da caracterstica em estudo na populacao sobre o k-
esimo elemento da amostra. Retirada a amostra, observam-se os valores de X
1
, X
2
, . . . , X
n
; de acordo com
a notacao que tem vindo a adoptar-se, esses valores observados representam-se por x
1
, x
2
, . . . , x
n
. Embora o
termo amostra aleatoria seja reservado para designar a amostra generica, (X
1
, X
2
, . . . , X
n
), o mesmo aplica-
se, por vezes, para designar tambem a amostra particular, (x
1
, x
2
, . . . , x
n
). Deve, porem, distinguir-se entre
as duas acepc oes em que o termo e utilizado.
37
Denicao 4.6 Chama-se estatstica a uma funcao dos valores observados, isto e, uma funcao de uma a.a.
(X
1
, X
2
, . . . , X
n
), sem parametros desconhecidos.
Exemplos 4.3
1. X =

n
i=1
X
i
n
(Media Amostral)
2. T
1
= X
1
+X
2
+ +X
n
=

n
i=1
X
i
3. T
2
=

n
i=1
X
2
i
4. T
3
=

n
i=1
X
2
i
n
5. T
4
= X
1
X
2
X
n
6. T
5
= max(X
1
, X
2
, . . . , X
n
)
7. S
2
=
1
n
n

i=1

X
i
X

2
(variancia amostral)
8. s
2
=
1
n 1
n

i=1

X
i
X

2
(variancia amostral corrigida)
9. Suponha-se que na populacao X N(, ), os parametros e sao desconhecidos. Entao nao sao es-
tatsticas as funcoes,

n
i=1
(X
i
)

n
i=1
X
i

n
i=1
X
2
i

2
,
pois dependem de e .
Observacao 4.5 Pode mostrar-se que
n

i=1

X
i
X

2
=
n

i=1
X
2
i
nX
2
.
Cada estatstica e uma nova variavel aleatoria e tera uma distribuicao de probabilidade que e designada por
distribuicao amostral. A procura dessa distribuicao amostral pode ser muito complicada. De qualquer modo,
no estudo que faremos, as diferentes propriedades serao dadas sem demonstracao e com um unico objectivo: a
aplicacao.
4.3 Estimacao Pontual
Quando se inicia o estudo da Inferencia Estatstica e-se levado com demasiada frequencia a pensar em termos
analogicos. Assim, se por exemplo, para a populacao X se tem = E(X), isto e, se e a media da populacao,
julga-se que a media da amostra, X =

X
i
/n, e a variancia da amostra, s
2
=

(X
i
X)
2
/n, sao as melhores
estatsticas para estabelecer inferencias sobre e
2
. Essa atitude, de certo modo intuitiva, e valida em muitos
casos, mas nao pode generalizar-se. Muitas vezes conduzem a maus resultados.
Denicao 4.7 Chama-se estimador a qualquer estatstica,

, usada para estimar um parametro, , (desco-
nhecido) da populac ao ou uma funcao desse parametro. A um valor desse estimador,

, chama-se estimativa.
A qualidade de um estimador de um parametro sera melhor ou pior conforme certas propriedades que possua.
Nao iremos fazer um estudo exaustivo dessas propriedades e utilizaremos somente o seguinte tipo de estimadores:
Denicao 4.8 Diz-se que

e estimador nao-enviesado (ou centrico) do parametro se, e somente se,
E(

) = .
Observacao 4.6 O enviesamento de um estimador

dene-se como a diferenca entre o valor esperado do
estimador e o valor do parametro , isto e,
Enviesamento

= E(

) .
38
Como o nao-enviesamento e uma propriedade importante, a utilizacao de um ou de outro estimador de um
parametro desconhecido pode depender desta propriedade. Observe-se o seguinte:
Teorema 4.1 Considere-se uma populacao X, com media e desvio padrao , e (X
1
, . . . , X
n
) uma sua amostra
aleatoria. Entao
1. E(X) = ;
2. V ar(X) =

2
n
;
3. E(S
2
) =
n 1
n

2
4. E(s
2
) =
2
.
Observacao 4.7 Na demonstracao de 3. pode utilizar-se 2. e na demonstracao de 4. pode utilizar-se 3., ja
que s
2
=
n
n1
S
2
.
O teorema anterior diz que a media amostral, X, e um estimador nao-enviesado da media da populacao,
, e que a variancia amostral corrigida, s
2
e um estimador nao-enviesado da variancia da populacao,
2
. No
entanto, a variancia amostral, S
2
, e um estimador enviesado da variancia da populacao e, consequentemente,
utilizaremos sempre a variancia amostral corrigida para estimar a variancia da populacao.
4.4 Metodos de Estimacao
Existem varios metodos que permitem estimar um parametro desconhecido de uma populacao, entre os quais:
Metodo dos Momentos, Metodo da Maxima Verosimilhan ca e Metodo dos Mnimos Quadrados. Nesta disciplina
iremos somente estudar o Metodo dos Momentos.
4.4.1 Metodo dos Momentos
Este metodo, de facil implementa cao, consiste em igualar os momentos populacionais aos momentos amostrais.
Assim, considere-se uma populacao representada pela variavel aleatoria X com distribuicao de probabilidade
conhecida a menos de r parametros,
1
,
2
, . . . ,
r
(por exemplo, se X N(, ), os parametros e podem
ser desconhecidos). Em geral, os momentos populacionais ordinarios sao funcoes conhecidas dos parametros a
estimar, que expressaremos da seguinte forma:

i
=

i
(
1
,
2
, . . . ,
r
).
Seja X
1
, X
2
, . . . , X
n
uma amostra aleatoria extrada na populacao X e representem-se os momentos amostrais
ordinarios por
M

i
=
1
n
n

k=1
(X
k
)
i
.
Observe-se que estes momentos sao variaveis aleatorias, ao contrario do que acontecia durante o estudo da
Estatstica Descritiva.
Entao, de acordo com o Metodo dos Momentos, os estimadores

1
,

2
, . . . ,

r
dos parametros
1
,
2
, . . . ,
r
sao obtidos a partir da resolucao do seguinte sistema de equacoes nas incognitas
1
,
2
, . . . ,
r
:
M

i
=

i
(
1
,
2
. . . ,
r
).
Tais estimadores podem ser designados abreviadamente por estimadores M
Exemplo 4.4 Seja (X
1
, . . . , X
n
), uma a.a. extrada numa populacao normal de media e variancia
2
, des-
conhecidos. Pretende-se determinar, usando o Metodo dos Momentos, os estimadores

M e

2
de e
2
,
respectivamente. Logo, tem-se o sistema

1
= X =

1
(, ) = E(X) =
M

2
=
1
n

n
k=1
X
2
k
=

4
=
2
+
9
donde resulta


M = X

2
= M

2
=
1
n

n
k=1
X
2
k
X
2
=
1
n

n
k=1

X
k
X

2
= S
2
39
Em relacao ao metodo que acabou de ser apresentado, note-se que ele admite variantes, sendo todas desi-
gnadas por metodo dos momentos: em vez de se denir o sistema com base nos momentos ordinarios, pode
recorrer-se aos momentos centrados; em vez de se denir o sistema a partir dos r primeiros momentos (ordinarios
ou centrados), pode recorrer-se a momentos de outras ordens.
4.5 Distribuicao de um Estimador
Teorema 4.2 Seja X uma v.a. tal que X N(, ) e (X
1
, . . . , X
n
) uma amostra aleatoria extrada na po-
pulacao X. Entao
X N

,
isto e, X e uma v.a. com distribuicao normal de media e desvio padrao /

n.
Observacao 4.8 O teorema anterior e consequencia directa do teorema 3.15
Exemplo 4.5 O conte udo, em litros, de garrafas de oleo segue uma distribuicao normal. Se = 0.99 e
= 0.02 , pretende-se calcular a probabilidade de o conte udo medio numa amostra de 16 garrafas, seleccionadas
ao acaso, seja superior a 1 .
Resolucao: Sendo
X = capacidade de uma garrafa de oleo, em
uma v.a. tal que X N(0.99, 0.02), entao, pelo teorema 4.2, X N(0.99, 0.005). Logo,
P(X > 1) = P

Z >
1 0.99
0.005

= P(Z > 2) = 0.5 P(0 Z 2) = 0.5 0.4772 = 0.0228.


Teorema 4.3 Sejam X
1
e X
2
duas variaveis aleat orias tais que X
1
N(
1
,
1
) e X
2
N(
2
,
2
). Se
(X
11
, X
12
, . . . , X
1n
1
) e (X
21
, X
22
, . . . , X
2n
2
) sao duas amostras aleat orias, independentes, extradas nas popu-
lacoes X
1
e X
2
, respectivamente, entao
X
1
X
2
N

2
,

2
1
n
1
+

2
2
n
2

,
isto e,
Z =
X
1
X
2
(
1

2
)

3
1
n
1
+

2
2
n
2
N(0, 1).
Observacao 4.9 O teorema anterior e consequencia dos teoremas 4.2 e 3.15 e observe-se que: se as amostras
sao independentes, entao X
1
e X
2
sao variaveis aleatorias independentes e
E(X
1
X
2
) = E(X
1
) E(X
2
) =
1

2
,
V ar(X
1
X
2
) = V ar(X
1
) +V ar(X
2
) =

2
1
n
1
+

2
2
n
2
.
Teorema 4.4 Se X e uma v.a. de media e desvio padrao e (X
1
, . . . , X
n
) e uma amostra aleatoria extrada
na populacao X, entao
Z =
X
/

n
o
N(0, 1),
quando n +.
Observacoes 4.10
1. O teorema anterior e consequencia directa do Teorema do Limite Central (teorema 3.16).
2. Nas condicoes do teorema
2
s
2
. Assim, quando e desconhecido podemos usar s e, consequentemente,
Z =
X
s/

n
o
N(0, 1).
40
Corolario 4.5 Seja X Bernoulli(p) e (X
1
, . . . , X
n
) uma amostra aleat oria extrada nesta populacao. Entao
Z =
X p

p(1 p)
n
o
N(0, 1),
quando n +.
Observacao 4.11 No contexto de uma populacao de Bernoulli, X e a proporcao de sucessos observados e e
vulgar representar-se por p.
Teorema 4.6 Sejam X
1
e X
2
duas variaveis aleatorias de medias
1
e
2
e variancias
2
1
e
2
2
, respectiva-
mente. Se (X
11
, X
12
, . . . , X
1n
1
) e (X
21
, X
22
, . . . , X
2n
2
) sao duas amostras aleatorias, independentes, extradas
nas populacoes X
1
e X
2
, respectivamente, entao
X
1
X
2
o
N

2
,

2
1
n
1
+

2
2
n
2

,
isto e,
Z =
X
1
X
2
(
1

2
)

2
1
n
1
+

2
2
n
2
o
N(0, 1),
quando n
1
+ e n
2
+.
Observacoes 4.12
1. O teorema anterior e consequencia dos teoremas 3.16 e 3.15.
2. Nas condicoes do teorema
2
1
s
2
1
e
2
2
s
2
2
. Assim, quando
1
e
2
sao desconhecidos podemos usar s
1
e
s
2
. Consequentemente,
Z =
X
1
X
2
(
1

2
)

s
2
1
n
1
+
s
2
2
n
2
o
N(0, 1).
Corolario 4.7 Sejam X
1
Bernoulli(p
1
) e X
2
Bernoulli(p
2
). Se (X
11
, . . . , X
1n
1
) e (X
21
, . . . , X
2n
2
) sao
amostras aleatorias, independentes, extradas nas populacoes X
1
e X
2
, respectivamente, entao
Z =
p
1
p
2
(p
1
p
2
)

p
1
(1 p
1
)
n
1
+
p
2
(1 p
2
)
n
2
o
N(0, 1).
quando n
1
+ e n
2
+.
4.5.1 Distribuicoes Amostrais Relacionadas com a Distribuicao Normal
Distribuicao do Qui-Quadrado
Denicao 4.9 Diz-se que uma v.a. X tem distribuicao do
2
(qui-quadrado) com n graus de liberdade (ou de
parametro n), simbolicamente X
2
n
, se a sua f.d.p. e denida por
f
X
(x) =
e
x/2
x
(n/2)1
2
n/2

n
2
, n N, x R
+
,
onde
(t) =

+
0
x
t1
e
x
dx, t > 0.
41
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
0 5 10 15 20 25 30 35
f.d.p. da Dist. do Qui-quadrado com n=10
Teorema 4.8 Sejam X
1
, X
2
, . . . , X
n
v.a. independentes tais que X
i
N(
i
,
i
), (i = 1, . . . , n). Entao a v.a.
U =
n

i=1

X
i

2

2
n
Observacao 4.13 O termo graus de liberdade refere-se ao n umero de quadrados independentes na soma
anterior.
Corolario 4.9 Sejam a populacao X N(, ) e (X
1
, . . . , X
n
) uma amostra aleatoria. Entao
U =
(n 1)s
2

2

2
n1
.
Distribuicao t de Student
Denicao 4.10 Uma v.a. X tem distribuicao t de Student com n graus de liberdade (ou de parametro n),
simbolicamente X T
n
, se a sua f.d.p. e denida por
f
X
(x) =

n+1
2

n
2

1 +
x
2
n

n+1
2
, x R, n N,
onde
(t) =

+
o
x
t1
e
x
dx, t > 0.
Observacao 4.14 A distribuicao t de Student e simetrica. Quando n = 4, e parecida com a distribuicao
Normal estandardizada.
0
0.05
0.1
0.15
0.2
0.25
0.3
-4 -3 -2 -1 0 1 2 3 4
f.d.p. da Dist. t de Student com n=4
Teorema 4.10 Se as variaveis aleatorias X e Y sao independentes tais que X N(0, 1) e Y
2
n
, entao
T =
X

Y/n
T
n
.
42
Corolario 4.11 Se X e uma v.a. tal que X N(, ) e (X
1
, X
2
, . . . , X
n
) e uma a.a., entao o racio de Student
X
s/

n
tem distribuicao t de Student com n 1 graus de liberdade, isto e,
X
s/

n
T
n1
.
Dem.: Sabemos que
Z =
X
/

n
=

n(X )

N(0, 1)
e
Y =
(n 1)s
2

2

2
n1
.
Logo, pelo teorema 4.10,
T =
Z

Y/(n 1)
T
n1
.
Dado que
T =

n(X)

(n1)s
2

2
(n1)
=

n(X)

=
X
s/

n
,
entao
X
s/

n
T
n1
.
Teorema 4.12 Quando n +, T
n
o
N(0, 1).
Teorema 4.13 Sejam X
1
e X
2
duas variaveis aleatorias independentes tais que X
1
N(
1
,
1
) e
X
2
N(
2
,
2
), com
1
=
2
. Se (X
11
, X
12
, . . . , X
1n
1
) e (X
21
, X
22
, . . . , X
2n
2
) sao duas amostras aleatorias,
independentes, extradas nas populacoes X
1
e X
2
, respectivamente, entao
T =
X
1
X
2
(
1

2
)

(n
1
1)s
2
1
+ (n
2
1)s
2
2
n
1
+n
2
2

1
n
1
+
1
n
2
T
n
1
+n
2
2
.
Observacao 4.15 O teorema anterior e consequencia dos teoremas 4.3, 4.9, 4.10 e da aditividade da dis-
tribuicao do Qui-Quadrado: Se as v.a. X
1
, . . . , X
n
sao independentes e X
i

2
n
i
, i = 1, . . . , n, entao

n
i=1
X
i

2
m
, com m =

n
i=1
n
i
.
Distribuicao F de Snedcor
Denicao 4.11 Uma v.a. X tem distribuicao F de Snedcor com m e n graus de liberdade (ou de parametros
m e n), simbolicamente X F
m
n
, quando a sua f.d.p. e denida por
f
X
(x) =

m+n
2

m
2

n
2

m
n
m
2 x
m2
2

1 +
m
n
x

m+n
2
, x R
+
.
Teorema 4.14 Se a v.a. X e tal que X F
m
n
, entao
1
X
F
n
m
.
43
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0 2 4 6 8 10
f.d.p da Dist. F-Snedcor com m=4 e n=5
Teorema 4.15 Se as variaveis aleatorias X e Y sao independentes tais que X
2
m
e Y
2
n
, entao
U =
X/m
Y/n
F
m
n
.
Corolario 4.16 Se (X
11
, X
12
, . . . , X
1n
1
) e uma amostra aleatoria extrada da populacao X
1
N(
1
,
1
),
(X
21
, X
22
, . . . , X
2n
2
) e uma amostra aleatoria extrada da populacao X
2
N(
2
,
2
) e ambas sao indepen-
dentes, entao
s
2
1
s
2
2

2
2

2
1
F
n
1
1
n
2
1
.
Dem.: Sabemos que
(n
1
1)s
2
1

2
1

2
n
1
1
e
(n
2
1)s
2
2

2
2

2
n
2
1
.
Logo, pelo teorema 4.15,
(n
1
1)s
2
1
(n
1
1)
2
1
(n
2
1)s
2
2
(n
2
1)
2
2
=
s
2
1
s
2
2

2
2

2
1
F
n
1
1
n
2
1
.
44
Captulo 5
Estimacao Intervalar
Considere-se uma (ou duas populacoes) onde se pretende estimar um parametro (ou uma relacao entre parametros).
A estimacao intervalar consiste na determinacao, a partir de uma estimativa pontual do(s) parametro(s), de um
intervalo onde o parametro (ou relacao entre parametros) esteja com uma dada probabilidade . Temos assim
um intervalo de conanca a 100% (ou com grau de conanca a 100%) para o parametro (ou relacao de
parametros).
Assim, no caso de o parametro ser a media () (ou uma diferenca de medias (
1

2
)), pretende-se determinar
n umeros reais a e b, com a < b, tais que
[X b, X a]
(respectivamente,

2
[X
1
X
2
b, X
1
X
1
a]).
em que
P(a X b) =
(respectivamente,
P(a X
1
X
2
(
1

2
) b) = ).
O calculo de a e b depende das condicoes iniciais:
a(s) distribuicao(oes) da(s) populacao(oes) sao conhecida(s) ou desconhecida(s);
a(s) amostra(s) e(sao) sucientemente grande(s);
e, tendo em conta estas condicoes, da escolha de uma variavel aleatoria (dita variavel fulcral), e respectiva-
mente distribuicao, que relaciona o(s) parametro(s) com o respectivo estimador (ver captulo anterior). Para
cada caso, verica-se ainda que existem uma innidade de solucoes para a e b. No entanto, em geral, como a
distribuicao da variavel fulcral e a distribuicao Normal (ou aproximadamente normal) ou a distribuicao t de
Student, mostra-se que a amplitude (comprimento) do intervalo de conanca, xado o seu grau de conanca, e
mnimo quando a = b.
No caso do parametro ser a variancia (ou quociente de variancias) pretende-se determinar a e b, com c < d,
tais que

b
,

(ou

2
1

2
2

1
b

,
1
a

),
com uma probabilidade , onde

tem a ver com s
2
(ou s
2
1
/s
2
2
).
Para cada caso, verica-se que existem uma innidade de solucoes para a e b. Sendo, em geral, a distribuicao
da variavel fulcral a distribuicao do Qui-quadrado ou a distribuicao F de Snedcor, mostra-se, tambem, que existe
45
uma unica solucao para a e b que minimiza a amplitude do intervalo de conanca, xado o seu grau de conanca.
No entanto, este calculo e bastante trabalhoso. Assim, na pratica, por uma questao de comodidade os valores
de a e b sao determinados pelas condicoes
P(U a) =
1
2
, P(U b) =
1
2
,
onde U
2
m
ou U F
m
n
.
Observe-se o quadro na pagina seguinte, onde esta representado o intervalo de conanca para cada um dos
parametros em estudo, de acordo com a condicoes iniciais.
Quando queremos estudar variaveis que surjam naturalmente associadas, sao necessarios alguns cuidados.
As duas amostras, cada uma proveniente da sua populacao, em vez de serem independentes sao emparelhadas,
isto e, as amostras sao constitudas por pares ordenados medindo a mesma grandeza. Nestes casos, podera, em
muitas circunstancias, originar uma situacao mais favoravel, porque se traduz numa reducao da variabilidade,
ja que
var(X
1
X
2
) = var(X
1
) +var(X
2
) 2cov(X
1
, X
2
).
Se as duas populacoes em estudo sao normais, entao o problema e reduzido ao caso de uma populacao normal,
que e dada pela diferenca das suas iniciais.
46
P
A
R
.
C
O
N
D
I
C

O
E
S
V
.
A
.
F
U
L
C
R
A
I
S
/
D
I
S
T
.
I
N
T
E
R
V
A
L
O
S
D
E
C
O
N
F
I
A
N
C

A
O
B
S
.

P
o
p
u
l
a
c
a
o
n
o
r
m
a
l
c
o
m
v
a
r
i
a
n
c
i
a
c
o
-
n
h
e
c
i
d
a
Z
=
X

N
(
0
,
1
)

n
,
X
+
z

Q
u
a
n
d
o
s
e
d
e
s
c
o
n
h
e
c
e
a
d
i
s
t
r
i
b
u
i
c
a
o
d
a
p
o
-
p
u
l
a
c
a
o
,
m
a
s
n
e
g
r
a
n
d
e
(
n

3
0
)
,
a
d
i
s
t
r
i
b
u
i
c
a
o
e
a
p
r
o
x
.
n
o
r
m
a
l
.
P
o
p
u
l
a
c
a
o
n
o
r
m
a
l
d
e
v
a
r
i
a
n
c
i
a
d
e
s
c
o
-
n
h
e
c
i
d
a
X

T
n

t
s

n
,
X
+
t
s

C
o
m
n
g
r
a
n
d
e
,
p
o
-
p
u
l
a
c
a
o
n
o
r
m
a
l
o
u
n
a
o
,
a
d
i
s
t
r
i
b
u
i
c
a
o
e
a
p
r
o
x
.
n
o
r
m
a
l
.
p
P
o
p
u
l
a
c
a
o
d
e
B
e
r
-
n
o
u
l
l
i
Z
=
p

p
(
1

p
)
n
o

N
(
0
,
1
)

0
.
2
5
n
,
p
+
z

0
.
2
5
n

P
a
r
a
n
g
r
a
n
d
e
.

2
P
o
p
u
l
a
c
a
o
n
o
r
m
a
l
(
n

1
)
s
2

2 n

(
n

1
)
s
2
b
,
(
n

1
)
s
2
a

D
u
a
s
p
o
p
u
l
a
c
o
e
s
n
o
r
m
a
i
s
c
o
m
v
a
r
i
-
a
n
c
i
a
s
c
o
n
h
e
c
i
d
a
s
Z
=
X
1

X
2

2
)

2 1
n
1
+

2 2
n
2

N
(
0
,
1
)

X
1

X
2

2 1
n
1
+

2 2
n
2
,
X
1

X
2
+
z

2 1
n
1
+

2 2
n
2

Q
u
a
n
d
o
s
e
d
e
s
c
o
n
h
e
c
e
a
d
i
s
t
r
i
b
u
i
c
a
o
d
a
s
p
o
-
p
u
l
a
c
o
e
s
,
m
a
s
n
1
e
n
2
s
a
o
g
r
a
n
d
e
s
,
a
d
i
s
t
r
i
-
b
u
i
c
a
o
e
a
p
r
o
x
.
n
o
r
m
a
l
.

2
D
u
a
s
p
o
p
u
l
a
c
o
e
s
n
o
r
m
a
i
s
c
o
m
v
a
r
i
a
n
c
i
a
s
d
e
s
-
c
o
n
h
e
c
i
d
a
s
m
a
s
i
g
u
a
i
s
X
1

X
2

2
)

(
n
1

1
)
s
2 1
+
(
n
2

1
)
s
2 2
n
1
+
n
2

1
n
1
+
1
n
2

T
n
1
+
n
2

X
1

X
2

(
n
1

1
)
s
2 1
+
(
n
2

1
)
s
2 2
n
1
+
n
2

1
n
1
+
1
n
2
,
X
1

X
2
+
t

(
n
1

1
)
s
2 1
+
(
n
2

1
)
s
2 2
n
1
+
n
2

1
n
1
+
1
n
2

D
u
a
s
p
o
p
u
l
a
c
o
e
s
n
o
r
m
a
i
s
o
u
n
a
o
,
c
o
m
v
a
r
i
a
n
c
i
a
s
d
e
s
c
o
n
h
e
c
i
d
a
s
m
a
s
n
1
e
n
2
g
r
a
n
d
e
s
Z
=
X
1

X
2

2
)

s
2 1
n
1
+
s
2 2
n
2
o

N
(
0
,
1
)

X
1

X
2

s
2 1
n
1
+
s
2 2
n
2
,
X
1

X
2
+
z

s
2 1
n
1
+
s
2 2
n
2

p
1

p
2
D
u
a
s
p
o
p
u
l
a
c
o
e
s
d
e
B
e
r
n
o
u
l
l
i
Z
=
p
1

p
2

(
p
1

p
2
)

p
1
(
1

p
1
)
n
1
+
p
2
(
1

p
2
)
n
2
o

N
(
0
,
1
)

p
1

p
2

0
.
2
5
n
1
+
0
.
2
5
n
2
,
p
1

p
2
+
z

0
.
2
5
n
1
+
0
.
2
5
n
2

P
a
r
a
n
1
e
n
2
g
r
a
n
d
e
s

2 1

2 2
D
u
a
s
p
o
p
u
l
a
c
o
e
s
n
o
r
m
a
i
s
s
2 1
s
2 2

2 2

2 1

F
n
1

1
n
2

1 b
s
2 1
s
2 2
,
1 a
s
2 1
s
2 2

47
48
Captulo 6
Teste de Hipoteses
Um outro procedimento muito importante na Inferencia Estatstica consiste em vericar a compatibilidade de
dados amostrais (ou estimativas obtidas a partir destes dados) com determinadas populacoes (ou valores xados
para parametros populacionais). Este procedimento - Teste de Hipoteses - leva, necessariamente, a uma de
duas respostas possveis para uma dada questao: armativa ou negativa. No entanto, como este procedimento
parte de dados amostrais, corre-se o risco de errar. Uma caracterstica do teste de hipoteses e, justamente, a de
permitir controlar ou minimizar tal risco.
A metodologia deste procedimento pode ser dividida em quatro fases:
i) Formulacao das hipoteses.
ii) Identica cao da estatstica do teste e respectiva distribuicao.
iii) Denicao da regra de decisao, com especicacao do nvel de signicancia.
iv) Calculo do valor do teste e tomada de decisao.
Para uma melhor compreensao de cada uma destas fases, iremos apresenta-las no contexto do problema
seguinte, que e um teste de hipotese do tipo parametrico, isto e, um teste de hipotese onde a formulacao das
hipoteses e feita para um parametro populacional desconhecido:
Uma empresa tenciona importar um grande lote de instrumentos de precisao para posterior distribuicao
no pas. Os fabricantes garantem que o respectivo peso medio e de 100 gramas. Sendo, no entanto, o peso
uma caracterstica importante na qualidade do produto, resolveu-se testar a garantia do fabricante. Para tal,
o departamento tecnico da empresa importadora obteve uma amostra de 15 instrumentos, donde resultaram os
seguintes valores:
15

i=1
X
i
= 1344 grs
15

i=1

X
i
X

2
= 3150 grs
2
Admitindo que o peso e normalmente distribudo, diga qual a inferencia a tirar, para um nvel de signicancia
de 1%..
Na resoluc ao de um problema deste tipo e importante denir correctamente a caracterstica em estudo na
populacao, isto e, a variavel aleatoria, e saber quais os dados populacionais conhecidos (ou desconhecidos). No
problema em questao temos:
X = peso de um instrumento de precisao, em gramas.
X N(, ), e desconhecidos.
i) Neste problema esta em causa a armacao dos fabricantes relativamente ao peso medio de um instrumento
por eles fabricado. Eles garantem que o peso medio de um instrumento de precisao e de 100 gramas. Assim,
temos a seguinte formula cao de hipoteses:
H
0
: = 100
H
A
: = 100
49
A primeira (H
0
) e denominada por hipotese nula e a segunda (H
A
) por hipotese alternativa. Em
geral, na formulacao da hipotese nula e necessario ter-se um igual, podendo usar-se um dos smbolos: =,
ou , pois um teste de hipotese parametrico requer um valor a testar. A hipotese alternativa tera, no
contexto do problema, de ser complementar da hipotese nula, podendo usar-se um dos smbolos: =, < ou
>.
ii) Para testarmos as hipoteses formuladas, necessitamos de uma estimativa pontual do parametro em estudo.
Para tal, e necessario recolher uma amostra aleatoria na populacao em estudo. (Observe-se que, por razoes
obvias, somente faz sentido a recolha de uma amostra depois de estabelecidas as hipoteses a testar.) O
estimador em causa, no contexto do teste de hipoteses, e usualmente denominado de estatstica do teste
e tera uma distribuicao amostral. No nosso problema, a estatstica do teste e X e como pretendemos testar
o valor expresso na hipotese nula, quando a populacao X segue uma distribuicao normal de variancia
desconhecida e a amostra recolhida e pequena (n=15), resulta
T =
X 100
s/

n
T
14
Em geral, a identicacao da estatstica do teste e respectiva distribuicao amostral depende do parametro
em estudo, dos dados conhecidos (desconhecidos) da populacao e do tamanho da amostra (ou amostras).
Cada uma das variaveis fulcrais utilizadas nos intervalos de conanca transformam-se numa estatstica
do teste quando se substitui o parametro populacional em estudo pelo valor a testar, que se encontra na
hipotese nula. No caso da diferenca de proporcoes, sendo a hipotese nula p
1
= p
2
(ou p
1
p
2
ou p
1
p
)
)
a variavel
p
1
p
2
(p
1
p
2
)

p
1
(1p
1
)
n
1
+
p
2
(1p
2
)
n
2
transforma-se numa estatstica do teste quando se substitui p
1
p
2
pelo valor a testar e, para estar de
acordo com a hipotese nula, p
1
e p
2
por
p =
n
1
p
1
+n
2
p
2
n
1
+n
2
=

n
1
i=1
X
1i
+

n
2
i=1
X
2i
n
1
+n
2
,
que e a media ponderada dos sucessos observados conjuntamente nas duas amostras.
iii) Na denicao da regra de decisao, que consiste em rejeitar ou nao rejeitar a hipotese nula, e necessario
encontrar um valor (ou valores), dito crtico, que nos ajude nesta decisao. No nosso problema, rejeitamos
o valor 100 desde que uma estimativa da media esteja afastadadeste valor.
`
A partida, este afastamento
e muito relativo, o que nos leva a denir um criterio de rejeicao. De qualquer modo, ao se tomar a decisao
podemos cometer dois tipos de erro: rejeitar uma hipotese verdadeira (erro tipo I) ou nao rejeitar uma
hipotese falsa (erro tipo II). Observe-se o quadro seguinte:
Situacao Real (desconhecida)
Decisao H
0
verdadeira H
0
falsa
Nao rejeitar H
0
Decisao correcta Erro Tipo II
Rejeitar H
0
Erro Tipo I Decisao correcta
A probabilidade de se cometer um erro tipo I sera designada por . E de se cometer um erro tipo II por
. Isto e,
P(Rejeitar H
0
|H
0
e verdadeira) =
e
P(Nao Rejeitar H
0
|H
0
e falsa) = .
A chama-se nvel de signicancia do teste e a 1 a potencia do teste.
Se rejeitarmos H
0
, com um nvel de signicancia , podemos aceitar H
A
com uma conanca 1 . O
valor de diminui se aumenta (e vice-versa). Por outro lado, a probabilidade de se cometer um erro do
50
tipo II, e portanto, a potencia do teste, 1 , dependem da forma como a hipotese alternativa se afasta
da hipotese nula. So existe uma forma de diminuir um dos riscos ou sem aumentar o outro: aumentar
o n umero de dados amostrais com base nos quais e calculada a estatstica do teste. Em grande parte dos
problemas a resolver, em particular no que nos serve de exemplo, e especicado o nvel de signicancia, ja
que o objectivo e a rejeicao de H
0
. Quando o nvel de signicancia e especicado `a partida, permite-nos
encontrar um conjunto de valores assumidos pela estatstica do teste para os quais rejeitamos H
0
. Este
conjunto e denominado por Regiao Crtica e, no contexto do problema que estamos a tratar, esta regiao
e do tipo bilateral, pois H
A
: > 100 < 100, sendo dada por
RC =

t
obs
: t
obs
t
c
t
obs
t
c

,
onde t
c
e denominado de valor crtico.
Se fosse H
A
: <
0
(resp. H
A
: >
0
) a regiao crtica era do tipo unilateral esquerda (resp.
unilateral direita) e era dada por
RC =

t
obs
: t
obs
t
c

,
(resp.
RC =

t
obs
: t
obs
t
c

).
O valor crtico e determinado da seguinte forma:
P(Rejeitar H
0
|H
0
verdadeira) =
P(X RC
1
| =
0
) = 0.01
P

X
0
s/

n
t
c

X
0
s/

n
t
c

= 0.01
P(T
14
t
c
T
14
t
c
) = 0.01
P(T
14
t
c
) = 0.005
(onde RC
1
e a regiao crtica de valores nao estandardizados)
e consultando-se uma tabela t de Student, obtemos para t
c
o valor 2.977.
iv) Depois de determinada a regiao crtica, podemos decidir a rejeicao ou nao rejeicao de H
0
. Para tal, temos
que calcular o valor do teste, isto e, o valor dado pela estatstica do teste calculado a partir da amostra(s)
recolhida(s). No nosso exemplo, o valor do teste e
t
obs
=
89.6 100
15/

15
2.6853
Como este valor nao pertence `a regiao crtica, nao rejeitamos H
0
, isto e, nao rejeitamos que um instrumento
de precisao tenha em media 100 gramas.
Em vez de termos especicado o nvel de signicancia, poderamos, a partir do valor do teste, encontrar
o nvel de signicancia, isto e, a probabilidade mnima que permita rejeitarmos H
0
, se H
0
e verdadeira. No
exemplo que temos vindo a tratar, um valor crtico que permita rejeitar H
0
e, usando a tabela t de Student,
2.624 e o respectivo nvel de signicancia e 0.02. Assim, para o nvel de signicancia de 2% podemos rejeitar H
0
,
isto e, podemos rejeitar que um instrumento de precisao tenha em media 100 gramas. Nestas circunstancias, a
garantia dada pelos fabricantes nao esta a ser respeitada.
Esta ultima abordagem sugere que se determine a probabilidade no extremo da cauda (ou caudas, no caso
bilateral) associada ao valor observado da estatstica do teste. A esta probabilidade chama-se valor-p do teste
e toma-se a decisao com base nessa probabilidade. Assim, no teste que temos vindo a explorar, o valor-p e dado
por
P(|T
14
| | 2.6853|),
e como se tem que
0.01 < P(|T
14
| | 2.6853|) < 0.02,
51
resulta a nao rejeicao da hipotese nula quando se toma = 0.01 e a rejeicao quando = 0.02
Quando queremos estudar variaveis que surjam naturalmente associadas, o procedimento base e semelhante
ao adoptado durante o estudo da estimacao intervalar (ver nal do Captulo 5).
52
Captulo 7
Testes Nao Parametricos
Neste captulo estudaremos dois testes, ditos do qui-quadrado, que nao incidem explicitamente sobre um
parametro de uma ou mais populacoes.
7.1 Teste de Ajustamento (Teste de Aderencia)
Este teste aplica-se quando se pretende ensaiar hipoteses relativas `a distribuicao de uma populacao em estudo.
Este teste consiste em comparar as frequencia observadas numa amostra e as frequencias que seriam de esperar
se a populacao em estudo seguisse a distribuicao especicada. Assim, pretende-se ensaiar
Hipoteses:
H
0
: A populacao segue a distribuicao especicada
H
A
: A populacao nao segue a distribuicao especicada
para um nvel de signicancia .
Recolhida uma amostra aleatoria de tamanho n e classicando estes dados de acordo com as modalidades
A
1
, A
2
, . . . , A
k
do atributo qualitativo ou quantitativo em estudo, necessitamos dos seguintes elementos para a
construcao da estatstica do teste, para cada i = 1, 2, . . . , k:
n
i
= frequencia absoluta (observada) da modalidade A
i
k

i=1
n
i
= n
p
i
= P(A
i
) = probabilidade de ocorrencia de A
i
, quando a distribuicao da populacao e a especicada
k

i=1
p
i
= 1
np
i
= frequencia absoluta esperada da modalidade A
i
, quando a distribuicao da populacao e a especicada
Logo, pode mostrar-se, que uma estatstica do teste para o ensaio das hipoteses H
0
versus H
A
e
k

i=1
(n
i
np
i
)
2
np
i
ou, equivalentemente,
k

i=1
n
2
i
np
i
n
e sob H
0
k

i=1
(n
i
np
i
)
2
np
i
o

2
k1
,
sempre que n 30 e np
i
5, i = 1, 2, . . . , k, e representa o n umero de parametros desconhecidos da populacao
que ha necessidade de estimar.
53
Analisando-se a estatstica do teste, verica-se que a hipotese H
0
podera ser verdadeira se as diferencas entre
as frequencias observadas e esperadas forem pequenas. Logo,
1. Se o valor da estatstica do teste for nulo, entao as frequencias observadas e esperadas coincidem e a hipotese
H
0
e verdadeira.
2. Se o valor da estatstica do teste for positivo, entao as frequencias observadas e esperadas nao coincidem.
Quanto maior for o valor do teste, (
2
obs
), maior sera a discrepancia entre as frequencias observadas e
esperadas. Se essa discrepancia for sucientemente grande, rejeita-se H
0
.
Consequentemente, neste teste, a regiao crtica e sempre unilateral direita:
RC =

2
obs
:
2
obs

2
c

2
c
, +

Exemplo 7.1 Uma maquina de lavar roupa e vendida em cinco cores: A


1
= verde, A
2
= castanho,
A
3
= vermelha, A
4
= azul e A
5
= branco. Num estudo de mercado para apreciar a popularidade das varias
cores analisou-se uma amostra aleatoria de 300 vendas recentes com o seguinte resultado:
Verde Castanho Vermelho Azul Branco TOTAL
88 65 52 40 55 300
Pretende ensaiar-se a hipotese de que os consumidores nao manifestam tendencia para preferir qualquer das
cores,
H
0
: p
1
= p
2
= p
3
= p
4
= p
5
= 0.2.
Os calculos necessarios para o teste encontram-se no quadro seguinte:
Classes A
1
A
2
A
3
A
4
A
5
TOTAL
n
i
88 65 52 40 55 300
np
i
60 60 60 60 60 300
(n
i
np
i
)
2
/np
i
13.07 0.42 1.07 9.67 0.42 21.65
Para = 0.05 e para 4 graus de liberdade, RC = [9.49, +[. Como se obteve um valor do teste

2
obs
= 21.65 > 9.49,
a hipotese H
0
e nitidamente de rejeitar: os dados nao sao compatveis com H
0
, para um nvel de signicancia
de 5%.
7.2 Testes de Associacao
7.2.1 Teste de Independencia
Com este teste pretende ensaiar-se se dois atributos A e B, qualitativos ou quantitativos, com modalidades
A
1
, A
2
, . . . , A
r
e B
1
, B
2
, . . . , B
s
, respectivamente, sao independentes, isto e, se
P (A
i
B
j
) = P (A
i
) P (B
j
) , i = 1, . . . , r, j = 1, . . . , s.
Assim:
Hipoteses:
H
0
: Os atributos sao independentes
H
A
: Os atributos nao sao independentes
para um nvel de signicancia .
Dada uma amostra aleatoria de tamanho n, considerem-se os seguintes elementos, para i = 1, . . . , r e
j = 1, . . . , s:
n
ij
= frequencia absoluta das modalidades A
i
e B
j
54
r

i=1
s

j=1
n
ij
= n
p
i
= P (A
i
) = probabilidade de ocorrencia da modalidade A
i
r

i=1
p
i
= 1
p
j
= P (B
j
) = probabilidade de ocorrencia da modalidade B
j
s

j=1
p
j
= 1
p
ij
= P (A
i
B
j
) = probabilidade de ocorrencia simultanea das modalidades A
i
e B
j
r

i=1
s

j=1
p
ij
= 1
n
i
= frequencia absoluta da modalidade A
i
, qualquer que seja a modalidade B
j
r

i=1
n
i
= n
n
j
= frequencia absoluta da modalidade B
j
, qualquer que seja a modalidade A
i
s

j=1
n
j
= n
A hipotese H
0
e verdadeira se p
ij
= p
i
p
j
, para i = 1, . . . , r e j = 1, . . . , s. Mas estes valores sao, obviamente,
desconhecidos. Logo, o teste ira consistir em comparar o estimador de p
ij
, p
ij
=
n
ij
n
, com o estimador de p
i
p
j
,
p
i
p
j
=
n
i
n

n
j
n
, ou, equivalentemente, comparar n
ij
com n p
i
p
j
=
n
i
n
j
n
.
Uma estatstica do teste para o ensaio das hipoteses H
0
versus H
A
e
r

i=1
s

j=1
(n
ij
n p
i
p
j
)
2
n p
i
p
j
ou, equivalentemente,
r

i=1
s

j=1
n
2
ij
n p
i
p
j
n,
e, sob H
0
r

i=1
s

j=1
(n
ij
n p
i
p
j
)
2
n p
i
p
j
o

2
(r1)(s1)
,
sempre que n 30 e n p
i
p
j
5, para i = 1, . . . , r e j = 1, . . . , s.
`
A semelhanca do teste de ajustamento, o teste de independencia tem sempre uma regiao crtica unilateral
direita.
Para facilitar a analise e calculos num teste de independencia e usual utilizarem-se as tabelas de con-
tigencia seguinte:
n
ij
B
1
B
2
B
s
n
i
A
1
n
11
n
12
n
is
n
1
A
2
n
21
n
22
n
2s
n
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A
r
n
r1
n
r2
n
rs
n
r
n
j
n
1
n
2
n
s
n
n p
i
p
j
B
1
B
2
B
s
n
i
A
1
n p
1
p
1
n p
1
p
2
n p
1
p
s
n
1
A
2
n p
2
p
1
n p
2
p
2
n p
2
p
s
n
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A
r
n p
r
p
1
n p
r
p
2
n p
r
p
s
n
r
n
j
n
1
n
2
n
s
n
sendo n p
i
p
j
=
n
i
n
j
n
.
55
Exemplo 7.2 M. um corrector de bolsa, cre que quando a actividade da bolsa e fraca durante a manha, tende
tambem a ser fraca durante a tarde. Em consequencia, M. esta a pensar em tirar, ocasionalmente, a tarde livre
quando a actividade da bolsa for fraca durante a manha. Registou entao o volume de negocios, durante 80 dias,
nos perodos da manha e da tarde e classicou-os na seguinte tabela:
Manha Tarde
Fraca Activa
Fraca 13 7
Activa 31 29
Pretendemos ensaiar se a actividade da bolsa de manha e independente da actividade de tarde, para um nvel
de signicancia de 5%. Assim, sendo os atributos, e respectivas modalidades,
A = Actividade da bolsa durante a manha
A
1
= Fraca
A
2
= Activa
B = Actividade da bolsa durante a tarde
B
1
= Fraca
B
2
= Activa
pretende ensaiar-se
Hipoteses:
H
0
: Os atributos sao independentes
H
A
: Os atributos nao sao independentes
Usando-se uma tabela de contigencia
n
ij
/ n p
i
p
j
B
1
B
2
n
i
A
1
13 / 11 7 / 9 20
A
2
31 / 33 29 / 27 60
n
j
44 36 n =80
sendo n p
i
p
j
=
n
i
n
j
n
, resulta que

2
obs
=
13
3
11
+
7
2
9
+
31
2
33
+
29
2
27
80 1.0774.
Como, para = 0.05 e 1 grau de liberdade, RC = [3.84, +[, entao nao se rejeita H
0
, isto e, nao se rejeita
que as actividades da bolsa de manha e de tarde sejam independentes. Em princpio, o corrector nao deve tirar,
ocasionalmente, a tarde livre.
7.2.2 Teste de Homogeneidade
Este teste consiste em ensaiar se as proporcoes relativas `as modalidades de um atributo B, para a mesma
modalidade de um atributo A, (A
i
), isto e, as proporcoes p
i1
, p
i2
, . . . , p
is
, podem ser iguais (homogeneas). Este
teste e muito utilizado quando uma amostra aleatoria e dividida em grupos nao aleatorios (exemplo: se n = 100
e formarmos dois grupos, n
1
= 50 e n
2
= 50). Por esta razao, e um teste muito utilizado em Biologia, no
sentido em que se pretende comparar dois grupos, sendo um de controlo.
O teste e igual ao de independencia, sendo as hipoteses formuladas:
H
0
: Existe homogeneidade
H
A
: Nao existe homogeneidade
para um nvel de signicancia .
56
Apendice A
Tecnicas de Contagem
A.1 Arranjos Completos de n Elementos Tomados p a p
Denicao A.1 Seja C um conjunto nito. As sequencias do conjunto
C
p
= {(c
4
, c
2
, . . . , c
p
) : c
i
C, i = 1, 2, . . . , p}
chamam-se arranjos com repeticao ou arranjos completos.
O n umero de arranjos com repeticao de n elementos p a p e designado por
n
A

p
ou A

n,p
, onde n = #C.
Proposicao A.1
n
A

p
= n
p
Observacao A.1 Na demonstracao da proposicao anterior utiliza-se o seguinte:
#(B
1
B
2
B
m
) = #B
1
#B
2
#B
m
.
Isto e, o cardinal do produto cartesiano de m conjuntos e igual ao produto dos cardinais desses conjuntos.
A.2 Arranjos Sem Repeticao de n Elementos Tomados p a p
Denicao A.2 Chamam-se arranjos sem repeticao ou arranjos simples `as sequencias constitudas por
elementos todos distintos.
O n umero de arranjos simples de n elementos p a p e designado por
n
A
p
ou A
n,p
.
Em particular, se n = p, os arranjos simples denominam-se por permutacoes e
n
A
n
= P
n
.
Proposicao A.2
n
A
p
= n (n 1) (n 2) (n p + 1) =
n!
(n p)!
Observacoes A.2
1. Obviamente, nos arranjos simples n p.
2. Nao esquecer que, por denicao,
n! =

n (n 1) 2 1 se n N \ {1},
1 se n = 1,
e, por convencao, 0! = 1. Assim, P
n
= n!.
A.3 Combinacoes de n Elementos Tomados p a p
Denicao A.3 Seja A um conjunto com n elementos. Chamam-se combinacoes desses n elementos p a p a
todos os subconjuntos desses de p elementos que e possvel considerar em A.
Designam-se por
n
C
p
ou

n
p

o n umero total de combinacoes de n elementos p a p.


Observacao A.3 Repare-se que abc e acb sao arranjos simples distintos, mas a mesma combinacao. Isto e,
nos arranjos tem-se em conta a ordem, mas nao nas combinacoes.
Proposicao A.3
n
C
p
=
n
A
p
P
p
=
n!
p!(n p)!
, com n p.
i

Você também pode gostar