Você está na página 1de 97

RESUMOS TPICOS

Sumrio
1 Modelos Probabilsticos Discretos

1.1

Distribuio Uniforme Discreta . . . . . . . . . . . . . . . . . . . . . . . .

1.2

Distribuio Hipergeomtrica . . . . . . . . . . . . . . . . . . . . . . . . .

1.3

Distribuio Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.4

Distribuio de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.5

Distribuio Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . . .

1.6

Distribuio Geomtrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Modelos Probabilsticos Contnuos

12

2.1

Distribuio Uniforme Contnua . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2

Distribuio Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3

2.2.1

Distribuio Qui-quadrado . . . . . . . . . . . . . . . . . . . . . . . 15

2.2.2

Distribuio Exponencial . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2.3

Distribuio Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . 16

Distribuio Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.1

Distribuio log-Normal . . . . . . . . . . . . . . . . . . . . . . . . 19

2.4

Distribuio Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.5

Distribuio F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5.1

Distribuio t-Student . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 Estimao Intervalar

22

3.1

Probabilidade de Cobertura e Comprimento . . . . . . . . . . . . . . . . . 23

3.2

Funes Pivotais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.3

Inverso da estatstica de teste . . . . . . . . . . . . . . . . . . . . . . . . . 29

ii
4 Teste de Hipteses

32

4.1

Teste da Razo de Verossimilhana . . . . . . . . . . . . . . . . . . . . . . 33

4.2

Probabilidade de erro e Funo poder . . . . . . . . . . . . . . . . . . . . . 35

4.3

Teste mais poderoso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.4

P-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5 Anlise de Regresso Logstica

41

5.1

O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.2

Funo de Verossimilhana . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2.1

Estimao dos Parmetros . . . . . . . . . . . . . . . . . . . . . . . 43

5.2.2

Intervalos de Confiana . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.3

Funo Desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5.4

Teste de Hipteses Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5.5

Anlise de Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

6 Anlise Discriminante

48

6.1

Regra Discriminante de Mxima Verossimilhana . . . . . . . . . . . . . . 49

6.2

Regra Discriminante de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 52

6.3

Classificao com diferentes matrizes de covarincia . . . . . . . . . . . . . 53

6.4

Regra de Discriminao na Prtica . . . . . . . . . . . . . . . . . . . . . . 53

6.5

Funo Discriminante Linear de Fisher . . . . . . . . . . . . . . . . . . . . 54

6.6

Desempenho de uma funo discriminante . . . . . . . . . . . . . . . . . . 57

6.7

Diferena entre Anlise Discriminante e Anlise de Cluster . . . . . . . . . 58

7 Anlise de Agrupamentos (Conglomerados ou Cluster)

59

7.1

O problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

7.2

A proximidade entre objetos . . . . . . . . . . . . . . . . . . . . . . . . . . 60

7.3

7.2.1

Similaridade de objetos com estrutura binria . . . . . . . . . . . . 61

7.2.2

Medidas de distncia para variveis contnuas . . . . . . . . . . . . 62

Algoritmos de cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7.3.1

Algoritmos hierrquicos, Tcnicas aglomerativas . . . . . . . . . . . 64

7.3.2

Algoritmos de Particionamento . . . . . . . . . . . . . . . . . . . . 68

iii
8 Anlise de Sries Temporais

70

8.1

Tcnicas Descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

8.2

Decomposio Clssica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

8.3

Autocorrelao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

8.4

Modelos Probabilsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

8.5

8.4.1

Sequncia Aleatria . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

8.4.2

Passeio Aleatrio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

8.4.3

Modelos de Box-Jenkins para Sries Estacionrias . . . . . . . . . . 76

Estimao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.5.1

Ajustando Processos Autoregressivos . . . . . . . . . . . . . . . . . 81

8.5.2

Ajustando Processos Mdias Mveis . . . . . . . . . . . . . . . . . . 82

8.5.3

Ajustando Processos ARMA . . . . . . . . . . . . . . . . . . . . . . 82

8.6

Adequao do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

8.7

Previso em Modelos ARMA

9 Tcnicas de Amostragem
9.1

. . . . . . . . . . . . . . . . . . . . . . . . . 83
85

Tcnicas de amostragem probabilstica . . . . . . . . . . . . . . . . . . . . 86


9.1.1

Amostragem Aleatria Simples . . . . . . . . . . . . . . . . . . . . 86

9.1.2

AAS com reposio . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

9.1.3

AAS sem reposio . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

9.1.4

Amostragem estratificada . . . . . . . . . . . . . . . . . . . . . . . 89

9.1.5

Amostragem de conglomerados . . . . . . . . . . . . . . . . . . . . 91

9.1.6

Amostragem sistemtica . . . . . . . . . . . . . . . . . . . . . . . . 91

9.2

Tamanho da amostra mnimo . . . . . . . . . . . . . . . . . . . . . . . . . 91

9.3

Erros amostrais e Erros No Amostrais . . . . . . . . . . . . . . . . . . . . 92

Captulo 1
Modelos Probabilsticos Discretos
Inicialmente, considere a terna (, F, P ), onde o espao amostral que representa
o conjunto de possveis resultados para um experimento aleatrio, F a -lgebra que
representa todos os possveis eventos compostos e P a medida de probabilidade que
atribui um valor entre 0 e 1 para cada evento. Uma varivel aleatria (v.a.) X uma
funo do espao amostral na reta <, tal que X 1 (I) = { : X() I} F, para
todo I <.
Suponha que estamos interessados apenas em variveis aleatrias X discretas, ou seja,
somente as v.a. que a variao de X, o espao amostral, contvel. Em situaes mais
comuns, a varivel aleatria assume valores inteiros. Uma funo de probabilidade de
uma v.a. discreta uma funo que atribui probabilidade a cada possvel valor assumido
por X, ou seja,
p(xi ) = P (X = xi ) = P ({ : X() = xi }).
Em palavras, a probabilidade da varivel aleatria X possuir valor xi a probabilidade
do evento descrito por { : X() = xi }, ou seja, a probabilidade dos pontos do
espao amostral nos quais a funo X(), que define a varivel aleatria, tem valor xi .
P
Esta funo satisfaz: (i) 0 p(xi ) 1, para todo i, e (ii) iI p(xi ) = 1, I indica um
certo conjunto de ndices.
Funes de probabilidade so utilizadas para modelar populaes. Geralmente tratamos de famlias de modelos probabilsticos indexadas por um ou mais parmetros, os quais
permitem variar caractersticas do modelo dentro de sua forma funcional. O objetivo deste
tpico apresentar os modelos probabilsticos discretos mais comuns, aplicaes tpicas e
algumas relaes teis, alm disso explorar algumas caractersticas destes modelos, como
1

2
a mdia, a varincia e a funo geradora de momentos (fgm). Inicialmente, considere de
forma geral a definio do momento de ordem k e da funo geradora de momentos para
uma v.a. discreta
E(X k ) =

xki P (X = xi )

e
MX (t) = E(etX ) =

etxi P (X = xi ).

Logo, a esperana e a varincia podem ser obtidas usando


E(X) =

xi P (X = xi )

V ar(X) = E(X 2 ) E(X).

1.1

Distribuio Uniforme Discreta

Uma v.a. X segue uma distribuio uniforme discreta com parmetro N se


P (X = x|N ) =

1
, x = 1, 2, . . . , N.
N

sendo N um especfico valor inteiro. Esta distribuio atribu massa igual em cada um
dos possveis valores 1, 2, . . . , N .
Notao: Observe que a distribuio depende dos valores do parmetro. Para enfatizar
esta dependncia, denotamos na funo de probabilidade por | (dado) os parmetros envolvidos na distribuio. Quando no existe possibilidade de confundimento, esta notao
omitida.
A mdia e varincia de uma v.a. X seguindo distribuio uniforme discreta, denotados
por E(X) e Var(X) respectivamente, so dadas por
N
1 N (N + 1)
1 X
N +1
x=
=
.
E(X) =
xP (X = x|N ) =
N x=1
N
2
2
x=1
N
X

Como

N
X

N
1 X 2 (N + 1)(2N + 1)
E(X ) =
x =
,
x P (X = x|N ) =
N x=1
6
x=1
2

ento
(N + 1)(2N + 1)

Var(X) = E(X ) E(X) =


6
2

N +1
2

2
=

(N + 1)(N 1)
.
12

A funo geradora de momentos de X dada por


N
1 X tx et (1 e(N +1) )
MX (t) = E(e ) =
e =
, t 6= 0.
N x=0
N (1 et )
tX

3
Este modelo no necessariamente precisa assumir x = 1, 2, . . . , N , pode ser redefinido
para qualquer conjunto finito de valores.

1.2

Distribuio Hipergeomtrica

A distribuio hipergeomtrica tem muita aplicao em amostragem de populao


finita. Ela mais facilmente entendida com um clssico exemplo de modelo de urna.
Suponha que temos uma grande urna com N bolas, que so idnticas em sua forma
exceto pelo fato de que M so vermelhas e N M so verdes. Ao retirar K bolas
aleatoriamente da urna, sem reposio. Qual a probabilidade de retirar exatamente x
bolas vermelhas.

N
O total amostrado de K bolas que podem ser retiradas das N bolas como K
.

Ns queremos que x bolas sejam vermelhas, isso pode ser obtido de M
formas, sendo
x

N M
formas de encontrar a amostra com K x bolas verdes. Ento se X denota o
Kx
nmero de bolas vermelhas na amostra de tamanho K, ento X segue uma distribuio
hipergeomtrica dada por
M
x

P (X = x|N, M, K) =

N M
Kx

N
K


, x = 0, 1, . . . , K.

Note que existe implicitamente a suposio da vario de X, X est restrito a M (N K)


x M . Em muitos casos K pequeno se comparado com M e N .
A mdia e varincia de uma v.a. X seguindo distribuio hipergeomtrica so dadas
por
E(X) =

K
X

xP (X = x|N, M, K) =

x=0

N
X
x=1

M
x

N M
Kx

N
K


=

KM
.
N

e
KM
Var(X) =
N

(N M )(N K)
N (N 1)


.

O clculo de E(X) envolve reescrever est esperana em uma distribuio hipergeomtrica com diferentes valores dos parmetros.
A funo geradora de momentos de X dada por



N
M N M
N M
X
F (K, M, N M K + 1, et )


MX (t) = E(etX ) =
= K
etx x NKx
N
x=0

em que
F (a, b, c, x) = 1 +

X
i=0

(a + i)!(b + i)!c!
xi+1 .
i!(a 1)!(b 1)!(c + i)!

4
Exemplo: A distribuio hipergeomtrica tem aplicao em amostragem de aceitao,
como ilustrado neste exemplo. Suponha que um varejista compra produtos em lotes e
cada item pode ser aceitvel ou defeituoso. Seja, N o nmero de item no lote e M o
nmero de itens defeituosos no lote. Ento, ns podemos calcular a probabilidade que
uma amostra de tamanho K contenha x itens defeituosos.
Para ser especfico, suponha tenha 25 itens, sendo que o item considerado aceitvel
apenas se ele passa pela tolerncia. Ao amostrar 10 itens, nenhum item defeituoso foi
encontrado. Qual a probabilidade desse evento, se existem 6 defeituosos no lote de 25
itens? Aplicando a distribuio hipergeomtrica com N = 25, M = 6, K = 10, temos
 
6 19
P (X = 0) =

10

25
10

= 0, 028,

mostrando que nosso evento observado bastante improvvel se exitem 6 itens defeituosos
no lote.

1.3

Distribuio Binomial

A distribuio binomial, uma das mais teis distribuies discretas, est baseada na
ideia de ensaios de Bernoulli. Um ensaio de Bernoulli um experimento com dois, apenas
dois, possveis valores. Uma varivel aleatria X segue uma distribuio de Bernoulli se

1
X=
0

com probabilidade p

, 0 p 1.

com probabilidade (1 p)

O valor X = 1 frequentemente denominado sucesso e p se refere a probabilidade de


sucesso. O valor X = 0 denominado fracasso. A mdia e varincia de uma v.a. B(p)
so
E(X) =

1
X

xP (X = x|p) = 1p + 0(1 p) = p,

x=0

e
2

E(X ) =

1
X

x2 P (X = x|p) = 12 p + 02 (1 p) = p.

x=0

com
Var(X) = E(X 2 ) E(X)2 = p p2 = p(1 p).
Muitos experimentos so modelados como uma sequencia de eventos de Bernoulli. Se
n ensaios de Bernoulli idnticos so realizados, definimos os eventos
Ai = {X = 1 no i-simo ensaio}, i = 1, . . . , n.

5
Se assumirmos que os eventos A1 , A2 , . . . , An so colees de eventos independentes, ento
a distribuio binomial derivada do nmero total de sucessos nos n ensaios. Definimos
a v.a. binomial como sendo Y igual ao total do sucesso em n ensaios de Bernoulli.
O evento {Y = y} ocorrer se apenas, fora dos eventos A1 , A2 , . . . , An , exatamente
y deles ocorrem, e necessariamente n y deles no ocorrem. Uma particular sequncia
A1 A2 Ac3 . . . An1 Acn de n ensaios de Bernoulli fornece a probabilidade de
ocorrncia
P (A1 A2 Ac3 . . . An1 Acn ) = pp(1 p) . . . p(1 p) = py (1 p)ny ,
a independncia dos Ai s foi utilizada no clculo. Note que o clculo no depende de
qual conjunto de Ai s ocorrem, apenas que algum conjunto de y ocorre. Entretanto, o
evento {Y = y} ocorrer independentemente de qual dos Ai s ocorrem. Assim, vemos
que uma particular sequncia de n ensaios com exatamente y sucessos tem probabilidade

py (1 p)ny de ocorrncia. Como existem ny sequncias, temos
 
n y
P (Y = y|n, p) =
p (1 p)ny , y = 0, 1, . . . , n,
y
e Y chamada v.a. Bin(n, p).
Alternativamente Y pode ser definido da seguinte forma: Em uma sequncia idntica
de n, ensaios de Bernoulli independentes, cada ensaio com probabilidade de sucesso p,
definimos a v.a. X1 , X2 , . . . , Xn por

1 com probabilidade p
Xi =
, 0 p 1.
0 com probabilidade (1 p)
P
A v.a. Y = ni=1 Xi segue distribuio binomial com parmetros n e p.
A mdia e varincia de uma v.a. Y seguindo distribuio binomial so dadas por
 
n
n
X
X
n y
E(Y ) =
yP (Y = y|n, p) =
y
p (1 p)ny = np,
y
y=0
y=0
e

n
X

n
X

 
n y
E(Y ) =
y P (Y = y|n, p) =
y
p (1 p)ny = n(n 1)p2 + np
y
y=0
y=0
2

com
Var(Y ) = E(X 2 ) E(X)2 = n(n 1)p2 + np n2 p2 = np(1 p).
A funo geradora de momentos de Y dada por
 
n
n  
X
X
n
tY
ty n
y
ny
MY (t) = E(e ) =
e
p (1 p)
=
(et p)y (1 p)ny = (pet + 1 p)n .
y
y
y=0
y=0

6
Exemplo: Suponha que temos interesse em obter a probabilidade de se obter pelo
menos um 6 em quatro lanamentos de um dado. Este experimento pode ser modelado
como uma sequncia de 4 ensaios de Bernoulli com probabilidade de sucesso p = 1/6
(dado justo). Definimos a v.a. X por X : nmero total de 6 em 4 lanamentos. Ento,
X Bin(4, 1/6) e
   0  4
4
1
5
P (pelo menos um 6) = P (X > 0) = 1 P (X = 0) = 1
= 0, 518.
0
6
6

1.4

Distribuio de Poisson

Uma distribuio discreta amplamente utilizada e pode servir como um modelo para
o nmero de diferentes tipos de experimentos. Por exemplo, se modelamos um fenmeno
no qual temos que esperar por uma ocorrncia (esperar um nibus, esperar por cliente
chegando a um banco), o nmero de ocorrncias pode ser algumas vezes modelado pela
distribuio de poisson. Uma das suposies bsicas na qual a distribuio de poisson
est baseada que, para intervalos pequenos de tempo, a probabilidade de uma chegada
proporcional ao tempo de espera. Isso torna o modelo razovel para situaes como
citada acima.
A distribuio de poisson tem apenas um parmetro , algumas vezes chamado de
parmetro de intensidade. A v.a. X, assumindo valores inteiros no negativos, segue uma
Po() se
e x
P (X = x|) =
.
x!
A mdia e varincia de uma v.a. X seguindo distribuio poisson so dadas por
E(X) =

xP (X = x|) =

x=0

e
2

E(X ) =

X
X
e x
e x 1
x
= e
= ,
x!
(x

1)!
x=0
x=1

x P (X = x|) =

x=0

X
x=0

xx

e x
,
x!

substituindo s = x 1 e x = s + 1, temos
#
"

s
s
s+1
X
X e s X
e

E(X 2 ) =
(s + 1)
=
(s + 1)
=
s
+
= 2 +
s!
s!
s!
s!
x=1
x=1
x=1
x=1

com
Var(X) = E(X 2 ) E(X)2 = 2 + 2 = .

7
Portanto a mdia e varincia da poisson so iguais.
A funo geradora de momentos de X dada por
MX (t) = E(etX ) =

X
x=0

etx

X
(et )x
e x
t
= e
= e(e 1) .
x!
x!
x=0

Exemplo: Como um exemplo uma aplicao de espera para ocorrncia, considere um


telefonista que, na mdia, recebe 5 ligaes a cada 3 minutos. Qual a probabilidade de
no receber ligaes no prximo minuto? Seja X Po(5/3). Ento,
5

5
e 3 35
P (nenhuma ligao no prximo minuto) = P (X = 0) =
= e 3 = 0, 189.
0!

Calcular as probabilidade da distribuio de poisson podem ser rpidas utilizando a


seguinte relao recursiva:
P (X = x) =

P (X = x 1), x = 1, 2, . . . .
x

(1.1)

Uma relao similar vale para outra distribuio discreta. Por exemplo, se Y
Bin(n, p), ento
P (Y = y) =

ny+1 p
P (Y = y 1).
y
1p

(1.2)

As relaes recursivas (1.1) e (1.2) podem ser utilizadas para estabelecer a aproximao
da distribuio poisson a distribuio binomial. Seja = np e, se p pequeno, podemos
escrever
ny+1 p
np p(y 1)

=
,
y
1p
y py
y
ento, para p pequeno p(y1) e py podem ser ignorados. Portanto, para esta aproximao
(1.2) se torna
P (Y = y) =

P (Y = y 1),
y

(1.3)

que uma relao recursiva poisson. Para completar a aproximao, precisamos estabelecer que P (X = 0) P (Y = 0), desde que todas as outras probabilidades seguem de
(1.3). Agora,

n

np n

P (Y = 0) = (1 p) = 1
= 1
e = P (X = 0).
n
n |{z}
n

A aproximao vlida quando n grande e p pequeno.


Exemplo: Um compositor, na mdia, comete um erro a cada 500 palavras. Uma pgina
geralmente contem 300 palavras. Qual a probabilidade de existir no mais de 2 erros em

8
5 pginas? Se assumirmos que cada palavra um ensaio de Bernoulli com probabilidade
de sucesso p = 1/500 e que os ensaios so independentes, ento X: o nmero de erros em
5 pginas uma Bin(1500, 1/500). Ento,

x 
1500x
2 
X
1500
1
499
P (no mais que 2 erros) = P (X 2) =
= 0, 4230.
x
500
500
x=0
Se usamos a aproximao poisson com = 1500(1/500) = 3, temos


32
3
1+3+
P (X 2) e
= 0, 4232.
2

1.5

Distribuio Binomial Negativa

A distribuio binomial conta o nmero de sucesso em um nmero fixo de ensaios de


Bernoulli. Suponha que, ao invs disso, o interesse seja contar o nmero de ensaios de
Bernoulli necessrios para se obter um nmero de sucessos fixo. Est ltima formulao
gera a distribuio binomial negativa.
Em uma sequncia de ensaios de B(p) independentes, seja a v.a. X que denota o
nmero de ensaios at a ocorrncia do r-simo sucesso, sendo r um nmero fixo inteiro.
Ento,


x1 r
P (X = x|r, p) =
p (1 p)xr , x = r, r + 1, . . . ,
r1

(1.4)

e dizemos que X BN(r, p).


A derivao de (1.4) segue diretamente da distribuio binomial. O evento {X = x}
pode ocorre apenas se existir r 1 sucessos nos primeiros x1 ensaios e um sucessos no x r1
simo ensaio. A probabilidade dos r 1 sucessos nos primeiros x 1 ensaios x1
p (1
r1
p)xr , e com probabilidade p existe um sucesso no x-simo ensaio. Multiplicando estas
probabilidades obtemos (1.4).
A distribuio binomial negativa algumas vezes definida em funo da v.a. Y :
nmero de falhas antes do r-simo sucesso. Esta formulao estatisticamente equivalente
dada acima em termos de X: ensaios at a ocorrncia do r-simo sucesso. Ento,
Y = X r. Usando a relao entre Y e X, a forma alternativa da distribuio binomial
negativa


r+y1 r
P (Y = y|r, p) =
p (1 p)y , y = 0, 1, . . . ,
y

(1.5)

9
A mdia e varincia de uma v.a. Y seguindo distribuio binomial negativa so dadas
por




X
r+y1 r
E(Y ) =
yP (Y = y|) =
y
p (1 p)y
y
y=0
y=0



X
X
(r + y 1)! r
r+y1 r
y
=
p (1 p) =
r
p (1 p)y ,
(y 1)!(r 1)!
y1
y=1
y=1
escrevendo z = y 1, temos





X
r+z r
r(1 p) X (r + 1) + z 1 r+1
r(1 p)
z
E(Y ) =
r
p (1p) +1 =
p (1p)z =
.
p
z
p
z
z=1
z=1
De forma simular, podemos obter
Var(Y ) =

r(1 p)
.
p2

Existe uma interessante, e algumas vezes til, reparametrizao da distribuio binomial


negativa em termos de sua mdia. Se definirmos o parmetro = r(1 p)/p, ento
E(Y ) = e V ar(Y ) = + 2 /r.
A famlia de distribuio binomial negativa inclui a distribuio de poisson como um
caso limite. Se r e p 1 tal que r(1 p) , 0 < < , ento
E(Y ) =

r(1 p)

Var(Y ) =

r(1 p)
,
p2

que concorda com a mdia e varincia da distribuio de poisson.


A funo geradora de momentos de X, ver (1.4), dada por



x1 r
MX (t) = E(e ) =
e
p (1 p)xr
r

1
x=r
tX

tx

X
(r + x)!
pr
(pet )r
t r
t x
=
((1

p)e
)
((1

p)e
)
=
.
(1 p)r
x!r!
(1 (1 p)et )r
x=0

Exemplo: A tcnica conhecida como amostra binomial inversa til em amostragem de


populao biolgica. Se a proporo de indivduos que possuem uma dada caracterstica
p e amostramos at obter r indivduos com esta caracterstica, ento o nmero de
indivduos amostrados segue uma distribuio binomial negativa.
Por exemplo, suponha que na populao de moscas de fruta estamos interessados na
proporo de asas vestigiais e decidimos amostrar at encontar 100 moscas. A probabili-

10
dade que tenhamos examinado no mnimo N moscas

N 
X
x 1 100
P (X N ) =
p (1 p)x100
99
x=0

N
1 
X
x 1 100
= 1
p (1 p)x100 .
99
x=100
Para um determinado p e N , podemos avaliar esta expresso para determinar quantas
moscas de frutas so susceptveis.

1.6

Distribuio Geomtrica

A distribuio geomtrica simplesmente uma distribuio de tempo de espera e


um caso especial da distribuio binomial negativa. Seja r = 1 na distribuio binomial
negativa expressa em (1.4)
P (X = x|p) = p(1 p)x1 , x = 1, 2, . . . ,
que define a funo de probabilidade da v.a. X geomtrica com probabilidade de sucesso
p. X pode ser interpretado como o nmero de ensaios at a ocorrncia do primeiro sucesso,
ento temos a espera at o sucesso.
A mdia e varincia de X podem ser obtidos usando as frmulas da distribuio
binomial negativa e escrevendo X = Y + 1 obtemos E(X) = E(Y ) + 1 = 1/p e Var(X) =
(1 p)/p2 .
Tambm podemos obter a funo geradora de momentos de X, usando a frmula
apresentada para distribuio binomial negativa fazendo r = 1, ou seja,
MX (t) = E(etX ) =

pet
.
1 (1 p)et

A distribuio geomtrica tem uma interessante propriedade, conhecida como propriedade de falta de memria. Para inteiros s e t, vale
P (X s + t|X s) = P (X t),

(1.6)

ou seja, se X representasse a espera de um evento, a probabilidade de esperar s + t dias,


dado que o evento no ocorreu antes de s dias, a mesma probabilidade de esperar pelo
menos t dias.

11

P (X s + t e X t)
P (X t)
P (X s + t)
=
= (1 p)t = P (X t).
P (X t)

P (X s + t|X s) =

Exemplo: A distribuio geomtrica algumas vezes utilizada para modelar tempo de


falha de componentes. Por exemplo, se a probabilidade 0,001 que uma lmpada eltrica
falhe em um determinado tempo, ento a probabilidade que ela dure no mnimo 30 dias
P (X > 30) =

0, 001(1 0, 001)x1 = 0, 9993 0 = 0, 970.

x=31

A falta de memria da distribuio geomtrica descreve uma propriedade muito especial de falta de envelhecimento. Indicando que esta distribuio no deve ser considerada
para modelar tempos de falha quando esperado que a probabilidade da falha aumente
com o tempo.

Captulo 2
Modelos Probabilsticos Contnuos
Inicialmente, considere a terna (, F, P ), onde o espao amostral que representa
o conjunto de possveis resultados para um experimento aleatrio, F a -lgebra que
representa todos os possveis eventos compostos e P a medida de probabilidade que
atribui um valor entre 0 e 1 para cada evento. Uma varivel aleatria (v.a.) X uma
funo do espao amostral na reta <, tal que X 1 (I) = { : X() I} F, para
todo I <. Uma funo de distribuio F , ser classificada como contnua, se existir
uma funo no negativa f tal que
Z x
F (x) =
f (w)dw,

para todo x <.

f denominada funo densidade de probabilidade (fdp), e possui duas propriedades


1. f (x) 0 para todo x <.
2. A rea definida por f (x) igual a 1, ou seja,

R +

f (x)dx = 1.

As densidades de probabilidade so utilizadas para modelar populaes. Geralmente


tratamos de famlias de modelos indexadas por um ou mais parmetros, os quais permitem
variar caractersticas do modelo dentro de sua forma funcional. O objetivo deste tpico
apresentar os modelos probabilsticos contnuos mais comuns, aplicaes tpicas e algumas
relaes teis, alm disso explorar algumas caractersticas destes modelos, como a mdia, a
varincia e a funo geradora de momentos (quando julgarmos interessante). Inicialmente,
considere de forma geral a definio do momento de ordem k e da funo geradora de
momentos para uma v.a. contnua
k

xk f (x)dx

E(X ) =

12

13
e
Z

tX

MX (t) = E(e ) =

etx f (x)dx.

Logo, a esperana e a varincia podem ser obtidas usando


Z +
xf (x)dx e V ar(X) = E(X 2 ) E(X).
E(X) =

Estas definies exigem que a integral esteja bem definida.

2.1

Distribuio Uniforme Contnua

A distribuio uniforme contnua definida como uma massa uniformemente espalhada


sobre um intervalo [a, b]. Sua fdp dada por
f (x|a, b) =

1
I[a,b] (x).
ba

Notao: Observe que a distribuio depende dos valores do parmetro. Para enfatizar
esta dependncia, denotamos na funo de probabilidade por | (dado) os parmetros envolvidos na distribuio. Quando no existe possibilidade de confundimento, esta notao
omitida.
A mdia e a varincia de uma v.a. X seguindo distribuio uniforme contnua, denotados por E(X) e Var(X) respectivamente, so dadas por
Z b
Z b
1
b+a
xf (x|a, b)dx =
E(X) =
xdx =
.
ba a
2
a
Como
2

1
x f (x|a, b)dx =
ba
2

E(X ) =
a

x2 dx =

ento
b 3 a3

Var(X) = E(X ) E(X) =


3(b a)
2

b+a
2

b 3 a3
,
3(b a)

2
=

(b a)2
.
12

A funo geradora de momentos de X dada por


Z b tx
e
etb eta
tX
MX (t) = E(e ) =
dx =
, t 6= 0.
t(b a)
a ba
Exemplo: A ocorrncia de panes em qualquer ponto de uma rede telefnica de 7 km
foi modelada por uma distribuio uniforme no intervalo [0, 7]. Qual a probabilidade
de que uma pane venha a ocorrer nos primeiros 800 metros?

14
A funo densidade da distribuio Uniforme dada por f (x) = 71 I[0,7] (x). Assim, a
probabilidade de ocorrer pane nos primeiros 800 metros
Z 0,8
0, 8 0
f (x)dx =
P (X 0, 8) =
= 0, 114.
7
0

2.2

Distribuio Gamma

A distribuio gamma uma das distribuies mais gerais, pois diversas distribuies
so caso particular dela como por exemplo a exponencial, a qui-quadrado, entre outras.
Essa distribuio tem como suas principais aplicaes anlise de tempo de vida de
produtos.
Uma varivel aleatria X segue a distribuio gamma com parmetros e , se sua
funo densidade dada por
f (x|, ) =

1
x1 ex/ I[0,) (x), , > 0.
()

O parmetro conhecido como parmetro de forma, ento exerce maior influncia


no centro da distribuio, enquanto o parmetro chamando de escala, ento exerce
maior influncia na abertura da distribuio.
A mdia e a varincia de uma v.a. X seguindo G(, ) so dadas por
Z
Z
1
1
1 x/
E(X) =
xx e
dx =
x(+1)1 ex/ dx,
() 0
() 0
observe que a integral envolve o ncleo de uma distribuio G( + 1, ), logo
E(X) =

( + 1) +1
() +1
=
= .
()
()

Como
1
E(X ) =
()
2

x2 x1 ex/ dx,

ento analogamente ao clculo de E(X), temos


E(X 2 ) =

( + 2) +2
( + 1)() +2
=
= ( + 1) 2 .

()
()

Var(X) = E(X 2 ) E(X)2 = ( + 1) 2 2 2 = 2 .


A funo geradora de momentos de X dada por
Z
Z


1
1
1
tX
tx 1 x/
1 x t
MX (t) = E(e ) =
e x e
dx =
x e
dx,
() 0
() 0

15
observe que a integral envolve o ncleo de uma distribuio G(, (1/ t)1 ), logo
 


1
1
1
1
MX (t) =

t
=
,
t
<
.
()
()

1 t

Existe uma relao interessante entre a distribuio gamma e a distribuio Poisson.


Se X uma v.a. G(, ), em que um valor inteiro, ento para qualquer x,
P (X x) = P (Y ),
onde Y P (x/). Esta relao pode ser mostrada via integrao por partes.
Exemplo: Suponha uma sequncia de v.as. independentes, seja Xi G(i , ). Qual
P
a distribuio de Y = ki=1 Xi ? Para obter a distribuio da soma de v.as. independentes
podemos utilizar a fgm da distribuio.
!
k
k 
k
 Pk

Y
Y
Y
tXi
t( i=1 Xi )
tXi
=
E(e ) =
MY (t) = E e
=E
e
i=1

i=1

i=1

que a fgm de uma distribuio gamma com parmetros


P
G( ki=1 i , ).

2.2.1

1
1 t

Pk

i=1

i


=

1
1 t

Pki=1 i
,

i e . Logo, Y

Distribuio Qui-quadrado

Existe um nmero de casos especiais da distribuio gamma. Se = p/2, sendo p um


valor inteiro, e = 2, ento a fdp da gamma se torna
f (x|p) =

1
xp/21 ey/2 I[0,) (x),
(p/2)2p/2

que a distribuio qui-quadrado com p graus de liberdade. A mdia, a varincia e a fgm


desta distribuio podem ser obtidas pelas frmulas da distribuio gamma.

p/2
2p
22 p
1
1
E(X) =
= p, Var(X) =
= 2p e MX (t) =
,t < .
2
2
1 2t
2
A distribuio qui-quadrado fornece uma importante regra na inferncia estatstica,
especialmente quando um amostra provem de uma distribuio normal.

2.2.2

Distribuio Exponencial

Outro importante caso especial da distribuio gamma obtido quando = 1, ento


a fdp da gamma se torna
f (x|p) =

1 x/
e
I[0,) (x),

(2.1)

16
que a distribuio exponencial com parmetro . A mdia, a varincia e a fgm desta
distribuio podem ser obtidas pelas frmulas da distribuio gamma.
E(X) = , Var(X) = 2 e MX (t) =

1
1
,t < .
1 t

A distribuio exponencial pode ser utilizada para modelar tempo de vida, anlogo
ao uso da distribuio geomtrica no caso discreto. De fato, a distribuio exponencial
possui a propriedade de falta de memria da geomtrica. Se X Exp(), isto , com fdp
dada em (2.1), ento para s 0, t 0,
P (X s + t|X s) = P (X t),
ento
R 1 x/
e
dx
P (X s + t)
P (X s + t; X s)
t+s
=
= R 1 x/
P (X s + t|X s) =
P (X s)
P (X s)
e
dx
s
=

e(t+s)/
= et/ = P (X t).
es/

Exemplo: O tempo at a falha do ventilador de motores a diesel tem uma distribuio


exponencial com parmetro = 28700 horas. Qual a probabilidade de um destes ventiladores falhar nas primeiras 24000 horas de funcionamento?
Z 24000

1
x 
P (0 X 24000) =
exp
= 0, 567.
28700
28700
0

2.2.3

Distribuio Weibull

Outra distribuio relacionada com a famlia da distribuio gamma, por meio da


distribuio exponencial a distribuio de Weibull. Se X Exp(), ento Y = X 1/
segue uma distribuio Weibull com parmetros e . Podemos obter Y fazendo


d 1
1
f (y|p) = fX (g (y)) g (y)
dy
como
g 1 (y) = y e

d 1
g (y) = y 1 ,
dy

ento
f (y|, ) =

1 y /
y e
I[0,) (y), > 0, > 0.

17
Poderamos partir da distribuio Weibull e considerar = 1 para obter a distribuio
exponencial. A distribuio Weibull muito importante na anlise de tempo de falha,
particularmente muito til para modelar funes de risco.
A mdia e a varincia de uma v.a. Y seguindo Weibull(, ) so dadas por


Z
1 y /
1
1/
,
E(Y ) =
yy e
dy = 1 +
0



Z
2 1 y /
n
2
2/
E(Y ) =
y y e
dy = 1 +
,
0

assim

" 
  
2 #
2
1
Var(Y ) = E(Y 2 ) E(Y )2 = 2/ 1 +
1+
.

A fgm s existe para 1, no sendo muito til.

2.3

Distribuio Normal

A distribuio normal, algumas vezes chamada de distribuio gaussiana, desempenha


um papel central na estatstica. Existem trs principais razes para isso. Primeira, a
distribuio normal e as distribuies associadas a ela so analiticamente tratveis. Segunda, a distribuio normal tem uma forma de sino, que a faz simtrica sendo uma
escolha atraente para modelar muitas populaes. Entretanto existem muitas outras
distribuies com forma de sino, mas que no possuem a tratabilidade analtica da normal. Terceira, existe o Teorema Central do Limite (TCL), que mostra que, sob algumas
condies, a distribuio normal pode ser usada para aproximar uma grande variedade de
distribuies no caso de grandes amostras.
A distribuio normal tm dois parmetros, usualmente denotados por e 2 , que so
sua mdia e varincia. A fdp da distribuio normal com mdia e varincia 2 dada
por
f (x|, 2 ) =

1
2 2

(x)2
2 2

I(,) (x), <, 2 > 0.

Se X N (, 2 ), ento a v.a. Z = (X )/ segue uma distribuio N (0, 1), tambm


conhecida como normal padro.


X
P (Z z) = P
z = P (X z + )

Z z+
Z z
(x)2
t2
1
1
x

2
=
e 2 dx =
e 2 dt, com t =
,
2

2
2

18
mostrando que P (Z z) a fdp da normal padro.
A mdia e a varincia de uma v.a. Z seguindo normal padro so dadas por
Z +
z2
1
E(Z) =
e 2 dz = 0,
2
ento E(X) = E(z + ) = E(z) + = . Similarmente temos que Var(Z) = 1, ento
Var(X) = Var(z + ) = 2 Var(z) = 2 ,
A funo geradora de momentos de Z dada por
1
MZ (t) = E(e ) =
2
tZ

tz z2

e e

t2

e2
dz =
2

(zt)2
2

t2

dz = e 2 .

Assim,
MX (t) = E(etX ) = E(et(Z+) ) = et E(etZ ) = et e

(t)2
2

=e

t2 2
+t
2

Entre os muitos usos da distribuio normal, um importante uso seu a aproximao


de outras distribuies, a qual parcialmente justificada pelo TCL. Por exemplo, se
X Bin(n, p), ento E(X) = np e Var(X) = np(1 p), sob condies razoveis, a
distribuio de X pode ser aproximada uma distribuio normal com mdia = np e
varincia 2 = np(1 p). As condies razoveis, so que n (tamanho da amostra) deve
ser grande e p no dever assumir valores extremos (prximos de 0 ou 1). Queremos n
grande de modo que existam valor o bastante (discreto) de X para fazer a aproximao
para uma distribuio contnua razovel, e p deve ser no meio (no muito longe de 0,5),
ento a distribuio binomial quase simtrica, como a normal. Cada aproximao deve
ser avaliada, uma regra conservadora que a aproximao deve ser boa se min{np, np(1
p)} 5.
Exemplo: Suponha que o peso mdio de 800 porcos de uma certa fazenda de 64kg,
e o desvio padro de 15kg. Suponha que este peso seja distribudo de forma normal,
quantos porcos pesaro entre 42kg e 73kg? Para resolvermos este problema primeiramente
devemos padroniza-lo. Seja Z =

x64
,
15

assim

4264
15

1, 47 e

7364
15

0, 6. Assim, a

probabilidade
P (1, 47 Z 0, 60) = P (Z 0, 60) P (Z 1, 47)
Z 1,47
Z 0,60
1 x2 /2
1
2
e
ex /2 dx
=
dx
2
2

= 0, 7257 0, 4292 = 0, 2965.


Portanto o nmero esperado de porcos entre 42kg e 73kg (800 0, 2965) 237.

19

2.3.1

Distribuio log-Normal

Se X uma v.a. tal que o logaritmo normalmente distribudo (log X N (, 2 )),


ento X segue uma distribuio log-normal. A distribuio de X pode ser obtida via
transformao da distribuio normal e dada por
f (x| 2 ) =

2
1 1 (log x)
2 2
e
I[0,) (x), <, 2 > 0.
2 x

A mdia e a varincia de uma v.a. X seguindo log-normal podem ser obtidas usando
os resultados da distribuio normal
E(X) = E(elog X ) = E(eY ) = e+

2 /2

e E(X 2 ) = E((elog X )2 ) = E(eY ) = e2(+

2)

sendo Y N (, 2 ), o resultado direto via fgm. Logo,


2

Var(X) = E(X 2 ) E(X)2 = e2(+ ) e2+ .


A funo geradora de momentos de uma v.a. com distribuio log-normal no existe.
A distribuio log-normal similar em aparncia a distribuio gamma. A distribuio
muito popular para modelar aplicaes quando a varivel de interesse assimtrica a
direita, e modelar com a log-normal permite o uso da teoria da distribuio normal em
log.

2.4

Distribuio Beta

A famlia de distribuies beta uma famlia contnua no intervalos (0, 1) indexada


por dois parmetros e . A fdp de uma v.a X Beta(, ) dada por

f (x|, ) =
sendo B(a, b) =

R1
0

1
x1 (1 x)1 I(0,1) (x), > 0, > 0,
B(, )

x1 x1 dx denota a funo beta. A funo beta est relacionada com

a funo gamma pela identidade


B(a, b) =

(a)(b)
.
(a + b)

A distribuio beta frequentemente considerada para modelar propores, as quais


esto naturalmente no intervalo (0,1).

20
A mdia e a varincia de uma v.a. X seguindo beta, so dadas por
Z 1
Z 1
1
1
1
1
E(X) =
xx (1 x) dx =
x(+1)1 (1 x)1 dx,
B(, ) 0
B(, ) 0
obserque que o ncleo da integral uma distribuio beta com parmetros + 1 e .
Logo,
E(X) =

B( + 1, )
( + ) ( + 1)()

=
=
.
B(, )
()() ( + + 1)
+

Analogamente a E(X),
E(X 2 ) =

( + 1)
B( + 2, )
=
.
B(, )
( + + 1)( + )

ento
( + 1)
Var(X) = E(X ) E(X) =

( + + 1)( + )
2

2
=

.
( + + 1)( + )2

A funo geradora de momentos da distribuio beta complicada e envolve a chamada


funo hipergeomtrica confluente a qual soluo de uma equao diferencial chamada
equao diferencial hipergeomtrica confluente, tambm conhecida como funo de Whittaker.
A variao nos parmetros e fornecem muitas formas para esta distribuio. A
fdp pode ser estritamente crescente ( > 1 e = 1), estritamente decrescente ( = 1 e
> 1), forma de U ( < 1 e < 1), ou unimodal ( > 1 e > 1). Nos casos em que
= a distribuio beta simtrica em 0,5, com mdia 0,5 e varincia (4(2 + 1))1 . Se
= = 1, a distribuio beta reduz-se a distribuio uniforme contnua com parmetros
a = 0 e b = 1.

2.5

Distribuio F de Snedecor

A distribuio F de Snedecor tambm conhecida como distribuio de Fisher frequentemente utilizada na inferncia estatstica para anlise da varincia. Uma varivel
aleatria X tem distribuio F de Snedecor com n graus de liberdade no numerador e m
graus de liberdade no denominador se sua fdp definida por

f (x|n, m) =

((m + n)/2)(m/n)m/2 x(m/2)1


I[0,) (x), n, m N .
(m/2)(n/2)((m/n)x + 1)(m+n)/2

A distribuio beta est relacionada com a distribuio F, por meio de uma transformao. Se X Fp,q , ento (p/q)X/(1 + (p/q)X) Beta(p/2, q/2).

21
A mdia e a varincia de uma v.a. X seguindo F, so dadas por

2
m
n+m2
m
, m > 2, e Var(X) = 2
, m > 4.
E(X) =
m2
m2
n(m 4)
A fgm da distribuio F no existe.

2.5.1

Distribuio t-Student

Se tomarmos n = 1 na distribuio F, ento a v.a X segue um distribuio de t-Sudent


com m graus de liberdade. A distribuio t-Student comumente usada em inferncia
quando queremos fazer um teste de hiptese o qual queremos testar se o nosso conjunto
segue uma distribuio normal com varincia desconhecida. A fdp for dada por
((m + 1)/2)
f (x|m) =
m(m/2)

x2
1+
m

(m+1)/2
I(,+) (x), m N .

A curva da distribuio t-Student tem a mesma forma em sino da distribuio normal,


mas reflete uma maior variabilidade (com curvas mais alargadas) que esperado em
amostras pequenas. Quanto maior a dimenso da amostra, mais a distribuio t-Student
se aproxima da distribuio normal.
A distribuio t-Student est relacionada com a distribuio qui-quadrado (deno
tada por 2 ) por meio de uma transformao. Se Y 21 e X 2m , ento W =
p
Y ( X/m)1 tm .
A mdia e a varincia de uma v.a. X seguindo t-Student, so dadas por
E(X) = 0, m > 1, e Var(X) =

m
, m > 2.
m2

A funo geradora de momento da t de Student no est definida.

Captulo 3
Estimao Intervalar
Uma importante classe de mtodos inferenciais so os estimadores intervalares. Como
o nome sugere um estimador intervalar fornece uma gama de valores possveis para o
parmetro desconhecido, em vez de um nico ponto (estimador pontual). Estimativas
intervalares so amplamente utilizadas, porm frequentemente mal interpretadas. O interesse deste resumo apresentar duas formas de construo de estimadores intervalares,
via funo pivotal e inverso da estatstica de teste, e uma mtrica para avaliar estes
estimadores intervalares, via probabilidade de cobertura e comprimento do intervalo.
Lembre-se que um estimador pontual uma funo da amostra. Por definio, um
estimador pontual uma varivel aleatria. Quando substitumos a amostra observada, o
resultado uma estimativa, ou seja, apenas um nmero. A situao para os estimadores
intervalares completamente anloga. Um estimador intervalar um intervalo aleatrio,
os limites do intervalo so estatsticas. Quando substitumos a amostra observada obtemos
uma estimativa intervalar.
Suponha que temos Y um amostra parametrizada por .
Seja U1 = h1 (Y ) e U2 = h2 (Y ) estatsticas amostrais com U1 U2 , ento [U1 , U2 ]
um estimador intervalar para .
Seja u1 = h1 (y) e u2 = h2 (y) valores observados da estatsticas amostral U1 e U2 ,
ento [u1 , u2 ] uma estimativa intervalar para .
Podemos interpretar o intervalo de confiana como um intervalo que contm os valores
plausveis que o parmetro pode assumir. Assim, a amplitude do intervalo est associada a incerteza que temos a respeito do parmetro. Geralmente temos interesse em um
22

23
estimador intervalar com coeficiente de confiana (1 ), isso significa que o intervalo
deve oferecer 100(1 )% de confiana. Por exemplo, se = 0, 05, ento o estimador
intervalar resultante muitas vezes chamado de intervalo de confiana de 95%. Neste
contexto, o coeficiente de confiana (expresso em percentagem) muitas vezes referido
como o nvel de confiana.
importante compreender que um intervalo de confiana pode ser visto como um caso
especial de um conjunto de confiana. Conjuntos de confiana so teis em dois contextos:
(i) se no h certeza de que o resultado do procedimento um intervalo, e (ii) se temos
um vetor de parmetros, caso em que resulta em uma regio de confiana.
Tendo em conta que h um nmero (infinito) de intervalos que so estimadores intervalares vlidos, preciso criar mecanismos para decidir como obter um estimador intervalar bom.

3.1

Probabilidade de Cobertura e Comprimento

Um estimador intervalar bom deve ter uma alta probabilidade de conter o verdadeiro
valor do parmetro. Se este fosse o nico critrio de interesse, sempre escolheramos o
intervalo (, +), pois este cobre o verdadeiro valor com probabilidade 1. Claramente,
o intervalo (, +) no fornece nenhuma informao til sobre valores plausveis do
parmetro. Na escolha de um estimador intervalar, existe uma compensao entre a probabilidade de abranger o valor verdadeiro e o comprimento do intervalo, gostaramos que
a probabilidade de cobertura fosse alta e o comprimento pequeno. Como a probabilidade
de cobrir o verdadeiro valor pode depender do parmetro, fazemos a distino entre a
probabilidade de cobertura e o coeficiente de confiana.
(Probabilidade de cobertura) Para um estimador intervalar [U1 , U2 ] para , a probabilidade de cobertura a probabilidade que o estimador intervalar cubra , isto
, P (U1 U2 ).
(Coeficiente de confiana) Para um estimador intervalar [U1 , U2 ] para , o coeficiente
de confiana o nfimo sobre da probabilidade de cobertura, isto , inf P (U1
U2 ).

24
importante ficar claro que em P (U1 U2 ) envolve as variveis aleatrias U1 e
U2 . Ento,
P (U1 U2 ) = P ((U1 ) (U2 )) = 1 P (U1 > ) P (U2 < ),
como U1 U2 implica em U1 > e U2 < so eventos disjuntos.
Em geral, o comprimento do intervalo de confiana uma varivel aleatria. Uma
possvel medida da largura de um intervalo o comprimento esperado. Considere um
estimador intervalar [U1 , U2 ]. O comprimento esperado do intervalo definido como
E(U2 U1 ).
Uma caracterstica desejvel de um estimador intervalar que a probabilidade de
cobertura seja alta para todos os valores de . O coeficiente de confiana representa o
pior cenrio possvel, por definio, para qualquer valor de , a probabilidade de cobertura
ser pelo menos to grande como o coeficiente de confiana.
Para ilustrar a avaliao de vrios estimadores para uma mesma situao considere o
seguinte exemplo. Suponha que temos um amostra aleatria de uma populao N (, 1).
O interesse so estimadores intervalares para a . Seja, k1 e k2 constantes finitas no
negativas. Quais quer um dos estimadores intervalares so vlidos para :
a) [k1 , k2 ],
b) [Y1 k1 , Y1 + k2 ],
c) [Y k1 , Y + k2 ].
Todos os intervalos descritos neste exemplo tm o mesmo comprimento, k1 + k2 . Ento,
devemos avaliar a probabilidade de cobertura e coeficiente de confiana associados a cada
um destes intervalos.
a) [k1 , k2 ] - o primeiro intervalo no depende da amostra. Duas situaes so possveis: (i) se a mdia verdadeira, ento [k1 , k2 ] ou
/ [k1 , k2 ]. Se
[k1 , k2 ] a probabilidade de cobertura 1, caso contrrio zero. Assim, o coeficiente de confiana para este intervalo 0.
b) [Y1 k1 , Y1 + k2 ], podemos trabalhar diretamente com a probabilidade de cobertura
usando o fato de que Y1 N (, 1)
P (Y1 k1 Y1 + k2 ) = 1 P (Y1 k1 > ) P (Y1 + k2 < )
= P (Z k1 ) + P (Z k2 ) 1, Z N (0, 1).

25
Esta probabilidade de cobertura no depende de . Ento, o coeficiente de confiana
tambm P (Z k1 ) + P (Z k2 ) 1.

c) [Y k1 , Y + k2 ] - usando o fato n(Y ) N (0, 1), de forma similar ao caso (b),


podemos mostrar que a probabilidade de cobertura .
P (Y k1 Y + k2 ) = P (Z

nk1 ) + P (Z

Como no caso (b), o coeficiente de confiana P (Z

nk2 ) 1.

nk1 ) + P (Z

nk2 ) 1.

claro que o primeiro intervalo, com coeficiente de confiana zero, no interessante.


Nos casos (b) e (c), se k1 positivo e P (Z z) uma funo no decrescente, temos que

nk1 k1 , ento P (Z nk1 ) P (Z k1 ), para todo n 1 (similar para k2 ). Assim


conclumos que
P (Z

nk1 ) + P (Z

nk2 ) 1 P (Z k1 ) + P (Z k2 ) 1, n 1.

Ento, o coeficiente de confiana do intervalo em (c) maior que em (b). Se tivssemos


de escolher entre esses intervalos usaramos [Y k1 , Y + k2 ]. Note que isso consistente
com o princpio de suficincia, pois Y suficiente para .
No exemplo anterior, foram considerados trs intervalos de igual comprimento e comparados os coeficientes de confiana. Na prtica, a abordagem usual o contrrio, ns
fixamos o nvel desejado de confiana e tentamos encontrar o menor intervalo correspondente. O exemplo a seguir ilustra.
Suponha que temos uma amostra aleatria de uma populao N (, 1), e temos interesse em um estimador intervalar para com coeficiente de confiana (1 ). Um bom

lugar para comear com a funo de piv n(Y ). Sabemos que n(Y ) N (0, 1),
ento, se = 1 + 2 ,
P (z1

n(Y ) z2 ) = 1 1 2 = 1 .

com z o -quantil da distribuio normal padro. Por rearranjo, e utilizando o facto de


que z(1) = z , obtemos


1
1

Y z(12 ) , Y + z(11 ) ,
n
n
um estimador intervalar para com coeficiente de confiana (1 ). O comprimento

deste intervalo 1/ n(z(11 ) + z(12 ) ).

26
Se 1 ou 2 for zero, o comprimento de intervalo infinito. Suponha que = 0, 05, isto
, queremos um intervalo de confiana de 95% para . Podemos utilizar vrios possveis
valores para 1 e 2 de forma a satisfazer a confiana desejada, porm o menor intervalo
obtido se 1 = 2 . Isto ilustra um resultado geral que coincide com a nossa intuio, para
um dado coeficiente de confiana, os intervalos de confiana mais curtos para a populao
mdia de uma distribuio normal ser simtrica em relao a mdia da amostra.

3.2

Funes Pivotais

Como j vimos no exemplo anterior uma funo essencial, se Y uma amostra aleatria

de uma populao N (, 1) e Y a mdia amostral, ento n(Y ) uma funo de Y

e cuja distribuio no depende de . De fato, n(Y ) N (0, 1).


Funes pivotais desempenham um papel fundamental para a construo de intervalos
de confiana. Comeamos com uma definio mais formal.
Considere uma amostra Y e um parmetro escalar . Seja g(Y , ) uma funo de Y e
que no envolve qualquer parmetro desconhecido diferente de . Dizemos que g(Y , )
uma funo pivotal se sua distribuio no depende de .
Note que a funo pivotal uma varivel aleatria, diz W = g(Y , ). Por definio, a
distribuio de W no depende de .
Funes pivotais fornecem um mecanismo simples para construir estimadores intervalares para um dado coeficiente de confiana. Suponha que queremos um estimador
intervalar para com coeficiente de confiana (1 ). Podem utilizar o seguinte procedimento.
1. Encontrar a funo pivotal de g(Y , ).
2. Usar a distribuio da funo pivotal para encontrar os valores w1 e w2 , tal que,
P (w1 W w2 ) = 1 .
3. Manipular as desigualdade W > w1 e W < w2 fazer depender de . Produzindo
desigualdade da forma h1 (W, w1 , w2 ) e h2 (W, w1 , w2 ), para alguma funo
h1 e h2 .
4. Podemos, agora, fornecer [h1 (W, w1 , w2 ), h2 (W, w1 , w2 )] como um estimador intervalar para com coeficiente de confiana (1). [Note-se que os limites do intervalo

27
so normalmente uma funo de um dos w1 e w2 apenas.]
A seguir apresentamos dois exemplos de estimadores intervalares obtidos via quantidades pivotal.
Exemplo: Considere uma amostra aleatria Y de tamanho n de uma populao
N (, 2 ). A distribuio de Y pode ser obtida fazendo
E(n

n
X

Yi ) = n

i=1

Var(n1

n
X

n
X

E(Yi ) = n1 n =

i=1

Yi ) = n2

n
X

V ar(Yi ) = n2 n 2 = n1 2 ,

i=1

i=1

Logo, Y N (, 2 /n), ento

Y
p
N (0, 1).
2 /n

Entretanto, esta funo no uma quantidade pivotal para , pois a funo envolve um
parmetro desconhecido, 2 . Suponha que substitumos 2 por seu estimador, a varincia
amostral, S 2 . Lembrando que
(n 1)S 2
2n1 .
2
Por definio a distribuio t-Student dada por
,r
S2
Y
p
tn1 .
2
2 /n
Com algum rearranjo conclumos,
Y
p
tn1 .
S 2 /n
Esta uma funo pivotal para , pois S 2 uma funo de Y e a distribuio, tn1 , no
dependem do valor de .
Ao explorar a funo pivotal que acabamos de derivar podemos obter um estimador
intervalar para com coeficiente de confiana (1 ). Se usarmos tn1, , para denotar o
-quantil de uma distribuio tn1 , ento
P

tn1,/2

Y
p
tn1,1/2
S 2 /n

!
= 1 ,

que fornece
h

i
p
p
2
2

S /ntn1,1/2 , Y + S /ntn1,1/2 ,

usando que tn1,/2 = tn1,1/2 , devido a simetria da distribuio t.

28
Exemplo: Suponha que Y uma amostra aleatria com tamanho n de uma populao
Exp(). O interesse construir um estimador intervalar para o parmetro . Sabemos que
E(Y ) = 1, ento iremos considerar Y como uma potencial escolha da funo pivotal.
P
De fato, pode ser mostrado que, se W = ni=1 Yi , ento W uma quantidade pivotal.
Note que a definio de W no envolve outro parmetro alm de . Como Y Exp(),
a funo geradora de momentos de Y , MY (t) = (1 t/)1 . A funo geradora de
momentos de W ,
MW (t) = E(etW ) = E(et

Pn

i=1

Yi

) = {E(etY )}n = {MY (t)}n = (1 t)n .

(3.1)

A distribuio de uma varivel aleatria completamente caracterizado pela sua funo


geradora momento. medida que a funo geradora de momentos de W no depende de
, conclui-se que a distribuio de W no depende de e, portanto, W pivotal.
Para poder usar W na construo dos estimadores intervalares, precisamos da forma
paramtrica da distribuio de W . Novamente vamos usar funes geradoras de momentos. Se V 2k , ento MV (t) = (1 2t)k/2 . Comparando com a funo geradora de
momentos obtida em (3.1), temos que 2W 22n .
Construo de um estimador intervalar usando a distribuio de 2W dada por
!
n
X
2
2
P 2n,/2 2
Yi 2n,1/2 = 1 ,
i=1

sendo 2k, o -quantil de uma distribuio qui-quadrado com k graus de liberdade. Portanto,
"

#
22n,/2 22n,1/2
P
, P
,
2 ni=1 Yi 2 ni=1 Yi

um estimador intervalar para com coeficiente de confiana de (1 ). Observe que


optamos por usar os quantis /2 e (1/2); esta escolha arbitrria. Como a distribuio
qui-quadrado no simtrica, no bvio que esta a escolha ideal.
Considere um outro exemplo de quantidade pivotal utilizando a teoria assinttica.
Exemplo: Suponha que o estimador de mxima verossimilhana de um parmetro
escalar . Sabemos que, em condies de regularidade leves,
D N (, IY ()1 ),
e que, para n grande,
p
IY ()1 ( ) N (0, 1).

29
p
Como IY ()1 ( ) converge para uma distribuio que no depende de , dizemos
p
que, IY ()1 ( ) assintoticamente pivotal para .

3.3

Inverso da estatstica de teste

Existe uma correspondncia forte entre o estimador intervalar e o teste de hipteses.


De fato, podemos dizer em geral que todo conjunto de confiana corresponde a um teste
e vice versa. A est, talvez, mais facilmente visto que ambos os testes e intervalos devem
fazer a mesma pergunta, mas sutilmente de diferentes perspectivas. Ambos os procedimentos olham a consistncia entre a estatstica amostral e o parmetro populacional. O
teste de hiptese fixa o parmetro e pergunta que valores amostrais (a regio de aceitao)
so consistentes com aquele valor fixado. O conjunto de confiana fixa o valor amostral
e pergunta que valores do parmetro (o intervalo de confiana) fazem esta amostra mais
plausvel.
A correspondncia entre regio de aceitao de testes e conjuntos de confiana so
vlidos em geral.
Teorema: Para cada 0 , seja A(0 ) a regio de aceitao de um teste de nvel
com H0 : = 0 . Para cada x X , definimos um conjunto C(x) no espao paramtrico
por C(x) = {0 : x A(0 )}. Ento o conjunto aleatrio C(X) um conjunto de
confiana (1 ). Reversamente, seja C(X) um conjunto de confiana (1 ). Para
qualquer 0 A(0 ) = {x : 0 C(x)}.
Na prtica, quando construmos um conjunto de confiana via inverso de teste, temos
um mente uma hiptese alternativa, tal como H1 : 6= 0 ou H1 : > 0 . A alternativa
dita a forma de A(0 ), ento razovel que A(0 ) determina a forma de C(x). Note que
usamos o termo conjunto e no intervalo, porque no podemos garantir que o conjunto
de confiana obtido pela inverso do teste um intervalo.
As propriedade da inverso de teste so mantidas para o conjunto de confiana. Por
exemplo, testes no viciados, quando invertidos, produzem conjuntos de confiana no viciados. Tambm, e mais importante, podemos dar ateno a estatstica suficiente quando
olhamos para um bom teste, e segue que podemos dar ateno a estatstica suficiente
quando olhamos para um bom conjunto de confiana.
A regio obtida pela inverso de um teste de razo de verossimilhana de H0 : = 0

30
contra H1 : 6= 0 da seguinte forma
aceita H0 se

L(0 |x)
k (0 )

L(|x)

que resulta em um regio de confiana

{ : L(|x) k (0 )L(|x)},
para alguma funo k que retorne confiana (1 ), sendo L(|x) a funo de verossimilhana dos dados observados e o estimador de mxima verossimilhana do parmetro
escalar .
A seguir iremos exemplificar a inverso da regio de aceitao para obter um conjunto
de confiana via inverso do teste de razo de verossimilhanas.
Exemplo: Suponha que temos interesse em um conjunto de confiana para de uma
distribuio Exp(). Podemos obter um intervalo pela inverso de um teste de nvel de
H0 : = 0 contra H0 : 6= 0 .
Se temos um amostra aleatria X de tamanho n a estatstica da razo de verossimilhana dada por
Pn

Pn

i=1 xi /0
i=1 xi /0
n
n
0 e
0 e
Pn
P
=
=
( ni=1 xi /n)n en
sup n e i=1 xi /

 Pn

i=1

xi

n

n0

en e

Pn

i=1

xi /0

Para um 0 fixo, a regio de aceitao dada por


n P

 Pn
n
x
/

i=1 xi
0
i
e i=1
k ,
A(0 ) = x :
n0
sendo k um constante escolhida para satisfazer P0 (X A(0 )) = 1 (a constante en
foi absorvida por k ). Esse um conjunto no espao amostral. A inverso desta regio
de aceitao fornece um conjunto de confiana (1 )
n P

  Pn
n
x
/

i=1 xi
i
e i=1
k .
C(x) = :
n
P
A expresso definindo C(x) depende apenas de x por meio de ni=1 xi . Ento o intervalo
de confiana pode ser expresso na forma
! (
)
n
n
n
X
X
X
C
xi = : h1 (
xi ) h2 (
xi ) ,
i=1

i=1

i=1

sendo que h1 e h2 so funes determinadas por restries no conjunto A(0 ) fornecendo


probabilidade (1 ) e
n P
 Pn
n P
 Pn
P
Pn
n
xi
xi
n
xi /h1 ( n
xi )
i=1
i=1
i=1
i=1
Pn
Pn
e
=
e i=1 xi /h2 ( i=1 xi ) .
h1 ( i=1 xi )
h2 ( i=1 xi )

31
Se fizermos

Pn
Pn
xi
xi
i=1
Pn
Pi=1
=ae
=b
n
h1 ( i=1 xi )
h2 ( i=1 xi )

sendo a > b constantes, ento


an ea = bn eb
que pode ser resolvido numericamente.
Exemplo: Seja X uma amostra aleatria de uma populao N (, 2 ). O interesse
construir um limite superior para com confiana superior a (1 ). Isto , queremos
um conjunto de confiana da forma C(x) = (, h2 (x)]. Para obter um intervalo,
devemos inverter um teste unilateral de H0 : = 0 contra H1 : < 0 . (Lembre-se que
usamos H1 para determinar a forma de do intervalo de confiana, neste caso H1 especifica
grandes valores de 0 , ento o conjunto de confiana contm pequenos valores, valores
menores que o limite. Ento, daremos um limite confiana superior.) O teste da razo de
verossimilhana de tamanho de H0 e H1 rejeita H0 se
0
X
< tn1, .
S/ n
Ento a regio de aceitao para este teste
1
A(0 ) = {x : x 0 tn1, s n }

e x A(0 ) x + tn1, S/ n 0 . Assim, definimos




s
C(x) = {0 : x A(0 )} = 0 : x + tn1, 0 .
n
+ tn1, S/n] um conjunto de
Pelo teorema, o conjunto aleatrio C(X) = (, X
confiana (1 ). Vimos que iverter um teste unilateral fornece um intervalo de confiana
unilateral.

Captulo 4
Teste de Hipteses
No processo inferencial normalmente so obtidos os estimadores dos parmetros, porm
tambm comum ter interesse em avaliar suposies sobre a populao em estudo, ou
seja, avaliar hipteses. O objetivo do teste de hiptese decidir, baseado na amostra da
populao, qual das duas hipteses complementares verdadeira. Quando se pretende
testar o valor de um determinado parmetro a verificao da suposio feita por um
teste paramtrico; quando se pretende testar a natureza de uma populao a verificao
da suposio feita por um teste no paramtrico ou teste de aderncia. O interesse deste
resumo apresentar uma forma de construo de teste de hipteses paramtricos e uma
forma de avaliar testes de hipteses paramtricos.
Na notao usual chamamos de H0 a hiptese nula, a hiptese estatstica a ser testada
e por H1 a hiptese alternativa, que geralmente representa a conjectura que se pretende
provar. Se denota o parmetro populacional, o formato geral de uma hiptese nula e
alternativa H0 : 0 contra H1 : c0 , sendo 0 algum subconjuto do espao
paramtrico e c0 seu complementar. Por exemplo, se denota a mudana mdia na
presso sangunea dos pacientes aps um determinado tratamento, um analista deve ter
interesse em testar se H0 : = 0 contra H1 : 6= 0.
Em um problema de teste de hiptese, usual recorrer a uma amostra aleatria da
populao, e com base na informao contida nessa amostra decidir se a hiptese nula
verdadeira ou falsa, com uma certa probabilidade associada. A no rejeio de uma
hiptese estatstica resultado de insuficiente evidncia para a rejeitar e no implica
necessariamente que ela verdadeira.
Um procedimento de teste de hipteses uma regra que especifica:

32

33
a) Para quais valores amostrais a deciso implica em aceitar H0 como verdadeiro.
b) Para quais valores amostrais H0 rejeitado e H1 aceita como verdade.
O subconjuto do espao amostral para qual H0 rejeitado chamado regio de rejeio
ou regio crtica. O complementar da regio de rejeio chamado de regio de aceitao.
Tipicamente, um teste de hiptese especificado em termos de uma estatstica de
teste W (X), uma funo da amostra. Por exemplo, um teste deve especificar que H0
a mdia amostral, maior que 3. Neste caso, W (X) = X
a estatstica
rejeitada se X,
de teste e a regio de rejeio {x : x > 3}.

4.1

Teste da Razo de Verossimilhana

O teste da razo de verossimilhana (TRV) um mtodo muito geral para construo


de teste de hipteses, quase sempre utilizado e timo em alguns casos. Este mtodo
est relacionado com o estimador de mxima verossimilhana. Lembrando que se X
uma amostra aleatria de tamanho n de uma populao com fdp ou fp f (x|) ( pode ser
um vetor), a funo de verossimilhana definida como
L(|x) = f (x|) =

n
Y

f (xi |).

i=1

Seja o espao paramtrico completo. O TRV para testar H0 : 0 contra


H1 : c0
(x) =

sup 0 L(|x)
.
sup L(|x)

Um TRV qualquer teste que tem um regio de rejeio da forma {x : (x) c,


sendo c qualquer nmero satisfazendo 0 c 1.
O TRV pode ser mais facilmente entendido na situao em que f (x|) discreto, pois o
numerador de (x) a probabilidade mxima da amostra observada sobre os parmetros
na hiptese nula. O denominador de (x) a probabilidade mxima da amostra observada
sobre todos os valores possveis dos parmetros. A razo pequena se existe pontos na
hiptese alternativa para quais a amostra observada muito mais provvel que para
qualquer valor dos parmetros na hiptese nula. Nesta situao, o critrio de TRV diz
que devemos rejeitar H0 e aceitar H1 como verdade.
A seguir apresentamos um exemplo da construo do TRV.

34
Exemplo: Seja X uma amostra aleatria de tamanho n de uma populao com fdp
dada por
f (x|) = e(x) I[,+) (x).
A funo de verossimilhana
L(|x) = e

Pn

i=1

xi +n

I(,x(1) ] (),

x(1) = min xi .
i

Considere testar H0 : 0 contra H1 : > 0 , sendo 0 um valor especificado pelo


pesquisador. L(|x) uma funo crescente de em x(1) , ento o denominador
de (x), o mximo irrestrito de L(|x), L(x(1) |x) = e

Pn

i=1

xi +nx(1)

Se x(1) 0 , o numerador de (x) tambm L(x(1) |x). Mas, estamos maximizando


sob 0 , o numerador de (x) L(0 |x) se x(1) 0 . Portanto, a estatstica de TRV

1
se x(1) 0
.
(x) =
en(x(1) 0 ) se x >
(1)

Se T (X) uma estatstica suficiente para com fdp g(t|) ento podemos construir
o TRV baseado em T , a funo de verossimilhana L (|t) = g(t|) em vez da amostra
X e sua funo de verossimilhana L(|x). Seja (t) a estatstica de TRV baseado em
T . Dada uma noo intuitiva que toda informao sobre em x est contida em T (x),
o teste baseado em T deve ser to bom quanto o teste baseado na amostra completa X.
De fato, os testes so equivalentes.
Se T (X) uma estatstica suficiente para e (t) e (x) so as estatsticas baseado
em T e X, respectivamente, ento, (T (x)) = (x) para todo x no espao amostral.
A demostrao deste resultado imediada ao aplicar o teorema da fatorao em f (x|).
A seguir consideramos um exemplo de TRV via estatstica suficiente.
Exemplo: Seja X uma amostra aleatria de tamanho n de uma populao N (, 1).
Considere testar H0 : = 0 contra H1 : 6= 0 . Sendo 0 um nmero fixado pelo
uma estatstica suficiente para .
pesquisador antes do experimento. Sabemos que X
para construir o TRV.
Devemos usar a funo de verossimilhana associada a T (X) = X
N (, 1/n), ento
Como X
(2)1/2 (n)1/2 exp{(
x 0 )2 /(2n)}
(2)1/2 (n)1/2 exp{(
x x)2 /(2n)}


2
= exp (
x 0 ) /(2n) .

(t) =

0 |.
Assim, o TRV um teste que rejeita H0 para valores grande de |X

35

4.2

Probabilidade de erro e Funo poder

O resultado de um teste de hipteses a confirmao ou no da suposio inicial,


rejeitando ou no a hiptese nula. Em ambos os casos podemos cometer erro, logo uma
das principais preocupaes na construo dos testes de hipteses procurar minimizar
estes erros.
Um teste de hipteses de H0 : 0 contra H1 : c0 pode cometer dois tipos
de erro. O erro do tipo I, se 0 mas o teste de hiptese incorretamente decide por
rejeitar H0 , e o erro do tipo II, se c0 mas o teste decide por aceitar H0 .
Suponha que R denota a regio de rejeio de um teste. Ento para 0 a probabilidade do erro do tipo I P (X R). Para c0 , a probabilidade do erro do tipo II
P (X Rc ) = 1 P (X R). Esta considerao leva a seguinte definio.
A funo poder de um teste de hipteses com regio de rejeio R a funo de
definida por () = P (X R).
A funo poder ideal zero para todo 0 e um para todo c0 . Exceto em
situaes triviais, isso no pode ser obtido. Desta forma, um bom teste tem funo poder
prxima de um para a maioria dos valores de c0 e prxima de zero para a maioria
dos valores de 0 .
Exemplo: Seja X Bin(5, ). Considere testar H0 : 0, 5 contra H1 : > 0, 5.
Considere primeiro o teste que rejeita H0 se e somente se todas as observaes so sucesso.
A funo poder deste teste
1 () = P (X R) = P (X = 5) = 5 .
Analisando a funo gerada por 1 (), podemos decidir que embora a probabilidade do
erro do tipo I seja aceitavelmente baixa (1 () 0, 55 = 0, 0312) para todo 0, 5, a
probabilidade do erro do tipo II alta (1 () tambm pequena) para > 0, 5.
A probabilidade do erro do tipo II menor que 0,5 apenas se > 0, 51/5 = 0, 87. Para
alcanar menor erro do tipo II podemos considerar um teste que rejeita H0 se X = 3, 4
ou 5. A funo poder para este teste
 
 
 
5 4
5 5
5 3
(1 )0.
2 () = P (X = 3, 4 ou 5) =
(1 )2 +
(1 )1 +
4
5
3
A funo poder 2 () fornece um erro do tipo II menor para > 0, 5, porm o erro do
tipo I maior que em 1 (). Para decidir entre estes dois testes o pesquisador precisa
optar pela estrutura de erro mais aceitvel 1 () ou 2 ().

36
Exemplo: Seja X uma amostra aleatria de tamanho n de uma populao N (, 2 ),
com 2 conhecido. Um TRV para testar H0 : 0 contra H1 : > 0 um teste que
0
X
rejeita H0 se
> c. A constante c pode ser qualquer nmero positivo. A funo poder
/n

deste teste






0
X 0
X
0
> c = P
>c+
= P Z > c +
.
() = P
/ n
/ n
/ n
/ n
sendo Z a distribuio normal padro. Como aumenta de para +, a probabilidade
normal aumenta de 0 para 1. Portanto, () uma funo crescente de , com
lim () = 0, lim () = 1, e () = se P (Z > c) = .

Tipicamente, a funo poder de um teste depende do tamanho amostral, n. Se n pode


ser escolhido pelo pesquisador, considere a funo poder uma ajuda para determinar o
tamanho amostral apropriado.
Continuando o exemplo anterior. Suponha que o pesquisador deseja ter um erro tipo
I mximo de 0,1 e um erro do tipo II mximo de 0,2 se 0 + . Vamos mostrar como
escolher c e n de tal forma que esses erros sejam atingidos, usando um teste que rejeita
H0 : 0 se

0
X

/ n

> c. Temos que




0
() = P Z > c +
.
/ n

() crescente em , os requisitos sero atingido se


(0 ) = 0, 1 e (0 + ) = 1 0, 2 = 0, 8.
Escolhendo c = 1, 28, temos (0 ) = P (Z > 1, 28) = 0, 1, independente de n. Agora,

desejamos escolher n tal que (0 + ) = P (Z > 1, 28 n) = 0, 8, logo temos n = 4, 49,


mas n deve ser um nmero inteiro. Ento, escolhendo c = 1, 28 e n = 5 temos um teste
com probabilidade de erro controlada conforme as especificaes dos pesquisador.
Para um tamanho de amostra fixo, usualmente impossvel obter ambos os tipos de
erro arbitrariamente pequenos. Para um bom teste, comum considerar uma restrio
no teste que controle o erro do tipo I. Dentro desta classe de testes optamos pelo teste
que fornece o menor erro do tipo II. Os dois seguintes itens so teis quando discutimos
teste que controlam o erro do tipo I.
Para 0 1, um teste com funo poder () tem um tamanho se sup0 () =
.

37
Para 0 1, um teste com funo poder () um teste de nvel se
sup0 () .
Pesquisadores geralmente especificam o nvel do teste que desejam usar, escolha tpicas
so = 0, 01, 0,05 e 0,10. Estando ciente que, ao fixar o nvel do teste, apenas o erro do
tipo I est controlado.

4.3

Teste mais poderoso

Uma classe de testes de hipteses muito til , construda controlando o erro do tipo I,
a classe de teste de hipteses de nvel , em que a probabilidade de erro do tipo I mxima
para todo 0 . Um bom teste nesta classe tambm deveria fornecer uma pequena
probabilidade de erro do tipo II, isto , uma funo poder grande para c0 . Se um
teste tem a menor probabilidade de erro do tipo II dentre todos os outros testes nesta
classe, ele o teste mais poderoso na classe de teste de hipteses de nvel . Esta noo
formalizada na seguinte definio.
Seja C a classe de testes de hipteses H0 : 0 contra H1 : c0 . Um teste
na classe C, com funo poder (), um teste uniformemente mais poderoso (UMP) na
0

classe C se () () para todo c0 e toda funo poder () de um teste na classe


C.
A classe C envolve todos os testes de nvel . O teste UMP no existe para muitos
problemas. Porm, nos problemas em que o teste UMP existe ele deve ser considerado
o melhor teste nesta classe. Ento, gostaramos de ter habilidade para identificar o teste
UMP se ele existir. O seguinte teorema descreve claramente quais testes so UMP de
nvel em situaes em que a hiptese nula e a hiptese alternativa consistem de apenas
uma distribuio amostral (H0 e H1 so hipteses simples).
Lema de Neyman-Pearson: Considere testar H0 : = 0 contra H1 : = 1 , com a fdp
ou fp correspondente a i sendo f (x|i ), i = 0, 1, usando um teste com regio de rejeio
R que satisfaz
x R se f (x|1 ) > kf (x|0 ) e
x Rc se f (x|1 ) < kf (x|0 ),

(4.1)

para algum k 0, e
= P0 (X R).

(4.2)

38
Ento
a) (Suficiente) Algum teste que satisfaz (4.1) e (4.2) UMP de nvel .
b) (Necessrio) Se existe um teste satisfazendo (4.1) e (4.2) com k > 0, ento todo
teste de nvel UMP um teste de tamanho (satisfazendo (4.2)) e todo teste de
nvel UMP satisfaz (4.1) exceto talvez por um conjunto A satisfazendo P0 (X
A) = P1 (X A) = 0.
Deste resultado segue o corolrio.
Considere um problema de teste de hiptese conforme colocado no Lema de NeymanPearson. Suponha T (X) uma estatstica suficiente para e g(t|i ) a fdm ou fp de T
correspondente a i , i = 0, 1. Ento qualquer teste baseado em T com regio de rejeio
S (um subconjunto de espao amostral de T ) um teste UMP de nvel satisfazendo
t S se g(t|1 ) > kg(t|0 ) e
t S c se g(t|1 ) < kg(t|0 ),
para algum k 0, e
= P0 (T S).
A seguir segue um exemplo da construo de um teste UMP.
Exemplo: Seja X uma amostra aleatria de tamanho n de uma populao N (, 2 ),
com 2 conhecido. A mdia amostral uma estatstica suficiente para . Considere testar
H0 : = 0 contra H1 : = 1 , sendo 0 > 1 . Pela inequao g(
x|1 ) > kg(
x|0 ),
equivalente a
x <

(2 2 log k)/n 02 + 12
.
2(1 0 )

O fato de 1 0 > 0 foi usado para obter a inequao. O lado direito aumenta de
para + como k aumenta de 0 para +. Ento, pelo corolrio, o teste com regio de
< c). Se um particular
rejeio x < c um teste UMP de nvel sendo = P0 (X
< c = z/2 /n + 0 . Esta escolha de
especificado, ento o teste UMP rejeita H0 se X
c garante P0 (T S).
Note que o Lema de Neyman-Pearson apenas aplicvel em situaes em que hiptese
simples so especificadas. Em problemas mais realistas, as hipteses de interesse especificam mais que um possvel valor para a distribuio amostral (hiptese compostas). Tal
definio requer um teste UMP mais poderoso em cada 0 individualmente, desta

39
forma o Lema de Neyman-Pearson pode ser usado para encontrar um teste UMP em
problemas envolvendo hipteses compostas.
Em particular, hipteses que afirmam que um parmetro univariado grande, por
exemplo, H : 0 , ou pequeno, por exemplo, H : < 0 , so chamadas de hipteses
unilaterais. Hipteses que afirmam que um parmetro tambm grande ou pequeno,
por exemplo, H : 6= 0 , so chamados de hipteses bilateriais. Uma grande classe de
problemas que admite um teste UMP de nvel envolve hipteses unilaterais e fdp ou fp
com propriedade de razo de verossimilhana montona.
A famlia de fdps ou fps {g(t|) : } para uma varivel aleatria univariada
T com parmetro assumindo valores nos Reais tem razo de verossimilhana montona
(RVM) se, para todo 2 > 1 , g(t|2 )/g(t|1 ) uma funo montona (no crescente ou
no decrescente) em t em {t : g(t|1 ) > 0 ou g(t|2 ) > 0}. Note que c/0 definido como
+ se 0 < c.
Muitas famlias de distribuies tm RVM. Por exemplo, a normal (varincia conhecida, mdia desconhecida), poisson, binomial. De fato, qualquer membro regular da
famlia exponencial com g(t|) = h(t)c()ew()t tem RVM se w() uma funo no
decrescente.
Karlin-Rubin: Considere testar H0 : 0 contra H1 : > 0 . Suponha que T uma
estatstica suficiente para e a famlia de fdps ou fps {g(t|) : } de T tem RVM.
Ento para qualquer t0 , o teste que rejeita H0 se e somente se T > t0 UMP de nvel ,
sendo P0 (T > t0 ) = .
Exemplo: Seja X uma amostra aleatria de tamanho n de uma populao N (, 2 ),
com 2 conhecido. A mdia amostral uma estatstica suficiente para . Considere testar
H0 : = 0 contra H1 : = 1 , sendo 0 > 1 . Vimos pelo exemplo anterior que um teste
UMP de nvel rejeita H0 se
/2
< z
+ 0 .
X
n
0
0
uma estatstica
Agora, suponha testar H0 : 0 contra H1 : < 0 . Como X

N (, 2 /n), 2 conhecido) tem RVM, ento o


suficiente para e sua distribuio (X
teste UMP de nvel para o problema.
Como a classe de testes UMP de nvel muito ampla, nem sempre possvel obter
um teste que domine todos os outros em termos da funo poder. Nestes casos. comum
considerar uma subclasse dos testes UMP de nvel .

40

4.4

P-valor

Aps um teste de hiptese ter sido feito, a concluso deve ser relatada de alguma
forma estatisticamente significativa. Um mtodo para descrever o resultado de um teste
de hiptese reportar os tamanho, , do teste usado na deciso de rejeitar H0 ou aceitar
H0 . O tamanho de um teste carrega muita informao. Se pequeno, a deciso para
rejeitar H0 bastante convincente, mas se grande, a deciso para rejeitar H0 no
convincente, porque o teste tem uma alta probabilidade de fazer a deciso incorretamente.
Outra forma de reportar o resultado de um teste de hipteses calcular o valor do tipo
de incerteza da estatstica de teste, chamada de p-valor.
Um p-valor p(X) uma estatstica de teste satisfazendo 0 p(x) 1 para todo ponto
amostral x. Valores pequenos de p(X) fornecem evidncia que H1 verdade. Um p-valor
vlido se, para todo 0 e todo 0 1,
P0 (p(X) ) .
Se p(X) um p-valor vlido, fcil construir um teste de nvel baseado em p(X).
Uma vantagem de mostrar o resultado de um teste via p-valor que cada leitor o
que considere mais apropriado e ento podemos comparar o valor p(x) com , e saber
quando estes dados conduzem a rejeio ou aceitao de H0 . Entretanto, menores valores
do p-valor fornecem mais fortes evidncias para rejeitar H0 . Ento, o p-valor fornece o
resultado de um teste em uma escala contnua, melhor que apenas aceita ou rejeita H0 .

Captulo 5
Anlise de Regresso Logstica
Embora a regresso logstica seja conhecida desde os anos 50, tornou-se popular no
incio da dcada de 70 com a introduo dos modelos lineares generalizados (MLG).
Os MLG descrevem uma relao entre a mdia da varivel resposta E(Yi ) e variveis
independentes (x1 , x2 , . . . , xp ). Diferentes modelos podem ser expressos como MLG, entre
ele o modelo de regresso logstica.
O objetivo deste resumo apresentar a construo do modelo de regresso logstica, o
processo estimao dos parmetros via estimador de mxima verossimilhana, a construo de testes de hiptese simples para verificar a relevncia de uma covarivel no modelo,
e uma anlise de resduos.

5.1

O modelo

Suponha que as variveis resposta Y1 , . . . , Yn (ou Yi , i = 1, . . . , n) associadas aos indivduos (ou unidades experimentais) sejam a soma de mi sequncias de respostas binrias
independentes com probabilidade de sucesso comum i , ou seja, Yi Bin(mi , i ). Desta
forma, E(Yi ) = mi i , como mi considerado conhecido, modelar a mdia da varivel resposta mi i equivalente a modelar i . Lembre-se que a distribuio Binomial pertence a
famlia exponencial, logo este problema pode ser visto como um caso particular do MLG.
Em muitos estudos, cada indivduo tem associando a ele um vetor de covariveis
x = (x1 , x2 , . . . , xp ), que so informaes provveis a influenciar a probabilidade de resposta positiva (sucesso). O interesse estatstico verificar a relao entre a probabilidade
de resposta = (x) e as covariveis x = (x1 , . . . , xp ). Para investigar esta relao

41

42
conveniente estabelecer um modelo formal. Na prtica, a construo deste modelo necessita que algumas suposies sejam assumidas, por exemplo a independncia entre os
indivduos, linearidade da componente sistemtica e outras. Estas suposies no podem
ser garantidas, mas podem ser checadas.
Suponha que a relao entre e x ocorre por meio de uma combinao linear, em
MLG chamada de parte sistemtica do modelo,
=

p
X

xj j ,

com x0 = 0,

j=0

sendo 0 , 1 . . . , p coeficientes desconhecidos, e j <.


Para expressar como uma combinao linear de x devemos usar uma transformao
g() que retorne valores no reais, em MLG esta transformao conhecida como funo
de ligao,
g(i ) = i =

p
X

xij j ,

i = 1, . . . , n.

j=0

Algumas funes de ligao g(i ) podem ser utilizadas. Trs funes so mais comuns:
A logito ou funo logstica: g1 () = log(/(1 )) (modelo de regresso logstica);
A probito ou funo normal inversa: g2 () = 1 () (modelo de regresso probito);
A funo complementar log-log: g3 () = log{ log(1 )}.
A quarta possibilidade, a funo log-log: g4 () = log{ log()}. Todas as quatro
funes so contnuas e crescentes no (0,1).
A partir daqui, todo o desenvolvimento ser baseado na funo logstica, uma vez que
o interesse analisar o modelo de regresso logstica. Portanto, podemos escrever o link
da parte sistemtica do modelo com a probabilidade de sucesso por meio de

 X
p
i
log
=
xij j .
1 i
j=0
Suponha que p = 2, ento, o modelo pode ser escrito em termos da chance (odds) de
respostas positivas,

log

i
1 i


= 0 + 1 xi1 + 2 xi2

ou pela probabilidade de resposta positiva


i =

exp{0 + 1 xi1 + 2 xi2 }


.
1 + exp{0 + 1 xi1 + 2 xi2 }

43
Supondo que xi1 e xi2 no so funcionalmente relacionadas, o efeito de uma unidade
de mudana em xi2 o aumento da chance por uma quantidade 2 . Equivalentemente,
efeito de uma unidade de mudana em xi2 o aumento da chance de uma resposta
positiva multiplicativamente pelo fator exp{2 }. xi1 est fixa e no permite variar com
as consequncias de mudana em xi2 .
As declaraes correspondentes dadas na escala da probabilidade so mais complicadas
devido ao efeito de i de uma unidade de mudana em xi2 depende dos valores de xi1 e
xi2 . A derivada de i em relao a xi2
di
= 2 i (1 i ).
dxi2
Ento, uma pequena mudana em xi2 tem um grande efeito, como medida na escala de
probabilidade, se i prximo de 0,5 e se i prximo de 0 ou 1.

5.2

Funo de Verossimilhana

As respostas y1 , . . . , yn so realizaes independentes das variveis aleatrias Y1 , . . . , Yn ,


tal que Yi segue uma distribuio binomial com parmetros mi e pi . Inicialmente iremos escrever a funo de log-verossimilhana de e posteriormente considerar como uma funo
dos coeficientes de regresso. A funo de log-verossimilhana de dado y = (y1 , . . . , yn )
pode ser escrita na forma
`(; y)

n 
X


yi log

i=1

como log(i /(1 i )) = i , com i =


`(; y)

p
n X
X
i=1 j=1

Pp

i
1 i

j=0

yi xij j


+ mi log(1 i ) .

xij j , ento

n
X
i=1

mi log 1 + exp

p
X

!
xij j

j=1

Observe que naturalmente obtemos como sugesto a funo de ligao logstica, pois o
termo log(i /(1 i )) o parmetro natural (cannico) da famlia exponencial, a logverossimilhana depende de y apenas por meio da combinao linear i . Essa combinao
dita ser suficiente para .

5.2.1

Estimao dos Parmetros

O mtodo de estimao mais comumente utilizado o de mxima verossimilhana.


Vejamos a obteno das derivadas da log-verossimilhana em relao aos parmetros .

44
Primeiro, considere a derivada da funo de log-verossimilhana com respeito a i
yi mi i
`
=
i
i (1 i )
Usando a regra da cadeia, a derivada com respeito a r
n

X ` i
X yi mi i i
`
=
=
.
r
i r
(1 i ) r
i=1
i=1 i
conveniente expressar i /r como produto
i
i i
=
= i (1 i )xir .
r
i r
Logo, a derivada da log-verossimilhana com respeito a r
n

X yi mi i i i
X
`
=
=
(yi mi i )xir .
r

(1

i
i
i
r
i=1
i=1

(5.1)

Portanto,
0

` () =

`
= X > (Y ),

sendo = (m1 1 , . . . , mn n ), quando escrito em notao matricial.


Ao utilizar a funo de ligao cannica a matriz Hessiana (matriz de segundas
derivadas avaliada nos estimadores de mxima verossimilhana) coincide com a matriz
de informao de Fisher. Logo, o mtodo de Scores de Fisher se reduz ao mtodo de
Newton-Rapson. Vejamos a obteno da derivada de segunda ordem em relao aos parmetros
" n
#




2`

` i i
X
=
=
=
(yi mi i )xir
r s
s r
s i i r
s i=1
=

n
X
i=1

mi xir

X
i i
=
mi i (1 i )xir xis .
i s
i=1

Logo,
00

` () = X > W X,
sendo W uma matriz diagonal de pesos dada por W = diag {mi i (1 i )} .
A soluo das derivadas de primeira ordem em retornam os estimadores de mxima
verossimilhana. Porm, a soluo envolve um sistema de equaes no lineares que
necessitam de um mtodo iterativo para serem resolvidas. Ou seja, os parmetros da
regresso s podem ser obtidos iterativamente. Seguindo um algoritmo de Newton-Rapson
as estimativas podem ser obtidas da seguinte forma:

45
(0)

(0)

(0)

1. Inicializar o vetor de regresso (0) = (0 , 1 , . . . , p ).


(0)

2. Obter (0) , sendo i

(0)

(0)

= mi i , com i

(0)

(0)

= g 1 (i ) e i

Pp

j=0

(0)

xij j , i =

1, . . . , n.
(0)

(0)

3. Construir a matriz diagonal de pesos W (0) , com wii = mi i (1i )(0) , i = 1, . . . , n.


4. Calcular a atualizao de (0) , dada por
00

(1) = (0) + (` ( (0) ))1 ` ( (0) )


= (0) + (X > W (0) X)1 X > (y (0) ).
5. Repetir passos (2)-(4) at a convergncia dos parmetros, ou seja, at que | (s)
(s1) | < ,  um valor arbitrrio prximo de zero.
Falta de convergncia raramente um problema, a menos que um ou mais componentes
do sejam infinito, que usualmente implica que alguma das probabilidades serem zero
ou um.

5.2.2

Intervalos de Confiana

Sob condies gerais de regularidade a distribuio assinttica para

n( ) D Np (0, I 1 ())

sendo I 1 () a matriz de informao de Fisher, que ao considerar a funo de ligao


cannica coincide com a matriz Hessiana.
O intervalo de confiana assinttico, com nvel de confiana 100(1)%, para o r-simo
componente do vetor de parmetros , r , r, = 1, . . . , p, pode ser calculado utilizando
r z/2

q
1
J(r)
() ,

(5.2)

em que z/2 o valor do (/2)-simo quantil superior da distribuio normal padro e


00

1
que corresponde
J(r)
() o r-simo elemento da diagonal principal da inversa de ` (),

ao estimador da varincia do estimador de interesse.

46

5.3

Funo Desvio

A funo desvio definida como duas vezes a diferena entre o mximo atingido pela
log-verossimilhana e o mximo alcanado sob o modelo ajustado. Sob qualquer modelo,
a funo de log-verossimilhana
H0 , com probabilidades ajustadas ,
y) =
`(;

n
X

+ (mi yi ) log(1 )}
.
{yi log

i=1

O mximo atingido pela log-verossimilhana obtido no ponto i = yi /mi , mas esse ponto
normalmente no ocorre sob H0 . A funo desvio portanto
= 2`(;
y) 2`(;
y)
D(y; )



n
X
mi yi
= 2
yi log(yi /
i ) + (mi yi ) log
.
mi
i
i=1
Esta funo se comporta de forma semelhante a soma de quadrados de resduos ou soma de
quadrados de resduos ponderados em modelos de regresso linear. A adio de covariveis
no modelo ajustado tem o efeito de reduzir D.
segue assintoticamente
Frequentemente afirmado que a varivel aleatria D(Y ; )
uma distribuio qui-quadrado com n p graus de liberdade, sendo p o nmero de parmetros ajustados sob H0 . Este resultado ento usado como justificativa do uso de
D como estatstica de bondade do ajuste para testar a adequao do modelo ajustado.
A funo deviance quase intil como uma medida absoluta de bondade de ajuste, mas
interessante para comparar dois modelos encaixado.

5.4

Teste de Hipteses Simples

Suponha que o interesse testar a relevncia de uma varivel independente Xr , ou seja,


testar as hipteses H0 : r = 0 contra H1 : r 6= 0. As funes deviance correspondente
sem ) e D(y;
com ), respectivamente,
aos modelos sob H0 e H1 sero denotadas por D(y;
sem a estimativa de mxima verossimilhana sob H0 .
sendo
Com o propsito de assegurar a significncia de uma varivel independente Xr , comparamos o valor da funo deviance com e sem a varivel no preditor linear. A mudana
em D devido a incluso da varivel no modelo obtida da seguinte maneira:
sem ) D(y;
com )}.
G = {D(y;

47
Podemos ento escrever a estatstica G como
G = 2{`(sem ; y) `(com ; y)}.
Sob a hiptese nula, a estatstica G segue uma distribuio chi-quadrado com 1 grau de
liberdade. Rejeitamos a hiptese nula para valores grandes de G (a varivel Xr deve
permanecer no modelo).

5.5

Anlise de Resduos

Uma etapa importante na anlise de um ajuste de regresso a verificao de possveis


afastamentos das suposies feitas para o modelo, especialmente para a parte aleatria
e para a parte sistemtica, bem como a existncia de observaes extremas com alguma
interferncia desproporcional nos resultados do ajuste. Os resduos indicam a presena de
observaes anmalas que necessitam de uma maior investigao. Esta anlise pode ser
conduzida por meio dos resduos da funo desvio, definidos por
p
rd = sinal(yi i ) di
com



mi yi
di = 2 yi log(yi /
i ) + (mi yi ) log
,
mi
i
sendo que

Pn

i=1

di = D(y; ).

Se a medida de discrepncia pode ser mesurada pela funo desvio, intuitivamente cada
observao apresenta sua contribuio para a medida global. Portanto, valores grandes
de rd so passiveis a maior investigao.

Captulo 6
Anlise Discriminante
Usamos o termo grupo para representar tanto a populao ou uma amostra da populao. Existem dois principais objetivos na separao dos grupos:
1. Definio da separao do grupo, em que funes lineares das variveis (funes
discriminantes) so usadas para descrever ou explicar as diferenas entre dois ou
mais grupos. Os objetivos da anlise discriminante incluem identificar a contribuio
relativa das p variveis para discriminao dos grupos e encontrar o plano ideal no
qual os pontos podem ser projetados para ilustrar melhor a configurao dos grupos.
2. Previso ou atribuio de observaes a grupos, em que as funes de classificao
(funes das variveis lineares ou quadrticas) so utilizadas para designar uma
unidade amostral para um dos grupos. O vetor de observao das variveis relevantes, para uma pessoa (objeto) avaliado nas funes de classificao e o indivduo
alocado no grupo mais provvel.
O interesse deste resumo apresentar formas de discriminar indivduos quando a distribuio da populao conhecida e quando a distribuio da populao no conhecida.
Apesar de estarem claramente interligadas a anlise discriminante e a classificao, no
devem ser confundidas. A anlise discriminante se refere aos mtodos de atribuio de
classes a determinados conjunto de dados. J a classificao se refere a alocao de novas
observaes nos grupos pr-definidos.
Na anlise discriminante determinado um conjunto de coeficientes associados a variveis independentes que forneam uma ponderao linear capaz de extrair a maior quantidade possvel de informao quanto classificao dos indivduos nos grupos. Ela visa
48

49
maximizar a varincia entre grupos (intergrupal) em relao varincia dentro dos grupos
(intragrupal), considerando amostras previamente classificadas dos diversos grupos.
Em geral temos populaes j , j = 1, 2, . . . , s, e queremos alocar uma observao x
em um destes grupos. Uma regra discriminante uma separao do espao amostral em
conjuntos Rj tal que se x Rj , ele definido como membro da populao j .
A principal tarefa da anlise discriminante encontrar boas regies Rj tal que o erro de
classificao seja pequeno. Primeiramente iremos descrever regras quando as distribuies
da populao so conhecidos.

6.1

Regra Discriminante de Mxima Verossimilhana

Denote a densidade de cada populao j por fj (x). A regra discriminante de mxima


verossimilhana (regra MV) dada pela alocao de x em j que maximiza a verossimilhana Lj (x) = fj (x) = maxi fi (x).
Se vrios fi retornam o mesmo mximo, ento qualquer um deles pode ser selecionado.
Matematicamente, os conjuntos Rj dados pela regra MV so definidos como
Rj = {x : Lj (x) > Li (x) para i = 1, . . . , s, i 6= j}.
Ao alocar a observao em um determinado grupo, podemos cometer erro de classificao. Para s = 2 grupos a probabilidade de alocar x no grupo 2 embora pertena a
populao 1 pode ser calculada como
Z
p21 = P (X R2 |1 ) =

f1 (x)dx.
R2

Similarmente, a probabilidade condicional de classificar um objeto como pertencente a


primeira populao 1 embora, na verdade, venha da populao 2
Z
p12 = P (X R1 |2 ) =
f2 (x)dx.
R1

As observaes mal classificadas criam um custo C(i|j) quando a observao da populao j atribuda a Ri . A estrutura de custo pode ser ilustrada em uma matriz de
custos:

50
Populao

Populao Classificada

Verdadeira

C(2|1)

C(1|2)

Seja j a probabilidade a priori de uma populao j , sendo que o termo probabilidade a priori significa a probabilidade que um indivduo selecionado aleatoriamente da
populao pertena a j (antes da observao da amostra, ou seja, dos valores de x).
Probabilidades a priori deve ser consideradas se claro de antemo que uma observao
mais provvel que resultam de uma determinada populao j .
O custo esperado de m classificao (CEMC) dado por
CEMC = C(2|1)p21 1 + C(1|2)p12 2 .
Estaremos interessado em regras de classificao que mantm o CEMC menor, ou que
minimizam o CEMC sobre uma classe de regras. A regra discriminante que minimiza
ECMC para duas populaes dada por


  
f1 (x)
C(1|2)
2
R1 =
x:

f2 (x)
C(2|1)


  1 

C(1|2)
2
f1 (x)
<
.
R2 =
x:
f2 (x)
C(2|1)
1
A regra MV ento um caso particular da regra CEMC para o custo de m especificao igual e probabilidades a priori iguais.
Exemplo: Suponha x {0, 1} e
1 : P (X = 0) = P (X = 1) = 1/2
2 : P (X = 0) = 1/4 = 1 P (X = 1).
O espao amostral o conjunto {0, 1}. A regra MV de discriminao aloca x = 0 para
1 , pois {f1 (0) > f2 (0)} e x = 1 para 2 , pois {f1 (1) < f2 (1)}, definindo os conjuntos
R1 = {0} e R2 = {1}, com R1 R2 = {0, 1}.
Exemplo: Considere duas populaes normais
1 : N (1 , 12 )
2 : N (2 , 22 ).

51
Ento,
(

1
Li (x) = (2i2 )1/2 exp
2

x i
i

2 )
,

portanto x alocado em 1 (x R1 ) se L1 (x) L2 (x). Note que L1 (x) L2 (x)


equivalente a

(

2 )

2 )
x

1
x

1
1
1
> (212 )1/2 exp
(212 )1/2 exp
2
1
2
1
(
"
2 
2 #)
2
1
x 1
x 2
exp

1.
1
2
1
2
(

Na situao simplificada em que as varincias so comuns 1 = 2 = , temos




1
2
2
0
exp 2 [(x 1 ) (x 2 ) ]
2
1
x (1 + 2 ).
2
A regra discriminante (para 1 < 2 ) fornece
x 1 ,

se x R1 = {x : x 1/2(1 + 2 )}

x 2 ,

se x R2 = {x : x > 1/2(1 + 2 )}.

A regra discriminante MV para observaes multinomiais est intimamente conectada


com a distncia de Mahalanobis. A regra discriminante est baseada em uma combinao
linear e pertence a famlia de mtodos de anlise discriminante linear (ADL).
Teorema: Suponha i = Np (i , ).
(a) A regra MV que aloca x em j , sendo j {1, 2, . . . , s} o valor que minimiza a
raiz da distncia de Mahalanobis entre x e i
2 (x, i ) = (x i )> 1 (x i ), i = 1, . . . , s.
(b) No caso em que s = 2,
x R1 > (x ) 0,
sendo = 1 (1 2 ) e = 1/2(1 + 2 ).
Demonstrao: A parte (a) segue diretamente da comparao das verossimilhanas.

52
Para s = 2, a parte (a) diz que x alocado em 1 se
(x 1 )> 1 (x 1 ) (x 2 )> 1 (x 2 )
1
> 1
> 1
> 1
2>
1 x + 22 x + 1 1 2 2 0,

que equivalente a
2(2 1 )> 1 x + (1 2 )> 1 (1 + 2 ) 0


1
> 1
x (1 + 2 )
0
(2 1 )
2
> (x ) 0.

6.2

Regra Discriminante de Bayes

Denote a distribuio a priori por j e note que

Ps

j=1

j = 1. A regra discriminante de

Bayes aloca x em j que fornece o maior valor de j fj (x), j fj (x) = maxi i fi (x). Ento,
a regra discriminante definida por Rj = {x : j fj (x) i fi (x), para i = 1, . . . , s}. A
regra de Bayes tem como caso particular a regra MV para j = 1/s.
Uma importante modificao est em alocar x em j com uma certa probabilidade
P
j (x), tal que si=1 j (x) = 1 para todo x. Isso chamado de regra discriminante aleatorizada. A regra discriminante aleatorizada uma generalizao da regra discriminante
determinstica desde que

1
j (x) =
0

se j fj (x) = maxi i fi (x)


caso contrrio

refletindo a regra determinstica.


Qual regra discriminante melhor? Precisamos de uma medida de comparao. Denote
Z
pij =

i (x)fi (x)dx

como a probabilidade de alocao de x em i se de fato ele pertence a j . Uma regra


discriminante com probabilidades pij to boa quanto qualquer outra regra discriminante
0

com probabilidades pij se


0

pii pii para todo i = 1, . . . , s.

(6.1)

Dizemos que a primeira regra melhor se a desigualdade estrita em (6.1) tem pelo
menos um i. Uma regra discriminante chamada de admissvel se no h uma regra

53
discriminante melhor. Todas as regras discriminantes de Bayes (incluindo a regra ML)
so admissveis.

6.3

Classificao com diferentes matrizes de covarincia

O mnimo de CEMC depende da razo de densidades f1 (x)/f2 (x) ou equivalentemente


da diferena log{f1 (x)} log{f2 (x)}. Quando a covarincia das funes densidades
diferente, a regra de alocao se torna mais complicada


  
1 > 1
C(1|2)
2
1
> 1
> 1
R1 =
x : x (1 2 )x + (1 1 2 2 )x k log
2
C(2|1)


  1 

1
2
C(1|2)
1
> 1
> 1
R2 =
x : x> (1
,
1 2 )x + (1 1 2 2 )x k < log
2
C(2|1)
1
1
> 1
sendo k = log{(det 1 / det 2 ) + 1/2(>
1 1 1 2 2 2 )}.

As regies de classificao so definidas por funes quadrticas. Por isso, pertencem


famlia de mtodos de Anlise Discriminante Quadrticas (ADQ). Esta regra de classificao quadrtica coincide com as regras utilizadas quando 1 = 2 , ento o termo
1
(1/2)x> (1
1 2 )x desaparece.

6.4

Regra de Discriminao na Prtica

A regra MV utilizada, se a distribuio dos dados conhecida inclusive os valores


dos parmetros. Suponha, por exemplo, que os dados provm de distribuies normais
multivariadas Np (j , ). Se temos s grupos com nj observaes em cada grupo, usamos
x
j para estimar j e Sj para estimar . A covarincia comum pode ser estimada pela
Su =

s
X
j=1

com n =

Ps

i=1


nj

Sj
ns


,

nj . Ento a verso emprica da regra MR do Teorema alocar uma nova

observao x em j tal que j minimiza


(x x
i )> Su1 (x x
i )> para i {1, 2, . . . , s}.

54

6.5

Funo Discriminante Linear de Fisher

A ideia de Fisher para uma regra de discriminao teve como base uma projeo a> x,
tal que a regra separe ao mximo possvel as populaes com maior similaridade possvel
dentro do grupo. Esta anlise discriminante linear chamada de Funo Discriminante
Linear de Fisher (FDLF). Se
Y = Xa
denota a combinao linear das observaes, ento a soma de quadrados total de y,
P
)2 , igual a
i=1 n(yi y
Y > HY = a> X > HXa = a> T a,
>
com matriz de centralidade H = I n1 1n 1>
n e T = X HX.

Supondo que temos amostras Xj , j = 1, . . . , s, das s populaes. Fisher sugeriu


encontrar uma combinao linear a> x que maximiza a razo entre a soma de quadrados
entre-grupo e a soma de quadrados intra-grupo.
A soma dos quadrados intra-grupo dada por
s
X

Yj> Hj Yj

j=1

s
X

a> Xj> Hj Xj a = a> W a,

j=1

sendo que Yi denota a j-sima submatriz de Y correspondente as observaes do grupo


j e Hj denota a matriz de centralidade (nj nj ). A soma de quadrados intra-grupo
mensura a soma das variaes dentro de cada grupo.
A soma dos quadrados entre-grupo
s
X
j=1

nj (
yj y)2 =

s
X

nj {a> (
xj x
)2 } = a> Ba,

j=1

sendo yj e xj denotam as mdias de Yi e Xi e y e x denotam as mdias amostrais de Y


e X. A soma de quadrados entre-grupo mede a variao atravs dos grupos.
A soma de quadrados total a soma de quadrados intra-grupo e a soma de quadrados
entre-grupo, isto ,
a> T a = a> W a + a> Ba.
A idia de Fisher foi selecionar um vetor de projeo que maximiza a razo
a> Ba
a> W a

(6.2)

55
O problema de identificar a combinao linear que maximiza a discriminao em (6.2),
um caso particular do problema geral de maximizao de um quociente de formas
quadrticas. Ento, se W uma matriz positiva definida o vector de coeficientes a que se
procura o vector prprio da matriz W 1 B associado ao maior valor prprio de W 1 B.
Agora a regra de discriminao obtida ao classificar x no grupo j onde a> x
j est
mais prxima de a> x, isso ,
x j onde j = arg min |a> (x x
i )|.
i

Para s = 2 grupos, a regra discriminante mais simples de ser calculada. Suponha


que o grupo 1 tem n1 elementos e o grupo 2 tem n2 elementos. Neste caso,
B=

n n 
1 2
dd> ,
n

sendo d = (
x1 x
2 ). W 1 B tem apenas um autovalor que vale
tr(W 1 B) =

n n 
1 2
d> W 1 d,
n

e o correspondente autovetor a = W 1 d. A correspondente regra de discriminao


x 1 ,

se a> {x 1/2(
x1 + x
2 )} > 0

x 2 ,

se a> {x 1/2(
x1 + x
2 )} 0.

A regra de alocao exatamente a mesma que a regra MV para s = 2 grupos e


para distribuies normais com a covarincia comum. Para s = 3 grupos esta regra ser
diferente, exceto para o caso especial de mdias amostrais colineares.
Exemplo: Considere um conjunto de dados que consistem de n = 32 crnios coletados
em dois diferentes locais. n1 = 17 deles encontrado em tmulos prximos do Tibete (tipo
I) e os outros n2 = 15 coletado no campo de batalha, no distrito de Lhasa (tipo II). Os
ltimos acredita-se ser de soldados nativos de uma provncia oriental e eram de interesse
particular, pois poderiam ser sobreviventes de um tipo humano no relacionado com os
das regies que os cercavam. Para cada um destes 32 crnios foram observados, todas em
milmetros, as seguintes medidas:
xi1 : maior comprimento do crnio (tamanho),
xi2 : maior amplitude horizontal do crnio (largura),

56
xi3 : altura do crnio (altura),
xi4 : altura facial superior (altura da face),
xi5 : amplitude face, entre pontos extremos dos ossos da face (largura da face),
i = 1, . . . , 32.
A primeira tarefa realizar sobre estes dados testar a hiptese de que os vetores de
cinco dimenses mdias das medidas cranianas so os mesmos em ambas as populaes
de onde as amostras possam surgir. Supondo que os vetores de mdias de tipos I e II
de crnios no so o mesmo, a prxima etapa estabelecer uma regra de classificao de
aspectos agrupados dos dados multivariados.
Suponha que um crnio ainda est descoberto, cuja origem desconhecida, ou seja, no
sabemos se ele do tipo I ou do tipo II. O objetivo encontrar uma forma de classificar as
observaes em um dos dois grupos utilizando o conjunto de variveis x = (x1 , x2 , . . . , xq ).
O objetivo encontrar uma forma de classificar as observaes em um dos dois grupos
utilizando o conjunto de variveis x = (x1 , x2 , . . . , xq ).
Para este conjunto de dados o vetor da funo discriminante e o limiar entre os grupos
so respectivamente
a> = (0, 0893, 0, 156, 0, 005, 0, 177, 0, 177) e (
y1 + y2 )/2 = 30, 363,
logo a regra de classifica como grupo I se
0, 0893xi1 + 0, 156xi2 + 0, 005xi3 0, 177xi4 0, 177xi5 > 30, 363.
Como resultado, a anlise discriminante um sistema de escores. O escore determinado multiplicando-se o peso discriminante pelo valor de cada varivel independente do
indivduo e somando-se os resultados. Uma vez que esse escore determinado, o indivduo
classificado como pertencente a um dos grupos analisados. Por exemplo, suponha que
as medidas de dois novos crnios foram obtidas, assim
Crnio 1:
0, 0893171, 0+0, 156140, 5+0, 005127, 00, 17769, 50, 177137, 0 = 29, 27 > 30, 363,

Crnio 2:
0, 0893179, 0+0, 156132, 0+0, 005140, 00, 17772, 00, 177138, 5 = 31, 95 < 30, 363.

57
Comparando os valores dos escores com o limiar -30,363, classificamos o crnio 1 como
tipo I e o crnio 2 como tipo II.
A funo discriminante linear de Fisher ideal quando os dados surgem de populaes
com distribuio normal multivariada com as matrizes de covarincia comum. Quando as
distribuies no so claramente de uma normal uma abordagem alternativa a discriminao logstica, embora os resultados de ambos este mtodo de Fisher e provvel que
sejam muito semelhantes na maioria dos casos. Quando as duas matrizes de covarincia
so diferentes a funo discriminante linear j no tima e uma verso quadrtica pode
ser necessria.
A funo discriminante quadrtica possui a vantagem de uma maior flexibilidade em
comparao com a verso linear. Existe, contudo, uma penalidade envolvido na forma de
superajuste (overfitting) potencial, tornando a funo derivada pobre em classificar novas
observaes.

6.6

Desempenho de uma funo discriminante

Uma forma de avaliar o desempenho de uma funo discriminante aplicar a regra de


classificao para os dados a partir do qual foi derivada a regra de classificao e calcular a
taxa de erro cometida (esta tcnica conhecida como a plug-in estimativa). Seja a matriz
contendo o nmero de observaes com n11 e n22 o nmero de observaes corretamente
alocado pelo mtodo e n12 e n21 o nmero de observaes com erro de classificao.
Populao de origem
Populao alocada

n11

n12

n21

n22

Portanto, podemo obter a taxa de erro de classificao como sendo (n12 + n21 )/n 100.
Esta tcnica tem a vantagem de ser extremamente simples. Infelizmente, no entanto, que,
geralmente, fornece uma estimativa muito pobre da taxa de erro de classificao real. Na
maioria dos casos, a estimativa obtida desta maneira ser muito otimistas. Um outra
forma de avaliar e mais geralmente usada o chamado Mtodo leaving-one-out, nos quais
a funo discriminante derivada a partir de apenas (n 1) membros da amostra e, em

58
seguida, utilizado para classificar o membro no includa. O processo realiza-se n vezes,
deixando de fora de cada membro de amostra, por sua vez. Esta opo no muito
interessante para um nmero de observaes grande.
Exemplo: Considere os resultados obtido pelo conjunto de dados dos crnios.
Grupo correto
Alocado

14

12

A taxa de erro de classificao de 19%.

6.7

Diferena entre Anlise Discriminante e Anlise de


Cluster

Ao considerar os grupos de objetos em um conjunto de dados multivariada, duas situaes podem surgir. Dado um conjunto de dados contendo medies sobre os indivduos,
em alguns casos, ns queremos ver se alguns grupos naturais ou classes de indivduos existem, e em outros casos, queremos classificar os indivduos de acordo com um conjunto de
grupos existentes. A anlise de cluster desenvolve ferramentas e os mtodos relacionados
primeiro caso, isto , dada uma matriz contendo dados multivariados medies em um
grande nmero de objetos, o objetivo construir alguns subgrupos naturais ou dos grupos de indivduos. Isto feito atravs do agrupamento indivduos que so semelhantes,
de acordo com algum critrio adequado. A anlise discriminante aborda a questo de
outra questo da classificao. Concentra-se em situaes em que os diferentes grupos so
conhecidos a priori. Regras de deciso so fornecidos na classificao de um observao
multivariada em um dos grupos conhecidos.

Captulo 7
Anlise de Agrupamentos
(Conglomerados ou Cluster)
Ao considerar grupos de objetos com dados multivariada, duas situaes podem surgir.
Dado um conjunto de dados contendo medies sobre os indivduos, em alguns casos, ns
queremos ver se alguns grupos naturais ou classes de indivduos existem, e em outros
casos, queremos classificar os indivduos de acordo com um conjunto de grupos existente.
A anlise de agrupamento desenvolve ferramentas e os mtodos relacionados ao primeiro
caso, isto , dada uma matriz contendo dados multivariados, medies em um grande
nmero de objetos, o objetivo construir alguns subgrupos naturais. Isto feito atravs do
agrupamento de indivduos que so semelhantes, de acordo com algum critrio adequado.
A anlise discriminante aborda a outra forma da classificao. Concentra-se em situaes
em que os diferentes grupos so conhecidos a priori. Regras de deciso so fornecidos para
classificar uma observao multivariada em um dos grupos conhecidos.
Neste resumo iremos apresentar uma forma de mensurar a proximidade entre objetos
considerando uma estrutura binria e variveis contnua, alm disso iremos apresentar
um forma de construo de grupos via clusters hierrquicos e outra forma de cluster via
particionamento.

7.1

O problema

A anlise de cluster um conjunto de ferramentas para a construo de grupos (clusters) de objetos de dados multivariados. O objetivo a construo de grupos homogneos

59

60
com propriedades de grandes amostras heterogneas. Os grupos ou agregados devem ser
to homogneos quanto possvel, e as diferenas entre os vrios grupos to grandes quanto
possvel. A anlise de agrupamento pode ser dividida em dois passos fundamentais.
1. Escolha de uma medida de proximidade: Verifica para cada par de observaes
(objetos) a semelhana entre os seus valores. A medida de semelhana (proximidade)
definida para mensurar a proximidade dos objetos. Quanto mais prximos eles
estiverem, mais homogneos eles so.
2. Escolha do algoritmo de construo de grupos: Com base na sua medida de proximidade os objetos so atribudos aos grupos de modo que as diferenas entre os
grupos se tornem maiores e entre as observaes de um mesmo grupo tornem-se to
pequenas quanto possvel.
Em marketing, por exemplo, a anlise de cluster usada para selecionar mercadosteste. Outras aplicaes incluem a classificao das empresas de acordo com suas estruturas organizacionais, tecnologias e tipos. Na psicologia, anlise de cluster usado para
agrupar tipos de personalidades com base em questionrios. Na arqueologia, aplicado
para classificar objetos de arte em diferentes perodos de tempo. Em cada caso, uma
amostra heterognea de objetos so analisados com o objetivo de identificar subgrupos
homogneos.

7.2

A proximidade entre objetos

O ponto de partida de uma anlise de cluster uma matriz de dados Xnp com n
medies (objetos) de p variveis. A proximidade (similaridade) entre objetos descrito
por uma matriz Dnn .
A matriz D contm medidas de semelhana ou dissemelhana entre os n objetos. Se
os valores so distncias dij , ento eles medem dissimilaridade. Quanto maior a distncia,
menos semelhantes so os objetos. Se os valores de dij so medidas de proximidade, o
oposto verdadeiro, isto , quanto maior o valor de proximidade, mais semelhante so os
objetos. A matriz de distncia, por exemplo, pode ser definida por L2 norma : dij =
||xi xj ||2 , onde xi e xj denotam as linhas da matriz X. Distncia e similaridade so
0

naturalmente uma dupla. Se dij uma distncia, ento dij = maxij {dij } dij uma
medida de proximidade.

61
A natureza das observaes desempenha um papel importante na escolha de medidas
de proximidade. Para valores nominais (como variveis binrias), em geral, so utilizados
os valores de proximidade, enquanto que para valores mtricos (em geral) as matrizes de
distncias.
Ns primeiro apresentamos possibilidades para D no caso binrio e ento o caso contnuo.

7.2.1

Similaridade de objetos com estrutura binria

Para medir a similaridade entre objetos sempre comparamos pares de observaes


>
(xi , xj ), sendo x>
i = (xi1 , xi2 , . . . , xip ) e xj = (xj1 , xj2 , . . . , xjp ), e xik , xjk {0, 1}. Obvi-

amente, existem quatro casos:


xik = xjk = 1 xik = 0, xjk = 1 xik = 1, xjk = 0 xik = xjk = 0.
Definimos
a1 =

p
X

I(xik = xjk = 1)

k=1
p

a2 =

I(xik = 0, xjk = 1)

k=1
p

a3 =

I(xik = 1, xjk = 0)

k=1

a4 =

p
X

I(xik = xjk = 0).

k=1

Note que cada al , l = 1, . . . , 4 depende do par (xik , xjk ).


As medidas de proximidade a seguir so usados na prtica:
dij =

a1 + a4
,
a1 + a4 + (a2 + a3 )

sendo e fatores de ponderao. Na Tabela a seguir mostra algumas medidas de


similaridade para alguns factores de ponderao.

62
Nome

Definio

Jaccard

a1 /(a1 + a2 + a3 )

Tanimoto

(a1 + a4 )/(a1 + 2(a2 + a3 ) + a4 )

Coincidncia Simples (M)

(a1 + a4 )/p

Russel e Rao (RR)

a1 /p

Jogar dados

0,5

2a1 /(2a1 + (a2 + a3 ))

Kulczynski

a1 /(a2 + a3 )

Estas medidas proporcionam formas alternativas de ponderao. Em princpio, poderamos


considerar tambm a distncia euclidiana. No entanto, a desvantagem desta distncia
que ele trata as observaes 0 e 1 da mesma maneira. Se xik = 1 denota, por exemplo,
o conhecimento de uma determinada lngua, ento o contrrio, xik = 0 (no conhecer a
lngua) devem ser tratados eventualmente de forma diferente.

7.2.2

Medidas de distncia para variveis contnuas

Uma grande variedade de medidas de distncia pode ser gerada pelas normas, Lr norma, r 1,
dij = ||xi xj ||r =

( p
X

)1/r
r

|xik xjk |

(7.1)

k=1

Aqui xik denota o valor da k-sima varivel no objeto i. claro que dii = 0 para
i = 1, . . . , n. A classe de distncias (7.1) para a variao r mede a dissimilaridade de
diferentes pesos. A L1 -norma, por exemplo, d menos pesos para outliers que a L2 -norma
(Euclidiana norma). comum a considerar o quadrado L2 -norma.
Um pressuposto subjacente ao aplicar distncias baseadas em LR -norma que as variveis so medidas na mesma escala. Se este no for o caso, uma normalizao deve ser
aplicada. Isto corresponde a uma norma de uso mais geral L2 - ou Euclidiana norma com
a mtrica A, sendo A > 0:
d2ij = ||xi xj ||A = (xi xj )> A(xi xj ).
L2 -norma so dadas por A = Ip , mas se a normalizao desejada, ento a matriz
1
1
de peso A = diag{s1
X1 X1 , sX2 X2 , . . . , sXp Xp } pode ser razovel. Lembres-se que sXk Xk a

63
varincia da k-sima componente. Assim, temos
d2ij

p
X
(xik xjk )2
k=1

sXk Xk

Aqui, cada componente tem o mesmo peso no clculo das distncias e as distncias no
dependem de uma escolha particular das unidades de medida.
Quando aplicado a tabelas de contingncia, uma L2 -mtrica adequada para comparar
(e cluster) linhas e colunas de uma tabela de contingncia.
Se X uma tabela de contingncia, a linha i caracterizada pela distribuio da
Pp
frequncia condicional xij /xi , sendo xi =
j=1 xij indica as distribuies marginais
Pn
sobre as linhas: xi /x , x = i=1 xi . Similarmente, a coluna j de X caracterizada
P
pela frequncias condicionais xij /xj , sendo xj = ni=1 xij . As frequncias marginais das
colunas so xj /x .
A distncia entre duas linhas, i1 e i2 , corresponde distncia entre as suas respectivas
distribuies de frequncia. comum definir esta distncia utilizando a 2 -mtrica:

2
p
X
1
xi 1 j
xi 2 j
2
d (i1 , i2 ) =
.

x
/x
x
x
j

1
2
j=1
Note-se que isso pode ser expresso como a distncia entre os vectores x1 = xi1 j /x
e x2 = xi2 j /x , como em (7.1) com A = diag{xj /x }. Similarmente, se estamos
interessados em clusters, entre as colunas, podemos definir

2
n
X
1
xij1
xij2
2
d (j1 , j2 ) =

.
x
/x
x
x
i

j
j
1
2
i=1
Alm das medidas Euclidiana e Lr -norma podemos usar uma medida de proximidade
tal como o coeficiente de Q-correlao
Pp
xi )(xjk xj )
k=1 (xik P
,
dij = Pp
{ k=1 (xik xi )2 pk=1 (xjk xj )2 }1/2
sendo que xi denota a mdia sobre todas as variveis (xi1 , xi2 , . . . , xip ).

7.3

Algoritmos de cluster

Existem, essencialmente, dois tipos de mtodos de agrupamento.


Algoritmos hierrquicos: podem ser divididos em processos aglomerativos e divisivos. O primeiro tipo comea como cada observao constituindo um cluster e

64
posteriormente acontecem os agrupamentos. O segundo tipo mais grosseiro, um
aglomerado contm todas as observaes e prossegue dividindo o cluster nico em
pequenos aglomerados de menores tamanhos.
Algoritmos de particionamento: Comeam a partir de um determinado grupo de
reconhecimento e continuar trocando elementos entre os grupos at uma certa pontuao seja otimizada.
A principal diferena entre as duas tcnicas de agrupamento que, no agrupamento
hierrquico grupos so encontrados e elementos so atribudos aos grupos, esta atribuio
no pode ser alterada. Em tcnicas de particionamento, por outro lado, a atribuio de
objetos em grupos podem ser alterados durante o aplicao do algoritmo.

7.3.1

Algoritmos hierrquicos, Tcnicas aglomerativas

O mtodo hierrquico de cluster consiste em uma srie de sucessivos agrupamentos


ou sucessivas divises de elementos, onde os elementos so agregados ou desagregados.
Os mtodos hierrquicos so subdivididos em mtodos aglomerativos e divisivos. Os
algoritmos aglomerativos so utilizadas com bastante frequncia na prtica. No mtodo
aglomerativo, cada elemento inicia-se representando um grupo, e a cada passo, um grupo
ou elemento ligado a outro de acordo com sua similaridade, at o ltimo passo, onde
formado um grupo nico com todos os elementos. O algoritmo consiste nos seguintes
passos:
1. Iniciar com n grupos, contendo um elemento em cada grupo.
2. Calcular a matriz de distncias D.
FAZER
3. Encontrar dois clusters com menor distncia.
4. Colocar estes dois clusters em um cluster.
5. Recalcular a distncia entre os novos grupos e obter a matriz de distncias D reduzida.
AT todos os clusters estarem aglomerados dentro de nico cluster.

65
Dois objetos ou grupos ditos, P e Q, so unidos, o reclculo da distncia entre este
novo grupo (objeto) (P + Q) e grupo R, feito usando a seguinte funo de distncia
dR,P +Q = 1 d(R, P ) + 2 d(R, Q) + 3 d(P, Q) + 4 |d(R, P ) d(R, Q)|,

(7.2)

sendo s coeficientes de ponderao que levam a diferentes algoritmos de aglomerao,


tal como descrito na Tabela a seguir.
1

Ligao simples

1/2

1/2

-1/2

Ligao completa

1/2

1/2

1/2

Ligao por mdia (no ponderada)

1/2

1/2

Ligao por mdia (ponderada)

nP
nP +nQ

Centroide

nP
nP +nQ

nQ
nP +nQ
nQ
nP +nQ

(nP Q+nPQ )2

n n

1/2

1/2

-1/4

nR +nP
nR +nP +nQ

nR +nQ
nR +nP +nQ

nR +nnPR +nQ

Nome

Mediana
Ward

O algoritmo com a ligao simples define a distncia entre os dois grupos no menor
valor das distncias individuais. Neste caso,
d(R, P + Q) = min{d(R, P ), d(R, Q)}.
Este algoritmo tambm chamado de algoritmo do vizinho mais prximo. Como consequncia de sua construo, a ligao simples tende a construir grandes grupos. Grupos
que diferem, mas no so bem separados. Algumas caractersticas desse mtodo so (i)
em geral, grupos muito prximos podem no ser identificados; (ii) permite detectar grupos de formas no-elpticas; (iii) apresenta pouca tolerncia a rudo, pois tem tendncia
a incorporar os rudos em um grupo j existente; (iv) apresenta bons resultados tanto
para distncias Euclidianas quanto para outras distncias; (v) tendncia a formar longas
cadeias.
O algoritmo de ligao completa tenta corrigir este tipo de agrupamento, considerando
os maiores (individuais) distncias. A distncia da ligao completa pode ser escrita como
d(R, P + Q) = max{d(R, P ), d(R, Q)}.
tambm chamado o algoritmo do vizinho mais distante. Este algoritmo ter grupos
de cluster onde todos os pontos esto prximos, desde que comparados com as maiores

66
distncias. Algumas caractersticas desse mtodo so: (i) apresenta bons resultados tanto
para distncias Euclidianas quanto para outras distncias; (ii) tendncia a formar grupos
compactos; (iii) os rudos demoram a serem incorporados ao grupo.
Os mtodos de ligao pelo vizinho mais prximo e por vizinho mais distante trabalham
em direes opostas. Se eles apresentam resultados semelhantes, significa que o grupo
est bem definido no espao, ou seja, o grupo real. Mas se ocorre o contrrio, os grupos
provavelmente no existem.
O algoritmo de ligao por mdia (ponderada ou no ponderada) prope um compromisso entre os dois algoritmos anteriores, na medida em que calcula uma distncia
mdia
d(R, P + Q) =

nP
nQ
d(R, P ) +
d(R, Q).
nP + nQ
nP + nQ

Algumas caractersticas desse mtodo so: (i) menor sensibilidade rudos que o os
mtodos de ligao por vizinho mais prximo e por vizinho mais distante; (ii) apresenta
bons resultados tanto para distncias Euclidianas quanto para outras distncias; (iii)
tendncia a formar grupos com nmero de elementos similares.
O algoritmo de centroide bastante semelhante do algoritmo de ligao por mdia
e usa a distncia natural geomtrica entre R e o centro de gravidade ponderada de P e Q
d(R, P + Q) =

nP
nQ
nP nQ
d(R, P ) +
d(R, Q)
d(P, Q).
nP + nQ
nP + nQ
(nP + nQ )2

Como caractersticas desse mtodo, encontram-se: (i) robustez presena de rudos;


(ii) devido ao fenmeno da reverso, o mtodo no muito utilizado. O fenmeno da
reverso ocorre quando a distncia entre centroides menor que a distncia entre grupos
j formados.
Algumas caractersticas referentes a ligao pela mediana so: (i) apresenta resultado
satisfatrio quando os grupos possuem tamanhos diferentes; (ii) pode apresentar resultado diferente quando permutado os elementos na matriz de similaridade; (iii) robustez
presena de outliers.
O algoritmo de agrupamento Ward calcula a distncia entre os dois grupos de acordo
com a frmula indicada na Tabela. A principal diferena entre este algoritmo e os procedimentos de ligao est no procedimento de unificao. O algoritmo de Ward no monta
grupos com menor distncia. Em vez disso, ele se junta os grupos que no aumentam
muito uma dada medida de heterogeneidade. O objetivo do processo de diviso unificar

67
grupos de tal forma que a variao dentro destes grupos no aumentem drasticamente:
os grupos resultantes so to homogneos quanto possvel. A heterogeneidade do grupo
R medida pela inrcia dentro do grupo, ela definida por
nR
1 X
IR =
d2 (xi , xR ),
nR i=1

sendo xR o centro de gravidade (mdia) de todos os grupos. IR fornece uma medida escalar
da disperso do grupo em torno do seu centro de gravidade. Se a distncia Euclidiana
habitual utilizada, IR representa a soma das varincias dos p componentes de xi dentro
do grupo R.
Quando dois objetos ou grupos P e Q so unidos, o novo grupo P + Q tem um IP +Q .
Pode ser mostrado que o aumento correspondente da inrcia dada pela
(P, Q) =

nP nQ 2
d (P, Q).
nP + nQ

Neste caso, o algoritmo de Ward definido como um algoritmo que une os grupos que do
o menor aumento em (P, Q). Quando P e Q so unidos, os novos valores do critrio dado
por (7.2), juntamente com os valores de i dada na Tabela, quando a frmula do centroide
usado para modificar d2 (R, P + Q). Assim, o algoritmo de Ward est relacionado com
o algoritmo de centroide, mas com uma distncia de inrcia maior que a distncia
geomtrica d2 .
Algumas caractersticas de mtodo de Wald so: (i) apresenta bons resultados tanto
para distncias euclidianas quanto para outras distncias; (ii) pode apresentar resultados
insatisfatrios quando o nmero de elementos em cada grupo praticamente igual; (iii)
tem tendncia a combinar grupos com poucos de elementos; (iv) sensvel presena de
outliers.
Os grupos, nos mtodos hierrquicos, so geralmente representados por um diagrama
bi-dimensional chamado de dendograma ou diagrama de rvore. Neste diagrama, cada
ramo representa um elemento, enquanto a raiz representa o agrupamento de todos os
elementos. Atravs do dendograma e do conhecimento prvio sobre a estrutura dos dados,
deve-se determinar uma distncia de corte para definir quais sero os grupos formados.
Essa deciso subjetiva, e deve ser feita de acordo o objetivo da anlise e o nmero de
grupos desejados.
Os mtodos divisivos trabalham na direo oposta dos mtodos aglomerativos, ou seja,
um grupo inicial contendo todos os elementos dividido em dois subgrupos, de tal forma

68
que os elementos em um subgrupo estejam distantes dos elementos do outro subgrupo.
Os mtodos divisivos so pouco mencionados na literatura, pois exigem uma maior
capacidade computacional que os mtodos aglomerativos.

7.3.2

Algoritmos de Particionamento

Os mtodos no-hierrquicos, ou por particionamento, foram desenvolvidos para agrupar elementos em k grupos, onde k a quantidade de grupos definida previamente. Nem
todos valores de k apresentam grupos satisfatrios, sendo assim, aplica-se o mtodo vrias
vezes para diferentes valores de k, escolhendo os resultados que apresentem melhor interpretao dos grupos ou uma melhor representao grfica.
A ideia central da maioria dos mtodos por particionamento escolher uma partio
inicial dos elementos e, em seguida, alterar os membros dos grupos para obter-se a melhor
partio. Quando comparado com o mtodo hierrquico, o mtodo por particionamento
mais rpido porque no necessrio calcular e armazenar, durante o processamento, a
matriz de similaridade.
Em geral, os mtodos por particionamento diferem entre si pela maneira que constituem a melhor partio. Os mtodos por particionamento mais conhecidos so o mtodo
k-mdias e o mtodo k-medides, e so descritos a seguir.
O mtodo k-mdias toma um parmetro de entrada, k, e particiona um conjunto de
n elementos em k grupos, da seguinte forma:
1. Escolhe arbitrariamente k elementos da base de dados como os centros iniciais dos
grupos;
FAZER
2. (re)Atribua cada elemento ao grupo ao qual o elemento mais similar, de acordo
com o valor mdio dos elementos no grupo;
3. Atualizar as mdias dos grupos, calculando o valor mdio dos elementos para cada
grupo;
AT que no haja mudanas de elementos de um grupo para outro.
Algumas caractersticas desse mtodo so: (i) sensibilidade a rudos, uma vez que um
elemento com um valor extremamente alto pode distorcer a distribuio dos dados; (ii)

69
tendncia a formar grupos esfricos; (iii) o nmero de grupos o mesmo durante todo o
processo; (iv) inadequado para descobrir grupos com formas no convexas ou de tamanhos
muito diferentes.
O mtodo k-medide utiliza o valor mdio dos elementos em um grupo como um ponto
referncia, chamado de medide. Esse o elemento mais centralmente localizado em um
grupo.
A estratgia bsica encontrar k grupos em n elementos e, arbitrariamente, encontrar
um elemento representativo (medide) para cada grupo. Cada elemento remanescente
agrupado com o medide ao qual ele mais similar. A estratgia, ento, iterativamente,
troca um dos medides por um dos no medides enquanto a qualidade do agrupamento
resultante melhorada. O mtodo segue o algoritmo:
1. Escolher, arbitrariamente, k elementos da base de dados como os medides iniciais
dos grupos;
FAZER
2. Atribua cada elemento remanescente ao grupo com o medide mais prximo;
3. Aleatoriamente, selecione um elemento que no esteja como medide, r;
4. Calcule o custo total (diferena de mdias), S, de trocar o medide Oj pelo elemento
r;
5. Se S < 0 ento troque Oj por r para formar o novo conjunto de k-medides;
AT que no haja mudana de objetos de um grupo para outro.
Algumas caractersticas desse mtodo so: (i) independente da ordem, os resultados
sero os mesmos; (ii) tendncia a encontrar grupos esfricos; (iii) processamento mais
custoso que o k-mdias; (iv) no aplicvel grandes bases de dados, pois o custo de
processamento alto; (v) mais robusto do que o k-mdias na presena de rudos porque
o medide menos influenciado pelos rudos do que a mdia.
Uma forma de otimizar o mtodo k-medide para grandes bases de dados considerar
uma poro dos dados como uma amostra representativa, e escolher os medides dessa
amostra.

Captulo 8
Anlise de Sries Temporais
Uma srie temporal uma coleo de observaes feitas sequencialmente ao longo
do tempo. A caracterstica mais importante deste tipo de dados que as observaes
vizinhas so dependentes e o interesse analisar e modelar esta dependncia. Enquanto
em modelos de regresso por exemplo a ordem das observaes irrelevante para a anlise,
em sries temporais a ordem dos dados crucial. Vale notar tambm que o tempo pode
ser substitudo por outra varivel como espao, profundidade, etc.
Como a maior parte dos procedimentos estatsticos foi desenvolvida para analisar
observaes independentes o estudo de sries temporais requer o uso de tcnicas especficas. Algumas caractersticas so particulares a este tipo de dados, por exemplo, (i)
observaes correlacionadas, (ii) ordem temporal das observaes importante, (iii) presena de tendncias e variao sazonal ou cclica que dificultar a anlise, (iv) complicado
fazer seleo de modelos, (v) difcil lidar com observaes perdidas e dados discrepantes
devido natureza sequencial.
Uma srie temporal dita ser contnua quando as observaes so feitas continuamente
no tempo ou discreta quando as observaes so feitas em tempos especficos, geralmente
equi-espaados. Note que estes termos no se referem natureza da varivel observada,
que pode assumir valores discretos ou contnuos. Ressaltamos que sries temporais discretas podem surgir da discretizao de sries contnuas.
De um modo geral, os principais objetivos em se estudar sries temporais podem ser
os seguintes: (i) descrio: propriedades da srie, (ii) explicao: usar a variao em uma
srie para explicar a variao em outra srie, (iii) predio: predizer valores futuros com
base em valores passados, (iv) controle de processos.

70

71
Neste resumo abordaremos algumas tcnicas descritivas e modelos probabilsticos de
Box-Jenkins para sries estacionrias. A ferramenta bsica para abordar uma srie temporal a funo de autocorrelao.

8.1

Tcnicas Descritivas

Ao se analisar uma ou mais sries temporais a representao grfica dos dados sequencialmente ao longo do tempo fundamental e pode revelar padres de comportamento
importantes. Tendncias de crescimento (ou decrescimento), padres cclicos, alteraes
estruturais, observaes aberrantes, etc. so muitas vezes facilmente identificados. Sendo
assim, o grfico temporal deve ser sempre o primeiro passo e antecede qualquer anlise.
Outras ferramentas so descritas ao longo desta seo.

8.2

Decomposio Clssica

Muitas das propriedades observadas em uma srie temporal Xt podem ser captadas
assumindo-se a seguinte forma de decomposio
Xt = Tt + Ct + Rt
sendo Tt uma componente de tendncia, Ct uma componente cclica ou sazonal e Rt
uma componente aleatria ou rudo (a parte no explicada, que espera-se ser puramente
aleatria). A componente cclica se repete a cada intervalo fixo s, i.e.
. . . = Ct2s = Cts = Ct = Ct+s = Ct+2s = . . . .
Assim, variaes peridicas podem ser captadas por esta componente.
Componente de tendncia
Podemos pensar em tendncia como uma mudana de longo prazo no nvel mdio
da srie. A dificuldade aqui definir longo prazo. Procura-se neste caso usar modelos
de regresso para caracterizar o sinal que controla a srie. Por exemplo, o modelo de
tendncia linear: Tt = + t, o modelo de regresso linear simples: Tt = + xt e
o modelo de regresso no linear: Tt = 1/( + xt ). Seja qual for a curva utilizada, a

72
funo ajustada fornece uma medida da tendncia da srie, enquanto os resduos (valores
observados-valores ajustados) fornecem uma estimativa de flutuaes locais.
Outro procedimento para analisar sries com tendncia utilizando filtros, que so
transformaes nas sries que removem a componente de tendncia. Exemplos de filtros:
filtro linear (converte a srie por meio de uma operao linear), alisamento exponencial
(um tipo de filtro linear assimtrico), diferenciao da srie.
Componente cclica ou sazonal
Uma forma bastante simples de eliminar o efeito sazonal simplesmente tomar mdias
sazonais. Por exemplo, em dados mensais com sazonalidade anual, as mdias anuais
estaro livres do efeito sazonal. Embora este procedimento esteja correto muitos dados
sero perdidos e ao invs disto pode-se recorrer um filtro.

8.3

Autocorrelao

Uma importante ferramenta para se identificar as propriedades de uma srie temporal


consiste de uma srie de quantidades chamadas coeficientes de autocorrelao amostral.
O interesse em sries temporais geralmente analisar a correlao entre as observaes
de uma mesma varivel em diferentes horizontes de tempo, i.e. correlaes entre observaes defasadas 1, 2, . . . perodos de tempo. Assim, dadas n observaes x1 , . . . , xn1 e
x2 , . . . , xn de uma srie temporal discreta podemos formar os pares (x1 , x2 ), . . . , (xn1 , xn ).
Considerando x1 , . . . , xn1 e x2 , . . . , xn como duas variveis o coeficiente de correlao entre xt e xt+1 dado por
Pn1

(xt x1 )(xt+1 x2 )
r1 = qP t=1
,
Pn1
n1
2
2
1 )
2 )
t=1 (xt x
t=1 (xt+1 x
sendo
x1 =

n1
X
t=1

xt /(n 1) e x2 =

n
X

(8.1)

xt /(n 1).

t=2

Como o coeficiente r1 mede as correlaes entre observaes sucessivas ele chamado


de coeficiente de autocorrelao ou coeficiente de correlao serial. usual simplificar a
P
equao (8.1) utilizando a mdia de todas as observaes, ou seja, x = nt=1 xt /n j que
x1 x2 , e assumindo varincia constante, temos
Pn1
)(xt+1 x)
tx
t=1 (xP
,
r1 =
n
(n 1) t=1 (xt x)2 /n

73
sendo que alguns autores ainda retiram o termo n/(n 1) que prximo de 1 para n no
muito pequeno. Est forma ser considerada neste texto.
Assim,
Pnk
(xt x)(xt+k x)
rk = t=1Pn
)2
t=1 (xt x
fornece o coeficiente de correlao de ordem k. Assim como o coeficiente de correlao
usual, as autocorrelaes so adimensionais e 1 < rk < 1.
Na prtica mais usual calcular primeiro os coeficientes de autocovarincia {ck },
definidos por analogia com a frmula usual de covarincia, ou seja,
nk
X
ck =
(xt x)(xt+k x)/n.
t=1

Assim, os coeficientes de autocorrelao so ento obtidos como rk = ck /c0 . Esta


funo assintoticamente normalmente distribuda, com mdia e varincia dados por
E(rk ) 1/n

Var(rk ) 1/n,

os limites de confiana aproximados de 95% frequentemente utilizados so dados por

1, 96 n.
Um grfico com os k primeiros coeficientes de autocorrelao como funo de k
chamado de correlograma e pode ser uma ferramenta poderosa para identificar caractersticas da srie temporal. Porm isto requer uma interpretao adequada do correlograma,
i.e. devemos associar certos padres do correlograma como determinadas caractersticas
de uma srie temporal. Esta nem sempre uma tarefa simples e a seguir so dadas
algumas indicaes.
Sries aleatrias: Para uma srie completamente aleatria os valores defasados so
no correlacionados e espera-se que rk = 0.
Correlao de curto-prazo: Um correlograma desta srie dever exibir um valor
relativamente grande de r1 seguido por valores que tendem a ficar sucessivamente
menores. A partir de uma certa defasagem k os valores de rk tendem a ser aproximadamente zero.
Correlao negativa: O valor de r1 ser negativo enquanto o valor de r2 ser positivo
(ou ao contrrio) j que as observaes defasadas de 2 perodos tendem a estar do
mesmo lado da mdia.

74
Sries no estacionrias: Os valores de rk no decairo para zero a no ser em
defasagens grandes.
Variao sazonal: De forma geral, o correlograma ir exibir oscilaes na mesma
frequncia da flutuao sazonal.
Observaes discrepantes: O correlograma pode ser seriamente afetado, evidenciando correlao espria.

8.4

Modelos Probabilsticos

Nesta seo so descritos alguns modelos adequados para dados de sries temporais.
Tais modelos so chamados de processos estocsticos.
Uma srie temporal gerada por um processo determinstico aquela onde possvel
prever exatamente valores futuros a partir de valores passados. Contudo muitos fenmenos
dinmicos correspondem ao conjunto dos chamados processos estocsticos ou aleatrios
onde valores futuros so apenas parcialmente determinados a partir de valores passados.
Os modelos criados para sries estocsticas so tambm denominados processos estocsticos.
Em geral um processo estocstico define-se como uma famlia de variveis aleatrias
{Xt } = (X1 , X2 , . . . , Xt ) indexadas no tempo. Isto quer dizer que se uma srie temporal
{x(t)} = {x1 , x2 , . . . , xt } for gerada pelo processo estocstico {Xt }, o valor x1 um resultado aleatrio que segue a distribuio de probabilidades de X1 , o valor x1 um resultado
aleatrio que segue a distribuio de probabilidades de X2 , e assim sucessivamente.
Uma classe importante de processos estocsticos os chamados processos estacionrios.
Um processo estacionrio aquele onde o sistema se apresenta num estado de equilbrio
estatstico em torno de um nvel mdio fixo, ou seja, no apresenta tendncia. Isto quer
dizer que o sistema tem propriedades probabilsticas invariantes ao longo do tempo.
De maneira mais rigorosa, um processo estocstico {Xt }, estritamente estacionrio
se a funo densidade de probabilidade conjunta da famlia de variveis aleatrias do
processo, depende unicamente da localizao relativa das variveis. Isto quer dizer que se
fX1 ,X2 ,...,Xt denota a funo densidade de probabilidade conjunta para o processo {Xt },

75
ento para que o processo seja considerado estritamente estacionrio deve verificar-se que,
fX1+k ,X2+k ,...,Xt+k = fX1 ,X2 ,...,Xt ,
para qualquer k inteiro.
Contudo a estacionaridade no sentido estrito uma propriedade muito exigente e de
difcil verificao. Uma definio menos exigente de estacionaridade, corresponde a os
processos fracamente estacionrios at 2a ordem. Neste caso apenas necessrio que
as funes densidade de probabilidade das variveis aleatrias possuam caractersticas
comuns quando expressas nos termos at 2a ordem.
Isto quer dizer que um processo estocstico {Xt } fracamente estacionrio at 2a
ordem se a sua famlia de variveis aleatrias verifica as seguintes propriedades para a
mdia, varincia e covarincia,
E(Xk ) = ,

Var(Xk ) = 2

Cov(Xk , Xk+1 ) = Cov(X1 , X2 ),

para qualquer k inteiro, sendo necessrio que e 2 sejam valores finitos. Note-se que
a covarincia entre duas variveis consecutivas do processo devem sempre ser iguais a
covarincia entre as duas primeiras variveis do processo.
A seguir so apresentados alguns processos estocsticos que so utilizados com frequncia na especificao de modelos para sries temporais.

8.4.1

Sequncia Aleatria

Um processo em tempo discreto chamado puramente aleatrio se consiste de uma


sequncia de v.a. {Xt } independentes e identicamente distribudas. Ou seja, a mdia e a
varincia so constantes e
(k) = Cov(Xt , Xt+k ) = 0, k = 1, 2, . . . .
Como a mdia e a funo de autocovarincia no dependem do tempo o processo
estacionrio em segunda ordem. A funo de autocorrelao simplesmente

1, k = 0
(k) =
.
0, k = 1, 2, . . .
Um processo puramente aleatrio as vezes chamado de rudo branco e pode ser til
por exemplo na construo de processos mais complicados.

76

8.4.2

Passeio Aleatrio

Seja {t } um processo discreto puramente aleatrio com mdia e varincia 2 . Um


processo {Xt } chamado de passeio aleatrio se
Xt = Xt1 + t .
Sendo E(Xt ) = t e Var(Xt ) = t2 , dependem de t. Portanto, este processo no
estacionrio.
No entanto, interessante notar que a primeira diferena de um passeio aleatrio
estacionrio j que
Xt = Xt Xt1 = t .

8.4.3

Modelos de Box-Jenkins para Sries Estacionrias

Apresentaremos nesta seo os principais modelos de Box-Jenkins para estimao e


previso de sries temporais. Sendo estes modelos pertencentes a famlia dos autoregressivosmdias-mveis (ARMA), subdividindo em dois outros modelos: autoregressivo (AR) e
mdias-mveis (MA).
Processos de Mdia Mveis
Seja {t } um processo discreto puramente aleatrio com mdia zero e varincia 2 .
Um processo {Xt } chamado de processo de mdias mveis de ordem q, ou M A(q), se
Xt = t + 1 t1 + . . . + q tq .

(8.2)

Seja Xt um processo M A(1), ou seja,


Xt = t + 1 t1
Considerando E(t ) = 0, Var(t ) = Cov(t , t ) = 2 e Cov(t , s ) = 0, t 6= s, provenientes do processo discreto puramente aleatrio. A mdia, varincia e autocovarincia
de Xt so dados, respectivamente, por
E(Xt ) = E(t ) + 1 E(t1 ) = 0
Var(Xt ) = Var(t ) + 12 Var(t1 ) + 21 Cov(t , t1 ) = 2 + 12 2 = 2 (1 + 12 )
Cov(Xt , Xt+1 ) = Cov(t , t+1 ) + 1 Cov(t , t ) + 12 Cov(t1 , t+1 ) + 1 Cov(t1 , t ) = 1 2 .

77
Portanto,
(1) =

1
1 2
=
.
2
2
 (1 + 1 )
1 + 12

Seja, agora, Xt um processo M A(2), ou seja,


Xt = t + 1 t1 + 2 t2
A mdia, varincia e autocovarincia de Xt so dados, respectivamente, por
E(Xt ) = E(t ) + 1 E(t1 ) + 2 E(t2 ) = 0
Var(Xt ) = Var(t ) + 12 Var(t1 ) + 22 Var(t2 ) + 21 Cov(t , t1 ) +
21 2 Cov(t1 , t2 ) + 22 Cov(t , t2 )
= 2 + 12 2 + 22 2 = 2 (1 + 12 + 22 )
Cov(Xt , Xt+1 ) = Cov(t , t+1 ) + 1 Cov(t , t ) + 2 Cov(t , t1 ) + 1 Cov(t1 , t+1 ) +
12 Cov(t1 , t ) + 1 2 Cov(t1 , t1 ) + 2 Cov(t2 , t+1 )
+1 2 Cov(t2 , t ) + 22 Cov(t2 , t1 )
= 1 2 + 1 2 2 = 2 (1 + 1 2 ).
Portanto,
(2) =

2 (1 + 1 2 )
1 + 1 2
=
.
2
2
2
 (1 + 1 + 2 )
1 + 12 + 22

Realizando o mesmo processo para Xt um processo M A(q), temos que E(Xt ) = 0,


Var(Xt ) = (1 + 12 + . . . + q2 )2 e funo de autocovarincia dada por

0,
k>q

P
,
(k) =
2 qk
j=0 j j+k , k = 0, . . . , q

(k)
k<0
sendo 0 = 1.
A funo de autocorrelao dada por

1,
k=0


P
P
k
2
(k) =
.
2 qk
j=0 j j+k
j=0 j , k = 0, . . . , q

(k)
k < 0; k > q
Note que a funo tem um ponto de corte na defasagem q, ou seja, (k) = 0 para
k > q. Esta uma caracterstica especfica de processos mdias mveis e ser til na
especificao do valor de q na prtica.

78
Como a mdia e a varincia so constantes e (k) no depende de t o processo
(fracamente) estacionrio para todos os possveis valores de 1 , 2 , . . . , q . Em geral
desejvel impor restries para que eles satisfaam uma condio de inversibilidade. Esta
condio pode ser melhor expressa ao usar o operador de retardo, denotado por B e
definido como
B j Xt = Xtj , para todo j.
Assim, (8.2) pode ser escrita como
Xt = (1 + 1 B + 2 B 2 + . . . + q B q )t = (B)t ,
sendo (B) um polinmio de ordem q em B. Um processo M A(q) inversvel se as razes
da equao
(B) = 1 + 1 B + 2 B 2 + . . . + q B q )t = 0
estiverem fora do crculo unitrio. Teremos ento 2q modelos com a mesma funo de
autocorrelao mas somente um deles ser inversvel.
Processos Autoregressivos
Seja {t } um processo discreto puramente aleatrio com mdia zero e varincia 2 .
Um processo {Xt } chamado de processo autoregressivo de ordem p, ou AR(p), se
Xt = 1 Xt1 + . . . , p Xtp + t .

(8.3)

Note a similaridade com um modelo de regresso mltipla, onde os valores passados de


Xt fazem o papel das regressoras.
Seja Xt um processo AR(1), ou seja,
Xt = 1 Xt1 + t

(8.4)

Note que existe uma estrutura Markoviana no processo AR(1) no sentido de que, dado
Xt1 , Xt no depende de Xt2 , Xt3 , . . .. Fazendo substituies sucessivas obtemos que
Xt = (Xt2 + t1 ) = 2 Xt2 + t1 + t
= 2 (Xt3 + t2 ) + t1 + t
= ...
=

r+1

Xtr1 +

r
X
j=0

j tj .

79
2
Se Xt for estacionrio com varincia finita X
podemos escrever que
!2
r
X
2
2
E Xt
j tj
= 2r+2 E(Xtr1
) = 2r+2 X
.
j=0

e se || < 1 temos que 2r+2 0 quando r . Portanto, esta condio nos permite
escrever Xt como o seguinte processo MA infinito,
Xt = t + t1 + 2 t2 + . . . .
e assim || < 1 uma condio suficiente para que Xt seja estacionrio.
Podemos tambm usar o operador de retardo reescrevendo a equao (8.4) como
(1 B)Xt = t
ou equivamentemente
Xt =

1
t = (1 + B + 2 B 2 + . . .)t = t + t1 + 2 t2 + . . . .
(1 B)

Escrevendo o processo AR(1) neste formato de MA infinito fica fcil ver que a sua
mdia e varincia so dados por
E(Xt ) = 0 Var(Xt ) = 2 (1 + 2 + 4 + . . .) =

2
.
1 + 2

A funo de autocovarincia para || < 1 pode-se mostrar que


(k) = E(Xt Xt+k ) = k

2
2
= k X
.
1 2

Portanto, a funo de autocorrelao (k) = k , k = 0, 1, . . .. Como a mdia e a varincia


so constantes e (k) no depende de t o processo AR(1) com || < 1 estacionrio.
Generalizando os resultados acima para um processo AR(p) escrevemos novamente Xt
como um processo MA infinito com coeficientes 0 , 1 , . . ., ou seja,
Xt = 0 t + 1 t1 + 2 t2 + . . . = (0 + 1 B2 B 2 + . . .)t = (B)t
em analogia com o caso AR(1) segue que o processo ser estacionrio se

Usando agora o operador de retardo a equao (8.3) temos


(1 1 B 2 B 2 . . . p B p )Xt = t

ou

e portanto o processo AR(p) pode ser escrito como


Xt = (B)1 t = (B)t .

(B)Xt = t

j2 < .

80
Assim, os coeficientes j podem ser obtidos a partir dos coeficientes j fazendo
(1 1 B 2 B 2 . . . p B p )(0 + 1 B + 2 B 2 + . . .) = 1
o efeito de t em Xt+k dado por k , k = 1, 2, . . ..
Para um processo AR(p), o ltimo coeficiente p mede o excesso de correlao na
defasagem p que no levado em conta por um modelo AR(p 1). Este chamado
de p-simo coeficiente de autocorrelao parcial. Assim, variando k = 1, 2, . . . temos a
chamada funo de autocorrelao parcial (facp).
Por outro lado, em um processo AR(p) no existe correlao direta entre Xt e Xtp1 ,
Xtp2 , . . ., que faz com que todos os coeficientes de correlao parcial sejam nulos para
k > p. O fato de que a facp igual a zero para k > p pode ser usado como uma ferramenta
para determinar a ordem p do processo autoregressivo para sries temporais observadas.
Modelos Mistos ARMA
Combinando-se modelos AR e M A pode-se obter uma representao adequada com
um nmero menor de parmetros. Processos autoregressivos mdias mveis (ARMA)
formam um classe de modelos muito teis e parcimoniosos para descrever dados de sries
temporais. O modelo ARM A(p, q) dado por
Xt = 1 Xt1 + . . . + p Xtp + t + 1 t1 + . . . + q tq ,
sendo {t } um processo puramente aleatrio com mdia zero e varincia 2 .
Note que, modelos AR ou M A podem ser obtidos como casos especiais quando p = 0
ou q = 0. Usando o operador diferena o modelo pode ser reescrito como
(1 1 B 2 B 2 . . . p B p )Xt = (1 + 1 B + 2 B 2 . . . + q B q )t
ou
(B)Xt = (B)t .
Os valores de 1 , . . . , p que tornam o processo estacionrio so tais que as razes de
(B) = 0 que esto fora do crculo unitrio. Analogamente, os valores de 1 , . . . , q que
tornam o processo inversvel so tais que as razes de (B) = 0 que esto fora do crculo
unitrio.
Vale notar que as funes de autocorrelao e autocorrelao parcial so consideravelmente mais complicadas em processos ARM A. De um modo geral, para um processo

81
ARM A(p, q) estacionrio a funo de autocorrelao tem um decaimento exponencial ou
oscilatrio aps a defasagem q enquanto que a facp tem o mesmo comportamento aps a
defasagem p. Este resultado pode ser utilizado para auxiliar na determinao da ordem
(p, q) do processo, mas na prtica pode ser bastante difcil distinguir entre decaimentos
exponenciais e oscilatrios por meio das estimativas destas funes.

8.5

Estimao

Nesta seo discutido o problema de ajustar um modelo aos dados observados. A


inferncia ser conduzida via funo de autocorrelao.
Para sries estacionrias o correlograma comparado com as autocorrelaes tericas de vrios processos ARM A para auxiliar na identificao daquele mais apropriado.
Por exemplo, se r1 significativamente diferente de zero e todos os valores subsequentes
r2 , r3 , . . . so prximos de zero ento um modelo M A(1) indicado j que sua funo
de autocorrelao terica se comporta assim. Por outro lado, se r1 , r2 , . . . parecem estar
decaindo exponencialmente ento um modelo AR(1) pode ser apropriado.

8.5.1

Ajustando Processos Autoregressivos

Para um processo AR de ordem p com mdia dado por


Xt = 1 (Xt1 ) + . . . , p (Xtp ) + t
e dadas n observaes x1 , x2 , . . . , xn , os parmetros , 1 , . . . , p podem ser estimados
pelo mtodo de mnimos quadrados, ou seja, minimizando-se a soma de quadrados
n
X
S=
[1 (xt1 ) + . . . , p (xtp )]2
t=p+1

com respeito a , 1 , . . . , p . Note que o somatrio de t = p + 1 em diante, mas esta


pequena perda de informao no importante se a srie no for muito curta. Alm disso,
se o processo Xt seguir distribuio normal ento as estimativas de mnimos quadrado
coincidem com as estimativas de mxima verossimilhana condicionada nas p primeiras
observaes.
Alternativamente, um mtodos aproximados podem ser utilizado tomando-se
= x.
Ajustando os dados o modelo
Xt x = 1 (Xt1 x) + . . . , p (Xtp x) + t

82
como se fosse um modelo de regresso linear mltipla.

8.5.2

Ajustando Processos Mdias Mveis

O problema de estimao dos parmetros em modelos M A bem mais complicado do


que em modelos AR. Assim, mtodos computacionais iterativos precisam ser utilizados
para minimizar a soma de quadrados residual.
Dado um processo M A(q)
Xt = + t + 1 t1 + . . . + q tq
e uma srie observada x1 , x2 , . . . , xn o procedimento iterativo consiste basicamente em
fixar os valores de , 1 , . . . , q e calcular os resduos
xt 1 t1 . . . q tq
sequencialmente para t = 1, . . . , n assumindo que 0 = 1 = . . . = q+1 = 0. Dados
estes resduos pode-se calcular a soma de quadrados residual. Repetindo este procedimento para , 1 , . . . , q variando em uma grade de pontos pode-se escolher os valores
que minimizam a soma de quadrados. Este procedimento requer o uso de algoritmos
eficientes de otimizao numrica e nada garante a sua convergncia para um mnimo
global.

8.5.3

Ajustando Processos ARMA

Os problemas de estimao para modelos ARM A so similares aqueles para modelos


M A no sentido de que um procedimento iterativo precisa ser utilizado. Portanto os
comentrios feitos para o ajuste de processos mdias mveis podem ser considerados.

8.6

Adequao do Modelo

Aps identificar a ordem e estimar eficientemente os parmetros de um modelo


necessrio verificar sua adequao antes de utiliz-lo por exemplo para fazer previses.
Aps o ajuste do modelo a uma srie temporal deve-se verificar se ele fornece uma
descrio adequada dos dados. Assim como em outros modelos estatsticos a ideia verificar o comportamento dos resduos, sendo resduo = observao - valor ajustado. Alm

83
disso, em modelos de sries temporais os resduos esto ordenados no tempo e portanto
natural trat-los tambm como uma srie temporal. particularmente importante que os
resduos de um modelo estimado sejam serialmente no correlacionados. Caso contrrio,
h evidncia falta de ajuste.
Consequentemente, duas maneiras de verificar a adequao do modelo consistem em
representar graficamente os resduos e o seu correlograma. O grfico temporal poder
revelar a presena de dados discrepantes, efeitos de autocorrelao ou padres cclicos
enquanto que o correlograma permite uma anlise mais detalhada da estrutura de autocorrelao indicando possveis termos faltantes no modelo.

8.7

Previso em Modelos ARMA

Uma das formas de utilizao de um modelo ajustado para fazer previses de valores
futuros. Assim, se t o perodo corrente estamos interessados em prever os valores de
Xt+1 , Xt+2 , . . .. A previso de Xt+k , para k = 1, 2, . . . ser denotada por xt (k) e definida
como a esperana condicional de Xt+k dados todos os valores passados, ou seja,
xt (k) = E(Xt+k |xt , xt1 , . . .).
A equao acima chamada de funo de previso e o inteiro k chamado de horizonte
de previso.
Em modelos ARMA as previses podem ser obtidas usando-se diretamente a equao
do modelo. Assumindo que a equao do modelo seja conhecida a previso xn (k) obtida
substituindo os valores futuros dos erros  por zero, valores futuros da srie Xn+1 , Xn+2 , . . .
pela sua esperana condicional, e valores passados de X e de  pelos seus valores observados.
No caso de modelos autoregressivos AR(p) a funo de previso dada por
xt (1) = 1 xt + . . . + p xtp+1
xt (2) = 1 xt (1) + . . . + p xtp+2
..
.
xt (p + 1) = 1 xt (p) + . . . + p xt (1).
de modo que as previses para horizontes maiores do que p usam apenas as previses
anteriores.

84
No caso de modelos mdias mveis ARM A(q) a funo de previso dada por
xt (1) = 1 t + . . . + q tq+1
xt (2) = 2 t + . . . + q tq+2
..
.
xt (p + 1) = q t
xt (q + j) = 0, j = 1, 2, . . . .

Captulo 9
Tcnicas de Amostragem
A amostragem uma tcnica estatstica naturalmente presente em muitas situaes,
no cotidiano das pessoas. Fazer uma amostragem extrair do todo (populao) uma
parte (amostra) com o propsito de avaliar certas caractersticas desta populao. A
populao o conjunto de objetos, indivduos ou resultados experimentais dos quais
se pretende estudar alguma caracterstica comum. As populaes podem ser finitas ou
infinitas, existentes ou conceptuais. A amostra uma parte da populao que observada
com o objetivo de obter informao para estudar a caracterstica pretendida.
De maneira geral, existem trs situaes em que pode no valer a pena a realizao
de amostragem: (i) populao muito pequena, (ii) caracterstica de fcil mensurao, (iii)
necessidade de alta preciso. Nos demais casos, o uso de amostragem pode ser interessante,
alm de fornecer vantagens como: (i) processo mais econmico, (ii) situaes que no h
tempo suficiente para pesquisar toda a populao, (iii) confiabilidade dos dados (menor
chance de erros), e (iv) operacionalidade.
Veja o exemplo do tempero: ao provar (observar) uma pequena poro de um alimento,
estamos fazendo uma amostragem. Se a amostragem for bem elaborada o tempero da
parte provada ser semelhante ao todo, permitindo produzir concluses eficientes sobre o
tempero do alimento.
Assim, introduzimos intuitivamente a necessidade da representatividade da amostra,
ou seja, a menos de certas pequenas discrepncias inerentes aleatoriedade sempre presente, em maior ou menor grau, no processo de amostragem, a amostra deve possuir as
mesmas caractersticas bsicas da populao, no que diz respeito (s) varivel(is) que
desejamos pesquisar.

85

86
Ao realizar uma amostra, devemos elaborar um plano de amostragem envolvendo a
definio da unidade de amostragem, a forma de seleo dos elementos da populao e o
tamanho da amostra. A unidade de amostragem a unidade a ser selecionada para se
chegar aos elementos da populao. Tais unidades podem ser os prprios elementos da
populao, ou outros, mais fceis de serem selecionados e que, de alguma forma estejam
associados aos elementos da populao. A seleo dos elementos que iro fazer parte
da amostra pode ser feita de diversas maneiras, contudo vamos somente considerar a
amostragem probabilstica, ou seja, um plano de amostragem em que cada elemento da
populao tem uma probabilidade conhecida de ser includo na amostra.

9.1

Tcnicas de amostragem probabilstica

A seguir iremos descrever algumas tcnicas de amostragem probabilstica para populaes finitas e explicitar o clculo do tamanho amostral para a mdia de uma populao.
Dos vrios tipos de planeamento disponveis na literatura, destacamos a amostragem
aleatria simples (AAS) com e sem reposio e a amostragem estratificada. Mencionamos
a ideia de amostragem por conglomerados e amostragem sistemtica.

9.1.1

Amostragem Aleatria Simples

A amostragem aleatria simples o tipo de amostragem probabilstica mais simples e


mais importante para a seleo de uma amostra. Ele pode ser caracterizado por meio da
definio operacional: De uma lista com N unidades amostrais, seleciona-se sequencialmente n unidades amostrais, de forma que cada amostra tenha a mesma chance de ser
escolhida. Este processo pode ser executado considerando a reposio ou no da unidade
amostral na populao, dando origem a AAS com reposio e AAS sem reposio, respectivamente.
A AAS sem reposio mais interessante em termos prticos pois satisfaz o princpio intuitivo de que no ganhamos mais informao se uma mesma unidade aparece na
amostra mais de uma vez. Por outro lado, a AAS com reposio introduz vantagens
matemticas e estatsticas, como a independncia entre as unidades sorteadas, que facilita a determinao das propriedades dos estimadores das quantidades populacionais de
interesse.

87

9.1.2

AAS com reposio

No processo de sorteio sequencial, aps a amostra ter sido retirada ela devolvida
(reposio) para a populao antes que a prxima unidade amostrada seja selecionada.
Neste processo a varivel fi , nmero de vezes que a unidade i aparece na amostra,
segue uma distribuio Bin(n, 1/N ). Logo,
n 
n
1
,
N
N
   0 
n

n
n
1
1
1
= P (fi 6= 0) = 1 P (fi 6= 1) = 1
1
=1 1
0
N
N
N
n

n

2
1
+12 1
.
= P (fi 6= 0 fj 6= 0) = 1 P (fi 6= 1 fj 6= 1) = 1 2 1
N
N
E(fi ) =

i
ij

n
,
N

Var(fi ) =

Como cada tentativa tentativa independente e cada um dos N elementos da populao tem mesma probabilidade de ser selecionado 1/N . Caracteriza para a (f1 , f2 , . . . , fn )
a distribuio multinomial com parmetros (n, 1/N, . . . , 1/N ), logo
Cov(fi , fj ) = n

n
1 1
= 2.
NN
N

Considere agora os seguintes estimadores populacionais e amostrais:


Populacional
funo
P
= N
i=1 Yi
P
= Y = N1 N
i=1 Yi
P
2
2 = N1 N
i=1 (Yi )
P
2
S 2 = N11 N
i=1 (Yi )

Amostral
funo

esperana

varincia

T = N y
P
y = n1 ni=1 yi
Pn
1
s2 = n1
)2
i=1 (yi y

E(T ) =

Var(T ) = N 2 2 /n

E(
y) =

Var(
y ) = 2 /n

E(s2 ) = 2

A medida que o tamanho da amostra aumenta, as distribuies de y e T vo se


aproximando a distribuio normal, de acordo com Teorema Central do Limite (TCL),
tanto para o caso AAS com reposio quando para AAS sem reposio. Para n grande
temos, para AAS com reposio
y
p
a N (0, 1)
2
/n

T
p
a N (0, 1),
2
2
N /n

sendo que N (0, 1) denota a distribuio normal padro. Estes resultados assintticos
possibilitam obter intervalos de confiana aproximados y e T , ou seja,
!
|
y |
P p
z
= 1 ,
2
/n

88
sendo z o quantil da distribuio N (0, 1) que deixa uma rea no intervalo (z , z )
uma rea de (1 ). Desta construo, podemos obter um tamanho de amostra para o
estimador y quando n grande
n=

2
.
(B/z )2

Contudo, para obter o tamanho da amostra necessrio fixar o erro mximo desejado
p
(B = z 2 /n), com algum grau de confiana (1 ) e conhecimento a priori sobre a
variabilidade da populao ( 2 ). Amostra piloto pode ser til para estimar 2 .
De forma, muito similar podemos obter o tamanho amostral para o total populacional.
No caso em que o interesse uma proporo, o resultado assinttico de aproximao da
distribuio binomial a distribuio normal pode ser usado para n grande e a soluo
pode ser obtida de forma anloga.

9.1.3

AAS sem reposio

No processo de sorteio sequencial, aps a amostra ter sido retirada ela no devolvida
(sem reposio) para a populao antes que a prxima unidade amostrada seja selecionada.
Neste processo a varivel fi , nmero de vezes que a unidade i aparece na amostra,
segue uma distribuio Bin(1, n/N ). Logo,
n 
n
n N n
1
, Cov(fi , fj ) = 2
,
N
N
N N 1
n
= P (fi =
6 0) = 1 P (fi 6= 1) = ,
N
n n1
.
= P (fi 6= 0 fj 6= 0) = 1 P (fi 6= 1 fj 6= 1) =
N N 1

E(fi ) =
i
ij

n
,
N

Var(fi ) =

Considere agora os seguintes estimadores populacionais e amostrais:


Populacional
funo
P
= N
i=1 Yi
P
= Y = N1 N
i=1 Yi
P
2
2 = N1 N
i=1 (Yi )
P
2
S 2 = N11 N
i=1 (Yi )

Amostral
funo

esperana

varincia

T = N y
P
y = n1 ni=1 yi
Pn
1
s2 = n1
)2
i=1 (yi y
Pn
1
s2 = n1
)2
i=1 (yi y

E(T ) =

Var(T ) = N 2 (1 n/N )S 2 /n

E(
y) =

Var(
y ) = (1 n/N )S 2 /n

E(s2 ) = 2
E(s2 ) = S 2

Todos os resultados apresentados para AAS com reposio so equivalentes para AAS
sem reposio, exceto pelo expresso correspondente a varincia amostral que devemos

89
considerar a seguinte relao
(1 n/N )

S2
S2
S2
=
= 0.
n
n/(1 n/N )
n

Se tivssemos que optar por AAS com ou sem reposio para estimar a mdia de uma
populao, deveramos optar por AAS sem reposio, pois o efeito de planejamento (razo
entre varincias do estimador amostral) indica a AAS sem reposio como a melhor opo
para n 1 e equivalentes para n = 1.

9.1.4

Amostragem estratificada

No caso da AAS com reposio vimos que Var(


y ) = 2 /n. Ao aumentar o tamanho da
amostra, o erro padro diminui. Se a populao muito heterognea e as razes de custo
limitam o aumento da amostra, torna-se impossvel definir uma AAS com reposio da
populao com uma preciso razovel. Uma sada subdividir a populao em subpopulaes internamente mais homogneas. A tcnica de que envolve dividir a populao em
subgrupos a amostragem estratificada. Estes estratos devem ser internamente mais homogneos que a populao toda, com respeito s variveis em estudo (sexo, renda, bairro,
por exemplo). Sobre os diversos estratos da populao, so realizadas AAS. A amostra
completa obtida atravs da juno das amostras de cada estrato. A amostragem estratificada til na melhoria da preciso das estimativas e ao produzir estimativas para a
populao toda e subpopulaes.
A execuo de um plano amostral estratificado exige os seguintes passos:
1. Diviso da populao em subpopulaes bem definidas (estratos).
2. Retira-se uma amostra de cada estrato, usalmente independente (AAS com reposio).
3. Em cada amostra usa-se os estimadores convenientes para os parmetros do estrato.
4. Monta-se para a populao um estimador combinando os estimadores de cada estrato.
Daremos nfase a amostragem estratificada proporcional, que um caso particular
de amostragem estratificada. Aqui a proporcionalidade do tamanho de cada estrato da
populao mantida na amostra. Isto garante que cada elemento da populao tenha a
mesma probabilidade de pertencer a amostra.

90
Neste caso, o total populacional
es =

H
X

h =

h=1

Nh
H X
X

Yhi ,

h=1 i=1

sendo h o total da populao no estrato h, com h = 1, . . . , H e Nh o nmero de elementos


P
da populao dentro do estrato h. Considere o estimador T = H
h , com E(T ) = es
h=1 Nh y
PH
yh ), sendo que A indica a um plano amostral A.
e Var(T ) = h=1 Nh2 VarA (
A mdia populacional
H Nh
H
H
X
es
1 XX
1 X
=
Yhi =
Nh h =
W h h ,
es =
N
N h=1 i=1
N h=1
i=1

sendo h a mdia populacional no estrato h, com h = 1, . . . , H, Wh = Nh /N o peso do


P
P
P
h = H
h ,
estrato h, com H
es = N1 H
h=1 Nh y
h=1 Wh y
h=1 Wh = 1. Considere o estimador y
PH
yh ).
com E(
yes ) = es e Var(
yes ) = h=1 Wh2 VarA (
2
Seja a varincia populacional es
= d2 + e2 , com

d2 =

H
X

Wh h2 ,

e2 =

h=1

H
X

Wh (h es )2 ,

h=1

sendo d2 a varincia dos estratos (dentro) e e2 a varincia entre os estratos.


Para a expresso S 2 , temos
2
Ses

H
X
Nh 1
h=1

N 1

Sh2

H
X
Nh
+
(h es )2 .
N

1
h=1

Convm observar que quando todos os estratos tm a mesma mdia, ou seja, h = , h =


1, . . . , H a varincia populacional coincide com d2 .
A distribuio das n amostras pelos estratos cham-se de alocao amostral. Esse
procedimento que ir garantir a preciso. importante considerar que para estratos com
maior varincia um nmero maior de amostras seja designado. Porm, deve haver um
balanceamento com o tamanho do estrato. Para uma alocao proporcional n distribudo
da seguinte maneira
nh = nWh = n

Nh
.
N

Este caso tambm chamado de amostra representativa. Para esta alocao da amostra
temos que yes = y.
Analogamente ao processo apresentado para AAS com reposio, yes e es seguem
assintoticamente distribuio normal. Portanto, usando a mesma sequencia podemos
obter o tamanho amostral quando o interesse so a mdia e o total populacional.

91

9.1.5

Amostragem de conglomerados

Os planos amostrais vistos at agora sorteavam unidades amostrais diretamente da


populao ou de estratos desta mesma populao. Quando os sistemas de referncia no
so adequados e o custo de atualiz-los muito elevado, ou ainda quando movimentao
para identificar as unidades amostrais cara e consome muito tempo, a tarefa amostral
pode ser facilitada ao selecionar grupos de unidades amostrais (conglomerados). Uma
das inconvenincias deste mtodo que as unidades, dentro de um mesmo conglomerado,
tendem a ter valores parecidos em relao s variveis pesquisadas.
Existem duas formas de proceder na amostragem por conglomerados, a amostragem
por conglomerados em um estgio e amostragem por conglomerados em dois estgio. Na
primeira a populao dividida em subpopulaes (conglomerados) distintas (quarteiro,
famlia, bairro). Alguns conglomerados so selecionado segundo um AAS e todos os elementos nos conglomerados observados so amostrados. Em geral, menos eficiente que
AAS e a amostragem estratificada, mas mais econmica. Na segunda a populao dividida em subpopulaes, em um primeiro estgio algumas subpopulaes so selecionadas
usando AAS, e num segundo estgio uma amostra de unidades selecionada de cada
subpopulao selecionada no primeiro estgio.
A amostragem estratificada e a amostragem por conglomerados em um estgio podem
ser consideradas, para certas finalidades, como casos particulares da amostragem por
conglomerados em dois estgios.

9.1.6

Amostragem sistemtica

Quando existe uma listagem de indivduos da populao, pode-se sortear, um nome entre os dez primeiros e posteriormente selecionar o dcimo indivduo iniciando no primeiro
sorteado. A seleo do primeiro indivduo pode ser feita usando AAS. Os demais indivduos, que iro compor a amostra, so ento selecionados sistematicamente.

9.2

Tamanho da amostra mnimo

As formas mencionadas de clculo de tamanho amostral envolvem a natureza do


parmetro populacional de interesse e a normalidade assinttica do estimador deste parmetro.
No entanto, alguns autores citam como obter uma amostra minma baseada na seguinte

92
expresso
n=

N n0
,
N + n0

sendo n0 =

1
,
E02

ou seja, n minimo uma funo somente do tamanho populacional N e de n0 , sendo


n0 uma primeira aproximao para o tamanho da amostra envolvendo apenas o erro
amostral tolervel.

9.3

Erros amostrais e Erros No Amostrais

O Erro amostral ou variabilidade amostral a diferena entre a estimativa da amostra


e o parmetro da populao.
Decorre da prpria noo de amostra. Quando se recolhe uma amostra, alguma coisa
se perde da populao de onde foi retirada, pelo que, embora cuidadosamente recolhida,
uma amostra pode no ser representativa da populao. Do mesmo modo, no se pode
esperar que duas amostras, independentemente retiradas da mesma populao, forneam
resultados iguais. Porque existe esta variabilidade nas estimativas e porque a amostra no
uma perfeita representao da populao, os resultados que ela fornece so de alguma
forma errados.
O erro amostral pode ser controlvel com aes do tipo:
Tcnica de amostragem - optando por aquela que, no caso concreto, se revela mais
eficiente; mediante a escolha de um processo de amostragem aleatrio e do aumento
do tamanho da amostra, pode-se assegurar a representatividade e associar os resultados com grau de confiana elevado.
Estimadores - optando por aquele que seja mais eficiente, isto , com menor variabilidade.
O erro amostral um erro aleatrio, pois as estimativas comportam-se aleatoriamente
em torno do verdadeiro valor do parmetro. Ou seja, no coincidem com o parmetro,
estando umas estimativas acima e outras abaixo deste, mas concentram-se em torno de
um valor central que coincide com o verdadeiro valor do parmetro.
O erros no amostrais envolvem (i) definio errada do problema de pesquisa, (ii)
definio errada da populao de pesquisa, (iii) definio parcial da populao de pesquisa,
(iv) falta de respostas, (v) instrumentos de coleta de dados inadequados, (vi) anotao

93
errada dos entrevistadores, (vii) erro no processamento, (viii) processos de amostragens
no probabilsticos.

Você também pode gostar