Escolar Documentos
Profissional Documentos
Cultura Documentos
Sumrio
1 Modelos Probabilsticos Discretos
1.1
1.2
Distribuio Hipergeomtrica . . . . . . . . . . . . . . . . . . . . . . . . .
1.3
Distribuio Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4
Distribuio de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5
1.6
Distribuio Geomtrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
12
2.1
2.2
Distribuio Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3
2.2.1
Distribuio Qui-quadrado . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.2
Distribuio Exponencial . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.3
Distribuio Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Distribuio Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.1
Distribuio log-Normal . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4
Distribuio Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5
Distribuio F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5.1
Distribuio t-Student . . . . . . . . . . . . . . . . . . . . . . . . . 21
3 Estimao Intervalar
22
3.1
3.2
Funes Pivotais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3
ii
4 Teste de Hipteses
32
4.1
4.2
4.3
4.4
P-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
41
5.1
O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2
Funo de Verossimilhana . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2.1
5.2.2
Intervalos de Confiana . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3
Funo Desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.4
5.5
Anlise de Resduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6 Anlise Discriminante
48
6.1
6.2
6.3
6.4
6.5
6.6
6.7
59
7.1
O problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7.2
7.3
7.2.1
7.2.2
Algoritmos de cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7.3.1
7.3.2
Algoritmos de Particionamento . . . . . . . . . . . . . . . . . . . . 68
iii
8 Anlise de Sries Temporais
70
8.1
Tcnicas Descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
8.2
Decomposio Clssica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
8.3
Autocorrelao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
8.4
Modelos Probabilsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
8.5
8.4.1
Sequncia Aleatria . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
8.4.2
Passeio Aleatrio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
8.4.3
Estimao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.5.1
8.5.2
8.5.3
8.6
Adequao do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
8.7
9 Tcnicas de Amostragem
9.1
. . . . . . . . . . . . . . . . . . . . . . . . . 83
85
9.1.2
9.1.3
9.1.4
Amostragem estratificada . . . . . . . . . . . . . . . . . . . . . . . 89
9.1.5
Amostragem de conglomerados . . . . . . . . . . . . . . . . . . . . 91
9.1.6
Amostragem sistemtica . . . . . . . . . . . . . . . . . . . . . . . . 91
9.2
9.3
Captulo 1
Modelos Probabilsticos Discretos
Inicialmente, considere a terna (, F, P ), onde o espao amostral que representa
o conjunto de possveis resultados para um experimento aleatrio, F a -lgebra que
representa todos os possveis eventos compostos e P a medida de probabilidade que
atribui um valor entre 0 e 1 para cada evento. Uma varivel aleatria (v.a.) X uma
funo do espao amostral na reta <, tal que X 1 (I) = { : X() I} F, para
todo I <.
Suponha que estamos interessados apenas em variveis aleatrias X discretas, ou seja,
somente as v.a. que a variao de X, o espao amostral, contvel. Em situaes mais
comuns, a varivel aleatria assume valores inteiros. Uma funo de probabilidade de
uma v.a. discreta uma funo que atribui probabilidade a cada possvel valor assumido
por X, ou seja,
p(xi ) = P (X = xi ) = P ({ : X() = xi }).
Em palavras, a probabilidade da varivel aleatria X possuir valor xi a probabilidade
do evento descrito por { : X() = xi }, ou seja, a probabilidade dos pontos do
espao amostral nos quais a funo X(), que define a varivel aleatria, tem valor xi .
P
Esta funo satisfaz: (i) 0 p(xi ) 1, para todo i, e (ii) iI p(xi ) = 1, I indica um
certo conjunto de ndices.
Funes de probabilidade so utilizadas para modelar populaes. Geralmente tratamos de famlias de modelos probabilsticos indexadas por um ou mais parmetros, os quais
permitem variar caractersticas do modelo dentro de sua forma funcional. O objetivo deste
tpico apresentar os modelos probabilsticos discretos mais comuns, aplicaes tpicas e
algumas relaes teis, alm disso explorar algumas caractersticas destes modelos, como
1
2
a mdia, a varincia e a funo geradora de momentos (fgm). Inicialmente, considere de
forma geral a definio do momento de ordem k e da funo geradora de momentos para
uma v.a. discreta
E(X k ) =
xki P (X = xi )
e
MX (t) = E(etX ) =
etxi P (X = xi ).
xi P (X = xi )
1.1
1
, x = 1, 2, . . . , N.
N
sendo N um especfico valor inteiro. Esta distribuio atribu massa igual em cada um
dos possveis valores 1, 2, . . . , N .
Notao: Observe que a distribuio depende dos valores do parmetro. Para enfatizar
esta dependncia, denotamos na funo de probabilidade por | (dado) os parmetros envolvidos na distribuio. Quando no existe possibilidade de confundimento, esta notao
omitida.
A mdia e varincia de uma v.a. X seguindo distribuio uniforme discreta, denotados
por E(X) e Var(X) respectivamente, so dadas por
N
1 N (N + 1)
1 X
N +1
x=
=
.
E(X) =
xP (X = x|N ) =
N x=1
N
2
2
x=1
N
X
Como
N
X
N
1 X 2 (N + 1)(2N + 1)
E(X ) =
x =
,
x P (X = x|N ) =
N x=1
6
x=1
2
ento
(N + 1)(2N + 1)
N +1
2
2
=
(N + 1)(N 1)
.
12
3
Este modelo no necessariamente precisa assumir x = 1, 2, . . . , N , pode ser redefinido
para qualquer conjunto finito de valores.
1.2
Distribuio Hipergeomtrica
P (X = x|N, M, K) =
N M
Kx
N
K
, x = 0, 1, . . . , K.
K
X
xP (X = x|N, M, K) =
x=0
N
X
x=1
M
x
N M
Kx
N
K
=
KM
.
N
e
KM
Var(X) =
N
(N M )(N K)
N (N 1)
.
O clculo de E(X) envolve reescrever est esperana em uma distribuio hipergeomtrica com diferentes valores dos parmetros.
A funo geradora de momentos de X dada por
N
M N M
N M
X
F (K, M, N M K + 1, et )
MX (t) = E(etX ) =
= K
etx x NKx
N
x=0
em que
F (a, b, c, x) = 1 +
X
i=0
(a + i)!(b + i)!c!
xi+1 .
i!(a 1)!(b 1)!(c + i)!
4
Exemplo: A distribuio hipergeomtrica tem aplicao em amostragem de aceitao,
como ilustrado neste exemplo. Suponha que um varejista compra produtos em lotes e
cada item pode ser aceitvel ou defeituoso. Seja, N o nmero de item no lote e M o
nmero de itens defeituosos no lote. Ento, ns podemos calcular a probabilidade que
uma amostra de tamanho K contenha x itens defeituosos.
Para ser especfico, suponha tenha 25 itens, sendo que o item considerado aceitvel
apenas se ele passa pela tolerncia. Ao amostrar 10 itens, nenhum item defeituoso foi
encontrado. Qual a probabilidade desse evento, se existem 6 defeituosos no lote de 25
itens? Aplicando a distribuio hipergeomtrica com N = 25, M = 6, K = 10, temos
6 19
P (X = 0) =
10
25
10
= 0, 028,
mostrando que nosso evento observado bastante improvvel se exitem 6 itens defeituosos
no lote.
1.3
Distribuio Binomial
A distribuio binomial, uma das mais teis distribuies discretas, est baseada na
ideia de ensaios de Bernoulli. Um ensaio de Bernoulli um experimento com dois, apenas
dois, possveis valores. Uma varivel aleatria X segue uma distribuio de Bernoulli se
1
X=
0
com probabilidade p
, 0 p 1.
com probabilidade (1 p)
1
X
xP (X = x|p) = 1p + 0(1 p) = p,
x=0
e
2
E(X ) =
1
X
x2 P (X = x|p) = 12 p + 02 (1 p) = p.
x=0
com
Var(X) = E(X 2 ) E(X)2 = p p2 = p(1 p).
Muitos experimentos so modelados como uma sequencia de eventos de Bernoulli. Se
n ensaios de Bernoulli idnticos so realizados, definimos os eventos
Ai = {X = 1 no i-simo ensaio}, i = 1, . . . , n.
5
Se assumirmos que os eventos A1 , A2 , . . . , An so colees de eventos independentes, ento
a distribuio binomial derivada do nmero total de sucessos nos n ensaios. Definimos
a v.a. binomial como sendo Y igual ao total do sucesso em n ensaios de Bernoulli.
O evento {Y = y} ocorrer se apenas, fora dos eventos A1 , A2 , . . . , An , exatamente
y deles ocorrem, e necessariamente n y deles no ocorrem. Uma particular sequncia
A1 A2 Ac3 . . . An1 Acn de n ensaios de Bernoulli fornece a probabilidade de
ocorrncia
P (A1 A2 Ac3 . . . An1 Acn ) = pp(1 p) . . . p(1 p) = py (1 p)ny ,
a independncia dos Ai s foi utilizada no clculo. Note que o clculo no depende de
qual conjunto de Ai s ocorrem, apenas que algum conjunto de y ocorre. Entretanto, o
evento {Y = y} ocorrer independentemente de qual dos Ai s ocorrem. Assim, vemos
que uma particular sequncia de n ensaios com exatamente y sucessos tem probabilidade
py (1 p)ny de ocorrncia. Como existem ny sequncias, temos
n y
P (Y = y|n, p) =
p (1 p)ny , y = 0, 1, . . . , n,
y
e Y chamada v.a. Bin(n, p).
Alternativamente Y pode ser definido da seguinte forma: Em uma sequncia idntica
de n, ensaios de Bernoulli independentes, cada ensaio com probabilidade de sucesso p,
definimos a v.a. X1 , X2 , . . . , Xn por
1 com probabilidade p
Xi =
, 0 p 1.
0 com probabilidade (1 p)
P
A v.a. Y = ni=1 Xi segue distribuio binomial com parmetros n e p.
A mdia e varincia de uma v.a. Y seguindo distribuio binomial so dadas por
n
n
X
X
n y
E(Y ) =
yP (Y = y|n, p) =
y
p (1 p)ny = np,
y
y=0
y=0
e
n
X
n
X
n y
E(Y ) =
y P (Y = y|n, p) =
y
p (1 p)ny = n(n 1)p2 + np
y
y=0
y=0
2
com
Var(Y ) = E(X 2 ) E(X)2 = n(n 1)p2 + np n2 p2 = np(1 p).
A funo geradora de momentos de Y dada por
n
n
X
X
n
tY
ty n
y
ny
MY (t) = E(e ) =
e
p (1 p)
=
(et p)y (1 p)ny = (pet + 1 p)n .
y
y
y=0
y=0
6
Exemplo: Suponha que temos interesse em obter a probabilidade de se obter pelo
menos um 6 em quatro lanamentos de um dado. Este experimento pode ser modelado
como uma sequncia de 4 ensaios de Bernoulli com probabilidade de sucesso p = 1/6
(dado justo). Definimos a v.a. X por X : nmero total de 6 em 4 lanamentos. Ento,
X Bin(4, 1/6) e
0 4
4
1
5
P (pelo menos um 6) = P (X > 0) = 1 P (X = 0) = 1
= 0, 518.
0
6
6
1.4
Distribuio de Poisson
Uma distribuio discreta amplamente utilizada e pode servir como um modelo para
o nmero de diferentes tipos de experimentos. Por exemplo, se modelamos um fenmeno
no qual temos que esperar por uma ocorrncia (esperar um nibus, esperar por cliente
chegando a um banco), o nmero de ocorrncias pode ser algumas vezes modelado pela
distribuio de poisson. Uma das suposies bsicas na qual a distribuio de poisson
est baseada que, para intervalos pequenos de tempo, a probabilidade de uma chegada
proporcional ao tempo de espera. Isso torna o modelo razovel para situaes como
citada acima.
A distribuio de poisson tem apenas um parmetro , algumas vezes chamado de
parmetro de intensidade. A v.a. X, assumindo valores inteiros no negativos, segue uma
Po() se
e x
P (X = x|) =
.
x!
A mdia e varincia de uma v.a. X seguindo distribuio poisson so dadas por
E(X) =
xP (X = x|) =
x=0
e
2
E(X ) =
X
X
e x
e x 1
x
= e
= ,
x!
(x
1)!
x=0
x=1
x P (X = x|) =
x=0
X
x=0
xx
e x
,
x!
substituindo s = x 1 e x = s + 1, temos
#
"
s
s
s+1
X
X e s X
e
E(X 2 ) =
(s + 1)
=
(s + 1)
=
s
+
= 2 +
s!
s!
s!
s!
x=1
x=1
x=1
x=1
com
Var(X) = E(X 2 ) E(X)2 = 2 + 2 = .
7
Portanto a mdia e varincia da poisson so iguais.
A funo geradora de momentos de X dada por
MX (t) = E(etX ) =
X
x=0
etx
X
(et )x
e x
t
= e
= e(e 1) .
x!
x!
x=0
5
e 3 35
P (nenhuma ligao no prximo minuto) = P (X = 0) =
= e 3 = 0, 189.
0!
P (X = x 1), x = 1, 2, . . . .
x
(1.1)
Uma relao similar vale para outra distribuio discreta. Por exemplo, se Y
Bin(n, p), ento
P (Y = y) =
ny+1 p
P (Y = y 1).
y
1p
(1.2)
As relaes recursivas (1.1) e (1.2) podem ser utilizadas para estabelecer a aproximao
da distribuio poisson a distribuio binomial. Seja = np e, se p pequeno, podemos
escrever
ny+1 p
np p(y 1)
=
,
y
1p
y py
y
ento, para p pequeno p(y1) e py podem ser ignorados. Portanto, para esta aproximao
(1.2) se torna
P (Y = y) =
P (Y = y 1),
y
(1.3)
que uma relao recursiva poisson. Para completar a aproximao, precisamos estabelecer que P (X = 0) P (Y = 0), desde que todas as outras probabilidades seguem de
(1.3). Agora,
n
np n
P (Y = 0) = (1 p) = 1
= 1
e = P (X = 0).
n
n |{z}
n
8
5 pginas? Se assumirmos que cada palavra um ensaio de Bernoulli com probabilidade
de sucesso p = 1/500 e que os ensaios so independentes, ento X: o nmero de erros em
5 pginas uma Bin(1500, 1/500). Ento,
x
1500x
2
X
1500
1
499
P (no mais que 2 erros) = P (X 2) =
= 0, 4230.
x
500
500
x=0
Se usamos a aproximao poisson com = 1500(1/500) = 3, temos
32
3
1+3+
P (X 2) e
= 0, 4232.
2
1.5
(1.4)
(1.5)
9
A mdia e varincia de uma v.a. Y seguindo distribuio binomial negativa so dadas
por
X
r+y1 r
E(Y ) =
yP (Y = y|) =
y
p (1 p)y
y
y=0
y=0
X
X
(r + y 1)! r
r+y1 r
y
=
p (1 p) =
r
p (1 p)y ,
(y 1)!(r 1)!
y1
y=1
y=1
escrevendo z = y 1, temos
X
r+z r
r(1 p) X (r + 1) + z 1 r+1
r(1 p)
z
E(Y ) =
r
p (1p) +1 =
p (1p)z =
.
p
z
p
z
z=1
z=1
De forma simular, podemos obter
Var(Y ) =
r(1 p)
.
p2
r(1 p)
Var(Y ) =
r(1 p)
,
p2
x1 r
MX (t) = E(e ) =
e
p (1 p)xr
r
1
x=r
tX
tx
X
(r + x)!
pr
(pet )r
t r
t x
=
((1
p)e
)
((1
p)e
)
=
.
(1 p)r
x!r!
(1 (1 p)et )r
x=0
10
dade que tenhamos examinado no mnimo N moscas
N
X
x 1 100
P (X N ) =
p (1 p)x100
99
x=0
N
1
X
x 1 100
= 1
p (1 p)x100 .
99
x=100
Para um determinado p e N , podemos avaliar esta expresso para determinar quantas
moscas de frutas so susceptveis.
1.6
Distribuio Geomtrica
pet
.
1 (1 p)et
A distribuio geomtrica tem uma interessante propriedade, conhecida como propriedade de falta de memria. Para inteiros s e t, vale
P (X s + t|X s) = P (X t),
(1.6)
11
P (X s + t e X t)
P (X t)
P (X s + t)
=
= (1 p)t = P (X t).
P (X t)
P (X s + t|X s) =
x=31
A falta de memria da distribuio geomtrica descreve uma propriedade muito especial de falta de envelhecimento. Indicando que esta distribuio no deve ser considerada
para modelar tempos de falha quando esperado que a probabilidade da falha aumente
com o tempo.
Captulo 2
Modelos Probabilsticos Contnuos
Inicialmente, considere a terna (, F, P ), onde o espao amostral que representa
o conjunto de possveis resultados para um experimento aleatrio, F a -lgebra que
representa todos os possveis eventos compostos e P a medida de probabilidade que
atribui um valor entre 0 e 1 para cada evento. Uma varivel aleatria (v.a.) X uma
funo do espao amostral na reta <, tal que X 1 (I) = { : X() I} F, para
todo I <. Uma funo de distribuio F , ser classificada como contnua, se existir
uma funo no negativa f tal que
Z x
F (x) =
f (w)dw,
R +
f (x)dx = 1.
xk f (x)dx
E(X ) =
12
13
e
Z
tX
MX (t) = E(e ) =
etx f (x)dx.
2.1
1
I[a,b] (x).
ba
Notao: Observe que a distribuio depende dos valores do parmetro. Para enfatizar
esta dependncia, denotamos na funo de probabilidade por | (dado) os parmetros envolvidos na distribuio. Quando no existe possibilidade de confundimento, esta notao
omitida.
A mdia e a varincia de uma v.a. X seguindo distribuio uniforme contnua, denotados por E(X) e Var(X) respectivamente, so dadas por
Z b
Z b
1
b+a
xf (x|a, b)dx =
E(X) =
xdx =
.
ba a
2
a
Como
2
1
x f (x|a, b)dx =
ba
2
E(X ) =
a
x2 dx =
ento
b 3 a3
b+a
2
b 3 a3
,
3(b a)
2
=
(b a)2
.
12
14
A funo densidade da distribuio Uniforme dada por f (x) = 71 I[0,7] (x). Assim, a
probabilidade de ocorrer pane nos primeiros 800 metros
Z 0,8
0, 8 0
f (x)dx =
P (X 0, 8) =
= 0, 114.
7
0
2.2
Distribuio Gamma
A distribuio gamma uma das distribuies mais gerais, pois diversas distribuies
so caso particular dela como por exemplo a exponencial, a qui-quadrado, entre outras.
Essa distribuio tem como suas principais aplicaes anlise de tempo de vida de
produtos.
Uma varivel aleatria X segue a distribuio gamma com parmetros e , se sua
funo densidade dada por
f (x|, ) =
1
x1 ex/ I[0,) (x), , > 0.
()
( + 1) +1
() +1
=
= .
()
()
Como
1
E(X ) =
()
2
x2 x1 ex/ dx,
( + 2) +2
( + 1)() +2
=
= ( + 1) 2 .
()
()
15
observe que a integral envolve o ncleo de uma distribuio G(, (1/ t)1 ), logo
1
1
1
1
MX (t) =
t
=
,
t
<
.
()
()
1 t
i=1
i=1
2.2.1
1
1 t
Pk
i=1
i
=
1
1 t
Pki=1 i
,
i e . Logo, Y
Distribuio Qui-quadrado
1
xp/21 ey/2 I[0,) (x),
(p/2)2p/2
2.2.2
Distribuio Exponencial
1 x/
e
I[0,) (x),
(2.1)
16
que a distribuio exponencial com parmetro . A mdia, a varincia e a fgm desta
distribuio podem ser obtidas pelas frmulas da distribuio gamma.
E(X) = , Var(X) = 2 e MX (t) =
1
1
,t < .
1 t
A distribuio exponencial pode ser utilizada para modelar tempo de vida, anlogo
ao uso da distribuio geomtrica no caso discreto. De fato, a distribuio exponencial
possui a propriedade de falta de memria da geomtrica. Se X Exp(), isto , com fdp
dada em (2.1), ento para s 0, t 0,
P (X s + t|X s) = P (X t),
ento
R 1 x/
e
dx
P (X s + t)
P (X s + t; X s)
t+s
=
= R 1 x/
P (X s + t|X s) =
P (X s)
P (X s)
e
dx
s
=
e(t+s)/
= et/ = P (X t).
es/
2.2.3
Distribuio Weibull
d 1
g (y) = y 1 ,
dy
ento
f (y|, ) =
1 y /
y e
I[0,) (y), > 0, > 0.
17
Poderamos partir da distribuio Weibull e considerar = 1 para obter a distribuio
exponencial. A distribuio Weibull muito importante na anlise de tempo de falha,
particularmente muito til para modelar funes de risco.
A mdia e a varincia de uma v.a. Y seguindo Weibull(, ) so dadas por
Z
1 y /
1
1/
,
E(Y ) =
yy e
dy = 1 +
0
Z
2 1 y /
n
2
2/
E(Y ) =
y y e
dy = 1 +
,
0
assim
"
2 #
2
1
Var(Y ) = E(Y 2 ) E(Y )2 = 2/ 1 +
1+
.
2.3
Distribuio Normal
1
2 2
(x)2
2 2
Z z+
Z z
(x)2
t2
1
1
x
2
=
e 2 dx =
e 2 dt, com t =
,
2
2
2
18
mostrando que P (Z z) a fdp da normal padro.
A mdia e a varincia de uma v.a. Z seguindo normal padro so dadas por
Z +
z2
1
E(Z) =
e 2 dz = 0,
2
ento E(X) = E(z + ) = E(z) + = . Similarmente temos que Var(Z) = 1, ento
Var(X) = Var(z + ) = 2 Var(z) = 2 ,
A funo geradora de momentos de Z dada por
1
MZ (t) = E(e ) =
2
tZ
tz z2
e e
t2
e2
dz =
2
(zt)2
2
t2
dz = e 2 .
Assim,
MX (t) = E(etX ) = E(et(Z+) ) = et E(etZ ) = et e
(t)2
2
=e
t2 2
+t
2
x64
,
15
assim
4264
15
1, 47 e
7364
15
0, 6. Assim, a
probabilidade
P (1, 47 Z 0, 60) = P (Z 0, 60) P (Z 1, 47)
Z 1,47
Z 0,60
1 x2 /2
1
2
e
ex /2 dx
=
dx
2
2
19
2.3.1
Distribuio log-Normal
2
1 1 (log x)
2 2
e
I[0,) (x), <, 2 > 0.
2 x
A mdia e a varincia de uma v.a. X seguindo log-normal podem ser obtidas usando
os resultados da distribuio normal
E(X) = E(elog X ) = E(eY ) = e+
2 /2
2)
2.4
Distribuio Beta
f (x|, ) =
sendo B(a, b) =
R1
0
1
x1 (1 x)1 I(0,1) (x), > 0, > 0,
B(, )
(a)(b)
.
(a + b)
20
A mdia e a varincia de uma v.a. X seguindo beta, so dadas por
Z 1
Z 1
1
1
1
1
E(X) =
xx (1 x) dx =
x(+1)1 (1 x)1 dx,
B(, ) 0
B(, ) 0
obserque que o ncleo da integral uma distribuio beta com parmetros + 1 e .
Logo,
E(X) =
B( + 1, )
( + ) ( + 1)()
=
=
.
B(, )
()() ( + + 1)
+
Analogamente a E(X),
E(X 2 ) =
( + 1)
B( + 2, )
=
.
B(, )
( + + 1)( + )
ento
( + 1)
Var(X) = E(X ) E(X) =
( + + 1)( + )
2
2
=
.
( + + 1)( + )2
2.5
Distribuio F de Snedecor
A distribuio F de Snedecor tambm conhecida como distribuio de Fisher frequentemente utilizada na inferncia estatstica para anlise da varincia. Uma varivel
aleatria X tem distribuio F de Snedecor com n graus de liberdade no numerador e m
graus de liberdade no denominador se sua fdp definida por
f (x|n, m) =
A distribuio beta est relacionada com a distribuio F, por meio de uma transformao. Se X Fp,q , ento (p/q)X/(1 + (p/q)X) Beta(p/2, q/2).
21
A mdia e a varincia de uma v.a. X seguindo F, so dadas por
2
m
n+m2
m
, m > 2, e Var(X) = 2
, m > 4.
E(X) =
m2
m2
n(m 4)
A fgm da distribuio F no existe.
2.5.1
Distribuio t-Student
x2
1+
m
(m+1)/2
I(,+) (x), m N .
m
, m > 2.
m2
Captulo 3
Estimao Intervalar
Uma importante classe de mtodos inferenciais so os estimadores intervalares. Como
o nome sugere um estimador intervalar fornece uma gama de valores possveis para o
parmetro desconhecido, em vez de um nico ponto (estimador pontual). Estimativas
intervalares so amplamente utilizadas, porm frequentemente mal interpretadas. O interesse deste resumo apresentar duas formas de construo de estimadores intervalares,
via funo pivotal e inverso da estatstica de teste, e uma mtrica para avaliar estes
estimadores intervalares, via probabilidade de cobertura e comprimento do intervalo.
Lembre-se que um estimador pontual uma funo da amostra. Por definio, um
estimador pontual uma varivel aleatria. Quando substitumos a amostra observada, o
resultado uma estimativa, ou seja, apenas um nmero. A situao para os estimadores
intervalares completamente anloga. Um estimador intervalar um intervalo aleatrio,
os limites do intervalo so estatsticas. Quando substitumos a amostra observada obtemos
uma estimativa intervalar.
Suponha que temos Y um amostra parametrizada por .
Seja U1 = h1 (Y ) e U2 = h2 (Y ) estatsticas amostrais com U1 U2 , ento [U1 , U2 ]
um estimador intervalar para .
Seja u1 = h1 (y) e u2 = h2 (y) valores observados da estatsticas amostral U1 e U2 ,
ento [u1 , u2 ] uma estimativa intervalar para .
Podemos interpretar o intervalo de confiana como um intervalo que contm os valores
plausveis que o parmetro pode assumir. Assim, a amplitude do intervalo est associada a incerteza que temos a respeito do parmetro. Geralmente temos interesse em um
22
23
estimador intervalar com coeficiente de confiana (1 ), isso significa que o intervalo
deve oferecer 100(1 )% de confiana. Por exemplo, se = 0, 05, ento o estimador
intervalar resultante muitas vezes chamado de intervalo de confiana de 95%. Neste
contexto, o coeficiente de confiana (expresso em percentagem) muitas vezes referido
como o nvel de confiana.
importante compreender que um intervalo de confiana pode ser visto como um caso
especial de um conjunto de confiana. Conjuntos de confiana so teis em dois contextos:
(i) se no h certeza de que o resultado do procedimento um intervalo, e (ii) se temos
um vetor de parmetros, caso em que resulta em uma regio de confiana.
Tendo em conta que h um nmero (infinito) de intervalos que so estimadores intervalares vlidos, preciso criar mecanismos para decidir como obter um estimador intervalar bom.
3.1
Um estimador intervalar bom deve ter uma alta probabilidade de conter o verdadeiro
valor do parmetro. Se este fosse o nico critrio de interesse, sempre escolheramos o
intervalo (, +), pois este cobre o verdadeiro valor com probabilidade 1. Claramente,
o intervalo (, +) no fornece nenhuma informao til sobre valores plausveis do
parmetro. Na escolha de um estimador intervalar, existe uma compensao entre a probabilidade de abranger o valor verdadeiro e o comprimento do intervalo, gostaramos que
a probabilidade de cobertura fosse alta e o comprimento pequeno. Como a probabilidade
de cobrir o verdadeiro valor pode depender do parmetro, fazemos a distino entre a
probabilidade de cobertura e o coeficiente de confiana.
(Probabilidade de cobertura) Para um estimador intervalar [U1 , U2 ] para , a probabilidade de cobertura a probabilidade que o estimador intervalar cubra , isto
, P (U1 U2 ).
(Coeficiente de confiana) Para um estimador intervalar [U1 , U2 ] para , o coeficiente
de confiana o nfimo sobre da probabilidade de cobertura, isto , inf P (U1
U2 ).
24
importante ficar claro que em P (U1 U2 ) envolve as variveis aleatrias U1 e
U2 . Ento,
P (U1 U2 ) = P ((U1 ) (U2 )) = 1 P (U1 > ) P (U2 < ),
como U1 U2 implica em U1 > e U2 < so eventos disjuntos.
Em geral, o comprimento do intervalo de confiana uma varivel aleatria. Uma
possvel medida da largura de um intervalo o comprimento esperado. Considere um
estimador intervalar [U1 , U2 ]. O comprimento esperado do intervalo definido como
E(U2 U1 ).
Uma caracterstica desejvel de um estimador intervalar que a probabilidade de
cobertura seja alta para todos os valores de . O coeficiente de confiana representa o
pior cenrio possvel, por definio, para qualquer valor de , a probabilidade de cobertura
ser pelo menos to grande como o coeficiente de confiana.
Para ilustrar a avaliao de vrios estimadores para uma mesma situao considere o
seguinte exemplo. Suponha que temos um amostra aleatria de uma populao N (, 1).
O interesse so estimadores intervalares para a . Seja, k1 e k2 constantes finitas no
negativas. Quais quer um dos estimadores intervalares so vlidos para :
a) [k1 , k2 ],
b) [Y1 k1 , Y1 + k2 ],
c) [Y k1 , Y + k2 ].
Todos os intervalos descritos neste exemplo tm o mesmo comprimento, k1 + k2 . Ento,
devemos avaliar a probabilidade de cobertura e coeficiente de confiana associados a cada
um destes intervalos.
a) [k1 , k2 ] - o primeiro intervalo no depende da amostra. Duas situaes so possveis: (i) se a mdia verdadeira, ento [k1 , k2 ] ou
/ [k1 , k2 ]. Se
[k1 , k2 ] a probabilidade de cobertura 1, caso contrrio zero. Assim, o coeficiente de confiana para este intervalo 0.
b) [Y1 k1 , Y1 + k2 ], podemos trabalhar diretamente com a probabilidade de cobertura
usando o fato de que Y1 N (, 1)
P (Y1 k1 Y1 + k2 ) = 1 P (Y1 k1 > ) P (Y1 + k2 < )
= P (Z k1 ) + P (Z k2 ) 1, Z N (0, 1).
25
Esta probabilidade de cobertura no depende de . Ento, o coeficiente de confiana
tambm P (Z k1 ) + P (Z k2 ) 1.
nk1 ) + P (Z
nk2 ) 1.
nk1 ) + P (Z
nk2 ) 1.
nk1 ) + P (Z
nk2 ) 1 P (Z k1 ) + P (Z k2 ) 1, n 1.
lugar para comear com a funo de piv n(Y ). Sabemos que n(Y ) N (0, 1),
ento, se = 1 + 2 ,
P (z1
n(Y ) z2 ) = 1 1 2 = 1 .
Y z(12 ) , Y + z(11 ) ,
n
n
um estimador intervalar para com coeficiente de confiana (1 ). O comprimento
26
Se 1 ou 2 for zero, o comprimento de intervalo infinito. Suponha que = 0, 05, isto
, queremos um intervalo de confiana de 95% para . Podemos utilizar vrios possveis
valores para 1 e 2 de forma a satisfazer a confiana desejada, porm o menor intervalo
obtido se 1 = 2 . Isto ilustra um resultado geral que coincide com a nossa intuio, para
um dado coeficiente de confiana, os intervalos de confiana mais curtos para a populao
mdia de uma distribuio normal ser simtrica em relao a mdia da amostra.
3.2
Funes Pivotais
Como j vimos no exemplo anterior uma funo essencial, se Y uma amostra aleatria
27
so normalmente uma funo de um dos w1 e w2 apenas.]
A seguir apresentamos dois exemplos de estimadores intervalares obtidos via quantidades pivotal.
Exemplo: Considere uma amostra aleatria Y de tamanho n de uma populao
N (, 2 ). A distribuio de Y pode ser obtida fazendo
E(n
n
X
Yi ) = n
i=1
Var(n1
n
X
n
X
E(Yi ) = n1 n =
i=1
Yi ) = n2
n
X
V ar(Yi ) = n2 n 2 = n1 2 ,
i=1
i=1
Y
p
N (0, 1).
2 /n
Entretanto, esta funo no uma quantidade pivotal para , pois a funo envolve um
parmetro desconhecido, 2 . Suponha que substitumos 2 por seu estimador, a varincia
amostral, S 2 . Lembrando que
(n 1)S 2
2n1 .
2
Por definio a distribuio t-Student dada por
,r
S2
Y
p
tn1 .
2
2 /n
Com algum rearranjo conclumos,
Y
p
tn1 .
S 2 /n
Esta uma funo pivotal para , pois S 2 uma funo de Y e a distribuio, tn1 , no
dependem do valor de .
Ao explorar a funo pivotal que acabamos de derivar podemos obter um estimador
intervalar para com coeficiente de confiana (1 ). Se usarmos tn1, , para denotar o
-quantil de uma distribuio tn1 , ento
P
tn1,/2
Y
p
tn1,1/2
S 2 /n
!
= 1 ,
que fornece
h
i
p
p
2
2
S /ntn1,1/2 , Y + S /ntn1,1/2 ,
28
Exemplo: Suponha que Y uma amostra aleatria com tamanho n de uma populao
Exp(). O interesse construir um estimador intervalar para o parmetro . Sabemos que
E(Y ) = 1, ento iremos considerar Y como uma potencial escolha da funo pivotal.
P
De fato, pode ser mostrado que, se W = ni=1 Yi , ento W uma quantidade pivotal.
Note que a definio de W no envolve outro parmetro alm de . Como Y Exp(),
a funo geradora de momentos de Y , MY (t) = (1 t/)1 . A funo geradora de
momentos de W ,
MW (t) = E(etW ) = E(et
Pn
i=1
Yi
(3.1)
sendo 2k, o -quantil de uma distribuio qui-quadrado com k graus de liberdade. Portanto,
"
#
22n,/2 22n,1/2
P
, P
,
2 ni=1 Yi 2 ni=1 Yi
29
p
Como IY ()1 ( ) converge para uma distribuio que no depende de , dizemos
p
que, IY ()1 ( ) assintoticamente pivotal para .
3.3
30
contra H1 : 6= 0 da seguinte forma
aceita H0 se
L(0 |x)
k (0 )
L(|x)
{ : L(|x) k (0 )L(|x)},
para alguma funo k que retorne confiana (1 ), sendo L(|x) a funo de verossimilhana dos dados observados e o estimador de mxima verossimilhana do parmetro
escalar .
A seguir iremos exemplificar a inverso da regio de aceitao para obter um conjunto
de confiana via inverso do teste de razo de verossimilhanas.
Exemplo: Suponha que temos interesse em um conjunto de confiana para de uma
distribuio Exp(). Podemos obter um intervalo pela inverso de um teste de nvel de
H0 : = 0 contra H0 : 6= 0 .
Se temos um amostra aleatria X de tamanho n a estatstica da razo de verossimilhana dada por
Pn
Pn
i=1 xi /0
i=1 xi /0
n
n
0 e
0 e
Pn
P
=
=
( ni=1 xi /n)n en
sup n e i=1 xi /
Pn
i=1
xi
n
n0
en e
Pn
i=1
xi /0
i=1 xi
0
i
e i=1
k ,
A(0 ) = x :
n0
sendo k um constante escolhida para satisfazer P0 (X A(0 )) = 1 (a constante en
foi absorvida por k ). Esse um conjunto no espao amostral. A inverso desta regio
de aceitao fornece um conjunto de confiana (1 )
n P
Pn
n
x
/
i=1 xi
i
e i=1
k .
C(x) = :
n
P
A expresso definindo C(x) depende apenas de x por meio de ni=1 xi . Ento o intervalo
de confiana pode ser expresso na forma
! (
)
n
n
n
X
X
X
C
xi = : h1 (
xi ) h2 (
xi ) ,
i=1
i=1
i=1
31
Se fizermos
Pn
Pn
xi
xi
i=1
Pn
Pi=1
=ae
=b
n
h1 ( i=1 xi )
h2 ( i=1 xi )
Captulo 4
Teste de Hipteses
No processo inferencial normalmente so obtidos os estimadores dos parmetros, porm
tambm comum ter interesse em avaliar suposies sobre a populao em estudo, ou
seja, avaliar hipteses. O objetivo do teste de hiptese decidir, baseado na amostra da
populao, qual das duas hipteses complementares verdadeira. Quando se pretende
testar o valor de um determinado parmetro a verificao da suposio feita por um
teste paramtrico; quando se pretende testar a natureza de uma populao a verificao
da suposio feita por um teste no paramtrico ou teste de aderncia. O interesse deste
resumo apresentar uma forma de construo de teste de hipteses paramtricos e uma
forma de avaliar testes de hipteses paramtricos.
Na notao usual chamamos de H0 a hiptese nula, a hiptese estatstica a ser testada
e por H1 a hiptese alternativa, que geralmente representa a conjectura que se pretende
provar. Se denota o parmetro populacional, o formato geral de uma hiptese nula e
alternativa H0 : 0 contra H1 : c0 , sendo 0 algum subconjuto do espao
paramtrico e c0 seu complementar. Por exemplo, se denota a mudana mdia na
presso sangunea dos pacientes aps um determinado tratamento, um analista deve ter
interesse em testar se H0 : = 0 contra H1 : 6= 0.
Em um problema de teste de hiptese, usual recorrer a uma amostra aleatria da
populao, e com base na informao contida nessa amostra decidir se a hiptese nula
verdadeira ou falsa, com uma certa probabilidade associada. A no rejeio de uma
hiptese estatstica resultado de insuficiente evidncia para a rejeitar e no implica
necessariamente que ela verdadeira.
Um procedimento de teste de hipteses uma regra que especifica:
32
33
a) Para quais valores amostrais a deciso implica em aceitar H0 como verdadeiro.
b) Para quais valores amostrais H0 rejeitado e H1 aceita como verdade.
O subconjuto do espao amostral para qual H0 rejeitado chamado regio de rejeio
ou regio crtica. O complementar da regio de rejeio chamado de regio de aceitao.
Tipicamente, um teste de hiptese especificado em termos de uma estatstica de
teste W (X), uma funo da amostra. Por exemplo, um teste deve especificar que H0
a mdia amostral, maior que 3. Neste caso, W (X) = X
a estatstica
rejeitada se X,
de teste e a regio de rejeio {x : x > 3}.
4.1
n
Y
f (xi |).
i=1
sup 0 L(|x)
.
sup L(|x)
34
Exemplo: Seja X uma amostra aleatria de tamanho n de uma populao com fdp
dada por
f (x|) = e(x) I[,+) (x).
A funo de verossimilhana
L(|x) = e
Pn
i=1
xi +n
I(,x(1) ] (),
x(1) = min xi .
i
Pn
i=1
xi +nx(1)
1
se x(1) 0
.
(x) =
en(x(1) 0 ) se x >
(1)
Se T (X) uma estatstica suficiente para com fdp g(t|) ento podemos construir
o TRV baseado em T , a funo de verossimilhana L (|t) = g(t|) em vez da amostra
X e sua funo de verossimilhana L(|x). Seja (t) a estatstica de TRV baseado em
T . Dada uma noo intuitiva que toda informao sobre em x est contida em T (x),
o teste baseado em T deve ser to bom quanto o teste baseado na amostra completa X.
De fato, os testes so equivalentes.
Se T (X) uma estatstica suficiente para e (t) e (x) so as estatsticas baseado
em T e X, respectivamente, ento, (T (x)) = (x) para todo x no espao amostral.
A demostrao deste resultado imediada ao aplicar o teorema da fatorao em f (x|).
A seguir consideramos um exemplo de TRV via estatstica suficiente.
Exemplo: Seja X uma amostra aleatria de tamanho n de uma populao N (, 1).
Considere testar H0 : = 0 contra H1 : 6= 0 . Sendo 0 um nmero fixado pelo
uma estatstica suficiente para .
pesquisador antes do experimento. Sabemos que X
para construir o TRV.
Devemos usar a funo de verossimilhana associada a T (X) = X
N (, 1/n), ento
Como X
(2)1/2 (n)1/2 exp{(
x 0 )2 /(2n)}
(2)1/2 (n)1/2 exp{(
x x)2 /(2n)}
2
= exp (
x 0 ) /(2n) .
(t) =
0 |.
Assim, o TRV um teste que rejeita H0 para valores grande de |X
35
4.2
36
Exemplo: Seja X uma amostra aleatria de tamanho n de uma populao N (, 2 ),
com 2 conhecido. Um TRV para testar H0 : 0 contra H1 : > 0 um teste que
0
X
rejeita H0 se
> c. A constante c pode ser qualquer nmero positivo. A funo poder
/n
deste teste
0
X 0
X
0
> c = P
>c+
= P Z > c +
.
() = P
/ n
/ n
/ n
/ n
sendo Z a distribuio normal padro. Como aumenta de para +, a probabilidade
normal aumenta de 0 para 1. Portanto, () uma funo crescente de , com
lim () = 0, lim () = 1, e () = se P (Z > c) = .
0
X
/ n
37
Para 0 1, um teste com funo poder () um teste de nvel se
sup0 () .
Pesquisadores geralmente especificam o nvel do teste que desejam usar, escolha tpicas
so = 0, 01, 0,05 e 0,10. Estando ciente que, ao fixar o nvel do teste, apenas o erro do
tipo I est controlado.
4.3
Uma classe de testes de hipteses muito til , construda controlando o erro do tipo I,
a classe de teste de hipteses de nvel , em que a probabilidade de erro do tipo I mxima
para todo 0 . Um bom teste nesta classe tambm deveria fornecer uma pequena
probabilidade de erro do tipo II, isto , uma funo poder grande para c0 . Se um
teste tem a menor probabilidade de erro do tipo II dentre todos os outros testes nesta
classe, ele o teste mais poderoso na classe de teste de hipteses de nvel . Esta noo
formalizada na seguinte definio.
Seja C a classe de testes de hipteses H0 : 0 contra H1 : c0 . Um teste
na classe C, com funo poder (), um teste uniformemente mais poderoso (UMP) na
0
(4.1)
para algum k 0, e
= P0 (X R).
(4.2)
38
Ento
a) (Suficiente) Algum teste que satisfaz (4.1) e (4.2) UMP de nvel .
b) (Necessrio) Se existe um teste satisfazendo (4.1) e (4.2) com k > 0, ento todo
teste de nvel UMP um teste de tamanho (satisfazendo (4.2)) e todo teste de
nvel UMP satisfaz (4.1) exceto talvez por um conjunto A satisfazendo P0 (X
A) = P1 (X A) = 0.
Deste resultado segue o corolrio.
Considere um problema de teste de hiptese conforme colocado no Lema de NeymanPearson. Suponha T (X) uma estatstica suficiente para e g(t|i ) a fdm ou fp de T
correspondente a i , i = 0, 1. Ento qualquer teste baseado em T com regio de rejeio
S (um subconjunto de espao amostral de T ) um teste UMP de nvel satisfazendo
t S se g(t|1 ) > kg(t|0 ) e
t S c se g(t|1 ) < kg(t|0 ),
para algum k 0, e
= P0 (T S).
A seguir segue um exemplo da construo de um teste UMP.
Exemplo: Seja X uma amostra aleatria de tamanho n de uma populao N (, 2 ),
com 2 conhecido. A mdia amostral uma estatstica suficiente para . Considere testar
H0 : = 0 contra H1 : = 1 , sendo 0 > 1 . Pela inequao g(
x|1 ) > kg(
x|0 ),
equivalente a
x <
(2 2 log k)/n 02 + 12
.
2(1 0 )
O fato de 1 0 > 0 foi usado para obter a inequao. O lado direito aumenta de
para + como k aumenta de 0 para +. Ento, pelo corolrio, o teste com regio de
< c). Se um particular
rejeio x < c um teste UMP de nvel sendo = P0 (X
< c = z/2 /n + 0 . Esta escolha de
especificado, ento o teste UMP rejeita H0 se X
c garante P0 (T S).
Note que o Lema de Neyman-Pearson apenas aplicvel em situaes em que hiptese
simples so especificadas. Em problemas mais realistas, as hipteses de interesse especificam mais que um possvel valor para a distribuio amostral (hiptese compostas). Tal
definio requer um teste UMP mais poderoso em cada 0 individualmente, desta
39
forma o Lema de Neyman-Pearson pode ser usado para encontrar um teste UMP em
problemas envolvendo hipteses compostas.
Em particular, hipteses que afirmam que um parmetro univariado grande, por
exemplo, H : 0 , ou pequeno, por exemplo, H : < 0 , so chamadas de hipteses
unilaterais. Hipteses que afirmam que um parmetro tambm grande ou pequeno,
por exemplo, H : 6= 0 , so chamados de hipteses bilateriais. Uma grande classe de
problemas que admite um teste UMP de nvel envolve hipteses unilaterais e fdp ou fp
com propriedade de razo de verossimilhana montona.
A famlia de fdps ou fps {g(t|) : } para uma varivel aleatria univariada
T com parmetro assumindo valores nos Reais tem razo de verossimilhana montona
(RVM) se, para todo 2 > 1 , g(t|2 )/g(t|1 ) uma funo montona (no crescente ou
no decrescente) em t em {t : g(t|1 ) > 0 ou g(t|2 ) > 0}. Note que c/0 definido como
+ se 0 < c.
Muitas famlias de distribuies tm RVM. Por exemplo, a normal (varincia conhecida, mdia desconhecida), poisson, binomial. De fato, qualquer membro regular da
famlia exponencial com g(t|) = h(t)c()ew()t tem RVM se w() uma funo no
decrescente.
Karlin-Rubin: Considere testar H0 : 0 contra H1 : > 0 . Suponha que T uma
estatstica suficiente para e a famlia de fdps ou fps {g(t|) : } de T tem RVM.
Ento para qualquer t0 , o teste que rejeita H0 se e somente se T > t0 UMP de nvel ,
sendo P0 (T > t0 ) = .
Exemplo: Seja X uma amostra aleatria de tamanho n de uma populao N (, 2 ),
com 2 conhecido. A mdia amostral uma estatstica suficiente para . Considere testar
H0 : = 0 contra H1 : = 1 , sendo 0 > 1 . Vimos pelo exemplo anterior que um teste
UMP de nvel rejeita H0 se
/2
< z
+ 0 .
X
n
0
0
uma estatstica
Agora, suponha testar H0 : 0 contra H1 : < 0 . Como X
40
4.4
P-valor
Aps um teste de hiptese ter sido feito, a concluso deve ser relatada de alguma
forma estatisticamente significativa. Um mtodo para descrever o resultado de um teste
de hiptese reportar os tamanho, , do teste usado na deciso de rejeitar H0 ou aceitar
H0 . O tamanho de um teste carrega muita informao. Se pequeno, a deciso para
rejeitar H0 bastante convincente, mas se grande, a deciso para rejeitar H0 no
convincente, porque o teste tem uma alta probabilidade de fazer a deciso incorretamente.
Outra forma de reportar o resultado de um teste de hipteses calcular o valor do tipo
de incerteza da estatstica de teste, chamada de p-valor.
Um p-valor p(X) uma estatstica de teste satisfazendo 0 p(x) 1 para todo ponto
amostral x. Valores pequenos de p(X) fornecem evidncia que H1 verdade. Um p-valor
vlido se, para todo 0 e todo 0 1,
P0 (p(X) ) .
Se p(X) um p-valor vlido, fcil construir um teste de nvel baseado em p(X).
Uma vantagem de mostrar o resultado de um teste via p-valor que cada leitor o
que considere mais apropriado e ento podemos comparar o valor p(x) com , e saber
quando estes dados conduzem a rejeio ou aceitao de H0 . Entretanto, menores valores
do p-valor fornecem mais fortes evidncias para rejeitar H0 . Ento, o p-valor fornece o
resultado de um teste em uma escala contnua, melhor que apenas aceita ou rejeita H0 .
Captulo 5
Anlise de Regresso Logstica
Embora a regresso logstica seja conhecida desde os anos 50, tornou-se popular no
incio da dcada de 70 com a introduo dos modelos lineares generalizados (MLG).
Os MLG descrevem uma relao entre a mdia da varivel resposta E(Yi ) e variveis
independentes (x1 , x2 , . . . , xp ). Diferentes modelos podem ser expressos como MLG, entre
ele o modelo de regresso logstica.
O objetivo deste resumo apresentar a construo do modelo de regresso logstica, o
processo estimao dos parmetros via estimador de mxima verossimilhana, a construo de testes de hiptese simples para verificar a relevncia de uma covarivel no modelo,
e uma anlise de resduos.
5.1
O modelo
Suponha que as variveis resposta Y1 , . . . , Yn (ou Yi , i = 1, . . . , n) associadas aos indivduos (ou unidades experimentais) sejam a soma de mi sequncias de respostas binrias
independentes com probabilidade de sucesso comum i , ou seja, Yi Bin(mi , i ). Desta
forma, E(Yi ) = mi i , como mi considerado conhecido, modelar a mdia da varivel resposta mi i equivalente a modelar i . Lembre-se que a distribuio Binomial pertence a
famlia exponencial, logo este problema pode ser visto como um caso particular do MLG.
Em muitos estudos, cada indivduo tem associando a ele um vetor de covariveis
x = (x1 , x2 , . . . , xp ), que so informaes provveis a influenciar a probabilidade de resposta positiva (sucesso). O interesse estatstico verificar a relao entre a probabilidade
de resposta = (x) e as covariveis x = (x1 , . . . , xp ). Para investigar esta relao
41
42
conveniente estabelecer um modelo formal. Na prtica, a construo deste modelo necessita que algumas suposies sejam assumidas, por exemplo a independncia entre os
indivduos, linearidade da componente sistemtica e outras. Estas suposies no podem
ser garantidas, mas podem ser checadas.
Suponha que a relao entre e x ocorre por meio de uma combinao linear, em
MLG chamada de parte sistemtica do modelo,
=
p
X
xj j ,
com x0 = 0,
j=0
p
X
xij j ,
i = 1, . . . , n.
j=0
Algumas funes de ligao g(i ) podem ser utilizadas. Trs funes so mais comuns:
A logito ou funo logstica: g1 () = log(/(1 )) (modelo de regresso logstica);
A probito ou funo normal inversa: g2 () = 1 () (modelo de regresso probito);
A funo complementar log-log: g3 () = log{ log(1 )}.
A quarta possibilidade, a funo log-log: g4 () = log{ log()}. Todas as quatro
funes so contnuas e crescentes no (0,1).
A partir daqui, todo o desenvolvimento ser baseado na funo logstica, uma vez que
o interesse analisar o modelo de regresso logstica. Portanto, podemos escrever o link
da parte sistemtica do modelo com a probabilidade de sucesso por meio de
X
p
i
log
=
xij j .
1 i
j=0
Suponha que p = 2, ento, o modelo pode ser escrito em termos da chance (odds) de
respostas positivas,
log
i
1 i
= 0 + 1 xi1 + 2 xi2
43
Supondo que xi1 e xi2 no so funcionalmente relacionadas, o efeito de uma unidade
de mudana em xi2 o aumento da chance por uma quantidade 2 . Equivalentemente,
efeito de uma unidade de mudana em xi2 o aumento da chance de uma resposta
positiva multiplicativamente pelo fator exp{2 }. xi1 est fixa e no permite variar com
as consequncias de mudana em xi2 .
As declaraes correspondentes dadas na escala da probabilidade so mais complicadas
devido ao efeito de i de uma unidade de mudana em xi2 depende dos valores de xi1 e
xi2 . A derivada de i em relao a xi2
di
= 2 i (1 i ).
dxi2
Ento, uma pequena mudana em xi2 tem um grande efeito, como medida na escala de
probabilidade, se i prximo de 0,5 e se i prximo de 0 ou 1.
5.2
Funo de Verossimilhana
n
X
yi log
i=1
p
n X
X
i=1 j=1
Pp
i
1 i
j=0
yi xij j
+ mi log(1 i ) .
xij j , ento
n
X
i=1
mi log 1 + exp
p
X
!
xij j
j=1
Observe que naturalmente obtemos como sugesto a funo de ligao logstica, pois o
termo log(i /(1 i )) o parmetro natural (cannico) da famlia exponencial, a logverossimilhana depende de y apenas por meio da combinao linear i . Essa combinao
dita ser suficiente para .
5.2.1
44
Primeiro, considere a derivada da funo de log-verossimilhana com respeito a i
yi mi i
`
=
i
i (1 i )
Usando a regra da cadeia, a derivada com respeito a r
n
X ` i
X yi mi i i
`
=
=
.
r
i r
(1 i ) r
i=1
i=1 i
conveniente expressar i /r como produto
i
i i
=
= i (1 i )xir .
r
i r
Logo, a derivada da log-verossimilhana com respeito a r
n
X yi mi i i i
X
`
=
=
(yi mi i )xir .
r
(1
i
i
i
r
i=1
i=1
(5.1)
Portanto,
0
` () =
`
= X > (Y ),
` i i
X
=
=
=
(yi mi i )xir
r s
s r
s i i r
s i=1
=
n
X
i=1
mi xir
X
i i
=
mi i (1 i )xir xis .
i s
i=1
Logo,
00
` () = X > W X,
sendo W uma matriz diagonal de pesos dada por W = diag {mi i (1 i )} .
A soluo das derivadas de primeira ordem em retornam os estimadores de mxima
verossimilhana. Porm, a soluo envolve um sistema de equaes no lineares que
necessitam de um mtodo iterativo para serem resolvidas. Ou seja, os parmetros da
regresso s podem ser obtidos iterativamente. Seguindo um algoritmo de Newton-Rapson
as estimativas podem ser obtidas da seguinte forma:
45
(0)
(0)
(0)
(0)
(0)
= mi i , com i
(0)
(0)
= g 1 (i ) e i
Pp
j=0
(0)
xij j , i =
1, . . . , n.
(0)
(0)
5.2.2
Intervalos de Confiana
n( ) D Np (0, I 1 ())
q
1
J(r)
() ,
(5.2)
1
que corresponde
J(r)
() o r-simo elemento da diagonal principal da inversa de ` (),
46
5.3
Funo Desvio
A funo desvio definida como duas vezes a diferena entre o mximo atingido pela
log-verossimilhana e o mximo alcanado sob o modelo ajustado. Sob qualquer modelo,
a funo de log-verossimilhana
H0 , com probabilidades ajustadas ,
y) =
`(;
n
X
+ (mi yi ) log(1 )}
.
{yi log
i=1
O mximo atingido pela log-verossimilhana obtido no ponto i = yi /mi , mas esse ponto
normalmente no ocorre sob H0 . A funo desvio portanto
= 2`(;
y) 2`(;
y)
D(y; )
n
X
mi yi
= 2
yi log(yi /
i ) + (mi yi ) log
.
mi
i
i=1
Esta funo se comporta de forma semelhante a soma de quadrados de resduos ou soma de
quadrados de resduos ponderados em modelos de regresso linear. A adio de covariveis
no modelo ajustado tem o efeito de reduzir D.
segue assintoticamente
Frequentemente afirmado que a varivel aleatria D(Y ; )
uma distribuio qui-quadrado com n p graus de liberdade, sendo p o nmero de parmetros ajustados sob H0 . Este resultado ento usado como justificativa do uso de
D como estatstica de bondade do ajuste para testar a adequao do modelo ajustado.
A funo deviance quase intil como uma medida absoluta de bondade de ajuste, mas
interessante para comparar dois modelos encaixado.
5.4
47
Podemos ento escrever a estatstica G como
G = 2{`(sem ; y) `(com ; y)}.
Sob a hiptese nula, a estatstica G segue uma distribuio chi-quadrado com 1 grau de
liberdade. Rejeitamos a hiptese nula para valores grandes de G (a varivel Xr deve
permanecer no modelo).
5.5
Anlise de Resduos
Pn
i=1
di = D(y; ).
Se a medida de discrepncia pode ser mesurada pela funo desvio, intuitivamente cada
observao apresenta sua contribuio para a medida global. Portanto, valores grandes
de rd so passiveis a maior investigao.
Captulo 6
Anlise Discriminante
Usamos o termo grupo para representar tanto a populao ou uma amostra da populao. Existem dois principais objetivos na separao dos grupos:
1. Definio da separao do grupo, em que funes lineares das variveis (funes
discriminantes) so usadas para descrever ou explicar as diferenas entre dois ou
mais grupos. Os objetivos da anlise discriminante incluem identificar a contribuio
relativa das p variveis para discriminao dos grupos e encontrar o plano ideal no
qual os pontos podem ser projetados para ilustrar melhor a configurao dos grupos.
2. Previso ou atribuio de observaes a grupos, em que as funes de classificao
(funes das variveis lineares ou quadrticas) so utilizadas para designar uma
unidade amostral para um dos grupos. O vetor de observao das variveis relevantes, para uma pessoa (objeto) avaliado nas funes de classificao e o indivduo
alocado no grupo mais provvel.
O interesse deste resumo apresentar formas de discriminar indivduos quando a distribuio da populao conhecida e quando a distribuio da populao no conhecida.
Apesar de estarem claramente interligadas a anlise discriminante e a classificao, no
devem ser confundidas. A anlise discriminante se refere aos mtodos de atribuio de
classes a determinados conjunto de dados. J a classificao se refere a alocao de novas
observaes nos grupos pr-definidos.
Na anlise discriminante determinado um conjunto de coeficientes associados a variveis independentes que forneam uma ponderao linear capaz de extrair a maior quantidade possvel de informao quanto classificao dos indivduos nos grupos. Ela visa
48
49
maximizar a varincia entre grupos (intergrupal) em relao varincia dentro dos grupos
(intragrupal), considerando amostras previamente classificadas dos diversos grupos.
Em geral temos populaes j , j = 1, 2, . . . , s, e queremos alocar uma observao x
em um destes grupos. Uma regra discriminante uma separao do espao amostral em
conjuntos Rj tal que se x Rj , ele definido como membro da populao j .
A principal tarefa da anlise discriminante encontrar boas regies Rj tal que o erro de
classificao seja pequeno. Primeiramente iremos descrever regras quando as distribuies
da populao so conhecidos.
6.1
f1 (x)dx.
R2
As observaes mal classificadas criam um custo C(i|j) quando a observao da populao j atribuda a Ri . A estrutura de custo pode ser ilustrada em uma matriz de
custos:
50
Populao
Populao Classificada
Verdadeira
C(2|1)
C(1|2)
Seja j a probabilidade a priori de uma populao j , sendo que o termo probabilidade a priori significa a probabilidade que um indivduo selecionado aleatoriamente da
populao pertena a j (antes da observao da amostra, ou seja, dos valores de x).
Probabilidades a priori deve ser consideradas se claro de antemo que uma observao
mais provvel que resultam de uma determinada populao j .
O custo esperado de m classificao (CEMC) dado por
CEMC = C(2|1)p21 1 + C(1|2)p12 2 .
Estaremos interessado em regras de classificao que mantm o CEMC menor, ou que
minimizam o CEMC sobre uma classe de regras. A regra discriminante que minimiza
ECMC para duas populaes dada por
f1 (x)
C(1|2)
2
R1 =
x:
f2 (x)
C(2|1)
1
C(1|2)
2
f1 (x)
<
.
R2 =
x:
f2 (x)
C(2|1)
1
A regra MV ento um caso particular da regra CEMC para o custo de m especificao igual e probabilidades a priori iguais.
Exemplo: Suponha x {0, 1} e
1 : P (X = 0) = P (X = 1) = 1/2
2 : P (X = 0) = 1/4 = 1 P (X = 1).
O espao amostral o conjunto {0, 1}. A regra MV de discriminao aloca x = 0 para
1 , pois {f1 (0) > f2 (0)} e x = 1 para 2 , pois {f1 (1) < f2 (1)}, definindo os conjuntos
R1 = {0} e R2 = {1}, com R1 R2 = {0, 1}.
Exemplo: Considere duas populaes normais
1 : N (1 , 12 )
2 : N (2 , 22 ).
51
Ento,
(
1
Li (x) = (2i2 )1/2 exp
2
x i
i
2 )
,
(
2 )
2 )
x
1
x
1
1
1
> (212 )1/2 exp
(212 )1/2 exp
2
1
2
1
(
"
2
2 #)
2
1
x 1
x 2
exp
1.
1
2
1
2
(
se x R1 = {x : x 1/2(1 + 2 )}
x 2 ,
52
Para s = 2, a parte (a) diz que x alocado em 1 se
(x 1 )> 1 (x 1 ) (x 2 )> 1 (x 2 )
1
> 1
> 1
> 1
2>
1 x + 22 x + 1 1 2 2 0,
que equivalente a
2(2 1 )> 1 x + (1 2 )> 1 (1 + 2 ) 0
1
> 1
x (1 + 2 )
0
(2 1 )
2
> (x ) 0.
6.2
Ps
j=1
j = 1. A regra discriminante de
Bayes aloca x em j que fornece o maior valor de j fj (x), j fj (x) = maxi i fi (x). Ento,
a regra discriminante definida por Rj = {x : j fj (x) i fi (x), para i = 1, . . . , s}. A
regra de Bayes tem como caso particular a regra MV para j = 1/s.
Uma importante modificao est em alocar x em j com uma certa probabilidade
P
j (x), tal que si=1 j (x) = 1 para todo x. Isso chamado de regra discriminante aleatorizada. A regra discriminante aleatorizada uma generalizao da regra discriminante
determinstica desde que
1
j (x) =
0
i (x)fi (x)dx
(6.1)
Dizemos que a primeira regra melhor se a desigualdade estrita em (6.1) tem pelo
menos um i. Uma regra discriminante chamada de admissvel se no h uma regra
53
discriminante melhor. Todas as regras discriminantes de Bayes (incluindo a regra ML)
so admissveis.
6.3
1
1
2
C(1|2)
1
> 1
> 1
R2 =
x : x> (1
,
1 2 )x + (1 1 2 2 )x k < log
2
C(2|1)
1
1
> 1
sendo k = log{(det 1 / det 2 ) + 1/2(>
1 1 1 2 2 2 )}.
6.4
s
X
j=1
com n =
Ps
i=1
nj
Sj
ns
,
54
6.5
A ideia de Fisher para uma regra de discriminao teve como base uma projeo a> x,
tal que a regra separe ao mximo possvel as populaes com maior similaridade possvel
dentro do grupo. Esta anlise discriminante linear chamada de Funo Discriminante
Linear de Fisher (FDLF). Se
Y = Xa
denota a combinao linear das observaes, ento a soma de quadrados total de y,
P
)2 , igual a
i=1 n(yi y
Y > HY = a> X > HXa = a> T a,
>
com matriz de centralidade H = I n1 1n 1>
n e T = X HX.
Yj> Hj Yj
j=1
s
X
j=1
nj (
yj y)2 =
s
X
nj {a> (
xj x
)2 } = a> Ba,
j=1
(6.2)
55
O problema de identificar a combinao linear que maximiza a discriminao em (6.2),
um caso particular do problema geral de maximizao de um quociente de formas
quadrticas. Ento, se W uma matriz positiva definida o vector de coeficientes a que se
procura o vector prprio da matriz W 1 B associado ao maior valor prprio de W 1 B.
Agora a regra de discriminao obtida ao classificar x no grupo j onde a> x
j est
mais prxima de a> x, isso ,
x j onde j = arg min |a> (x x
i )|.
i
n n
1 2
dd> ,
n
sendo d = (
x1 x
2 ). W 1 B tem apenas um autovalor que vale
tr(W 1 B) =
n n
1 2
d> W 1 d,
n
se a> {x 1/2(
x1 + x
2 )} > 0
x 2 ,
se a> {x 1/2(
x1 + x
2 )} 0.
56
xi3 : altura do crnio (altura),
xi4 : altura facial superior (altura da face),
xi5 : amplitude face, entre pontos extremos dos ossos da face (largura da face),
i = 1, . . . , 32.
A primeira tarefa realizar sobre estes dados testar a hiptese de que os vetores de
cinco dimenses mdias das medidas cranianas so os mesmos em ambas as populaes
de onde as amostras possam surgir. Supondo que os vetores de mdias de tipos I e II
de crnios no so o mesmo, a prxima etapa estabelecer uma regra de classificao de
aspectos agrupados dos dados multivariados.
Suponha que um crnio ainda est descoberto, cuja origem desconhecida, ou seja, no
sabemos se ele do tipo I ou do tipo II. O objetivo encontrar uma forma de classificar as
observaes em um dos dois grupos utilizando o conjunto de variveis x = (x1 , x2 , . . . , xq ).
O objetivo encontrar uma forma de classificar as observaes em um dos dois grupos
utilizando o conjunto de variveis x = (x1 , x2 , . . . , xq ).
Para este conjunto de dados o vetor da funo discriminante e o limiar entre os grupos
so respectivamente
a> = (0, 0893, 0, 156, 0, 005, 0, 177, 0, 177) e (
y1 + y2 )/2 = 30, 363,
logo a regra de classifica como grupo I se
0, 0893xi1 + 0, 156xi2 + 0, 005xi3 0, 177xi4 0, 177xi5 > 30, 363.
Como resultado, a anlise discriminante um sistema de escores. O escore determinado multiplicando-se o peso discriminante pelo valor de cada varivel independente do
indivduo e somando-se os resultados. Uma vez que esse escore determinado, o indivduo
classificado como pertencente a um dos grupos analisados. Por exemplo, suponha que
as medidas de dois novos crnios foram obtidas, assim
Crnio 1:
0, 0893171, 0+0, 156140, 5+0, 005127, 00, 17769, 50, 177137, 0 = 29, 27 > 30, 363,
Crnio 2:
0, 0893179, 0+0, 156132, 0+0, 005140, 00, 17772, 00, 177138, 5 = 31, 95 < 30, 363.
57
Comparando os valores dos escores com o limiar -30,363, classificamos o crnio 1 como
tipo I e o crnio 2 como tipo II.
A funo discriminante linear de Fisher ideal quando os dados surgem de populaes
com distribuio normal multivariada com as matrizes de covarincia comum. Quando as
distribuies no so claramente de uma normal uma abordagem alternativa a discriminao logstica, embora os resultados de ambos este mtodo de Fisher e provvel que
sejam muito semelhantes na maioria dos casos. Quando as duas matrizes de covarincia
so diferentes a funo discriminante linear j no tima e uma verso quadrtica pode
ser necessria.
A funo discriminante quadrtica possui a vantagem de uma maior flexibilidade em
comparao com a verso linear. Existe, contudo, uma penalidade envolvido na forma de
superajuste (overfitting) potencial, tornando a funo derivada pobre em classificar novas
observaes.
6.6
n11
n12
n21
n22
Portanto, podemo obter a taxa de erro de classificao como sendo (n12 + n21 )/n 100.
Esta tcnica tem a vantagem de ser extremamente simples. Infelizmente, no entanto, que,
geralmente, fornece uma estimativa muito pobre da taxa de erro de classificao real. Na
maioria dos casos, a estimativa obtida desta maneira ser muito otimistas. Um outra
forma de avaliar e mais geralmente usada o chamado Mtodo leaving-one-out, nos quais
a funo discriminante derivada a partir de apenas (n 1) membros da amostra e, em
58
seguida, utilizado para classificar o membro no includa. O processo realiza-se n vezes,
deixando de fora de cada membro de amostra, por sua vez. Esta opo no muito
interessante para um nmero de observaes grande.
Exemplo: Considere os resultados obtido pelo conjunto de dados dos crnios.
Grupo correto
Alocado
14
12
6.7
Ao considerar os grupos de objetos em um conjunto de dados multivariada, duas situaes podem surgir. Dado um conjunto de dados contendo medies sobre os indivduos,
em alguns casos, ns queremos ver se alguns grupos naturais ou classes de indivduos existem, e em outros casos, queremos classificar os indivduos de acordo com um conjunto de
grupos existentes. A anlise de cluster desenvolve ferramentas e os mtodos relacionados
primeiro caso, isto , dada uma matriz contendo dados multivariados medies em um
grande nmero de objetos, o objetivo construir alguns subgrupos naturais ou dos grupos de indivduos. Isto feito atravs do agrupamento indivduos que so semelhantes,
de acordo com algum critrio adequado. A anlise discriminante aborda a questo de
outra questo da classificao. Concentra-se em situaes em que os diferentes grupos so
conhecidos a priori. Regras de deciso so fornecidos na classificao de um observao
multivariada em um dos grupos conhecidos.
Captulo 7
Anlise de Agrupamentos
(Conglomerados ou Cluster)
Ao considerar grupos de objetos com dados multivariada, duas situaes podem surgir.
Dado um conjunto de dados contendo medies sobre os indivduos, em alguns casos, ns
queremos ver se alguns grupos naturais ou classes de indivduos existem, e em outros
casos, queremos classificar os indivduos de acordo com um conjunto de grupos existente.
A anlise de agrupamento desenvolve ferramentas e os mtodos relacionados ao primeiro
caso, isto , dada uma matriz contendo dados multivariados, medies em um grande
nmero de objetos, o objetivo construir alguns subgrupos naturais. Isto feito atravs do
agrupamento de indivduos que so semelhantes, de acordo com algum critrio adequado.
A anlise discriminante aborda a outra forma da classificao. Concentra-se em situaes
em que os diferentes grupos so conhecidos a priori. Regras de deciso so fornecidos para
classificar uma observao multivariada em um dos grupos conhecidos.
Neste resumo iremos apresentar uma forma de mensurar a proximidade entre objetos
considerando uma estrutura binria e variveis contnua, alm disso iremos apresentar
um forma de construo de grupos via clusters hierrquicos e outra forma de cluster via
particionamento.
7.1
O problema
A anlise de cluster um conjunto de ferramentas para a construo de grupos (clusters) de objetos de dados multivariados. O objetivo a construo de grupos homogneos
59
60
com propriedades de grandes amostras heterogneas. Os grupos ou agregados devem ser
to homogneos quanto possvel, e as diferenas entre os vrios grupos to grandes quanto
possvel. A anlise de agrupamento pode ser dividida em dois passos fundamentais.
1. Escolha de uma medida de proximidade: Verifica para cada par de observaes
(objetos) a semelhana entre os seus valores. A medida de semelhana (proximidade)
definida para mensurar a proximidade dos objetos. Quanto mais prximos eles
estiverem, mais homogneos eles so.
2. Escolha do algoritmo de construo de grupos: Com base na sua medida de proximidade os objetos so atribudos aos grupos de modo que as diferenas entre os
grupos se tornem maiores e entre as observaes de um mesmo grupo tornem-se to
pequenas quanto possvel.
Em marketing, por exemplo, a anlise de cluster usada para selecionar mercadosteste. Outras aplicaes incluem a classificao das empresas de acordo com suas estruturas organizacionais, tecnologias e tipos. Na psicologia, anlise de cluster usado para
agrupar tipos de personalidades com base em questionrios. Na arqueologia, aplicado
para classificar objetos de arte em diferentes perodos de tempo. Em cada caso, uma
amostra heterognea de objetos so analisados com o objetivo de identificar subgrupos
homogneos.
7.2
O ponto de partida de uma anlise de cluster uma matriz de dados Xnp com n
medies (objetos) de p variveis. A proximidade (similaridade) entre objetos descrito
por uma matriz Dnn .
A matriz D contm medidas de semelhana ou dissemelhana entre os n objetos. Se
os valores so distncias dij , ento eles medem dissimilaridade. Quanto maior a distncia,
menos semelhantes so os objetos. Se os valores de dij so medidas de proximidade, o
oposto verdadeiro, isto , quanto maior o valor de proximidade, mais semelhante so os
objetos. A matriz de distncia, por exemplo, pode ser definida por L2 norma : dij =
||xi xj ||2 , onde xi e xj denotam as linhas da matriz X. Distncia e similaridade so
0
naturalmente uma dupla. Se dij uma distncia, ento dij = maxij {dij } dij uma
medida de proximidade.
61
A natureza das observaes desempenha um papel importante na escolha de medidas
de proximidade. Para valores nominais (como variveis binrias), em geral, so utilizados
os valores de proximidade, enquanto que para valores mtricos (em geral) as matrizes de
distncias.
Ns primeiro apresentamos possibilidades para D no caso binrio e ento o caso contnuo.
7.2.1
p
X
I(xik = xjk = 1)
k=1
p
a2 =
I(xik = 0, xjk = 1)
k=1
p
a3 =
I(xik = 1, xjk = 0)
k=1
a4 =
p
X
k=1
a1 + a4
,
a1 + a4 + (a2 + a3 )
62
Nome
Definio
Jaccard
a1 /(a1 + a2 + a3 )
Tanimoto
(a1 + a4 )/p
a1 /p
Jogar dados
0,5
Kulczynski
a1 /(a2 + a3 )
7.2.2
Uma grande variedade de medidas de distncia pode ser gerada pelas normas, Lr norma, r 1,
dij = ||xi xj ||r =
( p
X
)1/r
r
|xik xjk |
(7.1)
k=1
Aqui xik denota o valor da k-sima varivel no objeto i. claro que dii = 0 para
i = 1, . . . , n. A classe de distncias (7.1) para a variao r mede a dissimilaridade de
diferentes pesos. A L1 -norma, por exemplo, d menos pesos para outliers que a L2 -norma
(Euclidiana norma). comum a considerar o quadrado L2 -norma.
Um pressuposto subjacente ao aplicar distncias baseadas em LR -norma que as variveis so medidas na mesma escala. Se este no for o caso, uma normalizao deve ser
aplicada. Isto corresponde a uma norma de uso mais geral L2 - ou Euclidiana norma com
a mtrica A, sendo A > 0:
d2ij = ||xi xj ||A = (xi xj )> A(xi xj ).
L2 -norma so dadas por A = Ip , mas se a normalizao desejada, ento a matriz
1
1
de peso A = diag{s1
X1 X1 , sX2 X2 , . . . , sXp Xp } pode ser razovel. Lembres-se que sXk Xk a
63
varincia da k-sima componente. Assim, temos
d2ij
p
X
(xik xjk )2
k=1
sXk Xk
Aqui, cada componente tem o mesmo peso no clculo das distncias e as distncias no
dependem de uma escolha particular das unidades de medida.
Quando aplicado a tabelas de contingncia, uma L2 -mtrica adequada para comparar
(e cluster) linhas e colunas de uma tabela de contingncia.
Se X uma tabela de contingncia, a linha i caracterizada pela distribuio da
Pp
frequncia condicional xij /xi , sendo xi =
j=1 xij indica as distribuies marginais
Pn
sobre as linhas: xi /x , x = i=1 xi . Similarmente, a coluna j de X caracterizada
P
pela frequncias condicionais xij /xj , sendo xj = ni=1 xij . As frequncias marginais das
colunas so xj /x .
A distncia entre duas linhas, i1 e i2 , corresponde distncia entre as suas respectivas
distribuies de frequncia. comum definir esta distncia utilizando a 2 -mtrica:
2
p
X
1
xi 1 j
xi 2 j
2
d (i1 , i2 ) =
.
x
/x
x
x
j
1
2
j=1
Note-se que isso pode ser expresso como a distncia entre os vectores x1 = xi1 j /x
e x2 = xi2 j /x , como em (7.1) com A = diag{xj /x }. Similarmente, se estamos
interessados em clusters, entre as colunas, podemos definir
2
n
X
1
xij1
xij2
2
d (j1 , j2 ) =
.
x
/x
x
x
i
j
j
1
2
i=1
Alm das medidas Euclidiana e Lr -norma podemos usar uma medida de proximidade
tal como o coeficiente de Q-correlao
Pp
xi )(xjk xj )
k=1 (xik P
,
dij = Pp
{ k=1 (xik xi )2 pk=1 (xjk xj )2 }1/2
sendo que xi denota a mdia sobre todas as variveis (xi1 , xi2 , . . . , xip ).
7.3
Algoritmos de cluster
64
posteriormente acontecem os agrupamentos. O segundo tipo mais grosseiro, um
aglomerado contm todas as observaes e prossegue dividindo o cluster nico em
pequenos aglomerados de menores tamanhos.
Algoritmos de particionamento: Comeam a partir de um determinado grupo de
reconhecimento e continuar trocando elementos entre os grupos at uma certa pontuao seja otimizada.
A principal diferena entre as duas tcnicas de agrupamento que, no agrupamento
hierrquico grupos so encontrados e elementos so atribudos aos grupos, esta atribuio
no pode ser alterada. Em tcnicas de particionamento, por outro lado, a atribuio de
objetos em grupos podem ser alterados durante o aplicao do algoritmo.
7.3.1
65
Dois objetos ou grupos ditos, P e Q, so unidos, o reclculo da distncia entre este
novo grupo (objeto) (P + Q) e grupo R, feito usando a seguinte funo de distncia
dR,P +Q = 1 d(R, P ) + 2 d(R, Q) + 3 d(P, Q) + 4 |d(R, P ) d(R, Q)|,
(7.2)
Ligao simples
1/2
1/2
-1/2
Ligao completa
1/2
1/2
1/2
1/2
1/2
nP
nP +nQ
Centroide
nP
nP +nQ
nQ
nP +nQ
nQ
nP +nQ
(nP Q+nPQ )2
n n
1/2
1/2
-1/4
nR +nP
nR +nP +nQ
nR +nQ
nR +nP +nQ
nR +nnPR +nQ
Nome
Mediana
Ward
O algoritmo com a ligao simples define a distncia entre os dois grupos no menor
valor das distncias individuais. Neste caso,
d(R, P + Q) = min{d(R, P ), d(R, Q)}.
Este algoritmo tambm chamado de algoritmo do vizinho mais prximo. Como consequncia de sua construo, a ligao simples tende a construir grandes grupos. Grupos
que diferem, mas no so bem separados. Algumas caractersticas desse mtodo so (i)
em geral, grupos muito prximos podem no ser identificados; (ii) permite detectar grupos de formas no-elpticas; (iii) apresenta pouca tolerncia a rudo, pois tem tendncia
a incorporar os rudos em um grupo j existente; (iv) apresenta bons resultados tanto
para distncias Euclidianas quanto para outras distncias; (v) tendncia a formar longas
cadeias.
O algoritmo de ligao completa tenta corrigir este tipo de agrupamento, considerando
os maiores (individuais) distncias. A distncia da ligao completa pode ser escrita como
d(R, P + Q) = max{d(R, P ), d(R, Q)}.
tambm chamado o algoritmo do vizinho mais distante. Este algoritmo ter grupos
de cluster onde todos os pontos esto prximos, desde que comparados com as maiores
66
distncias. Algumas caractersticas desse mtodo so: (i) apresenta bons resultados tanto
para distncias Euclidianas quanto para outras distncias; (ii) tendncia a formar grupos
compactos; (iii) os rudos demoram a serem incorporados ao grupo.
Os mtodos de ligao pelo vizinho mais prximo e por vizinho mais distante trabalham
em direes opostas. Se eles apresentam resultados semelhantes, significa que o grupo
est bem definido no espao, ou seja, o grupo real. Mas se ocorre o contrrio, os grupos
provavelmente no existem.
O algoritmo de ligao por mdia (ponderada ou no ponderada) prope um compromisso entre os dois algoritmos anteriores, na medida em que calcula uma distncia
mdia
d(R, P + Q) =
nP
nQ
d(R, P ) +
d(R, Q).
nP + nQ
nP + nQ
Algumas caractersticas desse mtodo so: (i) menor sensibilidade rudos que o os
mtodos de ligao por vizinho mais prximo e por vizinho mais distante; (ii) apresenta
bons resultados tanto para distncias Euclidianas quanto para outras distncias; (iii)
tendncia a formar grupos com nmero de elementos similares.
O algoritmo de centroide bastante semelhante do algoritmo de ligao por mdia
e usa a distncia natural geomtrica entre R e o centro de gravidade ponderada de P e Q
d(R, P + Q) =
nP
nQ
nP nQ
d(R, P ) +
d(R, Q)
d(P, Q).
nP + nQ
nP + nQ
(nP + nQ )2
67
grupos de tal forma que a variao dentro destes grupos no aumentem drasticamente:
os grupos resultantes so to homogneos quanto possvel. A heterogeneidade do grupo
R medida pela inrcia dentro do grupo, ela definida por
nR
1 X
IR =
d2 (xi , xR ),
nR i=1
sendo xR o centro de gravidade (mdia) de todos os grupos. IR fornece uma medida escalar
da disperso do grupo em torno do seu centro de gravidade. Se a distncia Euclidiana
habitual utilizada, IR representa a soma das varincias dos p componentes de xi dentro
do grupo R.
Quando dois objetos ou grupos P e Q so unidos, o novo grupo P + Q tem um IP +Q .
Pode ser mostrado que o aumento correspondente da inrcia dada pela
(P, Q) =
nP nQ 2
d (P, Q).
nP + nQ
Neste caso, o algoritmo de Ward definido como um algoritmo que une os grupos que do
o menor aumento em (P, Q). Quando P e Q so unidos, os novos valores do critrio dado
por (7.2), juntamente com os valores de i dada na Tabela, quando a frmula do centroide
usado para modificar d2 (R, P + Q). Assim, o algoritmo de Ward est relacionado com
o algoritmo de centroide, mas com uma distncia de inrcia maior que a distncia
geomtrica d2 .
Algumas caractersticas de mtodo de Wald so: (i) apresenta bons resultados tanto
para distncias euclidianas quanto para outras distncias; (ii) pode apresentar resultados
insatisfatrios quando o nmero de elementos em cada grupo praticamente igual; (iii)
tem tendncia a combinar grupos com poucos de elementos; (iv) sensvel presena de
outliers.
Os grupos, nos mtodos hierrquicos, so geralmente representados por um diagrama
bi-dimensional chamado de dendograma ou diagrama de rvore. Neste diagrama, cada
ramo representa um elemento, enquanto a raiz representa o agrupamento de todos os
elementos. Atravs do dendograma e do conhecimento prvio sobre a estrutura dos dados,
deve-se determinar uma distncia de corte para definir quais sero os grupos formados.
Essa deciso subjetiva, e deve ser feita de acordo o objetivo da anlise e o nmero de
grupos desejados.
Os mtodos divisivos trabalham na direo oposta dos mtodos aglomerativos, ou seja,
um grupo inicial contendo todos os elementos dividido em dois subgrupos, de tal forma
68
que os elementos em um subgrupo estejam distantes dos elementos do outro subgrupo.
Os mtodos divisivos so pouco mencionados na literatura, pois exigem uma maior
capacidade computacional que os mtodos aglomerativos.
7.3.2
Algoritmos de Particionamento
Os mtodos no-hierrquicos, ou por particionamento, foram desenvolvidos para agrupar elementos em k grupos, onde k a quantidade de grupos definida previamente. Nem
todos valores de k apresentam grupos satisfatrios, sendo assim, aplica-se o mtodo vrias
vezes para diferentes valores de k, escolhendo os resultados que apresentem melhor interpretao dos grupos ou uma melhor representao grfica.
A ideia central da maioria dos mtodos por particionamento escolher uma partio
inicial dos elementos e, em seguida, alterar os membros dos grupos para obter-se a melhor
partio. Quando comparado com o mtodo hierrquico, o mtodo por particionamento
mais rpido porque no necessrio calcular e armazenar, durante o processamento, a
matriz de similaridade.
Em geral, os mtodos por particionamento diferem entre si pela maneira que constituem a melhor partio. Os mtodos por particionamento mais conhecidos so o mtodo
k-mdias e o mtodo k-medides, e so descritos a seguir.
O mtodo k-mdias toma um parmetro de entrada, k, e particiona um conjunto de
n elementos em k grupos, da seguinte forma:
1. Escolhe arbitrariamente k elementos da base de dados como os centros iniciais dos
grupos;
FAZER
2. (re)Atribua cada elemento ao grupo ao qual o elemento mais similar, de acordo
com o valor mdio dos elementos no grupo;
3. Atualizar as mdias dos grupos, calculando o valor mdio dos elementos para cada
grupo;
AT que no haja mudanas de elementos de um grupo para outro.
Algumas caractersticas desse mtodo so: (i) sensibilidade a rudos, uma vez que um
elemento com um valor extremamente alto pode distorcer a distribuio dos dados; (ii)
69
tendncia a formar grupos esfricos; (iii) o nmero de grupos o mesmo durante todo o
processo; (iv) inadequado para descobrir grupos com formas no convexas ou de tamanhos
muito diferentes.
O mtodo k-medide utiliza o valor mdio dos elementos em um grupo como um ponto
referncia, chamado de medide. Esse o elemento mais centralmente localizado em um
grupo.
A estratgia bsica encontrar k grupos em n elementos e, arbitrariamente, encontrar
um elemento representativo (medide) para cada grupo. Cada elemento remanescente
agrupado com o medide ao qual ele mais similar. A estratgia, ento, iterativamente,
troca um dos medides por um dos no medides enquanto a qualidade do agrupamento
resultante melhorada. O mtodo segue o algoritmo:
1. Escolher, arbitrariamente, k elementos da base de dados como os medides iniciais
dos grupos;
FAZER
2. Atribua cada elemento remanescente ao grupo com o medide mais prximo;
3. Aleatoriamente, selecione um elemento que no esteja como medide, r;
4. Calcule o custo total (diferena de mdias), S, de trocar o medide Oj pelo elemento
r;
5. Se S < 0 ento troque Oj por r para formar o novo conjunto de k-medides;
AT que no haja mudana de objetos de um grupo para outro.
Algumas caractersticas desse mtodo so: (i) independente da ordem, os resultados
sero os mesmos; (ii) tendncia a encontrar grupos esfricos; (iii) processamento mais
custoso que o k-mdias; (iv) no aplicvel grandes bases de dados, pois o custo de
processamento alto; (v) mais robusto do que o k-mdias na presena de rudos porque
o medide menos influenciado pelos rudos do que a mdia.
Uma forma de otimizar o mtodo k-medide para grandes bases de dados considerar
uma poro dos dados como uma amostra representativa, e escolher os medides dessa
amostra.
Captulo 8
Anlise de Sries Temporais
Uma srie temporal uma coleo de observaes feitas sequencialmente ao longo
do tempo. A caracterstica mais importante deste tipo de dados que as observaes
vizinhas so dependentes e o interesse analisar e modelar esta dependncia. Enquanto
em modelos de regresso por exemplo a ordem das observaes irrelevante para a anlise,
em sries temporais a ordem dos dados crucial. Vale notar tambm que o tempo pode
ser substitudo por outra varivel como espao, profundidade, etc.
Como a maior parte dos procedimentos estatsticos foi desenvolvida para analisar
observaes independentes o estudo de sries temporais requer o uso de tcnicas especficas. Algumas caractersticas so particulares a este tipo de dados, por exemplo, (i)
observaes correlacionadas, (ii) ordem temporal das observaes importante, (iii) presena de tendncias e variao sazonal ou cclica que dificultar a anlise, (iv) complicado
fazer seleo de modelos, (v) difcil lidar com observaes perdidas e dados discrepantes
devido natureza sequencial.
Uma srie temporal dita ser contnua quando as observaes so feitas continuamente
no tempo ou discreta quando as observaes so feitas em tempos especficos, geralmente
equi-espaados. Note que estes termos no se referem natureza da varivel observada,
que pode assumir valores discretos ou contnuos. Ressaltamos que sries temporais discretas podem surgir da discretizao de sries contnuas.
De um modo geral, os principais objetivos em se estudar sries temporais podem ser
os seguintes: (i) descrio: propriedades da srie, (ii) explicao: usar a variao em uma
srie para explicar a variao em outra srie, (iii) predio: predizer valores futuros com
base em valores passados, (iv) controle de processos.
70
71
Neste resumo abordaremos algumas tcnicas descritivas e modelos probabilsticos de
Box-Jenkins para sries estacionrias. A ferramenta bsica para abordar uma srie temporal a funo de autocorrelao.
8.1
Tcnicas Descritivas
Ao se analisar uma ou mais sries temporais a representao grfica dos dados sequencialmente ao longo do tempo fundamental e pode revelar padres de comportamento
importantes. Tendncias de crescimento (ou decrescimento), padres cclicos, alteraes
estruturais, observaes aberrantes, etc. so muitas vezes facilmente identificados. Sendo
assim, o grfico temporal deve ser sempre o primeiro passo e antecede qualquer anlise.
Outras ferramentas so descritas ao longo desta seo.
8.2
Decomposio Clssica
Muitas das propriedades observadas em uma srie temporal Xt podem ser captadas
assumindo-se a seguinte forma de decomposio
Xt = Tt + Ct + Rt
sendo Tt uma componente de tendncia, Ct uma componente cclica ou sazonal e Rt
uma componente aleatria ou rudo (a parte no explicada, que espera-se ser puramente
aleatria). A componente cclica se repete a cada intervalo fixo s, i.e.
. . . = Ct2s = Cts = Ct = Ct+s = Ct+2s = . . . .
Assim, variaes peridicas podem ser captadas por esta componente.
Componente de tendncia
Podemos pensar em tendncia como uma mudana de longo prazo no nvel mdio
da srie. A dificuldade aqui definir longo prazo. Procura-se neste caso usar modelos
de regresso para caracterizar o sinal que controla a srie. Por exemplo, o modelo de
tendncia linear: Tt = + t, o modelo de regresso linear simples: Tt = + xt e
o modelo de regresso no linear: Tt = 1/( + xt ). Seja qual for a curva utilizada, a
72
funo ajustada fornece uma medida da tendncia da srie, enquanto os resduos (valores
observados-valores ajustados) fornecem uma estimativa de flutuaes locais.
Outro procedimento para analisar sries com tendncia utilizando filtros, que so
transformaes nas sries que removem a componente de tendncia. Exemplos de filtros:
filtro linear (converte a srie por meio de uma operao linear), alisamento exponencial
(um tipo de filtro linear assimtrico), diferenciao da srie.
Componente cclica ou sazonal
Uma forma bastante simples de eliminar o efeito sazonal simplesmente tomar mdias
sazonais. Por exemplo, em dados mensais com sazonalidade anual, as mdias anuais
estaro livres do efeito sazonal. Embora este procedimento esteja correto muitos dados
sero perdidos e ao invs disto pode-se recorrer um filtro.
8.3
Autocorrelao
(xt x1 )(xt+1 x2 )
r1 = qP t=1
,
Pn1
n1
2
2
1 )
2 )
t=1 (xt x
t=1 (xt+1 x
sendo
x1 =
n1
X
t=1
xt /(n 1) e x2 =
n
X
(8.1)
xt /(n 1).
t=2
73
sendo que alguns autores ainda retiram o termo n/(n 1) que prximo de 1 para n no
muito pequeno. Est forma ser considerada neste texto.
Assim,
Pnk
(xt x)(xt+k x)
rk = t=1Pn
)2
t=1 (xt x
fornece o coeficiente de correlao de ordem k. Assim como o coeficiente de correlao
usual, as autocorrelaes so adimensionais e 1 < rk < 1.
Na prtica mais usual calcular primeiro os coeficientes de autocovarincia {ck },
definidos por analogia com a frmula usual de covarincia, ou seja,
nk
X
ck =
(xt x)(xt+k x)/n.
t=1
Var(rk ) 1/n,
1, 96 n.
Um grfico com os k primeiros coeficientes de autocorrelao como funo de k
chamado de correlograma e pode ser uma ferramenta poderosa para identificar caractersticas da srie temporal. Porm isto requer uma interpretao adequada do correlograma,
i.e. devemos associar certos padres do correlograma como determinadas caractersticas
de uma srie temporal. Esta nem sempre uma tarefa simples e a seguir so dadas
algumas indicaes.
Sries aleatrias: Para uma srie completamente aleatria os valores defasados so
no correlacionados e espera-se que rk = 0.
Correlao de curto-prazo: Um correlograma desta srie dever exibir um valor
relativamente grande de r1 seguido por valores que tendem a ficar sucessivamente
menores. A partir de uma certa defasagem k os valores de rk tendem a ser aproximadamente zero.
Correlao negativa: O valor de r1 ser negativo enquanto o valor de r2 ser positivo
(ou ao contrrio) j que as observaes defasadas de 2 perodos tendem a estar do
mesmo lado da mdia.
74
Sries no estacionrias: Os valores de rk no decairo para zero a no ser em
defasagens grandes.
Variao sazonal: De forma geral, o correlograma ir exibir oscilaes na mesma
frequncia da flutuao sazonal.
Observaes discrepantes: O correlograma pode ser seriamente afetado, evidenciando correlao espria.
8.4
Modelos Probabilsticos
Nesta seo so descritos alguns modelos adequados para dados de sries temporais.
Tais modelos so chamados de processos estocsticos.
Uma srie temporal gerada por um processo determinstico aquela onde possvel
prever exatamente valores futuros a partir de valores passados. Contudo muitos fenmenos
dinmicos correspondem ao conjunto dos chamados processos estocsticos ou aleatrios
onde valores futuros so apenas parcialmente determinados a partir de valores passados.
Os modelos criados para sries estocsticas so tambm denominados processos estocsticos.
Em geral um processo estocstico define-se como uma famlia de variveis aleatrias
{Xt } = (X1 , X2 , . . . , Xt ) indexadas no tempo. Isto quer dizer que se uma srie temporal
{x(t)} = {x1 , x2 , . . . , xt } for gerada pelo processo estocstico {Xt }, o valor x1 um resultado aleatrio que segue a distribuio de probabilidades de X1 , o valor x1 um resultado
aleatrio que segue a distribuio de probabilidades de X2 , e assim sucessivamente.
Uma classe importante de processos estocsticos os chamados processos estacionrios.
Um processo estacionrio aquele onde o sistema se apresenta num estado de equilbrio
estatstico em torno de um nvel mdio fixo, ou seja, no apresenta tendncia. Isto quer
dizer que o sistema tem propriedades probabilsticas invariantes ao longo do tempo.
De maneira mais rigorosa, um processo estocstico {Xt }, estritamente estacionrio
se a funo densidade de probabilidade conjunta da famlia de variveis aleatrias do
processo, depende unicamente da localizao relativa das variveis. Isto quer dizer que se
fX1 ,X2 ,...,Xt denota a funo densidade de probabilidade conjunta para o processo {Xt },
75
ento para que o processo seja considerado estritamente estacionrio deve verificar-se que,
fX1+k ,X2+k ,...,Xt+k = fX1 ,X2 ,...,Xt ,
para qualquer k inteiro.
Contudo a estacionaridade no sentido estrito uma propriedade muito exigente e de
difcil verificao. Uma definio menos exigente de estacionaridade, corresponde a os
processos fracamente estacionrios at 2a ordem. Neste caso apenas necessrio que
as funes densidade de probabilidade das variveis aleatrias possuam caractersticas
comuns quando expressas nos termos at 2a ordem.
Isto quer dizer que um processo estocstico {Xt } fracamente estacionrio at 2a
ordem se a sua famlia de variveis aleatrias verifica as seguintes propriedades para a
mdia, varincia e covarincia,
E(Xk ) = ,
Var(Xk ) = 2
para qualquer k inteiro, sendo necessrio que e 2 sejam valores finitos. Note-se que
a covarincia entre duas variveis consecutivas do processo devem sempre ser iguais a
covarincia entre as duas primeiras variveis do processo.
A seguir so apresentados alguns processos estocsticos que so utilizados com frequncia na especificao de modelos para sries temporais.
8.4.1
Sequncia Aleatria
1, k = 0
(k) =
.
0, k = 1, 2, . . .
Um processo puramente aleatrio as vezes chamado de rudo branco e pode ser til
por exemplo na construo de processos mais complicados.
76
8.4.2
Passeio Aleatrio
8.4.3
(8.2)
77
Portanto,
(1) =
1
1 2
=
.
2
2
(1 + 1 )
1 + 12
2 (1 + 1 2 )
1 + 1 2
=
.
2
2
2
(1 + 1 + 2 )
1 + 12 + 22
0,
k>q
P
,
(k) =
2 qk
j=0 j j+k , k = 0, . . . , q
(k)
k<0
sendo 0 = 1.
A funo de autocorrelao dada por
1,
k=0
P
P
k
2
(k) =
.
2 qk
j=0 j j+k
j=0 j , k = 0, . . . , q
(k)
k < 0; k > q
Note que a funo tem um ponto de corte na defasagem q, ou seja, (k) = 0 para
k > q. Esta uma caracterstica especfica de processos mdias mveis e ser til na
especificao do valor de q na prtica.
78
Como a mdia e a varincia so constantes e (k) no depende de t o processo
(fracamente) estacionrio para todos os possveis valores de 1 , 2 , . . . , q . Em geral
desejvel impor restries para que eles satisfaam uma condio de inversibilidade. Esta
condio pode ser melhor expressa ao usar o operador de retardo, denotado por B e
definido como
B j Xt = Xtj , para todo j.
Assim, (8.2) pode ser escrita como
Xt = (1 + 1 B + 2 B 2 + . . . + q B q )t = (B)t ,
sendo (B) um polinmio de ordem q em B. Um processo M A(q) inversvel se as razes
da equao
(B) = 1 + 1 B + 2 B 2 + . . . + q B q )t = 0
estiverem fora do crculo unitrio. Teremos ento 2q modelos com a mesma funo de
autocorrelao mas somente um deles ser inversvel.
Processos Autoregressivos
Seja {t } um processo discreto puramente aleatrio com mdia zero e varincia 2 .
Um processo {Xt } chamado de processo autoregressivo de ordem p, ou AR(p), se
Xt = 1 Xt1 + . . . , p Xtp + t .
(8.3)
(8.4)
Note que existe uma estrutura Markoviana no processo AR(1) no sentido de que, dado
Xt1 , Xt no depende de Xt2 , Xt3 , . . .. Fazendo substituies sucessivas obtemos que
Xt = (Xt2 + t1 ) = 2 Xt2 + t1 + t
= 2 (Xt3 + t2 ) + t1 + t
= ...
=
r+1
Xtr1 +
r
X
j=0
j tj .
79
2
Se Xt for estacionrio com varincia finita X
podemos escrever que
!2
r
X
2
2
E Xt
j tj
= 2r+2 E(Xtr1
) = 2r+2 X
.
j=0
e se || < 1 temos que 2r+2 0 quando r . Portanto, esta condio nos permite
escrever Xt como o seguinte processo MA infinito,
Xt = t + t1 + 2 t2 + . . . .
e assim || < 1 uma condio suficiente para que Xt seja estacionrio.
Podemos tambm usar o operador de retardo reescrevendo a equao (8.4) como
(1 B)Xt = t
ou equivamentemente
Xt =
1
t = (1 + B + 2 B 2 + . . .)t = t + t1 + 2 t2 + . . . .
(1 B)
Escrevendo o processo AR(1) neste formato de MA infinito fica fcil ver que a sua
mdia e varincia so dados por
E(Xt ) = 0 Var(Xt ) = 2 (1 + 2 + 4 + . . .) =
2
.
1 + 2
2
2
= k X
.
1 2
ou
(B)Xt = t
j2 < .
80
Assim, os coeficientes j podem ser obtidos a partir dos coeficientes j fazendo
(1 1 B 2 B 2 . . . p B p )(0 + 1 B + 2 B 2 + . . .) = 1
o efeito de t em Xt+k dado por k , k = 1, 2, . . ..
Para um processo AR(p), o ltimo coeficiente p mede o excesso de correlao na
defasagem p que no levado em conta por um modelo AR(p 1). Este chamado
de p-simo coeficiente de autocorrelao parcial. Assim, variando k = 1, 2, . . . temos a
chamada funo de autocorrelao parcial (facp).
Por outro lado, em um processo AR(p) no existe correlao direta entre Xt e Xtp1 ,
Xtp2 , . . ., que faz com que todos os coeficientes de correlao parcial sejam nulos para
k > p. O fato de que a facp igual a zero para k > p pode ser usado como uma ferramenta
para determinar a ordem p do processo autoregressivo para sries temporais observadas.
Modelos Mistos ARMA
Combinando-se modelos AR e M A pode-se obter uma representao adequada com
um nmero menor de parmetros. Processos autoregressivos mdias mveis (ARMA)
formam um classe de modelos muito teis e parcimoniosos para descrever dados de sries
temporais. O modelo ARM A(p, q) dado por
Xt = 1 Xt1 + . . . + p Xtp + t + 1 t1 + . . . + q tq ,
sendo {t } um processo puramente aleatrio com mdia zero e varincia 2 .
Note que, modelos AR ou M A podem ser obtidos como casos especiais quando p = 0
ou q = 0. Usando o operador diferena o modelo pode ser reescrito como
(1 1 B 2 B 2 . . . p B p )Xt = (1 + 1 B + 2 B 2 . . . + q B q )t
ou
(B)Xt = (B)t .
Os valores de 1 , . . . , p que tornam o processo estacionrio so tais que as razes de
(B) = 0 que esto fora do crculo unitrio. Analogamente, os valores de 1 , . . . , q que
tornam o processo inversvel so tais que as razes de (B) = 0 que esto fora do crculo
unitrio.
Vale notar que as funes de autocorrelao e autocorrelao parcial so consideravelmente mais complicadas em processos ARM A. De um modo geral, para um processo
81
ARM A(p, q) estacionrio a funo de autocorrelao tem um decaimento exponencial ou
oscilatrio aps a defasagem q enquanto que a facp tem o mesmo comportamento aps a
defasagem p. Este resultado pode ser utilizado para auxiliar na determinao da ordem
(p, q) do processo, mas na prtica pode ser bastante difcil distinguir entre decaimentos
exponenciais e oscilatrios por meio das estimativas destas funes.
8.5
Estimao
8.5.1
82
como se fosse um modelo de regresso linear mltipla.
8.5.2
8.5.3
8.6
Adequao do Modelo
83
disso, em modelos de sries temporais os resduos esto ordenados no tempo e portanto
natural trat-los tambm como uma srie temporal. particularmente importante que os
resduos de um modelo estimado sejam serialmente no correlacionados. Caso contrrio,
h evidncia falta de ajuste.
Consequentemente, duas maneiras de verificar a adequao do modelo consistem em
representar graficamente os resduos e o seu correlograma. O grfico temporal poder
revelar a presena de dados discrepantes, efeitos de autocorrelao ou padres cclicos
enquanto que o correlograma permite uma anlise mais detalhada da estrutura de autocorrelao indicando possveis termos faltantes no modelo.
8.7
Uma das formas de utilizao de um modelo ajustado para fazer previses de valores
futuros. Assim, se t o perodo corrente estamos interessados em prever os valores de
Xt+1 , Xt+2 , . . .. A previso de Xt+k , para k = 1, 2, . . . ser denotada por xt (k) e definida
como a esperana condicional de Xt+k dados todos os valores passados, ou seja,
xt (k) = E(Xt+k |xt , xt1 , . . .).
A equao acima chamada de funo de previso e o inteiro k chamado de horizonte
de previso.
Em modelos ARMA as previses podem ser obtidas usando-se diretamente a equao
do modelo. Assumindo que a equao do modelo seja conhecida a previso xn (k) obtida
substituindo os valores futuros dos erros por zero, valores futuros da srie Xn+1 , Xn+2 , . . .
pela sua esperana condicional, e valores passados de X e de pelos seus valores observados.
No caso de modelos autoregressivos AR(p) a funo de previso dada por
xt (1) = 1 xt + . . . + p xtp+1
xt (2) = 1 xt (1) + . . . + p xtp+2
..
.
xt (p + 1) = 1 xt (p) + . . . + p xt (1).
de modo que as previses para horizontes maiores do que p usam apenas as previses
anteriores.
84
No caso de modelos mdias mveis ARM A(q) a funo de previso dada por
xt (1) = 1 t + . . . + q tq+1
xt (2) = 2 t + . . . + q tq+2
..
.
xt (p + 1) = q t
xt (q + j) = 0, j = 1, 2, . . . .
Captulo 9
Tcnicas de Amostragem
A amostragem uma tcnica estatstica naturalmente presente em muitas situaes,
no cotidiano das pessoas. Fazer uma amostragem extrair do todo (populao) uma
parte (amostra) com o propsito de avaliar certas caractersticas desta populao. A
populao o conjunto de objetos, indivduos ou resultados experimentais dos quais
se pretende estudar alguma caracterstica comum. As populaes podem ser finitas ou
infinitas, existentes ou conceptuais. A amostra uma parte da populao que observada
com o objetivo de obter informao para estudar a caracterstica pretendida.
De maneira geral, existem trs situaes em que pode no valer a pena a realizao
de amostragem: (i) populao muito pequena, (ii) caracterstica de fcil mensurao, (iii)
necessidade de alta preciso. Nos demais casos, o uso de amostragem pode ser interessante,
alm de fornecer vantagens como: (i) processo mais econmico, (ii) situaes que no h
tempo suficiente para pesquisar toda a populao, (iii) confiabilidade dos dados (menor
chance de erros), e (iv) operacionalidade.
Veja o exemplo do tempero: ao provar (observar) uma pequena poro de um alimento,
estamos fazendo uma amostragem. Se a amostragem for bem elaborada o tempero da
parte provada ser semelhante ao todo, permitindo produzir concluses eficientes sobre o
tempero do alimento.
Assim, introduzimos intuitivamente a necessidade da representatividade da amostra,
ou seja, a menos de certas pequenas discrepncias inerentes aleatoriedade sempre presente, em maior ou menor grau, no processo de amostragem, a amostra deve possuir as
mesmas caractersticas bsicas da populao, no que diz respeito (s) varivel(is) que
desejamos pesquisar.
85
86
Ao realizar uma amostra, devemos elaborar um plano de amostragem envolvendo a
definio da unidade de amostragem, a forma de seleo dos elementos da populao e o
tamanho da amostra. A unidade de amostragem a unidade a ser selecionada para se
chegar aos elementos da populao. Tais unidades podem ser os prprios elementos da
populao, ou outros, mais fceis de serem selecionados e que, de alguma forma estejam
associados aos elementos da populao. A seleo dos elementos que iro fazer parte
da amostra pode ser feita de diversas maneiras, contudo vamos somente considerar a
amostragem probabilstica, ou seja, um plano de amostragem em que cada elemento da
populao tem uma probabilidade conhecida de ser includo na amostra.
9.1
A seguir iremos descrever algumas tcnicas de amostragem probabilstica para populaes finitas e explicitar o clculo do tamanho amostral para a mdia de uma populao.
Dos vrios tipos de planeamento disponveis na literatura, destacamos a amostragem
aleatria simples (AAS) com e sem reposio e a amostragem estratificada. Mencionamos
a ideia de amostragem por conglomerados e amostragem sistemtica.
9.1.1
87
9.1.2
No processo de sorteio sequencial, aps a amostra ter sido retirada ela devolvida
(reposio) para a populao antes que a prxima unidade amostrada seja selecionada.
Neste processo a varivel fi , nmero de vezes que a unidade i aparece na amostra,
segue uma distribuio Bin(n, 1/N ). Logo,
n
n
1
,
N
N
0
n
n
n
1
1
1
= P (fi 6= 0) = 1 P (fi 6= 1) = 1
1
=1 1
0
N
N
N
n
n
2
1
+12 1
.
= P (fi 6= 0 fj 6= 0) = 1 P (fi 6= 1 fj 6= 1) = 1 2 1
N
N
E(fi ) =
i
ij
n
,
N
Var(fi ) =
Como cada tentativa tentativa independente e cada um dos N elementos da populao tem mesma probabilidade de ser selecionado 1/N . Caracteriza para a (f1 , f2 , . . . , fn )
a distribuio multinomial com parmetros (n, 1/N, . . . , 1/N ), logo
Cov(fi , fj ) = n
n
1 1
= 2.
NN
N
Amostral
funo
esperana
varincia
T = N y
P
y = n1 ni=1 yi
Pn
1
s2 = n1
)2
i=1 (yi y
E(T ) =
Var(T ) = N 2 2 /n
E(
y) =
Var(
y ) = 2 /n
E(s2 ) = 2
T
p
a N (0, 1),
2
2
N /n
sendo que N (0, 1) denota a distribuio normal padro. Estes resultados assintticos
possibilitam obter intervalos de confiana aproximados y e T , ou seja,
!
|
y |
P p
z
= 1 ,
2
/n
88
sendo z o quantil da distribuio N (0, 1) que deixa uma rea no intervalo (z , z )
uma rea de (1 ). Desta construo, podemos obter um tamanho de amostra para o
estimador y quando n grande
n=
2
.
(B/z )2
Contudo, para obter o tamanho da amostra necessrio fixar o erro mximo desejado
p
(B = z 2 /n), com algum grau de confiana (1 ) e conhecimento a priori sobre a
variabilidade da populao ( 2 ). Amostra piloto pode ser til para estimar 2 .
De forma, muito similar podemos obter o tamanho amostral para o total populacional.
No caso em que o interesse uma proporo, o resultado assinttico de aproximao da
distribuio binomial a distribuio normal pode ser usado para n grande e a soluo
pode ser obtida de forma anloga.
9.1.3
No processo de sorteio sequencial, aps a amostra ter sido retirada ela no devolvida
(sem reposio) para a populao antes que a prxima unidade amostrada seja selecionada.
Neste processo a varivel fi , nmero de vezes que a unidade i aparece na amostra,
segue uma distribuio Bin(1, n/N ). Logo,
n
n
n N n
1
, Cov(fi , fj ) = 2
,
N
N
N N 1
n
= P (fi =
6 0) = 1 P (fi 6= 1) = ,
N
n n1
.
= P (fi 6= 0 fj 6= 0) = 1 P (fi 6= 1 fj 6= 1) =
N N 1
E(fi ) =
i
ij
n
,
N
Var(fi ) =
Amostral
funo
esperana
varincia
T = N y
P
y = n1 ni=1 yi
Pn
1
s2 = n1
)2
i=1 (yi y
Pn
1
s2 = n1
)2
i=1 (yi y
E(T ) =
Var(T ) = N 2 (1 n/N )S 2 /n
E(
y) =
Var(
y ) = (1 n/N )S 2 /n
E(s2 ) = 2
E(s2 ) = S 2
Todos os resultados apresentados para AAS com reposio so equivalentes para AAS
sem reposio, exceto pelo expresso correspondente a varincia amostral que devemos
89
considerar a seguinte relao
(1 n/N )
S2
S2
S2
=
= 0.
n
n/(1 n/N )
n
Se tivssemos que optar por AAS com ou sem reposio para estimar a mdia de uma
populao, deveramos optar por AAS sem reposio, pois o efeito de planejamento (razo
entre varincias do estimador amostral) indica a AAS sem reposio como a melhor opo
para n 1 e equivalentes para n = 1.
9.1.4
Amostragem estratificada
90
Neste caso, o total populacional
es =
H
X
h =
h=1
Nh
H X
X
Yhi ,
h=1 i=1
d2 =
H
X
Wh h2 ,
e2 =
h=1
H
X
Wh (h es )2 ,
h=1
H
X
Nh 1
h=1
N 1
Sh2
H
X
Nh
+
(h es )2 .
N
1
h=1
Nh
.
N
Este caso tambm chamado de amostra representativa. Para esta alocao da amostra
temos que yes = y.
Analogamente ao processo apresentado para AAS com reposio, yes e es seguem
assintoticamente distribuio normal. Portanto, usando a mesma sequencia podemos
obter o tamanho amostral quando o interesse so a mdia e o total populacional.
91
9.1.5
Amostragem de conglomerados
9.1.6
Amostragem sistemtica
Quando existe uma listagem de indivduos da populao, pode-se sortear, um nome entre os dez primeiros e posteriormente selecionar o dcimo indivduo iniciando no primeiro
sorteado. A seleo do primeiro indivduo pode ser feita usando AAS. Os demais indivduos, que iro compor a amostra, so ento selecionados sistematicamente.
9.2
92
expresso
n=
N n0
,
N + n0
sendo n0 =
1
,
E02
9.3
93
errada dos entrevistadores, (vii) erro no processamento, (viii) processos de amostragens
no probabilsticos.