Você está na página 1de 29

Estatstica Computacional e Simulao

Captulo 4. Tcnicas de Reamostragem Bootstrap e Jackknife

MEIO  MSc ESTATSTICA e INVESTIGAO OPERACIONAL


MGI  MSc GESTO DE INFORMAO
MAEG  MSc MATEMTICA APLICADA ECONOMIA E GESTO

DEIO - FCUL
10 Ano - 20 Semestre - 2012/2013
Crditos: 6 ECTS; Carga Horria: 2T + 2P

Maria Isabel Fraga Alves


mailto:mialves@fc.ul.pt
http://docentes.deio.fc.ul.pt/fragaalves/
Gabinete 6.4.8
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Introduo

Neste captulo apresentaremos dois mtodos que podem ser usados


em alternativa aos mtodos de Monte Carlo referidos anteriormente
quando no est disponvel nenhum modelo estatstico.
Abordaremos as
Tcnicas de Reamostragem
Bootstrap
Jackknife
que a partir de uma s amostra geram novas amostras imagem
da original.
Os mtodos de reamostragem tratam uma amostra observada
como uma populao nita; ento so geradas amostras partir da
original para estimar caractersticas populacionais e fazer inferncia
sobre a populao.

192 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

4.1 Mtodos de Bootstrap

O Mtodo de Bootstrap foi introduzido em 1979 por Efron. Os mtodos


de Bootstrap so uma classe de mtodos de Monte Carlo
no-paramtricos que estimam a distribuio da populao por
reamostragem. O termo "bootstrap"pode ser dirigido a bootstrap
no-paramtrico ou bootstrap paramtrico. Ser o primeiro o objectivo de
estudo desta seco.

193 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

4.1 Mtodos de Bootstrap

O Mtodo de Bootstrap foi introduzido em 1979 por Efron. Os mtodos


de Bootstrap so uma classe de mtodos de Monte Carlo
no-paramtricos que estimam a distribuio da populao por
reamostragem. O termo "bootstrap"pode ser dirigido a bootstrap
no-paramtrico ou bootstrap paramtrico. Ser o primeiro o objectivo de
estudo desta seco.

A distribuio da populao nita representada pela amostra pode ser


encarada como uma pseudo-populao, com caractersticas anlogas s
da verdadeira populao.

193 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

4.1 Mtodos de Bootstrap

O Mtodo de Bootstrap foi introduzido em 1979 por Efron. Os mtodos


de Bootstrap so uma classe de mtodos de Monte Carlo
no-paramtricos que estimam a distribuio da populao por
reamostragem. O termo "bootstrap"pode ser dirigido a bootstrap
no-paramtrico ou bootstrap paramtrico. Ser o primeiro o objectivo de
estudo desta seco.

A distribuio da populao nita representada pela amostra pode ser


encarada como uma pseudo-populao, com caractersticas anlogas s
da verdadeira populao.

Atravs da gerao repetida de amostras aleatrias desta


pseudo-populao (reamostragem), a distribuio de amostragem de uma
estatstica pode ser estimada.
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

4.1 Mtodos de Bootstrap

O Mtodo de Bootstrap foi introduzido em 1979 por Efron. Os mtodos


de Bootstrap so uma classe de mtodos de Monte Carlo
no-paramtricos que estimam a distribuio da populao por
reamostragem. O termo "bootstrap"pode ser dirigido a bootstrap
no-paramtrico ou bootstrap paramtrico. Ser o primeiro o objectivo de
estudo desta seco.

A distribuio da populao nita representada pela amostra pode ser


encarada como uma pseudo-populao, com caractersticas anlogas s
da verdadeira populao.

Atravs da gerao repetida de amostras aleatrias desta


pseudo-populao (reamostragem), a distribuio de amostragem de uma
estatstica pode ser estimada.

o bootstrap gera amostras aleatoriamente a partir da distribuio


emprica da amostra.

193 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

4.1 Mtodos de Bootstrap

O Mtodo de Bootstrap foi introduzido em 1979 por Efron. Os mtodos


de Bootstrap so uma classe de mtodos de Monte Carlo
no-paramtricos que estimam a distribuio da populao por
reamostragem. O termo "bootstrap"pode ser dirigido a bootstrap
no-paramtrico ou bootstrap paramtrico. Ser o primeiro o objectivo de
estudo desta seco.

A distribuio da populao nita representada pela amostra pode ser


encarada como uma pseudo-populao, com caractersticas anlogas s
da verdadeira populao.

Atravs da gerao repetida de amostras aleatrias desta


pseudo-populao (reamostragem), a distribuio de amostragem de uma
estatstica pode ser estimada.

o bootstrap gera amostras aleatoriamente a partir da distribuio


emprica da amostra.

Propriedades de um estimador tal como o vis ou o desvio padro podem


ser estimadas por reamostragem.
193 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Denio (1.1  funo distribuio emprica (fde))


Seja x = (x1 , , xn )(eventualmente com repeties) uma amostra
aleatria observada da fd FX (.). A funo distribuio associada a
X que atribui uniformemente
1
P[X = xi ] =
n
a chamada funo distribuio emprica (fde), e denota-se por
Fn (.).

Fn (x) um estimador de FX (x) para todo o x .


Em bootstrap existem duas aproximaes:
a fde da amostra inicial, Fn , aproxima a fd FX da Populao X.
a fde da amostra reamostrada por bootstrap, Fn , aproxima Fn .

F X Fn
Fn X Fn
194 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Reamostragem por bootstrap

Para estimar atravs do estimador , gerando amostras bootstrap


por reamostragem a partir de x = (x1 , , xn ), fazer:
Algoritmo BOOT
Para cada rplica bootstrap, indexada em b = 1, 2, , B :
(a) Gerar amostra bootstrap x (b) = x1 , , xn atravs da
amostragem com reposio da amostra observada x1 , , xn
(b) Calcular a b -sima rplica (b) na amostra bootstrap x (b)

A estimativa bootstrap de F(.) a funo distribuio


emprica das rplicas (1) , , (B) dada por
B
1 X
Fn (x) = 1{(b) x}
B
b=1

Obs: De forma mais genrica, a dimenso da amostra bootstrap pode ser de

dimenso diferente da dimenso da amostra inicial.

195 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Exemplo (fde Fn e amostra bootstrap)


Seja x = (x1 , , x10 ) = (2, 2, 1, 1, 5, 4, 4, 3, 1, 2).
Como proceder para obter a amostra bootstrap de x ?
Para reamostrar de x seleccionamos aleatoriamente 1, 2, 3, 4, ou 5 com
probabilidades 0.3, 0.3, 0.1, 0.2 e 0.1, respectivamente. Assim a fd FX (x) da
amostra bootstrap exactamente a fde Fn (x):

0, x <1


0.3, 1 x < 2




0.6, 2 x < 3


FX (x) = Fn (x) =
0.7, 3 x < 4
0.9, 4 x < 5




1, x 5.

IMPORTANTE: Se Fn no sucientemente prxima de FX ento a


distribuio das rplicas no prxima de FX .
O caso acima refere-se a X Poisson(2). Reamostrar a partir de x um grande
nmero B de vezes produz uma boa estimativa de Fn , mas no uma boa
estimativa de FX , porque no obstante o elevado nmero de vezes que se
repita a reamostragem, as amostras bootstrap nunca incluiro o 0. 196 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Estimao bootstrap do vis


O vis de um estimador de denido como
vis()
= E []
.
A estimao bootstrap do vis usa as rplicas bootstrap de para
estimar a distribuio de amostragem de .
Denio (1.2  estimativa bootstrap do vis)
d ()
vis = ,

com
B
1 X (b)
=
B
b=1
e
x) = (x
= ( 1 , , xn )

197 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Exemplo (1.2  estimativa bootstrap do vis em R)


A base de dados law de Direito na biblioteca bootstrap de
Efron e Tibshirani. A data.frame contem dados referentes a LSAT
(Law School Average Test) e GPA (Grade-Point Average) para 15
Faculdades de Direito.
LSAT 576 635 558 578 666 580 555 661 651 605 653 575 545 572 594
GPA 339 330 281 303 344 307 300 343 336 313 312 274 276 288 296

Esta base de dados na realidade uma amostra aleatria do


universo de 82 faculdades de Direito em law82.
Calcular a estimativa bootstrap do vis do coeciente de correlao
amostral.

198 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

library(bootstrap)
data(law)
# Estimativa Bootstrap do vis do
# coef Correlao R

# estimativa para a amostra law de dimenso n=15


theta.hat <- cor(law$LSAT, law$GPA)

# estimativa bootstrap do vis


B <- 2000 # nmero de rplicas bootstrap
n <- nrow(law)
theta.b <- numeric(B)
for (b in 1:B) {
i <- sample(1:n, size = n, replace = TRUE) # i o vector dos ndices
LSAT <- law$LSAT[i]
GPA <- law$GPA[i]
theta.b[b] <- cor(LSAT, GPA)
}
bias <- mean(theta.b) - theta.hat
bias

> bias
[1] 0.007822616

199 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Estimao bootstrap do desvio padro

A estimao bootstrap do desvio padro de um estimador o


desvio padro emprico da rplicas bootstrap (1) , , (B) .
Denio (1.3  estimativa bootstrap do desvio padro)
v
u 1 X
u B

se
b () = t ((b) )2 ,
B 1
b=1
com
B

1 X (b)
=
B
b=1
.
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Exemplo (1.3  estimativa bootstrap do desvio padro em R)


Retomando o Exemplo 1.2, calcular a estimativa bootstrap do
desvio padro do coeciente de correlao amostral.
de notar que neste exemplo temos acesso a toda a populao no
data.frame law82, pelo que possvel comparar as estimativa
baseada na amostra law com o valor populacional do coeciente de
correlao.
> print(cor(law$LSAT, law$GPA)) # coef correlao emprico
[1] 0.7763745
> print(cor(law82$LSAT, law82$GPA)) # coef correlao populacional
[1] 0.7599979

201 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

# Estimativa Bootstrap do desvio padro do


# coef Correlao R

B <- 200 #nmero de rplicas


n <- nrow(law) #dimenso da amostra
R <- numeric(B) #armazena as rplicas de R

#Estimativa Bootstrap do desvio padro de R


for (b in 1:B) {
# seleco dos ndices aleatoriamente
i <- sample(1:n, size = n, replace = TRUE)
LSAT <- law$LSAT[i] # i o vector dos ndices
GPA <- law$GPA[i]
R[b] <- cor(LSAT, GPA)
}
#output

> print(se.R <- sd(R))


[1] 0.1297349
> hist(R, prob = TRUE)

202 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Ento a estimativa bootstrap do desvio padro do coeciente


de Correlao amostral R , se(R) = se( , dada por
) = se()
b ) = 0.1297349;
se(

neste caso temos acesso ao valor exacto de = 0.7599979

pelo que o valor terico para o desvio padro de R (sob


normalidade), paraqn = 15, de
= se(R) = (12 )2 10.75999792
se() n =
15
0.113 .

203 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

4.2 Metodologia de Jackknife

Outra forma de reamostragem a metodologia Jackknife, proposta


por Quenouille (1949, 1956) para estimar o vis e por Tukey (1958)
para estimar o desvio padro, (algumas dcadas antes do
bootstrap).
De forma genrica, podemos dizer que se trata duma
metodologia de reamostragem de um estimador
n = n (X1 , , Xn )
que vai deixando de fora uma observao em cada reamostra
de tamanho n 1

X (j) := (X1 , , Xj1 , Xj+1 , , Xn ), j = 1, , n


designadas por amostras Jackknife.
Com base nas amostras Jackknife calculam-se
(j) := n1 (X (j) ), j = 1, , n
204 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Sejam X1 , , Xn i.i.d. e n um estimador assintoticamente


centrado para , tendo-se para todo n N e com a 6= 0

1
 
a b
E (n ) = + + 2 + O .
n n n3

Denio (2.1  estimador Jackknife puro para )

njack := n n (n 1)(.)
com n
1 X (j)
(.) :=
n
j=1

A forma deste estimador permite-nos eliminar o vis de 1a. ordem,


i.e., o termo de ordem n1 .
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Lema (2.1)
1
h i  
jack
E n =+O
n2

1
NOTA: Se b = 0 e no existir o termo de ordem n3
, produzimos
um estimador centrado.
Demonstrao.
h i h i h i
E njack = E n n (n 1)(.) = n E [n ] (n 1)E (.)
1
  
a b
= n + + 2 +O
n n n3
1
  
a b
(n 1) + + + O
n1 (n 1)2 n3
1
 
b
= +O .
n(n 1) n3

206 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Denio (2.2  estimador Jackknife para o vis de n )


 
vis
d jack (n ) := n njack = (n 1) (.) n

com n
1 X (j)
(.) :=
n
j=1

A forma deste estimador motivada pelo seguinte resultado:


Lema (2.2)
Sejam X1 , , Xn i.i.d. e suponhamos que para todo nN se tem

1
 
a b
vis (n ) = + 2 +O
n n n3
onde a 6= 0. Ento

1
 
d jack (n )] = vis(n ) + O
E [vis .
n2
207 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Demonstrao.
Seja o parmetro a ser estimado. Podemos escrever

h i h i h i
E [vis
d
jack (n )] = (n 1)E
(.) n = (n 1)E (.) (n 1)E n .

Para a primeira parcela tem-se


n n
h i 1 X (j) 1 X (j)
E (.) = E = E n1 (X )
n j=1 n j=1
n
1 X h
(j)
i
( 1)
= E n1 (X ) = n1 (X
vis( )).
n j=1

Para o segundo termo tem-se E [n ] = n ) e ento


vis(

(1)
 
E [vis
d
jack (n )] = (n 1) n1 (X
vis( )) vis(n )
!
a b a b 1

= (n 1) + +O
n1 (n 1)2 n n2 n3
a (2n 1)b 1
 
= + +O
n (n 1)n2 n2
1
 
= n ) + O
vis( .
n2

208 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Exemplo (2.1 est. Jackknife para o vis do est. da varincia)


Seja := X2 = 2 . Sabemos que o estimador

n
1 X
2 =
)2
(Xi X
n 1 i=1
)2
2 = n = 1n ni=1 (Xi X
P
centrado para enquanto que tem vis dado por

n1 n1 2
vis 2 ) = E [
(n ) = vis( 2 2 ] = 2 ] 2 = (
E [ 1) 2 = .
n n n
Assim,tem-se que

h i
d jack (n )]
E [vis = (n 1)E (.) n
n h i o
= (n 1) E n1 (X (1) ) E [n ]
2 2
   
= (n 1)
n1 n
2
= = vis(n ) .
n
Realmente, 2
satisfaz o Lema 2.2, com a = 2 e b = 0.
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Em R, para deixar de fora uma das componentes de um vector


faz-se simplesmente

x <- 1:5
for (i in 1:5) {
print(x[-i])
}
[1] 2 3 4 5
[1] 1 3 4 5
[1] 1 2 4 5
[1] 1 2 3 5
[1] 1 2 3 4

210 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Exemplo (2.2  Estimador Jackknife do vis do Ratio)


Os dados patch (bootstrap) de Efron e Tibshirani contm
medidas de uma certa hormona na corrente sangunea de oito
sujeitos depois de usarem um medicamento. O parmetro de
interesse
E [novo] E [antigo]
= .
E [antigo] E [placebo]
Se || 0.20 isso indica bioequivalncia dos antigo e novo
medicamentos. A estatstica de interesse o Ratio

n := Y /Z

com Y := novo antigo e Z := antigo placebo .


Calcular a estimativa Jackknife do vis da estatstica do Ratio de
Bioequivalncia, n .

211 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

# Estimador Jackknife do vis do estimador Ratio

data(patch, package = "bootstrap")


> patch
subject placebo oldpatch newpatch z y
1 1 9243 17649 16449 8406 -1200
2 2 9671 12013 14614 2342 2601
3 3 11792 19979 17274 8187 -2705
4 4 13357 21816 23798 8459 1982
5 5 9055 13850 12560 4795 -1290
6 6 6290 9806 10157 3516 351
7 7 12412 17208 16570 4796 -638
8 8 18806 29044 26325 10238 -2719

n <- nrow(patch)
y <- patch$y
z <- patch$z
theta.hat <- mean(y) / mean(z)
> print (theta.hat)
[1] -0.0713061

# Calcular as rplicas Jackknife,


# deixando uma observao de fora
theta.jack <- numeric(n)
for (i in 1:n){
theta.jack[i] <- mean(y[-i]) / mean(z[-i])
}
bias <- (n - 1) * (mean(theta.jack) - theta.hat)

> print(bias) # estimativa jackknife do vis


[1] 0.008002488

212 / 215
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Denio (2.3  estimativa Jackknife para o desvio padro de n )


v
n 
un 1 X
u 2
b jack (n ) = t
se (j) (.)
n
j=1

com n
1 X (j)
(.) := .
n
j=1

Exerccio (2.1  Motivao para a Denio 2.3)


Para uma amostra X1 , , Xn iid a X, considere o estimador n = X
para o
se(n ) =
p
valor mdio de X. Ento sabemos que Var (X )/n. Mostre que:
Xj
nX
a) (j) = n1
.

b) (.) = X .
c) se
b jack (n ) = Sn2 /n, )2
Pn
Sn2 =
p 1
com
n1 j=1 (Xj X .
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Exemplo
2.3 Calcular a estimativa do desvio padro do estimador Ratio para
os dados do Exemplo 2.2.

## Estimativa Jackknife do desvio padro


## do estimador Ratio

se <- sqrt((n-1) * mean((theta.jack - mean(theta.jack))^2))


> print(se)
[1] 0.1055278

Somos assim levados a concluir que existe bioequivalncia dos


antigo e novo medicamentos.
4.1 Mtodos de Bootstrap
4. Tcnicas de Reamostragem Bootstrap e Jackknife
4.2 Metodologia de Jackknife

Bibliotecas bootstrap e boot e Referncias


Em R esto disponveis os packages:
Biblioteca bootstrap  uma coleco de functions a dados para o livro
de Efron e Tibshirani
Bradley Efron and R.J. Tibshirani. An Introduction to the Bootstrap (Chapman
& Hall/CRC Monographs on Statistics & Applied Probability), 1993.
Biblioteca boot  uma coleco de functions a dados para o livro de
Davison e Hinkley
A. C. Davison and D. V. Hinkley. Bootstrap Methods and their Application
(Cambridge Series in Statistical and Probabilistic Mathematics), 1997.

Quenouille, M. (1949). Approximate tests of correlation in time series.


Journal of the Royal Statistical Society, Series B, 11, 68-84.

Quenouille, M. (1956). Notes on bias in estimation. Biometrika, 43,


353-360.
Tukey, J. W. (1958). Bias and condence in not quite large samples
(abstract). The Annals of Mathematical Statistics, 29, 614.

215 / 215