Você está na página 1de 15

BOOTSTRAP

INTRODUO
- IDEIA BSICA: reamostrar de um conjunto de dados,
diretamente ou via um modelo ajustado, a fim de criar
replicas dos dados, a partir das quais podemos avaliar a
variabilidade de quantidades de interesse, sem usar
clculos analticos.
- APLICAO DO MB:
podem ser aplicados quando
existe, ou no, um modelo probabilstico bem definido para
os dados.
- METODO: COMPUTER-INTENSIVE
- CONCEITOS BASICOS
DADOS: y1, y2, ..., yn ~Y com fdp f e fda F
: caracterstica populacional
T: estatstica; t: valor de T na amostra
- INTERESSE: obter a distribuio de probabilidade de T;
vis de T, dp(T); quatis, intervalo de confiana para ,
testes.
- SITUAES: PARAMETRICA E NO-PARAMETRICA

- FUNO DE DISTRIBUIO EMPIRICA(FDE)


F : estimativa de F, a partir da distribuio emprica, que

coloca probabilidade 1/n em cada yj.


F ( y ) =

# { y j y}
n

- FUNO ESTATSTICA
Estatstica de interesse: t=f(y(1), ..., y(n))
t = t (F ) : funo estatstica

= t (F )
F F

T = t ( F ) = t ( F ) em probabilidade(consistncia)

- PRECISO DA MEDIA AMOSTRAL


Amostra: x1, ..., xn: x =

xi

Erro padro de x =

s
n

, s

(x
=

x)2

n 1

- ERRO PADRO DE T: estimador de


ep(T ) = var(T )

Em geral, var(T) depende de , portanto


ep (T ) = var(T )

Para a maioria dos estimadores, no h formulas para


calcular o ep.
BOOTSTRAP
x = ( x1 , L , x n ) : dados independentes

s( x) : estatstica de

interesse

Amostra
bootstrap:
x = ( x1 , L, x n ) ,
reposio, n vezes de x

amostramos,

com

- ALGORITMO BOOTSTRAP:
gera um grande nmero
independentes: x 1 , x 2 ,L , x B

de

amostras

bootstrap

Cada uma de tamanho n. B 200.


- OBJETIVO: estimar ep dos estimadores
- RPLICA BOOTSTRAP:
Amostra bootstrap x s ( x ) : rplica bootstrap
- ESTIMADOR BOOTSTRAP DO ERRO PADRO: desvio
padro das rplicas bootstrap
1

ep boot

2
B
2
b
= s ( x ) s () /( B 1)
b =1

Com

s() =

b =1

s( x )

- ESTIMADOR BOOTSTRAP DE ep F () : usa F no lugar de


F, isto , o estimador bootstrap
ep F () : estimador bootstrap ideal do ep de

No h formula que permite calcular o estimador bootstrap


ideal exatamente.
- ALGORITMO BOOTSTRAP: forma computacional de obter
uma boa aproximao do valor numrico de ep F ()
Para implementar num computador:
(1)

um mecanismo aleatrio seleciona inteiros i1, i2, ...,


in, entre 1 e n, com probabilidade 1/n;

(2)

a amostra bootstrap consiste nos nmeros

x = xi ,L, xi
1

ALGORITMO BOOTSTRAP PARA ESTIMAR ERROS


PADRES

[1] sele cione B amostras independentes, x 1 , L, x B , cada


uma consistindo de n valores selecionados com reposio
de x . Tome B 25 - 200.
[2] calcule a rplica bootstrap para cada amostra
bootstrap:
(b) = s ( x b ), b = 1, L B.
[3] estime o erro padro ep F () pelo desvio padro

amostral das B rplicas:


1

1 B
2
ep B =
( (b) ()) 2 ,

B 1 b =1

estimador

bootstrap

no

paramtrico, onde
() =

1 B
(b)
B b=1

lim B ep B = ep F = ep F ( ) :

desvio padro emprico se


aproxima do desvio padro populacional quando B .
Neste caso, a populacional a populao dos valores
= s( x ), onde F ( x1 , L, x n ) = x

BOOTSTRAP PARAMTRICA
til em problemas para os quais dispomos de alguns
conhecimentos sobre a forma da populao e para
comparar com anlises no paramtricas.

X F,

F: FDA

(x1, x2, ..., xn) ~ F


Considere um modelo paramtrico para os dados.

par

: estimador de F obtido deste modelo.

: estimador do parmetro .

A estimativa bootstrap paramtrica do ep() definida por


*

ep F ( )
par

Exemplo: escola de direito


Suponha F ~ N 2 ( , ) , n = 15
onde

2

y
= , = 2y

zy

simtrica

yz
2

Estimamos por = e V por


z
2
1 ( y i y )

V =

14

norm

epF

( y y )( z z )
( z z )
i

( ,V ) : estimador paramtrico de F

( ) : estimador bootstrap paramtrico de ep() , onde


norm

= corr( y, Z ) .

Retiramos B amostras de tamanho n com reposio da


populao

par

norm

( x ,L, x )

Procede-se, depois, como em (2) e (3) do AB.


B amostra de tamanho 15 de

norm

e calculamos o

coeficiente de correlao para cada amostra.

ep

= 0,124 (0,131: estimador no paramtrico)

ESTIMADOR BOOTSTRAP DO VIS


~

(x1, x2, ..., xn) ~ F; =t(F). = s ( x)


CONSIDERE O ESTIMADOR = t ( F ).
~

O vis de = s( x) definido por


vis F =

( s ( x)) t ( F )

Ou seja, esperana do estimador

Estimadores no viciados so importantes na teoria e na


pratica estatstica.
Podemos usar bootstrap para avaliar o vis de um
estimador.
O estimador bootstrap do vis definido por

vis

E {s( x )} t ( F ) : estimador ideal do vis.

Exemplo:
a) t(F) = , s( x) = x ,
b) s( x) =

( xi x ) 2
n

vis

=0

1
; vis[s ( x)] = 2 ; neste caso,
n

vis

1
n2

(x

x)2

Para a maioria dos estimadores utilizados na prtica, o


estimador bootstrap do vis deve ser aproximado por
simulao:
[1] geramos amostras bootstrap ( x 1 , L, x B ) e calculamos as
replicas bootstrap

(b) = s ( x b ), b = 1,L, B.

[2] aproximamos as esperanas bootstrap


mdia
~

() =

b =1

~
(b)
B

b =1

{s ( x)} pela

s( x b )

[3] o estimador bootstrap do vis


~
vies B = () t ( F )

Exemplo: dados hormnio (bio-equivalncia)


As concentraes:
placebo
subject
1
2
3
4
5
6
7
8
Mean
FDA:

9243
9671
11792
13357
9055
6290
12412
18806

oldpatch newpatch Oldplacebo


z
17649
16449
8406
12013
14614
2342
19979
17274
8187
21816
23798
8459
13850
12560
4795
9806
10157
3516
17208
16570
4796
29044
26325
10238
6342

E (novo) E (antigo)
E (antigo) E ( placebo)

Parmetro: =

0,20 critrio

E (novo) E (antigo)
E (antigo) E ( placebo)

Objetivo: calcular o vis e o erro padro de


Considere:

New-old
y
-1200
2601
-2705
1982
-1290
351
-638
-2719
-4520,3

zi = medidas com o antigo medidas com o placebo


yi = medidas com o novo medidas com o antigo
xi=( zi , yi ), i=1, 2, ..., 8
X=( x1, xi ,, x8 ), ~ F: desconhecida
= t(F ) =

E F ( y)
EF ( z)

y
= t ( F ) = =
Z

i =1
8

yi / 8

= 0,0713

z /8
i =1 i

Nota: Z e Y so dependentes.
<< 0,20 , portanto aparentemente a condio do FDA est

satisfeita e os dois hormnios so bioequivalntes.


B=400 amostras bootstrap: x i = ( x1i , L, x8 i )
400 rplicas bootstrap
=

y
z

As 400 rplicas tem um desvio padro amostral, ep 400 = 0,105


Mdia amostral: () = 0,0670.
Estimador bootstrap do vis:
vies400 = 0,0670 (0,0713) = 0,0043

vies400 0,0043
=
= 0,041 , portanto vis sob controle.
ep 400
0,105

Regra: vies < 0,25 ep podemos ignorar o vis

vies F
RMSE = E F ( ) 2 = ep F2 () + vies F2 (, ) = ep F () 1 +
ep F

2
1 vies

F
ep F () 1 +
2 ep F

CORREO DE VIS
V : estimador do vies F (, ) = V : estimador corrigido para

o vis.
Tomando
V = vies B = () , obtemos = 2 ()

Exemplo(hormnio):
V400 = 0,0043 e = 0,0713 = 0,0713 0,0043 = 0,0756

Observaes:
1) a correo do vis pode ser perigosa na prtica.
Mesmo que seja menos viesado do que , ele pode
ter erro padro substancialmente maior.
2) O vis mais difcil de estimar do que o ep, B maior
para estimar o vis.
3) Se V << ep, melhor usar do que .

INTERVALO DE CONFIANA
Dado o estimador de , seu ep estimado, ep () , o
intervalo de confiana(IC) usual, com coeficiente de
confiana(C.C.) 90%, para
1.645 ep ()
x = ( x1 ,L , x n ) ~ F

()

e = t ( F )

ep : algum estimador do ep() , baseado por ex, em

rplicas jackknife ou bootstrap.

Ento, sob determinadas condies,


D

N ( , ep ()), n

Ou

ep ()

(8)

N (0,1)

Assim, [ Z (1 ) ep , + Z (1 ) ep ] o IC padro com C.C. igual


a 1-2 .

APROXIMAO PARA AMOSTRAS FINITAS:


Para = x , temos seguinte resultado:
Z


ep

~ t n 1

(9)

E o IC fica

[ t

(1 )
n 1

(1 )
ep , + t n 1
ep

Se = x e x ~normal, a aproximao exata e o IC


mais largo, refletindo o fato que o ep no conhecido.
Se n 100, t n(11 ) Z (1 ) .
INTERVALO BOOTSTRAP-t
Com o uso de bootstrap podemos obter IC acurado aem
utilizar a expresso (8).
A distribuio de Z em (9) ser estimada diretamente
dos dados, ou seja, obtemos uma tabela apropriada para
o particular conjunto de dados.

PROCEDIMENTO:
[1] geramos B amostras bootstrap x 1 , L, x B
[2] para cada amostra construmos
Z (b) =

(b)
ep (b)

Com (b) = s ( x b ) valor de para a amostra x b


b
ep (b) : erro padro estimado de (b) para a amostra x
[3] o -percentil de Z (b) estimado pelo t ( ) tal que
# {Z (b) t ( ) } / B =

[4] O IC bootstrap-t dado por

[ t

( )

ep , + t (1 ) ep

Ex: se B=1000, a estimativa do 5%-percentil ( t (5%) ) 0


50. maior valor dos Z (b) .

Intervalo percentil
x : dados bootstrap

= s( x ) : rplicas bootstrap
G : FDA de

O intervalo percentil, com C.C. 1-2 , definido pelos


percentis e 1- de G :

inf

] [

, sup = G 1 ( ), G 1 (1 )

OBSERVAES:
1) B no inteiro, 0,05. Considere k=[(B+1) ]. Os
quantis e 1- so dados pela k-sima maior. E
(B+1-k) maior observao, respectivamente.
Ex.: B=50, =0,05, B =2,5, k=[51*0,05]=[2,55]=2,
portanto -percentil a 2. Observao e o (1- )percentil a 49. Observao.
2) em amostras grandes, a cobertura do IC bootstrap-t
tende a ser mais prxima do CC desejado do que o IC
padro e t.

Ex. Ratos:
16 ratos(7: tratamento; 9: controle)
Dados: tempo
tratamento

de

sobrevivncia

(em

dias)

aps

Questo: tratamento prolonga sobrevida aps a cirurgia?

Tabela 1: dados
Group

Data

Treatment 94, 197, 16,


38,
99,
141
23
Control
52,
104,
146,
10, 51, 30,
40, 27, 46

Sample
Size

mean

Estimated
standar
error

86,86

25,24

56,22

14,14

difference

30,63

28,93

Tabela 2: bootstrap estimates of standard error for the


mean and median: treatment group. The median is less
accurate (has larger standard error) than the mean for this
data set.
B
50
mean
19,72
median 32,21

x y = 30,63 e

100
23,63
36,35

250
22,32
34,46

500
23,76
36,72

1000
23,02
36,48

23,36
37,83

xy
30,63
=
= 1,05 (no)
dp ( x y ) 28,93

m1 = med ( x) = 94, m 2 = med ( y ) = 46 m1 m 2 = 48


B = 100 ep (m1 ) = 11,54, ep (m2 ) = 36,36 ep boot = (36,35) 2 + (11,54) 2 = 38,14

Estatstica para teste:

48
= 1,26
38,14

IC:
Media dos ratos tratados: = 86,86 e ep = 25,24
IC padro(=0,90):
[86,86-1,65*25,24; 86,86+1,65*25,24] =
[45; 128,4]

B=1000 rplicas: =?
Tabela 3: percentiles of based on 1000 bootstrap
replications, where equais the mean of the treated
mice.
2,5% 5% 10% 16% 50% 84% 90% 95% 97,5%
45,9 49,7 56,4 62,7 86,9 112,3 118,7 126,7 135,4

Percentile 5% = 49,7
Percentile 95% = 126,7
Intervalo percentil com C.C. 90% = [49,7; 126,7]
Utilizar os percentis do histograma para definir limites de
confiana.
PROCEDIMENTO:
[1] geramos B amostras bootstrap x 1 , L, x B (b) = s ( x b )
[2] B( ) : -percentil dos valores (b) = s ( x b )
[3] IC percentil aproximado com 1-2 :

%,inf

] [

; %,sup = B( ) ; B(1 )

Exemplo: x1, x2, ..., x10 ~ N(0,1)


= e , = mdia

populacional = e 0 = 1

= e x = 1,25 (exemplo artificial)

IC padro: 1,25 1,96 ep 1000 = 1,25 1,96 0,34 = [0,59; 1,92]


B=1000 rplica = e x

Percentis empricos de IC percentil 95%


[0,75; 2,07]
aprox. Normal no muito boa nesse caso.

Tabela 4: percentiles of
size 10.
2,5% 5%
0,75 0,82

10%
0,90

16%
0,98

= e x

50%
1,25

for a normal sample of

84%
1,61

90%
1,75

95%
1,93

97,5%
2,07