Aula Taxas Bayes

Taxas em pequenas áreas :
uma abordagem bayesiana
Ilka Afonso Reis
Análise Espacial - INPE

Taxas em pequenas áreas
 yi é o número de casos da “doença” na área i ;

 ei é o número esperado de casos da “doença” na área i ;
 ρi é o risco relativo (desconhecido) da “doença” em relação à
taxa de referência ; (padronização)
 Taxa bruta :
y
Var pi   2
p i y i
i
e i e i
Quanto menor o no. esperado de casos, maior a variabilidade

na estimação
Qual é o problema com taxas brutas ?
• Suponha uma “doença” com r = 0,10 e acontece

um caso em cada área (y = 1)
•Se Pop1 = 10000, e1 = 0,10 x 10000 = 1000
•Se Pop2 = 1000, e2 = 0,10 x 1000 = 100
•Se Pop3 = 100, e3 = 0,10 x 100 = 10
p1=1/10000 = 0,0001 e Var(p1) = 1/100002 = 1 x 10-8

p2=1/1000 = 0,001 e Var(p2) = 1/10002 = 1 x 10-6
p3=1/100 = 0,01 e Var(p3) = 1/1002 = 1 x 10-4
Taxa bruta Taxa suavizada

Solução para o problema
das taxas brutas
 Suavizar as taxas
 Como ?
Estimadores Bayesianos
• Empíricos
• Completos
Uma Breve Introdução à
Inferência Bayesiana
Probabilidade Condicional
Teorema de Bayes
Verossimilhança
Probabilidade a priori
Probabilidade a posteriori
Um exemplo : medidas de qualidade de
testes diagnósticos
Positivo (+|D)
Doente (D) Negativo (-|D)
Positivo (+|S)
Sadio (S)
Negativo (-|S)
Avaliação da qualidade do teste
Acertos :
P (   D)
• Entre os doentes P (  | D) 
P ( D)
Sensibilidade (s)
P(   S )
• Entre os sadios P(  | S ) 
P( S )
Especificidade (e)
Avaliação da qualidade do teste
Resultado do Padrão-ouro
teste Total
Doente Não Doente
Positivo 265 47 312
Negativo 11 50 61
Total 276 97 373
265
s  P( | D)   0,96 ou 96%
276
50
e  P(  | S)   0,515 ou 51,5%
97
Avaliação da qualidade do diagnóstico
Acertos :
P(D  )
• Entre os positivos
P(D| ) 
P( )
Valor de Predição Positiva (VPP)
P(S  )
P(S| ) 
• Entre os negativos P()
Valor de Predição Negativa (VPN)
Avaliação da qualidade do diagnóstico
P(D  ) P(D)  P( |D)

P(D| )  
P() P[(  D)  (   S)]
P(D)  P( |D)

P(D| ) 
P(D)  P( |D)  P(S)  P( | S)
Regra de Bayes
Enfim ...
Probabilidade a priori
“Verossimilhança”
P(S)  P(-| S)
P(S| -) 
P(S)  P(-| S)  P(D)  P(-|D)
Conceitos Básicos e Notação
 Dados : provenientes de uma amostra da população
de interesse
 y = (y1, y2, ..., yn)
 P(y), distribuição de probabilidade conjunta de y.
 Parâmetros: quantidades, em geral desconhecidas,

que estão presentes nos modelos probabilísticos
para y e serão representadas por .
 P(y|), função de verossimilhança de y.
Exemplo : estimação de taxas
 yi , casos da “doença” na área i
 ei , número de casos esperados na área i segunda a taxa de
referência
 Parâmetros a serem estimados

 ρi : o risco relativo (desconhecido) da “doença” em relação à
taxa de referência
 eiρi representa o número de casos esperados (média) na área i
 Na inferência clássica, boas estimativas para ρi são os valores

que maximizam a função de verossimilhança P(y|ρi ).
Estes valores são a estimativa de máxima verossimilhança
 O modelo para os dados é a função de verossimilhança P(y|).
 Modelo : yi ∼ Poisson(eiρi)
O Método da Máxima Verossimilhança
 Na inferência clássica, os parâmetros de um

modelo são tratados como quantidades fixas
(não aleatórias), porém desconhecidas.
 O método da máxima verossimilhança é

considerado bom em muitos casos.
 Porém, quando a forma de P(y|) é complexa

e/ou quando o número de parâmetros 
envolvidos é grande, este método torna-se difícil
de implementar.
A abordagem Bayesiana
 Na inferência Bayesiana, os parâmetros  são
tratados como quantidades aleatórias.
 O modelo estatístico não é mais somente P(y|)
e sim P(y,), a distribuição conjunta dos dados y
e dos parâmetros  .
 As estimativas para  não serão somente valores,
mas sim uma distribuição de probabilidades.
P(|y) é a distribuição de probabilidades dos

parâmetros  “ à luz” dos dados y.
 Como obter P(|y) ? P(θ,y)
P(θ|y) =
P(y)
 Pela Regra de Bayes
Verossimilhança Probabilidade a priori
P(θ,y) P(y|θ)  P(θ)

P(θ|y) = =
P(y) P(y)
 P() expressa a incerteza sobre  antes de
observarmos os dados y que dependem dele
(a priori) .
 P(|y) expressa a incerteza sobre  depois de

observarmos os dados y que dependem dele
(a posteriori).
 De posse de P(|y), podemos examinar qualquer

aspecto de  (média, variância, percentis,
probabilidade de assumir determinados valores,
etc.) (“Full Posterior Distribution”)
Passos para obtenção de P(|y)
1. Escolher um modelo probabilístico para
P(y|) – a função de verossimilhança;
2. Escolher um modelo probabilístico para

P() – a distribuição a priori ;
3. Aplicar a regra de Bayes e calcular P(|y).

Exemplo : modelo Gamma-Poisson
 y é o número de casos da “doença” em certa área ;

 e é o número esperado de casos da “doença” em certa área;
 ρ é o risco relativo (desconhecido) da “doença” em relação à
taxa de referência nesta área;
Modelo para P(y|) : y ~ Poisson (e )
e  y e  e
P(y |  ) 
y!
Modelo para P() :  ~ Gamma (,)
hiperparâmetros
Cálculo da posteriori P(|y)
P(y |  ) P(  ) P(y |  ) P(  ) P(y |  ) P(  )

P(  | y)   1  1
P(y)
 P( y ,  ) d  P(y |  ) P(  )d
0 0
(  e )
(  y) (   e 1 ) (   y ) 
P( | y )   e , 0  
(   e )
|y ~ Gamma ( + y ,  + e )
Suponha que y = 4 e e = 6.5
Priori´s : Gamma (0.5 , 0.5), Gamma (1,1) e Gamma (10,10)
Posteriori´s : Gamma (4.5 , 7.0), Gamma (5,7.5) e Gamma(14,16.5)
Quantis a posteriori Média a

Priori posteriori
0.025 0.500 0.975
Gamma (0.5,0.5) 0.421 0.596 0.813 0.643
Gamma (1 , 1) 0.449 0.623 0.837 0.673
Gamma (10 , 10) 0.687 0.828 0.988 0.855
Intervalo de Credibilidade de 95%

Modelo espacial bayesiano
para taxas em pequenas áreas
Modelo espacial bayesiano para
taxas em pequenas áreas
 Modelo geral
 yi ∼ Poisson(µi) = Poisson(eiρi)
 yi é o número de casos da “doença” na área i ;
 ei é o número esperado de casos da “doença” na área i ;
 ρi é o risco relativo (desconhecido) da “doença” em relação
à taxa de referência ; (padronização)
 log µi = log ei + θi ;
 θi denota o log do risco relativo (θi = log ρi , ou seja,
ρi = exp(θi) )
 Modelo de efeitos fixos (máxima verossimilhança)
y Quanto menor o no.

Var pi   2
p i y i esperado de casos,
ei
i e i maior a variabilidade
na estimação



 Modelo de efeitos aleatórios

 ρi ∼ Gamma(ψi, i)  µρ = ψi/i e σ2ρ = ψi/i2 ;
 Gamma “+” Poisson “=” Gamma ;
 P(ρi|y) ∼ Gamma(ψi + yi, i + ei).
 i  yi
i 
i  ei
• Quanto maior o número de dados, mais próximo de
yi/ei estará a estimativa do risco relativo ;
• Quanto menor o número de dados, mais próximo de
ψi/i estará a estimativa de risco relativo.
 Os parâmetros ψi e i são os hiperparâmetros.

 Como saber quem ψi e i ?
 Podem ser estimados (Bayes empírico) ;
Pode-se estabelecer uma distribuição a priori para
ψ e φ (hiperprioris).
P(ρ, ψ, |y) ∝ P(y|ρ)P(ρ|ψ, )P(ψ)P()
priori hiperprioris
Exemplo: Mersey
 Modelo espacialmente estruturado (abordagem completa)
 yi ∼ Poisson(µi) = Poisson(eiρi)
 log µi = log ei + θi ; θi = log ρi
 θi = α + i + i , onde
 α é o log do risco relativo médio sobre todas as
áreas ;
 i é a parte não-espacialmente estruturada do log
do risco relativo da área i ; (média zero)
 i é a parte espacialmente estruturada do log do
risco relativo da área i;
 Prioris :
 α ~ Uniforme [- ;  ] (“flat”)
 i ~ Normal (0 ; 2)
  j i wij j 
2 
 
  i  j i 
| ~ N , 

  j  i wij  j  i wij 
 A priori para νi é um modelo autoregressivo
condicional Gaussiano (CAR)
 wij são pesos representando a adjacência das
áreas. A definição mais comum para wij são
valores binários :
 wij = 1, se as áreas i e j são adjacentes;
wij = 0, caso contrário.
 Modelo completo
 yi ∼ Poisson(µi) = Poisson(eiρi)
 log µi = log ei + α + i + i
 α ~ Uniforme [- ;  ]
 i ~ Normal (0 ; 2)
 νi ~ CAR(2)
 Hiperprioris Gamma para τ = 1/ 2 e para

τ = 1/2 (τ e τ representam a precisão)
Exemplo: leishmaniose visceral (leish_inpe_spatial)

Leishmaniose Visceral Humana (BH – 1994/95)

taxa[39] sample: 11001
4.0
3.0
2.0
1.0
0.0
0.0 5.0 10.0
taxa[29] sample: 11001

0.15
0.1
0.05
0.0
0.0 10.0 20.0 30.0
Modelo espaço-temporal
yi ∼ Poisson(µi) = Poisson(eiρi)
log µi = log ei + θi ; θi = log ρi
θi = α + i + i + 0t + it, onde
• α , i e i são definidos como antes ;
• 0 ~ Uniforme [- ;  ] e i ~ CAR(2)
representam a parte temporal do modelo
Exemplo: leishmaniose visceral

(leish_inpe_spatial_temporal)
Previsão para o
quarto período
Modelo:
No. de parâmetros :
365
Tempo de
simulação de
10000 iterações:
112 segundos
AMD Athlon XP2000 1.67 GHz 512 Mb RAM

Modelo espaço-temporal (alternativo)
• Modelo linear para θi
θi = α0 + αi + i (t-1), onde
• α0 ~ Uniforme [- ; ]
• αi ~ CAR(2α) e i ~ CAR(2β) são parâmetros
de uma equação de regressão ;
Exemplo: leishmaniose visceral (leish_inpe_dissert)
Previsão para o
quarto período
Modelo linear
243
Tempo de simulação
de 10000 iterações:
51 segundos
Modelo espaço-temporal (alternativo)
θi = α0 + αi + i (t-1) + i (t-1)2 , onde
• α0 , αi e i são definidos como antes ;
• i ~ CAR(2) ;
Exemplo: leishmaniose visceral (leish_inpe_dissert)

Previsão para o
quarto período
Modelo quadrático
364
Tempo de simulação
de 10000 iterações:
69 segundos
Referências Bibliográficas
Assunção, R. M. ; Reis, I. A. ; Oliveira, C. L. Diffusion and
Prediction of Leishmaniasis in a Large Metropolitan Area in
Brasil with a Space-Time Model. Statistics in Medicine
(2001), 20 : pp. 2319- 2335
Spiegelhalter, D. ; Thomas, A. ;Best, N. ;Lunn, D. WinBUGS

User Manual , (References), version 1.4, (2003)
Back-up slides
Bayes Empírico
 yi ∼ Poisson(µi) = Poisson(eiρi)
 ρi ∼ Gamma(ψi, i) E[ρi] = ψi/i e Var[ρi] = ψi/i2
E[yi] = Eρ[Ey[yi| ρi]] = Eρ[eiρi] = ei ψi/i

Var [yi] = Eρ[Vary[yi| ρi]] + Varρ[Ey[ yi| ρi]]
= ei ψi/i + (ei)2 ψi/i2
Pelo Método dos Momentos

E yi   y e Var yi   s 2
ˆ i  1 ei 
Então y  ei ˆ e s  ˆ i ei  ˆ  ˆ 2 
2
i i i 
Bayes Empírico
 O que nos leva a
ˆ y s 2
 ˆ
 2

ˆ i  i
(1) e ˆ i   ˆ i
 (2)
ei ei i  ei 
 Igualando (1) e (2), temos
2
ˆ  ei y (1) e ˆ  y (2)
s y s y
i 2 i 2
ˆ i y ˆ i s 2  y
E i   ˆ  e Var i   ˆ 2 
i ei  i ei 2
Padronização direta das taxas
 r é taxa de referência da “doença”;
 Popi é a população sob risco da área i ;
 ei = r x Popi , é o número esperado de casos na
área i ;
 i é o risco da “doença” na área i ;

 ρi = i / r é o risco relativo (desconhecido) da
“doença” em relação à taxa de referência ;
 ei x ρi = (r x Popi) x (i / r) = Popi x i ;
Cálculo da posteriori P(|y)
P(y |  ) P( ) P(y |  ) P( ) P(y |  ) P( )

P( | y)   
P(y)
P( y, )d  P(y |  ) P( )d
Distribuição Gaussiana (Normal)
1  1  yi   2 
f ( yi )  exp     
 2  2    
- < yi <  , - <  < 

>0
 1 
n  1 n  y   2  , y = (y1, y2, ..., yn)
P ( y |  , )    exp    i  
  2   2 i 1    y1, y2, ..., yn i.i.d
Distribuição Beta
(   )  1  1
f ( x) 
( )(  )
x (1 x) , 0  x 1
 0 ;  0
Distribuição Gamma (, )
  1  x
f ( x)  x e , 0 x
(  )
 0 e  0

Aula Taxas Bayes

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula Taxas Bayes

Enviado por

Direitos autorais:

Formatos disponíveis

Taxas em pequenas áreas :

uma abordagem bayesiana

Ilka Afonso Reis

Análise Espacial - INPE

 yi é o número de casos da “doença” na área i ;

Quanto menor o no. esperado de casos, maior a variabilidade

• Suponha uma “doença” com r = 0,10 e acontece

p1=1/10000 = 0,0001 e Var(p1) = 1/100002 = 1 x 10-8

Taxa bruta Taxa suavizada

Doente (D) Negativo (-|D)

P(D  ) P(D)  P( |D)

P(D)  P( |D)

 Parâmetros: quantidades, em geral desconhecidas,

 Parâmetros a serem estimados

 eiρi representa o número de casos esperados (média) na área i

 Na inferência clássica, boas estimativas para ρi são os valores

 Na inferência clássica, os parâmetros de um

 O método da máxima verossimilhança é

 Porém, quando a forma de P(y|) é complexa

P(|y) é a distribuição de probabilidades dos

Verossimilhança Probabilidade a priori

P(θ,y) P(y|θ)  P(θ)

 P(|y) expressa a incerteza sobre  depois de

 De posse de P(|y), podemos examinar qualquer

2. Escolher um modelo probabilístico para

3. Aplicar a regra de Bayes e calcular P(|y).

 y é o número de casos da “doença” em certa área ;

Modelo para P(y|) : y ~ Poisson (e )

P(y |  ) P(  ) P(y |  ) P(  ) P(y |  ) P(  )

Quantis a posteriori Média a

Intervalo de Credibilidade de 95%

y Quanto menor o no.

Taxa bruta Taxa suavizada

Taxa bruta Taxa suavizada

Taxa bruta Taxa suavizada

 Modelo de efeitos aleatórios

 Gamma “+” Poisson “=” Gamma ;

 P(ρi|y) ∼ Gamma(ψi + yi, i + ei).

 Os parâmetros ψi e i são os hiperparâmetros.

P(ρ, ψ, |y) ∝ P(y|ρ)P(ρ|ψ, )P(ψ)P()

 log µi = log ei + θi ; θi = log ρi

 Hiperprioris Gamma para τ = 1/ 2 e para

Exemplo: leishmaniose visceral (leish_inpe_spatial)

Taxa bruta Taxa suavizada

taxa[29] sample: 11001

Exemplo: leishmaniose visceral

AMD Athlon XP2000 1.67 GHz 512 Mb RAM

Exemplo: leishmaniose visceral (leish_inpe_dissert)

Spiegelhalter, D. ; Thomas, A. ;Best, N. ;Lunn, D. WinBUGS

E[yi] = Eρ[Ey[yi| ρi]] = Eρ[eiρi] = ei ψi/i

Pelo Método dos Momentos

 i é o risco da “doença” na área i ;

P(y |  ) P( ) P(y |  ) P( ) P(y |  ) P( )

- < yi <  , - <  < 

Você também pode gostar