Você está na página 1de 26

1

Modelos Bayesianos

Ernesto F. L. Amaral
Magna M. Incio

09 de dezembro de 2010
Tpicos Especiais em Teoria e Anlise Poltica:
Problema de Desenho e Anlise Emprica (DCP 859B4)
2

Objetivos

Apresentar conceitos bsicos de estatstica Bayesiana.

Explicar diferenas entre abordagens tradicionais e


Bayesianas para anlise de dados.
3

Uma Breve Histria

Estatstica Bayesiana assim chamada por ter sido


elaborada por Thomas Bayes (1763).
Laplace (1812) aplicou esta abordagem a problemas
prticos.
A abordagem frequentista foi desenvolvida entre 1850 e
1950 por Fisher, Pearson, Neyman e outros, tornando-se o
mtodo dominante.
Mtodos Bayesianos esto sendo mais utilizados, devido s
suas vantagens e desenvolvimento de computadores.
H diferenas nos conceitos e mtodos das abordagens
frequentistas e Bayesianas.
4
Comparao de Termos
Frequentistas e Bayesianos
Frequentista Bayesiano

Estimao Estimativas pontuais Distribuies


Intervalos de confiana a priori e posteriores

Inferncia Intervalos de confiana Distribuies


Testes de significncia a priori e posteriores
5

Anlise Bayesiana Anlise Frequentista


Na perspectiva Bayesiana, a probabilidade representa
uma abordagem subjetiva do desconhecido.

Qualquer quantidade para a qual o valor verdadeiro


incerto, incluindo os parmetros do modelo, pode se
representada com distribuies de probabilidade.

Na perspectiva clssica, no aceitvel colocar


distribuies de probabilidade nos parmetros, porque estes
so considerados como quantidades fixas.

Somente dados so aleatrios, ento distribuies de


probabilidade somente podem representar os dados.
6

Problemas com Estatstica Tradicional


(segundo Bayesianos)

Produz respostas em termos que so difceis de


interpretar e que so mal compreendidos.

Produz respostas em termos que no so usualmente


de grande interesse:

Pr(dados|H), ao invs de Pr(H|dados)

Falta de mtodos claros para incluir dados


(conhecimentos) existentes e para lidar com incerteza.
Responda Verdadeiro ou Falso 7

(p o valor da probabilidade de teste de significncia para H0)


p=0,01: h 1 em 100 chances que H0 seja verdadeira.
p<0,001 significa que H0 falsa.
H0 tem maior probabilidade de ser verdadeira se p>0,9 do
que se p<0,1.
Se 2 amostras A e B no so diferentes significativamente
(H0 no rejeitada), A e B so assumidas como iguais.
Se p<0,05 (significante) para um conjunto de dados e p <
0,001 (muito significante) em outro conjunto, o segundo
conjunto de dados indica que H0 falsa mais fortemente.
Se H0 no for rejeitada e a magnitude do coeficiente for alta,
mais provvel que H0 seja verdadeira do que se H0 no for
rejeitada e a magnitude do coeficiente for baixa.
Se o intervalo de confiana de 95% de uma estimativa Y vai
de A a B, isso significa que o valor verdadeiro de Y est
situado entre A e B com probabilidade 0,95.
8

Dois Conceitos Bayesianos Fundamentais

Coisas que so desconhecidas so representadas


por distribuies de probabilidade.

Coisas que so conhecidas (dados) so usadas


para aperfeioar nosso conhecimento acerca do
problema, a partir do Teorema de Bayes.
9

O Desconhecido
Coisas que so desconhecidas so representadas por
distribuies de probabilidade.
Probabilidade

Quantidade desconhecida de interesse


(Quantidade de votos, tamanho da
populao, parmetro do modelo)

A probabilidade da distribuio pode ser contnua


(uniforme, normal...) ou discreta (binomial, Poisson).
10
O Conhecido
Regra da multiplicao:

Pr( x, y) Pr(x) Pr( y | x) Pr( y ) Pr(x | y )


Teorema de Bayes:
Pr( x | y ) Pr( y )
Pr( y | x)
Pr( x)
Seja y=hiptese sobre o desconhecido e x=dados:
p (dados | H) p (H)
p (H | dados) =
p (dados)
Distribuio posterior proporcional a:
Posterior Verossimilhana (Likelihood) X Priori
11

Paradigma para Inferncia Bayesiana


Posterior Verossimilhana X Priori

Ou seja:
novo estado do conhecimento
informao dos dados novos
X estado atual do conhecimento

Os dados novos atualizam o estado atual do


conhecimento, com base no Teorema de Bayes.
O resultado um novo estado do conhecimento,
representado pela distribuio posterior.
12

Objetivos da Estatstica Bayesiana

Representar o desconhecimento a priori sobre os


parmetros do modelo com uma distribuio de
probabilidade (distribuio a priori).

Atualizar esse desconhecimento a priori com dados


atuais (likelihood).

Produzir uma distribuio de probabilidade para o


parmetro que contenha menos desconhecimento
(distribuio posterior).
13
Distribuio a Priori
Funo a priori Pr(H) fornece a probabilidade dos diferentes
valores possveis da quantidade de interesse antes dos
dados serem considerados.
Representa o estado do conhecimento anterior aos dados.
A distribuio a priori pode ser ampla, plana, uniforme se
possumos poucos dados (priori no informativa), ou pode se
concentrada com um pice se possumos mais informao
(priori informativa).
Probabilidade

Quantidade desconhecida de interesse


(Quantidade de votos, tamanho da
populao, parmetro do modelo)
14
Verossimilhana (Likelihood)
Funo de verossimilhana Pr(dados|H) fornece a
probabilidade de obter o dado, considerando diferentes
valores possveis da quantidade desconhecida de interesse
(hiptese H).
Verossimilhana: (1) calculada usando um modelo
estatstico que representa o processo que produziu os dados;
e (2) conecta os parmetros do modelo aos dados.
Tambm so utilizadas em anlises frequentistas.
Probabilidade

Quantidade desconhecida de interesse


(Quantidade de votos, tamanho da
populao, parmetro do modelo)
15
Distribuio Posterior
Funo posterior Pr(H|dados) fornece a probabilidade dos
diferentes valores possveis da quantidade de interesse
depois de considerar os dados, representando o estado do
conhecimento posterior aos dados.
Posterior combinao da priori (o que sabemos antes)
com a verossimilhana (o que os dados nos disseram).
Diferena entre priori e posterior indica o quanto
aprendemos com os dados.
Probabilidade

Posterior

Priori

Quantidade desconhecida de interesse


(Quantidade de votos, tamanho da
populao, parmetro do modelo)
16
Exemplo: Tabela de Contingncia

Grupo 1 Grupo 2
Tipo A 1 4
Tipo B (no A) 8 6

Questo principal:
A frao do tipo A diferente entre os dois grupos?

Pressupostos:
Amostras so aleatrias e independentes.
A e B so nicos tipos possveis.
17
Anlise Frequentista

Grupo 1 Grupo 2
Tipo A 1 4
Tipo B (no A) 8 6

Teste de Pearson: p=0,36.

0,6
Frao do Tipo A
Teste de Fisher: p=0,30.

0,4
Concluso: hiptese nula de

0,2
que a frao do tipo A igual
nos dois grupos no rejeitada. 0,0
Gr. 1 Gr. 2
18
Anlise Bayesiana

Grupo 1 Grupo 2 Distribuio a priori uniforme:


Pr(x)~U(0,1)
Tipo A 1 4

Tipo B (no A) 8 6 Verossimilhana binomial:


Pr( x | nA , nB ) x nA (1 x) nB
onde x a frao do tipo A.

Grupo 1 Grupo 2

Probabilidade
Probabilidade

Priori
Priori

0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0
Frao do Tipo A Frao do Tipo A
19
Anlise Bayesiana: Mais Clara e Direta
Como estamos interessados na diferena da frao do
tipo A entre o grupo 1 e o grupo 2, calculamos a distribuio
posterior sobre a diferena.
Embora as distribuies a priori so uniformes na frao
do tipo A para cada grupo, a distribuio a priori na
diferena entre grupos no uniforme.
A probabilidade que a
Posterior frao do tipo A seja
Probabilidade

9%
91% maior no grupo 2 de
0,91 (acima de zero).
Priori 10 vezes mais
provvel (91% / 9%)
-1,0 -0,5 0,0 0,5 1,0
que a frao do tipo A
Diferena na Frao do Tipo A seja maior no grupo 2
do que seja menor.
20
Anlise Bayesiana: Distribuio Posterior
A distribuio posterior da diferena na frao do tipo A
entre grupo 2 e grupo 1 o novo estado do conhecimento.
Mdia = 0,241.
Mediana = 0,235.
Moda = 0,241.
Intervalo de confiana de 95%: -0,13 a 0,57.
Probabilidade

-1,0 -0,5 0,0 0,5 1,0


Diferena na Frao do Tipo A
21
Anlise Bayesiana com Amostra Maior
Suponha que tenhamos dados adicionais, de modo que o
tamanho da amostra seja muito maior.
A distribuio posterior da diferena ser mais concentrada.
Grupo 1 Grupo 2

Tipo A 10 40

Tipo B (no A) 80 60

Probabilidade
n=190

n=19

-1,0 -0,5 0,0 0,5 1,0


Diferena na Frao do Tipo A
22

Problemas com Estatstica Bayesiana


(segundo no-Bayesianos)

Distribuies a priori introduzem julgamento subjetivo


na anlise de dados.

Distribuies a priori afetam os resultados, de modo que


diferentes pesquisadores podem chegar em respostas
distintas com mesmos dados.

muito complicado, j que no existem programas


computacionais simples como nosso amigo Stata.
23

Contra Argumentao: Interpretao


As estimativas de intervalo Bayesianos possuem
interpretao clara e direta:

Simplesmente dizemos que um parmetro se encontra


em um intervalo com determinada probabilidade.

Os intervalos de confiana clssicos indicam a


probabilidade de obter uma estimativa de intervalo que
contem o parmetro de interesse, sob a hiptese de
realizao de vrias amostras.
24

Contra Argumentao: Hipteses


A abordagem Bayesiana pode naturalmente incorporar
resultados de pesquisas anteriores na distribuio a priori.

O processo de construo de hipteses formalizado


com sua incorporao como parte do modelo.

A abordagem clssica no possui meios para usar


resultados prvios nas anlises atuais, alm de especificar
hipteses.
25

Contra Argumentao: Estatsticas


Na abordagem Bayesiana, so estimadas estatsticas dos
parmetros mais detalhadas, tais como mdia, mediana,
moda e intervalo interquartil.

Na abordagem clssica, simplesmente obtemos a


estimativa do parmetro e do erro padro.
26

Contra Argumentao: Subjetividade


A abordagem Bayesiana acusada de ser subjetiva por
incorporar distribuies a priori.

Porm, toda estatstica subjetiva:

Em um trabalho com estatstica frequentista, por


exemplo, podemos escolher uma distribuio normal e
aplicar um modelo MQO, ou podemos escolher uma
distribuio binomial e aplicar um modelo logstico.

O nvel de significncia () definido subjetivamente.

Por fim, a influncia de distribuies a priori pode ser


avaliada aps estimao da distribuio posterior.