Você está na página 1de 11

UNIVERSIDADE FEDERAL DE MINAS GERAIS

INSTITUTO DE CIÊNCIAS EXATAS


PET MATEMÁTICA
Orientadora: Rosângela Helena Loschi

ESTATÍSTICA BAYESIANA

Marina Muniz de Queiroz


INTRODUÇÃO

A estatística clássica associa probabilidades apenas a variáveis aleatórias,


enquanto a bayesiana permite a associação de probabilidade a qualquer grau de crença
ou incerteza sobre uma quantidade aleatória, evento ou hipótese.

Essa nova abordagem leva à definição de probabilidades à priori e à posteriori. A


primeira advém das informações que cada indivíduo traz consigo de experiências
passadas. Já a outra é obtida à medida que experimentos são realizados e novos dados
coletados. Assim, as probabilidades associadas a um evento são definidas previamente e
atualizadas na medida em que se recebem novas informações. Quando os dados são
mais informativos que as suposições iniciais, ou seja, quando a amostra aumenta, as
probabilidades convergem independentes das distribuições iniciais.
FUNÇÃO DE VEROSSIMILHANÇA E TEOREMA DE BAYES

Definição 1. A probabilidade de A condicionada por B é definida por

PA B=P(A∩B)P(B)

O Teorema de Bayes relaciona as probabilidades de A e B com suas respectivas


probabilidades condicionadas. Este teorema afirma que

PB A=PA B) . P(B)P(A)

Definição 2. A função de verossimilhança de θ é a função que associa a cada θ


o valor PX θ), uma vez conhecido X.

Exemplo 1. Suponha Xi| θ ~ Bernoulli(θ) ∀ i variáveis aleatórias


independentes e identicamente distribuídas.

Então PXi=1=θ e PXi=0=1-θ. Essa informação pode ser resumida em


PXi=xi θ)=θ xi (1-θ) 1-xi, xi=0,1. A função de verossimilhança é dada por

PXx1, …, xnθ= Pxi(xi|θ) = θxi(1-θ)1-xi = θxi (1-θ)n-xi

Assim, toda a informação proveniente do experimento está contida a função de


verossimilhança.

Seja X=(x1, x2, … , xn) um vetor de variáveis aleatórias independentes e θ


o parâmetro de interesse. Chamamos Pθ de distribuição à priori para θ e Pθ X de
distribuição à posteriori para θ. Usando o teorema de Bayes, temos, para a primeira
observação que

Pθ x1=Px1 θ) . P(θ)P(x1)

Ao se prosseguir com o experimento, toma-se a posteriori obtida acima como a


nova priori, e então

Pθ x1, x2, … , xn=P x1, x2, … , xn θ) . P(θ)P(x1, x2, … , xn)

Logo, a distribuição a posteriori de θ é proporcional à função de


verossimilhança de θ vezes a sua distribuição à priori.

Exemplo 2. Dado θ~ Beta (a,b) e X|θ ~ Bernoulli ( θ), queremos calcular a


distribuição à posteriori Pθ X.

Pθ X=PX θ) . P(θ)P(X)

Pθ X=θxi ( 1-θ)n-xi Γa+bΓaΓbθa-1(1-θ)b-1θxi ( 1-θ)n-xi Γa+bΓaΓbθa-1(1-


θ)b-1dθ

Pθ X=θxi+a-1 (1-θ)n-xi+b-1 θxi+a-1 (1-θ)n-xi+b-1dθ

Como a integral do denominador é o núcleo de uma Beta com parâmetros a+xi e


b+n-xi, basta multiplicar por constantes para que o resultado seja um.
Pθ X=Γa+b+nΓ a+xiΓb+n-xi θxi+a-1 1-θn-xi+b-1 Γa+b+nΓ a+xiΓb+n-xi
θxi+a-1 1-θn-xi+b-1dθ=

= Γa+b+nΓ a+xiΓb+n-xi θxi+a-1 1-θn-xi+b-1

Então Pθ X ~ Beta (a+xi, b+n-xi).

DISTRIBUIÇÃO À PRIORI

Seja θ o parâmetro do qual se deseja fazer uma inferência. A informação já


disponível sobre θ permite associar a ele uma distribuição de probabilidade que
descreverá as incertezas e crenças de um pesquisador, chamada distribuição à priori.

Tome como exemplo no lançamento de uma moeda a probabilidade θ de tirar


cara. Qual é a porcentagem de caras em certa quantidade de lançamentos? Se a moeda
for honesta, espera-se que esta probabilidade esteja centrada em 0,5. Porém, suponha
que isso não aconteça. Que informação prévia o dono da moeda possui?
Pode-se começar pensando em uma priori não informativa, ou seja, aquela que
associa igual chance a todas as porcentagens. Essa distribuição seria uma Uniforme ou
uma Beta (1,1)

Mas se ele já possui algum indício de que θ tende a tomar determinados valores,
pode-se modificar a distribuição à priori para uma Beta (2,2), que concentra mais massa
na região em torno do valor 0,5.
Levando em consideração que o dono do dado já observou outros lançamentos e
nos informou que o número de caras é sempre maior que o de coroas, novamente
modifica-se a distribuição para uma Beta (45,5), que concentra massa em torno de 0,9.

Assim, escolhe-se a melhor distribuição que se adapta às informações prévias


sobre o lançamento da moeda.

COMPARAÇÃO ENTRE DISTRIBUIÇÕES À PRIORI E À POSTERIORI


Vamos analisar o impacto que a escolha da distribuição à priori tem nas
distribuições à posteriori. Suponha que dez lançamentos de moeda foram simulados,
associando 1 a caras e 0 a coroas. A seguir, foram escolhidas algumas distribuições Beta
(a,b) que podem ser representar distribuições à priori.

TABELA 1. Distribuições à priori

a b Esperanç Variância Moda


a
1,0 1,0 0,5 0,083333 1
3
2,0 2,0 0,5 0,050000 0,500000
0
50,0 50,0 0,5 0,002475 0,500000
2
0,1 0,9 0,1 0,045000 0,900000
0
5,0 45,0 0,1 0,001764 0,083333
7
0,9 0,1 0,9 0,045000 0,100000
0
45,0 5,0 0,9 0,001764 0,916667
7

Após os dez lançamentos foram obtidas 6 caras e 4 coroas e os valores


mostrados acima são atualizados pelo Teorema de Bayes.

TABELA 2. Distribuições à posteriori para dez lançamentos

a b Esperança Variância Moda


7,0 5,0 0,583333 0,018696 0,600000
6
8,0 6,0 0,571429 0,016326 0,583333
5
56,0 54,0 0,509091 0,002251 0,509259
5
6,1 4,9 0,554545 0,020585 0,566667
4
11,0 49,0 0,183333 0,002454 0,172414
5
6,9 4,1 0,627273 0,019483 0,655556
5
51,0 9,0 0,850000 0,002090 0,862069
2
Se o número de lançamentos simulados aumenta para mil, com 507 caras e 493
coroas, teremos os seguintes valores:

TABELA 3. Distribuições à posteriori para mil lançamentos

a b Esperança Variância Moda


508,0 494,0 0,506986 0,000249 0,507000
2
509,0 495,0 0,506972 0,000248 0,506986
7
557,0 543,0 0,506364 0,000227 0,506375
0
507,1 493,9 0,506593 0,000249 0,506607
5
512,0 538,0 0,487619 0,000237 0,487595
7
507,9 493,1 0,507393 0,000249 0,507407
4
552,0 498,0 0,525714 0,000237 0,525763
2

Quando se trabalha com a distribuição Beta em que os parâmetros a e b são


iguais ou bem próximos, tem-se uma distribuição de probabilidade centrada em 0,5.
Portanto, essa seria uma função de densidade de probabilidade que poderia ser usada
para descrever a situação de um lançamento de uma moeda em que acreditamos com
alguma certeza que a razão entre caras e coroas é 0,5.

Se comparadas as distribuições à priori e à posteriori, no caso a=b, percebe-se


que o valor esperado do parâmetro continua centrado em um valor aproximado de 0,5,
porém com uma variância menor, ou seja, mais certeza. No caso descrito acima, como o
número de sucessos dos dez lançamentos foi seis, a esperança tem uma tendência a ser
maior que 0,5. O mesmo pode ser observado quando foram feitos 1000 lançamentos,
com 507 sucessos.

Já para os casos em que a distribuição é assimétrica, é fácil perceber que o valor


esperado está afastado de 0,5, e, portanto, não é uma distribuição que mais se adapta às
informações prévias do fenômeno. Com isso, quando o número de lançamentos é muito
grande, esses dados têm mais peso do que a própria distribuição a priori, e como a razão
entre fracassos e sucessos tende a meio, a esperança da nova distribuição também, com
variância muito pequena, tentando corrigir a informação obtida previamente.
FAMÍLIAS CONJUGADAS

A construção da distribuição à priori é importante pois usualmente não é fácil


obter a distribuição à posteriori de forma fechada como já foi feito na seção anterior
com a Beta e Binomial.

Observando o Teorema de Bayes e seu aspecto seqüencial, percebe-se que a


posteriori se origina da multiplicação da função de verossimilhança com uma priori.
Procura-se, então, misturar as duas para que a distribuição à posteriori esteja na mesma
família da distribuição à priori. Para isso, é necessário que l(θ) e P(θ) tenham o mesmo
núcleo. É importante também que tais famílias sejam suficientemente amplas para
acomodar várias opiniões sobre θ.

Continua...
BIBLIOGRAFIA