Introdução à Probabilidade e Estatística Bayesianas

21073 - Introdução à Probabilidade e Estatı́stica Bayesianas
(Texto de apoio - Novembro de 2010 - António Araújo)
1 Inferência Bayesiana
1.1 Variáveis aleatórias
Realizada a axiomatização da probabilidade como extensão da lógica, já
possuı́mos todas as ferramentas para fazer inferências: teste de hipóteses,
estimação de parâmetros, selecção de modelos. No entanto vamos introduzir
nesta secção algumas notações e ferramentas; algumas porque simplificam
muito a linguagem, permitindo enumerar proposições de uma forma mais
simples, outras porque são notações historicamente inescapáveis e que temos
que conhecer para nos relacionarmos com a literatura tal como ela existe,
ainda que, num mundo ideal, preferissemos fazê-lo de outra forma.
Há dois avisos a fazer: o primeiro é no sentido de que não estamos a
introduzir conceitos de base novos; tudo o que se segue é, em última análise,
redutı́vel aos conceitos já introduzidos. Toda a inferência que faremos de-
corre meramente dos axiomas que já aprendemos. O segundo diz respeito ao
termos ”aleatório”, que carrega uma carga histórica pesada. No nosso con-
texto, esse termo tem meramente o significado técnico referente à definição
3 (”variável aleatória”), e não significa mais do que uma abreviatura para
enunciar que aos valores de uma certa variável vamos atribuir probabilida-
des; ou dito de outra forma, trata-se de uma esquema de indexação numérica
de proposições. Não se faz, em probabilidades Bayesianas, como se faz em
probabilidades frequencistas, qualquer distinção entre ”valores fixos mas des-
conhecidos”e valores que são ”variáveis aleatórias”. Se uma quantidade é fixa
mas desconhecida, nada nos impede de lhe atribuir uma probabilidade de to-
mar um certo valor, e portanto ela passará a ser, no contexto da definição
3, uma variável aleatória. Ao chamar a um valor ”aleatório”, estamos mera-
mente a declarar a nossa ignorância acerca desse valor, e a declarar que lhe
vamos atribuir probabilidades - e não a atribuir à variável, ou ao fenómenos
que descreve, qualquer propriedade intrinseca especial, de natureza fı́sica ou
não. No fundo o termo histórico tem uma semântica infeliz, obrigando-nos
por vezes a chamar ”variável aleatória”a uma ”constante desconhecida”. O
leitor evitará ficar confundido se em cada momento se recordar que tudo
não passa de um esquema para ordenar proposições que se referem valores
numéricos, e tiver sempre em mente que o formalismo lógico/probabilı́stico
que já estudou se aplica indistintamente a ambos os casos.
Definição 1. Seja X um conjunto finito. Chama-se distribuição
P de proba-
bilidades sobre X a uma função f : X → [0, 1] tal que x∈X f (x) = 1.
Proposição 2. Seja Qx um conjunto de proposições, indexado numa variável
x ∈ X, X conjunto finito, tal que, condicionado à proposição I, uma e uma
só das proposições
P Qx é verdadeira, isto é, p(Qx Qy |I) = δij p(Qx |I) para
x, y ∈ X, x∈X p(Qx |I) = 1. Seja f : X → [0, 1] definida por f (x) =
p(Qx |I). Então f é uma distribuição de probabilidades sobre X.
Definição 3. Nas condições do enunciado anterior, dizemos que ”x é uma
variável aleatória de distribuição f ”, ou escrevemos ainda, simplesmente x ∼
f (x).
Exemplo 4. Suponhamos que temos um sólido com seis faces planas, não
necessariamente iguais, e que o lançamos no ar, caindo ele sobre um solo
plano. Sabemos que uma e uma só das suas faces vai ficar assente no chão.
Podemos identificar as faces por alguma propriedade que as distinga, seja a
côr ou outra caracterı́stica qualquer, e teremos assim um conjunto de seis
proposições do tipo ”Esta face especı́fica vai ficar assente no chão”, sendo
que uma e apenas uma das proposições será verdadeira. A forma mais fácil
de identifcar as faces será provavelmente numerá-las, de 1 até 6. Temos as-
sim as proposições Qx , x ∈ X = {1, 2, 3, 4, 5, 6} definidas por Qx =”O sólido
vai cair com a face x virada para baixo”. Note-se que podı́amos ter esco-
lhido qualquer outro X com seis elementos, e que mesmo escolhido este X
podemos identificar cada face com um número de 6! = 720 formas diferentes.
Mas uma vez escolhido X = {1, 2, 3, 4, 5, 6} e uma identificação especı́fica
para cada face, o conjunto das proposições Qx verifica a propriedade de que
uma e apenas uma delas é verdadeira, e cada uma das proposições está iden-
tificada com o número x que designa a face correspondente, pelo que podemos
codificar a informação sobre as probabilidades dos Qx definindo uma função
distribuição de probabilidade, f (x) = p(Qx |I), x ∈ X. Referimo-nos a esta
situação dizendo que ”x é uma variável aleatória de distribuição f ”.
Nota 5. Como vimos no exemplo, afirmar que ”x é uma variável aleatória de
distribuição f ”, no contexto de um problema concreto, subentende sempre um
enunciado em que é explicado qual é a informação prévia, quais são as pro-
posições em causa, e como é que elas são identificadas com elementos de X.
Quando essa informação não é dada, dizer ”x é uma variávelP aleatória de dis-
tribuição f ”não é mais do que dizer ”f é uma função tal que x∈X f (x) = 1 e
vamos referir-nos aos elementos do seu domı́nio pela letra x”. O propósito do
conceito de ”variável aleatória”e ”distribuição de probabilidade”é meramente
notacional: permite que identifiquemos proposições com valores numéricos
que as identificam. Vamos abusar livremente desta notação. Não teremos
problemas em escrever p(x, y|I) para denotar p(Qx Qy |I), por exemplo. Iden-
tificamos os valores de ı́ndice com as proposições sempre que o contexto nos
pareça claro, sendo sempre possı́vel regressar à notação proposicional em
caso de ambiguidade (o leitor deverá fazer esse exercı́cio de linguagem com
cuidado no inı́cio).
Tal como os próprios Qx , as proposições condicionantes I podem também
elas ser identificadas com elementos de um conjunto indexante adequado. Por
exemplo, suponhamos que há k proposições Ik , e que conhecemos p(Qx |Ik )
2
para cada Ik , e que sabemos além disso que um e apenas um dos Ik é ver-
dadeiro. Podemos então identificar, como fizemos com o Qx , cada um dos Ik
com um certo elemento θ de um conjunto Θ ∈ Z com k elementos, e podemos
definir k distribuições de probabilidades, fθ , θ ∈ Θ, tais que fθ (x) = p(Qx |Iθ ).
Diz-se então habitualmente que x é uma variável aleatória distribuida se-
gundo a famı́lia fθ , e a θ chama-se o ”parâmetro”da distribuição de x. É
então habitual usar a notação f (x|θ) = p(Qx |Iθ ), identificando assim, tanto
os Qx como os Iθ com os seus identificadores numéricos.
Exemplo 6. Digamos que temos uma moeda, e que ela pode ser de um de
dois tipos (não sabemos qual) e que, consoante o tipo de moeda, verifica-se
uma e uma só das seguintes situações:
I1 : O número de caras x que saem em 10 lançamentos
x 10−xé uma variável
10
aleatória distribuida pela função binomial x ∼ x 0.3 0.7 ,
I2 : O número de caras x que saem em 10 lançamentos
x 10−x uma variável
é
10
aleatória distribuida pela função binomial x ∼ x 0.7 0.3 ,
Então podemos identificar as proposições I1 e I2 com os valores 0.3 e 0.7,
e, designando esses valores pela variável θ ∈ Θ = {0.3, 0.7}, afirmar que
”x é uma variável aleatória distribuida segundo uma binomial de parâmetro
θ ∈ Θ”, ou que x tem distribuição f (x|θ) = 10 x
θx (1 − θ)10−x com parâmetro
θ ∈ Θ = {0.3, 0.7}.
Tomámos até agora conjuntos indexantes finitos. Tendo os devidos cui-

dados com convergência nas passagens ao limite, nada nos impede de indexar
proposições em conjuntos discretos infinitos, ou mesmo uniões de intervalos
de R, regiões de Rn , ou ainda conjuntos mais gerais onde exista uma medida
adequada.
Enunciamos as definições básicas para o caso de uma região de Rn e
deixamos os demais detalhes ao cuidado do leitor:
Definição 7. Seja X ⊂ Rn . Chama-seR densidade de probabilidades sobre X

a uma função f : X → [0, 1] tal que x∈X f (x)dx = 1.
Definição 8. Seja f uma densidade de probabilidades sobre X. Chama-se

função
R de massa de probabilidade à função F definida por Y → F (Y ) =
Y
f (y)dy.
No caso de conjuntos indexantes em R ou Z, costuma ter-se em conta a

ordenação natural desses conjuntos, e definir-se através dela a ”função cumu-
lativa de probabilidade”, que é a função de massa de probabilidade avaliada
em [0, x], ou seja é a função x0 → p(x ≤ x0 |I), que dá a probabilidade de x
ser menor ou igual a um certo valor.
Dado um conjunto indexante X onde se define uma densidade de proba-
bilidade, identificamos, não necessariamente cada ponto, mas sim cada região
de medida não-nula com uma proposição correspondente. Por exemplo, po-
demos considerar que a proporção de oxigénio na atmosfera é uma variável
3
aleatória definida no intervalo X = [0, 1], com uma certa densidade de pro-
babilidade f e função de massa F . Identificamos uma região Y ⊂ X com a
proposição QY = ”a proporção de oxigénio na atmosfera é um dos R valores
contidos na região Y ”, Por exemplo, se Y = [0.2, 0.6], p(QY |I) = Y f (x)dx
é a probabilidade da proporção de oxigénio na atmosfera estar entre 20 e 60
por cento.
Nota 9. Vamos cometer o abuso de notação comum, bastante prático mas
que pode ser perigoso para o principiante, de denotar, no caso contı́nuo,
a função densidade por p(x|θ), tal como a própria função probabilidade.
Obviamente, se X é uma região, p(X|θ) corresponde à função de massa ava-
liada em X, ou seja à probabilidade da proposição correspondente, p(QX |θ),
pelo que o contexto deverá ser suficiente. Em caso de dúvida suplementar
poderemos usar a maiúscula P para denotar a função de massa.
1.2 Regra de Bayes e inferência

Consideremos então uma variável aleatória x ∈ X, isto é, uma certa quanti-
dade x cujo valor desconheço mas que sei que é um e um só valor contido em
X. Suponhamos ainda que eu tenho um ”modelo”para x, que depende de
um parâmetro θ. Quando dizemos que temos um modelo, queremos com isso
dizer que conhecemos uma certa função que, sabendo o valor de θ, diz-me
qual a probabilidade de x tomar um certo valor; Isto é, ter um modelo para
x com parâmetro θ, é o mesmo que saber atribuir p(x|θ) para cada valor de
x e θ.
Exemplo 10. A probabilidade de obter um número x de bolas bolas bran-
cas em n extracções de uma ”urna infinita”em que o rácio n−x
de bolas bran-
n x
cas para bolas pretas é θ, é igual a p(x|θI) = x θ (1 − θ) . Ou seja,
x ∼ Binomial(θ). Podemos expressar isto dizendo que o número de bolas
brancas em n extracções é uma variável aleatória regida por um ”modelo
binomial”.
Portanto, saber θ permite-nos saber a probabilidade de x. Mas suponhamos
que θ é desconhecido. Será que saber x permite-me saber algo sobre θ?
Por aplicação da regra do produto, e da comutatividade do produto lógico,
podemos ”inverter a ordem”de θ com a de ”x”, passando x a ser a proposição
condicionante e θ a condicionada:
p(θx|I) p(xθ|I) p(x|θI)p(θ|I)
p(θ|xI) = = =
p(x|I) p(x|I) p(x|I)
Obtemos assim que
p(x|θI)p(θ|I)
p(θ|xI) =
p(x|I)
Chama-se a este resultado o ”teorema de Bayes”. Se θ for um
P parâmetro dis-
creto, podemos expandir o denominador na forma p(x|I) = i p(x|θi , I)p(θi |I),
4
onde a soma é sobre todos os valores possı́veis (e logicamente disjuntos) de
θ. Para cada θk obtemos, pelo teorema de Bayes,
p(x|θk , I)p(θk |I)

p(θk |x, I) = P (1)
i p(x|θi , I)p(θi |I)
Se θ é um parâmetro contı́nuo, passamos ao limiteRe, denotando por p(θ|I)

a densidade de probabilidade de θ, temos p(x|I) = p(x|θ, I)p(θ|I)dθ, e
p(x|θ, I)p(θ|I)
p(θ|x, I) = R (2)
p(x|θ, I)p(θ|I)dθ
A ”fórmula de Bayes”pode ser vista como uma maneira de aprender com

a observação. De facto, diz-nos que se conhecermos o modelo p(x|θ, I), e
a p(θ|I), e se observarmos um novo dado, x, então podemos actualizar o
nosso conhecimento de θ, obtendo p(θ|x, I). Neste contexto, como p(θ|I)
é o que conhecı́amos antes da observação de x, usa-se o termo ”probabili-
dade prévia”para p(θ|I) (em inglês, ”the prior”) e denomina-se p(θ|x, I) por
”probabilidade posterior”(em inglês, ”the posterior”).
Nota 11. Para a probabilidade prévia usa-se por vezes também o termo
”probabilidade a priori”e para a probilidade posterior usa-se por vezes ”a
posteriori”. O primeiro destes termos tem uma semântica infeliz, que só em
certos casos é adequada. Sugere que o ”prior”é sempre algo que se assume
”do nada”ou ”de primeiros principios”, o que é falso em geral; basta ver
que o ”prior”de uma análise pode ser o ”posterior”da análise anterior. Os
termos ”prévio”e ”posterior”só fazem sentido como termos relativos à dispo-
nibilização da informação x (portanto ”prévio a x”, ”posterior a x”; mas ”a
priori a x”não faz sentido pois ”a priori”é um termo absoluto).
Note-se a simetria das expressões da fórmula de Bayes. No membro esquerdo

p(θ|x) é uma função de θ para x fixo. No numerador do membro direito,
p(x|θ) é a expressão do modelo, mas avaliada no x fixo, e vista como função
de θ. Da mesma forma, no denominador, essa função de θ é somada (ou
integrada) para todos os valores de θ. Essa função do parâmetro θ que se
obtém do modelo de x é denominada a ”função verosimilhança”de θ (em
inglês, ”the likelihood of θ”).
Definição 12. Dada uma variável aleatória descrita por um modelo x 7→

p(x|θ, I) dependente de um parâmetro θ, e dado um valor fixo x0 de x, a
função verosimilhança de θ dado x = x0 é a função Lx definida por
Lx0 (θ) = p(x0 |θ, I)
(quando o ponto x é entendido pelo contexto, é usual denotar a verosimi-

lhança de θ apenas por L(θ)). É importante notar que a função verosimi-
lhança não é uma distribuição de probabilidades. Não há motivo para que
5
P
i L(θi ) = 1, nem para que L(θi + θj ) = L(θi ) + L(θj ). Em termos da função
verosimilhança a fórmula de Bayes escreve-se assim:
Lx (θ)p(θ|I)
p(θ|x, I) = R (3)
Lx (θ)p(θ|I)dθ
O termo do denominador serve apenas para normalizar a função de proba-

bilidade posterior, portanto o que é verdadeiramente interessante (e válido
tanto no caso discreto como contı́nuo) é que
p(θ|x, I) ∝ Lx (θ)p(θ|I) (4)
Ou seja, a probabilidade de θ é ”actualizada”pela observação de x através

do produto da probabilidade prévia de θ pela verosimilhança de θ dado x. A
fórmula de Bayes permite-nos portanto ”aprender”através da observação de
x.
Isto pode ser iterado. Suponhamos agora que tı́nhamos observado que as
variáveis x1 e x2 tomavam determinados valores (por exemplo, podemos estar
a falar de extracções sucessivas de uma urna, lançamentos de uma moeda,
etc). Então, substituindo x pelo produto (lógico) de x1 x2 na fórmula de
Bayes obtemos
p(x1 x2 |θi I)p(θi |I)
p(θi |x1 x2 ) =
p(x1 x2 |I)
Expandindo o numerador temos
p(x1 x2 |θi I) = p(x2 |x1 θi I)p(x1 |θi I)
Se a probabilidade x2 sabendo θ for independente de x1 , ou seja, se p(x2 |x1 θI) =

p(x2 |θ), temos
p(x2 |θI)p(x1 |θI)p(θi |I)
p(θi |x1 x2 ) =
p(x1 x2 |I)
E, em geral, para n variáveis:
p(x1 · · · xn |θi I)p(θi |I)

p(θi |x1 · · · xn I) = P
j p(x1 · · · xn |θj I)p(θj |I)
(Atenção ao abuso de notação: não estamos a fazer o produto numérico das

variáveis xi , estamos a identificar os xi com as proposições correspondentes
Qxi , e a denotar Qx1 ∧ . . . ∧ Qxn por x1 . . . xn ). Se além dissoQas variáveis
aleatórias xi , i ∈ {1, . . . , n} forem tais que p(x1 , . . . , xn |, θ, I) = ni=1 f (xi |θ),
onde x → f (x|θ) é uma distribuição de probabilidades, (por exemplo se os xi ,
condicionadas a θ, forem ”variáveis aleatórias independentes e identicamente
distribuidas”) teremos
Qn
k=1 f (xk |θi )p(θi |I)
p(θi |x1 · · · xn I) = P Q n (caso discreto)
j k=1 f (xk |θj )p(θj |I)
6
Qn
f (xi |θ)p(θ|I)
p(θ|x1 · · · xn I) = R Qni=1 (caso contı́nuo)
k=1 f (xk |θ)p(θ|I)dθ
Imaginemos que estamos a observar um processo que resulta numa sequência
de observações x1 , x2 , . . . , com probabilidades dependentes de um parâmetro
θ. Já vimos que pela regra de Bayes, à medida que observamos os xi , vamos
obtendo conhecimento sobre o valor de θ. Mas isto por sua vez leva-nos a
poder prever melhor o valor do próximo xi . Podemos ver a situação desta
forma: a incerteza acerca de xn+1 decorre por um lado do facto de que xn+1
é uma variedade aleatória, mas por outro lado pelo facto de que o próprio
parâmetro θ é ele também desconhecido, sendo portanto também ele uma
variável aleatória que aumenta a nossa incerteza.
A fórmula de Bayes, já vimos, permite-nos ”ir descobrindo”o valor de θ à
medida que observamos os xi . Mas se o que me interessa é o valor de xn+1 ,
posso simplesmente notar que
Z
p(xn+1 |x1 · · · xn I) = p(xn+1 |x1 , . . . , xn θ)p(θ|x1 · · · xn I)dθ
Θ
E portanto, se os xi são independentes sabendo θ,
Z
p(xn+1 |x1 · · · xn I) = p(xn+1 |θ)p(θ|x1 · · · xn I)dθ
Θ
Nota 13. Uma menemónica engraçada para quem conheça a notação ”Bra-
Ket”de Dirac para a mecânica quântica (os demais farão melhor em igno-
rar isto): Represento
R as probabilidades apenas por (x|I) em vez de p(x|I).
DepoisR faço |θ)(θ|dθ = 1. REntão (xn+1 |x1 , . . . xn ) = (xn+1 |1|x1 , . . . xn ) =
(xn+1 | |θ)(θ|dθ|x1 , . . . xn ) = (xn+1 |θ)(θ|x1 , . . . xn )dθ.
Então, se quisermos saber qual a probabilidade de xn+1 estar num certo
intervalo, basta integrar e temos
Z b
P (a ≤ xn+1 ≤ b) = p(xn+1 |x1 · · · xn I)dxn+1
a
Eliminámos assim o parâmetro θ, obtendo a distribuição/densidade de pro-

babilidade marginal, ou preditiva de xn+1 em termos de x1 , · · · , xn . A eli-
minação de parâmetros por marginalização (somando ou integrando as con-
tribuições de cada valor possı́vel do parâmetro a eliminar) é uma ferramenta
fundamental da inferência Bayesiana. Por exemplo, se temos um modelo de
x com dois parâmetros θ, σ, p(x|θ, σ), mas estamos interessados em estimar
θ, fazemos Z
p(θ|x) = p(σθ|x)dσ.
Isto é nada mais que a versão contı́nua do facto de que, se σi são pro-
posições,
P uma e apenas uma das quais é verdadeira, então a conjunção verifica
i p(σ i |I) = 1 e a disjunção verifica p(σi σj |I) = δij p(σi |I), portanto
X X
P (θ|xI) = p(θ( σi )|xI) = p(θσi |xI)
i i
7
Em Português chama-se habitualmente a um parâmetro que eliminamos, ou
queremos eliminar, por este processo, um ”parâmetro perturbador”. É um
termo pobre em relação ao Inglês, ”nuisance parameter”, que é bastante mais
exacto e bem-humorado, significando algo como ”parâmetro chateador”.
1.3 Estimação de parâmetros

Poderá parecer simples demais, mas o facto é que, neste momento, já temos
tudo o que precisamos para fazer estimação de parâmetros. A partir de
um modelo p(x|θ, I), de uma probabilidade prévia p(θ|I), e de dados ou
observações x0 da variável x, inferir θ consiste meramente em calcular
p(x0 |θ, I)p(θ|I)

p(θ|x0 , I) = R (5)
p(x0 |θ, I)p(θ|I)dθ
Em termos técnicos, o cálculo do integral pode ser complicado, e é frequente-

mente necessário recorrer a computadores e a métodos numéricos sofisticados;
mas isso são dificuldades ”meramente”técnicas. Resolvidas essas dificulda-
des de cálculo, o que obtemos é a distribuição de θ que incorpora toda a
informação observada e o ”prior”p(θ|I). Isto pode parecer algo confuso para
quem está habituado à estatı́stica clássica. Onde estão os estimadores? Onde
estão os intervalos de confiança? Existem, na probabilidade Bayesiana, con-
ceitos semelhantes a esses, mas o ponto fundamental a compreender é que
eles são essencialmente secundários. Não precisamos de estimadores e mar-
gens de erros aproximadas, porque a distribuição posterior contém toda a
informação disponı́vel. Reduzir essa distribuição a uma estimativa pontual
(uma ”best guess”) e a um intervalo de dispersão poderá ter a sua utilidade,
mas consistirá sempre numa perda de informação; podemos obter uma esti-
mativa desse tipo, ou uma infinidade delas, a partir da distribuição posterior
de θ, mas não poderı́amos fazer o processo inverso. Mais para a frente vol-
taremos a discutir estes assuntos. Por agora o mais útil será demonstrar na
prática como funciona o formalismo de inferência que acabámos de discutir.
Vamos tratar um problema de forma discreta e contı́nua, aproveitando para
explicitar através dele o nosso método de infererência.
Exemplo 14. O Sr. Manuel Esquemas tem uma colecção de moedas viciadas
de três tipos. A probabilidade de sair cara num lançamento é de 0.3 para uma
moeda do tipo 1, 0.6 para uma moeda do tipo 2, e 0.7 para uma moeda do tipo
3. O Sr. Manuel tem uma coleção de cinco moedas do tipo 1, uma do tipo
2, e quatro do tipo 3. Um belo dia o Sr. Manuel mistura por acidente todas
as suas moedas. Suponha que ele se recorda da informação descrita acima.
Apanhando uma de entre as moedas, resolve testá-la: atira-a ao ar dez vezes
e obtém 6 caras.
a) Seja θi a proposição ”a moeda é do tipo i”. Qual é a probabilidade de cada
θi após os 10 lançamentos e tendo em conta a informação prévia que o Sr.
Manuel possui?
8
b) Se o Sr. Manuel não se recorda de quantas moedas possui de cada tipo
(mas continua a recordar-se de que há três tipos e das propriedades de cada
um deles), qual é a probabilidade que atribui a cada Xi após os lançamentos?
c) Um amigo do Sr. Manuel, que desconhece todos os detalhes da colecção,
observa os mesmos lançamentos. Atribui inicialmente ao parâmetro θ (pro-
babilidade de sair cara num lançamento) um valor constante sobre o intervalo
[0, 1]. Após os lançamentos qual é a probabilidade que atribui a cada valor
de θ?
Solução:
a) Nas duas primeiras alı́neas queremos estimar o valor de um parâmetro
finito. Sabemos que um e um só dos três θi é verdadeiro, mas não sabemos
qual. Inicialmente sabemos apenas a proporção de moedas de cada tipo. O
processo de apanhar uma ao acaso é essencialmente idêntico tirar bolas de
uma urna. Pelo ”principio da indiferença”, isto é, assumindo que cada mo-
eda tem a mesma probabilidade de ser escolhida, a distribuição prévia será
p(θ1 |I) = 5/10, p(θ2 |I) = 1/10, p(θ3 |I) = 4/10. Cada hipótese θi correspon-
dente a uma moeda que seguirá x um modelo binomial para 10 lançamentos
que é dado por p(x|θi ) = 10x
θ (1 − θ)10−x
, com os θi iguais a 0.3, 0.6, e 0.7.
Após observarmos x = 6 caras em 10 lançamentos, para cada i teremos
p(θi |x = 6, I) = p(θi |x) = p(x|θi )p(θi )/p(x) = K(θi )6 (1 − θi )4 p(θi )
onde K é idêntico para todos os i. Portanto, p(θ1 |x = 6, I) = K0.36 (1 −

0.3)4 (5/10) = 8.8 × 10−5 K, p(θ2 |x = 6) = K0.66 (1 − 0.6)4 (1/10) = 1.1 ×
10−4 K, p(θ3 |x = P6) = K0.76 (1 − P 0.7)4 (4/10) = 3.8 × 10−4 K. Obtemos K
6 4
P de6 1 = 4 i p(θi |x) = K i ((θ
a partir
3
i ) (1 − θi ) p(θi )), e portanto K =
1/( i ((θi ) (1 − θi ) )p(θi )) = 1.7 × 10 . Então,
p(θ1 |x = 6, I) = 0.15, p(θ2 |x = 6, I) = 0.20, p(θ3 |x = 6, I) = 0.65.
b) Repetimos os cálculos com p(θi |I) = 1/3 para todo o i. Como a proba-
bilidade prévia é idêntica, a probabilidade p(θi |x = 6, I) é proporcional à
verosimilhança p(x = 6|θi , I). O resultado é p(θ1 |x = 6, I) = 0, 08, p(θ2 |x =
6, I) = 0.51 e p(θ3 |x = 6, I) = 0.41. Análise dos resultados: Em ambos os
casos, a hipótese θ1 é pouco provável. Consideremos as outras duas. Observa-
mos que na ausência da informação prévia acerca das proporções das moedas
na colecção, a evidência dos lançamentos favorece ligeiramente a hipótese
θ2 sobre a θ3 , mas que, na presença dessa informação, a hipótese θ3 é 3,25
vezes mais provável que a hipótese θ2 . Intuitivamente: apesar do resultado
dos lançamentos favorecer ligeiramente a hipótese 2, é tão improvável que
eu tenha apanhado por acaso a única moeda do tipo 2 em vez de uma das
quatro moedas do tipo 3 que sou levado a pensar que essa ligeira tendência
é meramente acidental; assim sendo, permaneço ao fim dos 10 lançamentos
mais convencido pela hipótese favorecida pela probabilidade prévia. Claro
que, se eu continuasse a lançar a moeda e verificasse que a tendência se man-
tinha, eventualmente a evidência dos lançamentos acabaria por dominar o
9
valor da probabilidade posterior. Vemos assim que a inferência é uma espécie
de média entre os dados prévios e os dados da obervação (um ”conflito”entre
o prior e a verosimilhança).
c) Como o amigo do Sr. Manuel não sabe que existem apenas três tipos
de moedas, vai ter que estimar um parâmetro θ que sabe apenas estar em
Θ = [0, 1]. Inicialmente, mantendo uma mente aberta, atribui a mesma pro-
babilidade a todos os valores possı́veis (está no fundo a aplicar o prı́ncipio da
indiferença no caso contı́nuo). Sabemos portanto que o ”prior”é p(θ|I) = 1
sobre [0, 1] e 0 fora desse intervalo. Em termos de proposições, está a afir-
mar que probabilidade prévia de o valor verdadeiro de θ estar num qualquer
intervalo [a, b] ⊂ [0, 1] é igual a b − a. Assumimos para a moeda um modelo
binomial, p(x|θi I) = nx θx (1 − θ)n−x . Aplicando a regra de Bayes vem
n x

p(x|θ, I)p(θ|I) x
θ (1 − θ)n−x · 1 θx (1 − θ)n−x
p(θ|x, n, I) = R = R n x = R
p(x|θ, I)p(θ|I)dθ x
θ (1 − θ)n−x · 1dθ θx (1 − θ)n−x dθ
Como referimos anteriormente, os integrais do denominador podem ser difı́cies

de calcular. Este corresponde a uma função especial, a função Beta, definida
por Z 1
B(a, b) = ta−1 (1 − t)b−1 dt
0
Em termos desta função podemos escrever
θx (1 − θ)n−x
p(θ|x, n, I) = (6)
B(x + 1, n − x + 1)
O integral do denominador pode ser escrito em termos de factoriais. É um

resultado conhecido que, para a e b inteiros, B(a, b) = (a − 1)!(b − 1)!/(a +
b − 1)!. Então
(n + 1)! x
p(θ|x, n, I) = θ (1 − θ)n−x (7)
x!(n − x)!
Como tivemos x = 6 caras em n = 10 lançamentos, obtemos
θ6 (1 − θ)4 p(θ)
p(θ|x = 6, n = 10, I) = (8)
B(7, 5)
Esta distribuição diz-se uma distribuição Beta. Este tipo de distribuição vai
acompanhar-nos em vários problemas. A famı́lia das distribuições Beta de
parâmetros (a, b) é definida em geral por
xa−1 (1 − x)b−1
Beta(x|a, b) =
B(a, b)
e tem como média e variância,
a ab
E(Beta(a, b)) = , V ar(Beta(a, b)) =
a+b (a + b)2 (a + b + 1)
10
Vemos portanto que a distribuição posterior de θ para uma observação (x =
6, n = 10) e para um prior uniforme em [0, 1], é uma Beta(7, 5). Segue-
se o gráfico da distribuição. Para comparação, o gráfico da posterior está
sobreposto ao da distribuição prévia constante.
Nota 15. Este gráfico foi feito na linguagem de programação R, com os

comandos curve(dbeta(x, 7, 5)) e abline(h = 1).
Como não nos cansamos de repetir, a distribuição contém em si toda a in-
formação acerca de θ que decorre do prior, do modelo, e dos dados observa-
dos. Com um computador à frente (ou uma tabela adequada) não podemos
pedir nada melhor. Se quisermos saber, por exemplo, qual é a probabili-
dade de θ estar entre 0.3 e 0.5, só temos que calcular P (θ ∈ [0.3, 0.5]|x =
R 0.5 θ6 (1 − θ)4 p(θ)
6, I) = 0.3 . Usando por exemplo, na linguagem de pro-
B(7, 5)dθ
gramação
Rt R, o comando pbeta(t, 7, 5) obtemos o valor da função cumulativa
0
Beta(7, 5)(t)dt. Basta-nos portanto escrever pbeta(0.5, 7, 5)−pbeta(0.3, 7, 5)
e obtemos que a probabilidade de θ estar em [0.3, 0.5] é de 0.25.
Nota 16. Para quem está habituado à estatı́stica clássica, é preciso talvez
frisar a situação, porque é tão diferente do usual: o parâmetro desconhecido
θ é de facto visto como uma variável aleatória; o resultado que obtemos
é exacto e válido seja qual for o tamanho da amostra - desde a primeira
11
observação; não há nenhum processo de limite ou aproximação válida apenas
para amostras grandes. E, desde que saibamos calcular o integral em causa,
temos a probabilidade exacta de θ estar em qualquer região que nos interesse.
1.4 Reduções de informação

Sendo certo que p(θ|xI) contém toda a informação, por vezes toda a in-
formação é informação demais; por vezes interessa-nos perder informação, e
isso é legı́timo desde que saibamos que o estamos a fazer. Por exemplo, é
habitual queremos reduzir o que sabemos acerca de θ a uma ”aposta”num
único valor, acrescida de um intervalo que represente a margem de erro. Isto
decorre de que com frequência não estamos interessados numa probabilidade
por pura curiosidade mas para tomar uma decisão. Se eu me decido a guardar
a minha moeda viciada na minha vasta colecção de moedas viciadas obsessi-
vamente catalogadas em função dos seus valores de θ, terei que apostar num
θ0 especı́fico, no caso discreto, ou numa gaveta que contém as moedas do tipo
θ0 ± δ no caso contı́nuo, já que não posso colocar p(θi |x) × 100 por cento da
moeda em cada gaveta i, por mais que me apeteça. e já agora gostaria de ter
uma ideia de quão provável será que a minha aposta esteja certa. Mais uma
vez, essa margem de erro pode ser calculada exactamente a partir do p(θ|x),
mas será útil ter uma aproximação qualquer que não me obrigue a calcular
o integral: todos sabemos como é aborrecido abrir o laptop quando estamos
no cinema e temos uma súbita vontade irreprimı́vel de calcular margens de
erro. Vamos então ver o que podemos dizer acerca de p(θ|x) de uma forma
frugal, passı́vel se ser escrita à mão nas cotas de um envelope.
Comecemos pelo caso discreto: A redução mais natural do caso discreto
consiste em escolher uma das três hipóteses. Naturalmente escolherı́amos a
que tem maior probabilidade posterior. Na prática, no entanto, a situação
pode não ser tão trivial. Aceitar uma hipótese em vez de outra pode incorrer
em custos que só se justificam se a hipótese fôr muito mais provável que
as demais. Por exemplo, imagine-se que uma moeda viciada de um tipo é
muito mais rara (e cara) do que a outra. Se eu a catalogar mal arrisco-me a
perder dinheiro se um dia resolver vendê-la. Então posso exigir uma evidência
maior do que um certo valor para estar convencido, senão exigirei que o teste
prossiga até o considerar ”significativo”. Uma forma de avaliar os resultados é
reduzir os dados de forma a comparar apenas uma hipótese contra as demais:
Por exemplo, na alı́nea a) do exemplo 14, posso tomar como referência a
hipótese θ3 , e considerar apenas a proposição θ = θ3 contra a sua negação
θ3 = θ1 ∨ θ2 , reduzindo assim o problema a um teste binário de θ3 contra não-
θ3 . Podemos então calcular o ”rácio das vantagens posteriores”(”posterior
odds”), O(θ3 |x) = p(θ3 |x, I)/p(θ3 |x, I) = 0.65/(0.15+0.2) = 1.85. Vemos que
os ”odds”posteriores de θ3 contra a sua negação favorecem θ3 por menos que
2 contra 1. Calculando os odds prévios O(θ3 |x) = p(θ3 |I)/p(θ3 ) = 4/(5+1) =
2/3 ≈ 0.67 vemos que o rácio das vantagens posteriores contra as prévias é
aproximadamente 1.85/0.67 = 2.8, ou seja, os lançamentos favoreceram θ3
12
contra a sua negação (mas não muito). Outro resumo interessante
consiste em
calcular a evidência posterior de θ3 , e(θ3 |x) = e(θ3 ) +10ln10 p(θ3 |x)/p(θ3 |x)
(ver Jaynes). Em qualquer dos casos vemos que isto são técnicas de resumo
da informação completa que está contida na função probabilidade posterior
f (θ) = p(θi |x, I). Além disso, qualquer decisão no sentido de aceitar uma
hipótese contra as demais terá que ser baseda num critério exterior à teoria
das probabilidades enquanto tal; se eu exijo ”odds”de 3 contra 1 ou de 1000
contra 1 para aceitar uma hipótese, isso é algo que diz respeito aos meus
objectivos e/ou aceitação de riscos, e não à teoria das probabilidades; uma
vez calculadas as probabilidades de cada θi , esta terminou o seu trabalho
legı́timo, sendo que o excedente diz respeito ao que se denomina por teoria
da decisão Bayesiana, que é uma estrutura suplementar que por agora não
nos diz respeito.
Caso contı́nuo: Neste caso toda a informação que temos é dada pela distri-
buição posterior
θ6 (1 − θ)4 p(θ)
p(θ|x = 6, n = 10, I) = Beta(7, 5) = (9)
B(7, 5)
Contemplemos de novo o gráfico de p(θ|x) = Beta(7, 5)(θ). Notamos que é
uma função suave, com um único máximo. Se eu quiser fazer uma aposta
acerca do valor verdadeiro de θ é razoável apostar no valor onde a densidade
é mais alta. Igualando a zero a derivada de uma distribuição Beta(a, b)(θ) ∝
θa−1 (1 − θ)b−1 obtemos
d
0 = (Beta(a, b))(θ) ∝ (a − 1)θa−2 (1 − θ)b−1 − (b − 1)θa−2 (1 − θ)b−2
dθ
a+b−2
∝ (a − 1)(1 − θ) − (b − 1)θ ∝ 1 − θ( ),
a−1
a−1
portanto o máximo de Beta(a, b) ocorre para θ = (ou, como x =
a+b−2
x
a − 1 e n = a + b − 2, para θ = ). No nosso caso particular, p(θ|x = 6, n =
n
10, I) = Beta(7, 5)(θ) tem um máximo em θ = 0, 6.
Mas será esta a melhor estimativa de θ? A verdade é que olhando melhor
para o gráfico vemos que a distribuição é mais ou menos simétrica em torno
do máximo, mas não totalmente (parece algo mais pesada à esquerda do
máximo). Sendo realistas, sabemos que provavelmente não vamos adivinhar
o valor exacto de θ, e se quisermos apostar num ponto que minimize o erro
quadrático esperado numa região simétrica ao seu redor, será mais interes-
sante escolher o valor médio, E(θ), do que o valor máximo. Como a média de
a
uma Beta(a, b) é E(Beta(a, b)) = , neste caso, θ0 = E(θ) = 7/12 = 0.58
a+b
seria a nossa estimativa (que nesta situação não é muito distante da original).
Esta hesitação entre duas estimativas é importante: ilustra que os estimado-
res do melhor parâmetro são sempre reduções de informação subordinadas
a um determinado propósito: quando alguém nos diz que uma estimativa é
13
a melhor, temos sempre de perguntar ”melhor para quê?”. Dependendo do
meu propósito poderei ter interesse em escolher o ponto de densidade máxima
ou o ponto correspondente ao valor esperado; a teoria das probabilidades não
pode escolher por nós, como já referimos isso pertence à teoria da decisão, e
àquilo que nela se denota por ”função utilidade”. Como ilustração simples
da função utilidade, se eu tiver que escolher duas portas, e uma delas tem
um prémio de 100 euros com probabilidade 0.7 e a outra tem um prémio de
1 euro com probabilidade 1, não é claro que a melhor escolha seja a porta
correspondente á probabilidade máxima. Se o meu objectivo fôr assegurar
que fico um euro mais rico, ou se fôr maximizar a espectativa de lucro total,
tomarei decisões opostas para probabilidades iguais. A teoria das probabi-
lidades só lida com o cálculo da informação em si - decidir o que fazer com
ela, ou como reduzi-la da ”melhor forma”, é o âmbito da teoria da decisão.
Nota 17. Em estatı́stica frequencista não temos acesso a p(θ|x, I), que não
está definida, e que se designa por ”estimadores”não são resumos de uma
função p(θ) mas funções sobre o espaço amostral que nos dão uma estima-
tiva de θ em função da amostra obtida. A informação é assim filtrada à par-
tida pelo estimador escolhido, e não temos acesso a um objecto ”original”que
nos permita perceber explı́citamente como é feita a redução da informação
disponı́vel (ou podemos ter, mas é um esquema ad-hoc que varia de caso
para caso). Em Bayesiana existe uma separação clara entre as hipóteses
(na forma de ”priors”e ”modelos”), as conclusões (”posteriors”) e as de-
cisões ou resumos de informação; em estatı́stica clássica enunciam-se ainda
explı́citamente os modelos mas os demais conceitos são indistinguı́veis, sendo
implicitamente determinados pela escolha ad-hoc de espaços amostrais, esti-
madores, e testes de vários tipos, não sendo possı́vel em geral explicitar de
uma forma única e clara quais as hipóteses que estão a ser feitas em termos
puramente probabilisticos.
Escolhida uma estimativa, como obter um intervalo em torno desta? De

novo existem várias formas de obter um intervalo estimado. Posso por exem-
plo pedir um intervalo simétrico em torno da estimativa pontual, que conte-
nha um certo valor de probabilidade. Quero portanto obter δ tal que
Z θ0 +δ
P (θ0 − δ < θ < θ0 + δ) = p(θ|x)dθ = ζ,
θ0 −δ
onde ζ será o valor que me deixa feliz, por exemplo ζ = 0.95 se eu não
gostar muito de correr riscos. O valor de δ pode ser obtido exactamente por
integração numérica, ou pode ser de novo estimado. Um estimador não muito
preciso mas válido em casos muito gerais é o que decorre da desigualdade de
Chebyshev:
Proposição 18. Seja X variável aleatória com função de massa de proba-

bilidade P , com valor esperado E(X) = µ e variância finita V (X) = σ 2 .
14
Então, para qualquer real k > 0,
1
P (|X − µ| ≤ kσ) ≥ 1 − .
k2
Tomemos k = 2. Então o teorema diz que a probabilidade de X estar no
intervalo
√ µ ± 2σ é pelo menos√ 1 − 1/k 2 = 3/4. Da mesma forma, fazendo k =
2, vemos que θ está em µ ± 2σ com probabilidade pelo menos igual 1/2, e
que está em µ±3σ com probabilidade maior ou igual a 8/9. Esta desigualdade
é válida para qualquer distribuição com variância finita e é mesmo optima
para o conjunto total dessas distribuições, mas por isso mesmo não pode ser
optima para cada distribuição individual a que se aplica. Aplicando este
resultado ao nosso caso: a ”variável aleatória”em questão é o θ condicionado
a x, I, com a distribuição f (θ) = p(θ|x, I) = Beta(7, 5)(θ) e respectiva função
de massa de probabilidade, P . Já vimos que E(θ|x, I) = a/(a + b) = 0.58.
Além disso
ab (x + 1)(n − x + 1)
V ar(Beta(a, b)) = = ,
(a + b)2 (a + b + 1) (n + 2)2 (n + 3)
portanto V (θ|x, I) = V (Beta(7, 5)) = 0.019, e σ = 0.14. Então, conhecendo
(x = 6, n = 10, I), θ está contido em 0.58±2×0.14 = [0.3, 0.86] com probabi-
lidade pelo menos igual a 3/4. Aproveitamos para notar que esta estimativa
está de facto longe de ser optimal: Calculando directamente oRintegral da dis-
0.86
tribuição posterior de θ, vemos que P (θ ∈ [0.3, 0.86]|x, I) = 0.3 p(θ|x, I) =
0.97, o que é algo superior a 3/4 = 0.75. Outra aproximação possı́vel consis-
tiria em fazer a expansão em séries de potências de log(p(θ|x, I)) em torno
do seu máximo, obtendo uma aproximação gaussiana. A esse propósito ver
Jaynes, páginas 112 e 113. Por vezes é usual dar como resumo de uma
distribuição o intervalo θ0 ± σ. Isto não é feito porque esse intervalo seja
particularmente ”bom”como estimativa, mas sim como uma forma prática
de enunciar a média e desvio padrão, que depois podem ser utilizadas para
calcular outros intervalos, por exemplo por utilização da desigualdade de
Chebyshev ou pela aproximação normal.
Se estivermos dispostos a investir um pouco mais de esforço de cálculo
podemos obter intervalos, ou regiões, que expressam com mais detalhe as
propriedades da distribuição especı́fica que estamos a usar. Por exemplo,
podemos fazer a seguinte definição:
Definição 19. Uma região
R R(x) do domı́nio de θ diz-se uma região de cre-
dibilidade δ para θ se R(x) p(θ|x, I)dθ ≥ δ
Ou seja, é uma região (obviamente em geral não-única) que contém pelo

menos probabilidade δ de θ estar contido nela, sabendo x. Podemos ser mais
exigentes e pedir uma região de credibilidade ”elitista”, onde não entram
pontos de probabilidade baixa; mais especificamente, onde os pontos mais
baixos da região são pelo menos tão altos como os pontos mais altos que são
dela excluı́dos:
15
Definição 20. Diz-se que uma região R(x) de credibilidade δ é um domı́nio
de (densidade de) probabilidade posterior máxima (”Highest posterior density
region”ou ”HPD region”) se
p(θ1 |x, I) ≥ p(θ2 |x, I) ∀θ1 ∈ R(x), θ2 6∈ R(x)
Por exemplo, se uma distribuição tiver dois máximos relativos, uma HPD
poderá consistir de duas regiões disjuntas, uma em torno de cada pico,
sendo perfeitamente possı́vel que o valor esperado da distribuição não per-
tença à HPD; pelo contrário, o(s) máximo(s) absoluto(s) pertence(m) ne-
cessáriamento à HPD.
Nota 21. Continuando o trabalho da página 15, podemos usar a lingua-
gem R para calcular intervalos de credibilidade. A função qbeta(c(l, u), 7, 5)
dá-nos um intervalo que deixa de fora uma probabilidade l à esquerda e u
à direita. Então qbeta(c(1/8, 7/8), 7, 5) dá-nos um intervalo que tem exac-
tamente probabilidade 3/4 de conter θ. Executando o comando obtemos
que [0.42, 0.74] é um intervalo de credibilidade a 75 por cento. Executando
qbeta(c(0.025, 0.975), 7, 5) obtemos que [0.31, 0.83] é um intervalo de credibi-
lidade a 95 por cento. Note-se que estes intervalos não estão centrados na
estimativa do máximo, mas estão construı́dos de forma a deixarem de fora
intervalos de probabilidade simétricos nos dois extremos.
Nota 22. É necessário distinguir os domı́nios de credibilidade dos ”intervalos
de confiança”da estatı́stica frequencista. Além de, em geral, as regiões em
causa poderem diferir, as suas interpretações são sempre distintas. Como
é repetidamente frisado em estatı́stica clássica, não se pode dizer que θ tem
uma probabilidade de 0.95 de estar contido num intervalo de confiança, pois
θ não é uma variável aleatória, é um valor fixo. Tudo o que se pode dizer é
que o intervalo de confiança é ele sim aleatório, e, para um número grande de
amostras, os intervalos de confiança gerados pelas amostras conterão o valor
de θ 95 em cada 100 vezes. Pelo contrário, em probabilidades Bayesianas, θ
é de facto uma variável aleatória, e um intervalo ou região de credibilidade
0.95 é de facto uma região que tem uma probabilidade 0.95 de conter o valor
real de θ. O facto de θ ser uma variável aleatória não contradiz o facto de
que θ é um valor fixo, apenas expressa a nossa ignorância acerca desse valor.
Nota 23. Para complicar mais as coisas, há alguns autores que se referem
aos intervalos de credibilidade usando o termo intervalo de confiança (Sivia,
por exemplo). Em alguns casos isso é uma tentativa de evitar a proliferação
de novos termos, ou uma tentativa de apropriação do termo clássico; noutros
deriva do facto de que a interpretação algo elaborada do termo clássico (que
sempre deu dores de cabeça a alunos e professores) nunca teve grande su-
cesso, sendo sabido que apesar dos avisos infinitamente repetidos nos cursos
básicos de estatı́stica sempre foi um erro comum interpretar um intervalo de
confiança da forma que - correctamente - se interpreta uma região de credibi-
lidade. Na opinião deste autor, o simples facto de podermos de uma vez por
16
toda abandonar os contorcionismos da interpretação clássica dos intervalos
de confiança é motivo que chegue para migrar para o Bayesianismo. Não é
no entanto justificação para confundir conceitos distintos.
É inevitável discutir neste momento uma objecção levantada pelos clássicos:
Vimos que toda a inferência Bayesiana se resume a tomar como hipótese
uma distribuição prévia p(θ|I) e um modelo p(x|θ, I), aplicar o teorema de
Bayes e obter o posterior p(θ|x, I). As vantagens são inegáveis, pois obtemos
uma descrição total da probabilidade do parâmetro, em vez de estarmos li-
mitados a estimativas; além disso não precisamos de teoremas de limite ou
aproximações, obtemos resultados exactos mesmo para amostras arbitrari-
amente pequenas, e intervalos que são probabilidades e não ”intervalos de
confiança”de interpretação questionável. Mas a isto os clássicos levantam a
seguinte objecção: de onde vem a distribuição prévia? Argumenta-se que o
”prior”é, ou pode ser, arbitrário, e que isso torna a análise subjectiva. De
onde vem, então, o ”prior”? Pode vir de várias fontes. Por exemplo, pode
ele próprio vir de observações - o posterior de uma análise torna-se o prior
da seguinte - mas de novo temos que perguntar de onde vinha o prior da
análise anterior. A verdade é que em algum momento tem que haver um
prior que é simplesmente postulado. Sendo assim, isto torna a análise de
facto ”subjectiva”? A resposta é ”sim”se acharmos que ”subjectivo”significa
assumir algo que não decorre das observações. No entanto, do ponto de vista
da ”probabilidade enquanto lógica generalizada”, vemos a fonte do equı́voco
de forma clara: na lógica também não é possı́vel deduzir resultados não-
tautológicos sem fazer hipóteses iniciais. ”Prior”não é mais do que o termo
probabilistico para denominar as hipóteses iniciais que têm obrigatoriamente
que ser feitas para iniciar um raciocı́nio não-tautológico. Se é assim em
lógica, e se a probabilidade se reduz à lógica, então não há como evitá-lo. Da
mesma forma segue daqui que, se em algum sentido a probabilidade é por
isso ”subjectiva”, então temos que dizer que nesse mesmo sentido exacto a
lógica também terá que ser ”subjectiva”; no entanto isto nunca é alegado.
De facto, o que torna a lógica (e a probabilidade) ”objectiva”não é que ela
possa prescindir de fazer hipóteses inicias (não pode) mas que os raciocı́nios,
uma vez feitas essas hipóteses, fiquem unicamente determinados pelas regras
de inferência que consideramos válidas. A lógica (respectivamente, a proba-
bilidade) dá-nos uma forma única de raciocinar sobre hipóteses, mas deixa
a colocação de hipóteses iniciais (respectivamente, ”priors”) estritamente a
cargo do utilizador. É perfeitamente possı́vel em lógica postular hipóteses
que são contraditórias, ou que não modelam o porblema correctamente. Da
mesma forma tal será também possı́vel em probabilidades. A regra de ouro,
como sempre, é ”garbage in, garbage out”.
Segue-se então a pergunta natural: Se as hipóteses são de facto inevitáveis,
como é que a estatı́stica clássica faz então raciocı́nios que não usam priors?
Como consegue então fazer inferência sem fazer hipóteses iniciais? A resposta
é que, logicamente, não o faz, apenas aparenta fazê-lo. A estatı́stica clássica,
ao contrário da lógica e da probabilidade Bayesiana, não separa claramente
17
as hipóteses das regras de inferência. As conclusões que infere dependem, não
de priors explı́citos, mas do tipo de ”teste estatı́stico”, ”regra de paragem”,
”estimador”, ou demais aparalhegam ad-hoc, que o investigador resolve usar.
Pode mostrar-se que alguns desses métodos correspondem a escolher um
dado prior, e que outros são até mesmo ilógicos e contraditórios quando
levados a casos limite. Pode-se portanto dizer que em ambos os casos temos
que usar priors (hipóteses prévias), e que o formalismo Bayesiano tem a
vantagem de fornecer regras claras de inferência utilizáveis da mesma forma
em todos os casos, e de nos obrigar a explicitar claramente a hipóteses, na
forma de priors, logo no inı́cio do nosso raciocı́nio. Uma grande parte da má
reputação da estatı́stica entre os leigos (”there are three kinds of lies: lies,
damned lies, and statistics”) decorre do facto de que em estatı́stica clássica
é notoriamente fácil manipular o resultado de certas inferências por escolha
adequada de método inferencial - em grande parte isto decorre de que há
hipóteses que estão escondidas pela escolha de método, e que mesmo com
boa vontade o utilizador não sabe como explicitar. No formalismo Bayesiano
somos obrigados a mostrar o jogo à partida.
Note-se, finalmente, que é inconsistente que existam objecções à escolha de
um prior p(θ|I), mas que não haja objecções à escolha de um modelo p(x|θ, I).
A verdade é que se tomarmos atenção à dedução de um modelo (para o
lançamento de uma moeda, extracção de uma bola, etc ) vemos que, ou
o próprio modelo é uma hipótese (bastante mais complexa, em geral, que
um prior) sobre a forma como determinado aspecto do mundo funciona e se
relaciona com as probabilidades, ou pelo menos obriga a uma tal hipótese
prévia ao longo da sua dedução: por exemplo, leia-se com atenção a dedução
de Jaynes para o modelo hipergeométrico e note-se que temos que fazer a
hipótese ”arbitrária”de que a cor das bolas não afecta as probabilidades de
extracção. Colocar hipóteses não é um crime, é a única forma que temos de
modelar um problema. É um mero acidente histórico e hábito adquirido que
o estatı́stico clássico está disposto a fazer hipóteses claras sobre os modelos
mas não sobre os parâmetros - e que isso o impede de fazer determindados
raciocı́nios inferencias, e que o leva a fazer outros em que os priors estão
presentes mas escondidos.
Notamos ainda que os priors, desde que sejam suficientemente gerais, estabe-
lecem apenas uma hipótese inicial que é totalmente alterável pela experiência.
Se eu assumi algo de totalmente errado acerca de p(θ|I), um número sufi-
cientemente grande de lançamentos da moeda acabará por me fazer mudar
de ideias. Nesse sentido também, pode-se dizer que a análise é objectiva:
Duas pessoas que comecem com priors distintos acabarão por concordar nas
suas inferências se fizerem suficientes observações. Podemos ainda analisar
um problema tendo em conta uma famı́lia de priors. Se um grupo de inves-
tigadores não concorda no prior a tomar, mas concorda que o prior correcto
pertence a uma determinada famı́lia, o formalismo de inferência pode actuar
sobre toda a famı́lia de priors e obter a famı́lia de conclusões a tirar sobre
o posterior do parâmetro θ, permitindo que os vários grupos de investigado-
18
res percebam objectivamente até que ponto é que se mantém ou não a sua
divergência de opiniões quando fazem as mesmas observações para priors dis-
tintos. Esta é a noção de objectividade de raciocı́nio que decorre da lógica:
não é que não se façam hipóteses, ou que se tenha que concordar acerca
das hipóteses a fazer, mas sim que vários investigadores concordem sobre as
conclusões a tirar para cada conjunto de hipóteses e cada conjunto de ob-
servações. Abordaremos estes tópicos em detalhe, e de forma mais concreta,
nos exercı́cios da próxima secção.
19

Introdução à Probabilidade e Estatística Bayesianas

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Introdução à Probabilidade e Estatística Bayesianas

Enviado por

Direitos autorais:

Formatos disponíveis

21073 - Introdução à Probabilidade e Estatı́stica Bayesianas

(Texto de apoio - Novembro de 2010 - António Araújo)

Tomámos até agora conjuntos indexantes finitos. Tendo os devidos cui-

Definição 7. Seja X ⊂ Rn . Chama-seR densidade de probabilidades sobre X

Definição 8. Seja f uma densidade de probabilidades sobre X. Chama-se

No caso de conjuntos indexantes em R ou Z, costuma ter-se em conta a

1.2 Regra de Bayes e inferência

p(x|θk , I)p(θk |I)

Se θ é um parâmetro contı́nuo, passamos ao limiteRe, denotando por p(θ|I)

A ”fórmula de Bayes”pode ser vista como uma maneira de aprender com

Note-se a simetria das expressões da fórmula de Bayes. No membro esquerdo

Definição 12. Dada uma variável aleatória descrita por um modelo x 7→

Lx0 (θ) = p(x0 |θ, I)

(quando o ponto x é entendido pelo contexto, é usual denotar a verosimi-

O termo do denominador serve apenas para normalizar a função de proba-

p(θ|x, I) ∝ Lx (θ)p(θ|I) (4)

Ou seja, a probabilidade de θ é ”actualizada”pela observação de x através

p(x1 x2 |θi I) = p(x2 |x1 θi I)p(x1 |θi I)

Se a probabilidade x2 sabendo θ for independente de x1 , ou seja, se p(x2 |x1 θI) =

p(x1 · · · xn |θi I)p(θi |I)

(Atenção ao abuso de notação: não estamos a fazer o produto numérico das

Eliminámos assim o parâmetro θ, obtendo a distribuição/densidade de pro-

1.3 Estimação de parâmetros

p(x0 |θ, I)p(θ|I)

Em termos técnicos, o cálculo do integral pode ser complicado, e é frequente-

p(θi |x = 6, I) = p(θi |x) = p(x|θi )p(θi )/p(x) = K(θi )6 (1 − θi )4 p(θi )

onde K é idêntico para todos os i. Portanto, p(θ1 |x = 6, I) = K0.36 (1 −

p(θ1 |x = 6, I) = 0.15, p(θ2 |x = 6, I) = 0.20, p(θ3 |x = 6, I) = 0.65.

Como referimos anteriormente, os integrais do denominador podem ser difı́cies

O integral do denominador pode ser escrito em termos de factoriais. É um

Nota 15. Este gráfico foi feito na linguagem de programação R, com os

1.4 Reduções de informação

Escolhida uma estimativa, como obter um intervalo em torno desta? De

Proposição 18. Seja X variável aleatória com função de massa de proba-

Ou seja, é uma região (obviamente em geral não-única) que contém pelo

p(θ1 |x, I) ≥ p(θ2 |x, I) ∀θ1 ∈ R(x), θ2 6∈ R(x)

Você também pode gostar