Você está na página 1de 19

21073 - Introdução à Probabilidade e Estatı́stica Bayesianas

(Texto de apoio - Novembro de 2010 - António Araújo)

1 Inferência Bayesiana
1.1 Variáveis aleatórias
Realizada a axiomatização da probabilidade como extensão da lógica, já
possuı́mos todas as ferramentas para fazer inferências: teste de hipóteses,
estimação de parâmetros, selecção de modelos. No entanto vamos introduzir
nesta secção algumas notações e ferramentas; algumas porque simplificam
muito a linguagem, permitindo enumerar proposições de uma forma mais
simples, outras porque são notações historicamente inescapáveis e que temos
que conhecer para nos relacionarmos com a literatura tal como ela existe,
ainda que, num mundo ideal, preferissemos fazê-lo de outra forma.
Há dois avisos a fazer: o primeiro é no sentido de que não estamos a
introduzir conceitos de base novos; tudo o que se segue é, em última análise,
redutı́vel aos conceitos já introduzidos. Toda a inferência que faremos de-
corre meramente dos axiomas que já aprendemos. O segundo diz respeito ao
termos ”aleatório”, que carrega uma carga histórica pesada. No nosso con-
texto, esse termo tem meramente o significado técnico referente à definição
3 (”variável aleatória”), e não significa mais do que uma abreviatura para
enunciar que aos valores de uma certa variável vamos atribuir probabilida-
des; ou dito de outra forma, trata-se de uma esquema de indexação numérica
de proposições. Não se faz, em probabilidades Bayesianas, como se faz em
probabilidades frequencistas, qualquer distinção entre ”valores fixos mas des-
conhecidos”e valores que são ”variáveis aleatórias”. Se uma quantidade é fixa
mas desconhecida, nada nos impede de lhe atribuir uma probabilidade de to-
mar um certo valor, e portanto ela passará a ser, no contexto da definição
3, uma variável aleatória. Ao chamar a um valor ”aleatório”, estamos mera-
mente a declarar a nossa ignorância acerca desse valor, e a declarar que lhe
vamos atribuir probabilidades - e não a atribuir à variável, ou ao fenómenos
que descreve, qualquer propriedade intrinseca especial, de natureza fı́sica ou
não. No fundo o termo histórico tem uma semântica infeliz, obrigando-nos
por vezes a chamar ”variável aleatória”a uma ”constante desconhecida”. O
leitor evitará ficar confundido se em cada momento se recordar que tudo
não passa de um esquema para ordenar proposições que se referem valores
numéricos, e tiver sempre em mente que o formalismo lógico/probabilı́stico
que já estudou se aplica indistintamente a ambos os casos.
Definição 1. Seja X um conjunto finito. Chama-se distribuição
P de proba-
bilidades sobre X a uma função f : X → [0, 1] tal que x∈X f (x) = 1.
Proposição 2. Seja Qx um conjunto de proposições, indexado numa variável
x ∈ X, X conjunto finito, tal que, condicionado à proposição I, uma e uma
só das proposições
P Qx é verdadeira, isto é, p(Qx Qy |I) = δij p(Qx |I) para
x, y ∈ X, x∈X p(Qx |I) = 1. Seja f : X → [0, 1] definida por f (x) =
p(Qx |I). Então f é uma distribuição de probabilidades sobre X.
Definição 3. Nas condições do enunciado anterior, dizemos que ”x é uma
variável aleatória de distribuição f ”, ou escrevemos ainda, simplesmente x ∼
f (x).
Exemplo 4. Suponhamos que temos um sólido com seis faces planas, não
necessariamente iguais, e que o lançamos no ar, caindo ele sobre um solo
plano. Sabemos que uma e uma só das suas faces vai ficar assente no chão.
Podemos identificar as faces por alguma propriedade que as distinga, seja a
côr ou outra caracterı́stica qualquer, e teremos assim um conjunto de seis
proposições do tipo ”Esta face especı́fica vai ficar assente no chão”, sendo
que uma e apenas uma das proposições será verdadeira. A forma mais fácil
de identifcar as faces será provavelmente numerá-las, de 1 até 6. Temos as-
sim as proposições Qx , x ∈ X = {1, 2, 3, 4, 5, 6} definidas por Qx =”O sólido
vai cair com a face x virada para baixo”. Note-se que podı́amos ter esco-
lhido qualquer outro X com seis elementos, e que mesmo escolhido este X
podemos identificar cada face com um número de 6! = 720 formas diferentes.
Mas uma vez escolhido X = {1, 2, 3, 4, 5, 6} e uma identificação especı́fica
para cada face, o conjunto das proposições Qx verifica a propriedade de que
uma e apenas uma delas é verdadeira, e cada uma das proposições está iden-
tificada com o número x que designa a face correspondente, pelo que podemos
codificar a informação sobre as probabilidades dos Qx definindo uma função
distribuição de probabilidade, f (x) = p(Qx |I), x ∈ X. Referimo-nos a esta
situação dizendo que ”x é uma variável aleatória de distribuição f ”.
Nota 5. Como vimos no exemplo, afirmar que ”x é uma variável aleatória de
distribuição f ”, no contexto de um problema concreto, subentende sempre um
enunciado em que é explicado qual é a informação prévia, quais são as pro-
posições em causa, e como é que elas são identificadas com elementos de X.
Quando essa informação não é dada, dizer ”x é uma variávelP aleatória de dis-
tribuição f ”não é mais do que dizer ”f é uma função tal que x∈X f (x) = 1 e
vamos referir-nos aos elementos do seu domı́nio pela letra x”. O propósito do
conceito de ”variável aleatória”e ”distribuição de probabilidade”é meramente
notacional: permite que identifiquemos proposições com valores numéricos
que as identificam. Vamos abusar livremente desta notação. Não teremos
problemas em escrever p(x, y|I) para denotar p(Qx Qy |I), por exemplo. Iden-
tificamos os valores de ı́ndice com as proposições sempre que o contexto nos
pareça claro, sendo sempre possı́vel regressar à notação proposicional em
caso de ambiguidade (o leitor deverá fazer esse exercı́cio de linguagem com
cuidado no inı́cio).
Tal como os próprios Qx , as proposições condicionantes I podem também
elas ser identificadas com elementos de um conjunto indexante adequado. Por
exemplo, suponhamos que há k proposições Ik , e que conhecemos p(Qx |Ik )

2
para cada Ik , e que sabemos além disso que um e apenas um dos Ik é ver-
dadeiro. Podemos então identificar, como fizemos com o Qx , cada um dos Ik
com um certo elemento θ de um conjunto Θ ∈ Z com k elementos, e podemos
definir k distribuições de probabilidades, fθ , θ ∈ Θ, tais que fθ (x) = p(Qx |Iθ ).
Diz-se então habitualmente que x é uma variável aleatória distribuida se-
gundo a famı́lia fθ , e a θ chama-se o ”parâmetro”da distribuição de x. É
então habitual usar a notação f (x|θ) = p(Qx |Iθ ), identificando assim, tanto
os Qx como os Iθ com os seus identificadores numéricos.

Exemplo 6. Digamos que temos uma moeda, e que ela pode ser de um de
dois tipos (não sabemos qual) e que, consoante o tipo de moeda, verifica-se
uma e uma só das seguintes situações:
I1 : O número de caras x que saem em 10 lançamentos
 x 10−xé uma variável
10
aleatória distribuida pela função binomial x ∼ x 0.3 0.7 ,
I2 : O número de caras x que saem em 10 lançamentos
 x 10−x uma variável

10
aleatória distribuida pela função binomial x ∼ x 0.7 0.3 ,
Então podemos identificar as proposições I1 e I2 com os valores 0.3 e 0.7,
e, designando esses valores pela variável θ ∈ Θ = {0.3, 0.7}, afirmar que
”x é uma variável aleatória distribuida segundo uma binomial de parâmetro
θ ∈ Θ”, ou que x tem distribuição f (x|θ) = 10 x
θx (1 − θ)10−x com parâmetro
θ ∈ Θ = {0.3, 0.7}.

Tomámos até agora conjuntos indexantes finitos. Tendo os devidos cui-


dados com convergência nas passagens ao limite, nada nos impede de indexar
proposições em conjuntos discretos infinitos, ou mesmo uniões de intervalos
de R, regiões de Rn , ou ainda conjuntos mais gerais onde exista uma medida
adequada.
Enunciamos as definições básicas para o caso de uma região de Rn e
deixamos os demais detalhes ao cuidado do leitor:

Definição 7. Seja X ⊂ Rn . Chama-seR densidade de probabilidades sobre X


a uma função f : X → [0, 1] tal que x∈X f (x)dx = 1.

Definição 8. Seja f uma densidade de probabilidades sobre X. Chama-se


função
R de massa de probabilidade à função F definida por Y → F (Y ) =
Y
f (y)dy.

No caso de conjuntos indexantes em R ou Z, costuma ter-se em conta a


ordenação natural desses conjuntos, e definir-se através dela a ”função cumu-
lativa de probabilidade”, que é a função de massa de probabilidade avaliada
em [0, x], ou seja é a função x0 → p(x ≤ x0 |I), que dá a probabilidade de x
ser menor ou igual a um certo valor.
Dado um conjunto indexante X onde se define uma densidade de proba-
bilidade, identificamos, não necessariamente cada ponto, mas sim cada região
de medida não-nula com uma proposição correspondente. Por exemplo, po-
demos considerar que a proporção de oxigénio na atmosfera é uma variável

3
aleatória definida no intervalo X = [0, 1], com uma certa densidade de pro-
babilidade f e função de massa F . Identificamos uma região Y ⊂ X com a
proposição QY = ”a proporção de oxigénio na atmosfera é um dos R valores
contidos na região Y ”, Por exemplo, se Y = [0.2, 0.6], p(QY |I) = Y f (x)dx
é a probabilidade da proporção de oxigénio na atmosfera estar entre 20 e 60
por cento.
Nota 9. Vamos cometer o abuso de notação comum, bastante prático mas
que pode ser perigoso para o principiante, de denotar, no caso contı́nuo,
a função densidade por p(x|θ), tal como a própria função probabilidade.
Obviamente, se X é uma região, p(X|θ) corresponde à função de massa ava-
liada em X, ou seja à probabilidade da proposição correspondente, p(QX |θ),
pelo que o contexto deverá ser suficiente. Em caso de dúvida suplementar
poderemos usar a maiúscula P para denotar a função de massa.

1.2 Regra de Bayes e inferência


Consideremos então uma variável aleatória x ∈ X, isto é, uma certa quanti-
dade x cujo valor desconheço mas que sei que é um e um só valor contido em
X. Suponhamos ainda que eu tenho um ”modelo”para x, que depende de
um parâmetro θ. Quando dizemos que temos um modelo, queremos com isso
dizer que conhecemos uma certa função que, sabendo o valor de θ, diz-me
qual a probabilidade de x tomar um certo valor; Isto é, ter um modelo para
x com parâmetro θ, é o mesmo que saber atribuir p(x|θ) para cada valor de
x e θ.
Exemplo 10. A probabilidade de obter um número x de bolas bolas bran-
cas em n extracções de uma ”urna infinita”em que  o rácio n−x
de bolas bran-
n x
cas para bolas pretas é θ, é igual a p(x|θI) = x θ (1 − θ) . Ou seja,
x ∼ Binomial(θ). Podemos expressar isto dizendo que o número de bolas
brancas em n extracções é uma variável aleatória regida por um ”modelo
binomial”.
Portanto, saber θ permite-nos saber a probabilidade de x. Mas suponhamos
que θ é desconhecido. Será que saber x permite-me saber algo sobre θ?
Por aplicação da regra do produto, e da comutatividade do produto lógico,
podemos ”inverter a ordem”de θ com a de ”x”, passando x a ser a proposição
condicionante e θ a condicionada:
p(θx|I) p(xθ|I) p(x|θI)p(θ|I)
p(θ|xI) = = =
p(x|I) p(x|I) p(x|I)
Obtemos assim que
p(x|θI)p(θ|I)
p(θ|xI) =
p(x|I)
Chama-se a este resultado o ”teorema de Bayes”. Se θ for um
P parâmetro dis-
creto, podemos expandir o denominador na forma p(x|I) = i p(x|θi , I)p(θi |I),

4
onde a soma é sobre todos os valores possı́veis (e logicamente disjuntos) de
θ. Para cada θk obtemos, pelo teorema de Bayes,

p(x|θk , I)p(θk |I)


p(θk |x, I) = P (1)
i p(x|θi , I)p(θi |I)

Se θ é um parâmetro contı́nuo, passamos ao limiteRe, denotando por p(θ|I)


a densidade de probabilidade de θ, temos p(x|I) = p(x|θ, I)p(θ|I)dθ, e

p(x|θ, I)p(θ|I)
p(θ|x, I) = R (2)
p(x|θ, I)p(θ|I)dθ

A ”fórmula de Bayes”pode ser vista como uma maneira de aprender com


a observação. De facto, diz-nos que se conhecermos o modelo p(x|θ, I), e
a p(θ|I), e se observarmos um novo dado, x, então podemos actualizar o
nosso conhecimento de θ, obtendo p(θ|x, I). Neste contexto, como p(θ|I)
é o que conhecı́amos antes da observação de x, usa-se o termo ”probabili-
dade prévia”para p(θ|I) (em inglês, ”the prior”) e denomina-se p(θ|x, I) por
”probabilidade posterior”(em inglês, ”the posterior”).

Nota 11. Para a probabilidade prévia usa-se por vezes também o termo
”probabilidade a priori”e para a probilidade posterior usa-se por vezes ”a
posteriori”. O primeiro destes termos tem uma semântica infeliz, que só em
certos casos é adequada. Sugere que o ”prior”é sempre algo que se assume
”do nada”ou ”de primeiros principios”, o que é falso em geral; basta ver
que o ”prior”de uma análise pode ser o ”posterior”da análise anterior. Os
termos ”prévio”e ”posterior”só fazem sentido como termos relativos à dispo-
nibilização da informação x (portanto ”prévio a x”, ”posterior a x”; mas ”a
priori a x”não faz sentido pois ”a priori”é um termo absoluto).

Note-se a simetria das expressões da fórmula de Bayes. No membro esquerdo


p(θ|x) é uma função de θ para x fixo. No numerador do membro direito,
p(x|θ) é a expressão do modelo, mas avaliada no x fixo, e vista como função
de θ. Da mesma forma, no denominador, essa função de θ é somada (ou
integrada) para todos os valores de θ. Essa função do parâmetro θ que se
obtém do modelo de x é denominada a ”função verosimilhança”de θ (em
inglês, ”the likelihood of θ”).

Definição 12. Dada uma variável aleatória descrita por um modelo x 7→


p(x|θ, I) dependente de um parâmetro θ, e dado um valor fixo x0 de x, a
função verosimilhança de θ dado x = x0 é a função Lx definida por

Lx0 (θ) = p(x0 |θ, I)

(quando o ponto x é entendido pelo contexto, é usual denotar a verosimi-


lhança de θ apenas por L(θ)). É importante notar que a função verosimi-
lhança não é uma distribuição de probabilidades. Não há motivo para que

5
P
i L(θi ) = 1, nem para que L(θi + θj ) = L(θi ) + L(θj ). Em termos da função
verosimilhança a fórmula de Bayes escreve-se assim:

Lx (θ)p(θ|I)
p(θ|x, I) = R (3)
Lx (θ)p(θ|I)dθ

O termo do denominador serve apenas para normalizar a função de proba-


bilidade posterior, portanto o que é verdadeiramente interessante (e válido
tanto no caso discreto como contı́nuo) é que

p(θ|x, I) ∝ Lx (θ)p(θ|I) (4)

Ou seja, a probabilidade de θ é ”actualizada”pela observação de x através


do produto da probabilidade prévia de θ pela verosimilhança de θ dado x. A
fórmula de Bayes permite-nos portanto ”aprender”através da observação de
x.
Isto pode ser iterado. Suponhamos agora que tı́nhamos observado que as
variáveis x1 e x2 tomavam determinados valores (por exemplo, podemos estar
a falar de extracções sucessivas de uma urna, lançamentos de uma moeda,
etc). Então, substituindo x pelo produto (lógico) de x1 x2 na fórmula de
Bayes obtemos
p(x1 x2 |θi I)p(θi |I)
p(θi |x1 x2 ) =
p(x1 x2 |I)
Expandindo o numerador temos

p(x1 x2 |θi I) = p(x2 |x1 θi I)p(x1 |θi I)

Se a probabilidade x2 sabendo θ for independente de x1 , ou seja, se p(x2 |x1 θI) =


p(x2 |θ), temos
p(x2 |θI)p(x1 |θI)p(θi |I)
p(θi |x1 x2 ) =
p(x1 x2 |I)
E, em geral, para n variáveis:

p(x1 · · · xn |θi I)p(θi |I)


p(θi |x1 · · · xn I) = P
j p(x1 · · · xn |θj I)p(θj |I)

(Atenção ao abuso de notação: não estamos a fazer o produto numérico das


variáveis xi , estamos a identificar os xi com as proposições correspondentes
Qxi , e a denotar Qx1 ∧ . . . ∧ Qxn por x1 . . . xn ). Se além dissoQas variáveis
aleatórias xi , i ∈ {1, . . . , n} forem tais que p(x1 , . . . , xn |, θ, I) = ni=1 f (xi |θ),
onde x → f (x|θ) é uma distribuição de probabilidades, (por exemplo se os xi ,
condicionadas a θ, forem ”variáveis aleatórias independentes e identicamente
distribuidas”) teremos
Qn
k=1 f (xk |θi )p(θi |I)
p(θi |x1 · · · xn I) = P Q n (caso discreto)
j k=1 f (xk |θj )p(θj |I)

6
Qn
f (xi |θ)p(θ|I)
p(θ|x1 · · · xn I) = R Qni=1 (caso contı́nuo)
k=1 f (xk |θ)p(θ|I)dθ
Imaginemos que estamos a observar um processo que resulta numa sequência
de observações x1 , x2 , . . . , com probabilidades dependentes de um parâmetro
θ. Já vimos que pela regra de Bayes, à medida que observamos os xi , vamos
obtendo conhecimento sobre o valor de θ. Mas isto por sua vez leva-nos a
poder prever melhor o valor do próximo xi . Podemos ver a situação desta
forma: a incerteza acerca de xn+1 decorre por um lado do facto de que xn+1
é uma variedade aleatória, mas por outro lado pelo facto de que o próprio
parâmetro θ é ele também desconhecido, sendo portanto também ele uma
variável aleatória que aumenta a nossa incerteza.
A fórmula de Bayes, já vimos, permite-nos ”ir descobrindo”o valor de θ à
medida que observamos os xi . Mas se o que me interessa é o valor de xn+1 ,
posso simplesmente notar que
Z
p(xn+1 |x1 · · · xn I) = p(xn+1 |x1 , . . . , xn θ)p(θ|x1 · · · xn I)dθ
Θ
E portanto, se os xi são independentes sabendo θ,
Z
p(xn+1 |x1 · · · xn I) = p(xn+1 |θ)p(θ|x1 · · · xn I)dθ
Θ

Nota 13. Uma menemónica engraçada para quem conheça a notação ”Bra-
Ket”de Dirac para a mecânica quântica (os demais farão melhor em igno-
rar isto): Represento
R as probabilidades apenas por (x|I) em vez de p(x|I).
DepoisR faço |θ)(θ|dθ = 1. REntão (xn+1 |x1 , . . . xn ) = (xn+1 |1|x1 , . . . xn ) =
(xn+1 | |θ)(θ|dθ|x1 , . . . xn ) = (xn+1 |θ)(θ|x1 , . . . xn )dθ.
Então, se quisermos saber qual a probabilidade de xn+1 estar num certo
intervalo, basta integrar e temos
Z b
P (a ≤ xn+1 ≤ b) = p(xn+1 |x1 · · · xn I)dxn+1
a

Eliminámos assim o parâmetro θ, obtendo a distribuição/densidade de pro-


babilidade marginal, ou preditiva de xn+1 em termos de x1 , · · · , xn . A eli-
minação de parâmetros por marginalização (somando ou integrando as con-
tribuições de cada valor possı́vel do parâmetro a eliminar) é uma ferramenta
fundamental da inferência Bayesiana. Por exemplo, se temos um modelo de
x com dois parâmetros θ, σ, p(x|θ, σ), mas estamos interessados em estimar
θ, fazemos Z
p(θ|x) = p(σθ|x)dσ.
Isto é nada mais que a versão contı́nua do facto de que, se σi são pro-
posições,
P uma e apenas uma das quais é verdadeira, então a conjunção verifica
i p(σ i |I) = 1 e a disjunção verifica p(σi σj |I) = δij p(σi |I), portanto
X X
P (θ|xI) = p(θ( σi )|xI) = p(θσi |xI)
i i

7
Em Português chama-se habitualmente a um parâmetro que eliminamos, ou
queremos eliminar, por este processo, um ”parâmetro perturbador”. É um
termo pobre em relação ao Inglês, ”nuisance parameter”, que é bastante mais
exacto e bem-humorado, significando algo como ”parâmetro chateador”.

1.3 Estimação de parâmetros


Poderá parecer simples demais, mas o facto é que, neste momento, já temos
tudo o que precisamos para fazer estimação de parâmetros. A partir de
um modelo p(x|θ, I), de uma probabilidade prévia p(θ|I), e de dados ou
observações x0 da variável x, inferir θ consiste meramente em calcular

p(x0 |θ, I)p(θ|I)


p(θ|x0 , I) = R (5)
p(x0 |θ, I)p(θ|I)dθ

Em termos técnicos, o cálculo do integral pode ser complicado, e é frequente-


mente necessário recorrer a computadores e a métodos numéricos sofisticados;
mas isso são dificuldades ”meramente”técnicas. Resolvidas essas dificulda-
des de cálculo, o que obtemos é a distribuição de θ que incorpora toda a
informação observada e o ”prior”p(θ|I). Isto pode parecer algo confuso para
quem está habituado à estatı́stica clássica. Onde estão os estimadores? Onde
estão os intervalos de confiança? Existem, na probabilidade Bayesiana, con-
ceitos semelhantes a esses, mas o ponto fundamental a compreender é que
eles são essencialmente secundários. Não precisamos de estimadores e mar-
gens de erros aproximadas, porque a distribuição posterior contém toda a
informação disponı́vel. Reduzir essa distribuição a uma estimativa pontual
(uma ”best guess”) e a um intervalo de dispersão poderá ter a sua utilidade,
mas consistirá sempre numa perda de informação; podemos obter uma esti-
mativa desse tipo, ou uma infinidade delas, a partir da distribuição posterior
de θ, mas não poderı́amos fazer o processo inverso. Mais para a frente vol-
taremos a discutir estes assuntos. Por agora o mais útil será demonstrar na
prática como funciona o formalismo de inferência que acabámos de discutir.
Vamos tratar um problema de forma discreta e contı́nua, aproveitando para
explicitar através dele o nosso método de infererência.

Exemplo 14. O Sr. Manuel Esquemas tem uma colecção de moedas viciadas
de três tipos. A probabilidade de sair cara num lançamento é de 0.3 para uma
moeda do tipo 1, 0.6 para uma moeda do tipo 2, e 0.7 para uma moeda do tipo
3. O Sr. Manuel tem uma coleção de cinco moedas do tipo 1, uma do tipo
2, e quatro do tipo 3. Um belo dia o Sr. Manuel mistura por acidente todas
as suas moedas. Suponha que ele se recorda da informação descrita acima.
Apanhando uma de entre as moedas, resolve testá-la: atira-a ao ar dez vezes
e obtém 6 caras.
a) Seja θi a proposição ”a moeda é do tipo i”. Qual é a probabilidade de cada
θi após os 10 lançamentos e tendo em conta a informação prévia que o Sr.
Manuel possui?

8
b) Se o Sr. Manuel não se recorda de quantas moedas possui de cada tipo
(mas continua a recordar-se de que há três tipos e das propriedades de cada
um deles), qual é a probabilidade que atribui a cada Xi após os lançamentos?
c) Um amigo do Sr. Manuel, que desconhece todos os detalhes da colecção,
observa os mesmos lançamentos. Atribui inicialmente ao parâmetro θ (pro-
babilidade de sair cara num lançamento) um valor constante sobre o intervalo
[0, 1]. Após os lançamentos qual é a probabilidade que atribui a cada valor
de θ?
Solução:
a) Nas duas primeiras alı́neas queremos estimar o valor de um parâmetro
finito. Sabemos que um e um só dos três θi é verdadeiro, mas não sabemos
qual. Inicialmente sabemos apenas a proporção de moedas de cada tipo. O
processo de apanhar uma ao acaso é essencialmente idêntico tirar bolas de
uma urna. Pelo ”principio da indiferença”, isto é, assumindo que cada mo-
eda tem a mesma probabilidade de ser escolhida, a distribuição prévia será
p(θ1 |I) = 5/10, p(θ2 |I) = 1/10, p(θ3 |I) = 4/10. Cada hipótese θi correspon-
dente a uma moeda que seguirá  x um modelo binomial para 10 lançamentos
que é dado por p(x|θi ) = 10x
θ (1 − θ)10−x
, com os θi iguais a 0.3, 0.6, e 0.7.
Após observarmos x = 6 caras em 10 lançamentos, para cada i teremos

p(θi |x = 6, I) = p(θi |x) = p(x|θi )p(θi )/p(x) = K(θi )6 (1 − θi )4 p(θi )

onde K é idêntico para todos os i. Portanto, p(θ1 |x = 6, I) = K0.36 (1 −


0.3)4 (5/10) = 8.8 × 10−5 K, p(θ2 |x = 6) = K0.66 (1 − 0.6)4 (1/10) = 1.1 ×
10−4 K, p(θ3 |x = P6) = K0.76 (1 − P 0.7)4 (4/10) = 3.8 × 10−4 K. Obtemos K
6 4
P de6 1 = 4 i p(θi |x) = K i ((θ
a partir
3
i ) (1 − θi ) p(θi )), e portanto K =
1/( i ((θi ) (1 − θi ) )p(θi )) = 1.7 × 10 . Então,

p(θ1 |x = 6, I) = 0.15, p(θ2 |x = 6, I) = 0.20, p(θ3 |x = 6, I) = 0.65.

b) Repetimos os cálculos com p(θi |I) = 1/3 para todo o i. Como a proba-
bilidade prévia é idêntica, a probabilidade p(θi |x = 6, I) é proporcional à
verosimilhança p(x = 6|θi , I). O resultado é p(θ1 |x = 6, I) = 0, 08, p(θ2 |x =
6, I) = 0.51 e p(θ3 |x = 6, I) = 0.41. Análise dos resultados: Em ambos os
casos, a hipótese θ1 é pouco provável. Consideremos as outras duas. Observa-
mos que na ausência da informação prévia acerca das proporções das moedas
na colecção, a evidência dos lançamentos favorece ligeiramente a hipótese
θ2 sobre a θ3 , mas que, na presença dessa informação, a hipótese θ3 é 3,25
vezes mais provável que a hipótese θ2 . Intuitivamente: apesar do resultado
dos lançamentos favorecer ligeiramente a hipótese 2, é tão improvável que
eu tenha apanhado por acaso a única moeda do tipo 2 em vez de uma das
quatro moedas do tipo 3 que sou levado a pensar que essa ligeira tendência
é meramente acidental; assim sendo, permaneço ao fim dos 10 lançamentos
mais convencido pela hipótese favorecida pela probabilidade prévia. Claro
que, se eu continuasse a lançar a moeda e verificasse que a tendência se man-
tinha, eventualmente a evidência dos lançamentos acabaria por dominar o

9
valor da probabilidade posterior. Vemos assim que a inferência é uma espécie
de média entre os dados prévios e os dados da obervação (um ”conflito”entre
o prior e a verosimilhança).
c) Como o amigo do Sr. Manuel não sabe que existem apenas três tipos
de moedas, vai ter que estimar um parâmetro θ que sabe apenas estar em
Θ = [0, 1]. Inicialmente, mantendo uma mente aberta, atribui a mesma pro-
babilidade a todos os valores possı́veis (está no fundo a aplicar o prı́ncipio da
indiferença no caso contı́nuo). Sabemos portanto que o ”prior”é p(θ|I) = 1
sobre [0, 1] e 0 fora desse intervalo. Em termos de proposições, está a afir-
mar que probabilidade prévia de o valor verdadeiro de θ estar num qualquer
intervalo [a, b] ⊂ [0, 1] é igual a b − a. Assumimos para a moeda um modelo
binomial, p(x|θi I) = nx θx (1 − θ)n−x . Aplicando a regra de Bayes vem
n x

p(x|θ, I)p(θ|I) x
θ (1 − θ)n−x · 1 θx (1 − θ)n−x
p(θ|x, n, I) = R = R n x = R
p(x|θ, I)p(θ|I)dθ x
θ (1 − θ)n−x · 1dθ θx (1 − θ)n−x dθ

Como referimos anteriormente, os integrais do denominador podem ser difı́cies


de calcular. Este corresponde a uma função especial, a função Beta, definida
por Z 1
B(a, b) = ta−1 (1 − t)b−1 dt
0
Em termos desta função podemos escrever
θx (1 − θ)n−x
p(θ|x, n, I) = (6)
B(x + 1, n − x + 1)

O integral do denominador pode ser escrito em termos de factoriais. É um


resultado conhecido que, para a e b inteiros, B(a, b) = (a − 1)!(b − 1)!/(a +
b − 1)!. Então
(n + 1)! x
p(θ|x, n, I) = θ (1 − θ)n−x (7)
x!(n − x)!
Como tivemos x = 6 caras em n = 10 lançamentos, obtemos
θ6 (1 − θ)4 p(θ)
p(θ|x = 6, n = 10, I) = (8)
B(7, 5)
Esta distribuição diz-se uma distribuição Beta. Este tipo de distribuição vai
acompanhar-nos em vários problemas. A famı́lia das distribuições Beta de
parâmetros (a, b) é definida em geral por

xa−1 (1 − x)b−1
Beta(x|a, b) =
B(a, b)
e tem como média e variância,
a ab
E(Beta(a, b)) = , V ar(Beta(a, b)) =
a+b (a + b)2 (a + b + 1)

10
Vemos portanto que a distribuição posterior de θ para uma observação (x =
6, n = 10) e para um prior uniforme em [0, 1], é uma Beta(7, 5). Segue-
se o gráfico da distribuição. Para comparação, o gráfico da posterior está
sobreposto ao da distribuição prévia constante.

Nota 15. Este gráfico foi feito na linguagem de programação R, com os


comandos curve(dbeta(x, 7, 5)) e abline(h = 1).
Como não nos cansamos de repetir, a distribuição contém em si toda a in-
formação acerca de θ que decorre do prior, do modelo, e dos dados observa-
dos. Com um computador à frente (ou uma tabela adequada) não podemos
pedir nada melhor. Se quisermos saber, por exemplo, qual é a probabili-
dade de θ estar entre 0.3 e 0.5, só temos que calcular P (θ ∈ [0.3, 0.5]|x =
R 0.5 θ6 (1 − θ)4 p(θ)
6, I) = 0.3 . Usando por exemplo, na linguagem de pro-
B(7, 5)dθ
gramação
Rt R, o comando pbeta(t, 7, 5) obtemos o valor da função cumulativa
0
Beta(7, 5)(t)dt. Basta-nos portanto escrever pbeta(0.5, 7, 5)−pbeta(0.3, 7, 5)
e obtemos que a probabilidade de θ estar em [0.3, 0.5] é de 0.25.
Nota 16. Para quem está habituado à estatı́stica clássica, é preciso talvez
frisar a situação, porque é tão diferente do usual: o parâmetro desconhecido
θ é de facto visto como uma variável aleatória; o resultado que obtemos
é exacto e válido seja qual for o tamanho da amostra - desde a primeira

11
observação; não há nenhum processo de limite ou aproximação válida apenas
para amostras grandes. E, desde que saibamos calcular o integral em causa,
temos a probabilidade exacta de θ estar em qualquer região que nos interesse.

1.4 Reduções de informação


Sendo certo que p(θ|xI) contém toda a informação, por vezes toda a in-
formação é informação demais; por vezes interessa-nos perder informação, e
isso é legı́timo desde que saibamos que o estamos a fazer. Por exemplo, é
habitual queremos reduzir o que sabemos acerca de θ a uma ”aposta”num
único valor, acrescida de um intervalo que represente a margem de erro. Isto
decorre de que com frequência não estamos interessados numa probabilidade
por pura curiosidade mas para tomar uma decisão. Se eu me decido a guardar
a minha moeda viciada na minha vasta colecção de moedas viciadas obsessi-
vamente catalogadas em função dos seus valores de θ, terei que apostar num
θ0 especı́fico, no caso discreto, ou numa gaveta que contém as moedas do tipo
θ0 ± δ no caso contı́nuo, já que não posso colocar p(θi |x) × 100 por cento da
moeda em cada gaveta i, por mais que me apeteça. e já agora gostaria de ter
uma ideia de quão provável será que a minha aposta esteja certa. Mais uma
vez, essa margem de erro pode ser calculada exactamente a partir do p(θ|x),
mas será útil ter uma aproximação qualquer que não me obrigue a calcular
o integral: todos sabemos como é aborrecido abrir o laptop quando estamos
no cinema e temos uma súbita vontade irreprimı́vel de calcular margens de
erro. Vamos então ver o que podemos dizer acerca de p(θ|x) de uma forma
frugal, passı́vel se ser escrita à mão nas cotas de um envelope.
Comecemos pelo caso discreto: A redução mais natural do caso discreto
consiste em escolher uma das três hipóteses. Naturalmente escolherı́amos a
que tem maior probabilidade posterior. Na prática, no entanto, a situação
pode não ser tão trivial. Aceitar uma hipótese em vez de outra pode incorrer
em custos que só se justificam se a hipótese fôr muito mais provável que
as demais. Por exemplo, imagine-se que uma moeda viciada de um tipo é
muito mais rara (e cara) do que a outra. Se eu a catalogar mal arrisco-me a
perder dinheiro se um dia resolver vendê-la. Então posso exigir uma evidência
maior do que um certo valor para estar convencido, senão exigirei que o teste
prossiga até o considerar ”significativo”. Uma forma de avaliar os resultados é
reduzir os dados de forma a comparar apenas uma hipótese contra as demais:
Por exemplo, na alı́nea a) do exemplo 14, posso tomar como referência a
hipótese θ3 , e considerar apenas a proposição θ = θ3 contra a sua negação
θ3 = θ1 ∨ θ2 , reduzindo assim o problema a um teste binário de θ3 contra não-
θ3 . Podemos então calcular o ”rácio das vantagens posteriores”(”posterior
odds”), O(θ3 |x) = p(θ3 |x, I)/p(θ3 |x, I) = 0.65/(0.15+0.2) = 1.85. Vemos que
os ”odds”posteriores de θ3 contra a sua negação favorecem θ3 por menos que
2 contra 1. Calculando os odds prévios O(θ3 |x) = p(θ3 |I)/p(θ3 ) = 4/(5+1) =
2/3 ≈ 0.67 vemos que o rácio das vantagens posteriores contra as prévias é
aproximadamente 1.85/0.67 = 2.8, ou seja, os lançamentos favoreceram θ3

12
contra a sua negação (mas não muito). Outro resumo interessante
 consiste em
calcular a evidência posterior de θ3 , e(θ3 |x) = e(θ3 ) +10ln10 p(θ3 |x)/p(θ3 |x)
(ver Jaynes). Em qualquer dos casos vemos que isto são técnicas de resumo
da informação completa que está contida na função probabilidade posterior
f (θ) = p(θi |x, I). Além disso, qualquer decisão no sentido de aceitar uma
hipótese contra as demais terá que ser baseda num critério exterior à teoria
das probabilidades enquanto tal; se eu exijo ”odds”de 3 contra 1 ou de 1000
contra 1 para aceitar uma hipótese, isso é algo que diz respeito aos meus
objectivos e/ou aceitação de riscos, e não à teoria das probabilidades; uma
vez calculadas as probabilidades de cada θi , esta terminou o seu trabalho
legı́timo, sendo que o excedente diz respeito ao que se denomina por teoria
da decisão Bayesiana, que é uma estrutura suplementar que por agora não
nos diz respeito.
Caso contı́nuo: Neste caso toda a informação que temos é dada pela distri-
buição posterior
θ6 (1 − θ)4 p(θ)
p(θ|x = 6, n = 10, I) = Beta(7, 5) = (9)
B(7, 5)
Contemplemos de novo o gráfico de p(θ|x) = Beta(7, 5)(θ). Notamos que é
uma função suave, com um único máximo. Se eu quiser fazer uma aposta
acerca do valor verdadeiro de θ é razoável apostar no valor onde a densidade
é mais alta. Igualando a zero a derivada de uma distribuição Beta(a, b)(θ) ∝
θa−1 (1 − θ)b−1 obtemos
d
0 = (Beta(a, b))(θ) ∝ (a − 1)θa−2 (1 − θ)b−1 − (b − 1)θa−2 (1 − θ)b−2

a+b−2
∝ (a − 1)(1 − θ) − (b − 1)θ ∝ 1 − θ( ),
a−1
a−1
portanto o máximo de Beta(a, b) ocorre para θ = (ou, como x =
a+b−2
x
a − 1 e n = a + b − 2, para θ = ). No nosso caso particular, p(θ|x = 6, n =
n
10, I) = Beta(7, 5)(θ) tem um máximo em θ = 0, 6.
Mas será esta a melhor estimativa de θ? A verdade é que olhando melhor
para o gráfico vemos que a distribuição é mais ou menos simétrica em torno
do máximo, mas não totalmente (parece algo mais pesada à esquerda do
máximo). Sendo realistas, sabemos que provavelmente não vamos adivinhar
o valor exacto de θ, e se quisermos apostar num ponto que minimize o erro
quadrático esperado numa região simétrica ao seu redor, será mais interes-
sante escolher o valor médio, E(θ), do que o valor máximo. Como a média de
a
uma Beta(a, b) é E(Beta(a, b)) = , neste caso, θ0 = E(θ) = 7/12 = 0.58
a+b
seria a nossa estimativa (que nesta situação não é muito distante da original).
Esta hesitação entre duas estimativas é importante: ilustra que os estimado-
res do melhor parâmetro são sempre reduções de informação subordinadas
a um determinado propósito: quando alguém nos diz que uma estimativa é

13
a melhor, temos sempre de perguntar ”melhor para quê?”. Dependendo do
meu propósito poderei ter interesse em escolher o ponto de densidade máxima
ou o ponto correspondente ao valor esperado; a teoria das probabilidades não
pode escolher por nós, como já referimos isso pertence à teoria da decisão, e
àquilo que nela se denota por ”função utilidade”. Como ilustração simples
da função utilidade, se eu tiver que escolher duas portas, e uma delas tem
um prémio de 100 euros com probabilidade 0.7 e a outra tem um prémio de
1 euro com probabilidade 1, não é claro que a melhor escolha seja a porta
correspondente á probabilidade máxima. Se o meu objectivo fôr assegurar
que fico um euro mais rico, ou se fôr maximizar a espectativa de lucro total,
tomarei decisões opostas para probabilidades iguais. A teoria das probabi-
lidades só lida com o cálculo da informação em si - decidir o que fazer com
ela, ou como reduzi-la da ”melhor forma”, é o âmbito da teoria da decisão.

Nota 17. Em estatı́stica frequencista não temos acesso a p(θ|x, I), que não
está definida, e que se designa por ”estimadores”não são resumos de uma
função p(θ) mas funções sobre o espaço amostral que nos dão uma estima-
tiva de θ em função da amostra obtida. A informação é assim filtrada à par-
tida pelo estimador escolhido, e não temos acesso a um objecto ”original”que
nos permita perceber explı́citamente como é feita a redução da informação
disponı́vel (ou podemos ter, mas é um esquema ad-hoc que varia de caso
para caso). Em Bayesiana existe uma separação clara entre as hipóteses
(na forma de ”priors”e ”modelos”), as conclusões (”posteriors”) e as de-
cisões ou resumos de informação; em estatı́stica clássica enunciam-se ainda
explı́citamente os modelos mas os demais conceitos são indistinguı́veis, sendo
implicitamente determinados pela escolha ad-hoc de espaços amostrais, esti-
madores, e testes de vários tipos, não sendo possı́vel em geral explicitar de
uma forma única e clara quais as hipóteses que estão a ser feitas em termos
puramente probabilisticos.

Escolhida uma estimativa, como obter um intervalo em torno desta? De


novo existem várias formas de obter um intervalo estimado. Posso por exem-
plo pedir um intervalo simétrico em torno da estimativa pontual, que conte-
nha um certo valor de probabilidade. Quero portanto obter δ tal que
Z θ0 +δ
P (θ0 − δ < θ < θ0 + δ) = p(θ|x)dθ = ζ,
θ0 −δ

onde ζ será o valor que me deixa feliz, por exemplo ζ = 0.95 se eu não
gostar muito de correr riscos. O valor de δ pode ser obtido exactamente por
integração numérica, ou pode ser de novo estimado. Um estimador não muito
preciso mas válido em casos muito gerais é o que decorre da desigualdade de
Chebyshev:

Proposição 18. Seja X variável aleatória com função de massa de proba-


bilidade P , com valor esperado E(X) = µ e variância finita V (X) = σ 2 .

14
Então, para qualquer real k > 0,
1
P (|X − µ| ≤ kσ) ≥ 1 − .
k2
Tomemos k = 2. Então o teorema diz que a probabilidade de X estar no
intervalo
√ µ ± 2σ é pelo menos√ 1 − 1/k 2 = 3/4. Da mesma forma, fazendo k =
2, vemos que θ está em µ ± 2σ com probabilidade pelo menos igual 1/2, e
que está em µ±3σ com probabilidade maior ou igual a 8/9. Esta desigualdade
é válida para qualquer distribuição com variância finita e é mesmo optima
para o conjunto total dessas distribuições, mas por isso mesmo não pode ser
optima para cada distribuição individual a que se aplica. Aplicando este
resultado ao nosso caso: a ”variável aleatória”em questão é o θ condicionado
a x, I, com a distribuição f (θ) = p(θ|x, I) = Beta(7, 5)(θ) e respectiva função
de massa de probabilidade, P . Já vimos que E(θ|x, I) = a/(a + b) = 0.58.
Além disso
ab (x + 1)(n − x + 1)
V ar(Beta(a, b)) = = ,
(a + b)2 (a + b + 1) (n + 2)2 (n + 3)
portanto V (θ|x, I) = V (Beta(7, 5)) = 0.019, e σ = 0.14. Então, conhecendo
(x = 6, n = 10, I), θ está contido em 0.58±2×0.14 = [0.3, 0.86] com probabi-
lidade pelo menos igual a 3/4. Aproveitamos para notar que esta estimativa
está de facto longe de ser optimal: Calculando directamente oRintegral da dis-
0.86
tribuição posterior de θ, vemos que P (θ ∈ [0.3, 0.86]|x, I) = 0.3 p(θ|x, I) =
0.97, o que é algo superior a 3/4 = 0.75. Outra aproximação possı́vel consis-
tiria em fazer a expansão em séries de potências de log(p(θ|x, I)) em torno
do seu máximo, obtendo uma aproximação gaussiana. A esse propósito ver
Jaynes, páginas 112 e 113. Por vezes é usual dar como resumo de uma
distribuição o intervalo θ0 ± σ. Isto não é feito porque esse intervalo seja
particularmente ”bom”como estimativa, mas sim como uma forma prática
de enunciar a média e desvio padrão, que depois podem ser utilizadas para
calcular outros intervalos, por exemplo por utilização da desigualdade de
Chebyshev ou pela aproximação normal.
Se estivermos dispostos a investir um pouco mais de esforço de cálculo
podemos obter intervalos, ou regiões, que expressam com mais detalhe as
propriedades da distribuição especı́fica que estamos a usar. Por exemplo,
podemos fazer a seguinte definição:
Definição 19. Uma região
R R(x) do domı́nio de θ diz-se uma região de cre-
dibilidade δ para θ se R(x) p(θ|x, I)dθ ≥ δ

Ou seja, é uma região (obviamente em geral não-única) que contém pelo


menos probabilidade δ de θ estar contido nela, sabendo x. Podemos ser mais
exigentes e pedir uma região de credibilidade ”elitista”, onde não entram
pontos de probabilidade baixa; mais especificamente, onde os pontos mais
baixos da região são pelo menos tão altos como os pontos mais altos que são
dela excluı́dos:

15
Definição 20. Diz-se que uma região R(x) de credibilidade δ é um domı́nio
de (densidade de) probabilidade posterior máxima (”Highest posterior density
region”ou ”HPD region”) se

p(θ1 |x, I) ≥ p(θ2 |x, I) ∀θ1 ∈ R(x), θ2 6∈ R(x)

Por exemplo, se uma distribuição tiver dois máximos relativos, uma HPD
poderá consistir de duas regiões disjuntas, uma em torno de cada pico,
sendo perfeitamente possı́vel que o valor esperado da distribuição não per-
tença à HPD; pelo contrário, o(s) máximo(s) absoluto(s) pertence(m) ne-
cessáriamento à HPD.
Nota 21. Continuando o trabalho da página 15, podemos usar a lingua-
gem R para calcular intervalos de credibilidade. A função qbeta(c(l, u), 7, 5)
dá-nos um intervalo que deixa de fora uma probabilidade l à esquerda e u
à direita. Então qbeta(c(1/8, 7/8), 7, 5) dá-nos um intervalo que tem exac-
tamente probabilidade 3/4 de conter θ. Executando o comando obtemos
que [0.42, 0.74] é um intervalo de credibilidade a 75 por cento. Executando
qbeta(c(0.025, 0.975), 7, 5) obtemos que [0.31, 0.83] é um intervalo de credibi-
lidade a 95 por cento. Note-se que estes intervalos não estão centrados na
estimativa do máximo, mas estão construı́dos de forma a deixarem de fora
intervalos de probabilidade simétricos nos dois extremos.
Nota 22. É necessário distinguir os domı́nios de credibilidade dos ”intervalos
de confiança”da estatı́stica frequencista. Além de, em geral, as regiões em
causa poderem diferir, as suas interpretações são sempre distintas. Como
é repetidamente frisado em estatı́stica clássica, não se pode dizer que θ tem
uma probabilidade de 0.95 de estar contido num intervalo de confiança, pois
θ não é uma variável aleatória, é um valor fixo. Tudo o que se pode dizer é
que o intervalo de confiança é ele sim aleatório, e, para um número grande de
amostras, os intervalos de confiança gerados pelas amostras conterão o valor
de θ 95 em cada 100 vezes. Pelo contrário, em probabilidades Bayesianas, θ
é de facto uma variável aleatória, e um intervalo ou região de credibilidade
0.95 é de facto uma região que tem uma probabilidade 0.95 de conter o valor
real de θ. O facto de θ ser uma variável aleatória não contradiz o facto de
que θ é um valor fixo, apenas expressa a nossa ignorância acerca desse valor.
Nota 23. Para complicar mais as coisas, há alguns autores que se referem
aos intervalos de credibilidade usando o termo intervalo de confiança (Sivia,
por exemplo). Em alguns casos isso é uma tentativa de evitar a proliferação
de novos termos, ou uma tentativa de apropriação do termo clássico; noutros
deriva do facto de que a interpretação algo elaborada do termo clássico (que
sempre deu dores de cabeça a alunos e professores) nunca teve grande su-
cesso, sendo sabido que apesar dos avisos infinitamente repetidos nos cursos
básicos de estatı́stica sempre foi um erro comum interpretar um intervalo de
confiança da forma que - correctamente - se interpreta uma região de credibi-
lidade. Na opinião deste autor, o simples facto de podermos de uma vez por

16
toda abandonar os contorcionismos da interpretação clássica dos intervalos
de confiança é motivo que chegue para migrar para o Bayesianismo. Não é
no entanto justificação para confundir conceitos distintos.
É inevitável discutir neste momento uma objecção levantada pelos clássicos:
Vimos que toda a inferência Bayesiana se resume a tomar como hipótese
uma distribuição prévia p(θ|I) e um modelo p(x|θ, I), aplicar o teorema de
Bayes e obter o posterior p(θ|x, I). As vantagens são inegáveis, pois obtemos
uma descrição total da probabilidade do parâmetro, em vez de estarmos li-
mitados a estimativas; além disso não precisamos de teoremas de limite ou
aproximações, obtemos resultados exactos mesmo para amostras arbitrari-
amente pequenas, e intervalos que são probabilidades e não ”intervalos de
confiança”de interpretação questionável. Mas a isto os clássicos levantam a
seguinte objecção: de onde vem a distribuição prévia? Argumenta-se que o
”prior”é, ou pode ser, arbitrário, e que isso torna a análise subjectiva. De
onde vem, então, o ”prior”? Pode vir de várias fontes. Por exemplo, pode
ele próprio vir de observações - o posterior de uma análise torna-se o prior
da seguinte - mas de novo temos que perguntar de onde vinha o prior da
análise anterior. A verdade é que em algum momento tem que haver um
prior que é simplesmente postulado. Sendo assim, isto torna a análise de
facto ”subjectiva”? A resposta é ”sim”se acharmos que ”subjectivo”significa
assumir algo que não decorre das observações. No entanto, do ponto de vista
da ”probabilidade enquanto lógica generalizada”, vemos a fonte do equı́voco
de forma clara: na lógica também não é possı́vel deduzir resultados não-
tautológicos sem fazer hipóteses iniciais. ”Prior”não é mais do que o termo
probabilistico para denominar as hipóteses iniciais que têm obrigatoriamente
que ser feitas para iniciar um raciocı́nio não-tautológico. Se é assim em
lógica, e se a probabilidade se reduz à lógica, então não há como evitá-lo. Da
mesma forma segue daqui que, se em algum sentido a probabilidade é por
isso ”subjectiva”, então temos que dizer que nesse mesmo sentido exacto a
lógica também terá que ser ”subjectiva”; no entanto isto nunca é alegado.
De facto, o que torna a lógica (e a probabilidade) ”objectiva”não é que ela
possa prescindir de fazer hipóteses inicias (não pode) mas que os raciocı́nios,
uma vez feitas essas hipóteses, fiquem unicamente determinados pelas regras
de inferência que consideramos válidas. A lógica (respectivamente, a proba-
bilidade) dá-nos uma forma única de raciocinar sobre hipóteses, mas deixa
a colocação de hipóteses iniciais (respectivamente, ”priors”) estritamente a
cargo do utilizador. É perfeitamente possı́vel em lógica postular hipóteses
que são contraditórias, ou que não modelam o porblema correctamente. Da
mesma forma tal será também possı́vel em probabilidades. A regra de ouro,
como sempre, é ”garbage in, garbage out”.
Segue-se então a pergunta natural: Se as hipóteses são de facto inevitáveis,
como é que a estatı́stica clássica faz então raciocı́nios que não usam priors?
Como consegue então fazer inferência sem fazer hipóteses iniciais? A resposta
é que, logicamente, não o faz, apenas aparenta fazê-lo. A estatı́stica clássica,
ao contrário da lógica e da probabilidade Bayesiana, não separa claramente

17
as hipóteses das regras de inferência. As conclusões que infere dependem, não
de priors explı́citos, mas do tipo de ”teste estatı́stico”, ”regra de paragem”,
”estimador”, ou demais aparalhegam ad-hoc, que o investigador resolve usar.
Pode mostrar-se que alguns desses métodos correspondem a escolher um
dado prior, e que outros são até mesmo ilógicos e contraditórios quando
levados a casos limite. Pode-se portanto dizer que em ambos os casos temos
que usar priors (hipóteses prévias), e que o formalismo Bayesiano tem a
vantagem de fornecer regras claras de inferência utilizáveis da mesma forma
em todos os casos, e de nos obrigar a explicitar claramente a hipóteses, na
forma de priors, logo no inı́cio do nosso raciocı́nio. Uma grande parte da má
reputação da estatı́stica entre os leigos (”there are three kinds of lies: lies,
damned lies, and statistics”) decorre do facto de que em estatı́stica clássica
é notoriamente fácil manipular o resultado de certas inferências por escolha
adequada de método inferencial - em grande parte isto decorre de que há
hipóteses que estão escondidas pela escolha de método, e que mesmo com
boa vontade o utilizador não sabe como explicitar. No formalismo Bayesiano
somos obrigados a mostrar o jogo à partida.
Note-se, finalmente, que é inconsistente que existam objecções à escolha de
um prior p(θ|I), mas que não haja objecções à escolha de um modelo p(x|θ, I).
A verdade é que se tomarmos atenção à dedução de um modelo (para o
lançamento de uma moeda, extracção de uma bola, etc ) vemos que, ou
o próprio modelo é uma hipótese (bastante mais complexa, em geral, que
um prior) sobre a forma como determinado aspecto do mundo funciona e se
relaciona com as probabilidades, ou pelo menos obriga a uma tal hipótese
prévia ao longo da sua dedução: por exemplo, leia-se com atenção a dedução
de Jaynes para o modelo hipergeométrico e note-se que temos que fazer a
hipótese ”arbitrária”de que a cor das bolas não afecta as probabilidades de
extracção. Colocar hipóteses não é um crime, é a única forma que temos de
modelar um problema. É um mero acidente histórico e hábito adquirido que
o estatı́stico clássico está disposto a fazer hipóteses claras sobre os modelos
mas não sobre os parâmetros - e que isso o impede de fazer determindados
raciocı́nios inferencias, e que o leva a fazer outros em que os priors estão
presentes mas escondidos.
Notamos ainda que os priors, desde que sejam suficientemente gerais, estabe-
lecem apenas uma hipótese inicial que é totalmente alterável pela experiência.
Se eu assumi algo de totalmente errado acerca de p(θ|I), um número sufi-
cientemente grande de lançamentos da moeda acabará por me fazer mudar
de ideias. Nesse sentido também, pode-se dizer que a análise é objectiva:
Duas pessoas que comecem com priors distintos acabarão por concordar nas
suas inferências se fizerem suficientes observações. Podemos ainda analisar
um problema tendo em conta uma famı́lia de priors. Se um grupo de inves-
tigadores não concorda no prior a tomar, mas concorda que o prior correcto
pertence a uma determinada famı́lia, o formalismo de inferência pode actuar
sobre toda a famı́lia de priors e obter a famı́lia de conclusões a tirar sobre
o posterior do parâmetro θ, permitindo que os vários grupos de investigado-

18
res percebam objectivamente até que ponto é que se mantém ou não a sua
divergência de opiniões quando fazem as mesmas observações para priors dis-
tintos. Esta é a noção de objectividade de raciocı́nio que decorre da lógica:
não é que não se façam hipóteses, ou que se tenha que concordar acerca
das hipóteses a fazer, mas sim que vários investigadores concordem sobre as
conclusões a tirar para cada conjunto de hipóteses e cada conjunto de ob-
servações. Abordaremos estes tópicos em detalhe, e de forma mais concreta,
nos exercı́cios da próxima secção.

19

Você também pode gostar