Escolar Documentos
Profissional Documentos
Cultura Documentos
1 Inferência Bayesiana
1.1 Variáveis aleatórias
Realizada a axiomatização da probabilidade como extensão da lógica, já
possuı́mos todas as ferramentas para fazer inferências: teste de hipóteses,
estimação de parâmetros, selecção de modelos. No entanto vamos introduzir
nesta secção algumas notações e ferramentas; algumas porque simplificam
muito a linguagem, permitindo enumerar proposições de uma forma mais
simples, outras porque são notações historicamente inescapáveis e que temos
que conhecer para nos relacionarmos com a literatura tal como ela existe,
ainda que, num mundo ideal, preferissemos fazê-lo de outra forma.
Há dois avisos a fazer: o primeiro é no sentido de que não estamos a
introduzir conceitos de base novos; tudo o que se segue é, em última análise,
redutı́vel aos conceitos já introduzidos. Toda a inferência que faremos de-
corre meramente dos axiomas que já aprendemos. O segundo diz respeito ao
termos ”aleatório”, que carrega uma carga histórica pesada. No nosso con-
texto, esse termo tem meramente o significado técnico referente à definição
3 (”variável aleatória”), e não significa mais do que uma abreviatura para
enunciar que aos valores de uma certa variável vamos atribuir probabilida-
des; ou dito de outra forma, trata-se de uma esquema de indexação numérica
de proposições. Não se faz, em probabilidades Bayesianas, como se faz em
probabilidades frequencistas, qualquer distinção entre ”valores fixos mas des-
conhecidos”e valores que são ”variáveis aleatórias”. Se uma quantidade é fixa
mas desconhecida, nada nos impede de lhe atribuir uma probabilidade de to-
mar um certo valor, e portanto ela passará a ser, no contexto da definição
3, uma variável aleatória. Ao chamar a um valor ”aleatório”, estamos mera-
mente a declarar a nossa ignorância acerca desse valor, e a declarar que lhe
vamos atribuir probabilidades - e não a atribuir à variável, ou ao fenómenos
que descreve, qualquer propriedade intrinseca especial, de natureza fı́sica ou
não. No fundo o termo histórico tem uma semântica infeliz, obrigando-nos
por vezes a chamar ”variável aleatória”a uma ”constante desconhecida”. O
leitor evitará ficar confundido se em cada momento se recordar que tudo
não passa de um esquema para ordenar proposições que se referem valores
numéricos, e tiver sempre em mente que o formalismo lógico/probabilı́stico
que já estudou se aplica indistintamente a ambos os casos.
Definição 1. Seja X um conjunto finito. Chama-se distribuição
P de proba-
bilidades sobre X a uma função f : X → [0, 1] tal que x∈X f (x) = 1.
Proposição 2. Seja Qx um conjunto de proposições, indexado numa variável
x ∈ X, X conjunto finito, tal que, condicionado à proposição I, uma e uma
só das proposições
P Qx é verdadeira, isto é, p(Qx Qy |I) = δij p(Qx |I) para
x, y ∈ X, x∈X p(Qx |I) = 1. Seja f : X → [0, 1] definida por f (x) =
p(Qx |I). Então f é uma distribuição de probabilidades sobre X.
Definição 3. Nas condições do enunciado anterior, dizemos que ”x é uma
variável aleatória de distribuição f ”, ou escrevemos ainda, simplesmente x ∼
f (x).
Exemplo 4. Suponhamos que temos um sólido com seis faces planas, não
necessariamente iguais, e que o lançamos no ar, caindo ele sobre um solo
plano. Sabemos que uma e uma só das suas faces vai ficar assente no chão.
Podemos identificar as faces por alguma propriedade que as distinga, seja a
côr ou outra caracterı́stica qualquer, e teremos assim um conjunto de seis
proposições do tipo ”Esta face especı́fica vai ficar assente no chão”, sendo
que uma e apenas uma das proposições será verdadeira. A forma mais fácil
de identifcar as faces será provavelmente numerá-las, de 1 até 6. Temos as-
sim as proposições Qx , x ∈ X = {1, 2, 3, 4, 5, 6} definidas por Qx =”O sólido
vai cair com a face x virada para baixo”. Note-se que podı́amos ter esco-
lhido qualquer outro X com seis elementos, e que mesmo escolhido este X
podemos identificar cada face com um número de 6! = 720 formas diferentes.
Mas uma vez escolhido X = {1, 2, 3, 4, 5, 6} e uma identificação especı́fica
para cada face, o conjunto das proposições Qx verifica a propriedade de que
uma e apenas uma delas é verdadeira, e cada uma das proposições está iden-
tificada com o número x que designa a face correspondente, pelo que podemos
codificar a informação sobre as probabilidades dos Qx definindo uma função
distribuição de probabilidade, f (x) = p(Qx |I), x ∈ X. Referimo-nos a esta
situação dizendo que ”x é uma variável aleatória de distribuição f ”.
Nota 5. Como vimos no exemplo, afirmar que ”x é uma variável aleatória de
distribuição f ”, no contexto de um problema concreto, subentende sempre um
enunciado em que é explicado qual é a informação prévia, quais são as pro-
posições em causa, e como é que elas são identificadas com elementos de X.
Quando essa informação não é dada, dizer ”x é uma variávelP aleatória de dis-
tribuição f ”não é mais do que dizer ”f é uma função tal que x∈X f (x) = 1 e
vamos referir-nos aos elementos do seu domı́nio pela letra x”. O propósito do
conceito de ”variável aleatória”e ”distribuição de probabilidade”é meramente
notacional: permite que identifiquemos proposições com valores numéricos
que as identificam. Vamos abusar livremente desta notação. Não teremos
problemas em escrever p(x, y|I) para denotar p(Qx Qy |I), por exemplo. Iden-
tificamos os valores de ı́ndice com as proposições sempre que o contexto nos
pareça claro, sendo sempre possı́vel regressar à notação proposicional em
caso de ambiguidade (o leitor deverá fazer esse exercı́cio de linguagem com
cuidado no inı́cio).
Tal como os próprios Qx , as proposições condicionantes I podem também
elas ser identificadas com elementos de um conjunto indexante adequado. Por
exemplo, suponhamos que há k proposições Ik , e que conhecemos p(Qx |Ik )
2
para cada Ik , e que sabemos além disso que um e apenas um dos Ik é ver-
dadeiro. Podemos então identificar, como fizemos com o Qx , cada um dos Ik
com um certo elemento θ de um conjunto Θ ∈ Z com k elementos, e podemos
definir k distribuições de probabilidades, fθ , θ ∈ Θ, tais que fθ (x) = p(Qx |Iθ ).
Diz-se então habitualmente que x é uma variável aleatória distribuida se-
gundo a famı́lia fθ , e a θ chama-se o ”parâmetro”da distribuição de x. É
então habitual usar a notação f (x|θ) = p(Qx |Iθ ), identificando assim, tanto
os Qx como os Iθ com os seus identificadores numéricos.
Exemplo 6. Digamos que temos uma moeda, e que ela pode ser de um de
dois tipos (não sabemos qual) e que, consoante o tipo de moeda, verifica-se
uma e uma só das seguintes situações:
I1 : O número de caras x que saem em 10 lançamentos
x 10−xé uma variável
10
aleatória distribuida pela função binomial x ∼ x 0.3 0.7 ,
I2 : O número de caras x que saem em 10 lançamentos
x 10−x uma variável
é
10
aleatória distribuida pela função binomial x ∼ x 0.7 0.3 ,
Então podemos identificar as proposições I1 e I2 com os valores 0.3 e 0.7,
e, designando esses valores pela variável θ ∈ Θ = {0.3, 0.7}, afirmar que
”x é uma variável aleatória distribuida segundo uma binomial de parâmetro
θ ∈ Θ”, ou que x tem distribuição f (x|θ) = 10 x
θx (1 − θ)10−x com parâmetro
θ ∈ Θ = {0.3, 0.7}.
3
aleatória definida no intervalo X = [0, 1], com uma certa densidade de pro-
babilidade f e função de massa F . Identificamos uma região Y ⊂ X com a
proposição QY = ”a proporção de oxigénio na atmosfera é um dos R valores
contidos na região Y ”, Por exemplo, se Y = [0.2, 0.6], p(QY |I) = Y f (x)dx
é a probabilidade da proporção de oxigénio na atmosfera estar entre 20 e 60
por cento.
Nota 9. Vamos cometer o abuso de notação comum, bastante prático mas
que pode ser perigoso para o principiante, de denotar, no caso contı́nuo,
a função densidade por p(x|θ), tal como a própria função probabilidade.
Obviamente, se X é uma região, p(X|θ) corresponde à função de massa ava-
liada em X, ou seja à probabilidade da proposição correspondente, p(QX |θ),
pelo que o contexto deverá ser suficiente. Em caso de dúvida suplementar
poderemos usar a maiúscula P para denotar a função de massa.
4
onde a soma é sobre todos os valores possı́veis (e logicamente disjuntos) de
θ. Para cada θk obtemos, pelo teorema de Bayes,
p(x|θ, I)p(θ|I)
p(θ|x, I) = R (2)
p(x|θ, I)p(θ|I)dθ
Nota 11. Para a probabilidade prévia usa-se por vezes também o termo
”probabilidade a priori”e para a probilidade posterior usa-se por vezes ”a
posteriori”. O primeiro destes termos tem uma semântica infeliz, que só em
certos casos é adequada. Sugere que o ”prior”é sempre algo que se assume
”do nada”ou ”de primeiros principios”, o que é falso em geral; basta ver
que o ”prior”de uma análise pode ser o ”posterior”da análise anterior. Os
termos ”prévio”e ”posterior”só fazem sentido como termos relativos à dispo-
nibilização da informação x (portanto ”prévio a x”, ”posterior a x”; mas ”a
priori a x”não faz sentido pois ”a priori”é um termo absoluto).
5
P
i L(θi ) = 1, nem para que L(θi + θj ) = L(θi ) + L(θj ). Em termos da função
verosimilhança a fórmula de Bayes escreve-se assim:
Lx (θ)p(θ|I)
p(θ|x, I) = R (3)
Lx (θ)p(θ|I)dθ
6
Qn
f (xi |θ)p(θ|I)
p(θ|x1 · · · xn I) = R Qni=1 (caso contı́nuo)
k=1 f (xk |θ)p(θ|I)dθ
Imaginemos que estamos a observar um processo que resulta numa sequência
de observações x1 , x2 , . . . , com probabilidades dependentes de um parâmetro
θ. Já vimos que pela regra de Bayes, à medida que observamos os xi , vamos
obtendo conhecimento sobre o valor de θ. Mas isto por sua vez leva-nos a
poder prever melhor o valor do próximo xi . Podemos ver a situação desta
forma: a incerteza acerca de xn+1 decorre por um lado do facto de que xn+1
é uma variedade aleatória, mas por outro lado pelo facto de que o próprio
parâmetro θ é ele também desconhecido, sendo portanto também ele uma
variável aleatória que aumenta a nossa incerteza.
A fórmula de Bayes, já vimos, permite-nos ”ir descobrindo”o valor de θ à
medida que observamos os xi . Mas se o que me interessa é o valor de xn+1 ,
posso simplesmente notar que
Z
p(xn+1 |x1 · · · xn I) = p(xn+1 |x1 , . . . , xn θ)p(θ|x1 · · · xn I)dθ
Θ
E portanto, se os xi são independentes sabendo θ,
Z
p(xn+1 |x1 · · · xn I) = p(xn+1 |θ)p(θ|x1 · · · xn I)dθ
Θ
Nota 13. Uma menemónica engraçada para quem conheça a notação ”Bra-
Ket”de Dirac para a mecânica quântica (os demais farão melhor em igno-
rar isto): Represento
R as probabilidades apenas por (x|I) em vez de p(x|I).
DepoisR faço |θ)(θ|dθ = 1. REntão (xn+1 |x1 , . . . xn ) = (xn+1 |1|x1 , . . . xn ) =
(xn+1 | |θ)(θ|dθ|x1 , . . . xn ) = (xn+1 |θ)(θ|x1 , . . . xn )dθ.
Então, se quisermos saber qual a probabilidade de xn+1 estar num certo
intervalo, basta integrar e temos
Z b
P (a ≤ xn+1 ≤ b) = p(xn+1 |x1 · · · xn I)dxn+1
a
7
Em Português chama-se habitualmente a um parâmetro que eliminamos, ou
queremos eliminar, por este processo, um ”parâmetro perturbador”. É um
termo pobre em relação ao Inglês, ”nuisance parameter”, que é bastante mais
exacto e bem-humorado, significando algo como ”parâmetro chateador”.
Exemplo 14. O Sr. Manuel Esquemas tem uma colecção de moedas viciadas
de três tipos. A probabilidade de sair cara num lançamento é de 0.3 para uma
moeda do tipo 1, 0.6 para uma moeda do tipo 2, e 0.7 para uma moeda do tipo
3. O Sr. Manuel tem uma coleção de cinco moedas do tipo 1, uma do tipo
2, e quatro do tipo 3. Um belo dia o Sr. Manuel mistura por acidente todas
as suas moedas. Suponha que ele se recorda da informação descrita acima.
Apanhando uma de entre as moedas, resolve testá-la: atira-a ao ar dez vezes
e obtém 6 caras.
a) Seja θi a proposição ”a moeda é do tipo i”. Qual é a probabilidade de cada
θi após os 10 lançamentos e tendo em conta a informação prévia que o Sr.
Manuel possui?
8
b) Se o Sr. Manuel não se recorda de quantas moedas possui de cada tipo
(mas continua a recordar-se de que há três tipos e das propriedades de cada
um deles), qual é a probabilidade que atribui a cada Xi após os lançamentos?
c) Um amigo do Sr. Manuel, que desconhece todos os detalhes da colecção,
observa os mesmos lançamentos. Atribui inicialmente ao parâmetro θ (pro-
babilidade de sair cara num lançamento) um valor constante sobre o intervalo
[0, 1]. Após os lançamentos qual é a probabilidade que atribui a cada valor
de θ?
Solução:
a) Nas duas primeiras alı́neas queremos estimar o valor de um parâmetro
finito. Sabemos que um e um só dos três θi é verdadeiro, mas não sabemos
qual. Inicialmente sabemos apenas a proporção de moedas de cada tipo. O
processo de apanhar uma ao acaso é essencialmente idêntico tirar bolas de
uma urna. Pelo ”principio da indiferença”, isto é, assumindo que cada mo-
eda tem a mesma probabilidade de ser escolhida, a distribuição prévia será
p(θ1 |I) = 5/10, p(θ2 |I) = 1/10, p(θ3 |I) = 4/10. Cada hipótese θi correspon-
dente a uma moeda que seguirá x um modelo binomial para 10 lançamentos
que é dado por p(x|θi ) = 10x
θ (1 − θ)10−x
, com os θi iguais a 0.3, 0.6, e 0.7.
Após observarmos x = 6 caras em 10 lançamentos, para cada i teremos
b) Repetimos os cálculos com p(θi |I) = 1/3 para todo o i. Como a proba-
bilidade prévia é idêntica, a probabilidade p(θi |x = 6, I) é proporcional à
verosimilhança p(x = 6|θi , I). O resultado é p(θ1 |x = 6, I) = 0, 08, p(θ2 |x =
6, I) = 0.51 e p(θ3 |x = 6, I) = 0.41. Análise dos resultados: Em ambos os
casos, a hipótese θ1 é pouco provável. Consideremos as outras duas. Observa-
mos que na ausência da informação prévia acerca das proporções das moedas
na colecção, a evidência dos lançamentos favorece ligeiramente a hipótese
θ2 sobre a θ3 , mas que, na presença dessa informação, a hipótese θ3 é 3,25
vezes mais provável que a hipótese θ2 . Intuitivamente: apesar do resultado
dos lançamentos favorecer ligeiramente a hipótese 2, é tão improvável que
eu tenha apanhado por acaso a única moeda do tipo 2 em vez de uma das
quatro moedas do tipo 3 que sou levado a pensar que essa ligeira tendência
é meramente acidental; assim sendo, permaneço ao fim dos 10 lançamentos
mais convencido pela hipótese favorecida pela probabilidade prévia. Claro
que, se eu continuasse a lançar a moeda e verificasse que a tendência se man-
tinha, eventualmente a evidência dos lançamentos acabaria por dominar o
9
valor da probabilidade posterior. Vemos assim que a inferência é uma espécie
de média entre os dados prévios e os dados da obervação (um ”conflito”entre
o prior e a verosimilhança).
c) Como o amigo do Sr. Manuel não sabe que existem apenas três tipos
de moedas, vai ter que estimar um parâmetro θ que sabe apenas estar em
Θ = [0, 1]. Inicialmente, mantendo uma mente aberta, atribui a mesma pro-
babilidade a todos os valores possı́veis (está no fundo a aplicar o prı́ncipio da
indiferença no caso contı́nuo). Sabemos portanto que o ”prior”é p(θ|I) = 1
sobre [0, 1] e 0 fora desse intervalo. Em termos de proposições, está a afir-
mar que probabilidade prévia de o valor verdadeiro de θ estar num qualquer
intervalo [a, b] ⊂ [0, 1] é igual a b − a. Assumimos para a moeda um modelo
binomial, p(x|θi I) = nx θx (1 − θ)n−x . Aplicando a regra de Bayes vem
n x
p(x|θ, I)p(θ|I) x
θ (1 − θ)n−x · 1 θx (1 − θ)n−x
p(θ|x, n, I) = R = R n x = R
p(x|θ, I)p(θ|I)dθ x
θ (1 − θ)n−x · 1dθ θx (1 − θ)n−x dθ
xa−1 (1 − x)b−1
Beta(x|a, b) =
B(a, b)
e tem como média e variância,
a ab
E(Beta(a, b)) = , V ar(Beta(a, b)) =
a+b (a + b)2 (a + b + 1)
10
Vemos portanto que a distribuição posterior de θ para uma observação (x =
6, n = 10) e para um prior uniforme em [0, 1], é uma Beta(7, 5). Segue-
se o gráfico da distribuição. Para comparação, o gráfico da posterior está
sobreposto ao da distribuição prévia constante.
11
observação; não há nenhum processo de limite ou aproximação válida apenas
para amostras grandes. E, desde que saibamos calcular o integral em causa,
temos a probabilidade exacta de θ estar em qualquer região que nos interesse.
12
contra a sua negação (mas não muito). Outro resumo interessante
consiste em
calcular a evidência posterior de θ3 , e(θ3 |x) = e(θ3 ) +10ln10 p(θ3 |x)/p(θ3 |x)
(ver Jaynes). Em qualquer dos casos vemos que isto são técnicas de resumo
da informação completa que está contida na função probabilidade posterior
f (θ) = p(θi |x, I). Além disso, qualquer decisão no sentido de aceitar uma
hipótese contra as demais terá que ser baseda num critério exterior à teoria
das probabilidades enquanto tal; se eu exijo ”odds”de 3 contra 1 ou de 1000
contra 1 para aceitar uma hipótese, isso é algo que diz respeito aos meus
objectivos e/ou aceitação de riscos, e não à teoria das probabilidades; uma
vez calculadas as probabilidades de cada θi , esta terminou o seu trabalho
legı́timo, sendo que o excedente diz respeito ao que se denomina por teoria
da decisão Bayesiana, que é uma estrutura suplementar que por agora não
nos diz respeito.
Caso contı́nuo: Neste caso toda a informação que temos é dada pela distri-
buição posterior
θ6 (1 − θ)4 p(θ)
p(θ|x = 6, n = 10, I) = Beta(7, 5) = (9)
B(7, 5)
Contemplemos de novo o gráfico de p(θ|x) = Beta(7, 5)(θ). Notamos que é
uma função suave, com um único máximo. Se eu quiser fazer uma aposta
acerca do valor verdadeiro de θ é razoável apostar no valor onde a densidade
é mais alta. Igualando a zero a derivada de uma distribuição Beta(a, b)(θ) ∝
θa−1 (1 − θ)b−1 obtemos
d
0 = (Beta(a, b))(θ) ∝ (a − 1)θa−2 (1 − θ)b−1 − (b − 1)θa−2 (1 − θ)b−2
dθ
a+b−2
∝ (a − 1)(1 − θ) − (b − 1)θ ∝ 1 − θ( ),
a−1
a−1
portanto o máximo de Beta(a, b) ocorre para θ = (ou, como x =
a+b−2
x
a − 1 e n = a + b − 2, para θ = ). No nosso caso particular, p(θ|x = 6, n =
n
10, I) = Beta(7, 5)(θ) tem um máximo em θ = 0, 6.
Mas será esta a melhor estimativa de θ? A verdade é que olhando melhor
para o gráfico vemos que a distribuição é mais ou menos simétrica em torno
do máximo, mas não totalmente (parece algo mais pesada à esquerda do
máximo). Sendo realistas, sabemos que provavelmente não vamos adivinhar
o valor exacto de θ, e se quisermos apostar num ponto que minimize o erro
quadrático esperado numa região simétrica ao seu redor, será mais interes-
sante escolher o valor médio, E(θ), do que o valor máximo. Como a média de
a
uma Beta(a, b) é E(Beta(a, b)) = , neste caso, θ0 = E(θ) = 7/12 = 0.58
a+b
seria a nossa estimativa (que nesta situação não é muito distante da original).
Esta hesitação entre duas estimativas é importante: ilustra que os estimado-
res do melhor parâmetro são sempre reduções de informação subordinadas
a um determinado propósito: quando alguém nos diz que uma estimativa é
13
a melhor, temos sempre de perguntar ”melhor para quê?”. Dependendo do
meu propósito poderei ter interesse em escolher o ponto de densidade máxima
ou o ponto correspondente ao valor esperado; a teoria das probabilidades não
pode escolher por nós, como já referimos isso pertence à teoria da decisão, e
àquilo que nela se denota por ”função utilidade”. Como ilustração simples
da função utilidade, se eu tiver que escolher duas portas, e uma delas tem
um prémio de 100 euros com probabilidade 0.7 e a outra tem um prémio de
1 euro com probabilidade 1, não é claro que a melhor escolha seja a porta
correspondente á probabilidade máxima. Se o meu objectivo fôr assegurar
que fico um euro mais rico, ou se fôr maximizar a espectativa de lucro total,
tomarei decisões opostas para probabilidades iguais. A teoria das probabi-
lidades só lida com o cálculo da informação em si - decidir o que fazer com
ela, ou como reduzi-la da ”melhor forma”, é o âmbito da teoria da decisão.
Nota 17. Em estatı́stica frequencista não temos acesso a p(θ|x, I), que não
está definida, e que se designa por ”estimadores”não são resumos de uma
função p(θ) mas funções sobre o espaço amostral que nos dão uma estima-
tiva de θ em função da amostra obtida. A informação é assim filtrada à par-
tida pelo estimador escolhido, e não temos acesso a um objecto ”original”que
nos permita perceber explı́citamente como é feita a redução da informação
disponı́vel (ou podemos ter, mas é um esquema ad-hoc que varia de caso
para caso). Em Bayesiana existe uma separação clara entre as hipóteses
(na forma de ”priors”e ”modelos”), as conclusões (”posteriors”) e as de-
cisões ou resumos de informação; em estatı́stica clássica enunciam-se ainda
explı́citamente os modelos mas os demais conceitos são indistinguı́veis, sendo
implicitamente determinados pela escolha ad-hoc de espaços amostrais, esti-
madores, e testes de vários tipos, não sendo possı́vel em geral explicitar de
uma forma única e clara quais as hipóteses que estão a ser feitas em termos
puramente probabilisticos.
onde ζ será o valor que me deixa feliz, por exemplo ζ = 0.95 se eu não
gostar muito de correr riscos. O valor de δ pode ser obtido exactamente por
integração numérica, ou pode ser de novo estimado. Um estimador não muito
preciso mas válido em casos muito gerais é o que decorre da desigualdade de
Chebyshev:
14
Então, para qualquer real k > 0,
1
P (|X − µ| ≤ kσ) ≥ 1 − .
k2
Tomemos k = 2. Então o teorema diz que a probabilidade de X estar no
intervalo
√ µ ± 2σ é pelo menos√ 1 − 1/k 2 = 3/4. Da mesma forma, fazendo k =
2, vemos que θ está em µ ± 2σ com probabilidade pelo menos igual 1/2, e
que está em µ±3σ com probabilidade maior ou igual a 8/9. Esta desigualdade
é válida para qualquer distribuição com variância finita e é mesmo optima
para o conjunto total dessas distribuições, mas por isso mesmo não pode ser
optima para cada distribuição individual a que se aplica. Aplicando este
resultado ao nosso caso: a ”variável aleatória”em questão é o θ condicionado
a x, I, com a distribuição f (θ) = p(θ|x, I) = Beta(7, 5)(θ) e respectiva função
de massa de probabilidade, P . Já vimos que E(θ|x, I) = a/(a + b) = 0.58.
Além disso
ab (x + 1)(n − x + 1)
V ar(Beta(a, b)) = = ,
(a + b)2 (a + b + 1) (n + 2)2 (n + 3)
portanto V (θ|x, I) = V (Beta(7, 5)) = 0.019, e σ = 0.14. Então, conhecendo
(x = 6, n = 10, I), θ está contido em 0.58±2×0.14 = [0.3, 0.86] com probabi-
lidade pelo menos igual a 3/4. Aproveitamos para notar que esta estimativa
está de facto longe de ser optimal: Calculando directamente oRintegral da dis-
0.86
tribuição posterior de θ, vemos que P (θ ∈ [0.3, 0.86]|x, I) = 0.3 p(θ|x, I) =
0.97, o que é algo superior a 3/4 = 0.75. Outra aproximação possı́vel consis-
tiria em fazer a expansão em séries de potências de log(p(θ|x, I)) em torno
do seu máximo, obtendo uma aproximação gaussiana. A esse propósito ver
Jaynes, páginas 112 e 113. Por vezes é usual dar como resumo de uma
distribuição o intervalo θ0 ± σ. Isto não é feito porque esse intervalo seja
particularmente ”bom”como estimativa, mas sim como uma forma prática
de enunciar a média e desvio padrão, que depois podem ser utilizadas para
calcular outros intervalos, por exemplo por utilização da desigualdade de
Chebyshev ou pela aproximação normal.
Se estivermos dispostos a investir um pouco mais de esforço de cálculo
podemos obter intervalos, ou regiões, que expressam com mais detalhe as
propriedades da distribuição especı́fica que estamos a usar. Por exemplo,
podemos fazer a seguinte definição:
Definição 19. Uma região
R R(x) do domı́nio de θ diz-se uma região de cre-
dibilidade δ para θ se R(x) p(θ|x, I)dθ ≥ δ
15
Definição 20. Diz-se que uma região R(x) de credibilidade δ é um domı́nio
de (densidade de) probabilidade posterior máxima (”Highest posterior density
region”ou ”HPD region”) se
Por exemplo, se uma distribuição tiver dois máximos relativos, uma HPD
poderá consistir de duas regiões disjuntas, uma em torno de cada pico,
sendo perfeitamente possı́vel que o valor esperado da distribuição não per-
tença à HPD; pelo contrário, o(s) máximo(s) absoluto(s) pertence(m) ne-
cessáriamento à HPD.
Nota 21. Continuando o trabalho da página 15, podemos usar a lingua-
gem R para calcular intervalos de credibilidade. A função qbeta(c(l, u), 7, 5)
dá-nos um intervalo que deixa de fora uma probabilidade l à esquerda e u
à direita. Então qbeta(c(1/8, 7/8), 7, 5) dá-nos um intervalo que tem exac-
tamente probabilidade 3/4 de conter θ. Executando o comando obtemos
que [0.42, 0.74] é um intervalo de credibilidade a 75 por cento. Executando
qbeta(c(0.025, 0.975), 7, 5) obtemos que [0.31, 0.83] é um intervalo de credibi-
lidade a 95 por cento. Note-se que estes intervalos não estão centrados na
estimativa do máximo, mas estão construı́dos de forma a deixarem de fora
intervalos de probabilidade simétricos nos dois extremos.
Nota 22. É necessário distinguir os domı́nios de credibilidade dos ”intervalos
de confiança”da estatı́stica frequencista. Além de, em geral, as regiões em
causa poderem diferir, as suas interpretações são sempre distintas. Como
é repetidamente frisado em estatı́stica clássica, não se pode dizer que θ tem
uma probabilidade de 0.95 de estar contido num intervalo de confiança, pois
θ não é uma variável aleatória, é um valor fixo. Tudo o que se pode dizer é
que o intervalo de confiança é ele sim aleatório, e, para um número grande de
amostras, os intervalos de confiança gerados pelas amostras conterão o valor
de θ 95 em cada 100 vezes. Pelo contrário, em probabilidades Bayesianas, θ
é de facto uma variável aleatória, e um intervalo ou região de credibilidade
0.95 é de facto uma região que tem uma probabilidade 0.95 de conter o valor
real de θ. O facto de θ ser uma variável aleatória não contradiz o facto de
que θ é um valor fixo, apenas expressa a nossa ignorância acerca desse valor.
Nota 23. Para complicar mais as coisas, há alguns autores que se referem
aos intervalos de credibilidade usando o termo intervalo de confiança (Sivia,
por exemplo). Em alguns casos isso é uma tentativa de evitar a proliferação
de novos termos, ou uma tentativa de apropriação do termo clássico; noutros
deriva do facto de que a interpretação algo elaborada do termo clássico (que
sempre deu dores de cabeça a alunos e professores) nunca teve grande su-
cesso, sendo sabido que apesar dos avisos infinitamente repetidos nos cursos
básicos de estatı́stica sempre foi um erro comum interpretar um intervalo de
confiança da forma que - correctamente - se interpreta uma região de credibi-
lidade. Na opinião deste autor, o simples facto de podermos de uma vez por
16
toda abandonar os contorcionismos da interpretação clássica dos intervalos
de confiança é motivo que chegue para migrar para o Bayesianismo. Não é
no entanto justificação para confundir conceitos distintos.
É inevitável discutir neste momento uma objecção levantada pelos clássicos:
Vimos que toda a inferência Bayesiana se resume a tomar como hipótese
uma distribuição prévia p(θ|I) e um modelo p(x|θ, I), aplicar o teorema de
Bayes e obter o posterior p(θ|x, I). As vantagens são inegáveis, pois obtemos
uma descrição total da probabilidade do parâmetro, em vez de estarmos li-
mitados a estimativas; além disso não precisamos de teoremas de limite ou
aproximações, obtemos resultados exactos mesmo para amostras arbitrari-
amente pequenas, e intervalos que são probabilidades e não ”intervalos de
confiança”de interpretação questionável. Mas a isto os clássicos levantam a
seguinte objecção: de onde vem a distribuição prévia? Argumenta-se que o
”prior”é, ou pode ser, arbitrário, e que isso torna a análise subjectiva. De
onde vem, então, o ”prior”? Pode vir de várias fontes. Por exemplo, pode
ele próprio vir de observações - o posterior de uma análise torna-se o prior
da seguinte - mas de novo temos que perguntar de onde vinha o prior da
análise anterior. A verdade é que em algum momento tem que haver um
prior que é simplesmente postulado. Sendo assim, isto torna a análise de
facto ”subjectiva”? A resposta é ”sim”se acharmos que ”subjectivo”significa
assumir algo que não decorre das observações. No entanto, do ponto de vista
da ”probabilidade enquanto lógica generalizada”, vemos a fonte do equı́voco
de forma clara: na lógica também não é possı́vel deduzir resultados não-
tautológicos sem fazer hipóteses iniciais. ”Prior”não é mais do que o termo
probabilistico para denominar as hipóteses iniciais que têm obrigatoriamente
que ser feitas para iniciar um raciocı́nio não-tautológico. Se é assim em
lógica, e se a probabilidade se reduz à lógica, então não há como evitá-lo. Da
mesma forma segue daqui que, se em algum sentido a probabilidade é por
isso ”subjectiva”, então temos que dizer que nesse mesmo sentido exacto a
lógica também terá que ser ”subjectiva”; no entanto isto nunca é alegado.
De facto, o que torna a lógica (e a probabilidade) ”objectiva”não é que ela
possa prescindir de fazer hipóteses inicias (não pode) mas que os raciocı́nios,
uma vez feitas essas hipóteses, fiquem unicamente determinados pelas regras
de inferência que consideramos válidas. A lógica (respectivamente, a proba-
bilidade) dá-nos uma forma única de raciocinar sobre hipóteses, mas deixa
a colocação de hipóteses iniciais (respectivamente, ”priors”) estritamente a
cargo do utilizador. É perfeitamente possı́vel em lógica postular hipóteses
que são contraditórias, ou que não modelam o porblema correctamente. Da
mesma forma tal será também possı́vel em probabilidades. A regra de ouro,
como sempre, é ”garbage in, garbage out”.
Segue-se então a pergunta natural: Se as hipóteses são de facto inevitáveis,
como é que a estatı́stica clássica faz então raciocı́nios que não usam priors?
Como consegue então fazer inferência sem fazer hipóteses iniciais? A resposta
é que, logicamente, não o faz, apenas aparenta fazê-lo. A estatı́stica clássica,
ao contrário da lógica e da probabilidade Bayesiana, não separa claramente
17
as hipóteses das regras de inferência. As conclusões que infere dependem, não
de priors explı́citos, mas do tipo de ”teste estatı́stico”, ”regra de paragem”,
”estimador”, ou demais aparalhegam ad-hoc, que o investigador resolve usar.
Pode mostrar-se que alguns desses métodos correspondem a escolher um
dado prior, e que outros são até mesmo ilógicos e contraditórios quando
levados a casos limite. Pode-se portanto dizer que em ambos os casos temos
que usar priors (hipóteses prévias), e que o formalismo Bayesiano tem a
vantagem de fornecer regras claras de inferência utilizáveis da mesma forma
em todos os casos, e de nos obrigar a explicitar claramente a hipóteses, na
forma de priors, logo no inı́cio do nosso raciocı́nio. Uma grande parte da má
reputação da estatı́stica entre os leigos (”there are three kinds of lies: lies,
damned lies, and statistics”) decorre do facto de que em estatı́stica clássica
é notoriamente fácil manipular o resultado de certas inferências por escolha
adequada de método inferencial - em grande parte isto decorre de que há
hipóteses que estão escondidas pela escolha de método, e que mesmo com
boa vontade o utilizador não sabe como explicitar. No formalismo Bayesiano
somos obrigados a mostrar o jogo à partida.
Note-se, finalmente, que é inconsistente que existam objecções à escolha de
um prior p(θ|I), mas que não haja objecções à escolha de um modelo p(x|θ, I).
A verdade é que se tomarmos atenção à dedução de um modelo (para o
lançamento de uma moeda, extracção de uma bola, etc ) vemos que, ou
o próprio modelo é uma hipótese (bastante mais complexa, em geral, que
um prior) sobre a forma como determinado aspecto do mundo funciona e se
relaciona com as probabilidades, ou pelo menos obriga a uma tal hipótese
prévia ao longo da sua dedução: por exemplo, leia-se com atenção a dedução
de Jaynes para o modelo hipergeométrico e note-se que temos que fazer a
hipótese ”arbitrária”de que a cor das bolas não afecta as probabilidades de
extracção. Colocar hipóteses não é um crime, é a única forma que temos de
modelar um problema. É um mero acidente histórico e hábito adquirido que
o estatı́stico clássico está disposto a fazer hipóteses claras sobre os modelos
mas não sobre os parâmetros - e que isso o impede de fazer determindados
raciocı́nios inferencias, e que o leva a fazer outros em que os priors estão
presentes mas escondidos.
Notamos ainda que os priors, desde que sejam suficientemente gerais, estabe-
lecem apenas uma hipótese inicial que é totalmente alterável pela experiência.
Se eu assumi algo de totalmente errado acerca de p(θ|I), um número sufi-
cientemente grande de lançamentos da moeda acabará por me fazer mudar
de ideias. Nesse sentido também, pode-se dizer que a análise é objectiva:
Duas pessoas que comecem com priors distintos acabarão por concordar nas
suas inferências se fizerem suficientes observações. Podemos ainda analisar
um problema tendo em conta uma famı́lia de priors. Se um grupo de inves-
tigadores não concorda no prior a tomar, mas concorda que o prior correcto
pertence a uma determinada famı́lia, o formalismo de inferência pode actuar
sobre toda a famı́lia de priors e obter a famı́lia de conclusões a tirar sobre
o posterior do parâmetro θ, permitindo que os vários grupos de investigado-
18
res percebam objectivamente até que ponto é que se mantém ou não a sua
divergência de opiniões quando fazem as mesmas observações para priors dis-
tintos. Esta é a noção de objectividade de raciocı́nio que decorre da lógica:
não é que não se façam hipóteses, ou que se tenha que concordar acerca
das hipóteses a fazer, mas sim que vários investigadores concordem sobre as
conclusões a tirar para cada conjunto de hipóteses e cada conjunto de ob-
servações. Abordaremos estes tópicos em detalhe, e de forma mais concreta,
nos exercı́cios da próxima secção.
19