Infereência Bayesiana - Pt2

17/10/2022 13:57 E-book
INFERÊNCIA BAYESIANA
DISTRIBUIÇÕES A PRIORI
Autor(a): Ma. Gesseca Camara Lubachewski
Revisor: Raquel Lívia Nascimento Rodrigues
Tempo de leitura do conteúdo estimado em 1 hora.
Introdução
https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&c… 1/29
17/10/2022 13:57 E-book
Caro(a) estudante, este material apresenta a inferência Bayesiana referente às

apresentações e discussões das distribuições a priori . As prioris são definidas como
distribuições multivariadas e precisam de reflexão acerca do comportamento de cada
parâmetro e na dependência entre diferentes combinações dos parâmetros de interesse.
Neste estudo, apresentaremos aspectos teóricos, exemplos práticos e conteúdos

complementares que ampliam o conhecimento relacionado às temáticas da unidade: prioris
conjugadas não informativas, impróprias e subjetivas; inferência conjugada: modelos
contínuos; inferência conjugada: modelos discretos.
A inferência conjugada, em seus modelos, requer distribuições amostrais por meio do

método Bayesiano, com modelos de hiperparâmetros com interesse, com representações
probabilísticas. A priori é denominada hiperparâmetro, a fim de separar todos os parâmetros
que envolvem o interesse, e é representada de acordo com cada conhecimento.
Prioris Conjugadas não

Informativas,
Impróprias e Subjetivas
A distribuição a priori é definida por parâmetros específicos, de acordo com o conhecimento.

Esses parâmetros são denominados hiperparâmetros, para diferenciá-los do interesse. Na
inferência Bayesiana, as regras de atualização dos hiperparâmetros podem ser definidas,
tendo em vista que as distribuições permanecem. “Se F = {p(x) θ ), θ ∈ Θ } é uma classe de
distribuições amostrais, então, uma classe de distribuições P é conjugada a F, se ∀ p/ θ ∈ e
p(θ) ∈ P⇒ p(θ) ∈ P” (OLIVEIRA, 2011, p. 23).
17/10/2022 13:57 E-book
Portanto, na inferência Bayesiana, a priori é definida por parâmetros, de acordo com o

conhecimento, denominados hiperparâmetros de interesse θ . Na priori conjugada, há a
distribuição a priori e posteriori , que estão inseridas na mesma classe e no conhecimento de
interesse θ .
Na estatística Bayesiana, n é um vetor, θ = (θ1, . . . , θd) , de parâmetros sobre os quais se

deseja fazer a inferência, especificando uma distribuição a priori f (θ) para θ, que, assim
como no caso de um parâmetro, é combinada com a verossimilhança, f (y|θ), pelo Teorema
de Bayes. Então, quando a priori demonstra uma pequena significância ou quando não
apresenta informações, a denominação é dada pela distribuição não informativa. Por sua
vez, a distribuição posterior tem as informações necessárias e suficientes ao parâmetro,
com estimativas, média e mediana a posteriori .
Para as definições probabilísticas de contagem, há duas distribuições utilizadas com

frequência: binomial e Poisson, as quais influenciam a priori dos dados.
A utilização de informação a priori em inferência Bayesiana requer a especificação

de uma distribuição a priori para a quantidade de interesse θ. Esta distribuição
deve representar (probabilisticamente) o conhecimento que se tem sobre θ antes
da realização do experimento (EHLERS, 2011, p. 14).
As distribuições a priori são relevantes para a construção e a comparação de dados e são

fundamentais para a inferência Bayesiana. As características principais de uma priori são:
espaço paramétrico e a posteriori, tendo em vista que uma reflexão acerca do conhecimento,
demonstra que não há necessidade da variável aleatória ser integrável, pois, dependendo da
amostra, o valor do parâmetro de interesse poderá ser analisado como uma priori subjetiva
ou objetiva.
No quadro a seguir, há um resumo com as prioris conjugadas.
17/10/2022 13:57 E-book
Prioris Distribuição Distribuição a

Distribuição priori
conjugadas preditiva posteriori
A distribuição a
A distribuição da
A distribuição P = posteriori é
priori de é expressa
((X = x) é a P(X = x) é uma proporcional ao
por π e representa
distribuição a distribuição produto da
o conhecimento do
posteriori de dado preditiva de x . verossimilhança com
parâmetro de
x. a distribuição a priori
interesse ᶿ.
.
Quadro 2.1 - Inferência Bayesiana

Fonte: Elaborado pela autora.
#PraCegoVer : o quadro representa um breve resumo acerca da inferência estatística,

com as características principais da priori conjugada, de uma distribuição a priori , da
distribuição preditiva e de uma distribuição a posteriori.i . O quadro tem quatro colunas
e duas linhas. Seguindo da esquerda para a direita, na primeira coluna, há “ Prioris
conjugadas” e, embaixo, na segunda linha, há: “A distribuição P = ((X = x) é a distribuição
a posteriori de dado x”. Na segunda coluna, na primeira linha, há: “Distribuição priori” e,
embaixo, na segunda linha, há: “A distribuição da priori, é expressa por π”. Na terceira
coluna, na primeira linha, há: “Distribuição preditiva” e, embaixo, na segunda linha, há:
“P(X = x) é uma distribuição preditiva de x”. Na quarta e última coluna, na primeira linha,
há: “Distribuição a posteriori” e, embaixo, na segunda linha, há: “A distribuição a
posteriori é proporcional ao produto da verossimilhança com a distribuição a priori”.
A priori está associada a uma tratabilidade analítica, obtendo-se, assim, uma família de
distribuições conjugadas, relevante para a inferência Bayesiana. Além disso, a priori tem
níveis de informações que se destacam nos resultados amostrais e que possibilitam
confrontar a verossimilhança, identificar a priori e a posteriori e encontrar prioris impróprias.
17/10/2022 13:57 E-book
Figura 2.1 - Densidades a priori, a posteriori e função de verossimilhança

Fonte: Adaptada de Ehlers (2011).
#PraCegoVer : na imagem, há a diferença amostral da priori , da posteriori e da verossimilhança. A

partir dos dados da priori e da posteriori, é possível fazer a comparação com os resultados
amostrais da verossimilhança. Para o resultado amostral, há um nível de informação que pode ser
identificado no gráfico.
A priori e a posteriori são relativas a p (θ|y e p (θ|x) respectivamente. Logo, a priori possui a
relação de θ para y, e a posteriori está relacionada a θ para x, denotando Y = y e X = x, uma
vez que se aplica o Teorema de Bayes.
A priori não informativa desempenha um papel relevante para demonstrar a posteriori como
parte do conhecimento acerca da informação sobre parâmetros de interesse. Além disso,
essa priori permite confrontar resultados obtidos na inferência amostral e descreve as
informações reais nas inferências da distribuição a priori .
As distribuições não informativas são dadas por h(θ ) = 1

,θ ∈ ∞ e provêm do princípio de
k
Bayes e Laplace, tendo em vista que a ideia principal é a reparametrização com a translação
de dados da verossimilhança.
A distribuição a priori subjetiva é utilizada quando o pesquisador representa o parâmetro de

interesse. Logo, a distribuição posteriori é a combinação da distribuição a priori e da
verossimilhança, em que os dados são verificados de acordo com a informação. A seguir, há
as classificações das distribuições.
1. Priori não informativa : a informação dos dados é dominante, tornando-se, de

certa maneira, uma priori vaga, com conhecimento vago, tendo em vista que
todos os valores de, estejam em uniformidade.
17/10/2022 13:57 E-book
2. Priori imprópria : por meio da priori imprópria, é possível definir uma priori não
informativa, uma vez que a posteriori poderá ser própria.
3. Priori subjetiva : transforma as informações em pequenas quantidades
probabilísticas.
4. Priori conjugada : as distribuições a priori conjugadas proporcionam os
resultados da inferência a posteriori .
Portanto, as prioris conjugadas, com ideia de distribuições a priori e a posteriori , pertencem

a uma atualização de conhecimento e a mudanças de hiperparâmetros, enfatizando a
inferência Bayesiana, por meio de distribuições iguais.
Em uma análise Bayesiana padrão, geralmente, existem parâmetros na

distribuição a priori que precisam ser especificados pelo experimentador. Por
exemplo, considere a especificação X|θ ∼ n(θ,1), θ|τ2 ∼ n(0, |τ2 ). O
2
experimentador Bayesiano especificaria um valor a priori para θ , e uma análise
Bayesiana pode ser realizada. No entanto, uma vez que a distribuição marginal de
X é n(0,τ 2 + 1), ela contém informações sobre τ e pode ser utilizada para estimar
τ. Esta ideia de estimação de parâmetros a priori a partir da distribuição marginal
é o que distingue a análise empírica de Bayes (CASELLA, 2010, p. 330).
Nesse contexto, a inferência Bayesiana representa as distribuições de probabilidade e o

conhecimento do parâmetro θ na especificação da priori.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Para a inferência estatística, a qual podemos chamar de inferência Bayesiana, amostras

estratificadas, amostras por conglomerados e amostras multiestágios usam fórmulas
diferentes. Nesse sentido, uma inferência sobre um parâmetro deve fornecer uma
17/10/2022 13:57 E-book
estimativa por ponto e indicar quão próximo, provavelmente, a estimativa está do valor do
parâmetro.
AGRESTI, A. Métodos estatísticos para as ciências sociais . 4. ed. Tradução de Lori Viali.
Porto Alegre: Penso, 2012.
No que se refere à inferência Bayesiana, também denominada inferência estatística,

assinale a alternativa correta.
a) O verdadeiro valor de θ é desconhecido.

b) O método Bayesiano é imprevisível.
c) O interesse desconhecido θ é observável.
d) A quantidade de informação sobre θ diminui acerca da intuição.
e) Existe distinção entre quantidades observáveis e o parâmetro θ.
Inferência Conjugada:
Modelos Contínuos
As distribuições a priori têm alguns dos principais modelos contínuos de distribuição:

distribuição normal, distribuição de Poisson, distribuição multinomial e distribuição binomial.
Observe um exemplo da distribuição binomial: a probabilidade de que um aluno acerte cada

questão de uma prova de 6 questões é 0,3. Se o aluno tentar resolver todas elas, de forma
independente, qual é a probabilidade de acertar 4 questões?
Solução:
4 4
P (4) = C 6 (0, 3) (1– 0, 3)((6–4)
17/10/2022 13:57 E-book
P(4) ≅ 0,0595 ou 5,95%
A distribuição binomial é definida como a soma de n variáveis aleatórias de Bernoulli,

representada pela expressão P (X) = Cn x . px . pn−x .
Ademais, é importante salientar que existem diversos modelos de probabilidade, mas há os

que são utilizados com frequência, como é o caso da distribuição de Poisson.
Talvez, o modelo hierárquico mais clássico seja o seguinte: um inseto põe um grande
número de ovos, cada um com uma probabilidade de sobrevivência p. Em média, quantos
ovos sobreviverão? O “grande número” de ovos é uma variável aleatória e, geralmente,
assume-se que seja de Poisson (λ). Além disso, considerando que a sobrevivência de cada
ovo é independente, então, temos provas de Bernoulli. Portanto, se considerarmos para a
variável aleatória X o número de sobreviventes e para a variável y o número de ovos, temos
um modelo hierárquico:
X|Y ∼ binomial (Y, p)
Y ∼ Poisson (λ)
Utilizamos a notação, como X|Y ∼ binomial (Y, p), para significar que a distribuição
condicional de X, visto que Y = y, é binomial (y, p).
A vantagem da hierarquia é que processos complicados podem ser modelados por uma
sequência de modelos relativamente simples, colocados em uma hierarquia. Ademais, lidar
com hierarquia não é mais difícil do que lidar com distribuições condicionais e marginais.
A variável aleatória de interesse, X = número de sobreviventes, tem a distribuição dada por:
P(X = x) y = 0 ∞ y = 0 P(X = x, Y = y) P(X = x|Y = y) P(Y = y) ∞ y . y = x . x px(1 − p) y − x e − λλy

y! (definição da probabilidade condicional).
A probabilidade condicional é 0, se y < x), uma vez que X|Y = y é binomial (y, p) e Y é de
Poisson (λ). Se simplificarmos essa última expressão, cancelando o que pudermos e
multiplicando por λx/λx, obtemos:
P(X= x) = (λp) xe − λ x! ∞ (1 − p) λ y=x y − x (y − x).
Portanto, qualquer inferência marginal em X diz respeito a uma distribuição de Poisson (λp),
e Y não representa qualquer parte. A introdução de Y na hierarquia foi, principalmente, para
ajudar a entender o modelo. Existe uma vantagem a mais ao se considerar que o parâmetro
da distribuição de X é o produto de dois parâmetros, sendo cada um deles, relativamente,
simples de se entender.
17/10/2022 13:57 E-book
Agora, a resposta à questão original é fácil de ser calculada: EX = λp, assim, em média, λp
ovos sobreviverão. Se estivéssemos interessados somente nessa média e não
precisássemos da distribuição, poderíamos ter utilizado propriedades de expectativas
condicionais. Algumas vezes, os cálculos podem ser bastante simplificados, ao se utilizar o
seguinte teorema da distribuição dos modelos continuos.
Então, a distribuição de modelos contínuos apresenta intervalos numéricos, com gráficos em

formato de curva, parecendo o desenho de um sino, como mostra a figura a seguir.
Figura 2.2 - Distribuição de probabilidade, sob área da curva

Fonte: Agresti (2012, p. 97).
#PraCegoVer : a figura mostra que a disposição da curva normal é determinada pela média, , e
pelo desvio-padrão, θ , os quais são considerados parâmetros da curva normal e estabelecem o
achatamento da curva.
Uma distribuição normal é simétrica, e a curva é definida pelos valores de μ e θ , sendo que
os valores específicos de ambos os parâmetros apresentam os resultados sob a área da
curva no intervalo desses valores. Na maioria das vezes, as prioris são expressas por
hiperparâmetros, no caso da distribuição com valores de interesse da média μ e no desvio-
padrão, em que o reconhecimento dos hiperparâmetros depende da amostra da situação
problema.
Distribuições contínuas
A distribuição contínua focaliza as probabilidades dos possíveis valores que uma variável
aleatória possa assumir. Uma variável aleatória contínua é considerada um conjunto de
intervalos, definido como infinito e incontável, sendo que as probabilidades de variáveis
17/10/2022 13:57 E-book
aleatórias contínuas têm a área sob a curva em formato de sino, em que apenas um de seus
valores diferem-se de zero.
Uma variável é discreta, se os resultados possíveis forem um conjunto de valores

separados, por exemplo, uma variável expressada como “o número de...” com
valores possíveis 0, 1, 2, ... Ela é contínua se os resultados possíveis forem um
infinito contínuo. (AGRESTI, 2012, p. 95).
As distribuições contínuas podem ser definidas por meio da média, da variância e do desvio-
padrão, em que a variável considerada aleatória dessas distribuições poderá ser aplicado o
método de integração. As probabilidades contínuas estão associadas aos valores de
intervalos que assumem valores reais, sendo que, sob a área da curva gráfica, a densidade
ocupa valores acima do eixo das abcissas, entre os pontos de intervalo.
A média, na distribuição contínua, significa encontrar o valor esperado para a média . No

μ
que tange à variância, os valores esperados estão entre dois intervalos. Mediante a
distribuição contínua, podemos representar a densidade probabilística sob o intervalo de a
até b, descrevendo uma distribuição aleatória contínua.
Observe uma situação-problema em que você pode aplicar a distribuição contínua.
Se no estudo de ecologia de um lago fizermos medidas de profundidade em locais

selecionados aleatoriamente, então X = a profundidade neste local é uma variável contínua.
Nesse caso, A é a profundidade mínima na região da amostragem e B é a profundidade
máxima (DEVORE, 2018).
A probabilidade é um grau de informação amostral, baseado no método da inferência

Bayesiana, por meio das descrições de combinações e resultados de amostras coletadas a
partir de evidências. Ademais, as distribuições a priori estão relacionadas aos conceitos
básicos da inferência estatística, mediante a utilização da regra de Bayes, com as teorias
frequentista, subjetiva e clássica, sob o ponto de vista intuitivo e o teste de hipótese.
A figura a seguir retrata Thomas Bayes, o precursor do teorema de Bayes.
A teoria da probabilidade é uma forma de se obter

resultados amostrais, experimentos, modelos estatísticos
e fenômenos aleatórios. Por meio dos modelos
estatísticos, é possível realizar inferências, baseadas no
resultado total. Nesse contexto, Thomas Bayes foi um
matemático que definiu a teoria das probabilidades que,
consequentemente, recebeu o nome regra de Bayes,
t b l id d ló i i d ti ti
https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 10/29
17/10/2022 13:57 E-book
estabelecida por um processo de lógica indutiva, a partir

de dados hipotéticos.
Fonte: Limojoe / Wikimedia Commons.
A distribuição normal é uma das mais relevantes distribuições contínuas, pois, com essa
distribuição, podem ser calculadas as probabilidades para outras distribuições, a binomial ,
por exemplo.
No caso da distribuição normal, considere que um pequeno desenho foi planejado para ser
distribuído, aleatoriamente, de maneira uniforme, no intervalo de [0, 2] metros de um cartaz
publicitário. Qual é a probabilidade de o pequeno desenho estar no intervalo entre 1 e 1,5
metros do cartaz?
Solução:
f(x) = 1/2, se 0 ≤ x ≤ 2 0
Se c/c, P(1 ≤ x ≤ 1,5) – ∫1 1,5

½
dx − ¼
Algumas distribuições de probabilidade são importantes, porque aproximam bem

as distribuições das variáveis do mundo real. Algumas são importantes por causa
do seu uso na inferência estatística. A distribuição de probabilidade normal é
importante por duas razões. Sua curva em forma de sino descreve bem muitos
histogramas de dados de muitas variáveis contínuas ou que assumem um grande
número de possíveis valores. Ela é a distribuição mais importante para a
inferência estatística, pois veremos que ela é útil mesmo quando os dados
amostrais não têm a forma de sino (AGRESTI, 2012, p. 99).
A distribuição normal está entre as distribuições mais utilizadas, sendo que as variáveis em
geral correspondem a um modelo normal, estabelecendo qualquer valor aleatório. Na região
gráfica, a área sob a curva é simétrica (em forma de sino), tendo em vista que a área total é
apresentada pelo eixo das abscissas no valor exato de 1. Observe a área gráfica de uma
distribuição normal na figura a seguir:
17/10/2022 13:57 E-book
Figura 2.3 - Demonstração gráfica de distribuição normal

Fonte: Agresti (2012, p. 99).
#PraCegoVer : a imagem mostra que a curva em torno do valor esperado da média μ é simétrica,
ou seja, tem o formato de um sino. Além disso, a curva normal é limitada pela área total da curva.
Observe um exemplo, para aprofundar seus conhecimentos.
Suponha que 20% de todas as cópias de um livro-texto apresentem falha em um

determinado teste de resistência de encadernação. Seja X o número de cópias que
apresentam falhas entre 15 cópias selecionadas aleatoriamente. Então, X tem distribuição
binomial com n = 15 e p = 0,2.
8
1. A probabilidade de no máximo 8 apresentarem falha é P (X ≤ 8) =∑y= 0 b( y, 15;0,2) = B
(8;15;0,2) que é a entrada na linha x = 8 e na coluna p = 0,2 de n = 15 tabela binomial , em que
, a probabilidade é B(8; 15, 0,2) = 0,999.
2. A probabilidade de exatamente 8 apresentarem falha é P(X = 8) = P(X ≤ 8) – P(X ≤ 7) =

B(8; 15, 0,2) – B(7; 15, 0,2) que é a diferença entre duas entradas consecutivas na coluna p =
0,2. O resultado é 0,999 – 0,996 = 0,003.
Ainda, há a distribuição multinomial , com parâmetros n e θ e função de probabilidade

conjunta em p contagens X. Além disso, podemos considerar uma amostra aleatória da
distribuição média normal de valores desconhecidos.
O conceito para o teorema multinomial é:
Sejam m e n números inteiros positivos. Seja A o conjunto de vetores x = (x1, ..., xn) de n de
n
modo que cada xi é um número inteiro não negativo e ∑i = 1x 1 são números reais k1, ...,
kn, (k1 +· · ·kpn)m = (x + a) ^ n = ∑_(k = 0) ^ n〖(n¦k) x ^ k a ^(n-k)〗.
Fonte: Casella (2010, p. 163).
17/10/2022 13:57 E-book
Por sua vez, há a distribuição exponencial quando a variável aleatória é definida mediante
duas ocorrências e se contabiliza a média de tempo expressa por 1/ƛ.
Figura 2.4 - Demonstração gráfica da distribuição exponencial

Fonte: Casella (2010, p. 222).
#PraCegoVer : na figura, a distribuição exponencial não tem formato simétrico, e as funções têm
valores reais do parâmetro que, possivelmente, tem seu valor definido pelo vetor θ.
O modelo t-Student é utilizado, com frequência, quando não conhecemos o desvio-padrão da

amostra populacional σ. Para estimar μ, utilizaremos o desvio-padrão da amostra (S).
Esta distribuição é simétrica com média 0, mas não é a normal reduzida (Z), pois
S/ n é uma variável aleatória, o que não ocorre com (X – μ)/ σ/ n, em que o
denominador é uma constante. Para grandes amostras, o desvio-padrão amostral
S deve ser próximo de σ e as correspondentes distribuições t devem estar
próximas da normal reduzida Z. Existe uma família de distribuições cuja forma
tende à distribuição normal reduzida quando n cresce indefinidamente. Para
trabalharmos com uma distribuição t-Student, precisamos saber qual a sua forma
específica e isso é informado por uma estatística denominada grau de liberdade
(COSTA, 2012, p. 57).
Observe o exemplo acerca do teste t para uma amostra.
Hipótese nula: H0 = µ = µ0
Valor da estatística do teste: (x − μ

0
)/(s/\sqrtn)\)
Hipótese alternativa
Ha : m > m0
17/10/2022 13:57 E-book
Ha : m < m0
Ha : m1 ≠ m0
Determinação do valor-p
Área sob uma curva tn–1 à direita de t
Área sob uma curva tn–1 à esquerda de t
2 × (Área sob uma curva tn–1 à direita de |t|)
Suposição: os dados consistem de uma amostra aleatória de uma distribuição populacional

normal.
É possível verificar como se comporta uma distribuição t-Student e uma distribuição normal,
analisando a figura a seguir.
Figura 2.5 - Demonstração gráfica da distribuição t-Student (f (t)) e da distribuição normal (f

(z))
Fonte: Costa (2012, p. 58).
#PraCegoVer : a figura apresenta o comportamento gráfico de uma amostra que tem dados
amostrais a partir da distribuição t-Student e da distribuição normal. Observe que, quanto maior o
valor de φ.
A distribuição a priori Beta também é referenciada na inferência Bayesiana e diz respeito aos
parâmetros referentes a diferentes valores, expressos como hiperparâmetros de flexibilidade
e com distribuições de simetria.
17/10/2022 13:57 E-book
SAIBA MAIS
A família exponencial inclui muitas das distribuições de probabilidade mais comumente utilizadas
em Estatística, tanto contínuas quanto discretas. Uma característica essencial dessa família é que
existe uma estatística suficiente com dimensão. A família de distribuições com função de
densidade de probabilidade p (x|θ) pertence à família exponencial e há um parâmetro que
podemos escrever p (x|θ) = a (x) exp {u (x) φ (θ) + b (θ)}. Pelo critério de fatoração de Neyman, U
(x) é uma estatística suficiente para θ. Nesse caso, a classe conjugada é, facilmente, identificada
como p (θ) = k (α, β) exp {αφ (θ) + βb (θ)}. Aplicando-se o teorema de Bayes, obtemos: p (θ|x) = k
(α + u(x), β + 1) exp {[α + u(x)] φ (θ) + [β + 1] b (θ)}.
Agora, usando-se a constante k, a distribuição preditiva pode ser, facilmente, obtida, sem a
necessidade de qualquer integração. A partir da equação p (x) p (θ|x) = p (x|θ) p (θ), e após alguma
simplificação, obtemos: p (x) = p (x|θ) p (θ) p (θ|x) = a (x) k (α, β) k (α + u (x), β + 1).
Observe um exemplo prático.
Suponha que o número de eventos que ocorrem em um intervalo de tempo de duração t tenha
distribuição de Poisson com parâmetro at (em que a, a taxa do processo do evento, é o número
esperado de eventos que ocorrem em uma unidade de tempo) e que os números das ocorrências
em intervalos não sobrepostos sejam independentes uns dos outros. Então, a distribuição do
tempo decorrido entre a ocorrência de dois eventos sucessivos é exponencial com parâmetro l = a.
Para saber mais acerca desse assunto, acesse o link:

https://sites.icmc.usp.br/ehlers/bayes/bayes.pdf .
Fonte: Adaptado de Ehlers (2011).
A distribuição exponencial tem um ponto em que x = μ e os valores atribuídos aos

parâmetros são integráveis. Nesse sentido, para facilitar os cálculos, é relevante dividir as
integrais em regiões. Logo, uma distribuição exponencial não depende apenas dos valores
de interesse θ , estabelecendo-se a expressão para f (x|θ) por meio de uma função
indicadora.
praticar
17/10/2022 13:57 E-book
praticar
Vamos Praticar
Uma população de entrevistadores, após um período de treinamento, foi submetida a um
teste padronizado de avaliação de conhecimentos adquiridos, obtendo média 100 e desvio-
padrão 10. Presumindo que as notas são distribuídas normalmente, calcule as seguintes
probabilidades, apontando a alternativa correta.:
a) P (100 < X < 120).
b) P (X > 120).
c) P (X > 80).
d) P (85 < X < 115).
e) P (X < 125).
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
O ramo da estatística que utiliza a probabilidade subjetiva como base é denominado

estatística bayesiana, em homenagem ao clérigo britânico Thomas Bayes, que descobriu
uma regra probabilística, com parâmetro de interesse.
AGRESTI, A. Métodos estatísticos para as ciências sociais . 4. ed. Tradução de Lori Viali.
Porto Alegre: Penso, 2012.
A distribuição de probabilidade tem parâmetros que descrevem:
a) os valores do parâmetro y.
b) o experimento ou a amostra aleatória.
c) o centro e a variabilidade.
17/10/2022 13:57 E-book
d) os valores do parâmetro parciais.

e) o desvio-padrão de uma distribuição normal.
Inferência Conjugada:
Modelos Discretos
Os modelos discretos da inferência estatística englobam as distribuições mais relevantes,

como a distribuição de Bernoulli, a distribuição de Poisson e a distribuição binomial.
Por exemplo, considere a realização de um único experimento, cujo resultado pode ser um
sucesso (se acontecer o evento que interessa) ou um fracasso (o evento não se realiza).
Definimos a variável aleatória discreta como X, e a distribuição de probabilidade de X está
presente no quadro a seguir.
17/10/2022 13:57 E-book
X Eventos P (X)
1 Sucesso P
0 Fracasso 1–p=q
Σ – 1
P(X) = p x . q 1 – x
Quadro 2.3 - Exemplo da distribuição de Bernoulli

Fonte: Adaptado de Costa (2012).
#PraCegoVer : o quadro apresenta três colunas e cinco linhas. Seguindo da esquerda

para a direita, de cima para baixo, há: na primeira coluna, “X”, “1”, “0”, “Σ”; na segunda
coluna, “Eventos”, “Sucesso”, “Fracasso”, “–”; na terceira coluna, “P (X)”, “P”, “1 – p = q”,
“1”, “P(X) = px . q1–x ”.
Considerando uma situação que envolve experimentos de sucesso e fracasso, há, por
exemplo, uma experiência aleatória que consiste no lançamento de um dado uma única vez.
O lançador quer que apareça a face 5. A variável aleatória assim definida é de Bernoulli, e
sua distribuição de probabilidade está presente no quadro a seguir.
X Eventos P (X)
1 Sucesso 1/6
0 Fracasso 5/6
Σ – 1
Quadro 2.4 - Exemplo da distribuição de Bernoulli

Fonte: Adaptado de Costa (2012).
#PraCegoVer : o quadro apresenta três colunas e cinco linhas. Seguindo da esquerda

para a direita, de cima para baixo, há: na primeira coluna, “X”, “1”, “0”, “Σ”; na segunda
coluna, “Eventos”, “Sucesso”, “Fracasso”, “–”; na terceira coluna, “P (X)”, “1/6", “5/6", “1”.
17/10/2022 13:57 E-book
A distribuição binomial é considerada em relação à soma de n valores aleatórios das

variáveis de Bernoulli. No elemento a seguir, há um exemplo da distribuição binomial.
1. A cor das sementes de ervilhas é determinada por um único locus genético. Se

dois alelos desse locus são AA ou Aa (o genótipo), então a ervilha será amarela
(o fenótipo) e, se o alelo for aa, será verde. Suponha que organizemos 20
sementes Aa aos pares e cruzemos as duas ervilhas de cada par para obtenção
de 10 novos genótipos. Cada novo genótipo será um sucesso S se for aa, e uma
falha, caso contrário.
Solução
Então, com o identificador S ou F, o experimento será binomial com n = 10 e p =

P (genótipo aa). Se cada membro do par for igualmente provável de contribuir
com a ou A, então p = P(a) × P(a) = (0,5) (0,5) = 25
‍
2. Uma pessoa trabalha em três empregos, nos quais desenvolve atividades iguais
e é remunerada igualmente. A probabilidade de ela receber o pagamento até o
segundo dia útil, nos três empregos, é de 0,85. Qual é a probabilidade de ela
receber apenas um salário até o segundo dia útil?
Solução:
P (1) = C 13 (0,85) 1 (1 – 0,85) (3 – 1)

P (1) ≅ 0,0574 ou 5,74%
‍
3. Considere que cada um dos próximos n veículos é submetido a um teste de
emissões e digamos que S denota um veículo que passa no teste e F denota um
veículo que não passou no teste. Portanto, este experimento satisfaz as
Condições 1-4. Lançar uma tachinha n vezes, com S = ponta para cima e F =
ponta para baixo, também resulta em um experimento binomial como no
experimento em que o gênero (S para feminino e F para masculino) é
determinado para cada uma das próximas n crianças nascidas em um
determinado hospital.
Muitos experimentos envolvem uma sequência de ensaios independentes para

os quais há mais de dois resultados possíveis em qualquer ensaio. Um
experimento binomial pode então ser criado, dividindo-se os resultados
possíveis em dois grupos.
17/10/2022 13:57 E-book
Considerando uma amostra aleatória da distribuição de Poisson, com parâmetro θ, sua

função de probabilidade conjunta é dada por p (x|θ) = e − nθθ t Q xi! ∝ e −nθθ t, θ > 0, t = Xn
i=1 xi. A seguir, há um exemplo de aplicação da distribuição de Poisson.
No Rio de Janeiro, o número de automóveis da linha Gol que entram em um estacionamento,

em um intervalo de uma hora, certamente, não é Poisson, mas o número de limusines que
entram no estacionamento, no mesmo período, deve ser Poisson. Nesse sentido, trata-se de
uma distribuição binomial em que:
n → ∞ e p→ 0;
μ = np = tλ.
Pode-se demonstrar que: limP (X) = P (X) = C

x
np
x
.q
n–x
é igual a P (X) = (e^(-μ)
μ^x)/x! (COSTA, 2012).
REFLITA
A distribuição a priori é parte fundamental da inferência

bayesiana. Se não determinamos alguma priori específica,
não conseguimos calcular a distribuição a posteriori ,
portanto, a análise bayesiana fica comprometida.
As diferentes escolhas de prioris podem proporcionar
resultados, ligeiramente, diferentes. Para a estatística
bayesiana, cada problema é único, sendo que a distribuição
a priori é formulada e, por incorporar o conhecimento do
investigador, pode ser diferente em cada problema. “Mesmo
que a verossimilhança seja a mesma, ao se utilizar
diferentes distribuições a priori , as distribuições a posteriori
serão diferentes, conduzindo, assim, a análises bayesianas
distintas”.
Fonte: Maioli (2014, p. 31).
Observe um exemplo prático de variável aleatória,
17/10/2022 13:57 E-book
Uma empresa comercializa latas luxuosas com amêndoas, castanhas de caju e amendoins
misturados. Suponha que o peso líquido de cada lata seja exatamente 1 quilograma, mas
que a contribuição do peso de cada constituinte seja aleatória. Como os três pesos devem
somar 1, um modelo de probabilidade conjunta para quaisquer dois fornece todas as
informações necessárias sobre o peso do terceiro tipo. Sejam X o peso das amêndoas em
uma lata selecionada e Y o peso das castanhas de caju. Então a região de densidade
positiva é D = {(x, y): 0 x 1, 0 y 1, x + y 1}.
Para qualquer x fixo, f(x, y) aumenta com y; para o y fixo, f(x, y) aumenta com x. A hipótese é
apropriada porque a palavra luxo implica que a maior parte da lata deve ser formada por
amêndoas e castanhas de caju em vez de amendoins, de forma que a função de densidade
deve ser grande próxima ao limite superior e pequena perto da origem. A superfície
determinada por f(x, y) tem declive positivo a partir de zero, conforme (x, y) se distancia dos
eixos. Claramente, f(x, y) 0. Para demonstrar a segunda condição de uma f.d.p. conjunta,
lembre-se de que a integral dupla é calculada como integral iterativa, mantendo uma variável
fixa , integrando em relação aos valores da outra variável que estão na reta que passa pelo
valor da variável fixa e, finalmente, integrando em relação a todos os valores possíveis da
variável fixa.
As distribuições são relevantes, pois contribuem para encontrar possíveis resultados de uma
variável aleatória. Nesse sentido, são utilizados dados amostrais para realizar as inferências
estatísticas acerca dos parâmetros das distribuições. Existem distribuições com parâmetros
fixos que contribuem, significativamente, para a inferência estatística.
praticar
Vamos Praticar
A distribuição contínua relaciona-se com a variável de valores contínuos; dentre as
distribuições mais relevantes, estão as distribuições normal e exponencial. No que diz
respeito à distribuição discreta, o valor da variável assume valor específico, no caso da
distribuição binomial e da distribuição de Poisson.
A partir do que foi apresentado, pesquise em livros, artigos científicos, revistas científicas,
dentre outros materiais, e faça uma análise individual das distribuições discretas e
contínuas mencionadas.
17/10/2022 13:57 E-book
Inferência Conjugada e
seus Modelos
Definimos a priori conjugada e seus modelos com base no conhecimento acerca da variável
aleatória θ , sendo que forma uma família exponencial de parâmetros indexadores das
distribuições a priori que passam a ser denominadas hiperparâmetros. Nesse contexto, a
conjugação da família exponencial
[...] é a distribuição de probabilidades do intervalo T entre dois sucessos

consecutivos de Poisson. O intervalo T é a variável aleatória. Refere-se à
mensuração de tempo (sobrevivência, duração de vida, espera numa fila etc.) ou
espaço (metros, quilômetros, páginas de um livro etc.) (COSTA, 2012, p. 50).
No exemplo a seguir, há uma situação que envolve a inferência conjugada.
Os defeitos de um tecido seguem a distribuição de Poisson, com média de um defeito a

cada 400 m. Descreva qual é a probabilidade de que o intervalo entre dois defeitos
consecutivos seja:
a) de, no mínimo, 1.000 m;
b) de, no máximo, 1.000 m;
c) entre 800 e 1.000 m.
Resolução:
a) λ = 1/400 defeitos/metros P (T ≥ 1000) = e – 1/4000 . 1000 = e – 2,5 = 0,0820.
17/10/2022 13:57 E-book
b) P (T ≤ 1000) = 1 – e – λt = 1 – e– 2,5 = 1 – 0,0820 = 0,918.
c) P (800 < T < 1000) = e (– 1/400) . 800 – e (– 1/400) . 1000 = 0,1353 – 0,820 = 0,0533.
A família exponencial inclui a maioria das distribuições de probabilidade da Estatística,

inclusive, os modelos contínuos e discretos. Nesse contexto, na família exponencial, há: a
fatoração de Neyman, U(x), para o parâmetro de interesse θ ; o modelo binomial x/θ (n,θ ); a
conjugada Beta (r, s), com parâmetros α + x e β + 1.
No infográfico a seguir, há alguns modelos de distribuições na inferência conjugada.
#PraCegoVer : o infográfico estático tem título “Principais modelos de distribuições na inferência

conjugada” e apresenta uma imagem de uma professora negra, com um quadro-negro do seu lado
direito. A professora está em pé e está segurando uma vareta com a mão esquerda, que aponta
para o quadro, e um livro com a mão direita. Ela possui cabelo roxo e usa uma camisa verde por
cima de uma blusa branca, saia curta preta e sapatos roxos. O quadro-negro apresenta as
seguintes informações: na primeira linha: “Principais modelos de distribuições na inferência
conjugada”; na segunda linha: “Distribuição normal: é simétrica, com forma de sino e
caracterizada por sua média µ e desvio-padrão δ”; na terceira linha: “Distribuição amostral:
especifica as probabilidades para valores possíveis que se possam assumir” e na quarta linha:
“Distribuição de probabilidade: possui parâmetros resumos, como, por exemplo, a média µ e o
desvio-padrão δ”.
Existem distribuições que apresentam variáveis aleatórias, com certos padrões. As variáveis
aleatórias são relevantes para cálculos de inferência. Assim, foram estruturadas em funções,
modelos ou distribuições de probabilidade fórmulas para expressões de variância.
17/10/2022 13:57 E-book
praticar
Vamos Praticar
A distribuição normal também faz parte da família conjugada, destacando as amostras de
tamanho n. Essa distribuição é considerada a mais relevante das distribuições de
probabilidade, em Estatística. Graficamente, ela é representada pela curva sob a área
gráfica descrita pelos parâmetros μ(média) e σ (desvio-padrão).
De acordo com a especificidade da distribuição normal, apresente uma aplicação, ou seja,

uma situação-problema em que essa distribuição pode ser aplicada e descreva a
importância dela na inferência conjugada.
17/10/2022 13:57 E-book
Material
Complementar
FILME
A grande aposta
Ano: 2014
‍Comentário: O filme apresenta aspectos probabilísticos, baseando-se

nos modelos de previsão. A história foca a crise econômica e, por
meio das inferências estatísticas, os protagonistas do filme preveem
uma grande crise na economia mundial.
Para conhecer mais sobre o filme, assista ao trailer, disponível em:
TRAILER
17/10/2022 13:57 E-book
LIVRO
Uma breve introdução à estatística bayesiana

aplicada ao melhoramento genético animal
Vivian Dagnesi Timpani e Thialla Emille Costa do Nascimento
Editora: Embrapa Amazônia Oriental
ISBN: 1983-0513; 412
Comentário: O livro apresenta conceitos de distribuição a priori,

inferência conjugada e aplicações em melhoramento genético de
animais e de plantas. Ainda, há a apresentação de alguns métodos e
modelos estatísticos associados, suas principais diferenças e
possíveis aplicações em diversas áreas, incluindo ciências da
natureza.
17/10/2022 13:57 E-book
Conclusão
Prezado(a) estudante, chegamos ao fim deste estudo, no qual definimos as distribuições de
probabilidade, conhecidas na inferência Bayesiana. Também, explicamos a relevância das
distribuições de probabilidade para a Estatística e apresentamos os hiperparâmetros.
Em seus estudos, estudante, lembre-se de analisar a maior parte das distribuições contínuas e
discretas e de verificar os conceitos relacionados à área da priori conjugada e seus modelos.
Referências
A GRANDE aposta – Trailer oficial legendado. [S. l.: s.
n.], 2015. 1 vídeo (42 s). Publicado pelo canal Telecine.
Disponível em: https://www.youtube.com/watch?
v=SLDImPR03BI . Acesso em: 14 jul. 2021.
AGRESTI, A. Métodos estatísticos para as ciências

sociais . 4. ed. Tradução de Lori Viali. Porto Alegre:
Penso, 2012.
CASELLA, G. Inferência estatística . São Paulo: Cengage Learning, 2010.
COSTA, G. G. de O. Curso de estatística inferencial e probabilidades : teoria e prática. São Paulo:

Atlas, 2012. (Biblioteca Ânima).
DEVORE, J. L. Probabilidade e estatística para engenharia e ciências . Tradução de Solange

Aparecida Visconte. Revisão técnica de Magda Carvalho Pires. São Paulo: Cengage, 2018.
EHLERS, R. S. Introdução à inferência bayesiana . Universidade de São Paulo. Instituto de Ciências

Matemáticas e de Computação. 2011. Disponível em:
17/10/2022 13:57 E-book
http://conteudo.icmc.usp.br/pessoas/ehlers/bayes/bayes.pdf . Acesso em: 14 jul. 2021.
MAIOLI, M. C. Inferência bayesiana como um procedimento de decisão . 2014. 45 f. Monografia

(Iniciação científica) – Instituto de Matemática, Estatística e Computação Matemática,
Universidade Estadual de Campinas, Campinas, 2014. Disponível em:
http://www.ime.unicamp.br/~laurarifo/alunos/monografiaMayara.pdf . Acesso em: 14 jul. 2021.
OLIVEIRA, C. C. F. de. Uma priori Beta para distribuição Binomial Negativa : Dissertação (Mestrado
em Biometria e Estatística Aplicada) – Universidade Federal Rural de Pernambuco, Recife, 2011.
Disponível em:
http://tede2.ufrpe.br:8080/tede/bitstream/tede2/4537/2/Cicero%20Carlos%20Felix%20de%20Oliveira.pd
. Acesso em: 19 jul. 2021.
17/10/2022 13:57 E-book

Infereência Bayesiana - Pt2

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Infereência Bayesiana - Pt2

Enviado por

Direitos autorais:

Formatos disponíveis

17/10/2022 13:57 E-book

Revisor: Raquel Lívia Nascimento Rodrigues

Tempo de leitura do conteúdo estimado em 1 hora.

Caro(a) estudante, este material apresenta a inferência Bayesiana referente às

Neste estudo, apresentaremos aspectos teóricos, exemplos práticos e conteúdos

A inferência conjugada, em seus modelos, requer distribuições amostrais por meio do

Prioris Conjugadas não

A distribuição a priori é definida por parâmetros específicos, de acordo com o conhecimento.

Portanto, na inferência Bayesiana, a priori é definida por parâmetros, de acordo com o

Na estatística Bayesiana, n é um vetor, θ = (θ1, . . . , θd) , de parâmetros sobre os quais se

Para as definições probabilísticas de contagem, há duas distribuições utilizadas com

A utilização de informação a priori em inferência Bayesiana requer a especificação

As distribuições a priori são relevantes para a construção e a comparação de dados e são

No quadro a seguir, há um resumo com as prioris conjugadas.

Prioris Distribuição Distribuição a

Quadro 2.1 - Inferência Bayesiana

#PraCegoVer : o quadro representa um breve resumo acerca da inferência estatística,

Figura 2.1 - Densidades a priori, a posteriori e função de verossimilhança

#PraCegoVer : na imagem, há a diferença amostral da priori , da posteriori e da verossimilhança. A

As distribuições não informativas são dadas por h(θ ) = 1

A distribuição a priori subjetiva é utilizada quando o pesquisador representa o parâmetro de

1. Priori não informativa : a informação dos dados é dominante, tornando-se, de

Portanto, as prioris conjugadas, com ideia de distribuições a priori e a posteriori , pertencem

Em uma análise Bayesiana padrão, geralmente, existem parâmetros na

Nesse contexto, a inferência Bayesiana representa as distribuições de probabilidade e o

Para a inferência estatística, a qual podemos chamar de inferência Bayesiana, amostras

No que se refere à inferência Bayesiana, também denominada inferência estatística,

a) O verdadeiro valor de θ é desconhecido.

As distribuições a priori têm alguns dos principais modelos contínuos de distribuição:

Observe um exemplo da distribuição binomial: a probabilidade de que um aluno acerte cada

P(4) ≅ 0,0595 ou 5,95%

A distribuição binomial é definida como a soma de n variáveis aleatórias de Bernoulli,

Ademais, é importante salientar que existem diversos modelos de probabilidade, mas há os

X|Y ∼ binomial (Y, p)

A variável aleatória de interesse, X = número de sobreviventes, tem a distribuição dada por:

P(X = x) y = 0 ∞ y = 0 P(X = x, Y = y) P(X = x|Y = y) P(Y = y) ∞ y . y = x . x px(1 − p) y − x e − λλy

P(X= x) = (λp) xe − λ x! ∞ (1 − p) λ y=x y − x (y − x).

Então, a distribuição de modelos contínuos apresenta intervalos numéricos, com gráficos em

Figura 2.2 - Distribuição de probabilidade, sob área da curva

Uma variável é discreta, se os resultados possíveis forem um conjunto de valores

A média, na distribuição contínua, significa encontrar o valor esperado para a média . No

Observe uma situação-problema em que você pode aplicar a distribuição contínua.

Se no estudo de ecologia de um lago fizermos medidas de profundidade em locais

A probabilidade é um grau de informação amostral, baseado no método da inferência

A figura a seguir retrata Thomas Bayes, o precursor do teorema de Bayes.

A teoria da probabilidade é uma forma de se obter

estabelecida por um processo de lógica indutiva, a partir

Fonte: Limojoe / Wikimedia Commons.

Se c/c, P(1 ≤ x ≤ 1,5) – ∫1 1,5

Algumas distribuições de probabilidade são importantes, porque aproximam bem

Figura 2.3 - Demonstração gráfica de distribuição normal

Observe um exemplo, para aprofundar seus conhecimentos.

Suponha que 20% de todas as cópias de um livro-texto apresentem falha em um

2. A probabilidade de exatamente 8 apresentarem falha é P(X = 8) = P(X ≤ 8) – P(X ≤ 7) =

Ainda, há a distribuição multinomial , com parâmetros n e θ e função de probabilidade

O conceito para o teorema multinomial é:

Fonte: Casella (2010, p. 163).

Figura 2.4 - Demonstração gráfica da distribuição exponencial

O modelo t-Student é utilizado, com frequência, quando não conhecemos o desvio-padrão da

Observe o exemplo acerca do teste t para uma amostra.

Valor da estatística do teste: (x − μ

Área sob uma curva tn–1 à direita de t

Área sob uma curva tn–1 à esquerda de t

2 × (Área sob uma curva tn–1 à direita de |t|)