Você está na página 1de 29

17/10/2022 13:57 E-book

INFERÊNCIA BAYESIANA
DISTRIBUIÇÕES A PRIORI
Autor(a): Ma. Gesseca Camara Lubachewski

Revisor: Raquel Lívia Nascimento Rodrigues

Tempo de leitura do conteúdo estimado em 1 hora.

Introdução
https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&c… 1/29
17/10/2022 13:57 E-book

Caro(a) estudante, este material apresenta a inferência Bayesiana referente às


apresentações e discussões das distribuições a priori . As prioris são definidas como
distribuições multivariadas e precisam de reflexão acerca do comportamento de cada
parâmetro e na dependência entre diferentes combinações dos parâmetros de interesse.

Neste estudo, apresentaremos aspectos teóricos, exemplos práticos e conteúdos


complementares que ampliam o conhecimento relacionado às temáticas da unidade: prioris
conjugadas não informativas, impróprias e subjetivas; inferência conjugada: modelos
contínuos; inferência conjugada: modelos discretos.

A inferência conjugada, em seus modelos, requer distribuições amostrais por meio do


método Bayesiano, com modelos de hiperparâmetros com interesse, com representações
probabilísticas. A priori é denominada hiperparâmetro, a fim de separar todos os parâmetros
que envolvem o interesse, e é representada de acordo com cada conhecimento.

Prioris Conjugadas não


Informativas,
Impróprias e Subjetivas

A distribuição a priori é definida por parâmetros específicos, de acordo com o conhecimento.


Esses parâmetros são denominados hiperparâmetros, para diferenciá-los do interesse. Na
inferência Bayesiana, as regras de atualização dos hiperparâmetros podem ser definidas,
tendo em vista que as distribuições permanecem. “Se F = {p(x) θ ), θ ∈ Θ } é uma classe de
distribuições amostrais, então, uma classe de distribuições P é conjugada a F, se ∀ p/ θ ∈ e
p(θ) ∈ P⇒ p(θ) ∈ P” (OLIVEIRA, 2011, p. 23).

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&c… 2/29
17/10/2022 13:57 E-book

Portanto, na inferência Bayesiana, a priori é definida por parâmetros, de acordo com o


conhecimento, denominados hiperparâmetros de interesse θ . Na priori conjugada, há a
distribuição a priori e posteriori , que estão inseridas na mesma classe e no conhecimento de
interesse θ .

Na estatística Bayesiana, n é um vetor, θ = (θ1, . . . , θd) , de parâmetros sobre os quais se


deseja fazer a inferência, especificando uma distribuição a priori f (θ) para θ, que, assim
como no caso de um parâmetro, é combinada com a verossimilhança, f (y|θ), pelo Teorema
de Bayes. Então, quando a priori demonstra uma pequena significância ou quando não
apresenta informações, a denominação é dada pela distribuição não informativa. Por sua
vez, a distribuição posterior tem as informações necessárias e suficientes ao parâmetro,
com estimativas, média e mediana a posteriori .

Para as definições probabilísticas de contagem, há duas distribuições utilizadas com


frequência: binomial e Poisson, as quais influenciam a priori dos dados.

A utilização de informação a priori em inferência Bayesiana requer a especificação


de uma distribuição a priori para a quantidade de interesse θ. Esta distribuição
deve representar (probabilisticamente) o conhecimento que se tem sobre θ antes
da realização do experimento (EHLERS, 2011, p. 14).

As distribuições a priori são relevantes para a construção e a comparação de dados e são


fundamentais para a inferência Bayesiana. As características principais de uma priori são:
espaço paramétrico e a posteriori, tendo em vista que uma reflexão acerca do conhecimento,
demonstra que não há necessidade da variável aleatória ser integrável, pois, dependendo da
amostra, o valor do parâmetro de interesse poderá ser analisado como uma priori subjetiva
ou objetiva.

No quadro a seguir, há um resumo com as prioris conjugadas.

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&c… 3/29
17/10/2022 13:57 E-book

Prioris Distribuição Distribuição a


Distribuição priori
conjugadas preditiva posteriori

A distribuição a
A distribuição da
A distribuição P = posteriori é
priori de é expressa
((X = x) é a P(X = x) é uma proporcional ao
por π e representa
distribuição a distribuição produto da
o conhecimento do
posteriori de dado preditiva de x . verossimilhança com
parâmetro de
x. a distribuição a priori
interesse ᶿ.
.

Quadro 2.1 - Inferência Bayesiana


Fonte: Elaborado pela autora.

#PraCegoVer : o quadro representa um breve resumo acerca da inferência estatística,


com as características principais da priori conjugada, de uma distribuição a priori , da
distribuição preditiva e de uma distribuição a posteriori.i . O quadro tem quatro colunas
e duas linhas. Seguindo da esquerda para a direita, na primeira coluna, há “ Prioris
conjugadas” e, embaixo, na segunda linha, há: “A distribuição P = ((X = x) é a distribuição
a posteriori de dado x”. Na segunda coluna, na primeira linha, há: “Distribuição priori” e,
embaixo, na segunda linha, há: “A distribuição da priori, é expressa por π”. Na terceira
coluna, na primeira linha, há: “Distribuição preditiva” e, embaixo, na segunda linha, há:
“P(X = x) é uma distribuição preditiva de x”. Na quarta e última coluna, na primeira linha,
há: “Distribuição a posteriori” e, embaixo, na segunda linha, há: “A distribuição a
posteriori é proporcional ao produto da verossimilhança com a distribuição a priori”.

A priori está associada a uma tratabilidade analítica, obtendo-se, assim, uma família de
distribuições conjugadas, relevante para a inferência Bayesiana. Além disso, a priori tem
níveis de informações que se destacam nos resultados amostrais e que possibilitam
confrontar a verossimilhança, identificar a priori e a posteriori e encontrar prioris impróprias.

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&c… 4/29
17/10/2022 13:57 E-book

Figura 2.1 - Densidades a priori, a posteriori e função de verossimilhança


Fonte: Adaptada de Ehlers (2011).

#PraCegoVer : na imagem, há a diferença amostral da priori , da posteriori e da verossimilhança. A


partir dos dados da priori e da posteriori, é possível fazer a comparação com os resultados
amostrais da verossimilhança. Para o resultado amostral, há um nível de informação que pode ser
identificado no gráfico.

A priori e a posteriori são relativas a p (θ|y e p (θ|x) respectivamente. Logo, a priori possui a
relação de θ para y, e a posteriori está relacionada a θ para x, denotando Y = y e X = x, uma
vez que se aplica o Teorema de Bayes.

A priori não informativa desempenha um papel relevante para demonstrar a posteriori como
parte do conhecimento acerca da informação sobre parâmetros de interesse. Além disso,
essa priori permite confrontar resultados obtidos na inferência amostral e descreve as
informações reais nas inferências da distribuição a priori .

As distribuições não informativas são dadas por h(θ ) = 1


,θ ∈ ∞ e provêm do princípio de
k

Bayes e Laplace, tendo em vista que a ideia principal é a reparametrização com a translação
de dados da verossimilhança.

A distribuição a priori subjetiva é utilizada quando o pesquisador representa o parâmetro de


interesse. Logo, a distribuição posteriori é a combinação da distribuição a priori e da
verossimilhança, em que os dados são verificados de acordo com a informação. A seguir, há
as classificações das distribuições.

1. Priori não informativa : a informação dos dados é dominante, tornando-se, de


certa maneira, uma priori vaga, com conhecimento vago, tendo em vista que
todos os valores de, estejam em uniformidade.

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&c… 5/29
17/10/2022 13:57 E-book

2. Priori imprópria : por meio da priori imprópria, é possível definir uma priori não
informativa, uma vez que a posteriori poderá ser própria.
3. Priori subjetiva : transforma as informações em pequenas quantidades
probabilísticas.
4. Priori conjugada : as distribuições a priori conjugadas proporcionam os
resultados da inferência a posteriori .

Portanto, as prioris conjugadas, com ideia de distribuições a priori e a posteriori , pertencem


a uma atualização de conhecimento e a mudanças de hiperparâmetros, enfatizando a
inferência Bayesiana, por meio de distribuições iguais.

Em uma análise Bayesiana padrão, geralmente, existem parâmetros na


distribuição a priori que precisam ser especificados pelo experimentador. Por
exemplo, considere a especificação X|θ ∼ n(θ,1), θ|τ2 ∼ n(0, |τ2 ). O
2
experimentador Bayesiano especificaria um valor a priori para θ , e uma análise
Bayesiana pode ser realizada. No entanto, uma vez que a distribuição marginal de
X é n(0,τ 2 + 1), ela contém informações sobre τ e pode ser utilizada para estimar
τ. Esta ideia de estimação de parâmetros a priori a partir da distribuição marginal
é o que distingue a análise empírica de Bayes (CASELLA, 2010, p. 330).

Nesse contexto, a inferência Bayesiana representa as distribuições de probabilidade e o


conhecimento do parâmetro θ na especificação da priori.

Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)

Para a inferência estatística, a qual podemos chamar de inferência Bayesiana, amostras


estratificadas, amostras por conglomerados e amostras multiestágios usam fórmulas
diferentes. Nesse sentido, uma inferência sobre um parâmetro deve fornecer uma

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&c… 6/29
17/10/2022 13:57 E-book

estimativa por ponto e indicar quão próximo, provavelmente, a estimativa está do valor do
parâmetro.

AGRESTI, A. Métodos estatísticos para as ciências sociais . 4. ed. Tradução de Lori Viali.
Porto Alegre: Penso, 2012.

No que se refere à inferência Bayesiana, também denominada inferência estatística,


assinale a alternativa correta.

a) O verdadeiro valor de θ é desconhecido.


b) O método Bayesiano é imprevisível.
c) O interesse desconhecido θ é observável.
d) A quantidade de informação sobre θ diminui acerca da intuição.
e) Existe distinção entre quantidades observáveis e o parâmetro θ.

Inferência Conjugada:
Modelos Contínuos

As distribuições a priori têm alguns dos principais modelos contínuos de distribuição:


distribuição normal, distribuição de Poisson, distribuição multinomial e distribuição binomial.

Observe um exemplo da distribuição binomial: a probabilidade de que um aluno acerte cada


questão de uma prova de 6 questões é 0,3. Se o aluno tentar resolver todas elas, de forma
independente, qual é a probabilidade de acertar 4 questões?

Solução:

4 4
P (4) = C 6 (0, 3) (1– 0, 3)((6–4)

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&c… 7/29
17/10/2022 13:57 E-book

P(4) ≅ 0,0595 ou 5,95%

A distribuição binomial é definida como a soma de n variáveis aleatórias de Bernoulli,


representada pela expressão P (X) = Cn x . px . pn−x .

Ademais, é importante salientar que existem diversos modelos de probabilidade, mas há os


que são utilizados com frequência, como é o caso da distribuição de Poisson.

Talvez, o modelo hierárquico mais clássico seja o seguinte: um inseto põe um grande
número de ovos, cada um com uma probabilidade de sobrevivência p. Em média, quantos
ovos sobreviverão? O “grande número” de ovos é uma variável aleatória e, geralmente,
assume-se que seja de Poisson (λ). Além disso, considerando que a sobrevivência de cada
ovo é independente, então, temos provas de Bernoulli. Portanto, se considerarmos para a
variável aleatória X o número de sobreviventes e para a variável y o número de ovos, temos
um modelo hierárquico:

X|Y ∼ binomial (Y, p)

Y ∼ Poisson (λ)

Utilizamos a notação, como X|Y ∼ binomial (Y, p), para significar que a distribuição
condicional de X, visto que Y = y, é binomial (y, p).

A vantagem da hierarquia é que processos complicados podem ser modelados por uma
sequência de modelos relativamente simples, colocados em uma hierarquia. Ademais, lidar
com hierarquia não é mais difícil do que lidar com distribuições condicionais e marginais.

A variável aleatória de interesse, X = número de sobreviventes, tem a distribuição dada por:

P(X = x) y = 0 ∞ y = 0 P(X = x, Y = y) P(X = x|Y = y) P(Y = y) ∞ y . y = x . x px(1 − p) y − x e − λλy


y! (definição da probabilidade condicional).

A probabilidade condicional é 0, se y < x), uma vez que X|Y = y é binomial (y, p) e Y é de
Poisson (λ). Se simplificarmos essa última expressão, cancelando o que pudermos e
multiplicando por λx/λx, obtemos:

P(X= x) = (λp) xe − λ x! ∞ (1 − p) λ y=x y − x (y − x).

Portanto, qualquer inferência marginal em X diz respeito a uma distribuição de Poisson (λp),
e Y não representa qualquer parte. A introdução de Y na hierarquia foi, principalmente, para
ajudar a entender o modelo. Existe uma vantagem a mais ao se considerar que o parâmetro
da distribuição de X é o produto de dois parâmetros, sendo cada um deles, relativamente,
simples de se entender.

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&c… 8/29
17/10/2022 13:57 E-book

Agora, a resposta à questão original é fácil de ser calculada: EX = λp, assim, em média, λp
ovos sobreviverão. Se estivéssemos interessados somente nessa média e não
precisássemos da distribuição, poderíamos ter utilizado propriedades de expectativas
condicionais. Algumas vezes, os cálculos podem ser bastante simplificados, ao se utilizar o
seguinte teorema da distribuição dos modelos continuos.

Então, a distribuição de modelos contínuos apresenta intervalos numéricos, com gráficos em


formato de curva, parecendo o desenho de um sino, como mostra a figura a seguir.

Figura 2.2 - Distribuição de probabilidade, sob área da curva


Fonte: Agresti (2012, p. 97).

#PraCegoVer : a figura mostra que a disposição da curva normal é determinada pela média, , e
pelo desvio-padrão, θ , os quais são considerados parâmetros da curva normal e estabelecem o
achatamento da curva.

Uma distribuição normal é simétrica, e a curva é definida pelos valores de μ e θ , sendo que
os valores específicos de ambos os parâmetros apresentam os resultados sob a área da
curva no intervalo desses valores. Na maioria das vezes, as prioris são expressas por
hiperparâmetros, no caso da distribuição com valores de interesse da média μ e no desvio-
padrão, em que o reconhecimento dos hiperparâmetros depende da amostra da situação
problema.

Distribuições contínuas
A distribuição contínua focaliza as probabilidades dos possíveis valores que uma variável
aleatória possa assumir. Uma variável aleatória contínua é considerada um conjunto de
intervalos, definido como infinito e incontável, sendo que as probabilidades de variáveis

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&c… 9/29
17/10/2022 13:57 E-book

aleatórias contínuas têm a área sob a curva em formato de sino, em que apenas um de seus
valores diferem-se de zero.

Uma variável é discreta, se os resultados possíveis forem um conjunto de valores


separados, por exemplo, uma variável expressada como “o número de...” com
valores possíveis 0, 1, 2, ... Ela é contínua se os resultados possíveis forem um
infinito contínuo. (AGRESTI, 2012, p. 95).

As distribuições contínuas podem ser definidas por meio da média, da variância e do desvio-
padrão, em que a variável considerada aleatória dessas distribuições poderá ser aplicado o
método de integração. As probabilidades contínuas estão associadas aos valores de
intervalos que assumem valores reais, sendo que, sob a área da curva gráfica, a densidade
ocupa valores acima do eixo das abcissas, entre os pontos de intervalo.

A média, na distribuição contínua, significa encontrar o valor esperado para a média . No


μ

que tange à variância, os valores esperados estão entre dois intervalos. Mediante a
distribuição contínua, podemos representar a densidade probabilística sob o intervalo de a
até b, descrevendo uma distribuição aleatória contínua.

Observe uma situação-problema em que você pode aplicar a distribuição contínua.

Se no estudo de ecologia de um lago fizermos medidas de profundidade em locais


selecionados aleatoriamente, então X = a profundidade neste local é uma variável contínua.
Nesse caso, A é a profundidade mínima na região da amostragem e B é a profundidade
máxima (DEVORE, 2018).

A probabilidade é um grau de informação amostral, baseado no método da inferência


Bayesiana, por meio das descrições de combinações e resultados de amostras coletadas a
partir de evidências. Ademais, as distribuições a priori estão relacionadas aos conceitos
básicos da inferência estatística, mediante a utilização da regra de Bayes, com as teorias
frequentista, subjetiva e clássica, sob o ponto de vista intuitivo e o teste de hipótese.

A figura a seguir retrata Thomas Bayes, o precursor do teorema de Bayes.

A teoria da probabilidade é uma forma de se obter


resultados amostrais, experimentos, modelos estatísticos
e fenômenos aleatórios. Por meio dos modelos
estatísticos, é possível realizar inferências, baseadas no
resultado total. Nesse contexto, Thomas Bayes foi um
matemático que definiu a teoria das probabilidades que,
consequentemente, recebeu o nome regra de Bayes,

t b l id d ló i i d ti ti

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 10/29
17/10/2022 13:57 E-book

estabelecida por um processo de lógica indutiva, a partir


de dados hipotéticos.

Fonte: Limojoe / Wikimedia Commons.

A distribuição normal é uma das mais relevantes distribuições contínuas, pois, com essa
distribuição, podem ser calculadas as probabilidades para outras distribuições, a binomial ,
por exemplo.

No caso da distribuição normal, considere que um pequeno desenho foi planejado para ser
distribuído, aleatoriamente, de maneira uniforme, no intervalo de [0, 2] metros de um cartaz
publicitário. Qual é a probabilidade de o pequeno desenho estar no intervalo entre 1 e 1,5
metros do cartaz?

Solução:

f(x) = 1/2, se 0 ≤ x ≤ 2 0

Se c/c, P(1 ≤ x ≤ 1,5) – ∫1 1,5


½

dx − ¼

Algumas distribuições de probabilidade são importantes, porque aproximam bem


as distribuições das variáveis do mundo real. Algumas são importantes por causa
do seu uso na inferência estatística. A distribuição de probabilidade normal é
importante por duas razões. Sua curva em forma de sino descreve bem muitos
histogramas de dados de muitas variáveis contínuas ou que assumem um grande
número de possíveis valores. Ela é a distribuição mais importante para a
inferência estatística, pois veremos que ela é útil mesmo quando os dados
amostrais não têm a forma de sino (AGRESTI, 2012, p. 99).

A distribuição normal está entre as distribuições mais utilizadas, sendo que as variáveis em
geral correspondem a um modelo normal, estabelecendo qualquer valor aleatório. Na região
gráfica, a área sob a curva é simétrica (em forma de sino), tendo em vista que a área total é
apresentada pelo eixo das abscissas no valor exato de 1. Observe a área gráfica de uma
distribuição normal na figura a seguir:

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&c… 11/29
17/10/2022 13:57 E-book

Figura 2.3 - Demonstração gráfica de distribuição normal


Fonte: Agresti (2012, p. 99).

#PraCegoVer : a imagem mostra que a curva em torno do valor esperado da média μ é simétrica,
ou seja, tem o formato de um sino. Além disso, a curva normal é limitada pela área total da curva.

Observe um exemplo, para aprofundar seus conhecimentos.

Suponha que 20% de todas as cópias de um livro-texto apresentem falha em um


determinado teste de resistência de encadernação. Seja X o número de cópias que
apresentam falhas entre 15 cópias selecionadas aleatoriamente. Então, X tem distribuição
binomial com n = 15 e p = 0,2.

8
1. A probabilidade de no máximo 8 apresentarem falha é P (X ≤ 8) =∑y= 0 b( y, 15;0,2) = B
(8;15;0,2) que é a entrada na linha x = 8 e na coluna p = 0,2 de n = 15 tabela binomial , em que
, a probabilidade é B(8; 15, 0,2) = 0,999.

2. A probabilidade de exatamente 8 apresentarem falha é P(X = 8) = P(X ≤ 8) – P(X ≤ 7) =


B(8; 15, 0,2) – B(7; 15, 0,2) que é a diferença entre duas entradas consecutivas na coluna p =
0,2. O resultado é 0,999 – 0,996 = 0,003.

Ainda, há a distribuição multinomial , com parâmetros n e θ e função de probabilidade


conjunta em p contagens X. Além disso, podemos considerar uma amostra aleatória da
distribuição média normal de valores desconhecidos.

O conceito para o teorema multinomial é:

Sejam m e n números inteiros positivos. Seja A o conjunto de vetores x = (x1, ..., xn) de n de
n
modo que cada xi é um número inteiro não negativo e ∑i = 1x 1 são números reais k1, ...,
kn, (k1 +· · ·kpn)m = (x + a) ^ n = ∑_(k = 0) ^ n〖(n¦k) x ^ k a ^(n-k)〗.

Fonte: Casella (2010, p. 163).

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 12/29
17/10/2022 13:57 E-book

Por sua vez, há a distribuição exponencial quando a variável aleatória é definida mediante
duas ocorrências e se contabiliza a média de tempo expressa por 1/ƛ.

Figura 2.4 - Demonstração gráfica da distribuição exponencial


Fonte: Casella (2010, p. 222).

#PraCegoVer : na figura, a distribuição exponencial não tem formato simétrico, e as funções têm
valores reais do parâmetro que, possivelmente, tem seu valor definido pelo vetor θ.

O modelo t-Student é utilizado, com frequência, quando não conhecemos o desvio-padrão da


amostra populacional σ. Para estimar μ, utilizaremos o desvio-padrão da amostra (S).

Esta distribuição é simétrica com média 0, mas não é a normal reduzida (Z), pois
S/ n é uma variável aleatória, o que não ocorre com (X – μ)/ σ/ n, em que o
denominador é uma constante. Para grandes amostras, o desvio-padrão amostral
S deve ser próximo de σ e as correspondentes distribuições t devem estar
próximas da normal reduzida Z. Existe uma família de distribuições cuja forma
tende à distribuição normal reduzida quando n cresce indefinidamente. Para
trabalharmos com uma distribuição t-Student, precisamos saber qual a sua forma
específica e isso é informado por uma estatística denominada grau de liberdade
(COSTA, 2012, p. 57).

Observe o exemplo acerca do teste t para uma amostra.

Hipótese nula: H0 = µ = µ0

Valor da estatística do teste: (x − μ


0
)/(s/\sqrtn)\)

Hipótese alternativa

Ha : m > m0

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 13/29
17/10/2022 13:57 E-book

Ha : m < m0

Ha : m1 ≠ m0

Determinação do valor-p

Área sob uma curva tn–1 à direita de t

Área sob uma curva tn–1 à esquerda de t

2 × (Área sob uma curva tn–1 à direita de |t|)

Suposição: os dados consistem de uma amostra aleatória de uma distribuição populacional


normal.

É possível verificar como se comporta uma distribuição t-Student e uma distribuição normal,
analisando a figura a seguir.

Figura 2.5 - Demonstração gráfica da distribuição t-Student (f (t)) e da distribuição normal (f


(z))
Fonte: Costa (2012, p. 58).

#PraCegoVer : a figura apresenta o comportamento gráfico de uma amostra que tem dados
amostrais a partir da distribuição t-Student e da distribuição normal. Observe que, quanto maior o
valor de φ.

A distribuição a priori Beta também é referenciada na inferência Bayesiana e diz respeito aos
parâmetros referentes a diferentes valores, expressos como hiperparâmetros de flexibilidade
e com distribuições de simetria.

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 14/29
17/10/2022 13:57 E-book

SAIBA MAIS

A família exponencial inclui muitas das distribuições de probabilidade mais comumente utilizadas
em Estatística, tanto contínuas quanto discretas. Uma característica essencial dessa família é que
existe uma estatística suficiente com dimensão. A família de distribuições com função de
densidade de probabilidade p (x|θ) pertence à família exponencial e há um parâmetro que
podemos escrever p (x|θ) = a (x) exp {u (x) φ (θ) + b (θ)}. Pelo critério de fatoração de Neyman, U
(x) é uma estatística suficiente para θ. Nesse caso, a classe conjugada é, facilmente, identificada
como p (θ) = k (α, β) exp {αφ (θ) + βb (θ)}. Aplicando-se o teorema de Bayes, obtemos: p (θ|x) = k
(α + u(x), β + 1) exp {[α + u(x)] φ (θ) + [β + 1] b (θ)}.

Agora, usando-se a constante k, a distribuição preditiva pode ser, facilmente, obtida, sem a
necessidade de qualquer integração. A partir da equação p (x) p (θ|x) = p (x|θ) p (θ), e após alguma
simplificação, obtemos: p (x) = p (x|θ) p (θ) p (θ|x) = a (x) k (α, β) k (α + u (x), β + 1).

Observe um exemplo prático.

Suponha que o número de eventos que ocorrem em um intervalo de tempo de duração t tenha
distribuição de Poisson com parâmetro at (em que a, a taxa do processo do evento, é o número
esperado de eventos que ocorrem em uma unidade de tempo) e que os números das ocorrências
em intervalos não sobrepostos sejam independentes uns dos outros. Então, a distribuição do
tempo decorrido entre a ocorrência de dois eventos sucessivos é exponencial com parâmetro l = a.

Para saber mais acerca desse assunto, acesse o link:


https://sites.icmc.usp.br/ehlers/bayes/bayes.pdf .

Fonte: Adaptado de Ehlers (2011).

A distribuição exponencial tem um ponto em que x = μ e os valores atribuídos aos


parâmetros são integráveis. Nesse sentido, para facilitar os cálculos, é relevante dividir as
integrais em regiões. Logo, uma distribuição exponencial não depende apenas dos valores
de interesse θ , estabelecendo-se a expressão para f (x|θ) por meio de uma função
indicadora.

praticar
https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 15/29
17/10/2022 13:57 E-book

praticar
Vamos Praticar
Uma população de entrevistadores, após um período de treinamento, foi submetida a um
teste padronizado de avaliação de conhecimentos adquiridos, obtendo média 100 e desvio-
padrão 10. Presumindo que as notas são distribuídas normalmente, calcule as seguintes
probabilidades, apontando a alternativa correta.:

a) P (100 < X < 120).

b) P (X > 120).

c) P (X > 80).

d) P (85 < X < 115).

e) P (X < 125).

Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)

O ramo da estatística que utiliza a probabilidade subjetiva como base é denominado


estatística bayesiana, em homenagem ao clérigo britânico Thomas Bayes, que descobriu
uma regra probabilística, com parâmetro de interesse.

AGRESTI, A. Métodos estatísticos para as ciências sociais . 4. ed. Tradução de Lori Viali.
Porto Alegre: Penso, 2012.

A distribuição de probabilidade tem parâmetros que descrevem:

a) os valores do parâmetro y.
b) o experimento ou a amostra aleatória.
c) o centro e a variabilidade.

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 16/29
17/10/2022 13:57 E-book

d) os valores do parâmetro parciais.


e) o desvio-padrão de uma distribuição normal.

Inferência Conjugada:
Modelos Discretos

Os modelos discretos da inferência estatística englobam as distribuições mais relevantes,


como a distribuição de Bernoulli, a distribuição de Poisson e a distribuição binomial.

Por exemplo, considere a realização de um único experimento, cujo resultado pode ser um
sucesso (se acontecer o evento que interessa) ou um fracasso (o evento não se realiza).
Definimos a variável aleatória discreta como X, e a distribuição de probabilidade de X está
presente no quadro a seguir.

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 17/29
17/10/2022 13:57 E-book

X Eventos P (X)

1 Sucesso P

0 Fracasso 1–p=q

Σ – 1

P(X) = p x . q 1 – x

Quadro 2.3 - Exemplo da distribuição de Bernoulli


Fonte: Adaptado de Costa (2012).

#PraCegoVer : o quadro apresenta três colunas e cinco linhas. Seguindo da esquerda


para a direita, de cima para baixo, há: na primeira coluna, “X”, “1”, “0”, “Σ”; na segunda
coluna, “Eventos”, “Sucesso”, “Fracasso”, “–”; na terceira coluna, “P (X)”, “P”, “1 – p = q”,
“1”, “P(X) = px . q1–x ”.

Considerando uma situação que envolve experimentos de sucesso e fracasso, há, por
exemplo, uma experiência aleatória que consiste no lançamento de um dado uma única vez.
O lançador quer que apareça a face 5. A variável aleatória assim definida é de Bernoulli, e
sua distribuição de probabilidade está presente no quadro a seguir.

X Eventos P (X)

1 Sucesso 1/6

0 Fracasso 5/6

Σ – 1

Quadro 2.4 - Exemplo da distribuição de Bernoulli


Fonte: Adaptado de Costa (2012).

#PraCegoVer : o quadro apresenta três colunas e cinco linhas. Seguindo da esquerda


para a direita, de cima para baixo, há: na primeira coluna, “X”, “1”, “0”, “Σ”; na segunda
coluna, “Eventos”, “Sucesso”, “Fracasso”, “–”; na terceira coluna, “P (X)”, “1/6", “5/6", “1”.

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 18/29
17/10/2022 13:57 E-book

A distribuição binomial é considerada em relação à soma de n valores aleatórios das


variáveis de Bernoulli. No elemento a seguir, há um exemplo da distribuição binomial.

1. A cor das sementes de ervilhas é determinada por um único locus genético. Se


dois alelos desse locus são AA ou Aa (o genótipo), então a ervilha será amarela
(o fenótipo) e, se o alelo for aa, será verde. Suponha que organizemos 20
sementes Aa aos pares e cruzemos as duas ervilhas de cada par para obtenção
de 10 novos genótipos. Cada novo genótipo será um sucesso S se for aa, e uma
falha, caso contrário.
Solução

Então, com o identificador S ou F, o experimento será binomial com n = 10 e p =


P (genótipo aa). Se cada membro do par for igualmente provável de contribuir
com a ou A, então p = P(a) × P(a) = (0,5) (0,5) = 25

2. Uma pessoa trabalha em três empregos, nos quais desenvolve atividades iguais
e é remunerada igualmente. A probabilidade de ela receber o pagamento até o
segundo dia útil, nos três empregos, é de 0,85. Qual é a probabilidade de ela
receber apenas um salário até o segundo dia útil?
Solução:

P (1) = C 13 (0,85) 1 (1 – 0,85) (3 – 1)


P (1) ≅ 0,0574 ou 5,74%

3. Considere que cada um dos próximos n veículos é submetido a um teste de
emissões e digamos que S denota um veículo que passa no teste e F denota um
veículo que não passou no teste. Portanto, este experimento satisfaz as
Condições 1-4. Lançar uma tachinha n vezes, com S = ponta para cima e F =
ponta para baixo, também resulta em um experimento binomial como no
experimento em que o gênero (S para feminino e F para masculino) é
determinado para cada uma das próximas n crianças nascidas em um
determinado hospital.

Muitos experimentos envolvem uma sequência de ensaios independentes para


os quais há mais de dois resultados possíveis em qualquer ensaio. Um
experimento binomial pode então ser criado, dividindo-se os resultados
possíveis em dois grupos.

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 19/29
17/10/2022 13:57 E-book

Considerando uma amostra aleatória da distribuição de Poisson, com parâmetro θ, sua


função de probabilidade conjunta é dada por p (x|θ) = e − nθθ t Q xi! ∝ e −nθθ t, θ > 0, t = Xn
i=1 xi. A seguir, há um exemplo de aplicação da distribuição de Poisson.

No Rio de Janeiro, o número de automóveis da linha Gol que entram em um estacionamento,


em um intervalo de uma hora, certamente, não é Poisson, mas o número de limusines que
entram no estacionamento, no mesmo período, deve ser Poisson. Nesse sentido, trata-se de
uma distribuição binomial em que:

n → ∞ e p→ 0;
μ = np = tλ.

Pode-se demonstrar que: limP (X) = P (X) = C


x
np
x
.q
n–x
é igual a P (X) = (e^(-μ)
μ^x)/x! (COSTA, 2012).

REFLITA

A distribuição a priori é parte fundamental da inferência


bayesiana. Se não determinamos alguma priori específica,
não conseguimos calcular a distribuição a posteriori ,
portanto, a análise bayesiana fica comprometida.
As diferentes escolhas de prioris podem proporcionar
resultados, ligeiramente, diferentes. Para a estatística
bayesiana, cada problema é único, sendo que a distribuição
a priori é formulada e, por incorporar o conhecimento do
investigador, pode ser diferente em cada problema. “Mesmo
que a verossimilhança seja a mesma, ao se utilizar
diferentes distribuições a priori , as distribuições a posteriori
serão diferentes, conduzindo, assim, a análises bayesianas
distintas”.
Fonte: Maioli (2014, p. 31).

Observe um exemplo prático de variável aleatória,

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 20/29
17/10/2022 13:57 E-book

Uma empresa comercializa latas luxuosas com amêndoas, castanhas de caju e amendoins
misturados. Suponha que o peso líquido de cada lata seja exatamente 1 quilograma, mas
que a contribuição do peso de cada constituinte seja aleatória. Como os três pesos devem
somar 1, um modelo de probabilidade conjunta para quaisquer dois fornece todas as
informações necessárias sobre o peso do terceiro tipo. Sejam X o peso das amêndoas em
uma lata selecionada e Y o peso das castanhas de caju. Então a região de densidade
positiva é D = {(x, y): 0 x 1, 0 y 1, x + y 1}.

Para qualquer x fixo, f(x, y) aumenta com y; para o y fixo, f(x, y) aumenta com x. A hipótese é
apropriada porque a palavra luxo implica que a maior parte da lata deve ser formada por
amêndoas e castanhas de caju em vez de amendoins, de forma que a função de densidade
deve ser grande próxima ao limite superior e pequena perto da origem. A superfície
determinada por f(x, y) tem declive positivo a partir de zero, conforme (x, y) se distancia dos
eixos. Claramente, f(x, y) 0. Para demonstrar a segunda condição de uma f.d.p. conjunta,
lembre-se de que a integral dupla é calculada como integral iterativa, mantendo uma variável
fixa , integrando em relação aos valores da outra variável que estão na reta que passa pelo
valor da variável fixa e, finalmente, integrando em relação a todos os valores possíveis da
variável fixa.

As distribuições são relevantes, pois contribuem para encontrar possíveis resultados de uma
variável aleatória. Nesse sentido, são utilizados dados amostrais para realizar as inferências
estatísticas acerca dos parâmetros das distribuições. Existem distribuições com parâmetros
fixos que contribuem, significativamente, para a inferência estatística.

praticar
Vamos Praticar
A distribuição contínua relaciona-se com a variável de valores contínuos; dentre as
distribuições mais relevantes, estão as distribuições normal e exponencial. No que diz
respeito à distribuição discreta, o valor da variável assume valor específico, no caso da
distribuição binomial e da distribuição de Poisson.

A partir do que foi apresentado, pesquise em livros, artigos científicos, revistas científicas,
dentre outros materiais, e faça uma análise individual das distribuições discretas e
contínuas mencionadas.

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 21/29
17/10/2022 13:57 E-book

Inferência Conjugada e
seus Modelos

Definimos a priori conjugada e seus modelos com base no conhecimento acerca da variável
aleatória θ , sendo que forma uma família exponencial de parâmetros indexadores das
distribuições a priori que passam a ser denominadas hiperparâmetros. Nesse contexto, a
conjugação da família exponencial

[...] é a distribuição de probabilidades do intervalo T entre dois sucessos


consecutivos de Poisson. O intervalo T é a variável aleatória. Refere-se à
mensuração de tempo (sobrevivência, duração de vida, espera numa fila etc.) ou
espaço (metros, quilômetros, páginas de um livro etc.) (COSTA, 2012, p. 50).

No exemplo a seguir, há uma situação que envolve a inferência conjugada.

Os defeitos de um tecido seguem a distribuição de Poisson, com média de um defeito a


cada 400 m. Descreva qual é a probabilidade de que o intervalo entre dois defeitos
consecutivos seja:

a) de, no mínimo, 1.000 m;

b) de, no máximo, 1.000 m;

c) entre 800 e 1.000 m.

Resolução:

a) λ = 1/400 defeitos/metros P (T ≥ 1000) = e – 1/4000 . 1000 = e – 2,5 = 0,0820.

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 22/29
17/10/2022 13:57 E-book

b) P (T ≤ 1000) = 1 – e – λt = 1 – e– 2,5 = 1 – 0,0820 = 0,918.

c) P (800 < T < 1000) = e (– 1/400) . 800 – e (– 1/400) . 1000 = 0,1353 – 0,820 = 0,0533.

A família exponencial inclui a maioria das distribuições de probabilidade da Estatística,


inclusive, os modelos contínuos e discretos. Nesse contexto, na família exponencial, há: a
fatoração de Neyman, U(x), para o parâmetro de interesse θ ; o modelo binomial x/θ (n,θ ); a
conjugada Beta (r, s), com parâmetros α + x e β + 1.

No infográfico a seguir, há alguns modelos de distribuições na inferência conjugada.

#PraCegoVer : o infográfico estático tem título “Principais modelos de distribuições na inferência


conjugada” e apresenta uma imagem de uma professora negra, com um quadro-negro do seu lado
direito. A professora está em pé e está segurando uma vareta com a mão esquerda, que aponta
para o quadro, e um livro com a mão direita. Ela possui cabelo roxo e usa uma camisa verde por
cima de uma blusa branca, saia curta preta e sapatos roxos. O quadro-negro apresenta as
seguintes informações: na primeira linha: “Principais modelos de distribuições na inferência
conjugada”; na segunda linha: “Distribuição normal: é simétrica, com forma de sino e
caracterizada por sua média µ e desvio-padrão δ”; na terceira linha: “Distribuição amostral:
especifica as probabilidades para valores possíveis que se possam assumir” e na quarta linha:
“Distribuição de probabilidade: possui parâmetros resumos, como, por exemplo, a média µ e o
desvio-padrão δ”.

Existem distribuições que apresentam variáveis aleatórias, com certos padrões. As variáveis
aleatórias são relevantes para cálculos de inferência. Assim, foram estruturadas em funções,
modelos ou distribuições de probabilidade fórmulas para expressões de variância.

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 23/29
17/10/2022 13:57 E-book

praticar
Vamos Praticar
A distribuição normal também faz parte da família conjugada, destacando as amostras de
tamanho n. Essa distribuição é considerada a mais relevante das distribuições de
probabilidade, em Estatística. Graficamente, ela é representada pela curva sob a área
gráfica descrita pelos parâmetros μ(média) e σ (desvio-padrão).

De acordo com a especificidade da distribuição normal, apresente uma aplicação, ou seja,


uma situação-problema em que essa distribuição pode ser aplicada e descreva a
importância dela na inferência conjugada.

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 24/29
17/10/2022 13:57 E-book

Material
Complementar

FILME

A grande aposta
Ano: 2014

‍Comentário: O filme apresenta aspectos probabilísticos, baseando-se


nos modelos de previsão. A história foca a crise econômica e, por
meio das inferências estatísticas, os protagonistas do filme preveem
uma grande crise na economia mundial.

Para conhecer mais sobre o filme, assista ao trailer, disponível em:

TRAILER

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 25/29
17/10/2022 13:57 E-book

LIVRO

Uma breve introdução à estatística bayesiana


aplicada ao melhoramento genético animal
Vivian Dagnesi Timpani e Thialla Emille Costa do Nascimento

Editora: Embrapa Amazônia Oriental

ISBN: 1983-0513; 412

Comentário: O livro apresenta conceitos de distribuição a priori,


inferência conjugada e aplicações em melhoramento genético de
animais e de plantas. Ainda, há a apresentação de alguns métodos e
modelos estatísticos associados, suas principais diferenças e
possíveis aplicações em diversas áreas, incluindo ciências da
natureza.

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 26/29
17/10/2022 13:57 E-book

Conclusão
Prezado(a) estudante, chegamos ao fim deste estudo, no qual definimos as distribuições de
probabilidade, conhecidas na inferência Bayesiana. Também, explicamos a relevância das
distribuições de probabilidade para a Estatística e apresentamos os hiperparâmetros.

Em seus estudos, estudante, lembre-se de analisar a maior parte das distribuições contínuas e
discretas e de verificar os conceitos relacionados à área da priori conjugada e seus modelos.

Referências
A GRANDE aposta – Trailer oficial legendado. [S. l.: s.
n.], 2015. 1 vídeo (42 s). Publicado pelo canal Telecine.
Disponível em: https://www.youtube.com/watch?
v=SLDImPR03BI . Acesso em: 14 jul. 2021.

AGRESTI, A. Métodos estatísticos para as ciências


sociais . 4. ed. Tradução de Lori Viali. Porto Alegre:
Penso, 2012.

CASELLA, G. Inferência estatística . São Paulo: Cengage Learning, 2010.

COSTA, G. G. de O. Curso de estatística inferencial e probabilidades : teoria e prática. São Paulo:


Atlas, 2012. (Biblioteca Ânima).

DEVORE, J. L. Probabilidade e estatística para engenharia e ciências . Tradução de Solange


Aparecida Visconte. Revisão técnica de Magda Carvalho Pires. São Paulo: Cengage, 2018.

EHLERS, R. S. Introdução à inferência bayesiana . Universidade de São Paulo. Instituto de Ciências


Matemáticas e de Computação. 2011. Disponível em:

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 27/29
17/10/2022 13:57 E-book

http://conteudo.icmc.usp.br/pessoas/ehlers/bayes/bayes.pdf . Acesso em: 14 jul. 2021.

MAIOLI, M. C. Inferência bayesiana como um procedimento de decisão . 2014. 45 f. Monografia


(Iniciação científica) – Instituto de Matemática, Estatística e Computação Matemática,
Universidade Estadual de Campinas, Campinas, 2014. Disponível em:
http://www.ime.unicamp.br/~laurarifo/alunos/monografiaMayara.pdf . Acesso em: 14 jul. 2021.

OLIVEIRA, C. C. F. de. Uma priori Beta para distribuição Binomial Negativa : Dissertação (Mestrado
em Biometria e Estatística Aplicada) – Universidade Federal Rural de Pernambuco, Recife, 2011.
Disponível em:
http://tede2.ufrpe.br:8080/tede/bitstream/tede2/4537/2/Cicero%20Carlos%20Felix%20de%20Oliveira.pd
. Acesso em: 19 jul. 2021.

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 28/29
17/10/2022 13:57 E-book

https://student.ulife.com.br/ContentPlayer/Index?lc=ah6S3dYyOO%2f9O%2f%2bKDvR7aw%3d%3d&l=Bjzsg1k27CxP54jKr1GmRQ%3d%3d&… 29/29

Você também pode gostar