Você está na página 1de 109

Notas de Estatı́stica Computacional

Giovani Loiola da Silva - giovani.silva@tecnico.ulisboa.pt


Dep. Matemática - Instituto Superior Técnico
11 Outubro 2022

Conteúdo
1 Introdução 2

2 Métodos Clássicos de Estimação e Algoritmos 18

3 Métodos de Reamostragem 30

4 Métodos de Monte Carlo 36

5 Métodos de Monte Carlo via Cadeias de Markov 48

6 Modelos Estatı́sticos 58

Exercı́cios propostos i

Soluções dos exercı́cios propostos xii

Tabelas xiv

Cı́rculo de Ciência de Dados

1
1 Introdução
Breve descrição do objeto da disciplina

ˆ Estatı́stica: Classificação de experiências segundo a (im)previsibilidade exata dos seus resultados.


Exemplos de experiências aleatórias:

– Repartição de defeitos estruturais em chapas metálicas usadas na indústria;


– Sexo do ser vivo resultante de um óvulo fecundado.

ˆ Estatı́stica Computacional: Uma classe de métodos estatı́sticos caracterizados pela intensidade


computacional e pela teoria de suporte para esses métodos.

 População HH
Y
 H
HH



Teoria da Probabilidade DADOS Inferência Estatı́stica

HH ? 
*
H  
HH
j Amostra 

Representação esquemática de um conjunto de dados (amostra) enquadrado na Teoria da Probabilidade


e Inferência Estatı́stica

1.1 Revisão de métodos clássicos de inferência estatı́stica*


Estimação pontual
Definição 1.1: Dada uma amostra (X1 . . . , Xn ) de uma população X, uma estatı́stica T é uma variável
aleatória (vetor aleatório) que é função da amostra, i.e., T = T (X1 , . . . , Xn ).
Definição 1.2: Um parâmetro é uma medida usada para descrever uma caracterı́stica da população,
denotado por vezes por θ.
Definição 1.3: Seja (X1 . . . , Xn ) uma amostra aleatória (a.a.) de uma população X indexada pelo
parâmetro θ. Um estimador de θ é uma estatı́stica T = T (X1 , . . . , Xn ) usada para estimar θ sendo o seu
valor observado t = T (x1 , . . . , xn ) conhecido por estimativa.
Nota 1.1: Métodos de estimação: máxima verossimilhança, momentos, mı́nimos quadrados, etc.

Estimação por intervalos

Seja (X1 , . . . , Xn ) uma amostra aleatória de uma população X, indexada por um parâmetro θ. Por vezes,
torna-se mais valioso especificar um intervalo que contém o verdadeiro valor de θ com um certo grau de
confiança do que apenas estimar θ pontualmente.
Definição 1.4: Seja (X1 , . . . , Xn ) uma amostra aleatória de uma população X indexada por um parâmetro
θ ∈ Θ. Se Ti = Ti (X1 , . . . , Xn ), i = 1, 2, são duas estatı́sticas tais que T1 < T2 e

P (T1 < θ < T2 ) = γ.

2
onde γ é um valor fixado entre 0 e 1, diz-se que (T1 , T2 ) é um intervalo aleatório de confiança (IAC) para
θ com grau de confiança γ.
Exemplo 1.1: Seja (X1 , . . . , Xn ) uma a.a. de X ∼ N (µ, σ 2 = 4). Qual o IAC para µ com grau de
confiança de 95%?
Sabe-se que X̄ é um estimador de µ e que

X̄ − µ
X̄ ∼ N (µ, σ 2 /n) ⇒ Z= p ∼ N (0, 1)
4/n

Por outro lado, P (−1.96 < Z < 1.96) = γ = 0.95 e consequentemente


p p
P (X̄ − 1.96 4/n < µ < X̄ + 1.96 4/n) = 0.95,

indicando que o intervalo aleatório de confiança a 95% pretendido para µ é expresso por (T1 , T2 ), em que
p p
T1 = X̄ − 1.96 4/n e T2 = X̄ + 1.96 4/n.

Dado uma amostra particular (x1 , . . . , xn ), a concretização do intervalo aleatório de confiança para µ
com grau de confiança γ é designada por intervalo de confiança a 100γ% para µ, dado por
p
(t1 , t2 ) = (t1 (x1 , . . . , xn ), t2 (x1 , . . . , xn )) = x̄ − 1.96 4/n. ■

A probabilidade γ é interpretada como a frequência relativa de todos os intervalos (t1 , t2 ) que contêm
θ obtidos numa sequência infinitamente grande de observações repetidas de (X1 , . . . , Xn ) (perspetiva
frequencista). Entretanto, 
1, θ ∈ (t , t ),
1 2
γ ̸= P (t1 < θ < t2 ) =
0, c.c.

Nota 1.2: Os intervalos de confiança são obtidos aqui pelo método da variável fulcral ou método pivotal.

Testes de hipóteses

Um teste de hipóteses paramétricas usualmente visa comparar diferentes valores para parâmetros de uma
dada população X. Por exemplo, para o parâmetro desconhecido µ de X ∼ N (µ, σ 2 ).
Procedimento geral de um teste de hipóteses paramétricas:

1. Hipóteses de interesse:

ˆ Hipótese nula H0 (e.g., µ = µ0 ; µ ≥ µ0 ou µ ≤ µ0 ).


ˆ Hipótese alternativa H1 (e.g., µ ̸= µ0 → teste bilateral; µ < µ0 ou µ > µ0 → testes unilaterais).

2. Erros associados à regra de teste, cujas correspondentes probabilidades são dadas por

ˆ α = P (Erro do tipo I) = P (Rejeitar H0 |H0 verdadeira).


ˆ β = P (Erro do tipo II) = P (Aceitar H0 |H0 falsa).

3. Região crı́tica (RC):

ˆ Região que conduz à rejeição da hipótese nula H0 pela regra do teste. Construı́da com base
numa estatı́stica apropriada T = T (X1 , . . . , Xn ) denominada estatı́stica do teste.
ˆ A RC é construı́da tal que P (T ∈ RC|H0 verdadeira) = α, com α (nı́vel de significância)
fixado previamente nos valores usuais de 1%, 5% e 10%. Esta RC será denotada por RCα .

3
4. Regra do teste de hipótese:

ˆ Se T ∈ RCα , rejeita-se H0 ao nı́vel de significância de 100α%. Caso contrário, não se rejeita


H0 a 100α%.
ˆ Quanto menor for o nı́vel de significância do teste, tanto maior será a precaução contra o risco
de rejeição incorrecta de H0 .

A determinação de β exige a especificação de cada valor alternativo para o parâmetro em teste, dado
que H1 é geralmente composta (e.g., β(µ) = P (T ∈ / RC|µ ̸= µ0 )).
A função 1−β(µ) é conhecida por potência do teste para H1 verdadeiro. Ou seja, para um dado valor de
µ, a potência do teste é a probabilidade de rejeição de H0 quando µ é o verdadeiro valor do parâmetro.

α(µ), H0 verdadeiro
P (Rejeitar H0 |µ) =
1 − β(µ), H1 verdadeiro.

Exemplo 1.2: Seja X1 , . . . , X16 uma a.a. de X (quantidade de café por pacote) em que a média e variância
empı́ricas de uma sua concretização são 480g e 800g 2 , respetivamente. Considerando X ∼ N (µ, σ 2 ), teste
se a máquina está a encher pacotes de café com pelo menos 500g, ao nı́vel de 5% de significância.
Teste de hipóteses:

1. Hipóteses: H0 : µ ≥ 500 versus H1 : µ < 500.


X̄−500 µ=500 p
2. Estatı́stica do teste: T = √
S/ n
∼ t(15) , cujo valor observado é t0 = (480 − 500)/ 800/16 =
−2.83.

3. Região crı́tica unilateral: Fixado α = 0.05, Ft−1


(15)
(0.95) = 1.753 e RC5% = (−∞, −1.753), dado que
valores decrescentes de T tendem a reflectir valores mais pequenos de µ.

4. Conclusão: Como t0 ∈ RC5% , rejeita-se H0 ao nı́vel de significância de 5%, i.e., há evidência contra
a hipótese de enchimento de pacotes de café com pelo menos 500g.

Note-se que a decisão do teste varia com a escolha de α, i.e.,

α RCα decisão do teste


0.05 (−∞, −1.753) rejeita-se H0
0.01 (−∞, −2.602) rejeita-se H0
0.006 (−∞, −2.857) não se rejeita H0

O menor valor do nı́vel de significância α que conduz à rejeição de H0 é P = P (T < −2.83|H0 ) = 0.0063.

Valor-P do teste
Definição 1.5: O valor-P de um teste de hipóteses é a probabilidade sob H0 de a estatı́stica do teste tomar
valores tão ou mais desfavoráveis a H0 do que o seu valor observado. Deste modo, H0 será rejeitado a
todo nı́vel de significância α tal que P < α e aceite no caso contrário.

Teste de ajustamento do qui-quadrado de Pearson

Interessa agora saber como se podem testar hipóteses sobre a própria forma distribucional de uma dada
população, objecto dos chamados testes de ajustamento.
Construção da estatı́stica do teste do qui-quadrado de Pearson:

4
1. Considere uma amostra aleatória de n elementos sobre os quais se observa uma variável X, sendo
as respetivas observações classificadas numa partição da recta real, B1 , . . . , Bk , de modo que Oi
Pk
denota o número de elementos da amostra agrupados em Bi , i = 1, . . . , k, tal que i=1 Oi = n.

2. Seja pi = P (X ∈ Bi ) a probabilidade de obter uma observação na i-ésima parte da partição,


Pk
i = 1, . . . , k, tal que i=1 pi = 1.

3. O vetor aleatório O = (O1 , . . . , Ok ) tem f.m.p. dada por

n!
fO (o1 , . . . , ok ) = po1 po2 · · · pokk ,
o1 ! . . . ok ! 1 2
conhecida por distribuição Multinomial (n, p = (p1 , . . . , pk )), podendo-se provar que Oi ∼ Binomial(n, pi ),
i = 1, . . . , k.

4. Hipóteses:

ˆ H0 : X ∼ FX (·) ⇒ pi = p0i , ∀ i = 1, . . . , k.
ˆ H1 : X ≁ FX (·) ⇒ pi ̸= p0i , ∃ i = 1, . . . , k.

5. Estatı́stica do teste:
k
X (Oi − Ei )2 H0
Q= ∼ χ2(k−m−1) ,
i=1
Ei a

onde Ei = E(Oi |H0 ) = n p0i


e m é o total de parâmetros estimados de FX (·) sob H0 . Se m > 0,
0
{pi } são ainda desconhecidos implicando que Ei sejam estimadores (apropriados) das frequências
esperadas.

Modelos de regressão

Há variáveis aleatórias (Y ) que podem ser explicadas por acção conjunta de fatores determinı́sticos (g(x))
e aleatórios (ϵ). Supondo uma estrutura aditiva entre elas, a variável de interesse é dada por

Y = g(x) + ϵ.

Nesse cenário, o conjunto de dados é formado por n pares (yi , xi ), i = 1, . . . , n, com os xi supostamente
especificados sem erro. Considerando uma amostra casual (Yi , xi ), i = 1, . . . , n, um modelo estatı́stico
para relacionar Y e x é o modelo de regressão linear simples

Yi = β0 + β1 xi + ϵi ,

onde Yi é a variável resposta do i-ésimo elemento da amostra, xi é o correspondente valor da variável


explicativa (fixa), β0 e β1 são parâmetros (desconhecidos) e ϵi é o erro aleatório do elemento i da
amostra.
Suposições usuais para os erros aleatórios ϵi , i = 1, . . . , n:

ˆ E(ϵi ) = 0. Isso implica que para um dado valor de x,

E(Y |x) = β0 + β1 x,

conhecida por equação ou recta de regressão do modelo.

ˆ V ar(ϵi ) = σ 2 , ∀ i variância constante.

5
ˆ ϵ1 , . . . , ϵn são não correlacionados (ou independentes).

ˆ ϵi segue uma distribuição Normal, i = 1, . . . , n.

Interpretação dos parâmetros de regressão:

ˆ A ordenada na origem β0 é o valor esperado de Y para um valor nulo da covariável x.

ˆ O declive da recta de regressão β1 é a variação do valor esperado de Y por cada incremento unitário
em x.

1.2 Resumo de inferência bayesiana


Estatı́stica Clássica versus Estatı́stica Bayesiana
Dados: concretização de um v.a. X, x ∈ X / x = (x1 , . . . , xn ), X ⊆ IRn
Modelo estatı́stico: Especificação com base em natureza do fenómeno, tratamento prévio de fenómenos
análogos, evidência experimental, objetivos do estudo, requisitos de parcimónia e interpretabilidade.

F = {f (x|θ), x ∈ X : θ ∈ Θ},

mas sem conhecimento do valor do ı́ndice θ que produziu os dados; e.g.,


n
Y
Θ ∈ IRk , f (x|θ) = f (xi |θ) (modelo amostral). (1.1)
i=1

Paradigma clássico

Princı́pio da amostragem repetida: avaliador dos procedimentos inferenciais através da análise do seu
comportamento num número indefinido de hipotéticas repetições em condições essencialmente idênticas
do esquema aleatório originador da amostra (pressuposto).
=⇒ medição da incerteza baseada no conceito frequencista de probabilidade.
Via inferencial: Variáveis aleatórias observáveis (total ou parcialmente) e suas distribuições por amostra-
gem associadas a F, com base nas quais se avaliam as propriedades das inferências pré-experimentalmente.

Exemplo 1.3: Ensaio clı́nico a uma amostra de n pacientes visando inferir a probabilidade θ de controlo
da respetiva doença por uma nova droga.
Dados: (x1 , . . . , xn ) ←− (X1 , . . . , Xn ) : Xi , i = 1, . . . , n, ∼ Bernoulli(θ).
iid

1 Pn
ˆ Interpretação (frequencista) de θ: limn→∞ Xi .
n i=1
ˆ Teste de H0 : θ ≥ 80%.
X̄−0.80 a
Usando a estatı́stica do teste: T = √ ∼ N (0, 1), com a probabilidade máxima de
0.80×0.20/n θ=0.80
rejeição incorreta de H0 de 5%, haverá evidência contra tal conjetura se se verificar que
p
X̄ ≤ 0.80 − 1.645 0.8 × 0.2/n.

a
ˆ Estimação por intervalos de θ: √ X̄−θ ∼ N (0, 1)
X̄(1−X̄)/n
 q  
⇒P X̄ ± 1.96 X̄(1 − X̄)/n conter o valor θ | θ = 0.95. ■

6
Paradigma bayesiano

Teorema de Bayes (Teorema A.1): Instrumento inferencial fundamental.


Elementos de trabalho:

1. Dados amostrais do modelo {f (x|θ) : θ ∈ Θ} em (1.1),

2. Informação apriorı́stica (anterior ou externa a tal amostra) sobre o que é desconhecido quantificada
em distribuição a priori (inicial):

h(θ) : θ ∈ Θ. (1.2)

Na base do argumento crucial, “Tudo o que é desconhecido é incerto e toda a incerteza é suscetı́vel de
ser quantificada probabilisticamente!”
⇒ parâmetros dos modelos amostrais encarados como aleatórios, numa base tipicamente subjetiva.
Conceito subjetivista de probabilidade — Grau de crença pessoal na ocorrência do evento (veracidade
da proposição), na base da evidência disponı́vel.
=⇒ distribuição a posteriori (final):

h(θ)f (x|θ) h(θ)f (x|θ)


h(θ|x) = ≡R θ ∈ Θ. (1.3)
p(x) Θ
f (x|θ)h(θ)dθ

em que p(x), ∀x, traduz a distribuição marginal dos dados observáveis X.


⇒ Precisão das inferências: pós-experimental (final).
Exemplo 1.4 (vide Exemplo 1.3):
Qn P P
xi
ˆ Modelo amostral: f (x|θ) = xi
i=1 θ (1 − θ)
1−xi
=θ i (1 − θ)n− i xi .

ˆ Distribuição a priori : θ ∼ Beta(a, b), i.e., h(θ) ∝ θa−1 (1−θ)b−1

E(θ) = a/(a + b) = 0.40, V ar(θ) = ab/((a + b)2 (a + b + 1)) = 0.01


⇒ θ ∼ Beta(9.2, 13.8).
P P
⇒ h(θ|x1 , . . . , xn ) ∝ θa+ i xi −1 (1 − θ)b+n− i xi −1 , θ ∈ (0, 1)
P P
∴ θ|x1 , . . . , xn ∼ Beta(A, B), A = a + i xi ; B = b + n − i xi .
P
Se nos dados, n = 100, i xi = 30, então A = 39.2, B = 83.8 ⇒

ˆ E(θ|x) = 0.319;

ˆ
p
V ar(θ|x) = 0.04;

ˆ P [θ ∈ (0.238, 0.401)|x] = 0.95.

7
a posteriori

8
a priori

6
Densidade

4
2
0

0.0 0.2 0.4 0.6 0.8 1.0

Distribuições a priori Beta(9.2,13.8) e a posteriori Beta(39.2,83.8)

Caraterı́sticas da metodologia bayesiana

ˆ A distribuição a posteriori h(θ|x), θ ∈ Θ, é a descrição completa do conhecimento corrente sobre


θ, obtido da quantificação da informação a priori (em h(θ)) e da informação amostral (em f (x|θ)).

ˆ A parte relevante de f (x|θ) para propósitos inferenciais é o fator que involve θ. Tomando-o como
a função de verosimilhança L(θ|x), esta é encarada como o veı́culo de toda a informação amostral.

⇒ Funções de verosimilhança proporcionais conduzem à mesma distribuição a posteriori , que é


o fulcro de todas as inferências sobre o parâmetro.
⇒ Satisfaz princı́pios (suficiência, condicionalidade e verosimilhança) que supostamente toda a
Inferência Estatı́stica deve respeitar.

ˆ A operação bayesiana de atualização do conhecimento tem uma natureza sequencial: X = (X1 , X2 ), X1 ⊥



X2 | θ
h(θ|x1 )f (x2 |θ)
h(θ|x) = R , p(x1 ) > 0
Θ
h(θ|x1 )f (x2 |θ)dθ
∴ h(θ|x) é a atualização de h(θ|x1 ) como distribuição a priori pela verosimilhança f (x2 |θ).

ˆ Simplicidade conceptual e uniformidade na eliminação de parâmetros perturbadores, θ = (γ, ϕ) ∈


Γ × Φ, γ parâmetro de interesse.
R
⇒ Cálculo de h(γ|x) = Φ h(γ, ϕ|x)dϕ.

Estimação pontual

Este problema consiste na determinação de um ponto tı́pico da distribuição a posteriori . Escolhas


possı́veis:

ˆ Moda a posteriori
θ̂ : h(θ̂|x) = max h(θ|x) = max [h(θ)f (x|θ)] .
θ∈Θ θ∈Θ

8
ˆ Média a posteriori Z
θ̂ = E [θ|x] : E [θi |x] = θi h(θ|x)dθ, ∀ θi de θ.
Θ

ˆ Vetor das medianas a posteriori


(
P [ θi ≥ θ̂i |x ] ≥ 1/2
θ̂ = (θ̂i ) :
P [ θi ≤ θ̂i |x ] ≥ 1/2, ∀i.
P
Exemplo 1.5 (vide Exemplo 1.4): Modelo bayesiano Bernoulli ∧ Beta. Tomando A = a + i xi = 39.2
P
e B = b + n − i xi = 83.8, θ|{xi } ∼ Beta(A, B)

A−1
ˆ Moda a posteriori : θmo = = 0.316
A+B−2
A
ˆ Média a posteriori : θme = = 0.319
A+B
−1
ˆ Mediana a posteriori : θmd = FBeta(A,B) (1/2) = 0.318. ■

Nota 1.3: Uma justificação cabal para uma dada opção entre estes (para além da sua relevância no
problema) exige a incorporação na análise de uma informação adicional sobre as consequências (custos)
de cada um
⇒ estimadores Bayes (âmbito da Teoria da Decisão Estatı́stica).

Estimação por regiões

Um resumo de h(θ|x) mais informativo do que qualquer estimativa pontual é obtido de uma região de
Θ que contenha uma parte substancial da massa probabilı́stica a posteriori — o paralelo bayesiano da
região de confiança:
Definição 1.6: R(x) é uma região de credibilidade (RC) γ para θ, se
Z
P [θ ∈ R(x)|x] ≡ h(θ|x)dθ ≥ γ.
R(x)

Observações:

ˆ Toda a região de credibilidade é definida numericamente (i.e. , não é aleatória) e admite uma
interpretação probabilı́stica direta e inequı́voca — contraste-se com a região de confiança clássica.

ˆ Dada a infinidade de RC com a mesma credibilidade γ, interessa obviamente selecionar aquela que
englobe todos os valores de θ mais credı́veis a posteriori , ou seja aquela que satisfaz a condição

h(θ1 |x) ≥ h(θ2 |x), ∀ θ1 ∈ R(x), θ2 ̸∈ R(x).

Definição 1.7 Critério HPD (High Posterior Density) ou de volume mı́nimo): R(x) é a região de credi-
bilidade γ com densidade (probabilidade) a posteriori máxima se

R(x) = {θ : h(θ|x) ≥ cγ } ,

com cγ > 0 a maior constante tal que P [θ ∈ R(x)|x] ≥ γ.

ˆ As RC HPD não são invariantes face a transformações paramétricas não lineares.

9
ˆ A determinação das RC HPD na prática exige frequentemente o recurso a métodos numéricos, a
não ser que para θ ∈ IR h(θ|x) seja uma função simétrica. Para distribuições a posteriori contı́nuas
em IR, o cálculo numérico da RC HPD R(x|c) = {θ : h(θ|x) ≥ c} demanda:

- uma primeira sub-rotina que encontre as soluções das equações h(θ|x) = c para c > 0 variável,
definidoras de R(x|c);
- uma segunda sub-rotina que avalie as probabilidades P [θ ∈ R(x|c)|x] .

Uma vez encontrado c tal que P [θ ∈ R(x|c)|x] = γ, a região R(x|c) será HPD com credibilidade γ.

Exemplo 1.6 (vide Exemplo 1.5): Modelo bayesiano Bernoulli ∧ Beta


⇒ θ|x ∼ Beta(39.2, 83.8)

ˆ IC HPD a 95%: (0.238, 0.401)


- determinável pelo software FIRST BAYES
(http://tonyohagan.co.uk/1b/)

ˆ IC HPD a 95%: (0.240, 0.403)


- determinável pelo software R
(http://www.r-project.org/)1 .


Exemplo 1.7: Modelo bayesiano Normal (desvio padrão conhecido) ∧ “Uniforme”
{X1 , . . . , Xn } i.i.d. de {N (µ, σ 2 ), σ 2 conhecido} e h(µ) = k
⇒ µ|x ∼ N (x̄, σ 2 /n).
Estimação pontual de µ: µ̂ = x̄
Região de credibilidade 100γ% HPD:
 
σ 1+γ
R(x) = x̄ ± √ Φ−1
n 2

Nota 1.4: P [µ ∈ R(x)|x] = γ (medida de precisão final)


P [µ ∈ R(X)|µ] = γ (medida de precisão inicial)
P [µ ∈ R(x)|µ] = IR(x) (µ).

Testes de hipóteses

O problema de testar
H0 : θ ∈ Θ0 contra H1 : θ ∈ Θ1 = Θ − Θ0

é também conceptualmente mais simples do que num contexto clássico. Atendendo à interpretação pro-
babilı́stica direta das hipóteses em confronto, não se tem mais do que calcular as respetivas probabilidades
a posteriori e optar por uma delas em função de algum critério assente na sua grandeza relativa.
⇒ Cálculo das chances a posteriori pró-H0 :

P [H0 |x]
O(H0 , H1 |x) = . (1.4)
P [H1 |x]
1 Função R qbeta e.g. qbeta(0.975, 39.2, 83.8) = 0.4033296.

10
Com o objetivo de medir a influência dos dados x na alteração da credibilidade relativa de H0 e H1 ,
opta-se por contrapor as chances a posteriori a favor de H0 às respetivas chances a priori , através do
Fator de Bayes pró-H0 :
R
P [H0 |x] /P [H1 |x] f (x|θ)h0 (θ)dθ
B(x) = = RΘ0 , (1.5)
P [H0 ] /P [H1 ] Θ1
f (x|θ)h1 (θ)dθ
R
onde hi (θ) é a distribuição a priori (f.d.p.) condicionada em Hi , i.e., hi (θ) = h(θ)/ Θi
h(θ)dθ, i = 0, 1.
Uma situação em que B(x) >> 1 ou B(x) << 1 reflete uma tendência bastante forte nos dados a favor
de uma hipótese contra a outra, entendida no sentido de que uma hipótese é muito mais ou muito menos
provável a posteriori do que era a priori .
Na prática inferencial costuma-se usar regras orientadoras sobre a interpretação da evidência contida nos
dados, como por exemplo estas

B(x) 2 ln B(x) Evidência


<1 <0 pró-H1
1−3 0−2 fraca pró-H0
3 − 20 2−6 pró-H0
20 − 150 6 − 10 forte pró-H0
> 150 > 10 muito forte pró-H0
P
Exemplo 1.8 (vide Exemplo 1.6): Modelo Bernoulli ∧ Beta com θ ∼ Beta(9.2, 13.8) e n = 100, i xi = 30
⇒ θ|x ∼ Beta(39.2, 83.8).
Problema: θ ≥ 35% versus θ < 35%
0.679 0.225
O(H0 , H1 ) = = 2.115; O(H0 , H1 |x) = = 0.29
0.321 0.775
⇒ B(x) = 0.137 ⇔ 1/B(x) = 7.3
∴ A chance a posteriori pró-H1 é mais de 7 vezes a respetiva chance a priori , implicando que H1 é ainda
mais provável (mas apenas cerca de 3 vezes) do que H0 como consequência de a priori H1 ser menos
provável que H0 . ■
Observações:

1. A forma dos testes bayesianos elimina a necessidade de uma distinção formal entre o que é a hipótese
nula e o que é a hipótese alternativa e a natureza assimétrica do teste clássico.

2. O valor-P de testes unilaterais pode ter justificação bayesiana como uma probabilidade a posteriori
da hipótese nula podendo as duas quantidades ser semelhantes (mas não iguais) ou radicalmente
diferentes.

3. Ainda que P [H0 |x] e o nı́vel crı́tico (valor-P) coincidam, as conclusões do teste bayesiano e clássico
podem ser contrárias.

4. Dada a forma essencial dos testes bayesianos, o problema de testar hipóteses múltiplas não acarreta
dificuldades acrescidas relativamente ao problema usual de confronto de duas hipóteses.

Predição

Com base em observações x de um vetor aleatório X ∼ f (x|θ) (e eventualmente em todo o conhecimento


acumulado sobre θ), pretende-se predizer Y com distribuição amostral dependente de θ.

11
Este problema, que pode ser controverso na abordagem clássica, tem também, na ótica bayesiana, uma
solução conceptualmente (pelo menos) simples: cálculo da distribuição preditiva a posteriori
Z
p(y|x) = f (y|x, θ)h(θ|x)dθ. (1.6)
Θ

Uma vez obtida esta, podem determinar-se medidas que a sumariam, como predições pontuais (moda,
predição média, etc.) e regionais (regiões de predição com a mais alta densidade preditiva) de Y .
Exemplo 1.9 (vide Exemplo 1.7): Modelo bayesiano Normal (desvio padrão conhecido) ∧ “Uniforme”
−1/2
σ2
 n n o
f (x|µ) ∝ 2π exp − 2 (x̄ − µ)2 ∧ h(µ) = k
n 2σ

=⇒ h(µ|x) = f.d.p. de N (x̄, σ 2 /n).


Predição da média Ȳ de m observações i.i.d. futuras da distribuição N (µ, σ 2 ) e independentes de X
dado µ, Ȳ |x, µ ∼ N (µ, σ 2 /m):

∴ Ȳ |x ∼ N (x̄, σ 2 ((1/m) + (1/n))).

⇒ Predição pontual de Ȳ : x̄
 q 
1 1
⇒ Intervalo de predição HPD a 95% para Ȳ : x̄ ± 1.96σ n + m ■

Representação da informação a priori

Eliciação de uma distribuição que represente as crenças a priori de alguém: tarefa em geral particular-
mente difı́cil e rodeada de uma série de contingências.
Situações especiais:

ˆ Estado de conhecimento a priori escasso (“vago”, “difuso”)


⇒ Distribuições não informativas

ˆ Adoção de uma forma funcional adequada e especificação dos hiperparâmetros (através da sua
relação com quantis e/ou momentos a priori ) de acordo com as crenças apriorı́sticas eliciadas
⇒ Distribuições conjugadas naturais

Objetivos do uso de distribuições a priori não informativas:

1. Descrição de situações onde o conhecimento a priori é pouco ou nada significativo relativamente à


informação amostral;

2. Desempenho de um papel de referência, ainda que se disponha de fortes crenças a priori , como
forma de:

a deduzir as crenças a posteriori para quem parte de um conhecimento escasso, i.e. , quando a
amostra fornece a maior parte da informação sobre o parâmetro;
b permitir a comparação com os resultados da inferência clássica que “só” usa a informação amostral
(no todo ou em parte);
c averiguar a influência nas inferências da distribuição a priori que descreve a informação realmente
existente, quando confrontada com as que resultam do uso da distribuição a priori de referência.

12
Regra de Jeffreys

ˆ θ é um parâmetro de localização (Θ ∈ IR)


Invariância face a translações: para cada a, os intervalos (θ0 , θ0 + a), ∀θ0 ∈ IR, devem ter a mesma
probabilidade.
⇒ h(θ) = c, θ ∈ Θ (“uniforme contı́nua”)

ˆ θ é um parâmetro de escala (Θ = IR+ )


Invariância face a transformações de escala: para cada b > 0, os intervalos (θ0 , bθ0 ), ∀θ0 ∈ IR+ ,
devem ter a mesma probabilidade ⇒ como ln θ é parâmetro de localização da transformação
logarı́tmica dos dados

h∗ (ln θ) = c ⇒ h(θ) ∝ θ−1 , θ > 0


⇒ h∗ (θa ) ∝ (θa )−1 , θ > 0, ∀a ∈ Z

ˆ θ é um parâmetro vetorial genérico


Invariância que garanta a identidade das inferências resultantes do uso de qualquer transformação
biunı́voca – satisfeita com o uso da medida de informação de Fisher, I(θ)2
1/2
⇒ h(θ) ∝ [|I(θ)|]
Nota 1.5: Sendo razoável admitir a independência a priori , (como pode acontecer em parâmetros
de tipo distinto), a distribuição a priori deve verificar esta condição com as distribuições marginais
definidas por aplicação da regra anterior.

Exemplo 1.10: Parâmetro θ = (µ, σ 2 ) do modelo N (µ, σ 2 )
!
2 1/σ 2 0
I(µ, σ ) =
0 1/(2σ 4 )

Regra de Jeffreys multiparamétrica ⇒ h(µ, σ 2 ) ∝ 1/σ 3 , (µ, σ 2 ) ∈ IR × IR+


Regra de Jeffreys uniparamétrica + independência a priori ⇒ h(µ, σ 2 ) ∝ 1/σ 2 , (µ, σ 2 ) ∈ IR × IR+

∴ Argumento sujeito a crı́ticas (natureza frequentemente imprópria; dependência do modelo amostral)
e contracrı́ticas.

Distribuições conjugadas naturais

O sucesso da forma distribucional escolhida na quantificação das crenças a priori e no desencadeamento


das inferências está naturalmente associado à:

ˆ versatilidade da famı́lia;

ˆ simplicidade da derivação analı́tica da distribuição a posteriori ;

ˆ facilidade de interpretação da operação bayesiana na conjugação das informações a priori e amos-


tral.
2 Selog f (x|θ) puder ser diferenciado duas vezes em relação a θ, e sob certas condições de regularidade, a informação de
∂2
Fisher pode ser escrita como I(θ) = −E[ ∂θ 2 log f (X|θ)|θ].

13
Definição 1.8: A famı́lia H diz-se conjugada natural do modelo F = {f (x|θ) : θ ∈ Θ} se h(θ|x) ∈ H
sempre que a correspondente h(θ) ∈ H.
Exemplo 1.11 (vide Exemplo 1.8): Modelo bayesiano Bernoulli ∧ Beta
Pn Pn
f (x|θ) = θ 1 xi (1 − θ)n− 1 xi , 0 < θ < 1
≡ núcleo de Beta(Σxi + 1, n − Σxi + 1)

1 a−1
Se h(θ) = B(a,b) θ (1 − θ)b−1 I(0,1) (θ) (membro da famı́lia Beta)
⇒ θ|x ∼ Be(a + Σxi , b + n − Σxi ), a, b > 0
Ou seja, a famı́lia Beta é conjugada natural de uma amostragem aleatória do modelo {Ber(θ)} sendo:

1. A famı́lia Beta bastante versátil.

2. A atualização de h(θ) faz-se dentro da famı́lia.

3. A informação em h(θ|x) é traduzı́vel na soma dos sucessos e dos insucessos da amostra real com os
da amostra fictı́cia (a, b). ■

Exemplo 1.12: Modelo bayesiano Poisson ∧ Gama


P
L(θ|x) ∝ θ i xi e−nθ ≡ núcleo de Ga( i xi + 1, n)
P

∴ distribuição conjugada natural: θ ∼ Ga(a, b), a, b > 0


P
⇒ θ|x ∼ Ga(a + i xi , b + n)
⇒ distribuição não informativa: τ0 = (0, 0)

h(θ) ∝ θ−1 I(0,+∞) (θ) ⇔ h∗ (ψ) = c, onde ψ = ln θ.

1.3 Uso de simulação estocástica


“Estatı́sticas intensivas em computador” são estatı́sticas que só poderiam ser feitas com recursos de
computação modernos (Ripley, 1987), normalmente ou

ˆ Inferência estatı́stica em problemas pequenos que precisam de muita computação para serem exe-
cutados ou bem executados.

ˆ Inferência estatı́stica em problemas “enormes”.

Os computadores revolucionaram a Estatı́stica em nomeadamente duas importantes questões:

ˆ possibilidade de fazer inferências sem os pressupostos que as técnicas padrão necessitam para obter
soluções analı́ticas - normalidade, linearidade, independência, etc.

ˆ aplicação de modelos padrão a situações de maior complexidade dos dados - omissos, censurados,
etc.

Sistemas com componentes parcial ou totalmente sujeitas a comportamentos aleatórios são a base da
Estatı́stica e o seu processo de simulação3 é estocástico, i.e., baseado em distribuições de probabilidade
(Gamerman & Lopes, 2006).
3O termo simulação refere-se a tratamento de problemas reais através de reproduções em ambientes controlados pelo
investigador

14
O ponto de partida da simulação estocástica é a construção de um gerador de números aleatórios.
Geralmente este mecanismo gera números em um intervalo [0, M ] para um dado valor de M . E pode-se
reduzir essa geração a um número em [0, 1] pela divisão por M , sendo mais apropriado dizer-se números
pseudo-aleatórios (vide e.g. Ripley, 1987).
Há alguns métodos de geração de quantidades aleatórias com distribuição de probabilidade discreta ou
contı́nua tendo como base uma quantidade aleatória u gerada de uma distribuição uniforme no intervalo
[0, 1].

Método da transformação inversa

Teorema 1.1: Se X é uma v.a. contı́nua com função de distribuição F estritamente crescente, então
F (X) é distribuı́do uniformemente em (0, 1)
Se U ∼ Uniform(0, 1), então para todo x ∈ IR

P (F −1 (U ) ≤ x) = P (U ≤ F (x)) = F (x).

e, portanto, F −1 (U ) tem a mesma distribuição que X.


Este método da transformação inversa pode ser aplicado para gerar v.a. contı́nua e discreta, resumindo-se
da seguinte forma:

−1
1. Derive e calcule a função inversa FX (u).
−1
2. Para cada quantidade aleatória, gere um u aleatório a partir de Uniforme(0, 1) e calcule x = FX (u).

Exemplo 1.13: Para simular a partir da distribuição exponencial com o parâmetro λ, usamos que

F (x) = 1 − exp(−λ x), x > 0,

portanto
F −1 (u) = −λ−1 log(1 − u), 0 < u < 1.

Como U ∼ Uniforme(0, 1) implica que 1 − U ∼ Uniforme(0, 1), temos que

−λ−1 log(1 − U1 ), . . . , −λ−1 log(1 − Un )

é uma sequência de variáveis aleatórias independentes da distribuição exponencial com o parâmetro


λ > 0. ■
Exemplo 1.14: Para simular de X ∼ Bernoulli(θ), nós usamos que F (0) = f (0) = 1 − θ, e F (1) =
f (0) + f (1) = 1, e assim nós dividimos o intervalor (0, 1) em k = 2 intervalos Ii = (Fi−1 , Fi ], onde
F0 = 0, Fi = F (i), i = 1, . . . , k. Portanto,

0, u ≤ 1 − θ,
F −1 (u) =
1, u > 1 − θ

O gerador deve, portanto, fornecer o valor numérico da expressão lógica u > 1 − θ. ■


No caso genérico de uma quantidade X com valores em {x1 , . . . , xk } e respetivas probabilidades p1 , . . . , pk ,
Pk
restritos a i=1 pi = 1, podemos usar os intervalos acima, onde cada intervalo corresponde a um valor
único x e após observar o valor gerado de u, verificamos o intervalo Ii no qual está esse valor.

15
Método de transformação

Para além do método da transformação inversa, outros métodos de transformação podem ser aplicados
para simular variáveis aleatórias (Rizzo, 2019), usando e.g. as seguintes relações entre distribuições de
probabilidades:

ˆ Se Z ∼ N (0, 1), então V = Z 2 ∼ χ2(1) .

ˆ Se Z ∼ N (0, 1) e V ∼ χ2(n) forem independentes, então T = √Z terá distribuição-t de Student


V /n
com n graus de liberdade.
U/m
ˆ Se U ∼ χ2(m) e V ∼ χ2(n) são independentes, então F = V /n tem a distribuição F com (m, n) graus
de liberdade.

ˆ Se U ∼ Gamma(a, b) e V ∼ Gamma(c, b) forem independentes, então X = U


U +V tem a distribuição
Beta(a, c).

Exemplo 1.15: A seguinte relação entre as distribuições Normal e Uniforme fornece outro gerador da
Normal reduzida.
Se U, V ∼ Uniform(0, 1) são independentes, então
p p
Z1 = −2 log U cos(2π V ) Z2 = −2 log V sin(2π U )

são variáveis Normais reduzidas independentes.


Essas transformações determinam um algoritmo para gerar duas variáveis aleatórias N (0, 1)

1. Gere um u aleatório a partir de U (0, 1).

2. Gere um v aleatório a partir de U (0, 1).


√ √
3. Calcule z1 = −2 log u cos(2π v) e z2 = −2 log v sin(2π u). ■

Método de mistura

Definição 1.9: Sejam X1 , . . . , Xn v.a. independentes e identicamente distribuı́dos com Xi ∼ X. A função


Pn
de distribuição de S = i=1 Xi é chamada de convolução de X.
É simples simular uma convolução gerando diretamente X1 , . . . , Xn e calculando a soma S.
Definição 1.10: Uma v.a. X é uma mistura discreta ou contı́nua se a distribuição de X for, respetivamente:
Pn
ˆ FX (x) = i=1 pi FXi (x) para alguma sequência de v.a. X1 , X2 , . . . e pi > 0 (peso da mistura) de
Pn
modo que i=1 pi = 1.
R∞
ˆ FX (x) = −∞ FX|Y =y (x) fY (y) dy para uma famı́lia condicional X|Y = y e função de ponderação
R∞
fy de modo que −∞ fY (y) dy = 1.

Exemplo 1.16: Suponha que X1 ∼ N (−1, 1) e X2 ∼ N (2, 1) sejam v.a. independentes. Denote S =
X1 + X2 uma convolução. Defina uma mistura Normal X com FX (x) = 0.3 FX1 (x) + 0.7 FX2 (x).
Para simular a convolução:

1. Gere x1 ∼ N (−1, 1) e x2 ∼ N (2, 1).

2. Calcule s = x1 + x2 .

16
Para simular a mistura:

1. Gere um número inteiro k ∈ {1, 2}, onde P (1) = 0.3, P (2) = 0.7.

2. Se k = 1, calcule x aleatório a partir de N (−1, 1);


Se k = 2, calcule x aleatório a partir de N (2, 1). ■

17
2 Métodos Clássicos de Estimação e Algoritmos
Há vários métodos de estimação para fazer inferência sob especially abordagem Clássica/Frequencista
e.g.

ˆ Método dos mı́nimos quadrados em modelos lineares.

ˆ Método da máxima verosimilhança.

ˆ Método dos momentos.

Por vezes esses métodos requerem algoritmos usados para ter em conta alguns contextos especı́ficos e.g.

ˆ Algoritmo Newton-Raphson.

ˆ Algoritmo EM.

ˆ Algoritmo Dados ampliados.

2.1 Método dos mı́nimos quadrados*


O método dos mı́nimos quadrados tem sido usados para estimar os parâmetros de regressão do modelo
linear geral
Y = Xβ + ϵ, (2.1)

onde Y = (Y1 , . . . , Yn )T é o vetor de observações da variável resposta, X é a matriz n × p de especificação


do modelo (matriz de delineamento), com i-ésima linha xiT = (xi1 , . . . , xip ) a representar a observação das
p covariáveis do indivı́duo i, β = (β1 , . . . , βp )T é o vetor de parâmetros de regressão e ϵ = (ϵ1 , . . . , ϵn )T
é o vetor de componentes aleatórias.
Considere r(X) = p, E(ϵ) = 0, V ar(ϵ) = σ 2 I e ϵ ∼ Np (·, ·). Este é conhecido como modelo linear
(Normal) de caraterı́stica completa.
Um método de estimação dos coeficientes de regressão β é o método de mı́nimos quadrados que consiste
em minimizar a soma de quadrados (sum of squares) dos erros aleatórios. Ou seja, o valor que minimiza
a função
Pn 2 T T
SS(β) = i=1 ϵi = ϵ ϵ = (Y − Xβ) (Y − Xβ)
(2.2)
= Y Y − Y Xβ − β X Y + β T XT Xβ,
T T T T

denotado por β,
b é denominado o estimador de mı́nimos quadrados de β.

As derivadas parciais de SS(β) avaliada em {(yi , xi )} em relação a β

∂SS(β )
= −XT Y−(YT X)T +[(XT X)+(XT X)T ]β = −2XT Y+2XT Xβ
∂β
∂SS(β )
=0 ⇒ XT Xβ = XT Y (equações normais)
∂β

Como r(X) = r(XT X) = p, a matriz XT X é não singular e portanto a única solução das equações
normais é β = (XT X)−1 XT Y. Além disso,

   T
∂ 2 SS(β ) ∂ ∂SS(β ) ∂ ∂SS(β )
T = T = = 2XT X .
∂β∂β ∂β ∂β ∂β ∂β

18
e a matriz XT X é definida positiva4 (ou 2XT X), para qualquer valor de β. Portanto, o estimador de
mı́nimos quadrados de β é
b = (XT X)−1 XT Y.
β (2.3)

ˆ E(β)
b = (XT X)−1 XT E(Y) = (XT X)−1 XT X β = β.

ˆ V ar(β)
b = (XT X)−1 XT V ar(Y) X (XT X)−1 = σ 2 (XT X)−1 .

ˆ β
b é um estimador centrado para β.

ˆ Um estimador centrado para σ 2 (quadrado médio do erro/resı́duo) é

SSE rT r (Y− Ŷ)T (Y− Ŷ) YT (I−H)Y


M SE ≡ = = = , (2.4)
n−p n−p n−p n−p

onde Ŷ ≡ E(Y)
b = Xβb = HY e H = X(XT X)−1 XT (matriz de projeção). Para mais detalhes,
veja-se e.g. Ross, 2014; Kutner et al. 2005.

Definição 2.1: Diz-se que T = T (Y1 , . . . , Yn ) é um estimador linear de θ, se T for uma combinação linear
de Y.
Teorema 2.1: Para o modelo linear geral (2.1), estrutura de Gauss-Markov e caracterı́stica completa
(r(X) = p), cT β
b é o estimador linear centrado de cT β com variância mı́nima, onde c é um vetor de
constantes p × 1.

2.2 Método da máxima verosimilhança*


Definição 2.2: Dada uma a.a. (X1 . . . , Xn ) de uma população X com f.m.p. ou f.d.p. fX (x|θ) indexada
pelo parâmetro (desconhecido) θ, a função de verosimilhança de θ relativa à amostra (x1 , . . . , xn ), deno-
tada por L(θ|x1 , . . . , xn ), é a função de θ que é numericamente idêntica à distribuição de probabilidade
amostral avaliada em (x1 , . . . , xn ), i.e.,
n
Y
L(θ|x1 , . . . , xn ) ≡ fX1 ,...,Xn (x1 , . . . , xn |θ) = fX (xi |θ). (2.5)
i=1

O método de máxima verosimilhança consiste em maximizar a função de verosimilhança para obter o


valor dito mais verosı́mil de θ, denominado estimativa de máxima verosimilhança de θ.5
Exemplo 2.1: Seja (X1 . . . , Xn ) uma a.a. de X ∼ Poisson(λ). Qual o estimador de máxima verosimi-
lhança (EMV) de λ?
A função de verosimilhança de λ, dado (x1 , . . . , xn ), é
n
Y e−λ λxi
L(λ|x1 , . . . , xn ) = .
i=1
xi !

n
X n
Y
Como Lλ ≡ log L(λ|x1 , . . . , xn ) = −n λ + log λ xi − log xi !.
i=1 i=1

4 Como
Pn
XT X é uma matriz simétrica, zT XT Xz = (xT z)2 ≥ 0, ∀ z ∈ IRp , e Xz = 0 somente quando z = 0,
i=1 i
então z = 0 é a única solução do sistema.
5 Na determinação do máximo de L(θ|x , . . . , x ), usa-se frequentemente o facto de que L(θ|x , . . . , x ) e
1 n 1 n
log L(θ|x1 , . . . , xn ) têm o seu máximo no mesmo valor de θ.

19
Pn Pn
ˆ dLλ
dλ = −n + λ−1 i=1 xi = 0 ⇒ λ = 1
n i=1 xi = x̄
2 Pn
ˆ ddλL2λ = −λ−2 i=1 xi < 0, ∀λ.

∴ x̄ é a estimativa de máxima verosimilhança de λ e o EMV de λ é


n
1X
λ̂ = X̄ = Xi . ■
n i=1

Teorema 2.2: Se θ̂ é o estimador de máxima verosimilhança (EMV) de um parâmetro θ, então g(θ̂) é o


EMV de g(θ) (propriedade de invariância).
Exemplo 2.2: Seja (X1 . . . , Xn ) uma a.a. de X ∼ Uniforme(0, θ]. Qual o estimador de máxima verosi-
milhança de log θ?
A função de verosimilhança de θ, dado x1 , . . . , xn , é
L(θ)
n
Y 6
1
L(θ|x1 , . . . , xn ) = θ I(0,θ] (xi ) 1
x(n) n
i=1
= 1
θ n I[x(n) ,∞) (θ) &- θ
x(n)
⇒ X(n) = max(X1 , . . . , Xn ) é o EMV de θ.
∴ Pela propriedade de invariância dos EMV, log X(n) é o EMV de log θ. ■

2.3 Método de Newton-Raphson


Técnicas padrão de otimização podem ser usadas para determinar estimativas que minimizem várias
funções dos resı́duos e.g. (2.2) ou maximizem várias funções de verosimilhança em (2.5). Os algoritmos
para resolver e.g. as últimas são geralmente iterativos.
Se a verosimilhança L(θ|x) ou log L(θ|x) for duplamente diferenciável, um algoritmo é o método de
Newton, no qual o valor minimizador de θ, θ,
b é obtido como um limite das iterações

θ (k) = θ (k−1) − [H(θ (k−1) )]−1 s(θ (k−1) ), k = 1, 2, . . . , (2.6)

onde H(θ) e s(θ) denotam a matriz hessiana e o gradiente (função score) de L(θ|x) ou log L(θ|x),
ambos avaliadas em θ = (θ1 , . . . , θp )T , com x = (x1 , . . . , xn )T . (2.6) também é chamado de método de
Newton-Raphson.
Para várias considerações computacionais, em vez da hessiana exata H, uma matriz H̃ aproximando-se
da hessiana é frequentemente usada. Nesse caso, a técnica é chamada de método quase-Newton.
Um método quase-Newton comum para otimizar Lθ ≡ log L(θ|x) é o método de pontuação de Fisher,
no qual a hessiana no método de Newton é substituı́da por seu valor esperado. O valor esperado pode
ser substituı́do por uma estimativa, como a média da amostra. As iterações são

e (k−1) )]−1 s(θ (k−1) ),


θ (k) = θ (k−1) − [E(θ (2.7)

onde E(θ)
e é uma estimativa ou uma aproximação de E(H(θ)|X).6
Sob condições de regularidade adequadas:
6 Observe que (2.6)-(2.7) veio da equação da linha tangente de y = f (x) em x = x , y = f ′ (x )(x − x ) + f (x ) quando
n n n n
(x, y) = (xn+1 , 0), i.e. xn+1 = xn − f (xn )/f ′ (xn ).

20
1. Se θ é um escalar, o quadrado da primeira derivada de Lθ é o negativo da segunda derivada ou,
em geral,
T
∂2
   
∂ ∂
s(θ) s(θ)T ≡ Lθ Lθ = −H(θ) ≡ − Lθ .
∂θi ∂θi ∂θi ∂θj

2. O EMV θ b é um estimador consistente e é assintoticamente normal com média θ ⋆ e matriz de


variância-covariância
[E(−H(θ ⋆ )|X]−1 = [I(θ ⋆ )]−1 ,
que é o inverso da matriz de informação de Fisher. Para mais detalhes, veja-se e.g. Gentle (2002).

Exemplo 2.3: Se X = (X1 , X2 , X3 , X4 ) ∼ Multinomial(N, p1 , p2 , p3 , p4 ) tal que p1 = 12 + 14 θ, p2 = p3 =


1 1 1
4 − 4 θ, p4 = 4 θ, onde 0 ≤ θ ≤ 1 (Gentle, 2002), encontre a estimativa de máxima verosimilhança de θ
usando o método de pontuação de Fisher para N = 197, x1 = 125, x2 = 18, x3 = 20, x4 = 34 e θ(0) = 0.5.
Dada uma observação (x1 , x2 , x3 , x4 ), tem-se que

Lθ = x1 log(2 + θ) + (x2 + x3 ) log(1 − θ) + x4 log(θ) + c


s(θ) = dLθ /dθ = x1 /(2 + θ) − (x2 + x3 )/(1 − θ) + x4 /θ
I(θ) ≡ −E(d2 Lθ /dθ2 |X) = (N/4)(1/(2 + θ) + 2/(1 − θ) + 1/θ)

Portanto, a implementação do método de pontuação de Fisher

θ(k) = θ(k−1) + [I(θ(k−1) )]−1 s(θ(k−1) ), k = 1, 2, . . .

resulta na estimativa de máxima verosimilhança de θ de 0.62682. ■

2.4 Algoritmo EM
Outros métodos de otimização que também são aplicados diretamente à verosimilhança ou à densidade
posterior são aqui apresentados como algoritmos de ampliação de dados, incluindo o algoritmo EM.
Todos esses algoritmos de ampliação de dados compartilham uma abordagem comum dos problemas:
em vez de realizar uma maximização ou simulação complicada, ampliamos os dados observados com
dados latentes, e.g. dados omissos, que simplificam o cálculo e, posteriormente, executam uma série de
maximizações ou simulações simples (ver e.g. Tanner, 1996).
O método EM surge de uma abordagem totalmente diferente que alterna entre atualizar o parâmetro θ (k)
usando as etapas alternadas que envolvem esperança matemática e maximização. O método foi descrito
por Dempster et al. (1977).
Seja X = (U, V ) um vetor aleatório que consiste em dois componentes, um observado U e um V não
observado, indexado pelo parâmetro θ.
Denote Lθ = log Lc (θ|u, v) como a log-verosimilhança para a amostra completa. A verosimilhança para
R
os U observados é L(θ|u) = Lc (θ|u, v) dv.
O algoritmo EM para maximizar L(θ|u) tem duas etapas que começam com um valorθ (0) . As etapas são
iteradas até à convergência.

ˆ Etapa E: para θ = θ (k) e θ ′ = θ (k−1) , calcule


Z
Q(θ, θ ′ ) = EV |u,θ ′ (Lθ ) = log Lc (θ|u, v)p(v|θ ′ , u) dv,

ˆ Etapa M: determine θ (k) de modo a maximizar Q(θ (k) , θ (k−1) ), sujeita a quaisquer restrições em
valores aceitáveis de θ.

21
A sequência θ (1) , θ (2) , . . . converge para um máximo local da verosimilhança dos dados observados L(θ|u)
sob condições bastante gerais.
Exemplo 2.4: (Gentle, 2002) Considere um experimento com lâmpadas, de modo que a sua vida útil siga
uma distribuição exponencial com média θ. Para estimar θ, i) n lâmpadas foram testadas e seus tempos
de falha foram registrados como u1 , . . . , un ; ii) outras m lâmpadas também foram testadas, mas seus
tempos de falha v1 , . . . , vm não foram registrados (dados omissos); apenas o número r de lâmpadas que
falharam no momento t foi registrado.
Para determinar a k-ésima etapa E, observe que
Pm
Lθ ≡ log Lc (θ|u, v) = −n (log θ + ū/θ) − m log θ − i=1 vi /θ,

e o seu valor esperado, EV |u,θ′ (Lθ ), é

Q(θ, θ′ ) = −(n + m) log θ − (1/θ)[nū + (m − r) (t + θ′ ) + r (θ′ − t h(t, θ′ ))],

onde h(t, θ′ ) = exp(−t/θ′ )/[1 − exp(−t/θ′ )] and θ′ = θ(k−1) .


A k-ésima etapa M determina o máximo que ocorre em
1 
θ(k) = [nū + (m−r) (t+θ(k−1) ) + r (θ(k−1) −t h(t, θ(k−1) ))]. ■
n+m

Comentários:

1. Técnicas especı́ficas foram usadas para os cálculos nas duas etapas; não é necessário que o método
EM use esses mesmos algoritmos de cı́clo-interno (Gentle, 2002).

2. Para o passo E, não há tantas opções. Com alguma sorte, a esperança matemática pode ser
calculada de forma fechada. Caso contrário, calcular a esperança matemática é um problema de
quadratura numérica.

3. Para a etapa de maximização, há mais opções, por exemplo, Dempster et al (1977) sugeriram
exigir apenas um aumento no valor esperado; ou seja, use θ (k) de modo que Q(θ (k) , θ (k−1) ) ≥
Q(θ (k−1) , θ (k−2) ). Isso é chamado de algoritmo EM generalizado (GEM).

4. Dempster et al. (1977) mostra que o algoritmo EM converge a uma taxa linear, com a taxa de-
pendendo da proporção de informações sobre θ em L(θ|X) observadas. Isso pode implicar uma
convergência bastante lenta se uma grande parte dos dados estiver omissa.

2.5 Algoritmo de ampliação de dados


Contrariamente ao algoritmo EM, o algoritmo de ampliação de dados visa obter a função de verosi-
milhança ou distribuição a posteriori completa em vez de apenas o seu maximizador e a curvatura no
maximizador. Por isso, o algoritmo de ampliação de dados fornecerá uma maneira de melhorar a inferên-
cia em amostras pequenas, enquanto que em amostras grandes essas duas funções são consistentes com
a aproximação Normal (Tanner, 1996).

1. No algoritmo de ampliação de dados, os dados X também são aumentados com dados latentes V ,
i.e. X = (U, V ) em que U representa os dados observados.

2. Para obter a distribuição a posteriori h(θ|u), gera-se vários valores (imputações) de V a partir da
distribuição preditiva p(v|θ, u) e depois calcula a média de h(θ|u, v) sobre as imputações.

22
O algoritmo de ampliação de dados é motivado pelas seguintes relações:

1. A relação a posteriori : Z
h(θ|u) = h(θ|u, v) p(v|u) dv,
V

2. A relação preditiva: Z
p(v|u) = p(v|θ′ , u) h(θ′ |u) dθ′ ,
Θ
onde h(θ|u, v) é a distribuição condicional de θ dada X i.e. a distribuição a posteriori ampliada e
p(v|θ′ , u) é a distribuição preditiva condicional.

Substituindo a relação preditiva pela relação a posteriori , é possı́vel


g(θ) ≡ h(θ|u) = Θ V h(θ|u, v) p(v|θ′ , u) dv h(θ′ |u) dθ′
R R 
(2.8)
≡ Θ K(θ, θ′ )g(θ′ ) dθ′ .
R

Para resolver a equação (2.8), pode-se usar o método de substituição sucessiva i.e. começando com g0 (θ),
calcule sucessivamente
Z
gk (θ) = T gk−1 (θ) ≡ K(θ, θ′ ) g(θ′ ) dθ′ , k = 1, 2, . . . . (2.9)
Θ

Tanner (1996) refere-se ao uso do método de Monte Carlo para realizar a integração em (2.8). Em
particular, aplicar o método de Monte Carlo à relação a posteriori produz um esquema iterativo, dando
origem ao algoritmo de aumento de dados.
O algoritmo de ampliação de dados consiste na iteração entre as duas etapas a seguir:

1. Etapa de imputação: Gere uma amostra v1 , . . . , vm da aproximação atual à distribuição preditiva


p(v|u).

1.1 Gere θ′ a partir de gk (θ).


1.2 Gere v a partir de p(v|θ′ , u), onde θ′ é o valor gerado em 1.1.

2. Etapa a posteriori : Atualize a aproximação atual para h(θ|u) para ser a mistura de distribuições
a posteriori ampliadas de θ, dados os dados ampliados da etapa 1, i.e.
m
1 X
gk (θ) = h(θ|v (j) , u).
m j=1

Quando m for grande, as etapas 1 e 2 fornecerão uma aproximação aproximada à iteração de (2.9). Para
mais detalhes, veja-se Tanner (1996).
Exemplo 2.5: (vide Exemplo 2.3) Aumente os dados observados, i.e. u = (u1 , u2 , u3 , u4 ) = (125, 18, 20, 34),
dividindo a primeira célula em duas células com probabilidades 41 e θ2 . Os dados aumentados são dados
por v = (v1 , v2 , v3 , v4 , v5 ) de forma que v1 +v2 = u1 , v3 = u2 , v4 = u3 , v5 = u4 .
Observe que a distribuição a posteriori observada (under a distribuição a priori vaga) é proporcional a

(2 + θ)u1 (1 − θ)u2 +u3 θu4 ,

enquanto a distribuição a posteriori ampliada (under a distribuição a priori vaga) é proporcional a

θv2 +v5 (1 − θ)v3 +v4 .

Ou seja, distribuição a posteriori ampliada h(θ|u, v) é a distribuição Beta(v2 +v5 +1, v3 +v4 +1). Além
disso, a distribuição preditiva condicionalp(v|θ, u) é de fato a Binomial(n = 125, p = θ/(2+θ)).
Assim, o algoritmo de ampliação de dados é dado como:

23
1. Etapa de imputação:

1.1 Gere θ′ da estimativa atual da distribuição a posteriori .


1.2 Gere v2 da Binomial(n = 125, p = θ′ /(2+θ′ )).
(1) (m)
Repita as etapas 1.1 e 1.2 m vezes para obter v2 , . . . , v2 .

2. Etapa a posteriori : Estabeleça a distribuição a posteriori de θ igual à mistura de distribuições


Beta, combinada sobre os m valores imputados de v2 i.e.
m
1 X (j)
h(θ|u) = Beta(v2 +v5 +1, v3 +v4 +1).
m j=1

As etapas 1.1, 1.2 e 2 devem ser iteradas até que a convergência do algoritmo seja alcançada. Observe
que se considera a distribuição a priori Uniforme (0,1) neste exemplo. ■

Modelos lineares generalizados - I

Os Modelos Lineares Generalizados (MLG), introduzidos por Nelder and Wedderburn (1972), sintetizam
o modelo linear normal que apresenta uma estrutura de regressão linear e têm em comum, o facto da
variável resposta pertencer a famı́lia de distribuições exponencial.
Os casos particulares de MLG são: i) Modelo de regressão linear normal; ii) Modelo de análise de
variância; iii) Modelo de regressão logı́stica; iv) Modelos log-lineares para tabelas de contingência, etc.
Notação: Os dados {(yi , xi ), i = 1, . . . , n}, são realizações da variável resposta Y e do vetor de covariáveis
x em n indivı́duos, sendo as componentes Yi do vetor aleatório Y = (Y1 , . . . , Yn )T independentes.
Definição 2.3: Diz-se que uma v.a. Y tem distribuição pertencente à famı́lia exponencial (de dispersão)
se a sua f.d.p. ou f.m.p. se puder escrever na forma
n y θ − b(θ) o
f (y | θ, ϕ) = exp + c(y, ϕ) , (2.10)
a(ϕ)
onde θ e ϕ são parâmetros escalares, a(·), b(·) e c(·, ·) são funções reais conhecidas. ■
Na Definição 2.3, θ é a forma canónica do parâmetro de localização e ϕ é um parâmetro de dispersão
(conhecido). Neste caso a distribuição (2.10) faz parte da famı́lia exponencial uniparamétrica. Admite-
se, ainda, que a função b(·) é diferenciável e que o suporte da distribuição não depende dos parâmetros.
Por vezes, a(ϕ) = ϕ/w, onde w é uma constante conhecida.
Exemplo 2.6: Normal - Se Y ∼ N (µ, σ 2 ), a f.d.p. de Y é dada por
µ2 1 y2
 
1
f (y|µ, σ 2 ) = exp 2 (yµ − ) − ( 2 + ln(2πσ 2 )
σ 2 2 σ
para y ∈ IR. Tem-se então que esta função é do tipo (2.10) com

θ = µ, a(ϕ) = ϕ = σ 2 ,
2
c(y, ϕ) = − 12 ( σy 2 + ln(2πσ 2 )),
b(θ) = µ2 /2, b′ (θ) = µ, b′′ (θ) = V (µ) = 1

Já se sabe que E(Y ) = µ e V ar(Y ) = σ 2 . Neste caso, a função de variância é V (µ) = 1, o parâmetro
canónico é o valor médio µ e σ 2 é o parâmetro de dispersão. ■
Exemplo 2.7: Binomial - Se Y for tal que mY ∼ Bi(m, π), a sua f.m.p. é
    
m m
π ym (1 − π)m−ym = exp m yθ − ln(1 + eθ ) + ln

f (y|π) =
ym ym

24
1 2
com y ∈ {0, m , m , . . . , 1} e θ = ln(π/(1 − π)), sendo da forma (2.10) com

π
θ = ln( 1−π ), a(ϕ) = ωϕ , ϕ = 1, ω = m
m

c(y, ϕ) = ln ym , b(θ) = ln(1 + eθ ),
eθ eθ
b′ (θ) = 1+eθ
= π, b′′ (θ) = V (µ) = (1+eθ )2
= π(1 − π).

Obtém-se diretamente E(Y ) = π e V ar(Y ) = π(1 − π)/m.


π
O parâmetro canónico é a função logit, ln( 1−π ). ■

Tabela 1: Algumas distribuições da famı́lia exponencial.

Distribuição Normal Binomial Poisson Gama


Notação N (µ, σ 2 ) B(m, π)/m P (λ) Ga(ν, µν )
1
Suporte (−∞, +∞) {0, m , ..., 1} {0, 1, ...} (0, ∞)
π
θ µ ln( 1−π ) ln λ − µ1
1 1
a(ϕ) σ2 m 1 ν
1
ϕ σ2 1 1 ν
ω 1 m 1 1
2
1 y m

c(y, ϕ) − 2 ( ϕ +ln(2πϕ)) ln my − ln y! ν ln ν − ln Γ(ν)
+(ν −1) ln y
θ2
b(θ) 2 ln(1 + eθ ) eθ − ln(−θ)

b′ (θ) = E(Y ) θ π = 1+e θ λ = eθ µ = − θ1
b′′ (θ) = V (µ) 1 π(1 − π) λ µ2
V ar(Y ) σ2 π(1 − π)/m λ µ2 /ν

Os MLG são uma extensão do modelo linear normal (2.1), Y = Xβ + ϵ, que é feita em duas direções:

ˆ A distribuição considerada não tem de ser Normal, podendo ser qualquer distribuição da famı́lia
exponencial;

ˆ Mantendo a estrutura de linearidade, a função de ligação (qualquer função diferenciável) g(µ) = η


relaciona o valor esperado µ e o preditor linear η = xT β.

A escolha da função de ligação depende do tipo da resposta e da análise pretendida. Quando θ = η =


xT β, a função de ligação é canónica.

Tabela 2: Algumas funções de ligação.

identidade recı́proca quadrática inversa logarı́tmica


µ 1/µ 1/µ2 ln(µ)
logit probit raiz quadrada log-log complementar
µ √
ln( 1−µ ) Φ−1 (µ) µ ln[− ln(1 − µ)]

Em MLG a estimação é feita usando os métodos:

ˆ Máxima verosimilhança para o parâmetro de interesse β;

ˆ Momentos para o parâmetro perturbador ϕ, quando existe.

25
A função de verosimilhança, como função de β, é dada porThe likelihood function, as a function of β, is
given by
n1X n Xn o
L(β) = exp ωi (yi θi −b(θi ))+ c(yi , ϕ, ωi ) (2.11)
ϕ i=1 i=1

e portanto o logaritmo da verosimilhança é


Pn
ln L(β) ≡ ℓ(β) = i=1 ℓi (β), (2.12)

onde ℓi (β) = ωϕi (yi θi − b(θi )) + c(yi , ϕ, ωi ) é a contribuição da observação yi na verosimilhança.


Admitindo certas condições de regularidade (Sen e Singer, 1993), os estimadores de MV para β são
obtidos como solução do sistema de equações de verosimilhança
n
∂ℓ(β) X ∂ℓi (β)
= = 0, j = 1, . . . , p.
∂βj i=1
∂βj

Para obter as equações anteriores escreve-se

∂ℓi (β) ∂ℓi (θi ) ∂θi (µi ) ∂µi (ηi ) ∂ηi (β)
=
∂βj ∂θi ∂µi ∂ηi ∂βj

sendo
ωi (yi −b′ (θi ))
∂ℓi (θi )
∂θi = ϕ = ωi (yiϕ−µi ) ,
∂ηi (β )
∂µi
∂θi = b′′ (θi ) = ωi V ar(Yϕ
i)
e ∂β j
= xij .

Assim
∂ℓi (β) ωi (yi − µi ) ϕ ∂µi
= xij
∂βj ϕ ωi V ar(Yi ) ∂ηi
e as equações de verosimilhança para β são
n
X (yi − µi )xij ∂µi
= 0, j = 1, . . . , p. (2.13)
i=1
V ar(Yi ) ∂ηi

A função score é o vector p-dimensional


n
∂ℓ(β) X
s(β) = = si (β), (2.14)
∂β i=1

∂ℓi (β ) (yi −µi )xij ∂µi


onde si (β) é o vector p × 1 de componentes ∂βj = V ar(Yi ) ∂ηi , i = 1, . . . , n, j = 1, . . . , p.
∂s(β )
A matriz de informação de Fisher, definida por I(β) = E[− ], cujos elementos para famı́lias regulares
∂β
são
∂ ℓ (β ) ∂ℓi (β ) ∂ℓi (β )
Pn  2  Pn  
− i=1 E ∂βji∂βk = i=1 E
h ∂βj ∂βk  i
Pn (Yi −µi )xij ∂µi (Yi −µi )xik ∂µi
= i=1 E V ar(Yi ) ∂ηi V ar(Yi ) ∂ηi
Pn xij xik  ∂µi 2
= i=1 V ar(Yi ) ∂ηi

Na forma matricial tem-se


I(β) = XT WX , (2.15)

onde W é a matriz diagonal cujo elemento i é


 ∂µ 2 1  ∂µ 2 ω
i i i
ϖi = = . (2.16)
∂ηi V ar(Yi ) ∂ηi ϕV (µi )

26
Para funções ℓ(β) estritamente côncavas os estimadores de máxima verosimilhança são mesmo únicos,
quando existem.
Problema: As equações (2.13) não têm, em geral, solução analı́tica e, portanto, a sua resolução implica
o recurso a métodos numéricos.
O método iterativo para resolução das equações (2.13) é um método de mı́nimos quadrados ponderados
baseado no método de pontuação de Fisher.
(0)
Seja β
b uma estimativa inicial para β. O processo de pontuação de Fisher procede com o cálculo
sucessivo de β
b através da relação:
i−1
b (k+1) = β
b (k) + I(β
b (k) ) b (k) ),
h
β s(β

onde I(·)−1 é a inversa da matriz de informação de Fisher (2.15) e S(·) é a função score (2.14).
A expressão anterior pode ser escrita como

b (k) ) β
i (k+1) h
b (k) ) β
i (k)
b (k) ).
h
I(β b = I(β b + s(β

O lado direito desta equação é um vector com elemento genérico


p hX
n  2 i n
xij xil (k) i −µi )xil ∂µi
X X (y
∂µi
V ar(Yi ) ∂ηi βj + V ar(Yi ) ∂ηi
j=1 i=1 i=1

e, portanto, na forma matricial tem-se


(k) (k+1)
I(β
b )β
b = XT W(k) u(k) ,

onde u(k) é um vector com elemento genérico


(k)
(k) (k) (k) ∂ηi
ui = ηi + (yi − µi ) (k)
, (2.17)
∂µi
(k) Pp (k)
com ηi = j=1 b (k) .
xij βj , e a matriz W(k) representa a matriz W calculada em µ
Assim, atendendo a (2.15), tem-se a expressão final para a estimativa de β na (k+1)-ésima iteração
−1
b (k+1) = XT W(k) X

β XT W(k) u(k) . (2.18)

Lembre-se da afirmação anterior que o “algoritmo proposto opera através de uma sequência de problemas
de mı́nimos quadrados ponderados”.
Com efeito, a equação (2.18) é idêntica à que se obteria para os estimadores de mı́nimos quadrados
ponderados se se fizesse, em cada passo, a regressão linear da resposta u(k) em X, sendo W(k) uma
matriz de pesos. Para mais detalhes dos MLG, veja-se e.g. Amaral Turkman e Silva (2000).
Resumindo: O cálculo das estimativas de máxima verosimilhança de β processa-se, iterativamente, em
duas etapas:

b (k) (com k a iniciar-se em 0), calcula-se u(k) usando (2.17) e W(k) usando (2.16).
i) Dado β

b (k+1) é calculada em (2.18).


ii) A nova iterada β

As iterações param quando é atingido um critério adequado, por exemplo, quando


(k+1) (k) (k)
∥β
b −β
b ∥/∥β
b ∥ ≤ ϵ,

27
para algum valor de ϵ > 0 previamente definido.
Em geral a convergência atinge-se após algumas iteradas. Se o processo iterativo não parecer convergir,
isto pode ser devido a uma má estimativa inicial ou à não existência de EMV dentro da região de valores
admissı́veis para β.

Método dos momentos*

Para estimar um vetor de parâmetro desconhecido θ = (θ1 , . . . , θk ) ∈ Θ que caracteriza a distribuição


fX (x|θ) da variável aleatória X, suponha que o os primeiros k momentos da distribuição verdadeira (os
“momentos de população”) podem ser expressos como funções de θ:

µ1 ≡ E(X) = g1 (θ), µ2 ≡ E(X 2 ) = g2 (θ), · · · µk ≡ E(X k ) = gk (θ).

Considere os valores de amostra de X, x1 , . . . , xn para estimar µj pelo j-ésimo momento de amostra i.e.
Pn
µ̂j = (1/n) i=1 xji , j = 1, . . . , k.
O estimador do método de momentos para θ1 , . . . , θk , denotado por θb1 , . . . , θbk é definido como a solução
(se houver) às equações:

µ̂1 = g1 (θb1 , . . . , θbk ), µ̂2 = g2 (θb1 , . . . , θbk ), · · · µ̂k = gk (θb1 , . . . , θbk ).

Selecção de MLG*

Perante muitas covariáveis, há interesse em encontrar o “melhor modelo”, que deve ser um modelo que
atinge um bom equilı́brio entre os três factores: bom ajustamento, parcimónia e interpretação.
Os modelos mais usados durante o processo de selecção são: i) saturado (S) ou completo (bµi = yi ); ii)
nulo (E(Yi ) = µ); iii) maximal (mais parâmetros); iv) minimal (menos parâmetros); v) corrente (M ).
Se compararmos o modelo M com o modelo S através da estatı́stica de razão de verosimilhanças, obtemos
n
D∗ (y; µ
b ) = −2(ℓM (β b )) = 1 D(y; µ
b ) − ℓS (β b) =
1X
di , (2.19)
M S
ϕ ϕ i=1

onde n o
di = 2ωi yi (q(yi ) − q(b
µi )) − b(q(yi )) + b(q(b
µi )) (2.20)
mede a diferença dos logaritmos das verosimilhanças observada e ajustada para a observação i, i =
1, . . . , n, denotando q(yi ) e q(b
µi ) como as estimativas dos parâmetros canônicos sob os modelos S e M ,
respetivamente.
A medida D∗ (y; µ
b ) definida em (2.19) damos o nome de desviância reduzida, enquanto D(y; µ
b ) damos o
nome de desviância (deviance) para o modelo corrente, sendo esta somente função dos dados.
Com base em (2.20), pode-se definir o resı́duo da desviância correspondente à i-ésima observação da
desviância acima
p
RiD = δi di , (2.21)
onde δi = sinal(yi − µ
bi ).
Uma outra propriedade importante da desviância é a aditividade para modelos encaixados. Suponhamos
que temos dois modelos intermédios M1 e M2 estando M2 encaixado em M1 . Se designarmos por D(y; µ bj)
a desviância do modelo Mj , j = 1, 2, então a estatı́stica da razão de verosimilhanças para comparar estes
dois modelos resume-se a

−2(ℓM2 (β
b ) − ℓM (β
2 1 1 b 2 ) − D(y; µ
b )) = [D(y; µ b 1 )]/ϕ.

28
Sem perda de generalidade, sabe-se que, sob a hipótese do modelo M1 ser verdadeiro, então
a
b 2 ) − D(y; µ
[D(y; µ b 1 )]/ϕ ∼ χ2p1 −p2 , (2.22)

onde pj , representa a dimensão do vector β para o modelo Mj , j = 1, 2. A comparação de modelos


encaixados faz-se com base em (2.22).

29
3 Métodos de Reamostragem
Os métodos de reamostragem tratam uma amostra observada como uma população finita, e amostras
aleatórias são geradas (reamostradas) para estimar as caracterı́sticas da população e fazer inferências
sobre a população amostrada.
Embora a subamostragem, a reamostragem ou a reorganização de um determinado conjunto de dados
não possam aumentar o conteúdo de informações do conjunto de dados, esses procedimentos às vezes
podem ser úteis na extração de informações.

ˆ Os métodos jackknife são métodos de reamostragem para estimação de viés e erro padrão.

ˆ Os métodos de bootstrap são métodos não paramétricos de Monte Carlo que estimam a distribuição
de uma população por reamostragem.

3.1 Métodos jackknife


Os métodos jackknife utilizam partições sistemáticas de um conjunto de dados para estimar as proprieda-
des de um estimador calculado a partir da amostra completa. Quenouille (1949, 1956) sugeriu a técnica
para estimar o viés de um estimador, enquanto John Tukey usou o termo ‘jackknife’ para se referir ao
método, e mostrou que o método também é útil para estimar a variância de um estimador (ver e.g.
Gentle, 2002; Rizzo, 2019).
O jackknife é como um tipo leave-one-out (LOO) de validação cruzada.
Seja x = (x1 , . . . , xn ) uma amostra aleatória observada e defina a amostra do i-ésimo jackknife x(−i) como
o subconjunto de x que sai fora da i-ésima observação xi . Ou seja, x(−i) = (x1 , . . . , xi−1 , xi+1 , . . . , xn ).
Se Tn (x) for uma estatı́stica com base em todas as amostras, defina a sua réplica do i-ésimo jackknife
como Tn−1 (x(−i) ), i = 1, . . . , n.
Suponha que o parâmetro θ = t(F ) i.e. , θ é uma função da função de distribuição cumulativa F e Fn
denote sua função empı́rica com base em uma amostra aleatória de F . A estimativa de substituição
(‘plug-in’) de θ é θ̂ = t(Fn ), que é “suave” no sentido de que pequenas alterações nos dados correspondem
a pequenas alterações em θ̂. Por exemplo, a média da amostra é uma estimativa de substituição para a
média da população, contrariamente a mediana da amostra para a mediana da população.
Para a estimação de θ, se T = t(Fn (x)) para uma estatı́stica “suave” (de substituição), então T(−i) =
t(Fn (x(−i) )), e a estimativa jackknife do viés é definida como
cJ = (n − 1)(T̄(·) − T ),
B (3.1)
Pn
onde T̄(·) = n1 i=1 T(−i) é a média das estimativas das amostras leave-one-out e T é a estimativa de θ
calculada a partir da amostra original observada.
Exemplo 3.1: Considere θ = V ar(X) ≡ σ 2 para ilustrar a presença do fator n − 1 em (3.1). Se x1 , . . . , xn
for uma amostra aleatória da distribuição de X, a estimativa de substituição da variância de X será
Pn
T = n1 i=1 (xi − x̄)2 . O estimador T é enviesado para σ 2 com
n−1 2 σ2
B(T ) = E(T − σ 2 ) = · · · = σ − σ2 = − .
n n
Cada réplica jackknife calcula a estimativa T(−i) em um tamanho de amostra n − 1, então que o viés na
σ2
réplica jackknife é − n−1 . Assim, para i = 1, . . . , n temos

σ2 σ2 B(T )
E(T(−i) − T ) = B(T(−i) ) − B(T ) = − − (− ) = .
n−1 n n−1

30
Portanto, a estimativa jackknife (3.1) com o fator (n−1) fornece a estimativa correta do viés do estimador
de substituição da variância (Rizzo, 2019). ■
Uma estimativa jackknife do erro padrão (Tukey, 1958) é definida por
v
u n
un − 1 X
SE J =
d t (T(−i) − T̄(·) )2 , (3.2)
n i=1

para estatı́sticas “suaves” T .


Exemplo 3.2: Considere θ = E(X) i.e. a média da população para ilustrar a presença do fator n−1
n em
p
(3.2). Um estimador de θ é T = X̄ e o erro padrão da média de X é V ar(X)/n. Portanto, sob esse
p
fator, SE
dJ é um estimador de substituição ‘não enviesado’ de V ar(X)/n, pois

n 2
n−1X ¯ )2  = E n − 1 S  = V ar(X) ,
E (X̄(−i) − X̄(·)
n i=1 n n−1 n
Pn Pn Pn 2
Xj ¯ = i=1 X̄(−i) e S 2 = i=1 (Xi −X̄) .
onde X̄(−i) = j̸n−1
=i=1
, X̄(·) n n−1 ■

O jackknife generalizado

Schucany et al. (1971) sugeriram um método de reduzir sistematicamente o viés combinando jackknifes
de ordem superior (jackknife generalizado). Primeiro, considere dois estimadores enviesados de θ, T1 e
T2 . Seja w = B(T 1)
B(T2 ) , onde B(Tj ) é o viés de estimativa de Tj , j = 1, 2.
Agora considere a combinação ponderada dos estimadores i.e.

Tw = (T1 − w T2 )/(1 − w), (3.3)

que é um estimador não enviesado de θ desde


1 w
E(Tw ) = (θ + B(T1 )) − (θ + B(T2 )) = θ.
1−w 1−w
n−1
Observe se w = n , então o estimador jackknife TJ é não enviesado, onde

TJ = nT − (n − 1)T̄(·) . (3.4)
Pn
ˆ O estimador jackknife (3.4) também pode ser escrito como TJ = 1
n i=1 Ti⋆ , onde Ti⋆ = nT − (n−
1)T(−i) são chamados como pseudo-valores do jackknife.

ˆ O jackknife pode falhar quando a estatı́stica T não é “suave”. A mediana é um exemplo de estatı́stica
que não é “suave”. Como, ao deixar de fora uma observação de cada vez, a mediana das amostras
reduzidas assumirá no máximo dois valores diferentes, o procedimento jackknife não pode levar a
uma boa estimativa da variância.

ˆ Quando a estatı́stica não é “suave”, o jackknife de excluir d (deixar de fora d observações em cada

réplica) pode ser aplicada (ver Efron e Tibshirani, 1993). Se n/d → 0 e n − d → ∞, o jackknife
de excluir d é consistente para a mediana. O tempo de computação aumenta porque há um grande
número de réplicas de jackknife quando n e d são grandes.

31
3.2 Métodos bootstrap
O bootstrap foi introduzido por Efron (1979), com desenvolvimentos adicionais em Efron (1981), e inú-
meras outras publicações, incluindo o livro de Efron e Tibshirani (1993).
Os métodos bootstrap são uma classe de métodos não paramétricos que estimam a distribuição de uma
população por reamostragem. O termo ‘bootstrap’ pode se referir a bootstrap não paramétrico ou bootstrap
paramétrico (veja-se métodos de Monte Carlo). No primeiro, a distribuição não é especificada.
Uma idéia básica na reamostragem bootstrap é que, como a amostra observada contém todas as informa-
ções disponı́veis sobre a população subjacente, a amostra observada pode ser considerada a “população”.
Portanto, a distribuição de qualquer estatı́stica de teste relevante pode ser simulada pelo uso de amostras
aleatórias da “população” que consiste na amostra original (Gentle, 2002).
Definição 3.1: Uma amostra bootstrap x⋆ = (x⋆1 , . . . , x⋆n ) é obtida por amostragem aleatória de n vezes,
com substituição, da amostra aleatória original observada x = (x1 , . . . , xn ). A reamostragem gera uma
amostra aleatória X⋆ = (X1⋆ , . . . , Xn⋆ ) por amostragem com substituição de x. As variáveis aleatórias
Xi⋆ são i.i.d., distribuı́das uniformemente no conjunto {x1 , . . . , xn }.
A função de distribuição cumulativa empı́rica (fdce) Fn (x) é um estimador da função de distribuição
cumulativa (fdc) F (x). Fn (x) é ele próprio a fdc de uma variável aleatória; nomeadamente a variável
aleatória que é distribuı́da uniformemente no conjunto {x1 , . . . , xn }. Portanto, o fdce Fn é a fdc de X⋆ .
Assim, no bootstrap, há duas aproximações:

1. A fdce Fn é uma aproximação à fdc FX .

2. A fdce Fn⋆ das réplicas bootstrap é uma aproximação à fdce Fn .

Exemplo 3.3: Considere a amostra observada x = 2, 2, 1, 1, 5, 4, 4, 3, 1, 2. Reamostrando de x, a fdc FX ⋆


de uma réplica selecionada aleatoriamente é exatamente a fdce Fn (x) i.e.



 0, x < 1,





 0.3 1 ≤ x < 2,

2 ≤ x < 3,

0.6
FX ⋆ = Fn (x) =


 0.7 3 ≤ x < 4,


0.9 4 ≤ x < 5,






1 x ≥ 5.

Se Fn não estiver próximo de FX , a distribuição das réplicas não estará próxima de FX . A reamostragem
de x de um grande número de réplicas produz uma boa estimativa de Fn , mas não uma boa estimativa
de FX . Aqui x é uma amostra de Poisson (2) e as amostras bootstrap nunca incluirão 0. ■
Para gerar uma amostra aleatória bootstrap reamostrando x, gere n números inteiros aleatórios {i1 , . . . , in }
distribuı́dos uniformemente em {1, . . . , n} e selecione a amostra bootstrap x⋆ = (xi1 , . . . , xin ).
Suponha que θ é o parâmetro de interesse e T é um estimador de θ. Em seguida, a estimativa bootstrap
da distribuição de T é obtida da seguinte forma (Rizzo, 2019).

1. Para cada replicação bootstrap, indexada a = 1, . . . , A:

(a) Gere amostra x⋆(a) = (x⋆1 , . . . , x⋆n ) por amostragem com substituição da amostra observada
x = (x1 , . . . , xn ).
(b) Calcule a a-ésima réplica T (a) a partir da a-ésima amostra bootstrap.

32
2. A estimativa bootstrap de FT (·) é a distribuição empı́rica das réplicas T (1) , . . . , T (A) .

A estimativa bootstrap do erro padrão de um estimador T do parâmetro θ é o desvio padrão amostral


das réplicas bootstrap T (1) , . . . , T (A) i.e.
v
u
u 1 X A
SE B = t
d (T (a) − T̄ (·) )2 , (3.5)
A − 1 a=1

1
PA
onde T̄ (·) = A a=1 T (a) .
Segundo Efron e Tibshirani (1993), o número de réplicas necessárias para boas estimativas de erro
padrão não é grande; A = 50 geralmente é grande o suficiente e raramente é necessário A > 200. (A
muito maiores serão necessários para a estimativa do intervalo de confiança.)
O estimação bootstrap do viés usa as réplicas bootstrap de T para estimar a distribuição amostral de
T . Para a população finita x = (x1 , . . . , xn ), o “parâmetro” é T (x) e há A estimadores independentes e
identicamente distribuı́dos T (a) . A média da amostra das réplicas {T (1) , . . . , T (A) } é não enviesada para
o seu valor esperado E(T (·) ) e, portanto, a estimativa bootstrap do viés é

(·)
B
dB = (T̄ − T ), (3.6)

1
PA
onde T̄ (·) = A a=1 T (a) e T é a estimativa de θ calculada a partir da amostra original observada.
Note-se que, no bootstrap, Fn é amostrado no lugar de FX , então substituı́mos θ por T para estimar o
viés. Viés positivo indica que, em média, T tende a sobreestimar θ.
Exemplo 3.4: O conjunto de dados de faculdade de direito de Efron e Tibshirani (1993) contém LSAT
(pontuação média na nota do teste de admissão na faculdade de direito) e GPA (média de notas na
graduação) para 15 faculdades de direito.

LSAT 576 635 558 578 666 580 555 661 651 605 653 575 545 572 594
GPA 339 330 281 303 344 307 300 343 336 313 312 274 276 288 296

A correlação entre as pontuações LSAT e GPA é definida por


p
θ = Cov(LSAT, GP A)/ V ar(LSAT ) V ar(GP A).

ˆ θ é empiricamente estimado em 0.7773745.

ˆ A estimativa bootstrap do erro padrão da correlação da amostra (A = 200 réplicas) é SE


dB =
0.1358393.

ˆ O histograma das réplicas de T é mostrado na Figura 1.

Jackknife-após-Bootstrap

Para obter a variância das estimativas bootstrap do erro padrão e do viés, que são variáveis aleatórias,
podemos tentar o jackknife-após-bootstrap calculando uma estimativa para cada amostra “leave-one-out”.
Denote B(i) o número de amostras bootstrap que não contém xi e J(i) os ı́ndices correspondentes. Em
seguida, calcule a réplica jackknife, deixando de fora as B − B(i) amostras que contém xi (Efron e
Tibshirani, 1993).

33
3.0
2.5
2.0
Density

1.5
1.0
0.5
0.0
0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Cor_LSAT_GPA

Figura 1: Réplicas bootstrap para os dados da faculdade de direito no Exemplo 3.4.

A estimativa jackknife-após-bootstrap do erro padrão é calculada por

SE
dJaB = SE
dJ (SE
dB(1) , . . . , SE
dB(n) ), (3.7)
q
1 1
P 2
P
onde SE j∈J(i) [T(−j) − T̄(J(i)) ] e T̄(J(i)) =
dJ é calculado por (3.2), SE
dB(i) = T(−j)
B(i) B(i) j∈J(i)
que é a média amostral das estimativas das amostras jackknife leave-xi -out.

Intervalos de confiança bootstrap

Um método para formar um intervalo de confiança para um parâmetro θ é encontrar uma quantidade
pivotal que envolva θ e uma estatı́stica T , f (T, θ) e, em seguida, reorganizar os termos na estipulada
probabilidade da forma
P (q α2 ≤ f (T, θ) ≤ q1− α2 ) = 1 − α. (3.8)

Para o caso f (T, θ) = T − θ em (3.8), o intervalo de confiança bootstrap básico a (1−α)% é definido por

P (T − q1− α2 ≤ θ ≤ T − q α2 ) = 1 − α. (3.9)

onde os quantis q α2 e q1− α2 podem ser estimados a partir da fdce das réplicas bootstrap T (·) . Gentle
(2002) sugerem a sua estimação dos quantis da amostra Monte Carlo de T ⋆ −T0 , onde T ⋆ e T0 são os
valores de T na amostra bootstrap e numa determinada amostra, respectivamente.
Métodos de inferência baseados em uma distribuição Normal geralmente funcionam bem mesmo quando
a distribuição subjacente não é Normal. Um intervalo de confiança aproximado útil para um parâme-
tro de localização pode geralmente ser construı́do usando o intervalo de confiança para média de uma
distribuição Normal.
Um intervalo de confiança para qualquer parâmetro construı́do nesse padrão é chamado de intervalo
bootstrap-t que possui a forma
q q
t t
(T − q̂1− α2 V (T ), T − q̂ α2 Vb (T )).
b (3.10)
q
t
onde q̂(·) é o quantil estimado da estatı́stica “studentizada”, T = (T ⋆ − T0 )/ Vb (T ⋆ ).
A variância V (T ) não está geralmente disponı́vel para muitos estimadores T . Mas pode ser estimada
usando uma amostra bootstrap i.e. a variância da amostra de T ⋆ com base em m amostras de tamanho
n retiradas de Fn .

34
Um intervalo de confiança bootstrap do percentil usa a distribuição empı́rica das réplicas bootstrap como a
distribuição de referência. Os quantis da distribuição empı́rica são estimadores dos quantis da distribuição
amostral de T .
A partir das réplicas bootstrap, calcule o quantil de α2 , q ⋆α , e o quantil de 1−α ⋆
2 , q1− α . Na prática,
2 2
geralmente usamos Monte Carlo e m amostras bootstrap para estimar essas quantidades. O intervalo de
confiança bootstrap do percentil (cauda igual) a (1 − α)100% é, portanto,

⋆ ⋆
(q1− α , q α ). (3.11)
2 2

onde qα⋆ é a [αm]-ésima estatı́stica da ordem de uma amostra de T de tamanho m.


Efron e Tibshirani (1993) mostram que o intervalo percentil tem algumas vantagens teóricas sobre o
intervalo Normal padrão e um desempenho de cobertura um pouco melhor.
Exemplo 3.5 (vide Exemplo 3.3): Usando o pacote R boot, podemos calcular estimativas de intervalo
de confiança bootstrap a 95% para a estatı́stica de correlação nos dados law (veja a saı́da abaixo para
A = 2000 réplicas).

...
Intervals :
Level Normal Basic Percentile
95% (0.5182, 1.0448) (0.5916, 1.0994) (0.4534, 0.9611)
Calculations and Intervals on Original Scale

Todos os três intervalos cobrem a correlação ρ = 0.76 do universo de todas as faculdades de direito
(dados law82 ). Uma razão para a diferença nos intervalos de confiança do percentil e normal pode ser
que a distribuição amostral da estatı́stica de correlação não esteja próxima da Normal (consulte Figura
1). ■

35
4 Métodos de Monte Carlo
A utilização de métodos de Monte Carlo é uma alternativa apropriada aos métodos numéricos para a
resolução de integrais, particularmente em cenários multidimensionais.
Os métodos de Monte Carlo assentam em simulação estocástica, i.e. , na reprodução de valores de
distribuições de probabilidade (vide e.g. Gentle, 2004; Robert & Casella, 2004; Paulino et al. , 2018;
Rizzo, 2019).
Segundo Robert e Casella (2004), duas grandes classes de problemas numéricos que surgem na inferência
estatı́stica são:

ˆ Otimização - geralmente associada à abordagem de verosimilhança;

ˆ Integração - geralmente associada à abordagem bayesiana.

A inferência de Monte Carlo (ou integração de Monte Carlo) pode ser formulada como estimação de uma
integral definida Z
J = f (x)dx, (4.1)
X
onde X é uni ou multidimensional e f é uma função que satisfaça certas condições de otimização.
Se a função f for decomposta para ter um fator que é uma função de densidade de probabilidade, i.e. ,
f (x) = g(x) h(x), então a integral J é o valor esperado da função g da variável aleatória com densidade
de probabilidade h, ou seja, Z
J = E[g(X)] = g(x) h(x)dx. (4.2)
X

4.1 Método de Monte Carlo simples


Com uma amostra aleatória x1 , . . . , xn da distribuição com densidade de probabilidade h, a integral J
é aproximada pela média empı́rica
n
1X
Jˆ ≡ gn = g(xi ) (4.3)
n i=1
que converge
gn → Eh [g(X)]

pela lei forte dos grandes números..7


R1
Nota: O estimador de Monte Carlo (MC) simples de 0
g(x)dx é gn .
Usa-se essa técnica em muitos cenários na Estatı́stica (Gentle, 2004). Existem três etapas:

1. decomponha a função de interesse para incluir uma função de densidade de probabilidade como
um fator;

2. identifique um valor esperado;

3. use uma amostra (simulada ou não) para estimar o valor esperado.



Exemplo 4.1: Seja g(x) = 1 − x2 e seja h(x) a densidade da distribuição uniforme em (0, 1). Para
calcular um quarto da área do cı́rculo unitário (π/4 ≈ 0.78554), pode-se gerar 5000 amostras de h(x) e
obter gn ≈ 0.78551. ■
7 Deacordo com a lei dos grandes números, a média dos resultados obtidos em um grande número de tentativas deve
estar próxima do valor esperado (veja-se o Apêndice).

36
Para a inferência bayesiana, o problema é aproximar um integral da forma
Z
g(θ)h(θ|x)dθ = E[g(θ)|x], (4.4)

onde θ e x podem ser vetores, cuja existência se admite.


Muitas quantidades a posteriori de interesse são expressáveis por (4.4) para algum tipo de função g(θ) in-
tegrável, e.g., covariâncias a posteriori de componentes de θ, em que g(θ) = [θi − E(θi | x)] [θj − E(θj | x)] , ∀ i, j.

Se se puder simular uma amostra aleatória (θ(1) , . . . , θ(n) ) da densidade a posteriori h(θ | x), o método
de Monte Carlo simples aproxima o integral (4.4) pela média empı́rica
n
b [g(θ) | x] = 1
X
E g(θ(i) ). (4.5)
n i=1

Uma estimativa da variância do estimador (4.3) é


n
1 X
vn = [g(xi ) − gn ]2 . (4.6)
n − 1 i=1

Isso ocorre porque os elementos do conjunto de variáveis aleatórias {g(Xi )}, sobre o qual temos obser-
vações {g(xi )}, são (presumidamente) independentes e, portanto, têm correlações zero.
Para n grande,
gn − Eh [g(X)] a
√ ∼ N (0, 1). (4.7)
vn
Nota: Isso pode levar à construção de um teste de convergência e de bandas de confiança na aproximação
de Eh [g(X)].
No cenário bayesiano, a precisão do estimador MC (4.5) pode também ser medida pelo erro padrão
(estimado) de Monte Carlo dado por

n
" n
#2 1/2
1 X 1X 
p g(θ(i) ) − g(θ(i) ) , (4.8)
n(n − 1)  i=1
n i=1

quando a quantidade E{[g(θ)]2 |x} é finita.


Em suma, se se conseguir simular amostras da distribuição a posteriori h(θ | x), a aplicação do método
de Monte Carlo simples para resolver integrais do tipo (4.4) é então trivial, por exemplo:

1. avaliação de probabilidades a posteriori ,

2. densidades a posteriori marginais,

3. intervalos de credibilidade,

4. quantidades associadas à distribuição preditiva a posteriori .

Probabilidades a posteriori

Quando g(θ) é a função indicadora de algum subconjunto A do espaço paramétrico, a aproximação de


Monte Carlo (4.5) representa a proporção de valores amostrais incluı́dos em A. Por exemplo, o cálculo
da probabilidade a posteriori do menor intervalo HPD contendo um valor fixado θ0 ∈ IR,

P (θ0 ) = Ph(θ|x) ({θ : h(θ | x) ≥ h(θ0 | x)}) ,

37
A estimativa de Monte Carlo pode ser expressa por

# θ(i) , 1 ≤ i ≤ n : L(θ(i) | x)h(θ(i) ) ≥ L(θ0 | x)h(θ0 )
P̂ (θ0 ) = . (4.9)
n
Note-se que se a constante normalizadora da densidade univariada h(θ|x) for desconhecida, isso não
impede a sua determinação.

Densidades a posteriori marginais

Se θ = (θ1 , . . . , θk ) ∈ IRk , k > 1 e o objetivo é avaliar densidades marginais a posteriori com base numa
amostra aleatória θ(i) = (θ(i)1 , . . . , θ(i)k ), 1 ≤ i ≤ n de h(θ | x), é possı́vel aplicar vários métodos (vide
Paulino et al. , 2018).
Por simplicidade, considere-se k = 2 e seja Θ o suporte da densidade a posteriori de θ = (θ1 , θ2 ),
h(θ1 , θ2 | x). Denote-se por Θ−1 (θ1 ) o subconjunto de Θ que representa o suporte de h(θ1 , θ2 | x) para
θ1 fixado, i.e. , Θ−1 (θ1 ) = {θ2 : (θ1 , θ2 ) ∈ Θ}. Numa notação coerente denote-se o suporte da densidade
condicional h(θ1 | θ2 , x) por Θ1 (θ2 ) = {θ1 : (θ1 , θ2 ) ∈ Θ}.

Posteriomente, este raciocı́nio será generalizado para o particionamento θ = θ(m) , θ(−m) , com θ(m) =
(θ1 , . . . , θm ) ∈ IRm para m = 1, . . . , k − 1 fixado, e θ(−m) = (θm+1 , . . . , θk ).
Fixado um valor θ1∗ de θ1 , tem-se (pressupondo a validade do teorema de Fubini)

Z
h(θ1∗ | x) = h(θ1∗ | θ2 , x) h(θ2 | x) dθ2
Θ−1 (θ1∗ )
Z Z
= h(θ1∗ | θ2 , x) h(θ1 , θ2 | x) dθ1 dθ2
Θ−1 (θ1∗ ) Θ1 (θ2 )
Z
= h(θ1∗ | θ2 , x) h(θ | x) dθ.
Θ

Esta expressão implica que a densidade marginal a posteriori do vetor θ(m) pode ser aproximada pelo
(m) (−m) (m)
método de Monte Carlo aplicado à amostra aleatória de h(θ | x), θ(i) = (θ(i) , θ(i) ) com θ(i) =
 (−m) 
θ(i)1 , . . . , θ(i)m e θ(i) = θ(i)m+1 , . . . , θ(i)k , i = 1, . . . , n, por
n

(m)
 1 X  (m) (−m) 
ĥ θ∗ | x = h θ∗ | θ(i) , x . (4.10)
n i=1

Intervalos de credibilidade

Considere-se agora que (θ(i) , 1 ≤ i ≤ n) é uma amostra aleatória da densidade a posteriori univariada
h(θ | x), com função de distribuição H(θ | x), que pretende ser resumida por um intervalo de credibilidade
γ.
A determinação exata deste exige o conhecimento completo da distribuição a posteriori , o que nem
sempre sucede por causa da constante normalizadora (ainda que tal não inviabilize a obtenção de uma
amostra dela, como se verá adiante).
 
O intervalo de credibilidade a 100γ% de caudas iguais para θ é definido por Rc (γ) = θ 1−γ , θ 1+γ ,
2 2
1−γ 1+γ
cujos extremos definem os quantis de probabilidade a posteriori 2 e 2 , respetivamente, de θ, i.e. ,
H (θβ | x) = β.
Uma aproximação Monte Carlo de Rc (γ) é obtida ordenando a amostra aleatória e usando os quantis
empı́ricos. Especificamente, representando agora (θ[i] , 1 ≤ i ≤ n) a amostra ordenada, a estimativa

38
Monte Carlo de Rc (γ) é definida por
 
R̂c (γ) = θ ,θ , (4.11)
n ( 1−γ
2 ) n ( 1+γ
2 )

onde ⟨n α⟩ denota a parte inteira de nα.


Como se referiu anteriormente, o intervalo Rc (γ) de h(θ | x) não é o melhor resumo intervalar de uma
distribuição unimodal quando esta não é simétrica, sendo por isso claramente preterido em favor do
intervalo HPD R0 (γ) = {θ : h(θ | x) ≥ kγ }, onde kγ é a maior constante para a qual a probabilidade a
posteriori de R0 (γ) é no mı́nimo γ. R0 (γ) é mais difı́cil de determinar do que Rc (γ).

Quantidades preditivas

Atendendo a que as ordenadas da densidade preditiva a posteriori de Y são o valor esperado p(y | x) =
Eθ|x [f (y | θ, x)], facilmente se obtém a respetiva aproximação de Monte Carlo
n
1X
p̂(y | x) = f (y | θ(i) , x) (4.12)
n i=1

com base nos valores i.i.d. simulados de h(θ | x).


Para a estimação Monte Carlo de quantidades associadas com a distribuição preditiva p(y | x) é ne-
cessário obter-se uma amostra aleatória desta distribuição. Isto é possı́vel através do chamado método
de composição (Tanner, 1996) caso se saiba amostrar da distribuição amostral de y, obtendo-se então a
amostra (y(1) , . . . , y(n) ) de p(y | x) do seguinte modo:

1. Retire-se uma concretização (θ(1) , . . . , θ(n) ) de uma amostra aleatória da distribuição h(θ | x);

2. Para cada i, retire-se y(i) de f (y | θ(i) , x), i = 1, . . . , n.

Com base nesta amostra podem calcular-se facilmente aproximações de vários resumos da distribuição
preditiva. Por exemplo, estimativas da predição média e do intervalo de predição HPD para a observação
futura y ∈ IR obtêm-se dela pela mesma forma como a média a posteriori e os intervalos de credibilidade
HPD para θ são estimados da amostra da distribuição a posteriori de θ, como se indicou atrás.
Exemplo 4.2: Considere-se o modelo Normal/Normal hierárquico definido por

X | θ ∼ Np (θ, σ12 Ip ), θi , i = 1, . . . , p | µ, σ22 ∼ N (µ, σ22 ),


iid

onde θ = (θi , i = 1, . . . , p) e σ12 é suposto como conhecido.


Em Paulino et al. (2018) - Exemplo 8.7, descreve-se:

ˆ a distribuição a posteriori condicional de θ dado (µ, σ22 ) (Normal p-variada),

ˆ a distribuição a posteriori condicional de µ dado σ22 (Normal univariada),

ˆ o núcleo, h̄2 (σ22 | x), da distribuição a posteriori marginal de σ22 .

Como a distribuição a posteriori (marginal) de θ não tem forma explı́cita, a sua estimação pelo método
de Monte Carlo exige pelo menos a simulação da distribuição h2 (σ22 | x), apenas parcialmente conhecida.
Usando como distribuição a priori de σ22 a “distribuição Uniforme” em IR+ , o núcleo h̄2 (σ22 | x) pode
2
ser avaliado numa grelha de N valores σ2(l) , uniformemente espaçados, cobrindo a gama efetiva de σ22 (a
qual deve ser determinada aproximadamente por tentativas).

39
  P  
2 N 2
A normalização consegue-se somando todos os valores e acoplando a cada um o peso pl = h̄2 σ2(l) / l=1 h̄2 σ2(l) .
n o
A distribuição h2 (σ22 | x) passa assim a ser representada pela aproximação discreta σ2(l)
2
, pl , da
2
qual se podem gerar valores simulados σ2(j) , j = 1, . . . , n (vide, e.g., Ripley, 1987). Em seguida,
  
2
simula-se facilmente µ(j) da distribuição h2 µ | σ2(j) , x e, caso necessário, θ(j) = θ(j)1 , . . . , θ(j)p de
 
2
h1 θ | µ(j) , σ2(j) , x , j = 1, . . . , n.
A média a posteriori de θ é então estimável pela média empı́rica dos θ(j) . Querendo avaliar a densidade
a posteriori marginal de θ, pode-se recorrer à estimativa condicional
n
1X  2

ĥ(θ | x) = h θ | µ(j) , σ2(j) ,x .
n j=1

Querendo-se predizer uma observação futura y com distribuição amostral Y | θq ∼ N (θq , σ12 ) para um
dado q, q = 1, . . . , p, simule-se y(j) de f (y | θ(j)q ), j = 1, . . . , n – recorde-se que se supôs σ1 conhecido -, e
tome-se a média empı́rica dos valores simulados. A obtenção da aproximação Monte Carlo da distribuição
preditiva de y pode evitar este esquema adicional de simulações, recorrendo a
n
1X
p̂(y | x) = f (y | θ(j)q ). ■
n j=1

Exemplo 4.3: (Teoria da decisão bayesiana)


Os estimadores de Bayes nem sempre são valores esperados a posteriori , mas soluções do problema de
minimização Z
min L(θ, δ)f (x|θ)h(θ)dθ. (4.13)
δ Θ

ˆ Perda quadrática: para L(θ, δ) = (θ − δ)2 , o estimador de Bayes é a média a posteriori ,

ˆ Perda absoluta: para L(θ, δ) = |θ − δ|, o estimador Bayes é a mediana a posteriori ,

ˆ Sem função de perda: use o estimador a posteriori máximo

arg max L(θ|x)h(θ). ■


θ

Redução da variância

Os estimadores Monte Carlo associados com as diversas representações apresentam precisões variáveis,
com implicações no esforço computacional requerido para obtenção de estimativas fiáveis.
Aumentar o número de réplicas n reduz claramente a variância do estimador de Monte Carlo. Para
reduzir o erro padrão de 0.01 para 0.0001, seria necessário aproximadamente 10000 vezes o número de
réplicas.
Existem várias abordagens para reduzir a variância no estimador médio da amostra de J = E[g(X)]:
Variáveis antitéticas, Variáveis de controlo, Amostragem de importância, Amostragem estratificada, etc.
(veja-se e.g. Robert and Casella, 2004).
Definição 4.1: Se Jˆ1 e Jˆ2 são estimadores MC do parâmetro J = E[g(X)], e V ar(Jˆ2 ) < V ar(Jˆ1 ), então
a percentagem de redução na variância alcançada usando Jˆ2 em vez de Jˆ1 é

V ar(Jˆ1 ) − V ar(Jˆ2 )
 
100 . (4.14)
V ar(Jˆ1 )

40
Se σ 2 é a variância dos estimadores Jˆ1 e Jˆ2 na Definição 4.1, a variância da média desses estimadores
de J é dada por
V ar (Jˆ1 + Jˆ2 )/2 = σ 2 /2 + Cov(Jˆ1 , Jˆ2 )/2.
 

Portanto, a variância de V ar[(Jˆ1 + Jˆ2 )/2] é menor se Jˆ1 e Jˆ2 estiverem negativamente correlacionados
do que quando as variáveis são independentes.

Variáveis antitéticas

Seja X1 , . . . , Xn uma amostra aleatória da distribuição de X, simulada pelo método de transformação


−1
inversa. Ou seja, geramos Uj ∼ Uniforme(0, 1) e calculamos Xj = FX (Uj ), j = 1, . . . , n.
Observe que se U for distribuı́do uniformemente em (0, 1), então 1 − U terá a mesma distribuição que
U , mas U e 1 − U serão correlacionados negativamente.
−1 −1 −1 −1
Então, para g(·) uma função de X1 , . . . , Xn , Y1 = g(FX (U1 ), . . . , FX (Un )) e Y2 = g(FX (1−U1 ), . . . , FX (1−
Un )) têm a mesma distribuição.
−1 −1
Proposição 4.1: Se g = g(X1 , . . . , Xn ) é monótona, então Y1 = g(FX (U1 ), . . . , FX (Un )) e Y2 =
−1 −1
g(FX (1 − U1 ), . . . , FX (1 − Un )) estão negativamente correlacionadas. Demonstração: Ver Corolário
6.1 em Rizzo (2019).
Rx 2
Exemplo 4.4: (Variáveis antitéticas) Para estimar a fdc da normal padrão Φ(x) = −∞ √12π e−t /2 dt,
podemos encontre a redução aproximada no erro padrão usando variáveis antitéticas.
Rx 2 R1 2
Como Φ(x) = 21 + 0 √12π e−t /2 dt = 12 + √12π 0 x e−(x u) /2 du, se x > 0, a quantidade de interesse é
2 R1 2
J = EU [x e−(xU ) /2 ] = 0 x e−(x u) /2 du, onde U ∼ Uniforme(0, 1).
2
Sendo g(u) = xe−(ux) /2 uma função monótona, pode-se gerar números aleatórios u1 , . . . , un/2 a partir
2
de Uniforme(0,1) e calcular metade das réplicas usando Yj = g(uj ) = xe−(uj x) /2 , j = 1, . . . , n/2 como
2
antes, mas calcule a metade restante das réplicas usando Yj = x e−((1−uj )x) /2 , j = 1, . . . , n2 .
A média amostral
n/2
1X 2 2
Jˆ = gn (x) = xe−(uj x) /2 + xe−((1−uj )x) /2

n j=1

converge para E(Jˆ) = J quando n → ∞. ■

4.2 Método de Monte Carlo com amostragem de importância


Rb Rb 1
Para estimar uma integral J = a g(x)dx, podemos reescrevê-la facilmente como J = (b−a) a g(x) b−a dx,
onde uma função de peso uniforme é aplicada no intervalo (a, b).
O método de Monte Carlo simples gera réplicas de X1 , . . . , Xn distribuı́das uniformemente em (a, b) e
estima J pela média da amostra
n
ˆ b−aX
J = g(Xj ).
n j=1

No entanto, pode-se considerar outras funções de peso além de Uniforme. Ou seja, outra estratégia para
calcular um valor esperado J é gerar amostras da distribuição com densidade p(x) que é chamada função
de importância.
Se X é uma variável aleatória com densidade p(x), de modo que p(x) > 0 no conjunto {x : g(x) > 0} e
Y the variável aleatória g(X)/p(X), então
Z Z
g(x)
g(x)dx = p(x)dx = E(Y ).
p(x)

41
E(Y ) é estimado por Monte Carlo simples, i.e. , calcule a média
n n
1X 1 X g(Xj )
Yj = ,
n j=1 n j=1 p(Xj )

onde as variáveis aleatórias X1 , . . . , Xn são geradas a partir da distribuição com densidade p(x).
Em um método de amostragem de importância, a variância (erro padrão) do estimador com base em
Y = g(X)
p(X) é
V ar(Y )
n e V ar(Y ) deve ser pequena. A variância de Y é pequena se Y for quase constante e,
portanto, a densidade p(x) deve ser “próxima” de g(x).
Para obter uma estimativa de MC mais precisa para um determinado tamanho de amostra, pode-se supor
que a distribuição simulada não é uniforme. Nesse caso, uma média ponderada seria melhor do que a
média da amostra não ponderada para corrigir o potencial viés. Este método é denominado amostragem
de importância (ver e.g. Robert e Casella, 2004).
Suponha que h(x) seja uma densidade com suporte num conjunto A. Se p(x) > 0 em A, então
J = A g(x)h(x)dx = A g(x) h(x)
R R
p(x) p(x)dx. E se p(x) é uma densidade em A, um estimador de J =
Ep [g(X)h(X)/p(X)] é
n
1X h(Xj )
Jˆ = g(Xj ) ,
n j=1 p(Xj )

onde X1 , . . . , Xn é uma amostra aleatória da densidade p(x), que é a função de amostragem de importân-
cia. Existem muitas densidades p(x) que são convenientes para simular. Normalmente, deve-se escolher
uma em que p(x) ≈ |g(x)|h(x) em A.
Para o cenário bayesiano, geralmente não é possı́vel obter uma amostra i.i.d. diretamente da distribuição
a posteriori h(θ|x) e, assim, há necessidade de encontrar estratégias alternativas.
Seja p(θ) uma função densidade cujo suporte (diga-se Θp ) inclua o de

h(θ|x) = cf (x|θ)h(θ).

A quantidade (a posteriori ) de interesse J = E(g(θ)) pode exprimir-se em ordem a esta distribuição


p(θ) como o valor esperado da função original g ajustada pelo fator multiplicativo h(θ|x)/p(θ), o qual é
sempre finito pela condição imposta sobre o suporte da distribuição proposta para amostragem, p(θ).
Portanto, a proposta de simular de p(θ) em vez de h(θ|x) conduz a redefinir a quantidade de interesse
através de (Θp , gh/p, p).
Por outro lado, esta nova representação da quantidade de interesse exige apenas que a distribuição a
posteriori seja conhecida a menos da constante de proporcionalidade c, sendo esta observação também
aplicável à distribuição instrumental p(θ). Com efeito,

g(θ) f (x|θ)h(θ)
R
p(θ)dθ
Z R
p(θ) g(θ)w(θ)p(θ)dθ
g(θ)h(θ|x)dθ = R f (x|θ)h(θ) ≡ R . (4.15)
p(θ)dθ w(θ)p(θ)dθ
p(θ)

Sendo então (θ(1) , . . . , θ(n) ) uma amostra de p(θ), pode-se aplicar o método de Monte Carlo para apro-
ximar J = E [g(θ) | x] por
n
b [g(θ) | x] = Pn1
X
Jˆ = E wi g(θ(i) ), (4.16)
i=1 wi i=1

onde wi = f (x | θ(i) )h(θ(i) )/p(θ(i) ).

42
R
Se o suporte de p(θ) incluir o de h(θ|x) e o integral g(θ) h(θ|x)dθ existir e ser finito, Geweke (1989)
mostra, quando os θ(i) são uma amostra i.i.d. de p(θ), que
n Z
1 X
Pn wi g(θ(i) ) → g(θ) h(θ|x)dθ q.c.,
i=1 wi i=1

com um erro padrão de Monte Carlo estimado por


" n  n 2 #1/2
1 X 1 X
Pn g(θ(i) ) − Pn wi g(θ(i) ) wi2 ,
j=1 wj i=1 j=1 wj i=1

sob a finitude da variância do estimador de Monte Carlo, i.e. , do valor esperado a posteriori do produto
de [g(θ)2 ] pelo rácio de importância h(θ|x)/p(θ) (que é o valor esperado segundo p do quadrado de
g(θ)h(θ|x)/p(θ)).
Exemplo 4.5: (vide Exemplo 2.3) Com base numa função de importância para obter a distribuição a
posteriori , pode-se calcular o valor médio e variância a posteriori para θ. Considerando a distribuição a
priori Beta(a, b), a correspondente função densidade a posteriori será

h(θ|x) ∝ (2 + θ)x1 (1 − θ)x2 +x3 +b−1 θx4 +a−1 , 0 ≤ θ ≤ 1,

em que para L(θ) ≡ log h(θ|x) se tem

L(θ) ∝ x1 log(2+θ) + (x2 +x3 +b−1) log(1−θ) + (x4 +a−1) log(θ)


x1 x2 + x3 + b − 1 x4 + a − 1
L′ (θ) = − +
2+θ 1−θ θ
x1 x2 + x3 + b − 1 x4 + a − 1
−L′′ (θ) = + + .
(2 + θ)2 (1 − θ)2 θ2

Apesar de a função densidade Normal ser bastante utilizada, como θ varia no intervalo [0, 1], a função
densidade Beta pode também ser considerada adequada como candidata a função de importância, p(θ).
Seja θ̂ o valor de θ para o qual

ˆ L′ (θ) = 0, e

ˆ σ̂ 2 = {−L′′ (θ̂)}−1 .

Considerem-se estes valores como primeiras aproximações, respetivamente, para o valor médio e variância
da distribuição a posteriori , com base nos quais se vão obter os parâmetros caraterı́sticos da distribuição
instrumental p(θ)8 .
Uma vez especificada completamente esta, proceda-se então do seguinte modo:
iid
1. Simule-se a amostra (θ(1) , . . . , θ(n) ) ∼ p(θ);
f (x|θ(i) )h(θ(i) )
2. Calcule-se os pesos de importância wi = p(θ(i) ) ;
Pn
3. Determinem-se as estimativas Pn1 wi i=1 wi g(θ(i) ), tomando:
i=1

ˆ g(θ) = θ para o cálculo aproximado do valor médio da distribuição a posteriori ;


ˆ g(θ) = θ2 para obter uma aproximação da variância da distribuição a posteriori .
8A densidade instrumental p(θ) ficou conhecida na literatura por função de importância, possivelmente por permitir
desbloquear o processo de simulação e cobrir melhor a região de importância para avaliação do integral em causa.

43
A constante de proporcionalidade de h(θ|x) pode ainda ser obtida, via método de Monte Carlo, à custa
dos pesos de importância wi dado que
Z   n
f (x|θ) h(θ) 1X
f (x|θ) h(θ) dθ = Ep(θ) ≈ wi .
p(θ) n i=1

Na Figura 2 apresenta os gráficos para duas amostras (N = 197, 20) da densidade a posteriori exata
obtida usando integração numérica, assim como das aproximações pelas densidades instrumentais Normal
e Beta com parâmetros estimados por amostragem de importância. Usou-se n = 250 e uma distribuição
a priori Uniforme.
Para representar o gráfico das aproximações a h(θ|x) e poder comparar com a distribuição exata, o pro-
cedimento indicado acima para obter uma aproximação à constante de proporcionalidade de h(θ|x), para
cada uma das funções de importância usadas, foi repetido r = 100 vezes, e tomou-se como aproximação
a média dos r valores obtidos.
Note-se que o método de amostragem de importância fornece boas aproximações para ambas as funções
de importância consideradas.
8

exata
normal
4

beta
exata
normal
beta
6

3
h(θ y)

h(θ y)
4

2
2

1
0

0.4 0.5 0.6 0.7 0.8 0.9 1.0 0.4 0.5 0.6 0.7 0.8 0.9 1.0

θ θ

Figura 2: Distribuições a posteriori de θ exata e aproximadas segundo o método de amostragem de


importância: N = 197 (esquerda), N = 20 (direita).

A Tabela 4.1 resume a informação relativa aos valores médios e variâncias obtidos usando o método em
discussão aqui.

N = 197 N = 20
E(θ|x) Var(θ|x) E(θ|x) Var(θ|x)
Função de importância Normal 0.6233 0.002566 0.8377 0.009263
Função de importância Beta 0.6227 0.002584 0.8307 0.011741
Exata 0.6228 0.002595 0.8311 0.011651

Observa-se que o método usando a função de importância Beta é o que fornece valores mais próximos
dos valores exatos, mas os valores obtidos com ambas as funções de importância são semelhantes. ■

4.3 Outros métodos de simulação estocásticas


4.3.1 Métodos de rejeição
Seja π(x) = cπ ∗ (x) uma função densidade de probabilidade (f.d.p.), onde c é a constante de normalização.
Suponha-se que é difı́cil amostrar diretamente de π, mas que no entanto há um modo de simular de uma
f.d.p. pu (x) com base na qual se cria uma função que delimita superiormente π (conhecida como envelope),

44
i.e. , tal que para qualquer x no suporte de π se tem π(x) ≤ M pu (x), onde M > 1 é uma constante
especificada.
O método básico de rejeição que devolve um valor x de uma distribuição X ∼ π(x) explicita-se no seguinte
algoritmo que se ilustra esquematicamente na Figura 3.

Figura 3: Representação esquemática do algoritmo básico de rejeição em que v = uM pu (y), r ≡ rejeitado


e a ≡ aceite.

Algoritmo de rejeição básico

1. Gera-se y da f.d.p. pu .

2. Gera-se u de uma distribuição Uniforme em (0, 1).


π(y)
3. Se u ≤ tome-se x = y; se não, volta-se a 1.
M pu (y)

Com efeito, tomando X como a variável Y quando esta é aceite, tem-se ∀v


  Z v Z π(y) Z v
π(Y ) M pu (y)
−1
P Y ≤ v, U ≤ = pu (y) dudy = M π(y)dy,
M pu (Y ) −∞ 0 −∞

donde π(Y )
π(Y ) P (Y ≤v,U ≤ M p ) Rv
u (Y )
P (X ≤ v) = P (Y ≤ v|U ≤ M pu (Y ) ) =R π(Y ) = −∞
π(y)dy.
P (U ≤ M p (Y ) |y)pu (y)dy
u

Exemplo 4.6: Um método simples de rejeição para amostrar da densidade a posteriori hx (θ) (basta
conhecer o seu núcleo h∗x (θ) pelo resultado acima), quando a densidade a priori é própria, é tomar esta
como função envelope e M igual à verosimilhança máxima, já que

h∗x (θ) = h(θ)f (x|θ) ≤ M h(θ).


f (x|θ0 )
Assim, gerando θ0 ∼ h(·) e u0 ∼ U nif (0, 1), tem-se θ0 ∼ h∗x (·) se u0 < M . ■
A aplicação deste método exige que se ache uma densidade instrumental pu que se adapte bem a π,
devendo ter caudas mais pesadas do que esta, e um gerador simples para ela. Além disso, a constante
M deve ser escolhida de modo a ser o mais pequena possı́vel para que o algoritmo seja eficiente.
4.3.2 Algoritmo de rejeição adaptativo
Gilks e Wild (1992) sugerem um método automático de geração de funções delimitantes para amostra-
gem de densidades-alvo π(x) (ou do seu fator relevante π ∗ (x)) logaritmicamente côncavas, isto é, cujo
logaritmo é uma função côncava.

45
Sabe-se que qualquer função côncava pode ser limitada superiormente e inferiormente por invólucros
formados por troços lineares.
Para os construir consideram-se pontos sobre o gráfico da função e fazem-se passar por e entre esses
pontos, respetivamente, tangentes e cordas ao gráfico - veja-se a Figura 4.

Figura 4: Invólucros lineares, superior e inferior, por troços para delimitar a função L(x) = ln π(x) no
método de rejeição adaptativa.

Seja então π(x) ∝ exp(L(x)) uma função densidade de probabilidade univariada log-côncava com suporte
D ⊂ IR e Tk = {xi , i = 1, . . . , k} um conjunto de k pontos ordenados, x1 ≤ x2 ≤ . . . ≤ xk , para os quais
se calcula L(x) e L′ (x) = dL(x)/dx, se π for contı́nua e diferenciável em D.
Defina-se a função envelope em Tk para π(x) como exp[uk (x)] onde uk (x) é o invólucro superior, linear
por troços, de L(x)
uk (x) = L(xj ) + (x − xj )L′ (xj ),
para x ∈ [zj−1 , zj ] e j = 1, . . . , k − 1 com
L(xj+1 ) − L(xj ) − xj+1 L′ (xj+1 ) + xj L′ (xj )
zj =
L′ (xj ) − L′ (xj+1 )

o ponto de interseção das tangentes à curva l(x) em xj e xj+1 . Os pontos z0 e zk são tomados, respeti-
vamente, como o limite inferior de D (ou −∞ se D não for limitado inferiormente) e superior de D (ou
+∞ se D não for limitado superiormente).
Defina-se ainda a função de enquadramento inferior em Tk de π(x) como exp[lk (x)], onde lk (x) é o
invólucro inferior, linear por troços, de L(x)
(xj+1 − x)L(xj ) + (x − xj )L(xj+1 )
lk (x) =
xj+1 − xj
para x ∈ [xj , xj+1 ] e j = 1, . . . , k − 1. Para x < x1 ou x > xk , lk (x) = −∞.
Como se admite que L(x) é côncava tem-se que lk (x) ≤ L(x) ≤ uk (x) para todo o x em D.
Algoritmo de rejeição adaptativa (uma amostra de n pontos de π(x))
R
1. Obtém-se x do envelope normalizado Sk (x) = exp[uk (x)]/ D
exp[uk (y)]dy.

2. Obtém-se u de uma distribuição Uniforme em (0, 1) e

ˆ se u ≤ exp{lk (x) − uk (x)}, aceita-se x sem fazer qualquer cálculo da função L(x) nesse ponto;
caso contrário, calcula-se L(x) e faz-se o teste de rejeição seguinte;

46
ˆ se u ≤ exp{L(x) − uk (x)}, aceita-se x; caso contrário rejeita-se x;
ˆ retome-se os passos anteriores até se aceitar o candidato gerado.

3. Uma vez findo o ciclo anterior com aceitação do valor candidato, atualizam-se os invólucros supe-
riores e inferiores juntando x a Tk , e aumentando k de uma unidade.

4. Volta-se a 1.

5. Termina-se quando se atingir o número de pontos que se decidiu inicialmente amostrar.

47
5 Métodos de Monte Carlo via Cadeias de Markov
Os métodos de Monte Carlo em cadeias de Markov MCMC são usados para gerar uma amostra direta-
mente a partir de e.g. uma distribuição a posteriori h(θ|x), de acordo com o seguinte procedimento:

1. Construção de uma cadeia de Markov com espaço de estados Θ, que seja simples de simular e cuja
distribuição estacionária seja h(θ|x);

2. Simulação desta cadeia por um longo perı́odo, usando os valores simulados da cadeia para traçar
inferências sobre as quantidades a posteriori (4.4) através do método de integração Monte Carlo,
m
1 X
E(g(θ)|x) ≈ g(θ(j) ),
m j=1

onde θj é o j-ésimo valor para θ numa cadeia com k iterações.

Noções e resultados básicos sobre cadeias de Markov:


Definição 5.1: Um processo estocástico é qualquer coleção de variáveis aleatórias definidas sobre o mesmo
espaço de probabilidade, {U (t) ≡ Ut , t ∈ T }, onde T é um subconjunto de IR que, por comodidade, é
entendido como uma classe de instantes de tempo (conhecido como conjunto de ı́ndice (ou parâmetro)).
Quando esta classe é o conjunto discreto de inteiros positivos T = {0, 1, 2, . . .}, o processo estocástico
dito a tempo discreto é usualmente denotado por {Un , n ≥ 0}, sendo esta a situação tı́pica no contexto
de um esquema de simulação estocástica.
O conjunto U de valores das variáveis é denominado espaço de estados. Note-se que para cada t ∈ T , Ut
é uma variável aleatória, enquanto que para cada elemento de w ∈ U, Ut é uma função de t.
Definição 5.2: O processo {Un , n ≥ 0} satisfazendo a propriedade de Markov de independência condicional
é denominado cadeia de Markov, podendo ser definido através de

P (Un+1 ∈ A|U0 = u0 , . . . , Un = u) = P (Un+1 ∈ A|Un = u) ≡ Pn (u, A), (5.1)

para todo o acontecimento A e n ≥ 0, onde o sı́mbolo Pn (u, A) denota a chamada função de transição
(em um passo) quando parte do instante n.
Quando a função de transição é invariável com n, sendo então denotada por P (u, A), a cadeia de Markov
diz-se homogénea.
Note-se que para uma cadeia de Markov discreta {Ut , t ∈ IN }, as probabilidades de transição em (5.1)
P
i.e. p(u, v) = P (Un+1 = v|Un = u) satisfazem: i) p(u, v) ≥ 0, ii) v p(u, v) = 1, ∀ u, v ∈ U.
Exemplo 5.1: Considere uma partı́cula movendo-se independentemente para a esquerda ou direita na
reta, com deslocamentos sucessivos da posição atual governada por uma função de probabilidade f (u)
com u ∈ Z e Un representando a sua posição no instante n, n ∈ IN . Inicialmente, U0 é distribuı́do de
acordo com π(0), podendo-se estão escrever

U1 = U0 + Z1 , · · · Un = Un−1 + Zn = Z1 + · · · + Zn ,

onde Zi são variáveis aleatórias independentes com função de probabilidade f . Logo, {Un , n ∈ IN } é
uma cadeia de Markov em Z.
Se f (1) = p, f (−1) = q e f (0) = r com p + q + r = 1, as probabilidades de transição da cadeia são
p(u, v) = p, for v = u + 1, p(u, v) = q, para v = u − 1, p(u, v) = r para v = u, p(u, v) = 0 para
v ̸= u − 1, u, u + 1.

48
Note-se que para saber aonde se encontra a cadeia no instante t = n, basta saber a distribuição de
Z1 + · · · + Zn . Esta cadeia é conhecida por passeio aleatório. ■
O estudo do comportamento assintótico (n → ∞) das cadeias é fundamental para os métodos MCMC e
nele desempenha um papel crucial o seguinte conceito.
Definição 5.3: Diz-se que uma distribuição de probabilidade π(u), u ∈ U é estacionária se
X
π(v) = π(u) p(u, v). (5.2)
u

Em particular, a distribuição inicial P (U0 = u) = π(u) é estacionária sse a distribuição de Un é invariante


com n, i.e. P (Un = u) = π(u), ∀ n ≥ 0.
A convergência para a distribuição estacionária π depende de a cadeia possuir algumas propriedades de
estabilidade conhecidas como irredutibilidade e recorrência e mais amplamente ser ergódica, envolvendo
a lei forte dos grandes números (vide Paulino et al. , 2018).
Exemplo 5.2: Seja {Un : n ≥
!0} uma cadeia de Markov em U = {0, 1} com π0 = (π0 (0), π0 (1)) e matriz
0.7 0.3
de transição P = .
0.4 0.6
A sua distribuição estacionária π = (π(0), π(1)) é a solução do sistema π = π P que resulta nas equações

π(j) = π(0) p(0, j) + π(1) p(1, j), j = 0, 1.

Usando a primeira equação i.e. π(0) = (4/3)π(1) na restrição π(0) + π(1) = 1, tem-se a solução π =
(4/7, 3/7).
Note-se que a matriz de transição a n-passos Pn , com elemento genérico pn (u, v) pode ser dada por
! !
1 0.4 0.3 0.3n 0.3 −0.3
Pn = + .
0.7 0.4 0.3 0.7 −0.4 0.4

Então, lim Pn = (1, 1)T × ( 47 , 37 ) que se aproxima da distribuição estacionária π. ■


n→∞

5.1 Algoritmo Metropolis-Hastings


A origem do algoritmo de Metropolis-Hastings (M-H) remonta ao método de simulação usado em Me-
tropolis et al. (1953), tendo sido posteriormente generalizado por Hastings (1970).
Por conveniência, U representa aqui o antigo vetor k-paramétrico θ (k ≥ 2), então U (t) ≡ Ut = θ(t) ,
enquanto a distribuição estacionária continua a denotar-se por π(u), u ∈ U.
O instrumento fundamental do algoritmo M-H é uma distribuição condicional q(v|u) ≡ q(u, v) à qual está
reservado o papel de gerador de valores simulados propostos (definindo uma cadeia se essa distribuição
for uma correspondente função de transição). Por isso, um requisito de q(·|·) (distribuição proponente)
é que permita uma fácil simulação dela.
Os valores v (t) gerados sucessivamente de q(·|·) são sujeitos a um crivo estocástico, baseado em q(·|·) e
π(·), que determina a aceitação ou rejeição de cada um deles, em que o valor substituindo o v (t) rejeitado
é o anterior valor simulado que foi aceite.
Algoritmo de Metropolis-Hastings (M-H)

1. Dado u(t) , t = 0, 1, 2, . . ., gere-se um valor de V (t) ∼ q(v|u(t) ).

49
π(v)q(u|v)
2. Calcule-se o valor do rácio M-H R(u(t) , V (t) ), em que R(u, v) = π(u)q(v|u) , e considere-se a proba-
bilidade  
π(v)q(u|v)
α(u, v) = min ,1 . (5.3)
π(u)q(v|u)
3. Tome-se o próximo valor da cadeia como a concretização de

V (t) , com probabilidade α(u(t) , V (t) )
U (t+1) =
u(t) , com probabilidade 1 − α(u(t) , V (t) ).

Cada passo da cadeia consiste assim em substituir o valor corrente u pelo candidato v gerado da distri-
buição proponente q(u, ·) ou, em alternativa, reter a cadeia no valor corrente. A tomada de decisão de
aceitação (com probabilidade α = α(u, v)) ou não da transição u → v é executada recorrendo ao seguinte
procedimento:

1. Gere-se um valor z de uma variável Z ∼ U (0, 1);

2. Se z ≤ α, aceita-se a transição para v; se z > α, o valor candidato é rejeitado, imobilizando nesse


passo a cadeia em u.

Um conjunto de observações pertinentes sobre este algoritmo expõem-se em Paulino et al. (2018, Notas
9.1-9.5). Por exemplo, o algoritmo M-H tem requisitos limitados exigidos às distribuições π e q para se
garantir a convergência da cadeia para π.
Dado o caráter genérico do algoritmo M-H, ilustra-se agora algumas das suas especializações.
Algoritmo M-H com independência
A designação deste algoritmo significa que a distribuição instrumental não depende de modo algum das
iterações, i.e. q(v|u) = q(v).
Um exemplo é dado por uma distribuição Normal (geralmente multivariada) com vetor média v0 e matriz
de covariância Σ0 fixados independentemente da iteração. Isto implica que a probabilidade de aceitação
de cada valor dela gerado seja reescrita como

π(v (t) ) q(u(t) )


 
(t) (t)
α(u , v ) = min , 1 , t ≥ 0, (5.4)
π(u(t) ) q(v (t) )
mantendo-se assim a variar com o valor aceite da iteração anterior.
Exemplo 5.3: Uma ilustração deste algoritmo enquadrado na simulação de uma distribuição a posteriori,
i.e. π(θ) = h(θ|x) ∝ L(θ|x)h(θ), em que {U (t) ≡ θ(t) }, é concretizada quando se considera q(θ) = h(θ).
Note-se que neste caso o suporte de q cobre o de π, ainda que as duas densidades possam ser bem
distintas.
A razão M-H neste caso particulariza-se numa razão de verosimilhanças,

L(V (t) |x)


R(θ(t) , V (t) ) = .
L(θ(t) |x)

Nota: A probabilidade de aceitação (??) mostra que a eficiência deste algoritmo é tanto maior quanto
mais próxima estiver a distribuição instrumental q(θ) da distribuição a posteriori π(θ).
Algoritmo M-H com passeio aleatório
Este algoritmo parte de uma cadeia de Markov na simulação da distribuição instrumental definida por
V (t) = U (t) + εt , onde εt representa um erro aleatório com uma distribuição q ∗ independente de U (t) .

50
Trata-se assim de um passeio aleatório associado com a densidade de transição q(v|u) = q ∗ (v − u).
Escolhas usuais para a distribuição instrumental simétrica q ∗ incluem distribuições Uniformes sobre uma
bola centrada na origem, gaussianas e t-Student.
Nota: Se a distribuição instrumental for simétrica, i.e. q(v|u) = q(u|v), as razões M-H simplificam-se
π(v)
para R(u, v) = π(u) , evidenciando bem que elas dispensam o conhecimento da constante normalizadora
da distribuição-alvo (veja-se Metropolis et al. , 1953).
Exemplo 5.4: Suponha que uma amostra aleatória (X1 , . . . , Xn ) de uma mistura Normal de duas com-
ponentes seja observada. A distribuição da mistura é denotada por p N (µ1 , σ12 ) + (1 − p) N (µ2 , σ22 ) e a
densidade da mistura é
π(x) = p f1 (x) + (1 − p) f2 (x)

onde f1 e f2 são as densidades das duas distribuições Normais, respetivamente.


Se as densidades f1 e f2 forem completamente especificadas, a questão é inferir sobre o parâmetro de
mistura p dada a amostra observada.
Neste sentido, pode-se gerar uma cadeia usando um algoritmo M-H de independência que tem a distri-
buição a posteriori de p como distribuição-alvo.
A escolha mais óbvia da distribuição instrumental é a distribuição Beta(a,b). Sem informação a priori
sobre p, pode-se considerar a distribuição da proposta Beta(1,1) (i.e. Uniforme(0,1)).
O valor candidato v (t) é aceito com probabilidade

π(v (t) )q(u(t) )


 
α(u(t) , v (t) ) = min , 1 ,
π(u(t) )q(v (t) )

onde q(v) ∝ v a−1 (1 − v)b−1 e a razão M-H é


n
Y
(u(t) )a−1 (1−u(t) )b−1 v (t) f1 (xi ) + (1−v (t) ) f2 (xi )
i=1
R(u(t) , v (t) ) = n .
Y
(v (t) )a−1 (1−v (t) )b−1 u(t) f1 (xi ) + (1−u(t) ) f 2 (xi )
i=1
6

0.4
Density

0.2
2

0.0
0

0.0 0.1 0.2 0.3 0.4 0.5 0 1000 2000 3000 4000 5000

p Index

Figura 5: O histograma e o traçado da amostra gerada (m = 5000) para a dsitribuição a posteriori de p


com base em dados simulados (n = 30) da mistura de Normais, 0.2 N (0, 1) + 0.8 N (5, 1), e a distribuição
instrumental Beta(1, 1) = U (0, 1).

51
0.50
6
Density

0.35
4

p
2

0.20
0

0.15 0.25 0.35 0.45 0 1000 2000 3000 4000 5000

p Index

Figura 6: O histograma e o traçado da amostra gerada (m = 5000) para a distribuição a posteriori de p


com base em dados simulados (n = 30) da mistura de Normais, 0.2 N (0, 1) + 0.8 N (5, 1), e a distribuição
instrumental Beta(5, 2).

5.2 Amostrador Gibbs


Entre várias formas de construção das cadeias de Markov nos métodos MCMC, destaca-se o método de
amostragem Gibbs (Gibbs sampling) introduzido por Geman and Geman (1984) para simular distribuições
multivariadas em modelos de processamento de imagens.
O algoritmo de Gibbs baseia-se no facto de que uma distribuição a posteriori conjunta h(θ|x) com
θ = (θ1 , . . . , θk )T pode ser em condições gerais determinada unicamente pelas k distribuições a posteriori
condicionais completas
h(θj | θ−j , x), j = 1, . . . , k, (5.5)

onde θ−j é o vetor θ sem a componente θj .


O algoritmo Gibbs sampling apresenta o seguinte esquema markoviano dinâmico para a amostragem das
distribuições condicionais (5.5):

1. Escolhe-se um conjunto de valores iniciais para θ,


(0) (0)
θ(0) = (θ1 , . . . , θk )T ;

2. Geram-se as componentes de θ a partir de (5.5), considerando o procedimento iterativo abaixo para


a l-ésima iteração
(l) (l−1) (l−1)
θ1 de h(θ1 | θ2 , . . . , θk , x),
(l) (l) (l−1) (l−1)
θ2 de h(θ2 | θ1 , θ3 , . . . , θk , x),
(l) (l) (l) (l−1) (l−1)
θ3 de h(θ3 | θ1 , θ2 , θ4 , . . . , θk , x),
.. ..
. .
(l) (l) (l) (l−1)
θk−1 de h(θk−1 | θ1 , . . . , θk−2 , θk , x),
(l) (l) (l)
θk de h(θk | θ1 , . . . , θk−1 , x) ;

3. A etapa anterior é repetida s vezes até à geração de m amostras independentes de θ. Note-se que
cada elemento da sucessão θ(1) , . . . , θ(s) , . . . é uma concretização de uma cadeia de Markov com
espaço de estados Θ e probabilidades de transição dadas por
k
(s+1) (s) (s+1)
Y
p(θ(s) , θ(s+1) ) = h(θj | θl>j , θl<j , x).
j=1

52
(s) (s)
Quando s → ∞ no procedimento acima, θ(s) = (θ1 , . . . , θk )T tende em distribuição para um vetor
aleatório com f.d.p. h(θ|x) (Tanner, 1996). Veja-se também Casella e George (1992) e Gelfand e Smith
(1990).
Em particular, a j-ésima distribuição a posteriori marginal pode ser obtida usando a sua distribuição
empı́rica com as m amostras i.e.

m
1 X (l)
h(θj |x) ≈ h(θj | θ(−j( , x), (5.6)
m
l=1
(l)
onde h(θj | θ(−j) , x) é a distribuição (5.5) com os θj ′ , j ′ ̸= j = 1, . . . , k, substituı́dos pelos seus respectivos
valores na iteração l, l = 1, . . . , m.
Observe-se que as s − m iterações, m < s, do procedimento em causa são ignoradas na estimação das
quantidades de interesse, visto que elas fazem parte do perı́odo de aquecimento (burn-in) da cadeia, onde
se acredita haver uma maior correlação entre os vetores θ(s) , s = 1, 2, . . ..
Distribuição preditiva
Os métodos MCMC são também usados na predição de uma observação futura y de um modelo indexado
pelo parâmetro θ em causa. Por exemplo, a distribuição preditiva
Z
p(y|x) = f (y|θ, x)h(θ|x)dθ, (5.7)

onde f (y|θ, x) é a distribuição de y sob esse modelo paramétrico, pode ser estimada por
m
1 X
pe(y|x) = f (y|θ(l) , x),
m
l=1

sendo θ(l) , l = 1, . . . , m, os valores obtidos para θ nas m amostras referidas acima.


Para estimar p(xi |x(−i) ), Gelfand (1996) sugere a utilização da média harmónica de {f (xi |x(−i) , θ(j) ), j =
1, . . . , m}. Considerando que

p(x)h(θ|x) = h(θ)f (x|θ) = h(θ)f (xi |x(−i) , θ)f (x(−i) |θ),

tem-se
p(x) 1
p(xi |x(−i) ) = =R f (x(−i) |θ) h(θ) h(θ|x)
p(x(−i) ) dθ
p(x) h(θ|x)
1
= R 1 ,
f (xi |x(−i) ,θ) h(θ|x) dθ

e portanto, se {θ(j) ; j = 1, . . . , m} é uma amostra de h(θ|x), então

1
p̂(xi |x(−i) ) = 1
Pm 1 . (5.8)
m j=1 f (xi |x(−i) ,θ(j) )

Exemplo 5.5: Seja (Y, X) um par aleatório em que Y condicional a X = x segue uma distribuição de
Poisson com valor médio λ(x) = δ x e X apresenta uma distribuição Normal com valor médio µ e precisão
τ = 1/σ 2 . A função de verosimilhança relativa a dados constituı́dos por n observações i.i.d. deste par
aleatório, D = {(y1 , x1 ), . . . , (yn , xn )}, é
n
Y [δ xi ]yi xi
h τ i1/2 n τ o
f (x, y|θ) = e−δ exp − (xi − µ)2
i=1
yi ! 2π 2

53
onde θ = (δ, µ, τ ) para δ, τ > 0 e −∞ < µ < +∞. Se se considerar uma distribuição a priori não
informativa h(δ, µ, τ ) ∝ (δτ )−1 , a função densidade de probabilidade a posteriori para θ é:
P
xi yi −1
h(θ|D) ∝ τ n/2−1
P xi
  δ i exp {− i δ } ×

× exp − τ2 2 2
P
i (xi − x̄) + n(µ − x̄) ,

sendo as correspondentes distribuições condicionais completas identificadas facilmente por


P
h(δ|D, µ, τ ) ∝ δ i xi yi −1 exp {− i δ xi } , δ > 0;
P

h(µ|D, δ, τ ) = N x̄, (τ n)−1 , −∞ < µ < +∞;



(5.9)
h(τ |D, δ, µ) = Ga n2 , A2 , τ > 0,


onde A = i (xi − x̄)2 + n(µ − x̄)2 .


P

As distribuições respeitantes a µ e τ são familiares, processando-se a amostragem nos correspondentes


passos Gibbs através de conhecidos e eficientes algoritmos de simulação. A situação relativa a δ já não
é trivial requerendo o uso de outros métodos como o de rejeição (e.g. método de rejeição adaptativa,
proposto por Wild & Gilks, 1993). ■

5.3 Técnicas de diagnóstico de convergência


São vários os instrumentos e métodos disponı́veis para monitorização e diagnóstico dos dois tipos de con-
vergência (cadeias ou médias empı́ricas), alguns dos quais estão automaticamente incluı́dos em software
mais especı́fico ou mais geral de análise bayesiana.
O instrumento mais conhecido para monitorização da convergência para a distribuição estacionária é a
representação gráfica para cada quantidade escalar dos valores simulados da cadeia ao longo das sucessivas
iterações, ligados por uma linha contı́nua.
A Figura 7 retrata aspetos tı́picos do gráfico de traços em zonas iniciais (esquerda) e finais (direita) da
sequência de valores simulados.
0.20
0.4

0.15
0.2

0.10
0.05
0.0

0.00
−0.2

−0.05
−0.4

−0.10

0 500 1000 1500 2000 0 2000 4000 6000 8000

Iteração Iteração

Figura 7: Gráficos dos traços relativos a um mesmo parâmetro de 2 cadeias ao longo das primeiras 1000
iterações (esquerda) e 1 cadeia nas últimas 9000 iterações (direita).

Este instrumento de monitorização informal para detetar a ocorrência de estabilidade consiste na sobre-
posição gráfica das estimativas de densidades marginais a posteriori, à medida que se aumenta o número
de iterações usado na estimação.
Outro tipo de método consiste no uso de testes não paramétricos para averiguação da estabilização
distribucional da cadeia, e.g., o teste de Kolmogorov-Smirnov para comparação de duas subamostras.

54
0.5
0.4
0.3
0.2
0.1
0.0
0 1000 2000 3000 4000

iterações

Figura 8: Gráfico de evolução das médias de três dos parâmetros probabilı́sticos de um modelo relacionado
com uma tabela de contingência 23 .

Para monitorização da convergência das médias empı́ricas de quantidades escalares g(θ), dadas por
Pm
Sm = g(θ(i) )/m, uma técnica possı́vel é construir o gráfico das somas cumulativas, dadas por
Pl i=1 
Dl = i=1 g(θ(i) ) − Sm , l = 1, . . . , m. Cadeias que exploram rapidamente o suporte-alvo tendem a
apresentar este gráfico com um aspeto irregular e geralmente concentrado em torno de 0.
Uma técnica alternativa consiste na construção do gráfico da evolução de médias ao longo das iterações,
 
Sm = (m − 1)Sm−1 + g(θ(m) ) /m, m = 1, 2, . . . , (5.10)

ou de outras quantidades empı́ricas como os quartis. Estes simples gráficos deixam transparecer de forma
desembaraçada o perı́odo de estabilização das correspondentes caraterı́sticas distribucionais, após uma
fase inicial de instabilidade das suas estimativas, de duração variável de caso para caso.
A Figura 8 mostra o comportamento evolutivo da média empı́rica de três parâmetros de um modelo ao
longo das respetivas cadeias iniciadas no valor comum 0.125. O gráfico ilustra uma rápida estabilização
(na gama das 1000-1500 iterações) das três curvas para a respetiva média a posteriori.

Método de Gelman e Rubin

Gelman e Rubin (1992) sugerem a utilização das componentes da variância de sequências múltiplas da
cadeia, simuladas a partir de uma variedade de pontos iniciais dispersos, usando os seguintes passos:

ˆ Simulam-se m ≥ 2 sequências, cada uma de comprimento 2n, a partir de pontos iniciais simulados
de uma distribuição sobredispersa relativamente à distribuição-alvo (distribuição de equilı́brio).

ˆ Descartam-se as n primeiras iterações de cada sequência.

ˆ Sendo g(·) a quantidade escalar de interesse que se pretende estimar (g é tipicamente uma função
do parâmetro θ), calculam-se com base nos seus valores simulados as componentes da variância W
e B, isto é, a variância dentro de cada sequência e a variância entre as sequências, respetivamente.

ˆ Estima-se a média-alvo de g como uma média amostral de todos os mn valores simulados de g.

ˆ Estima-se V , a variância-alvo de g(θ), como uma média ponderada de W e B.

ˆ Calcula-se o fator de redução da escala R̂ = V /W . Esta razão decresce para 1 quando n → ∞.


p

Valores de R̂ ≈ 1 são um indı́cio de que cada uma das m sequências de n observações simuladas se
aproxima da distribuição-alvo.

55
Método de Geweke

Sendo θ(t) , t = 1, . . . , N uma sequência de valores simulados pelo procedimento MCMC e g(θ) uma
função de θ que se pretende estimar, a trajetória g (t) = g(θ(t) ), t = 1, 2, . . ., define uma série temporal.
O método de Geweke (1992) baseia-se na aplicação de técnicas usuais em séries temporais para averiguar
a convergência da sequência simulada.
Observa-se a série ao longo de um número N suficientemente longo de iterações e calcula-se a média
ga = n1a g(θ(t) ) à custa de na das primeiras iteradas, bem como a média gb = n1b g(θ(t) ) à custa de
P P

nb das últimas iteradas.


Se a cadeia é estacionária, então a média da primeira parte da cadeia deve ser semelhante à média da
segunda parte da cadeia. Admitindo que na /N e nb /N são fixos e N → ∞ pode mostrar-se que

(ga − gb )
p → N (0, 1),
(s2a /na ) + (s2b /nb )

onde s2a e s2b são estimativas independentes das variâncias assintóticas de ga e gb , ajustadas em relação
à autocorrelação. De acordo com o resultado desta estatı́stica, pode averiguar-se se há ou não indicação
de convergência.

Método de Raftery e Lewis

Suponha-se que se quer estimar um quantil a posteriori q de uma função do parâmetro, com uma certa
tolerância r e uma probabilidade s de estar dentro desses limites de tolerância. O método de Raftery
e Lewis (1992) calcula o número de iterações N e o número de iterações do perı́odo de aquecimento M
necessárias para satisfazer as condições especificadas.
O resultado deste método de diagnóstico tem como componentes, para além de N e M , Nmin como
o número mı́nimo para uma amostra-piloto e I = (M + N )/Nmin denominado fator de dependência,
interpretado como o incremento proporcional no número de iterações atribuı́vel à dependência serial.
Valores elevados deste fator (> 5) podem indicar valores iniciais influentes, correlação elevada entre os
coeficientes ou uma cadeia com fraca mistura no suporte da distribuição a posteriori .

Método de Heidelberg e Welch

Heidelberg e Welch (1983) propuseram uma estatı́stica de teste, baseada no teste estatı́stico de Cramer-
von Mises, para testar a hipótese nula de que a cadeia de Markov simulada provém da distribuição
estacionária, aplicado a cada variável monitorizada do seguinte modo:

ˆ Gera-se uma cadeia de dimensão N e define-se um nı́vel α (e.g. 0.05).

ˆ Para cada variável monitorizada, calcula-se o valor da estatı́stica de teste usando as N iterações.
De acordo com o resultado do teste, toma-se a decisão sobre a rejeição ou não da hipótese nula.

ˆ Se se rejeitar a hipótese nula, calcula-se de novo a estatı́stica de teste descartando-se 10% das
primeiras iterações. Este procedimento é repetido caso se continue a rejeitar a hipótese nula.

ˆ Se se continuar a rejeitar a hipótese nula quando o número de iterações usadas no cálculo da


estatı́stica de teste atingir os 50% das N iniciais, então o processo iterativo tem de continuar pois
a cadeia não atingiu ainda o equilı́brio. Neste caso, o software executor deste método dá como
resultado a estatı́stica de teste e indica que a cadeia falhou o teste de estacionariedade.

56
ˆ Caso contrário, a porção da cadeia responsável pela não rejeição é usada para estimar a média (m)
e o erro padrão assintótico (s) da média, o qual é calculado usando um método de séries temporais.
Se 1.96 s < m epsilon, com ϵ pequeno (e.g. 0.1), então a cadeia passa o teste de estacionariedade.
Se 1.96 s ≥ m ϵ, isso significa que há necessidade de continuar com o processo iterativo.

Software

O software R possui uma variedade de pacotes que podem ser utilizados para fazer inferência bayesiana.
Aconselha-se a consulta da página web

http://cran.r-project.org/web/views/Bayesian.html

onde se pode encontrar o pacote DPpackage que contém funções para fazer inferência bayesiana não
paramétrica, o pacote bayesSurv especı́fico para fazer inferência bayesiana em modelos de sobrevivência,
etc.
Do software que implementa métodos baseados em simulação estocástica, podem ser utilizados através
de ligação ao R nomeadamente o OpenBUGS (Thomas et al., 2006), JAGS (Plummer, 2003), INLA (Rue
et al., 2009), BayesX (Belitz et al., 2013) e Stan (Carpenter et al., 2017).
A monitorização da convergência das cadeias pode ser feita com recurso ao software CODA e BOA,
ambos pacotes do R.

57
6 Modelos Estatı́sticos
Um modelo estatı́stico é um modelo matemático que incorpora um conjunto de suposições estatı́sticas
relativas à geração de dados amostrais (Cox, 2006). Geralmente esse é especificado como uma relação
matemática entre uma ou mais variáveis aleatórias e outras variáveis não aleatórias.
Formalmente, um modelo estatı́stico geralmente é pensado como um par (Ω, P), onde Ω é o conjunto de
possı́veis observações, i.e. o espaço amostral e P é um conjunto de distribuições de probabilidade em Ω,
sendo quase sempre parametrizado: P = {Pθ : θ ∈ Θ} (McCullagh 2002). A intuição por trás disso é
que P contém a distribuição “verdadeira”, mas na prática esse pode não ser o caso.
George Box: “Essencialmente, todos os modelos estão errados, mas alguns são úteis”.

6.1 Avaliação de modelos


A verificação ou avaliação de um modelo (model checking) é a fase da análise que visa avaliar a adequação
do ajuste do modelo aos dados e ao conhecimento substantivo do problema em mão.
Note-se que a verificação do modelo não pretende responder à questão de saber se os dados foram dele
gerados - questão que de resto nunca admite praticamente uma resposta afirmativa.
O examinar crı́tico do modelo pretende antes quantificar discrepâncias com os dados, avaliar se estas
são ou não devidas ao acaso e descortinar vias de obter a partir dele modelos suscetı́veis de serem mais
promissores (Paulino et al. , 2018).

6.1.1 Seleção de modelos de regressão

A construção de um bom modelo de regressão pode ser resumida nas seguintes etapas (Kutner et al. ,
2005):

1. Preparação e descrição dos dados.

2. Redução do número de covariáveis.

3. Avaliação e seleção do “melhor” modelo.

4. Validação e interpretação do modelo selecionado.

Exemplo 6.1: Considere o seguinte modelo de regressão abaixo, com variáveis resposta Y e explicativas
x1 , x2 e x3 , para ilustrar as etapas para construção de um bom modelo.

Y = β0 + β1 x1 + β2 x2 + β3 x3 + ϵ.

1. No ajustamento do modelo, pode-se chegar à conclusão que a suposição de normalidade não é


satisfeita (gráfico quantil-quantil ou Q-Q).

2. O número de submodelos de regressão aumenta substancialmente com o número de covariáveis,


e.g. há 23 = 8 submodelos de regressão.

3. A avaliação do modelo pode ser também feita via técnicas de diagnóstico, e.g. análise de resı́duos,
com resı́duo definido por r ≡ y − E(Y
b ).

58
4. Para validar o modelo de regressão pode-se usar duas estrategias:

ˆ Utilizar um outro conjunto de dados para confirmar o modelo selecionado e avaliar a sua
capacidade preditiva.
ˆ Comparar os resultados obtidos com resultados esperados na teoria ou com resultados empı́-
ricos aproximados.

O “melhor” modelo deve ser um modelo que atinge um bom equilı́brio entre os três fatores: bom ajusta-
mento, parcimónia e interpretação. ■

Regressão passo a passo

A idéia básica do procedimento automático para reduzir covariáveis na análise de regressão, conhecido
por regressão passo a passo (stepwise), é começar a partir de um dado modelo e fazer uma série de passos
a excluir termos (covariáveis) do modelo ou a adicionar termos candidatos à inclusão.
Na regressão passo a passo, faz-se a seleção de modelos:

ˆ Começando pelo modelo com mais parâmetros e considerando modelos alternativos pela exclusão
de covariáveis (eliminação regressiva ou backward elimination),

ˆ Partindo do modelo com menos parâmetros, e.g. , o modelo sem covariáveis, e considerando modelos
alternativos pela inclusão de covariáveis (seleção progressiva ou forward selection).

O afastamento das suposições do modelo de regressão pode conduzir a resultados não fiáveis perante o
ajustamento do modelo (Kutner et al. , 2005).
A análise de resı́duos é útil, não só para uma avaliação local da qualidade de ajustamento de um modelo
no que diz respeito à escolha da distribuição e de termos da equação de regressão linear, como também
para ajudar a identificar observações mal ajustadas.
No modelo de regressão linear (2.1), tem-se E(Y) = Xβ e β b = (XT X)−1 XT Y como estimador de
mı́nimos quadradros de β, pelo que o vetor dos resı́duos é naturalmente dado por

r ≡ y − Ê(Y) = y − Xβ
b = y − Hy, (6.1)

onde r = (r1 , . . . , rn )T e H = X(XT X)−1 XT .

Transformações

O uso de transformações da variável resposta (Y ) ou das variáveis explicativas (x) é frequentemente


suficiente para garantir as suposições do modelo de regressão quando aplicado aos dados transformados.

ˆ Transformações simples de x podem ser úteis para linearizar a relação de regressão não linear sem
afetar a distribuição de Y .

ˆ As transformações Y e log Y são recomendadas quando a variância dos erros aleatórios cresce
proporcionalmente a xi e a x2i , respetivamente, i = . . . , n.

ˆ A transformação simultânea de Y e x pode ser necessária.

59
Autocorrelação

Se possı́vel, pode-se usar o gráfico dos resı́duos versus tempo para investigar alguma correlação entre
os erros aleatórios ao longo do tempo (autocorrelação ou correlação em série temporal ). Por exemplo,
em estudos econométricos de séries temporais, isso pode ocorrer devido à ausência de uma ou mais
covariáveis importantes no modelo.
Caso haja autocorrelação, deve-se ajustar o seguinte modelo de regressão

Yt = xtT β + ϵt com ϵt = ρϵt−1 + ut , (6.2)

onde ut ∼ N (0, σ 2 ) independentes e |ρ| < 1, parâmetro de autocorrelação, t = 1, . . . , n.


Nota: O teste de Durbin-Watson é usado para testar as hipóteses H0 : ρ = 0 versus H1 : ρ > 0 (Kutner
et al. , 2005).

Outliers

A designação outliers reporta-se a observações anómalas aos dados, i.e. , valores atı́picos, discordantes,
aberrantes ou discrepantes.
A presença de valores atı́picos é facilmente detetada por gráficos de resı́duos versus uma covariável x ou
os valores ajustados Ê(Y ).
O que devemos fazer quando há valores discordantes? A resposta requer algum estudo da situação, visto
que a eliminação desses valores pode afetar a análise dos dados. Duas etapas a seguir antes da decisão:

ˆ Avaliar o efeito desses valores sobre as estimativas e previsões no modelo.

ˆ Caso elimine-os, verificar se esses valores podem ser estudados separadamente.

Multicolinearidade

Quando duas ou mais variáveis explicativas são altamente correlacionadas, i.e. , uma ou mais covariáveis
podem ser expressas de forma linear a partir das outras, diz-se que essas variáveis são colineares e a
análise de regressão apresenta multicolinearidade.
Multicolinearidade aumenta os erros padrões dos estimadores dos coeficientes de regressão, fazendo com
que algumas covariáveis não sejam estatisticamente significantes, quando estas deveriam ser significati-
vas.

ˆ Exemplo de covariáveis não correlacionadas: M1 : E(Y


b ) = 23 + 5.4x1 , M2 : E(Y
b ) = 27 + 9.3x2 ,
M3 : E(Y
b ) = 0.5 + 5.4x1 + 9.3x2 .

ˆ Exemplo de covariáveis correlacionadas: M1 : E(Y


b ) = 0.5 + 0.8x1 , M2 : E(Y
b ) = 1.2 + 2.9x2 ,
b ) = 35 + 4.3x1 − 2.3x2 + 2x3 .
M3 : E(Y

6.1.2 Adequação de modelos bayesiana

O exame crı́tico do modelo assenta usualmente na distribuição preditiva a posteriori do modelo, p(y|x)
na base de que os dados y dela simuláveis devem refletir expectavelmente (ou não) os dados observados
x, em caso de um bom (mau) ajustamento do modelo.
Para o efeito, usam-se variáveis V (x, θ) como base para a medição da discrepância entre dados observados
e observáveis de acordo com o modelo.
Medidas de discrepância entre o observado (x) e observável de acordo com o modelo (y) assentes em:

60
Pn [xi −E(Xi |θ)]2
1. Variáveis V (x, θ), como e.g. ln f (x|θ) ou i=1 V ar(Xi |θ) ;

2. Dados simulados {(y (j) , θ(j) ), j = 1, . . . , m)} da distribuição conjunta de (y, θ) condicional em x.

ˆ Diagrama de dispersão de
 
V (y (j) , θ(j) ), V (x, θ(j) ) , j = 1, . . . , m .

ˆ Histograma dos valores {V (y (j) , θ(j) ) − V (x, θ(j) ), j = 1, . . . , m}.

ˆ Valores-P bayesianos (preditivos a posteriori )

#{(y (j) , θ(j) ) : V (y (j) , θ(j) ) ≥ V (x, θ(j) )}


PB = P [V (Y, θ) ≥ V (x, θ)|x] ≃ . (6.3)
m
Valor de PB muito pequeno ou muito grande indica mau ajuste do modelo aos dados em termos
do que V traduz.

ˆ Resı́duos bayesianos em validação cruzada.

– Dados decompostos em amostra de treino x e amostra de validação y = {yj }. Resı́duos


preditivos padronizados:
yj − E(Yj |x)
dj = p , j = 1, . . . , l. (6.4)
var(Yj |x)
Pl
Critério: Quanto menor j=1 |dj |, tanto mais adequado o modelo.
– Validação cruzada com um de fora: Para cada i = 1, . . . , n, amostra de treino x(−i) = (xj , j ̸=
i); amostra de validação xi . Resı́duos de eliminação padronizados:

xi − E(Yi |x(−i) )
d′i = p , i = 1, . . . , n, (6.5)
var(Yi |x(−i) )

calculados das distribuições preditivas condicionais p(yi |x(−i) ).

Z
p(yi |x(−i) ) = f (yi |θ, x(−i) ) h(θ|x(−i) ) dθ (6.6)
m
1 X (j) (j)
≃ f (yi |θ(−i) , x(−i) ), {θ(−i) } ← h(θ|x(−i) )
m j=1
1
≃ 1
Pm 1 , {θ(j) } ← h(θ|x).
m j=1 f (yi |x(−i) ,θ (j) )

ˆ Ordenadas preditivas condicionais (CPO): ∀i, p(yi |x(−i) ) com yi = xi em (6.6), estimado em (5.6)
via métodos MCMC.
Pn Qn
Critério: Quanto maior i=1 ln CP Oi = ln i=1 p(xi |x(−i) ) tanto mais adequado o modelo.

ˆ Fator pseudo-Bayes: Para comparação dos modelos M1 e M2 ,


n
Y p(xi |x(−i) ; M1 )
P BF (M1 /M2 ) = . (6.7)
i=1
p(xi |x(−i) ; M2 )

Exemplo 6.2: De um estudo do desempenho de modelos de automóvel medido pelo consumo de combus-
tı́vel recolheu-se um conjunto de dados.

61
Estes dados reportam-se aos valores de eficiência, Ef , medida em milhas percorridas por galão de gasolina,
peso em libras (X1 ), potência em cavalos-vapor (X4∗ ) e número de marchas da caixa de velocidades nos
nı́veis 3, 4 e 5 representado conjuntamente pelas variáveis indicadoras das categoria 4 (X2 ) e 5 (X3 ).
Na sequência de trabalho preliminar, consideraram-se modelos de regressão Normal na variável resposta
transformada Y = 100/Ef , expressa em galões consumidos por 100 milhas, e X4 = X4∗ /X1 (potência
por unidade de peso).
Um dos modelos considerados envolve as variáveis explicativas X1 , (X2 , X3 ) e X4 = X4∗ /X1 (potência
por unidade de peso) através da função de regressão múltipla
P4
M1 : µ ≡ E(Y ) = β0 + j=1 βj Xj + β5 X2 X4 + β6 X3 X4 ,
P4
M2 : µ = β0 + j=1 βj Xj ,
M3 : µ = β0 + β1 X1 + β4 X4 .

ind
O modelo de regressão Yi , i = 1, . . . , n = 29 ∼ N (µi , σ 2 ) foi complementado com distribuições a priori
não informativas do tipo usual, especificamente βj ∼ N (0, 104 ) e 1/σ 2 ∼ Ga(10−3 , 10−3 ). A análise
bayesiana deste modelo linear sob uma distribuição a priori conjugada natural ou a distribuição não
informativa usual para (µ, σ 2 ) é em muitos aspetos obtenı́vel analiticamente em termos exatos (Paulino
et al. , 2018).
Para ilustração de quantidades descritas aqui sob o modelo bayesiano acima e algumas reduções dele,
com µ parametrizado em termos dos coeficientes de regressão, seguiu-se a via da simulação por métodos
de Monte Carlo. Denota-se por θ o vetor de parâmetros, constituı́do pelos coeficientes de regressão e
variância, de cada modelo.
A Figura 9 apresenta os diagramas de dispersão para os modelos M1 e M2 da medida de discrepância
traduzida pelos desvios médios quadráticos padronizados,
n
X [xi − E(Xi |θk )]2
V (xi , θk ) = ,
i=1
V ar(Xi |θk )

calculados de valores simulados θk da distribuição a posteriori de θ (dados os valores observados de Y e


{Xj }) para os dados reais versus dados preditos.

M_1 M
350

● ●


300

● ●


●●
● ●
250


● ● ●
● ● ● ●
● ●
● ● ●
● ●
● ● ● ●● ●●
●● ● ● ● ● ●● ●●
● ● ●
200
V1(y,theta)

● ●● ●● ● ● ● ● ● ●● ●
● ●●● ● ●● ●● ●●●● ● ● ● ● ●
●● ● ●● ●● ●● ● ●● ● ●● ●
● ● ● ●●● ● ● ●●●● ● ●
●●
● ● ●● ●●
●●● ●●●
● ●● ●
● ●● ● ●● ● ●
● ● ●●●
● ● ● ●●●●● ● ●● ● ●

●● ●
● ● ● ●
● ●●● ● ● ● ●
●● ●●
● ●●●●● ●
●● ●● ●

● ● ●●● ●●● ● ● ● ● ●● ● ●
● ● ●● ●●
●● ● ●●●● ●●
●● ●● ● ●● ●●●●●● ● ●● ●
150

● ●● ●● ●●●
● ●● ● ● ● ● ● ●
● ● ●● ●
● ●●● ●● ●●●●●●●● ●●

●●●●● ●●● ● ● ●● ●● ● ●●●
●●
● ●●
●●●●
●●
● ●●●●
● ● ●
● ● ● ● ●
●● ● ● ●●
● ●●
● ● ●●●
●●●●●●



●●●●

● ● ●●

● ●●●● ●● ● ● ●●
●●●●


●●●


●●



●●●

●●


●●

●●






●●

●●

●●
●●
●●
●●

● ●●●
●●


●● ●● ● ●
●●

● ●●● ● ●● ● ● ● ●
●●●●●●●●
●●
●●●
●●● ●
●●


●●
●●●●●
●●●●
●●●
●● ●


●●●●●
● ●●●●●
●●●●● ● ● ●
●●●●●●
●●
●●●

●●





●●


●●


●●●●
●●


●●●

●●●

●●

● ●●●●●
●●●●● ●● ●
●● ●
●●●
●● ●●●

●● ●
●●

●●
● ●

●●●

● ●

●●
●●
●●●
● ●●
●●
● ●
●●
●●
●●
● ● ● ●● ● ●●●
● ● ●
● ●●● ● ● ●
● ● ●●
● ● ●
●●
●●

●●

●●


●●


●●●
●●
●●






●●●

● ●●●●
●●● ● ●●● ● ● ●● ●
●●
●●●

●●
●●●
●●




●●



●●●


●●●●●●








●●







●●

●●








●●●




●●


●●






●●
●●

●●●●


●●
●●
●●


●●●
● ●●●●●●
● ● ●● ● ●● ● ● ● ●●●


●●●●●







●●





●●













●●


●●



























●●

●●

●●










●●







●●●

●●

●●●●




●● ●
●●●●● ●
● ● ● ●
●●●
●●●
●●●●
●●●

●●

●●




●●


●●
●●
●●●


●●
●●

●●


●●

●●
●●
●●
●●
●●
●●
●●●

●●
●●●


●●●


● ●
●●●
●●
●●
●●●●●● ●● ●● ●

● ● ●
●●


●●●
●●


●●

●●
●●
●●





●●
●●




●●




●●
●●
●●
●●

●●
●●●

●●
●●●●
● ● ●
●●
●●
●●●● ●● ●●
●● ●● ●● ●
●●●
●●
● ●●

●●
●●

●●●●●
● ●

●●●

●●●●●● ●
● ●●
● ● ●●

● ● ● ● ●●●● ●●
●● ● ● ● ●●●●●
● ●●

●●
●●

●●●

●●
●●


●●
●●

●●●

●●
●●
●●
●●
●●
●● ●●●

●● ●●●● ● ●● ●●
●●
100

●● ●● ●
● ●

●●●
●●

●●
●●●
●●
●●
●● ●

●●
●●
● ●
●●●
●●●●
●●● ●●
● ●
● ● ● ● ●
● ●● ● ●
●●● ●●●
●●●


●●●●
●●
●●●●
●●
●●

●●●
● ●●
● ●● ●● ● ●●
●●

●●●● ●

● ●

●●
●●


●●

●●

●●
●●



●●


●●●

●●●






●●

●●




●●


●●

●●



●●

●●


●●
●●●
●●


●●●

●●
●●

●●●
●●
●●
● ●●

●●●●


●● ●
●●●
●● ●
●●● ● ●●
●●● ●●
● ●●●●
●●
●●
●●
●●
●●

●●●


●●

●●


●●
●●


●●

●●
●●

●●


●●

●●
●●


●●


●●


●●
●●●●●


●●●


● ●
●●

● ●● ●●

●●
●●
●●
●● ●●● ●●
●●●

●●










●●







●●











































































●●











































































●●

●●


















●●●●






●●
●●
● ●

●●





●●






●●●●
●●

● ●●●
● ● ● ● ●●
●●





●●●













●●

























































































●●
























































●●

●●



















●●






● ●
●●●
●● ●

●●● ●
●● ● ●

● ●
●●●
●●
●●

● ●
●●

●●
●●
●●

●●


●●



●●

●●



●●

●●


●●




●●

●●


●●

●●●


●●

●●
●●



●●
●●●


●●



●●
●●




●●

●●
●●


●●
●●


●●

●●
●●●
●●

●● ●
●●●●●

●● ●● ● ●
●●●● ●●●●

●●●
●●

●●

●●

●●

●●



●●


●●


●●



●●


●●



●●


●●


●●●

●●
●●


●●

●●

●●
●●

●●●


●●


●●

●●
● ●●
●● ●●●● ●●
● ●
●●● ●

●●●

●●●
●●●
●●

●●
●●●

●●

●●
● ●
●●
●●●●

●●
●●
●●
●●


●●


●●
●●
●●
●●
●●●

●●●●●


●●
●●
● ●●●
● ●
●●●●●
● ●●●●●● ●●●●● ● ●● ●
●●●
●●● ●
●●
●●
●●

●●

●●●


●●
●●●
●●●
●●
●●
● ●
●●

● ●
●●●
●●
●●

●●
●●●●
● ●● ●● ●●
●● ●



●●


●●



●●


●●
●●

●●


●●



●●
●●


●●











●●


●●



●●



●●













●●


●●


●●


●●
●●




●●











●●


●●


●●

●●







●●


●●



●●
●●

●●

●●

●●




●●●
●●


●●
●●


●●
●●

●●●
●● ●


● ●●
●●

●●●●

● ●● ● ●● ●● ● ●●●




●●


●●

●●


●●




●●




●●


●●


●●



















●●

















●●











●●
●●




●●

















●●



●●
●●

●●


●●


●●


●●



●●●●●●
●● ●
● ●●●
●●● ●● ● ●
●●
●●


●●

















































●●




























































































































●●








































































●●




































●●





●●

●●












●●



●●●
●●


●●●

● ●●●

●●
●●● ●●
●●

●● ● ●


●●

●●

●●













●●








































●●

















●●



●●


●●










































































●●







●●


●●












●●
●●●●
●●

●●
● ●
● ●



● ●

● ●●●

●●
●●
●●●
●●
●●

●●



●●


●●




●●


●●
●●




●●

●●



●●


●●




●●

●●





●●

●●

●●






●●



●●


●●


●●



●●

●●●




●●




●●



●●


●●



●●


●●



●●



●●
●●


●●

●●


●●


●●


●●


●●


●●

●●

●●●●
●●
●●●

●●
●●●

●●

● ●● ●
●●● ●●● ●●
●●

●●

●●
●●

●●



●●

●●


●●


●●


●●


●●



●●




●●



●●



●●






●●



●●




●●



●●


●●●


●●



●●



●●



●●

●●
●●

●●●
●●


●●

●●
●●


●●●●
●●
● ●●
●●

●●●●●●

●●



●●
●●









































































































































●●

●●


























































●●







































































































































●●


















●●




●●




●●●
● ●
●●●
●●
●●●●


●●●●
● ●

●●
















































































●●
























































●●







































●●




























































●●
































●●



●●

●● ●●
●● ●
●●

●●●

●●
●●

●●


●●


●●

●●●


●●


●●
●●

●●

●●

●●


●●

●●
●●

●●●


●●
●●

●●

●●

●●
● ●●

●●

●●●

●●

●●


●●

●●

●●


●●●
●●
●●
●●●●● ●●● ●● ●
●●●●●
● ● ●●
●● ●
●●

●●


●●●
●●
●●
●●


●●●

●●

●●

●●

●●

●●
●●

●●


●●


●●



●●

●●


●●●

●●
●●●

●●
●●
●●


●●●●●

●●
●●
●● ●● ●
50

● ● ●
●● ●●

● ●
●● ●●●
●●
●●●


●● ●
● ● ●
●●●
●●

●●
● ●
●● ●


● ●●
● ●● ● ● ●●●

●●●● ●

●●
● ●●
●●●● ●
●●
●●●●
● ●
●●● ●● ●
●●●●●




●●
●●














●●











●●



















●●












●●




●●











●●







●●

●●
●●


●●






●●






●●





●●


















●●
●●
●●

























●●










●●






●●


●●

●●


●●





●●
















●●




●●



●●


●●



●●
●●


●●


●●




●●





●●
●●



●●
●●●
●●
●●

●●
●●●



●●●●●●●● ●●●

●●
● ● ●●
●●
●●




●●

●●






●●


●●




●●

●●


●●

●●


●●

●●





●●

●●










●●

●●


●●
●●




●●




●●









●●
















●●


●●




















●●




●●


●●




●●

●●















●●




●●●




●●








●●

●●

●●●● ●
●●
●●
●●●










●●













●●
































































●●
●●

















●●





●●
●●
●●●

●●
●●











●●

























●●


●●



●●
















●●







































●●






●●



















































●●




















●●

























●●

●●

●●
●●





●●●
●●●●
● ●


●●● ● ●
●●






































●●







●●






●●







●●











●●


●●




●●











●●
















●●
●●
























































●●

●●




















●●
●●






●●●

●●












● ●
●●●● ●● ●
●●
●●●












●●

































●●


●●
















●●


●●





















































●●








●●























●●







































































●●





●●
●●

























●●



















































●●











●●









●●














●●






●●
●●
●●●●●● ●

● ●● ● ●
●●


















●●













































●●














●●







●●





●●
●●











●●







●●
●●






















●●
●●









































●●




























●●
●●

●●●
●●●
● ●● ●
●● ●
●●









●●






●●











●●
●●
●●













































●●






●●






●●
●●























●●


●●
●●



●●


●●




●●











●●







●●



●●



















●●




















●●













●●











































●●










●●



●●




●●
●●


●●

●●●●
●● ● ●●● ●● ●
●●

●●

























































●●





























●●











●●

















●●






●●























●●





●●





●●








●●

●●



●●●



●●



●●
● ●
●●●●

●●●●

●●


●●

●●


●●


●●
●●



●●

●●
●●

●●●


●●


●●
●●


●●




●●●


●●


●●

●●

●●


●●



●●


●●


●●
●●



●●


●●
●●



●●
●●

●●

●●

●●

●●

● ●
●●

●●●● ●
●●● ● ● ●●

●●●


●●
●●

●●

●●

●●



●●


●●

●●

●●

●●

●●


●●

●●
●●


●●
●●

●●

●●


●●

●●


●●
●●●●
●●●
●●● ●●●

● ●
●●

●●●●

●●

●●


●●

●●●


●●
●●●


●●
●●


●●

●●



●●


●●


●●

●●

●●


●●


●●



●●


●●


●●

●●

●●
●●
●●

●●

●●


●●

●●
●●



●●

●●●● ●● ●
●●●● ●
●●

●●
●●

●●



●●

●●

●●


●●

●●


●●
●●
●●

●●

●●

●●

●●

●●
●●

●●
●●
● ●●●●●● ●

●●
●●

































































































●●













●●




























●●

●●









●●
●●


































●●








●●
●●


●●



●●



● ●●
● ●● ●● ●●

●●
●●

















































●●



















































































●●

●●
●●●





●●● ●

●●
● ●
●●
●●

●●●

●●●
●●
●●● ●● ●●● ●●
●●

●●●
●●●●●

● ●●
● ● ●
●● ● ● ● ●
0

20 40 60 80 100

V1(x,theta)

F gura 9 D agramas de d spersão para os mode os M1 e M2

A configuração ass métr ca da nuvem de pontos em re ação à b ssetr z do 1o quadrante dos do s d agramas
nd ca que em ambos os refer dos desv os pred tos tendem a ser ma ores do que os correspondentes desv os
para os dados observados menos pronunc ada para o mode o M2
Na Tabe a 3 os va ores-P bayes anos assoc ados com a d screpânc a entre a função V ava ada nos
dados observados e a d str bu ção a posteriori de V (Y ∗ θ) para dados pred z´ve s Y ∗ apontam que os

62
Tabela 3: Medidas de diagnóstico dos modelos em comparação.
Modelo M1 M2 M3
PB 0.844 0.778 0.687
P
ln CP O -27.577 -23.665 -23.817 ■

modelos reduzidos se comportam melhor do que o modelo M1 e a soma dos logaritmos das CPO aponta
essencialmente no mesmo sentido (pró M2 ).

Medidas de desempenho preditivo

Ideia: Refletir a acurácia preditiva extra-amostra com correção do duplo uso da amostra de modo a que
quanto menor for o seu valor tanto melhor será o desempenho do modelo.

ˆ Critério de informação de Akaike (AIC)

AIC = −2 ln f (x|θ̂) + 2p, (6.8)

onde θ̂ é EMV e p é a dimensão do espaço paramétrico Θ.

ˆ Critério de informação de Schwarz/Bayes (SIC/BIC)

BIC = −2 ln f (x|θ̂) + p ln n. (6.9)

Variantes do Critério de informação de Schwarz/Bayes (SIC/BIC):

ˆ Carlin-Louis (2000):
BICCL = −2E [ln f (x|θ)|x] + p ln n. (6.10)

ˆ Raftery et al. (2007):


BICR = −2(¯l + s2l ) + p̃ ln n, (6.11)
onde ¯l e s2l são a média e variância empı́ricas dos valores simulados de l = ln f (x|θ), {l(j) =
ln f (x|θ(j) )}; p̃ é igual a p se este for conhecido ou estimado por 2 s2l , de outro modo.

ˆ Critério de informação pela desviância (DIC)


h i
DIC = D(θ) + pD ≡ Eθ|x [D(θ)] + D(θ) − D(θ̄) (6.12)

com D(θ) = −2 ln [f (x|θ)/g(x)], D(θ) = Eθ|x [D(θ)] e θ̄ = E(θ|x), onde g(x) denota alguma função
apenas dos dados com efeito meramente padronizador. Por exemplo, g(x) = f (x|θ̃) em θ̃ é a
estimativa de θ no modelo saturado.
Na generalidade dos casos, os valores esperados em pD (número efetivo de parâmetros) são calcu-
lados por Monte Carlo a partir de uma amostra simulada de h(θ|x).
Uma proposta alternativa para o termo de complexidade do modelo garantindo a sua positividade
é p∗D = 2V ar [ln f (x|θ)|x].

ˆ Critério de informação amplamente aplicável [de Watanabe] (WAIC)


n
X
W AIC = −2 ln Eθ|x [f (xi |θ)] + 2pW , (6.13)
i=1

63
com duas propostas para a “dimensão efetiva do modelo”, pW :
▶ Análoga de algum modo a pD usado no DIC
n
X
pW1 = −2 {Eθ|x [ln f (xi |θ)] − ln Eθ|x [f (xi |θ)]} (6.14)
i=1
 
n  m m 
X 1 X (j) 1 X
(j) 
≃ −2 ln f (xi |θ ) − ln  f (xi |θ ) .
i=1
m j=1 m j=1

▶ Parecida de algum modo com p∗D usado alternativamente no DIC


n
X
p W2 = V arθ|x [ln f (xi |θ)] (6.15)
i=1
n  m i2 
X 1 X h (j)
≃ l (xi ) − ¯l(xi ) ,
i=1
m − 1 j=1
Pm
em que l(j) (xi ) = ln f (xi |θ(j) ) e ¯l(xi ) = 1
m j=1 l(j) (xi ).

Análise por pares via fator Bayes


p(x|Mk ) p(Mk |x)/p(Ml |x)
Bkl (x) = ≡ (6.16)
p(x|Ml ) p(Mk )/p(Ml )
em que para cada modelo
Z
p(Mr )p(x|Mr )
p(x|Mr ) = fr (x|θr )hr (θr )dθr e p(Mr |x) = , ∀r.
p(x)

Opções de cálculo sem nenhuma impropriedade distribucional:

ˆ Método Monte Carlo simples (geralmente ineficiente)


(j)
Simulação de hr (θr ) −→ (θr , j = 1, . . . , m)
m
1 X
p(x|Mr ) ≃ fr (x|θr(j) )
m j=1

ˆ Método de Newton-Raftery (geralmente instável):


(j)
Simulação de hr (θr |x) −→ (θr , j = 1, . . . , m)

 −1
Z −1 m h −1
hr (θr |x) 1 X i
p(x|Mr ) = dθr ≃ fr (x|θr(j) ) 
fr (x|θr ) m j=1

ˆ Método de Gelfand-Dey:
Seja gr (θr ) uma boa aproximação da hr (θr |x) (densidade própria). Com os valores simulados da
verdadeira distribuição a posteriori ,
Z −1
gr (θr )
p(x|Mr ) = hr (θr |x)dθr
fr (x|θr )h(θr )
 −1
m (j)
1 X g r (θr )
≃   .
m j=1 fr (x|θr(j) )h(θr(j) )

64
Exemplo 6.3: Continuando com o Exemplo 6.2 para efeitos de avaliação comparativa de 3 modelos de
regressão múltipla em termos do seu comportamento preditivo, indicam-se em seguida os fatores pseudo-
Bayes (PBF) relativos à comparação dos modelos dois a dois:

P BF (M1 /M2 ) = 0.809; P BF (M1 /M3 ) = 0.941; P BF (M2 /M3 ) = 1.164.

Estes valores mostram bem as constatações feitas anteriormente de que M2 é o melhor enquanto M1 é o
pior dos 3 modelos, em termos do critério assente nas ordenadas preditivas condicionais.
Em termos dos critérios de informação exibidos na Tabela 4, esta mostra que o modelo M2 é o melhor
modelo em termos das medidas bayesianas DIC e WAIC, sendo batido por M3 no BIC, sem grande
espanto uma vez que se sabe que esta medida beneficia os modelos mais simples.

Tabela 4: Medidas DIC, BIC e WAIC para os modelos em comparação.


Modelo DIC (pD ) BIC (p) WAIC (pW2 )
M1 48.69 (8.27) 67.36 (8) 46.77 (5.38)
M2 47.32 (6.19) 61.33 (6) 46.70 (4.78)
M3 47.58 (4.12) 56.93 (4) 47.40 (3.48)

Conjugando todos os resultados obtidos aqui e no exemplo anterior, os critérios aplicados indicam que o
melhor dos três modelos é aquele que se situa no meio da escala de complexidade medida pelo número
de parâmetros. ■

6.2 Aplicações a variados problemas estatı́sticos


A Estatı́stica é usada em uma ampla gama de tipos de pesquisa cientı́fica e social. Alguns campos
de pesquisa usam estatı́sticas aplicadas tão extensivamente que possuem terminologia especializada.
Nomeadamente:

ˆ Astrostatı́stica (avaliação estatı́stica de dados astronômicos).

ˆ Ciência atuarial (avalia riscos nos seguros e finanças).

ˆ Bioestatı́stica, incluindo estatı́sticas médicas..

ˆ Mineração de dados (reconhecimento de padrões para descobrir o conhecimento dos dados).

ˆ Demografia (estudo estatı́stico de populações).

ˆ Econometria (análise estatı́stica de dados econômicos).

ˆ Epidemiologia (análise estatı́stica da doença).

ˆ Geografia e sistemas de informação geográfica (análise espacial).

ˆ Engenharia de confiabilidade (análise de sobrevivência).

ˆ Sociologia e estatı́sticas sociais.

6.2.1 Modelos lineares generalizados - II

Os modelos lineares generalizados (MLG) podem ser divididos quanto ao tipo da variável resposta (Y ): i)
de natureza contı́nua, ii) de natureza dicotómica ou na forma de proporções, iii) na forma de contagens.

65
Tabela 5: Alguns modelos lineares generalizados.

componente componente estrutural modelo


aleatória função de ligação covariáveis
Normal identidade contı́nuas regressão linear
Normal identidade categorizadas análise de variância
Normal identidade mistas análise de covariância
Binomial logit mistas regressão logı́stica
Poisson logarı́tmica mistas log-linear

Tabela 6: Mortalidade de besouros (Bliss, 1935).

i xi ni yi i xi n i yi i xi n i yi i xi ni yi
1 1.6907 59 6 3 1.7552 62 18 5 1.8113 63 52 7 1.8610 62 61
2 1.7242 60 13 4 1.7842 56 28 6 1.8369 59 52 8 1.8839 60 60

Modelo logı́stico

Dadas n variáveis independentes Yi ∼ B(1, πi ), i = 1, . . . , n, i.e. f (yi |πi ) = πiyi (1 − πi )1−yi , yi = 0, 1, com
πi = P (Yi = 1), suponha que cada indivı́duo i está associado um vetor zi (covariáveis).
πi
De acordo com a Tabela 5, E(Yi ) = πi e θi = ln( 1−π i
), ao fazer θi = ηi = zTi β, concluindo-se que a
função de ligação canónica é a função logit. Logo, πi está relacionada com zi através de
exp(zTi β)
πi = . (6.17)
1 + exp(zTi β)
exp(x)
Note-se que a função F : IR → [0, 1], definida por F (x) = 1+exp(x) , é uma função de distribuição logı́stica.
Assim, o MLG Binomial com função de ligação canónica logit é conhecido por modelo logı́stico.

Modelos probit e log-log complementar

Se a relação entre a probabilidade πi e o vetor de covariáveis zi é

πi = Φ(ηi ) = Φ(zTi β), (6.18)

onde Φ(·) é a função de distribuição da N (0, 1), obtém-se uma função de ligação probit g(µi ) = Φ−1 (µi ).
O MLG resultante do modelo Binomial para a resposta, com a função de ligação probit conduz ao modelo
probit.
Outra candidata a função inversa da função de ligação, é a função de distribuição de Gumbel, F (x) =
1 − exp(− exp(x)), x ∈ IR. Considerando então h(zTi β) = F (zTi β) = πi , obtém-se a função log-log
complementar
ln(− ln(1 − πi )) = zTi β (6.19)
para função de ligação e o seu MLG é o modelo log-log complementar.
Exemplo 6.4: Bliss (1935) estudou o comportamento de besouros adultos à exposição ao gás dissulfureto
de carbono (CS2 ) durante cinco horas observando 481 besouros divididos em 8 grupos.
Variáveis: n (número de besouros expostos), y (número de besouros mortos) e x (dosagem de log10 CS2 (mg/litro)).

66
Tabela 7: Proporções estimadas de besouros mortos (Bliss, 1935).

dosagem x observada logı́stico Probit clog-log


DIC=41.39 DIC=40.31 DIC=33.60
1.6907 0.1017 0.0605 0.0585 0.0956
1.7242 0.2167 0.1658 0.1798 0.1884
1.7552 0.2903 0.3629 0.3794 0.3376
1.7842 0.5000 0.6054 0.6045 0.5416
1.8113 0.8254 0.7945 0.7878 0.7578
1.8369 0.8983 0.9021 0.9032 0.9165
1.8610 0.9839 0.9540 0.9614 0.9842
1.8839 1.0000 0.9781 0.9863 0.9986

Objetivo: Estimar a curva de dose-resposta quanto à mortalidade de besouros a partir de diferentes


dosagens.
Resultados: Equações de regressão estimadas (DIC em (6.12)):

ˆ Logı́stico: ln[b π (x))] = −60.87 + 34.36 x.


π (x)/(1− b

ˆ Probit: Φ−1 (b
π (x)) = −35.04 + 19.79 x.

ˆ Log-log complementar: ln(−ln(1−b


π (x))) = −39.73 + 22.13 x.
1.0
0.8
Percentagem de besouros mortos

0.6
0.4

logit
0.2

probit
clog-log
observado
0.0

1.70 1.75 1.80 1.85

dosagem de gás carbono

Figura 10: Gráfico das proporções ajustados com base nos três modelos.

Modelo Poisson

Para dados de contagens e.g. o número de chamadas telefónicas, o modelo de Poisson desempenha um
papel fundamental na sua análise.
Supondo as variáveis Yi , i = 1, . . . , n, independentes e bem modeladas por uma distribuição de Poisson
de valor médio µi = exp(zTi β) i.e.

f (yi |xi ) = e−µi µyi i /yi ! = exp{−ezi β +yi zTi β−ln yi !}


T
(6.20)

67
Tabela 8: Frequências de compradores por género e modelo.

género modelo 1 modelo 2 modelo 3 total


masculino 160 140 40 340
feminino 40 60 60 160
total 200 200 100 500

onde yi = 0, 1, . . ., obtém-se um MLG com função de ligação canónica (logarı́tmica), conhecido por
modelo de Poisson ou modelo log-linear.
Sob certas condições, a análise de uma tabela de contingência sob amostragem de Poisson, é a mesma
que a análise sob amostragem Multinomial ou produto de multinomiais.
Há três etapas essenciais para modelar dados através de um MLG:

1. Formulação dos modelos:

ˆ Escolha da distribuição para a variável resposta.


ˆ Escolha das covariáveis e formulação da matriz de especificação.
ˆ Escolha da função de ligação.

2. Ajustamento dos modelos. Estimação dos parâmetros do modelo: coeficientes de regressão β e do


parâmetro de dispersão ϕ. Testes de bondade de ajustamento (goodness-of-fit).

3. Selecção e validação dos modelos. Um bom modelo é aquele que consegue atingir um equilı́brio
entre os três factores: adequabilidade, parcimónia e interpretação.

6.2.2 Análise de dados categorizados

Exemplo 6.5: Um fabricante de automóveis suspeita que a venda dos seus três últimos modelos está
relacionada com o género dos seus compradores. Com base na seguinte tabela de contingência envolvendo
500 compradores, teste a hipótese de independência entre o tipo dos modelos de automóveis e o género
dos compradores.
Suponha que cada um dos n elementos amostrados de uma população pode ser classificado de acordo
com duas caracterı́sticas X e Y , com r e s categorias, respectivamente.
Seja pij = P (X = i, Y = j) a probabilidade (conjunta) de um elemento da população pertencer a categoria
(i, j) de (X, Y ), i = 1, . . . , r, j = 1, . . . , s.
Consequentemente, as probabilidades (marginais) das duas caracterı́sticas são dadas por
Ps
pi• = P (X = i) = j=1 P (X = i, Y = j)
Pr
p•j = P (Y = j) = i=1 P (X = i, Y = j).

ˆ Hipótese de interesse:
H0 : pij = pi • × p• j , ∀ i, j. ■

Distribuição Multinomial

68
Seja n = (n1 , . . . , nc ) um vetor aleatório cujas componentes tomam valores inteiros não negativos tal que
1′c n = N está fixado. Se a função de probabilidade de qualquer subconjunto de c − 1 componentes de n é
c
Y
f (n|N, θ) = N ! θini /ni !
i=1

onde θ = (θ1 , . . . , θc )′ com θi > 0 e 1′c θ = 1, diz-se que n possui uma distribuição Multinomial de
parâmetros N e θ — escreve-se n|N, θ ∼ Mc−1 (N, θ) realçando a dimensionalidade c−1 desta distribuição
para contrariar o abuso notacional (praticado por conveniência) de a aplicar a n em vez de a um seu
subvetor (c − 1) × 1, e.g. , a n̄ = (n1 , . . . , nc−1 )′ .
A função geradora de momentos da distribuição Multinomial em análise é
 N
c−1
′ X
Mn (t) ≡ E(et n |N, θ) =  θj etj + θc 
j=1

onde t = (t1 , . . . , tc−1 , 0)′ , donde se conclui em particular que os primeiros dois momentos do vetor n são
dados por
E(n|N, θ) = N θ e V ar(n|N, θ) = N (Dθ − θθ′ )

onde Dθ = diag(θ1 , . . . , θc ). Quando a distribuição em causa se considera reportada a n̄, os respetivos


vetor de médias e matriz de covariâncias são

µ = N θ̄ e Σ = N (Dθ̄ − θ̄θ̄′ )

onde θ̄ = (θ1 , . . . , θc−1 )′ .


A distribuição condicional de n dado M ≡ (M1 , . . . , Ms ) = Z ′ n, onde Mk = zk′ n =
P
ni , k = 1, . . . , s,
i∈Ck
é então o produto de s distribuições Multinomiais para n(k) = (ni , i ∈ Ck )′

n(k) |M, θ, k = 1, . . . , s ∼ M
dk −1 (Mk , πk )
ind.

onde πk = (θi /αk , i ∈ Ck )′ . Por exemplo, numa tabela de contingência bidimensional I ×J a distribuição
condicional de n = (nij ) dado M = (ni· , i = 1, . . . , I)′ é o produto de I Multinomiais

(nij , j = 1, . . . , J)′ |ni· , θ, i = 1, . . . , I ∼ M


J−1 (ni· , πi )
ind.

onde πi = (θ(i)j , j = 1, . . . , J)′ , θ(i)j = θij /θi· .

Distribuição Dirichlet
c
Diz-se que θ possui uma distribuição Dirichlet de parâmetro a = (a1 , . . . , ac ) ∈ IR+ , o que se indica
simbolicamente por θ ∼ Dc−1 (a), se a sua função densidade em Sc−1 é expressa (de novo numa notação
sobredimensionada, por conveniência) por
c
Y
h(θ|a) = [B(a)]−1 θiai −1
i=1

onde
c
Z Y Qc
Γ(ai )
B(a) = θiai −1 dθ = i=1
Γ(a· )
Sc−1 i=1
P
com a· = i ai , é a função beta multivariada (integral de Dirichlet (c − 1)-dimensional).

69
Tabela 9: Escolha de alimentos primários de jacarés (Agresti, 2019).

Lago Comprimento peixe invertebrado réptil ave outro


Hancock <= 2.3 23 4 2 2 8
> 2.3 7 0 1 3 5
Oklawaha <= 2.3 5 11 1 0 3
> 2.3 13 8 6 1 0
Trafford <= 2.3 5 11 2 1 5
> 2.3 8 7 6 3 5
George <= 2.3 16 19 1 2 3
> 2.3 17 1 0 1 3

Esta famı́lia de distribuições é a extensão multivariada da famı́lia Beta a que se reduz quando c = 2. É
fácil mostrar que os momentos de θ podem ser obtidos de
" c #
Y
ri B(a + r)
E θi |a =
i=1
B(a)

onde r = (r1 , . . . , rc )′ . Em particular,


E(θk |a) = ak /a·
Var(θk |a) = ak (a· − ak )/{a2· (a· + 1)}

Cov(θk , θl |a) = −ak al /{a2· (a· + 1)}


para k, l = 1, . . . , c, l ̸= k.

Regressão multinomial

Supõe-se que cada combinação de fatores explicativos dê origem a uma resposta multinomial com uma
ligação logı́stica, de modo que, para o lago i, comprimento j, o vetor observado de contagens Xij· tem
distribuição multinomial i.e.

Xij· = (Xij1 , . . . , Xij5 ) ∼ Multinomial(nij , pij· )


P
onde nij = k Xijk e pij· = (pij1 , . . . , pijk ), i = 1, . . . , 4, j = 1, 2, k = 1, . . . , 5. Para usar a função de
P
ligação logit, considere a reparametrização pijk = ϕijk / k ϕijk , com

log ϕijk = αk + βik + γjk , (6.21)

onde α1 , βi1 , β1k , γj1 , γ1k = 0 para identificabilidade do modelo, que é conhecido por modelo de regressão
logı́stica-multinomial.
Exemplo 6.6: Agresti (2019) analisa um conjunto de dados sobre a escolha alimentar de 221 jacarés,
onde a medida de resposta para cada jacaré é uma de 5 categorias. Os possı́veis fatores explicativos são
o comprimento do jacaré (2 categorias) e o lago (4 categorias).
Resultados: Com base em 5000 amostras, após um perı́odo de aquecimento de 5000, obtiveram-se as
seguintes estimativas dos parâmetros.

70
Tabela 10: Proporções estimadas com base no modelo (6.21).

Lago Comprimento peixe invertebrado réptil ave outro


Hancock <= 2.3 0.5309 0.0830 0.0565 0.0706 0.2590
> 2.3 0.5519 0.0198 0.0836 0.1435 0.2011
Oklawaha <= 2.3 0.2580 0.6008 0.0794 0.0095 0.0523
> 2.3 0.4649 0.2487 0.1894 0.0287 0.0684
Trafford <= 2.3 0.1857 0.5179 0.0916 0.0367 0.1680
> 2.3 0.3014 0.1942 0.1998 0.1047 0.2000
George <= 2.3 0.4540 0.4128 0.0124 0.0292 0.0916
> 2.3 0.6592 0.1381 0.0250 0.0787 0.0990

6.2.3 Análise de fiabilidade e de sobrevivência

ˆ O estudo da análise de sobrevivência ou fiabilidade centra-se num conjunto de unidades que são
observadas até à ocorrência de algum evento de interesse (e.g. morte). Frequentemente o evento
não chega a ocorrer para algumas das unidades durante o perı́odo de observação (censura).

ˆ Essas unidades (indivı́duos, componentes electrónicas, etc.) dão origem aos dados de sobrevivência
que são formados essencialmente pelos tempos de vida ou tempos de sobrevivência ou tempos de
falha das unidades, e.g. , os tempos decorridos entre o diagnóstico de uma determinada doença em
paciente até à sua morte devido a essa doença.

Exemplo 6.7: Cancro de laringe - Num hospital holandês 90 pacientes do sexo masculino com cancro de
laringe foram diagnosticados e tratados durante o perı́odo de 1970 a 1978 (Kardaun, 1983).
Os tempos de sobrevivência observados neste estudo foram os tempos decorridos entre o primeiro trata-
mento de cada paciente e a sua morte ou o fim do estudo (01/03/1981).
Para cada paciente, observaram-se também a idade no momento do diagnóstico, o ano do diagnóstico e
o estádio da doença. Esses estádios estão ordenados do menos grave (estádio 1) ao mais grave (estádio
4).

Tabela 11: Dados de sobrevivência de pacientes com cancro de laringe.

Estádio Tempos de vida em anos (* censurado), Idade, Ano do diagnóstico


1 0.6,77,76 1.3,53,71 2.4,45,71 2.5*,57,78 3.2,58,74 3.2*,51,77
3.3,76,74 3.3*,63,77 3.5,43,71 3.5,60,73 4.0,52,71 4.0,63,76
4.3,86,74 4.5*,48,76 4.5*,68,76 5.3,81,72 5.5*,70,75 5.9*,58,75
5.9*,47,75 6.0,75,73 6.1*,77,75 6.2*,64,75 6.4,77,72 6.5,67,70
6.5*,79,74 6.7*,61,74 7.0*,66,74 7.4,68,71 7.4*,73,73 8.1*,56,73
8.1*,73,73 9.6*,58,71 10.7*,68,70
2 0.2,86,74 1.8,64,77 2.0,63,75 2.2*,71,78 2.6*,67,78 3.3*,51,77
3.6,70,77 3.6*,72,77 4.0,81,71 4.3*,47,76 4.3*,64,76 5.0*,66,76
6.2,74,72 7.0,62,73 7.5*,50,73 7.6*,53,73 9.3*,61,71
3 0.3,49,72 0.3,71,76 0.5,57,74 0.7,79,77 0.8,82,74 1.0,49,76
1.3,60,76 1.6,64,72 1.8,74,71 1.9,72,74 1.9,53,74 3.2,54,75
3.5,81,74 3.7*,52,77 4.5*,66,76 4.8*,54,76 4.8*,63,76 5.0,59,73
5.0,49,76 5.1*,69,76 6.3,70,72 6.4,65,72 6.5*,65,74 7.8,68,72
8.0*,78,73 9.3*,69,71 10.1*,51,71
4 0.1,65,72 0.3,71,76 0.4,76,77 0.8,65,76 0.8,78,77 1.0,41,77
1.5,68,73 2.0,69,76 2.3,62,71 2.9*,74,78 3.6,71,75 3.8,84,74
4.3*,48,76

71
t4 * t4 *
t3 t3

t2 * t2 *
t1 t1

1973 1975 1977 1979 1981 0 2 4 6 8

(a) Escala original (b) Escala de sobrevivência

Figura 11: Tempos de sobrevivência (* unidade censurada).

Conceitos básicos

Uma das funções de interesse em análise de sobrevivência para uma população de unidades, cujo tempo
de sobrevivência é representado por T , é a função de sobrevivência que descreve a forma distribucional
dos tempos de sobrevivência através da probabilidade de uma unidade sobreviver pelo menos até ao
instante t,
S(t) ≡ P (T ≥ t), (6.22)

onde T é uma variável aleatória (v.a.) não negativa, sendo (6.22) uma função monótona não crescente
de t no intervalo do tempo J = [0, ∞) tal que S(0) = 1 e S(∞) ≡ limt→∞ S(t) = 0.9
A formulação dos modelos de sobrevivência é feita usualmente pela função de risco (hazard function ou
failure rate ou force of mortality), i.e. a taxa de ocorrência do evento de interesse no instante t ∈ J ,
definida por
P (t ≤ T < t + dt|T ≥ t)
λ(t) = lim+ . (6.23)
dt→0 dt
No Exemplo 6.7, a função (6.23) representa a probabilidade de um indivı́duo morrer com cancro de
laringe no intervalo infinitesimal [t, t + dt) dado que viveu até ao instante imediatamente antes de t.
Rt
A função de risco cumulativa ou integrada de (6.23) é dada por Λ(t) ≡ 0 λ(u)du que é finita para
R∞
algum t > 0 e 0 λ(u)du = ∞.
Se os tempos de sobrevivência são v.a. absolutamente contı́nuas, a função de risco determina completa-
mente as distribuições de probabilidade destes tempos (contı́nuos) pelas seguintes relações:
f (t)
λ(t) = S(t) = − ddt ln S(t)
  (6.24)
Rt
S(t) = exp − 0 λ(u)du = exp[−Λ(t)],

onde f (·), S(·) e Λ(·) são, respectivamente, a função densidade de probabilidade (f.d.p.), a função de
sobrevivência e a função de risco cumulativa do tempo de sobrevivência genérico T .

Construção da função de verosimilhança


9 Uma consequência desta definição de função de sobrevivência é que a respectiva função de distribuição F (t) ≡ 1 − S(t),

∀ t ∈ J , passa a ser contı́nua à esquerda, contrariamente à definição usual das funções de distribuição.

72
Para populações homogéneas, D = {(ti , γi ), i = 1, . . . , n}, enquanto que para populações heterogéneas

D = {(ti , γi , zi ), i = 1, . . . , n},

onde ti é o valor observado de Ti = min(Xi , Ci ) e zi = (zi1 , . . . , zip )T é o vetor de covariáveis ou de


funções das covariáveis associado à unidade i, considerando-se por simplicidade zi com p covariáveis,
i = 1, . . . , n.
Neste cenário, os tempos de sobrevivência provenientes de uma população com f.d.p. f (·) e função de
sobrevivência S(·) são contı́nuos e estão sujeitos a censura à direita e os tempos de censura Ci , i = 1, . . . , n,
não são aleatórios.
Para pares aleatórios independentes e oriundos de uma população homogénea com f (·) e S(·) depen-
dentes de um vetor de parâmetros θ e com mecanismo de censura não informativo para θ, a função de
verosimilhança de θ dado o conjunto D é
n
Y
L(θ|D) = f (ti |θ)γi S(ti |θ)1−γi . (6.25)
i=1

Usando as relações em (6.24), a função de verosimilhança (6.25) pode ser expressa igualmente em termos
da função de risco λ(t|z, θ), dependente do vetor paramétrico θ e do vetor de covariáveis zi da unidade
i, i.e.
Yn  Z ti 
L(θ|D) = λ(ti |zi , θ)γi exp − λ(u|zi , θ)du . (6.26)
i=1 0

Modelos de sobrevivência paramétricos

Os modelos de sobrevivência paramétricos são construı́dos a partir de famı́lias de distribuições de pro-


babilidade especı́ficas, e.g. :

ˆ distribuição Exponencial;

ˆ distribuição Gama;

ˆ distribuição Log-normal;

ˆ distribuição Weibull.

Na escolha da distribuição de sobrevivência pode-se sempre recorrer às propriedades das várias distri-
buições univariadas que melhor se adaptem ao estudo concreto de sobrevivência (Lawless, 2003).

Regressão Weibull

Perante populações heterogéneas, os modelos (4.11)-(4.14) são redefinidos introduzindo nas suas respec-
tivas funções de risco uma função das covariáveis ψ(z).
Por exemplo, o modelo de regressão Weibull é definido pela seguinte função de risco condicional a z
considerando o parâmetro de escala δ ψ(z) em (4.14):

λ(t|z) = δαtα−1 ψ(z) , t ≥ 0, (6.27)

onde ψ(z) = exp[zT β] e β é o vetor de coeficientes de regressão associado ao vetor de covariáveis z.


(6.27) é conhecido por modelo de tempo de vida acelerado devido ao seu parâmetro de escala.

73
Uma caracterı́stica do modelo (6.27) é que a razão das funções de risco de duas unidades com vetor de
covariáveis z1 e z2 ,
λ(t|z1 ) ψ(z1 )
= (6.28)
λ(t|z2 ) ψ(z2 )
não depende de t, i.e. , unidades diferentes têm funções de risco proporcionais (modelos de riscos pro-
porcionais).
O modelo de regressão Weibull é o único modelo de sobrevivência que é simultaneamente modelo de
localização-escala (Lawless, 2003) e de riscos proporcionais (6.28).
Os métodos inferenciais nestes modelos paramétricos são obtidos com base na função de verosimilhança
(6.26) usando a respectiva função de risco (Lawless, 2003).
Exemplo 6.8: Tempos de vida com estádio da doença do Exemplo 6.7.
Resultados: Com base em 5000 amostras (burn-in = 5000), obtiveram-se as seguintes estimativas dos
parâmetros.

mean sd 2.5% 50% 97.5%


alpha 1.16 0.1361 0.90 1.16 1.44
beta[1] -2.76 0.3531 -3.42 -2.78 -2.06
beta[2] -2.86 0.4391 -3.80 -2.86 -2.01
beta[3] -2.08 0.3242 -2.76 -2.08 -1.41
beta[4] -0.99 0.3370 -1.69 -0.98 -0.35
mediana[1] 8.13 2.0242 5.14 7.78 12.90
mediana[2] 9.24 3.9023 4.60 8.50 18.34
mediana[3] 4.47 0.9700 2.91 4.38 6.74
mediana[4] 1.77 0.5094 0.99 1.69 2.95
contra1 -0.10 0.4683 -1.03 -0.08 0.83
contra2 0.68 0.3623 -0.01 0.68 1.39
contra3 1.77 0.4184 0.93 1.77 2.57
deviance 288.20 3.1145 284.10 287.60 296.30

Avaliaçao das cadeias simuladas via técnicas de diagnóstico de convergência de Geweke, Heidelberg-Welch
e Raftery-Lewis:

# Fraction in 1st window = 0.1 # Fraction in 2nd window = 0.5


# alpha beta[1] beta[3]
# -0.5724 -0.1426 1.6625

# Stationarity test start iteration p-value


# alpha passed 1 0.256
# beta[1] passed 1 0.807
# beta[3] passed 1 0.301
# Halfwidth test Mean Halfwidth
# alpha passed 1.16 0.00377
# beta[1] passed -2.76 0.00979
# beta[3] passed -2.08 0.00865

# Quantile (q) = 0.025 # Accuracy (r) = +/- 0.005 # Probability (s) = 0.95
# Burn-in Total Lower bound Dependence
# (M) (N) (Nmin) factor (I)
# alpha 2 3930 3746 1.050
# beta[1] 2 3829 3746 1.020
# beta[3] 2 3680 3746 0.982

74
Apêndice e Bibliografia
Apêndice A: Conceitos de Probabilidades e Estatı́stica

Noção de probabilidade

1. Interpretação de Laplace: Para uma experiência aleatória E com espaço de resultados finito Ω =
{1, . . . , N }, supondo que os N resultados são igualmente prováveis, a probabilidade de qualquer
acontecimento A é a proporção de resultados de Ω favoráveis a A.

2. Interpretação frequencista: A probabilidade de um acontecimento A é o limite da frequência relativa


da ocorrência de A numa longa sucessão de experiências realizadas sob as mesmas condições.

3. Interpretação subjectivista: A probabilidade de um acontecimento A é entendida como uma medida


pessoal (entre 0 e 1) do grau de crença sobre a ocorrência de A.

Teorema de Bayes

Definição A.1: Os acontecimentos A1 , . . . , An formam uma partição do espaço de resultados Ω quando


i) Ai ∩ Aj = ∅, ∀i ̸= j = 1, . . . , n; ii) ∪ni=1 Ai = Ω.
Teorema A.1: Se os acontecimentos A1 , . . . , An formam uma partição do espaço de resultados Ω e B é
um acontecimento qualquer de Ω com P (B) > 0, então ∀ i = 1, . . . , n, (teorema de Bayes)

P (Ai ∩ B) P (Ai )P (B|Ai )


P (Ai |B) = = Pn .
P (B) j=1 P (Aj )P (B|Aj )

Definição A.2: Diz-se que dois acontecimentos A e B de um mesmo espaço de resultados Ω são indepen-
dentes se
P (A ∩ B) = P (A) × P (B).

Variáveis aleatórias

Definição A.3: Uma variável aleatória (v.a.) X é uma função que associa um número real a cada resultado
possı́vel de uma experiência aleatória.

ˆ As v.a. podem assumir um número finito ou infinito (numerável/discreta ou não numerável/contı́nua)


de valores possı́veis.

ˆ O modelo probabilı́stico induzido em IR pela v.a. X pode ser cabalmente definido de vários modos,
e.g., através da função de distribuição.

Definição A.4: Dada uma variável aleatória X, a função de distribuição (cumulativa) de X é dada por

FX (x) ≡ P (X ≤ x), ∀ x ∈ IR.

75
Variáveis aleatórias discretas e contı́nuas

Definição A.5: Diz-se que X é uma v.a. discreta, com os possı́veis valores x1 , x2 , . . ., se existir uma
função (IR → [0, 1]) fX (x) = P (X = x), denotando a probabilidade de ocorrência de {x}, conhecida por
função (massa) de probabilidade (f.m.p.), e satisfazendo as condições: i) fX (xi ) > 0, ∀ i = 1, 2, . . .; ii)
P
i≥1 fX (xi ) = 1.

Definição A.6: Diz-se que X é uma v.a. contı́nua, se existir uma função fX , denominada função densidade
R
de probabilidade (f.d.p.) de X tal que: i) fX (x) ≥ 0, ∀ x ∈ IR; ii) IR fX (x)dx = 1; iii) A função de
distribuição é contı́nua e dada por
Z x
FX (x) ≡ P (X ≤ x) = fX (u)du.
−∞

Funções de variáveis aleatórias

Se X é uma v.a. discreta com f.m.p. fX (x) e contradomı́nio D = {x1 , x2 , . . .}, então Y = g(X) é também
uma v.a. discreta com f.m.p.
X
fY (y) = P (Y = y) = P (X ∈ Ay ) = fX (xi ), y ∈ D∗
xi ∈Ay

onde Ay = {x ∈ D : g(x) = y} e D∗ = g(D) é o contradomı́nio de Y .


Se X é uma v.a. contı́nua, a continuidade de Y = g(X) depende do tipo da função g(·). Por exemplo,
para X com f.d.p. fX (x) = 1, se 0 < x < 1, 0, no caso contrário, a f.d.p. de Y = eX é fY (y) = y1 , se
0 < y < e, 0, no caso contrário, tendo em conta que, ∀y > 0,
1
FY (y) ≡ P (Y ≤ y) = P (X ≤ log y) ≡ FX (log y) → fY (y) = fX (log y) .
y

Vetores aleatórios discretos e contı́nuos

Definição A.7: Seja (X1 , . . . , Xn ) ∈ IRn um vetor aleatório, onde Xi , 1 ≤ i ≤ n são variáveis aleatórias
discretas e/ou contı́nuas. (X1 , . . . , Xn ) é dito ser um vetor aleatório discreto ou contı́nuo com função de
distribuição FX1 ,...,Xn (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn ), quando existe uma função não negativa
fX1 ,...,Xn (x1 , . . . , xn ) verificando, respec.,

P P
FX1 ,...,Xn (x1 , . . . , xn ) = ··· fX1 ,...,Xn (u1 , . . . , un )
u1 ≤x1 un ≤xn
Rx1 x
Rn
FX1 ,...,Xn (x1 , . . . , xn ) = ··· fX1 ,...,Xn (u1 , . . . , un )du1 . . . dun
−∞ −∞

P P
∴ ··· fX1 ,...,Xn (u1 , . . . , un ) = 1
u1 ≤∞ un ≤∞
R∞ R∞
··· fX1 ,...,Xn (u1 , . . . , un )du1 . . . dun = 1.
−∞ −∞

Variáveis aleatórias independentes

76
Definição A.8: X1 , . . . , Xn são v.a. independentes, se a função de distribuição de (X1 , . . . , Xn ) é dada
por
n
Y
FX1 ,...,Xn (x1 , . . . , xn ) ≡ P (X1 ≤ x1 , . . . , Xn ≤ xn ) = FXi (xi ),
i=1

onde FXi (xi ) é a função de distribuição marginal de Xi , i = 1, . . . , n.


ou equivalentemente, se a f.m.p. (f.d.p.) conjunta de X1 , . . . , Xn
n
Y
fX1 ,...,Xn (x1 , . . . , xn ) = fXi (xi ),
i=1

onde fXi (xi ) é a f.m.p. (f.d.p.) marginal de Xi , i = 1, . . . , n.

Valor esperado e Variância de uma variável aleatória

Definição A.9: Dada uma v.a. discreta (contı́nua) X com f.m.p. (f.d.p.) fX (x), o valor esperado (ou
valor médio ou esperança matemática) de X, caso exista, é dado por

P x f (x ) (discreto)
i X i
E(X) = R xi
 x fX (x)dx (contı́nuo).
IR

Definição A.10: Dada uma v.a. discreta (contı́nua) X com f.m.p. (f.d.p.) fX (x), a variância de X é o
momento central de ordem 2 de X, i.e.,

P (x −E(X))2 f (x ) (discreto)
i X i
V ar(X) = E[(X −E(X)) ] = R xi
2
2
 (x−E(X)) fX (x)dx (contı́nuo).
IR

Momentos simples e centrais

Definição A.11: Seja X uma v.a. discreta (contı́nua) com f.m.p. (f.d.p.) fX (x) e k inteiro positivo. O
valor esperado de X k , conhecido por momento simples de ordem k de X, caso exista, é

P xk f (x ) (caso discreto)
i X i
E(X k ) = R xi
 xk fX (x)dx (caso contı́nuo).
IR

Definição A.12: Seja X uma v.a. discreta (contı́nua) com f.m.p. (f.d.p.) fX (x) e k inteiro positivo. O
valor esperado de (X − E(X))k , conhecido por momento central de ordem k de X, caso exista, é

P (x −E(X))k f (x ) (caso discreto)
i X i
E((X −E(X)) ) = R xi
k
 (x−E(X))k fX (x)dx (caso contı́nuo).
IR

Covariância e Correlação

Definição A.13: Dadas duas v.a. X e Y , a covariância de X e Y é o valor esperado do produto dos
desvios médios de X e Y , i.e.,

Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y ).

77
Definição A.14: Dado um par aleatório (X, Y ), o coeficiente de correlação (linear) de X e Y é um
parâmetro adimensional dado por
Cov(X, Y )
Corr(X, Y ) = p .
V ar(X) V ar(Y )

Nota A.1: i) −1 ≤ Corr(X, Y ) ≤ 1, ii) Y = a X + b ⇔ Corr(X, Y ) = ±1.

Valor esperado e matriz de covariâncias do vetor X

Seja X = (X1 , . . . , Xn ) um vetor aleatório em IRn , onde X1 , . . . , Xn são v.a. com E(Xi ) = µi , V ar(Xi ) =
σi2 e Cov(Xi , Xj ) = σij , j ̸= i = 1, . . . , n. O valor esperado de X é entendido como

E(X) = µ ≡ (µ1 , . . . , µn )T

enquanto a matriz de covariâncias de X é


 
σ12 σ12 ··· σ1n
V ar(X) = E((X−µ)(X−µ)T ) ≡  · · · ··· ··· ···, σij = σji
 

σn1 σn2 ··· σn2

Se X1 , . . . , Xn são v.a. independentes e V ar(Xi ) = σ 2 , i = 1, . . . , n, então V ar(X) = σ 2 In , onde In é a


matriz identidade de ordem n.

Valor esperado condicional e propriedades

Definição A.15: Dado um par aleatório (X, Y ) discreto (contı́nuo) com f.m.p. (f.d.p.) condicional de X
dado Y = y, denotada por fX|Y =y (x), o valor esperado condicional de X dado Y = y é

P x f
i X|Y =y (xi ) (discreto),
E(X|Y = y) = R xi
 xfX|Y =y (x) dx (contı́nuo),
IR

fX,Y (x,y)
onde e.g. a f.d.p. condicional fX|Y =y (x) = fY (y) , se fY (y) > 0.
Propriedades: Se (X, Y ) um par aleatório com f.m.p. (f.d.p.) conjunta fX,Y (x, y) e marginal de Y fY (y),

E(E(X|Y )) = E(X), em caso de E(X) < ∞.

Algumas distribuições discretas

1
1. Uniforme discreta: v.a. X com x1 , . . . , xk igualmente prováveis i.e. a sua f.m.p. fX (x) = k, se
x = x1 , . . . , xk , 0, caso contrário (c.c.).

2. Binomial: X ∼ Bi(n, p) see fX (x) = nx px (1 − p)n−x , x = 0, 1, . . . , n.




−M
(Mx )(Nn−x )
3. Hipergeométrica: v.a. X ∼ Hpg(N, M, n) see fX (x) = N , max{0, n − N + M } ≤ x ≤
(n)
min{n, M }.

4. Geométrica: X ∼ Geo(p) see fX (x) = (1 − p)x−1 p, x = 1, 2, . . ..


e−λ λx
5. Poisson: X ∼ P oi(λ) see fX (x) = x! , x = 0, 1, . . ..

78
Algumas distribuições contı́nuas

1
1. Uniforme contı́nua: X ∼ U (a, b) see fX (x) = b−a , a < x < b.
R∞ a
2. Gama: X ∼ Ga(a, b) see fX (x) = Γ(a)b
xa−1 e−b x , x ≥ 0, onde Γ(a) = 0 xa−1 e−x dx e Γ(a) =
(a − 1)!, a ∈ IN . Note-se que se a = 1, b = λ, X ∼ Exponential(λ) e se a = ν2 , b = 12 , X ∼
Qui-quadrado(ν) ≡ χ2(ν) .
a
3. Weibull: X ∼ W ei(a, b) see fX (x) = b a xa−1 e−b x , x ≥ 0.

4. Beta: X ∼ Be(a, b) see fX (x) = xa−1 (1 − x)b−1 , 0 < x < 1, onde B(a, b) = Γ(a)
1
B(a,b)
Γ(b)
Γ(a+b) .
 
2 1 1 2
5. Normal (ou de Gauss): X ∼ N (µ, σ ) see fX (x) = 2 π σ exp − 2 σ2 (x − µ) , ∞ < x < ∞.

Convergência em distribuição

Definição A.16: Sejam X, X1 , X2 . . . v.a. com respetivas funções de distribuição FX , FX1 , FX2 , . . .. Diz-se
D
que a sucessão {Xn } converge em distribuição para X (Xn → X), se

FXn (x) → FX (x), quando n → ∞,

∀ x ponto de continuidade de FX . Ou seja,

∀x, lim FXn (x) = FX (x)


n→∞

⇔ ∀δ > 0, ∃n1 (δ) : n > n1 (δ) ⇒ |FXn (x) − FX (x)| < δ, ∀x.

Teorema Limite Central

Teorema A.2 (T.L.C.): Seja X1 , X2 . . . uma sucessão de v.a. independentes e identicamente distribuı́das
Pn
(i.i.d) com valor esperado µ e variância σ 2 , ambos finitos. Para Sn = i=1 Xi , tem-se

Sn − E(Sn ) Sn − nµ D
p = √ → N (0, 1).
V ar(Sn ) σ n

−nµ
Sn √

Ou seja, para n razoavelmente grande, P σ n
≤ x ≈ Φ(x), onde Φ(·) é a função de distribuição da
a
normal reduzida, i.e., N (0, 1). Assim, Sn ∼ N (nµ, nσ 2 ) para n suficientemente grande.
a
Aplicação à distribuição Poisson: Xi ∼ Poisson(λ), i = 1, 2, . . . ⇒ Sn ∼ Poisson(nλ) ∼ N (nλ, nλ) (a
seguir).

Distribuição de Poisson (lambda=5 x 0.5) Distribuição de Poisson (lambda=10 x 0.5)


0.30

0.30
0.20

0.20
f(x)

f(x)
0.10

0.10
0.00

0.00

0 10 20 30 40 50 0 10 20 30 40 50

x x

79
Distribuição de Poisson (lambda=20 x 0.5) Distribuição de Poisson (lambda=50 x 0.5)

0.30

0.30
0.20

0.20
f(x)

f(x)
0.10

0.10
0.00

0.00
0 10 20 30 40 50 0 10 20 30 40 50

x x

Amostragem

Definição A.17: Dada uma população a que está associada uma variável aleatória X com uma certa dis-
tribuição de probabilidade, uma amostra aleatória (a.a.) de tamanho n dessa população é uma sequência
de n variáveis aleatórias X1 . . . , Xn independentes e identicamente distribuı́das (i.i.d.) com a mesma
distribuição de X.
Definição A.18: Dada uma amostra aleatória (X1 . . . , Xn ) de uma população X com f.m.p. (f.d.p.)
fX (x), a distribuição de probabilidade amostral (f.m.p. ou f.d.p. conjunta) é dada por
n
Y n
Y
fX1 ,...,Xn (x1 , . . . , xn ) = fXi (xi ) = fX (xi ).
i=1 i=1

Propriedades dos estimadores

As propriedades básicas dos estimadores estão relacionadas com noções de exatidão e precisão à seme-
lhança da caracterização dos métodos experimentais de medição de uma quantidade desconhecida em
termos da concordância das medidas repetidas obtidas, em que se considera

Exatidão = concordância das observações com o valor visado.

Precisão = concordância das observações entre si.

A exatidão está associada aos erros sistemáticos, e.g., deficiências de instrumentos de medição, enquanto
a precisão se reporta aos erros aleatórios que são responsáveis por pequenas variações imprevisı́veis nas
medições realizadas, cujas causas não são completamente conhecidas.
Ilustração (informal) de jogadores de tiro ao alvo (“estimadores”) com boa exatidão (A,C) e boa precisão
(C,D).

A B
'$ * '$
*
* * * *
* t * t
* * *
&% &%
*

C D
'$ '$
t*
** t
**
* **
&% ****&%

80
Definição A.19: Seja (X1 . . . , Xn ) uma a.a. de X com distribuição indexada pelo parâmetro θ. O
estimador T = T (X1 , . . . , Xn ) é dito ser um estimador centrado (não enviesado) de θ se E(T ) = θ.
Definição A.20: Seja T = T (X1 , . . . , Xn ) um estimador do parâmetro θ. Uma medida da variabilidade
do estimador T é o erro quadrático médio (EQM), dado por

EQM (T ) ≡ E((T − θ)2 ) = V ar(T ) + (E(T ) − θ)2 .

Definição A.21: Sejam T = T (X1 , . . . , Xn ) e U = U (X1 , . . . , Xn ) dois estimadores do parâmetro θ. Diz-se


que T é mais eficiente do que U , se

EQM (T ) ≤ EQM (U ), ∀ θ

com desigualdade estrita para algum θ.

Outras distribuições

r+x−1

1. Binomial negativa: X ∼ BiN (r, p) see fX (x) = r−1 pr (1 − p)x , x = 0, 1, 2, . . ..

Γ( k+1  k+1
x2 −( 2 )
√1 2 )
2. t-Student: X ∼ t(k) see fX (x) = k π Γ( k
1+ k , ∞ < x < ∞.
2)

aa/2 bb/2
3. Fisher-Snedecor: X ∼ F (a, b) see fX (x) = Beta(a/2,b/2) x
a/2−1
a x+b−(a+b)/2 , x ≥ 0.

k
n! Y
4. Multinomial: X = (X1 , . . . , Xk ) ∼ Mk (n, p = (p1 , . . . , pk )) see fX (x) = pi xi , xi =
x1 ! · · · xk ! i=1
k
X k
X
0, 1, . . . , n, com pi = 1, xi = n.
i=1 i=1
k 1
5. Normal multivariada: X = (X1 , . . . , Xk ) ∼ Nk (µ, ∆) see fX (x) = (2 π)− 2 |∆|− 2 exp − 12 (x −


µ)T ∆−1 (x−µ) , ∞ < xi < ∞.




A lei dos grandes números

De acordo com a lei, a média dos resultados obtidos em um grande número de ensaios deve estar próxima
do valor esperado.
Duas versões diferentes da lei dos grandes números são:

1. Lei fraca: afirma que a média da amostra converge em probabilidade para o valor esperado, ou
P
seja, X̄n → µ quando n → ∞ i.e. , ϵ, limn→∞ P (|X̄n − µ| > ϵ) = 0.

2. Lei forte: afirma que a média da amostra converge quase certamente para o valor esperado, ou
a.s.
seja, X̄n → µ quando n → ∞ i.e. , P (limn→∞ X̄n = µ) = 1.

81
Bibliografia

Agresti A (2019). An Introduction to Categorical Data Analysis, 3rd edition. Wiley.


Amaral Turkman MA, Paulino CD, Müller P (2019). Computational Bayesian Statistics: An
Introduction. Cambridge University Press, Cambridge.
Amaral Turkman MA, Silva GL (2000). Modelos Lineares Generalizados: da teoria à prática. Edições
SPE, Lisboa.
Belitz C, Brezger A, Kneib T, Lang S, Umlauf N (2017). BayesX: Software for Bayesian Inference in
Structured Additive Regression Models. Version 1.1.
Bliss CI (1935). The calculation of the dosage-mortality curve. Annals of Applied Biology, 22, 134-167.
Carpenter B, Gelman A, Hoffman MD, Lee D, Goodrich B, Betancourt M, Brubaker M, Guo J, Li P,
Riddell A (2017). Stan: A probabilistic programming language. Journal of Statistical Software, 76(1),
1-32.
Casella G, George EI (1992). Explaining the Gibbs sampler. The American Statistician, 46, 167-174.
Cox DR (2006). Principles of Statistical Inference. Cambridge University Press.
Dempster AP, Laird NM, Rubin, DB (1977). Maximum likelihood from incomplete data via the EM
algorithm. Journal of the Royal Statistical Society B, 39, 1-38.
Efron B (1979). Bootstrap methods: another look at the jackknife. Annals of Statistics, 7:1–26.
Efron B (1981). Nonparametric estimates of standard error: the jackknife, the bootstrap, and other
methods. Biometrika, 68, 589–599.
Efron B, Tibshirani RJ (1993). An Introduction to the Bootstrap. Chapman & Hall/CRC, Boca Raton,
FL.
Gamerman D, Lopes HF (2006). Markov Chain Monte Carlo: Stochastic Simulation for Bayesian
Inference, 2nd edition. Chapman & Hall/CRC, London.
Gelfand AE (1996). Model determination using sampling-based methods. In Markov Chain Monte
Carlo in Practice, WR Gilks, S Richardson and DJ Spiegelhalter (eds.), 145-161, Chapman and Hall,
London.
Gelfand AE, Smith AFM (1990). Sampling-based approaches to calculating marginal densities. J.
Amer. Statist. Assoc., 85, 398-409.
Gelman A, Rubin DB (1992). Inference from iterative simulation using multiple sequences (with
discussion). Statistical Science, 7, 457-511.
Geman S, Geman D (1984). Stochastic relaxation, Gibbs distribution and the Bayesian restoration of
images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 6, 721-741.
Gentle JE (2002). Elements of Computational Statistics. Springer, New York.
Geweke J (1989). Bayesian inference in econometric models using Monte Carlo integration.
Econometrica, 57, 1317-1339.
Geweke J (1992). Evaluating the accuracy of sampling-based approaches to calculating posterior
moments. In Bayesian Statistics 4, JM Bernardo, JO Berger, AP Dawid and AFM Smith (eds.),
169-193, University Press, Oxford.
Gilks WR, Wild P (1992). Adaptive rejection sampling for Gibbs sampling. Applied Statistics, 41,
337-348.
Härdle W, Okhrin O, Okhrin Y (2017). Basic Elements of Computational Statistics. Springer.

82
Hastie T, Tibshirani R, Friedman J (2009). The Elements of Statistical Learning. Data Mining,
Inference, and Prediction, 2nd edition. Springer-Verlag.
Hastings WK (1970). Monte Carlo sampling methods using Markov chains and their applications.
Biometrika, 57, 97-109.
Heidelberger P, Welch PD (1983). Simulation run length control in the presence of an initial transient.
Operations Research, 31, 1109-1144.
Kardaun O (1983). Statistical survival analysis of male larynx-cancer patients - a case study. Statistica
Neerlandica, 37, 103-125.
Kutner MH, Nachtsheim CJ, Neter J, Li W (2005). Applied Linear Statistical Models, 5th Edition.
McGraw-Hill/Irwin, Boston.
Lawless JF (2003). Statistical Models and Methods for Lifetime Data, 2nd edition. Wiley, New York.
Marin J-M, Robert CP (2007). Bayesian Core - A Practical Approach to Computational Bayesian
Statistics. Springer, New York.
McCullagh P (2002). What is a statistical model? Annals of Statistics, 30(5), 1225–1310.
Metropolis N, Rosenbluth AW, Rosenbluth MN, Teller AH, Teller E (1953). Equation of state
calculations by fast computing machines. J. Chem. Phys., 21, 1087-1092.
Nelder JA, Wedderburn RWM (1972). Generalized linear models. Journal of the Royal Statistical
Society A, 135, 370-384.
Paulino CD, Amaral Turkman MA, Murteira B, Silva GL (2018). Estatı́stica Bayesiana, 2a edição.
Fundação Calouste Gulbenkian, Lisboa.
Plummer M (2003). JAGS: A program for analysis of Bayesian graphical models using Gibbs sampling.
In 3rd International Workshop on Distributed Statistical computing (DSC 2003), K Hornik, F Leisch
and A Zeileis (eds.).
Quenouille MH (1949). Approximate tests of correlation in time series. Journal of the Royal Statistical
Society, Series B, 11, 68-84.
Quenouille MH (1956). Notes on bias in estimation. Biometrika, 43, 353-360.
Raftery AE, Lewis S (1992). How many iterations in the Gibbs sampler? In Bayesian Statistics 4, JM
Bernardo, JO Berger, AP Dawid and AFM Smith (eds.), 169-193, University Press, Oxford.
Ripley BD (1987). Stochastic Simulation. Wiley, New York.
Rizzo ML (2019). Statistical Computing with R, 2nd edition. Chapman and Hall/CRC.
Robert CP, Casella G (2004). Monte Carlo Statistical Methods, 2nd Edition. Springer, New York.
Ross, SM (2014). Introduction to Probability and Statistics for Engineers and Scientists, 5th edition,
Academic Press.
Rue H, Martino S, Chopin N (2009). Approximate Bayesian inference for latent Gaussian models by
using integrated nested Laplace approximations. J. Royal Statist. Soc. B, 71(2), 319-392.
Schucany WR, Gray HL, Owen DB (1971), On bias reduction in estimation. Journal of the American
Statistical Association, 66, 524–533.
Sen PK, Singer JM (1993). Large Sample Methods in Statistics. An Introduction with Applications.
Chapman and Hall, New York.
Silva GL, Dean CB (2006). Uma Introdução à Análise de Modelos Espaço-temporais para Taxas,
Proporções e Processos de Multi-estados. Edições ABE, Caxambú - Brasil.
Tanner MA (1996). Tools for Statistical Inference, 3rd Edition. Springer Verlag, New York.

83
Thomas A, O’Hara B, Ligges U, Sturtz S (2006). Making BUGS open. R News, 6(1), 12-17.
Tukey J (1958). Bias and confidence in not quite large samples (abstract). Annals of Mathematical
Statistics, 29, 614.
Wickham H, Grolemund G (2017). R for Data Science: Import, Tidy, Transform, Visualize, and Model
Data. O’Reilly Media.

84
Exercı́cios propostos10

1. Introdução

REVISÃO DE PROBABILIDADES E ESTATÍSTICA (Ross, 2004/2009):

1.1.1 Um experimento medindo o percentual de retração na secagem de 50 espécimes de argila produziu


os seguintes dados:

18.2 21.2 23.1 18.5 15.6 20.8 19.4 15.4 21.2 13.4
16.4 18.7 18.2 19.6 14.3 16.6 24.0 17.6 17.8 20.2
17.4 23.6 17.5 20.3 16.6 19.3 18.5 19.3 21.2 13.9
20.5 19.0 17.6 22.3 18.4 21.2 20.4 21.4 20.3 20.1
19.6 20.6 14.8 19.7 20.5 18.0 20.8 15.8 23.1 17.0

a) Desenhe um diagrama de caule-e-folhas com esses dados.


b) Calcule a média, mediana e moda da amostra.
c) Calcule a variância da amostra.
d) Agrupe os dados em intervalos de classe de tamanho 1 por cento começando com o valor 13,0
e desenhe o histograma resultante.
e) Para os dados agrupados agindo como se cada um dos pontos de dados em um intervalo
estivesse realmente localizado no ponto médio desse intervalo, calcule a média e a variância
da amostra e compare-as com os valores obtidos nas partes (b) e (c). Por que esses diferem?

1.1.2 O cancro de próstata é o tipo mais comum de cancro encontrado em homens. Como um indicador
para saber se um homem tem cancro de próstata, os médicos costumam realizar um teste que
mede o nı́vel da proteı́na PSA (antı́geno especı́fico da próstata) que é produzida apenas por a
próstata. Embora nı́veis mais elevados de PSA sejam indicativos de cancro, o teste é notoriamente
não confiável. Na verdade, a probabilidade de que um homem não canceroso ter um nı́vel elevado
de PSA é de aproximadamente 0.135, com essa probabilidade aumentando para aproximadamente
0.268 se o homem tiver cancro. Se, com base em outros fatores, um médico tem 70 por cento de
certeza de que um homem tem cancro de próstata, qual é a probabilidade condicional de que ele
tem o cancro, dado que

a) o teste indica um nı́vel elevado de PSA;


b) o teste não indica um nı́vel elevado de PSA?

Repita o anterior, desta vez assumindo que o médico inicialmente acredita que há 30% de chance
de que o homem tenha cancro de próstata.

1.1.3 A função densidade de probabilidade conjunta de X e Y é



2, 0 < x < y, 0 < y < 1,
fX,Y (x, y) =
0, caso contrário.

a) Calcule a função densidade de probabilidade marginal de X.


10 Os exercı́cios propostos estão nos seguintes livros da bibliografia: Gentle (2002), Ross (2004/2009), Robert & Casella
(2004), Paulino et al. (2018), Rizzo (2019) and Amaral-Turkman et al. (2019), incluindo soluções de alguns desses.

i
b) Calcule a função densidade de probabilidade marginal de Y.
c) X e Y são variáveis aleatórias independentes?

1.1.4 Ensaios independentes, cada um dos quais é um sucesso com probabilidade p, são realizados su-
cessivamente. Denote por X o primeiro ensaio que resultou em um sucesso. Ou seja, X será igual
a k, se os primeiros k − 1 ensaios forem todos fracassos e o k-ésimo um sucesso. X é chamado de
variável aleatória geométrica. Calcule

a) a função (massa) de probabilidade de X, fX (k) = P (X = k), k = 1, 2, . . .;


b) o valor esperado de X, E(X).

Seja Y o número de ensaios necessários para obter r sucessos. Y é chamado de variável aleatória
binomial negativa. Calcule

c) a função (massa) de probabilidade de Y , fY (k) = P (Y = k), k = r, r + 1, . . ..

1.1.5 Se U uniformemente distribuı́do em (0, 1), mostre que V = a + (b − a) U é uniforme em (a, b).

1.1.6 Uma determinada componente é crucial para a operação de um sistema elétrico e deve ser subs-
tituı́da imediatamente em caso de falha. Se a vida útil média desse tipo de componente for 100
horas e seu desvio padrão for 30 horas, quantos componentes devem estar em estoque para que a
probabilidade de que o sistema esteja em operação contı́nua nas próximas 2.000 horas seja de pelo
menos 0.95?

1.1.7 A seguir estão os tempos de queima em segundos de potes de fumaça flutuantes de dois tipos
diferentes.

Tipo I Tipo II
481 506 527 661 501 526 511 556 542 491
572 561 501 487 524 537 582 605 558 578

Encontre um intervalo de confiança de 99% para a diferença média nos tempos de queima, assu-
mindo normalidade com variâncias desconhecidas, mas iguais.

1.1.8 Em uma experiência, 10 ratos albinos foram usados para estudar a eficácia do tetracloreto de
carbono como tratamento para vermes. Cada rato recebeu uma injeção de larvas de verme. Após
8 dias, os ratos foram divididos aleatoriamente em dois grupos de 5 cada; cada rato do primeiro
grupo recebeu uma dose de 0.032 cc de tetracloreto de carbono, enquanto a dosagem para cada rato
do segundo grupo foi de 0.063 cc. Dois dias depois, os ratos foram mortos e o número de vermes
adultos em cada rato foi determinado. Os números detectados no grupo que recebeu a dosagem
de 0.032 foram 421, 462, 400, 378, 413, enquanto eles foram 207, 17, 412, 74, 116 para aqueles que
recebem a dosagem de 0.063. Os dados provam que a dosagem maior é mais eficaz do que a menor?

1.1.9 Entre 100 tubos de vácuo testados, 41 tiveram vida útil de menos de 30 horas, 31 tiveram vida
útil entre 30 e 60 horas, 13 tiveram vida útil entre 60 e 90 horas e 15 tiveram vida útil de mais de
90 horas. Esses dados são consistentes com a hipótese de que a vida útil de um tubo de vácuo é
exponencialmente distribuı́da com uma média de 50 horas?

1.1.10 Uma amostra de 300 carros com telemóvel e uma outra de 400 carros sem telemóvel foram rastreados
por 1 ano. A tabela a seguir mostra o número desses carros envolvidos em acidentes naquele ano.

ii
Com acidente Sem acidente
Com telemóvel 22 278
Sem telemóvel 26 374

Use a tabela acima para testar a hipótese de que ter um telemóvel no carro e estar envolvido em
um acidente são independentes.

ESTATÍSTICA BAYESIANA (Paulino et al., 2018):

1.2.1 Um diretor comercial ao considerar a proporção de indivı́duos de uma dada população que dariam
preferência ao produto da empresa estabeleceu, para facilitar a análise, cinco casos a que atribui
as seguintes probabilidades a priori:

Proporção de consumidores probabilidades a priori


0.10 0.25
0.15 0.35
0.20 0.20
0.25 0.15
0.30 0.05

Efetuado um estudo de mercado verificou-se que entre 10 indivı́duos consultados, houve 2 que
disseram ser consumidores do produto. Atualize as probabilidades dos 5 casos considerados.

1.2.2 Um sistema analı́tico que auxilia a determinação do tipo de sangue, segundo o grupo ABO, consiste
na observação em cada pessoa de uma variável aleatória X com função densidade

f (x | θ) = e−(x−θ) I(θ,+∞) (x), θ > 0.

A classificação em cada tipo de sangue depende do valor de θ segundo a seguinte correspondência:

0<θ<1 =⇒ tipo O
1≤θ<2 =⇒ tipo A
2≤θ<3 =⇒ tipo B
θ≥3 =⇒ tipo AB

A distribuição da caraterı́stica θ sobre o universo das pessoas num dado momento é da forma

h(θ) = e−θ I(0,+∞) (θ).

a) Determine a probabilidade a priori de uma pessoa escolhida ao acaso ter cada um dos tipos
de sangue.
b) Atualize as probabilidades de (a) para uma pessoa cuja análise resultou no valor X = 4.

1.2.3 Ao descrever os resultados de uma investigação um estatı́stico declarou que a distribuição a poste-
riori da média θ de uma distribuição Normal com variância 100 era ainda Normal com média igual
a 52 e variância 10. Acrescentou ainda que a informação experimental consistiu numa amostra de
4 elementos com média 55.
Especifique completamente a distribuição a priori de θ que se sabe ser também Normal.

1.2.4 O número de navios que em cada dia entra a barra de determinado rio possui uma distribuição
Poisson de média θ cuja distribuição a priori é Exponencial de média 1. Sabendo-se que em 5 dias
se observaram as entradas 3, 5, 4, 3 e 4:

iii
a) Determine a distribuição a posteriori de θ.
b) Obtenha intervalos de credibilidade a 90% e 95% para θ.
c) Calcule o fator de Bayes da hipótese de a média diária de navios que entram a barra ser
superior a 3.8.

Dica: Se Z ∼ Gama(a, b), então 2b Z ∼ χ2(2a) .

1.2.5 Um investigador está interessado na diferença entre as médias, θ = µ1 − µ2 , de duas populações


Normais independentes com variância comum e igual a 100. Uma amostra de dimensão 25 é retirada
de cada população sendo as respetivas médias x̄1 = 80 e x̄2 = 60. Se a priori se tiver θ ∼ N (10, 50):

a) Determine a distribuição a posteriori de θ.


b) Calcule os rácios das chances a priori e a posteriori a favor da hipótese H0 : µ1 ≤ µ2 contra
H1 : µ1 > µ2 .

1.2.6 Determine uma reparametrização ψ = g(θ) cuja distribuição a priori de Jeffreys, h(ψ), seja cons-
tante, nos seguintes cenários:

a) X|θ ∼ P oi(θ)
b) X|θ ∼ Ga(α, θ−1 ), α = 1, 2.

Dica: Note-se que h(θ) = h(ψ(θ)) ψ ′ (θ).

1.2.7 Suponha que o seu interesse num dado problema está focado numa função densidade de probabili-
dade expressa por
2x −x2 /θ
f (x|θ) = e , x > 0, θ > 0.
θ
Determine a distribuição a priori de Jeffreys para o parâmetro θ deste modelo.

1.2.8 Seja X uma variável aleatória com função densidade

f (x | θ1 , θ2 ) = (θ2 − θ1 )−1 I(θ1 ,θ2 ) (x), θ1 < 0 < 1 < θ2

em que o par de parâmetros (θ1 , θ2 ) é distribuı́do a priori segundo a função densidade

h(θ1 , θ2 ) = 2(θ2 − θ1 )−3 , θ1 < 0, θ2 > 1.

a) Determine a função densidade marginal de X para 0 < x < 1 e a decorrente densidade a


posteriori de (θ1 , θ2 ).
b) Mostre que se x > 1

h(θ1 , θ2 | x) = 6x2 (θ2 − θ1 )−4 , θ1 < 0, θ2 > x,

e que se x < 0
h(θ1 , θ2 | x) = 6(1 − x)2 (θ2 − θ1 )−4 , θ1 < x, θ2 > 1.

1.2.9 Sejam X1 , . . . , Xn observações i.i.d. do modelo BinomailN egativa(m, θ).

a) Determine a famı́lia conjugada natural deste modelo.


b) Sendo a priori θ ∼ Beta(a, b), mostre que
a + mn
E[θ | {xi }] = Pn
a + b + mn + i=1 xi
e compare com a moda a posteriori de θ.

iv
c) Derive a função de probabilidade preditiva de uma observação futura independente tal que
Y | m, θ ∼ BinomialN egativa(m, θ).

1.2.10 Seja F = f (x | θ) = θ−1 I[0,θ] (x), θ > 1 em que θ está distribuı́do a priori de acordo com a


densidade
h(θ) = θ−2 I(1,+∞) (θ).
Feita uma observação obteve-se X = x1 > 1.

a) Determine o intervalo HPD a 100γ% para θ e diga para que valores de x1 tem maior amplitude
que o respetivo intervalo de credibilidade a priori.
b) Determine a probabilidade preditiva de uma 2a observação de X exceder x1 .
 1

c) Mostre que se x1 < 1 o intervalo HPD a 100γ% tem a forma 1, (1 − γ)− 2 .

1.2.11 Sejam X1 , . . . , Xn os instantes de passagem por um dado semáforo de n veı́culos supostamente


independentes e uniformemente distribuı́dos no intervalo (0, θ), onde θ > 0 é o intervalo de tempo
em que o sinal está aberto. Considere para a distribuição a priori a densidade Pareto de hiperpa-
râmetros c > 0 e b > 0 (P areto(c, b)), i.e., h(θ) = b cb θ−(b+1) I[c,∞) (θ).

a) Mostre que a distribuição a posteriori é a distribuição P areto(C, B), onde C = max(c, x(n) ) e
B = b + n, com x(n) representando o máximo amostral.
b) Com base no modelo em a), determine o número mı́nimo de veı́culos cuja passagem deve obser-
var de modo a que o intervalo HPD para ln θ de amplitude 5% tenha um grau de credibilidade
a posteriori de pelo menos 0.95 quando a mediana a priori de θ é 2c.

1.2.12 Seja X o número de defeitos por metro de uma peça de fazenda modelado segundo uma distribuição
P oi(θ), com o número esperado de defeitos por metro distribuı́do a priori segundo o membro da
famı́lia conjugada natural com valor esperado 1 e variância 1/2. O resultado da inspeção de n
metros de uma peça escolhida aleatoriamente originou para θ a posteriori um valor esperado de
1.5 e uma variância de 0.125.
Deduza o número de metros inspecionados e o correspondente número médio de defeitos por metro.

* EXERCÍCIOS COMPLEMENTARES (Amaral-Turkman et al., 2019): 1.1, 1.2, 1.3, 1.4, 2.1, 2.2,
2.3, 2.4, 3.1, 3.2, 3.3, 3.4, 3.5, 3.6.

SIMULAÇÃO ESTOCÁSTICA (Gentle, 2002; Rizzo, 2019):

1.3.1 Prove que se X é uma variável aleatória com uma função de distribuição absolutamente contı́nua
FX (x), FX (X) tem uma distribuição Uniforme em (0, 1).

1.3.2 Diz-se que uma variável aleatória X tem uma distribuição Logı́stica com os parâmetros µ e σ > 0
se sua função de densidade de probabilidade for
x−µ
e σ
fX (x|µ, σ) = x−µ 2 , −∞ < x < ∞.
σ 1+e σ

Apresente um método de transformação inversa para gerar uma amostra aleatória de tamanho n
para esta distribuição.

1.3.3 Implemente computacionalmente o método apresentado em 1.3.2 para obter uma amostra aleatória
de X quando n = 1000, µ = 0 e σ = 1.

v
1.3.4 Em uma mão de bridge, um ás recebe um valor de 4, um rei 3, uma rainha 2 e um valete 1. Todas
as outras cartas do baralho de 52 cartas recebem um valor de 0. Seja X o valor das cartas com
função de massa de probabilidade.

x 0 1 2 3 4
fX (x) 36/52 4/52 4/52 4/52 4/52

a) Desenvolva um algoritmo para gerar amostras aleatórias dessa distribuição. b) Gere uma amostra
aleatória de tamanho 1000 a partir da distribuição de X. c) Compare as probabilidades empı́ricas
com as teóricas.

1.3.5 Tendo em conta a pergunta anterior, mostre um método para gerar a soma dos valores das cartas
na mão, se um jogador tiver 13 cartas.

1.3.6 Seja X uma variável aleatória com distribuição Logaritmo(θ) i.e. função de massa de probabili-
−1 θx
dade fX (x|θ) = log(1−θ) x , x ≥ 1, 0 < θ < 1. Se U, V forem variáveis aleatórias independentes
 log(V ) 
Uniforme(0,1), então X = 1 + log(1−(1−θ) U) tem a distribuição Logaritmo(θ), onde ⌊x⌋ indica a
parte inteira de x. Com base nessa transformação, forneça um gerador simples e eficiente para essa
distribuição.

1.3.7 Apresente as etapas de um método de amostragem para gerar uma variável aleatória Gama(n, λ)
como a convolução de n variáveis aleatórias exponenciais (λ) independente e identicamente dis-
tribuı́do. Para n = 10, λ = 2, obtenha uma amostra aleatória de tamanho 1000 com base nesse
método de geração e compare as médias e variâncias empı́ricas com as teóricas.

1.3.8 A distribuição Binomial Negativa é uma mistura de distribuições de Poisson (λ), em que λ tem
uma distribuição gama. Especificamente, se X|λ ∼ Poisson(λ) e λ ∼ Gamma(a, b), então X terá
a distribuição Binomial Negativa com parâmetros a e θ = b/(1 + b). Considerando a = 4 e b = 3,
obtenha duas amostras aleatórias de tamanho 1000 para a distribuição Binomial Negativa usando
quer essa distribuição de mistura quer sua função de massa de probabilidade. Compara as duas
amostras através dos histogramas correspondentes.

2. Métodos clássicos de estimação e algoritmos

2.1 (Ross, 2004/2009) Exercı́cios: 9.32, 9.37, 9.44, 9.48.

2.2 (Ross, 2004/2009) Exercı́cios: 7.1, 7.2, 7.3, 7.5, 7.7.

2.3 (Gentle, 2002) Exercı́cios: 1.7, 1.9, (Tanner, 1996) Exemple: pg.66, i.e. ,
2.3.1 Considere a distribuição Multinomial(n, p) para o vetor aleatório X = (X1 , X2 , X3 , X4 ),
P4 P4
dados n e p = (p1 , p2 , p3 , p4 ), com i=1 xi = n e i=1 pi = 1. Suponha que as probabilidades
estejam relacionadas por um único parâmetro θ: p1 = 21 + 14 θ, p2 = p3 = 14 − 14 θ, p4 = 14 θ, onde
0 < θ < 1. Seja n = 197 e x = (125, 18, 20, 34). a) Use o método Newton-Raphson para determinar
a estimação de máxima verosimilhança para θ. b) Compare o método anterior com o método de
scoring de Fisher para estimar θ, escrevendo dois programas e começando com θ(0) = 0.5.
2.3.2 Suponha uma amostra aleatória X1 , . . . , Xn de uma distribuição Gama com os parâmetros α e
β. a) Use o método de Newton-Raphson para determinar a estimativa de máxima verosimilhança de
α e β. Essa possui uma solução em forma fechada? b) Faça um programa para obter uma amostra
do tamanho n relativamente a a) e use-o para calcular a estimativa de α e β com base em uma
amostra artificial do tamanho 500 de uma distribuição Gama(5,2). c) Calcula uma aproximação
da matriz de variância-covariância usando o inverso da matriz de informações de Fisher.

vi
2.4 (Gentle, 2002) Exercı́cio: 1.9, (Tanner, 1996) Exemple: pg.67, i.e. ,
2.4.1 Considere a distribuição Multinomial(n, p) para o vetor aleatório U = (U1 , U2 , U3 , U4 ), dados
P4 P4
n e p = (p1 , p2 , p3 , p4 ), com i=1 ui = n e i=1 pi = 1. Suponha que as probabilidades estejam
relacionadas por um único parâmetro θ: p1 = 12 + 14 θ, p2 = p3 = 41 − 14 θ, p4 = 14 θ, onde 0 < θ < 1.
Seja n = 197 e u = (125, 18, 20, 34). Aumente os dados observados dividindo a primeira célula
em duas células com probabilidades 12 e θ4 . Os dados aumentados são v = (v1 , v2 , v3 , v4 , v5 ) com
v1 +v2 = 125, v3 = 18, v4 = 20, v5 = 34. Sob uma distribuição a priori flat, encontre as distribuições
a posteriori observada e ampliada e escreva um programa para determinar a estimativa de θ pelo
algoritmo EM, começando novamente com θ(0) = 0.5.
2.4.2 Considere um experimento envolvendo dez motoretes testados em cada uma das quatro tem-
peraturas: 150o , 170o , 190o e 220o . Os tempos de falha e censura em horas são apresentados
abaixo, onde uma estrela indica que um motorete foi retirado do estudo sem falhar durante o
tempo indicado. Para esses dados, um modelo de regressão foi ajustado ti = β0 + β1 xi + σϵi , em
que ϵi ∼ N (0, 1), xi = 1000/(temperatura + 273, 2) e ti = logl0 (com o tempo de falha). Reordene
os dados para que as m primeiras observações sejam não censuradas (ou seja, uma falha seja ob-
servada em ti ) e os restantes n−m sejam censurados (ci indica o tempo censurado). Observe que
a distribuição condicional f (vi |β0 , β1 , σ 2 , ci ) é a distribuição normal condicional, condicionada ao
tempo de falha não observado Vi é maior que ci . Encontre as funções de verosimilhança aumentada
e observada e escreva um programa para determinar a estimativa de β0 , β1 , σ 2 pelo algoritmo EM.

150o 8064* 8064* 8064* 8064* 8064* 8064* 8064* 8064* 8064* 8064*
170o 1764 2772 3444 3542 3780 4860 5196 5448* 5448* 5448*
190o 408 408 1344 1344 1440 1680* 1680* 1680* 1680* 1680*
220o 408 408 504 504 504 528* 528* 528* 528* 528*

Dica: E(ϵi |ϵi > ri ) = ϕ(ri )/(1 − Φ(ri )) e E(ϵ2i |ϵi > ri ) = (ri ϕ(ri ) − (1 − Φ(ri )))/(1 − Φ(ri )), onde
ri = ci −µ
σ , e ϕ(·) e Φ(·) são f.d.p. e f.d.c. da N (0, 1), respetivamente.
i

2.5 (Gentle, 2002) Exercı́cios: 1.9, (Tanner, 1996) Exemple: pg.66, i.e. ,
2.5.1 Considere a distribuição Multinomial(n, p) para o vetor aleatório U = (U1 , U2 , U3 , U4 ), dados
P4 P4
n e p = (p1 , p2 , p3 , p4 ), com i=1 ui = n e i=1 pi = 1. Suponha que as probabilidades estejam
relacionadas por um único parâmetro θ: p1 = 21 + 14 θ, p2 = p3 = 41 − 14 θ, p4 = 14 θ, onde 0 < θ < 1.
Seja n = 197 e u = (125, 18, 20, 34). Aumente os dados observados dividindo a primeira célula
em duas células com probabilidades 12 e θ4 . Os dados aumentados são v = (v1 , v2 , v3 , v4 , v5 ) com
v1 + v2 = 125, v3 = 18, v4 = 20, v5 = 34. Sob uma distribuição a priori flat, escreva um programa
para determinar a estimativa de θ pelo algoritmo de ampliação de dados, começando novamente
com θ(0) = 0.5.
2.5.2 Com base no programa elaborado no exercı́cio anterior, determine a estimativa de θ para
n = 20 e u = (14, 0, 1, 5). Comment the results.

4. Métodos de Monte Carlo

4.1 (Paulino et al. , 2018) Exercı́cio: 7.7, (Rizzo, 2019) Exercı́cios: 5.1, 5.3, 5.4, 5.11, i.e. ,

4.1.1 Calcule uma estimativa de Monte Carlo de 02 cos x dx e compare sua estimativa com o valor
exato da integral.
R 0.5
4.1.2 Calcule uma estimativa de Monte Carlo Jˆ de J = 0 e−x dx amostrando a partir de Uni-
forme(0,0,5) e calcule a variância de Jˆ. Encontre outro estimador de Monte Carlo J˜ por amostra-
gem da distribuição exponencial. Qual das variâncias (de Jˆ e J˜) é menor? Por quê?

vii
4.1.3 Escreva um código para calcular uma estimativa de Monte Carlo da função de distribuição
cumulativa Beta(3,3), F (x). Use o código para estimar F (x) para x = 0, 1, 0, 2, . . . , 0, 9. Compare
as estimativas com os valores retornados pela função pbeta em R.
4.1.4 Se θb1 e θb2 são estimadores não enviesados (centrados) de θ e θb1 e θb2 são variáveis antitéticas
e identicamente distribuı́das, mostre que c∗ = 1/2 é a constante ideal que minimiza a variância de
θbc = c θb1 + (1 − c) θb2 .
ind iid
4.1.5 Considere-se o modelo Xi , i = 1, . . . , n ∼ Bi(m, θi ) com {θi } ∼ Be(α, β), sendo ambas as
distribuições encaradas como condicionais aos seus (hiper)parâmetros. Admita-se que os hiperpa-
râmetros da distribuição a priori dos θi possuem por sua vez uma distribuição a priori correspon-
dente às distribuições Uniformes independentes para λ = α/(α + β) (própria) e δ = (α + β)−1/2
(imprópria).

a) Mostre que a distribuição a posteriori conjunta dos θi é uma mistura de

θi | α, β, i = 1, . . . , n ∼ Be(α + xi , β + m − xi )
ind

pela distribuição a posteriori de (α, β) definida a menos da constante de proporcionalidade


por
n
Y Be(α + xi , β + m − xi )
h(α, β | x) ∝ (α + β)−5/2 .
i=1
Be(α, β)

b) Indique como pode obter uma aproximação Monte Carlo da distribuição a posteriori conjunta
e da estimativa Bayes usual dos θi .

4.2 (Paulino et al. , 2018) Exercı́cios: 7.9, (Rizzo, 2019) Exercı́cios: 5.14, i.e. ,
R∞ 2 2
4.2.1 Obtenha uma estimativa de Monte Carlo de 1 √x2 π e−x /2 dx por amostragem por impor-
tância.

4.2.2 Suponha-se que a distribuição conjunta a posteriori de θ = θ(m) , θ(−m) , para algum m =
1, . . . , k−1 fixo, é apenas conhecida pelo seu núcleo, i.e. h̄ (θ | x) = L (θ | x) h (θ), mas a distribuição

condicional h θ(m) | θ(−m) , x é completamente conhecida, contrariamente à distribuição marginal

de θ(−m) que é desconhecida. Sendo p θ(−m) uma densidade de importância apropriada para
 (−m)
h θ(−m) | x da qual se geram independentemente os valores θ(i) , 1 ≤ i ≤ n, com base nos quais
 
(m) (−m)
se obtêm os valores θ(i) por simulação de h θ(m) | θ(i) , x :

a) Indique o que estima a seguinte quantidade


n   Xn
(−m)
X
wi h θ(m) | θ(i) / wi
i=1 i=1

onde  
(m) (−m)
h̄ θ(i) , θ(i) | x
wi =     , i = 1, . . . , n.
(m) (−m) (−m)
h θ(i) | θ(i) , x p θ(i)
(−m)
b) Considerando a distribuição discreta definida pelos valores θ(i) , previamente simulados,
Pn
acoplados às massas pi = wi / i=1 wi , da qual se gera l valores (reamostragem) denotados
(−m)
por θ(j)∗ , mostre que a estimativa de Monte Carlo com amostragem de importância de

h θ(m) | x pode ser expressa por
  1X l  
(−m)
ĥ θ(m) | x = h θ(m) | θ(j)∗ , x .
l j=1

viii
4.3 (Paulino et al. , 2018) Exercı́cios: 7.13, 7.15, (Rizzo, 2019) Exercı́cios: 3.7, i.e. ,
4.3.1 Escreva um código para gerar uma amostra aleatória de tamanho n da distribuição Beta
(a, b) pelo método de aceitação-rejeição. Gere uma amostra aleatória do tamanho 1000 da distri-
buição Beta(3, 2). Faça um gráfico do histograma da amostra com a densidade Beta(3, 2) teórica
sobreposta.
4.3.2 No quadro do método de rejeição, seja Y ∼ p(·) e W = U M p(Y ) em que U ∼ U nif ([0, 1])
independente de Y . Mostre que:

a) (Y, W ) ∼ U nif (B) em que B = {(y, w) : 0 ≤ w ≤ M p(y)}.


[Dica: Determine a distribuição condicional W |Y = y.]
b) A distribuição de Y em caso de aceitação é a de X ∼ π, detalhando todos os cálculos.
c) Este método pode ser visto como o de uma amostragem Uniforme na região bidimensional
sob a curva M p(y) seguida de descarte dos pontos que caiam acima de π(y).

4.3.3 Considerando as funções densidade de probabilidade explicitadas abaixo, mostre que:

a) são log-côncavas as seguintes:


1 (x−µ) 2
ˆ X ∼ N (µ, σ 2 ): f (x|µ, σ) = √1 e− 2 σ2 I(−∞,+∞) (x)
σ 2π
Γ(α+β) α−1
ˆ X ∼ Beta(α, β): f (x|α, β) = Γ(α)Γ(β) x (1 − x)β−1 I(0,1) (x)
exp(− x−µ
σ )
ˆ X ∼ Logistica(µ, σ): f (x|µ, σ) = σ[1+exp(− x−µ 2
I(−∞,+∞) (x)
σ )]

b) Não são log-côncavas as seguintes:


ˆ X ∼ Cauchy(λ, δ): f (x|λ, δ) = δ
π{δ 2 +(x−λ)2 } I(−∞,+∞) (x)
(ln x−µ) 2
− 12
ˆ X ∼ LN (µ, σ 2 ): f (x|µ, σ 2 ) = 1

xσ 2π
e σ2 I(0,+∞) (x).

5. Métodos de Monte Carlo via cadeias de Markov

5.1 (Paulino et al. , 2018) Exercı́cios: 9.1, 9.2 (Rizzo, 2019) Exercı́cios: 9.1, i.e. ,
5.1.1 Numa cadeia de Markov {Un , n ≥ 0} com espaço de estados discreto e função de transição
p(·, ·), mostre que:

a) A distribuição inicial π0 é estacionária se e somente se P (Un = u) = π0 (u), ∀n ≥ 1.


b) Se a função de transição em n passos convergir para a distribuição π e π é estacionária, então
a distribuição-limite de Un coincide com π, independentemente da distribuição inicial.
c) A reversibilidade equivale à denominada condição detalhada de equilı́brio na hipótese de a
distribuição π ser estacionária.

5.1.2 Construa o algoritmo Metropolis-Hastings para gerar uma amostra de uma distribuição
2 2
Rayleigh(σ), cuja densidade é f (x) = σx2 e−x /(2σ ) , x ≥ 0, σ > 0. Para a distribuição propo-
nente, tente a distribuição Qui-quadrado com graus de liberdade Ut ≡ Xt . Compare o desempenho
do amostrador Metropolis-Hastings para as distribuições Rayleigh(σ = 4) e Rayleigh(σ = 2). Em
particular, que diferenças são óbvias no gráfico da amostra (tamanho 10000) versus o ı́ndice de
tempo nos dois cenários?
5.1.3 Considerando uma cadeia gerada pelo algoritmo de Metropolis-Hastings, mostre que:

ix
a) A respetiva função de transição é dada por
Z
P (u, A) = q(u, v)α(u, v)dv + r(u) IA (u),
A

e deduza dela a expressão da correspondente densidade p(u, v).


b) A condição detalhada de equilı́brio é por ela satisfeita.

5.2 (Paulino et al. , 2018) Exercı́cios: 9.5, 9.6, 9.7, 9.8, 9.9, 9.13, (Rizzo, 2019) Exercı́cios: 9.8, i.e. ,
5.2.1 Considere a densidade bivariada f (x, y) ∝ nx y x+a−1 (1 − y)n−x+b−1 , x = 0, 1, . . . , n, 0 ≤ y ≤


1. Para a, b e n fixos, construa o algorı́tmo Gibbs para gerar uma cadeia com densidade de junta
alvo f (x, y).
5.2.2 Considere o modelo autoexponencial bivariado

π(u1 , u2 ) ∝ exp[−α(u1 + u2 ) − βu1 u2 ], u1 , u2 > 0, α, β > 0.

a) Identifique as distribuições condicionais completas associadas com o algoritmo Gibbs para


amostragem de π(u1 , u2 ).
b) Considerando cada ciclo do amostrador de Gibbs como um algoritmo de Metropolis-Hastings,
mostre que o rácio M-H é dado, para u = (u1 , u2 ) e v = (v1 , v2 ), por

(α + βv2 )(α + βu1 )


R(u, v) = exp[β(u2 v1 − v2 u1 )].
(α + βu2 )(α + βv1 )

c) Mostre que o rácio em b) pode ser inferior a 1 para infinitos valores de (u, v).
[Dica: Considere α = β = 1 (e.g. ) e (u, v) tal que v2 /v1 = u2 /u1 .]

5.2.3 Considere o espaço definido pelo produto cartesiano {0, 1} × {0, 1} equipado com distribuição
de probabilidade (π00 , π01 , π10 , π11 ) = (1/2, 1/4, 1/8, 1/8). Verifique que o procedimento Gibbs
não satisfaz a condição de equilı́brio detalhada, mostrando que π00 q00,11 ̸= π11 q11,00 , onde q00,11 e
q11,00 são as entradas da matriz Q quando se começa a amostrar da 1a componente e depois da 2a
componente, através das distribuições condicionais completas.
5.2.4 Sejam (xi , yi ), i = 1, . . . , n dados de um par de variáveis para os quais se admite o modelo de
regressão linear {Yi } ∼ N (β0 + β1 xi , σ 2 ). Pretende-se inferir sobre β = (β0 , β1 ) ∈ IR2 e σ 2 > 0,
ind
partindo da distribuição a priori não informativa usual h(β, σ 2 ) ∝ σ −2 e usando um método MCMC
para amostragem da distribuição a posteriori.

a) Mostre que o amostrador de Gibbs só precisa de recorrer a métodos de simulação direta,
especificando as distribuições condicionais completas univariadas.
b) Diga se o uso de uma distribuição a priori informativa do género de β|σ 2 ∼ N2 (b0 , σ 2 V0 ) ∧
σ 2 ∼ GaI(c0 , d0 ), com hiperparâmetros fixados, inviabiliza o processo de simulação referido
em a).

5.2.5 Num estudo para implantação de turbinas eólicas numa dada zona, mediu-se a velocidade X
do vento (em m/s) a uma dada altura ao longo de várias ocasiões, obtendo-se os dados x = (xi , i =
1, . . . , n). O modelo que costuma ser utilizado para descrever a variação de X é o modelo Weibull
com parâmetros de escala e de forma denotados por δ e α, respetivamente, cuja função densidade
de probabilidade é expressa por
α
f (x|δ, α) = δαxα−1 e−δx I(0,∞) (x), δ, α > 0.

x
Admita-se que a priori δ e α são independentes com distribuições Gama, Ga(a, b), e Log-normal,
LN (c, d), de hiperparâmetros completamente especificados, com a, b, d > 0 e c ∈ IR.
Supondo que os dados são uma concretização de uma amostra aleatória desse modelo, especifique
as densidades condicionais completas e discuta como se pode amostrar delas em cada ciclo do
algoritmo Gibbs.
5.2.6 Seja D = {(y1 , x1 ), . . . , (yn , xn )} uma concretização de uma amostra aleatória do modelo
Poisson-Normal caraterizado por Y |X ∼ P oi(ηδ X ) e X ∼ N (µ, τ −1 ). Considere-se para θ =
(η, δ, µ, τ ) a distribuição a priori não informativa, dada por h(η, δ, µ, τ ) ∝ (ηδτ )−1 .

a) Especifique a distribuição a posteriori de θ, explicitando os passos do amostrador de Gibbs.


b) Introduzindo a parametrização η = eβ0 , δ = eβ1 , derive as distribuições condicionais completas
de ϕ = (β0 , β1 , µ, τ ) e comente de que modo se pode fazer a amostragem Gibbs.

5.2.7 Considere que se dispõem de observações yij do modelo

Yij = µi + ϵij , i = 1, . . . , k, j = 1, . . . , m,

onde os ϵij são i.i.d. N (0, σϵ2 ), os µi são i.i.d. N (µ, σµ2 ), e que os ϵij e os µi são independentes.
Suponha ainda que os parâmetros σϵ , σµ e µ são independentes com as seguintes distribuições:
σϵ2 ∼ GaI(a1 , b1 ); σµ2 ∼ GaI(a2 , b2 ); µ ∼ N (µ0 , σ02 ). Descreva o amostrador Gibbs e obtenha
formas explı́citas para as seguintes distribuições:

a) µ dado {yij }, {µi }, σϵ2 e σµ2 ;


b) µi dado {yij }, µ, σϵ2 e σµ2 ;
c) σϵ2 dado {yij }, {µi }, µ e σµ2 ;
d) σµ2 dado {yij }, {µi }, µ e σϵ2 .

xi
Soluções dos exercı́cios propostos

1.1 Procure-os em Ross (2004/2009).

1.2 Procure-os em Amaral-Turkman et al. (2019). Alternativamente,


1.2.1 h(θ|x = 2) = 0.1868, 0.3724, 0.2329, 0.1629, 0.0450 para θ = 0.10, 0.15, 0.20, 0.25, 0.30, respe-
tivamente.
1.2.2 a) P (O) = 0.6321; P (A) = 0.2326; P (B) = 0.0855; P (AB) = 0.0498. b) P (O|x = 4) =
P (A|x = 4) = P (B|x = 4) = P (AB|x = 4) = 0.25.
1.2.3 a = E(θ) = 50, b2 = V ar(θ) = 100/6.
1.2.4 a) Gama(20, 6). b) IC central a 90%: (2.2091,4.6465), IC HPD a 90%: (2.1129,4.5232), IC
central a 95%: (2.0361,4.9451), IC HPD a 95%: (1.9431,4.8199). c) 14.58.
1.2.5 a) N (18.6207, 6.896). b) √O(H1 , H0 ) = 11.71, O(H1 , H0 |x1 − x2 ) = 1.5 × 1012 .

1.2.6 a) ψ = θ. b) ψ = ln 1− √1−θ . c) ψ = ln θ.
1+ 1−θ
1.2.7 h(θ) ∝ [I(θ)]1/2 = θ1 .

1.2.8 a) h(θ) ∝ 1/ θ, θ > 0.
1.2.9
a+mn−1
1.2.10 a) Famı́lia Beta. b) E(θ|{xi }) > Mo (θ|{xi }) = a+b+mn+ Pn
xi −2
para a + mn > 1,
i=1
Pn B(A+m,B+y) P
a+b+mn+ i=1 xi > 1. c) p(y|{xi }) = (m+y)B(m,y+1)B(A,B) , A = a + mn, B = b + i xi .
h p i
1.2.11 a) IC HPD a 100γ%: x1 , x1 (1 − γ)−1 . b) 1/3.
1.2.12 n = 59.
1.2.13 n = 10, x̄ = 1.6.

1.3 (Gentle, 2002), (Rizzo, 2019)

2.1 Procure-os em Ross (2004/2009).

2.2 Procure-os em Ross (2004/2009).

b2 = 0.067184.
2.4 2.4.2 βb0 = −6.019, βb1 = 4.311, σ

4.2 4.2.2 a) A densidade marginal a posteriori de θ(m) , avaliada em cada ponto fixado. b) Aplicar o
método SIR.

4.3 4.3.2 b) Calcular a função de distribuição de Y condicional a U ≤ π(Y )/[M p(Y )]. c) Ter em conta
a) e b).
4.3.3 Ter em atenção eventuais restrições no espaço paramétrico.

5.2 5.2.2 a) πi (ui |uj ) ∼ Exp(α + β uj ), i, j = 1, 2, i ̸= j. b) Ter em conta que a função de transição de
u = (u1 , u2 ) para v = (v1 , v2 ) em cada ciclo é p(u, v) = π1 (v1 |u2 )π2 (v2 |v1 ).
5.2.3 Notar que as entradas q(u, v) de Q são tais que

1/10, u = (0, 0) e v = (1, 1),
q(u, v) =
2/9, u = (1, 1) e v = (0, 0).

xii
5.2.4 a) β0 |β1 , σ 2 , y ∼ N (βb0 − x̄(β1 − βb1 ), σ 2 /n), β1 |β0 , σ 2 , y ∼ N (βb1 − Pn x̄x2 (β0 − βb0 ), σ 2 /( i x2i )),
P
i i
2 b′ ′
σ |β, y ∼ GaI( n2 , (n−2) s +(β−2β ) X X(β−β ) ). b) Resposta negativa.
2 b
5.2.5 a) δ|α, x ∼ Ga(a + n, b + i xi ), h(α|δ, x) ∝ αn−1 ( i xi )α exp{− 21dP
P α
(ln α − c)2 − δ i xα
Q P
i }.
P P xi xi yi −1 P xi
5.2.6 a) η|δ, µ, τ, D ∼ Ga( i yi , i δ ), D = {(yP i , xi )}; h(δ|η, µ, τ, D) ∝ δ i exp(−η i δ );
2 2
(x i −x̄) +n(µ−x̄)
µ|η, δ, τ, D ∼ N (x̄, (n τ )−1 ); τ |η, δ, µ, D ∼ Ga( n2 , i 2 ).
k 1
2 2 µ̄+ µ
σ0 σµ σ2 σ2
5.2.7 a) µ|{yij }, {µi }, σϵ2 , σµ2 ∼ N (c, σ2 +k ), c = µk + 10 , µ̄ = k1 i µi . b) {µi }|{yij }, µ, σϵ2 , σµ2 ∼
P
µ σ02 2 2 ind.
σµ σ
0
1 m
µ+
2 ȳi·
σϵ2 σµ
2 2
σµ σϵ mk 1
. c) σϵ2 |{yij }, µ, {µi }, σµ2 ∼ GaI(a1 + − µi )2 ).
P
N (Ai , σ2 +m 2 ),
σµ Ai = 1
+ m 2 , b1 + 2 i,j (yij
ϵ 2
σµ 2
σϵ

d) σµ2 |{yij }, µ, {µi }, σϵ2 ∼ GaI(a2 + k2 , b2 + 12 i (µi − µ)2 ).


P

xiii
Tabelas
 
Px n
Tabela T1: Função de distribuição Binomial FX (x) = k=0 k
pk (1 − p)n−k
n x\p 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

1 0 0.9900 0.9800 0.9700 0.9600 0.9500 0.9400 0.9300 0.9200 0.9100 0.9000 0.8500 0.8000 0.7500 0.7000 0.6500 0.6000 0.5500 0.5000
1 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

2 0 0.9801 0.9604 0.9409 0.9216 0.9025 0.8836 0.8649 0.8464 0.8281 0.8100 0.7225 0.6400 0.5625 0.4900 0.4225 0.3600 0.3025 0.2500
1 0.9999 0.9996 0.9991 0.9984 0.9975 0.9964 0.9951 0.9936 0.9919 0.9900 0.9775 0.9600 0.9375 0.9100 0.8775 0.8400 0.7975 0.7500
2 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

3 0 0.9703 0.9412 0.9127 0.8847 0.8574 0.8306 0.8044 0.7787 0.7536 0.7290 0.6141 0.5120 0.4219 0.3430 0.2746 0.2160 0.1664 0.1250
1 0.9997 0.9988 0.9974 0.9953 0.9928 0.9896 0.9860 0.9818 0.9772 0.9720 0.9393 0.8960 0.8438 0.7840 0.7183 0.6480 0.5748 0.5000
2 1.0000 1.0000 1.0000 0.9999 0.9999 0.9998 0.9997 0.9995 0.9993 0.9990 0.9966 0.9920 0.9844 0.9730 0.9571 0.9360 0.9089 0.8750
3 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

4 0 0.9606 0.9224 0.8853 0.8493 0.8145 0.7807 0.7481 0.7164 0.6857 0.6561 0.5220 0.4096 0.3164 0.2401 0.1785 0.1296 0.0915 0.0625
1 0.9994 0.9977 0.9948 0.9909 0.9860 0.9801 0.9733 0.9656 0.9570 0.9477 0.8905 0.8192 0.7383 0.6517 0.5630 0.4752 0.3910 0.3125
2 1.0000 1.0000 0.9999 0.9998 0.9995 0.9992 0.9987 0.9981 0.9973 0.9963 0.9880 0.9728 0.9492 0.9163 0.8735 0.8208 0.7585 0.6875
3 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.9999 0.9999 0.9995 0.9984 0.9961 0.9919 0.9850 0.9744 0.9590 0.9375
4 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

5 0 0.9510 0.9039 0.8587 0.8154 0.7738 0.7339 0.6957 0.6591 0.6240 0.5905 0.4437 0.3277 0.2373 0.1681 0.1160 0.0778 0.0503 0.0313
1 0.9990 0.9962 0.9915 0.9852 0.9774 0.9681 0.9575 0.9456 0.9326 0.9185 0.8352 0.7373 0.6328 0.5282 0.4284 0.3370 0.2562 0.1875
2 1.0000 0.9999 0.9997 0.9994 0.9988 0.9980 0.9969 0.9955 0.9937 0.9914 0.9734 0.9421 0.8965 0.8369 0.7648 0.6826 0.5931 0.5000
3 1.0000 1.0000 1.0000 1.0000 0.9999 0.9999 0.9998 0.9997 0.9995 0.9978 0.9933 0.9844 0.9692 0.9460 0.9130 0.8688 0.8125
4 1.0000 1.0000 1.0000 1.0000 1.0000 0.9999 0.9997 0.9990 0.9976 0.9947 0.9898 0.9815 0.9688
5 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

6 0 0.9415 0.8858 0.8330 0.7828 0.7351 0.6899 0.6470 0.6064 0.5679 0.5314 0.3771 0.2621 0.1780 0.1176 0.0754 0.0467 0.0277 0.0156
1 0.9985 0.9943 0.9875 0.9784 0.9672 0.9541 0.9392 0.9227 0.9048 0.8857 0.7765 0.6554 0.5339 0.4202 0.3191 0.2333 0.1636 0.1094
2 1.0000 0.9998 0.9995 0.9988 0.9978 0.9962 0.9942 0.9915 0.9882 0.9842 0.9527 0.9011 0.8306 0.7443 0.6471 0.5443 0.4415 0.3438
3 1.0000 1.0000 1.0000 0.9999 0.9998 0.9997 0.9995 0.9992 0.9987 0.9941 0.9830 0.9624 0.9295 0.8826 0.8208 0.7447 0.6563
4 1.0000 1.0000 1.0000 1.0000 1.0000 0.9999 0.9996 0.9984 0.9954 0.9891 0.9777 0.9590 0.9308 0.8906
5 1.0000 1.0000 0.9999 0.9998 0.9993 0.9982 0.9959 0.9917 0.9844
6 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

7 0 0.9321 0.8681 0.8080 0.7514 0.6983 0.6485 0.6017 0.5578 0.5168 0.4783 0.3206 0.2097 0.1335 0.0824 0.0490 0.0280 0.0152 0.0078
1 0.9980 0.9921 0.9829 0.9706 0.9556 0.9382 0.9187 0.8974 0.8745 0.8503 0.7166 0.5767 0.4449 0.3294 0.2338 0.1586 0.1024 0.0625
2 1.0000 0.9997 0.9991 0.9980 0.9962 0.9937 0.9903 0.9860 0.9807 0.9743 0.9262 0.8520 0.7564 0.6471 0.5323 0.4199 0.3164 0.2266
3 1.0000 1.0000 0.9999 0.9998 0.9996 0.9993 0.9988 0.9982 0.9973 0.9879 0.9667 0.9294 0.8740 0.8002 0.7102 0.6083 0.5000
4 1.0000 1.0000 1.0000 1.0000 0.9999 0.9999 0.9998 0.9988 0.9953 0.9871 0.9712 0.9444 0.9037 0.8471 0.7734
5 1.0000 1.0000 1.0000 0.9999 0.9996 0.9987 0.9962 0.9910 0.9812 0.9643 0.9375
6 1.0000 1.0000 0.9999 0.9998 0.9994 0.9984 0.9963 0.9922
7 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

8 0 0.9227 0.8508 0.7837 0.7214 0.6634 0.6096 0.5596 0.5132 0.4703 0.4305 0.2725 0.1678 0.1001 0.0576 0.0319 0.0168 0.0084 0.0039
1 0.9973 0.9897 0.9777 0.9619 0.9428 0.9208 0.8965 0.8702 0.8423 0.8131 0.6572 0.5033 0.3671 0.2553 0.1691 0.1064 0.0632 0.0352
2 0.9999 0.9996 0.9987 0.9969 0.9942 0.9904 0.9853 0.9789 0.9711 0.9619 0.8948 0.7969 0.6785 0.5518 0.4278 0.3154 0.2201 0.1445
3 1.0000 1.0000 0.9999 0.9998 0.9996 0.9993 0.9987 0.9978 0.9966 0.9950 0.9786 0.9437 0.8862 0.8059 0.7064 0.5941 0.4770 0.3633
4 1.0000 1.0000 1.0000 1.0000 0.9999 0.9999 0.9997 0.9996 0.9971 0.9896 0.9727 0.9420 0.8939 0.8263 0.7396 0.6367
5 1.0000 1.0000 1.0000 1.0000 0.9998 0.9988 0.9958 0.9887 0.9747 0.9502 0.9115 0.8555
6 1.0000 0.9999 0.9996 0.9987 0.9964 0.9915 0.9819 0.9648
7 1.0000 1.0000 0.9999 0.9998 0.9993 0.9983 0.9961
8 1.0000 1.0000 1.0000 1.0000 1.0000

9 0 0.9135 0.8337 0.7602 0.6925 0.6302 0.5730 0.5204 0.4722 0.4279 0.3874 0.2316 0.1342 0.0751 0.0404 0.0207 0.0101 0.0046 0.0020
1 0.9966 0.9869 0.9718 0.9522 0.9288 0.9022 0.8729 0.8417 0.8088 0.7748 0.5995 0.4362 0.3003 0.1960 0.1211 0.0705 0.0385 0.0195
2 0.9999 0.9994 0.9980 0.9955 0.9916 0.9862 0.9791 0.9702 0.9595 0.9470 0.8591 0.7382 0.6007 0.4628 0.3373 0.2318 0.1495 0.0898
3 1.0000 1.0000 0.9999 0.9997 0.9994 0.9987 0.9977 0.9963 0.9943 0.9917 0.9661 0.9144 0.8343 0.7297 0.6089 0.4826 0.3614 0.2539
4 1.0000 1.0000 1.0000 0.9999 0.9998 0.9997 0.9995 0.9991 0.9944 0.9804 0.9511 0.9012 0.8283 0.7334 0.6214 0.5000
5 1.0000 1.0000 1.0000 1.0000 0.9999 0.9994 0.9969 0.9900 0.9747 0.9464 0.9006 0.8342 0.7461
6 1.0000 1.0000 0.9997 0.9987 0.9957 0.9888 0.9750 0.9502 0.9102
7 1.0000 0.9999 0.9996 0.9986 0.9962 0.9909 0.9805
8 1.0000 1.0000 0.9999 0.9997 0.9992 0.9980
9 1.0000 1.0000 1.0000 1.0000

xiv
n x\p 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

10 0 0.9044 0.8171 0.7374 0.6648 0.5987 0.5386 0.4840 0.4344 0.3894 0.3487 0.1969 0.1074 0.0563 0.0282 0.0135 0.0060 0.0025 0.0010
1 0.9957 0.9838 0.9655 0.9418 0.9139 0.8824 0.8483 0.8121 0.7746 0.7361 0.5443 0.3758 0.2440 0.1493 0.0860 0.0464 0.0233 0.0107
2 0.9999 0.9991 0.9972 0.9938 0.9885 0.9812 0.9717 0.9599 0.9460 0.9298 0.8202 0.6778 0.5256 0.3828 0.2616 0.1673 0.0996 0.0547
3 1.0000 1.0000 0.9999 0.9996 0.9990 0.9980 0.9964 0.9942 0.9912 0.9872 0.9500 0.8791 0.7759 0.6496 0.5138 0.3823 0.2660 0.1719
4 1.0000 1.0000 0.9999 0.9998 0.9997 0.9994 0.9990 0.9984 0.9901 0.9672 0.9219 0.8497 0.7515 0.6331 0.5044 0.3770
5 1.0000 1.0000 1.0000 1.0000 0.9999 0.9999 0.9986 0.9936 0.9803 0.9527 0.9051 0.8338 0.7384 0.6230
6 1.0000 1.0000 0.9999 0.9991 0.9965 0.9894 0.9740 0.9452 0.8980 0.8281
7 1.0000 0.9999 0.9996 0.9984 0.9952 0.9877 0.9726 0.9453
8 1.0000 1.0000 0.9999 0.9995 0.9983 0.9955 0.9893
9 1.0000 1.0000 0.9999 0.9997 0.9990
10 1.0000 1.0000 1.0000

11 0 0.8953 0.8007 0.7153 0.6382 0.5688 0.5063 0.4501 0.3996 0.3544 0.3138 0.1673 0.0859 0.0422 0.0198 0.0088 0.0036 0.0014 0.0005
1 0.9948 0.9805 0.9587 0.9308 0.8981 0.8618 0.8228 0.7819 0.7399 0.6974 0.4922 0.3221 0.1971 0.1130 0.0606 0.0302 0.0139 0.0059
2 0.9998 0.9988 0.9963 0.9917 0.9848 0.9752 0.9630 0.9481 0.9305 0.9104 0.7788 0.6174 0.4552 0.3127 0.2001 0.1189 0.0652 0.0327
3 1.0000 1.0000 0.9998 0.9993 0.9984 0.9970 0.9947 0.9915 0.9871 0.9815 0.9306 0.8389 0.7133 0.5696 0.4256 0.2963 0.1911 0.1133
4 1.0000 1.0000 0.9999 0.9997 0.9995 0.9990 0.9983 0.9972 0.9841 0.9496 0.8854 0.7897 0.6683 0.5328 0.3971 0.2744
5 1.0000 1.0000 1.0000 0.9999 0.9998 0.9997 0.9973 0.9883 0.9657 0.9218 0.8513 0.7535 0.6331 0.5000
6 1.0000 1.0000 1.0000 0.9997 0.9980 0.9924 0.9784 0.9499 0.9006 0.8262 0.7256
7 1.0000 0.9998 0.9988 0.9957 0.9878 0.9707 0.9390 0.8867
8 1.0000 0.9999 0.9994 0.9980 0.9941 0.9852 0.9673
9 1.0000 1.0000 0.9998 0.9993 0.9978 0.9941
10 1.0000 1.0000 0.9998 0.9995
11 1.0000 1.0000

12 0 0.8864 0.7847 0.6938 0.6127 0.5404 0.4759 0.4186 0.3677 0.3225 0.2824 0.1422 0.0687 0.0317 0.0138 0.0057 0.0022 0.0008 0.0002
1 0.9938 0.9769 0.9514 0.9191 0.8816 0.8405 0.7967 0.7513 0.7052 0.6590 0.4435 0.2749 0.1584 0.0850 0.0424 0.0196 0.0083 0.0032
2 0.9998 0.9985 0.9952 0.9893 0.9804 0.9684 0.9532 0.9348 0.9134 0.8891 0.7358 0.5583 0.3907 0.2528 0.1513 0.0834 0.0421 0.0193
3 1.0000 0.9999 0.9997 0.9990 0.9978 0.9957 0.9925 0.9880 0.9820 0.9744 0.9078 0.7946 0.6488 0.4925 0.3467 0.2253 0.1345 0.0730
4 1.0000 1.0000 0.9999 0.9998 0.9996 0.9991 0.9984 0.9973 0.9957 0.9761 0.9274 0.8424 0.7237 0.5833 0.4382 0.3044 0.1938
5 1.0000 1.0000 1.0000 0.9999 0.9998 0.9997 0.9995 0.9954 0.9806 0.9456 0.8822 0.7873 0.6652 0.5269 0.3872
6 1.0000 1.0000 1.0000 0.9999 0.9993 0.9961 0.9857 0.9614 0.9154 0.8418 0.7393 0.6128
7 1.0000 0.9999 0.9994 0.9972 0.9905 0.9745 0.9427 0.8883 0.8062
8 1.0000 0.9999 0.9996 0.9983 0.9944 0.9847 0.9644 0.9270
9 1.0000 1.0000 0.9998 0.9992 0.9972 0.9921 0.9807
10 1.0000 0.9999 0.9997 0.9989 0.9968
11 1.0000 1.0000 0.9999 0.9998
12 1.0000 1.0000

13 0 0.8775 0.7690 0.6730 0.5882 0.5133 0.4474 0.3893 0.3383 0.2935 0.2542 0.1209 0.0550 0.0238 0.0097 0.0037 0.0013 0.0004 0.0001
1 0.9928 0.9730 0.9436 0.9068 0.8646 0.8186 0.7702 0.7206 0.6707 0.6213 0.3983 0.2336 0.1267 0.0637 0.0296 0.0126 0.0049 0.0017
2 0.9997 0.9980 0.9938 0.9865 0.9755 0.9608 0.9422 0.9201 0.8946 0.8661 0.6920 0.5017 0.3326 0.2025 0.1132 0.0579 0.0269 0.0112
3 1.0000 0.9999 0.9995 0.9986 0.9969 0.9940 0.9897 0.9837 0.9758 0.9658 0.8820 0.7473 0.5843 0.4206 0.2783 0.1686 0.0929 0.0461
4 1.0000 1.0000 0.9999 0.9997 0.9993 0.9987 0.9976 0.9959 0.9935 0.9658 0.9009 0.7940 0.6543 0.5005 0.3530 0.2279 0.1334
5 1.0000 1.0000 0.9999 0.9999 0.9997 0.9995 0.9991 0.9925 0.9700 0.9198 0.8346 0.7159 0.5744 0.4268 0.2905
6 1.0000 1.0000 1.0000 0.9999 0.9999 0.9987 0.9930 0.9757 0.9376 0.8705 0.7712 0.6437 0.5000
7 1.0000 1.0000 0.9998 0.9988 0.9944 0.9818 0.9538 0.9023 0.8212 0.7095
8 1.0000 0.9998 0.9990 0.9960 0.9874 0.9679 0.9302 0.8666
9 1.0000 0.9999 0.9993 0.9975 0.9922 0.9797 0.9539
10 1.0000 0.9999 0.9997 0.9987 0.9959 0.9888
11 1.0000 1.0000 0.9999 0.9995 0.9983
12 1.0000 1.0000 0.9999
13 1.0000

14 0 0.8687 0.7536 0.6528 0.5647 0.4877 0.4205 0.3620 0.3112 0.2670 0.2288 0.1028 0.0440 0.0178 0.0068 0.0024 0.0008 0.0002 0.0001
1 0.9916 0.9690 0.9355 0.8941 0.8470 0.7963 0.7436 0.6900 0.6368 0.5846 0.3567 0.1979 0.1010 0.0475 0.0205 0.0081 0.0029 0.0009
2 0.9997 0.9975 0.9923 0.9833 0.9699 0.9522 0.9302 0.9042 0.8745 0.8416 0.6479 0.4481 0.2811 0.1608 0.0839 0.0398 0.0170 0.0065
3 1.0000 0.9999 0.9994 0.9981 0.9958 0.9920 0.9864 0.9786 0.9685 0.9559 0.8535 0.6982 0.5213 0.3552 0.2205 0.1243 0.0632 0.0287
4 1.0000 1.0000 0.9998 0.9996 0.9990 0.9980 0.9965 0.9941 0.9908 0.9533 0.8702 0.7415 0.5842 0.4227 0.2793 0.1672 0.0898
5 1.0000 1.0000 0.9999 0.9998 0.9996 0.9992 0.9985 0.9885 0.9561 0.8883 0.7805 0.6405 0.4859 0.3373 0.2120
6 1.0000 1.0000 1.0000 0.9999 0.9998 0.9978 0.9884 0.9617 0.9067 0.8164 0.6925 0.5461 0.3953
7 1.0000 1.0000 0.9997 0.9976 0.9897 0.9685 0.9247 0.8499 0.7414 0.6047
8 1.0000 0.9996 0.9978 0.9917 0.9757 0.9417 0.8811 0.7880
9 1.0000 0.9997 0.9983 0.9940 0.9825 0.9574 0.9102
10 1.0000 0.9998 0.9989 0.9961 0.9886 0.9713
11 1.0000 0.9999 0.9994 0.9978 0.9935
12 1.0000 0.9999 0.9997 0.9991
13 1.0000 1.0000 0.9999
14 1.0000

15 0 0.8601 0.7386 0.6333 0.5421 0.4633 0.3953 0.3367 0.2863 0.2430 0.2059 0.0874 0.0352 0.0134 0.0047 0.0016 0.0005 0.0001 0.0000
1 0.9904 0.9647 0.9270 0.8809 0.8290 0.7738 0.7168 0.6597 0.6035 0.5490 0.3186 0.1671 0.0802 0.0353 0.0142 0.0052 0.0017 0.0005
2 0.9996 0.9970 0.9906 0.9797 0.9638 0.9429 0.9171 0.8870 0.8531 0.8159 0.6042 0.3980 0.2361 0.1268 0.0617 0.0271 0.0107 0.0037
3 1.0000 0.9998 0.9992 0.9976 0.9945 0.9896 0.9825 0.9727 0.9601 0.9444 0.8227 0.6482 0.4613 0.2969 0.1727 0.0905 0.0424 0.0176
4 1.0000 0.9999 0.9998 0.9994 0.9986 0.9972 0.9950 0.9918 0.9873 0.9383 0.8358 0.6865 0.5155 0.3519 0.2173 0.1204 0.0592
5 1.0000 1.0000 0.9999 0.9999 0.9997 0.9993 0.9987 0.9978 0.9832 0.9389 0.8516 0.7216 0.5643 0.4032 0.2608 0.1509
6 1.0000 1.0000 1.0000 0.9999 0.9998 0.9997 0.9964 0.9819 0.9434 0.8689 0.7548 0.6098 0.4522 0.3036
7 1.0000 1.0000 1.0000 0.9994 0.9958 0.9827 0.9500 0.8868 0.7869 0.6535 0.5000
8 0.9999 0.9992 0.9958 0.9848 0.9578 0.9050 0.8182 0.6964
9 1.0000 0.9999 0.9992 0.9963 0.9876 0.9662 0.9231 0.8491
10 1.0000 0.9999 0.9993 0.9972 0.9907 0.9745 0.9408
11 1.0000 0.9999 0.9995 0.9981 0.9937 0.9824
12 1.0000 0.9999 0.9997 0.9989 0.9963
13 1.0000 1.0000 0.9999 0.9995
14 1.0000 1.0000

xv
n x\p 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

16 0 0.8515 0.7238 0.6143 0.5204 0.4401 0.3716 0.3131 0.2634 0.2211 0.1853 0.0743 0.0281 0.0100 0.0033 0.0010 0.0003 0.0001 0.0000
1 0.9891 0.9601 0.9182 0.8673 0.8108 0.7511 0.6902 0.6299 0.5711 0.5147 0.2839 0.1407 0.0635 0.0261 0.0098 0.0033 0.0010 0.0003
2 0.9995 0.9963 0.9887 0.9758 0.9571 0.9327 0.9031 0.8689 0.8306 0.7892 0.5614 0.3518 0.1971 0.0994 0.0451 0.0183 0.0066 0.0021
3 1.0000 0.9998 0.9989 0.9968 0.9930 0.9868 0.9779 0.9658 0.9504 0.9316 0.7899 0.5981 0.4050 0.2459 0.1339 0.0651 0.0281 0.0106
4 1.0000 0.9999 0.9997 0.9991 0.9981 0.9962 0.9932 0.9889 0.9830 0.9209 0.7982 0.6302 0.4499 0.2892 0.1666 0.0853 0.0384
5 1.0000 1.0000 0.9999 0.9998 0.9995 0.9990 0.9981 0.9967 0.9765 0.9183 0.8103 0.6598 0.4900 0.3288 0.1976 0.1051
6 1.0000 1.0000 0.9999 0.9999 0.9997 0.9995 0.9944 0.9733 0.9204 0.8247 0.6881 0.5272 0.3660 0.2272
7 1.0000 1.0000 1.0000 0.9999 0.9989 0.9930 0.9729 0.9256 0.8406 0.7161 0.5629 0.4018
8 1.0000 0.9998 0.9985 0.9925 0.9743 0.9329 0.8577 0.7441 0.5982
9 1.0000 0.9998 0.9984 0.9929 0.9771 0.9417 0.8759 0.7728
10 1.0000 0.9997 0.9984 0.9938 0.9809 0.9514 0.8949
11 1.0000 0.9997 0.9987 0.9951 0.9851 0.9616
12 1.0000 0.9998 0.9991 0.9965 0.9894
13 1.0000 0.9999 0.9994 0.9979
14 1.0000 0.9999 0.9997
15 1.0000 1.0000

17 0 0.8429 0.7093 0.5958 0.4996 0.4181 0.3493 0.2912 0.2423 0.2012 0.1668 0.0631 0.0225 0.0075 0.0023 0.0007 0.0002 0.0000 0.0000
1 0.9877 0.9554 0.9091 0.8535 0.7922 0.7283 0.6638 0.6005 0.5396 0.4818 0.2525 0.1182 0.0501 0.0193 0.0067 0.0021 0.0006 0.0001
2 0.9994 0.9956 0.9866 0.9714 0.9497 0.9218 0.8882 0.8497 0.8073 0.7618 0.5198 0.3096 0.1637 0.0774 0.0327 0.0123 0.0041 0.0012
3 1.0000 0.9997 0.9986 0.9960 0.9912 0.9836 0.9727 0.9581 0.9397 0.9174 0.7556 0.5489 0.3530 0.2019 0.1028 0.0464 0.0184 0.0064
4 1.0000 0.9999 0.9996 0.9988 0.9974 0.9949 0.9911 0.9855 0.9779 0.9013 0.7582 0.5739 0.3887 0.2348 0.1260 0.0596 0.0245
5 1.0000 1.0000 0.9999 0.9997 0.9993 0.9985 0.9973 0.9953 0.9681 0.8943 0.7653 0.5968 0.4197 0.2639 0.1471 0.0717
6 1.0000 1.0000 0.9999 0.9998 0.9996 0.9992 0.9917 0.9623 0.8929 0.7752 0.6188 0.4478 0.2902 0.1662
7 1.0000 1.0000 1.0000 0.9999 0.9983 0.9891 0.9598 0.8954 0.7872 0.6405 0.4743 0.3145
8 1.0000 0.9997 0.9974 0.9876 0.9597 0.9006 0.8011 0.6626 0.5000
9 1.0000 0.9995 0.9969 0.9873 0.9617 0.9081 0.8166 0.6855
10 0.9999 0.9994 0.9968 0.9880 0.9652 0.9174 0.8338
11 1.0000 0.9999 0.9993 0.9970 0.9894 0.9699 0.9283
12 1.0000 0.9999 0.9994 0.9975 0.9914 0.9755
13 1.0000 0.9999 0.9995 0.9981 0.9936
14 1.0000 0.9999 0.9997 0.9988
15 1.0000 1.0000 0.9999
16 1.0000

18 0 0.8345 0.6951 0.5780 0.4796 0.3972 0.3283 0.2708 0.2229 0.1831 0.1501 0.0536 0.0180 0.0056 0.0016 0.0004 0.0001 0.0000 0.0000
1 0.9862 0.9505 0.8997 0.8393 0.7735 0.7055 0.6378 0.5719 0.5091 0.4503 0.2241 0.0991 0.0395 0.0142 0.0046 0.0013 0.0003 0.0001
2 0.9993 0.9948 0.9843 0.9667 0.9419 0.9102 0.8725 0.8298 0.7832 0.7338 0.4797 0.2713 0.1353 0.0600 0.0236 0.0082 0.0025 0.0007
3 1.0000 0.9996 0.9982 0.9950 0.9891 0.9799 0.9667 0.9494 0.9277 0.9018 0.7202 0.5010 0.3057 0.1646 0.0783 0.0328 0.0120 0.0038
4 1.0000 0.9998 0.9994 0.9985 0.9966 0.9933 0.9884 0.9814 0.9718 0.8794 0.7164 0.5187 0.3327 0.1886 0.0942 0.0411 0.0154
5 1.0000 0.9999 0.9998 0.9995 0.9990 0.9979 0.9962 0.9936 0.9581 0.8671 0.7175 0.5344 0.3550 0.2088 0.1077 0.0481
6 1.0000 1.0000 1.0000 0.9999 0.9997 0.9994 0.9988 0.9882 0.9487 0.8610 0.7217 0.5491 0.3743 0.2258 0.1189
7 1.0000 1.0000 0.9999 0.9998 0.9973 0.9837 0.9431 0.8593 0.7283 0.5634 0.3915 0.2403
8 1.0000 1.0000 0.9995 0.9957 0.9807 0.9404 0.8609 0.7368 0.5778 0.4073
9 0.9999 0.9991 0.9946 0.9790 0.9403 0.8653 0.7473 0.5927
10 1.0000 0.9998 0.9988 0.9939 0.9788 0.9424 0.8720 0.7597
11 1.0000 0.9998 0.9986 0.9938 0.9797 0.9463 0.8811
12 1.0000 0.9997 0.9986 0.9942 0.9817 0.9519
13 1.0000 0.9997 0.9987 0.9951 0.9846
14 1.0000 0.9998 0.9990 0.9962
15 1.0000 0.9999 0.9993
16 1.0000 0.9999
17 1.0000
19 0 0.8262 0.6812 0.5606 0.4604 0.3774 0.3086 0.2519 0.2051 0.1666 0.1351 0.0456 0.0144 0.0042 0.0011 0.0003 0.0001 0.0000 0.0000
1 0.9847 0.9454 0.8900 0.8249 0.7547 0.6829 0.6121 0.5440 0.4798 0.4203 0.1985 0.0829 0.0310 0.0104 0.0031 0.0008 0.0002 0.0000
2 0.9991 0.9939 0.9817 0.9616 0.9335 0.8979 0.8561 0.8092 0.7585 0.7054 0.4413 0.2369 0.1113 0.0462 0.0170 0.0055 0.0015 0.0004
3 1.0000 0.9995 0.9978 0.9939 0.9868 0.9757 0.9602 0.9398 0.9147 0.8850 0.6841 0.4551 0.2631 0.1332 0.0591 0.0230 0.0077 0.0022
4 1.0000 0.9998 0.9993 0.9980 0.9956 0.9915 0.9853 0.9765 0.9648 0.8556 0.6733 0.4654 0.2822 0.1500 0.0696 0.0280 0.0096
5 1.0000 0.9999 0.9998 0.9994 0.9986 0.9971 0.9949 0.9914 0.9463 0.8369 0.6678 0.4739 0.2968 0.1629 0.0777 0.0318
6 1.0000 1.0000 0.9999 0.9998 0.9996 0.9991 0.9983 0.9837 0.9324 0.8251 0.6655 0.4812 0.3081 0.1727 0.0835
7 1.0000 1.0000 0.9999 0.9999 0.9997 0.9959 0.9767 0.9225 0.8180 0.6656 0.4878 0.3169 0.1796
8 1.0000 1.0000 1.0000 0.9992 0.9933 0.9713 0.9161 0.8145 0.6675 0.4940 0.3238
9 0.9999 0.9984 0.9911 0.9674 0.9125 0.8139 0.6710 0.5000
10 1.0000 0.9997 0.9977 0.9895 0.9653 0.9115 0.8159 0.6762
11 1.0000 0.9995 0.9972 0.9886 0.9648 0.9129 0.8204
12 0.9999 0.9994 0.9969 0.9884 0.9658 0.9165
13 1.0000 0.9999 0.9993 0.9969 0.9891 0.9682
14 1.0000 0.9999 0.9994 0.9972 0.9904
15 1.0000 0.9999 0.9995 0.9978
16 1.0000 0.9999 0.9996
17 1.0000 1.0000

20 0 0.8179 0.6676 0.5438 0.4420 0.3585 0.2901 0.2342 0.1887 0.1516 0.1216 0.0388 0.0115 0.0032 0.0008 0.0002 0.0000 0.0000 0.0000
1 0.9831 0.9401 0.8802 0.8103 0.7358 0.6605 0.5869 0.5169 0.4516 0.3917 0.1756 0.0692 0.0243 0.0076 0.0021 0.0005 0.0001 0.0000
2 0.9990 0.9929 0.9790 0.9561 0.9245 0.8850 0.8390 0.7879 0.7334 0.6769 0.4049 0.2061 0.0913 0.0355 0.0121 0.0036 0.0009 0.0002
3 1.0000 0.9994 0.9973 0.9926 0.9841 0.9710 0.9529 0.9294 0.9007 0.8670 0.6477 0.4114 0.2252 0.1071 0.0444 0.0160 0.0049 0.0013
4 1.0000 0.9997 0.9990 0.9974 0.9944 0.9893 0.9817 0.9710 0.9568 0.8298 0.6296 0.4148 0.2375 0.1182 0.0510 0.0189 0.0059
5 1.0000 0.9999 0.9997 0.9991 0.9981 0.9962 0.9932 0.9887 0.9327 0.8042 0.6172 0.4164 0.2454 0.1256 0.0553 0.0207
6 1.0000 1.0000 0.9999 0.9997 0.9994 0.9987 0.9976 0.9781 0.9133 0.7858 0.6080 0.4166 0.2500 0.1299 0.0577
7 1.0000 1.0000 0.9999 0.9998 0.9996 0.9941 0.9679 0.8982 0.7723 0.6010 0.4159 0.2520 0.1316
8 1.0000 1.0000 0.9999 0.9987 0.9900 0.9591 0.8867 0.7624 0.5956 0.4143 0.2517
9 1.0000 0.9998 0.9974 0.9861 0.9520 0.8782 0.7553 0.5914 0.4119
10 1.0000 0.9994 0.9961 0.9829 0.9468 0.8725 0.7507 0.5881
11 0.9999 0.9991 0.9949 0.9804 0.9435 0.8692 0.7483
12 1.0000 0.9998 0.9987 0.9940 0.9790 0.9420 0.8684
13 1.0000 0.9997 0.9985 0.9935 0.9786 0.9423
14 1.0000 0.9997 0.9984 0.9936 0.9793
15 1.0000 0.9997 0.9985 0.9941
16 1.0000 0.9997 0.9987
17 1.0000 0.9998
18 1.0000

xvi
Px e−λ λk
Tabela T2: Função de distribuição de Poisson FX (x) = k=0 k!

λ x 0 1 2 3 4 5 6 7 8 9

0.01 0.9900 1.0000


0.02 0.9802 0.9998 1.0000
0.03 0.9704 0.9996 1.0000
0.04 0.9608 0.9992 1.0000
0.05 0.9512 0.9988 1.0000

0.06 0.9418 0.9983 1.0000


0.07 0.9324 0.9977 0.9999 1.0000
0.08 0.9231 0.9970 0.9999 1.0000
0.09 0.9139 0.9962 0.9999 1.0000
0.10 0.9048 0.9953 0.9998 1.0000

0.15 0.8607 0.9898 0.9995 1.0000


0.20 0.8187 0.9825 0.9989 0.9999 1.0000
0.25 0.7788 0.9735 0.9978 0.9999 1.0000
0.30 0.7408 0.9631 0.9964 0.9997 1.0000
0.35 0.7047 0.9513 0.9945 0.9995 1.0000
0.40 0.6703 0.9384 0.9921 0.9992 0.9999 1.0000
0.45 0.6376 0.9246 0.9891 0.9988 0.9999 1.0000

0.50 0.6065 0.9098 0.9856 0.9982 0.9998 1.0000


0.55 0.5769 0.8943 0.9815 0.9975 0.9997 1.0000
0.60 0.5488 0.8781 0.9769 0.9966 0.9996 1.0000
0.65 0.5220 0.8614 0.9717 0.9956 0.9994 0.9999 1.0000
0.70 0.4966 0.8442 0.9659 0.9942 0.9992 0.9999 1.0000
0.75 0.4724 0.8266 0.9595 0.9927 0.9989 0.9999 1.0000
0.80 0.4493 0.8088 0.9526 0.9909 0.9986 0.9998 1.0000
0.85 0.4274 0.7907 0.9451 0.9889 0.9982 0.9997 1.0000
0.90 0.4066 0.7725 0.9371 0.9865 0.9977 0.9997 1.0000
0.95 0.3867 0.7541 0.9287 0.9839 0.9971 0.9995 0.9999 1.0000

1.00 0.3679 0.7358 0.9197 0.9810 0.9963 0.9994 0.9999 1.0000


1.10 0.3329 0.6990 0.9004 0.9743 0.9946 0.9990 0.9999 1.0000
1.20 0.3012 0.6626 0.8795 0.9662 0.9923 0.9985 0.9997 1.0000
1.30 0.2725 0.6268 0.8571 0.9569 0.9893 0.9978 0.9996 0.9999 1.0000
1.40 0.2466 0.5918 0.8335 0.9463 0.9857 0.9968 0.9994 0.9999 1.0000
1.50 0.2231 0.5578 0.8088 0.9344 0.9814 0.9955 0.9991 0.9998 1.0000
1.60 0.2019 0.5249 0.7834 0.9212 0.9763 0.9940 0.9987 0.9997 1.0000
1.70 0.1827 0.4932 0.7572 0.9068 0.9704 0.9920 0.9981 0.9996 0.9999 1.0000
1.80 0.1653 0.4628 0.7306 0.8913 0.9636 0.9896 0.9974 0.9994 0.9999 1.0000
1.90 0.1496 0.4337 0.7037 0.8747 0.9559 0.9868 0.9966 0.9992 0.9998 1.0000

2.00 0 0.1353 0.4060 0.6767 0.8571 0.9473 0.9834 0.9955 0.9989 0.9998 1.0000
2.20 0 0.1108 0.3546 0.6227 0.8194 0.9275 0.9751 0.9925 0.9980 0.9995 0.9999
10 1.0000
2.40 0 0.0907 0.3084 0.5697 0.7787 0.9041 0.9643 0.9884 0.9967 0.9991 0.9998
10 1.0000
2.60 0 0.0743 0.2674 0.5184 0.7360 0.8774 0.9510 0.9828 0.9947 0.9985 0.9996
10 0.9999 1.0000
2.80 0 0.0608 0.2311 0.4695 0.6919 0.8477 0.9349 0.9756 0.9919 0.9976 0.9993
10 0.9998 1.0000

3.00 0 0.0498 0.1991 0.4232 0.6472 0.8153 0.9161 0.9665 0.9881 0.9962 0.9989
10 0.9997 0.9999 1.0000
3.20 0 0.0408 0.1712 0.3799 0.6025 0.7806 0.8946 0.9554 0.9832 0.9943 0.9982
10 0.9995 0.9999 1.0000
3.40 0 0.0334 0.1468 0.3397 0.5584 0.7442 0.8705 0.9421 0.9769 0.9917 0.9973
10 0.9992 0.9998 0.9999 1.0000
3.60 0 0.0273 0.1257 0.3027 0.5152 0.7064 0.8441 0.9267 0.9692 0.9883 0.9960
10 0.9987 0.9996 0.9999 1.0000
3.80 0 0.0224 0.1074 0.2689 0.4735 0.6678 0.8156 0.9091 0.9599 0.9840 0.9942
10 0.9981 0.9994 0.9998 1.0000

4.00 0 0.0183 0.0916 0.2381 0.4335 0.6288 0.7851 0.8893 0.9489 0.9786 0.9919
10 0.9972 0.9991 0.9997 0.9999 1.0000
4.20 0 0.0150 0.0780 0.2102 0.3954 0.5898 0.7531 0.8675 0.9361 0.9721 0.9889
10 0.9959 0.9986 0.9996 0.9999 1.0000
4.40 0 0.0123 0.0663 0.1851 0.3594 0.5512 0.7199 0.8436 0.9214 0.9642 0.9851
10 0.9943 0.9980 0.9993 0.9998 0.9999 1.0000
4.60 0 0.0101 0.0563 0.1626 0.3257 0.5132 0.6858 0.8180 0.9049 0.9549 0.9805
10 0.9922 0.9971 0.9990 0.9997 0.9999 1.0000
4.80 0 0.0082 0.0477 0.1425 0.2942 0.4763 0.6510 0.7908 0.8867 0.9442 0.9749
10 0.9896 0.9960 0.9986 0.9995 0.9999 1.0000

5.00 0 0.0067 0.0404 0.1247 0.2650 0.4405 0.6160 0.7622 0.8666 0.9319 0.9682
10 0.9863 0.9945 0.9980 0.9993 0.9998 0.9999 1.0000
5.20 0 0.0055 0.0342 0.1088 0.2381 0.4061 0.5809 0.7324 0.8449 0.9181 0.9603
10 0.9823 0.9927 0.9972 0.9990 0.9997 0.9999 1.0000
5.40 0 0.0045 0.0289 0.0948 0.2133 0.3733 0.5461 0.7017 0.8217 0.9027 0.9512
10 0.9775 0.9904 0.9962 0.9986 0.9995 0.9998 0.9999 1.0000
5.60 0 0.0037 0.0244 0.0824 0.1906 0.3422 0.5119 0.6703 0.7970 0.8857 0.9409
10 0.9718 0.9875 0.9949 0.9980 0.9993 0.9998 0.9999 1.0000
5.80 0 0.0030 0.0206 0.0715 0.1700 0.3127 0.4783 0.6384 0.7710 0.8672 0.9292
10 0.9651 0.9841 0.9932 0.9973 0.9990 0.9996 0.9999 1.0000

xvii
λ x 0 1 2 3 4 5 6 7 8 9

6.00 0 0.0025 0.0174 0.0620 0.1512 0.2851 0.4457 0.6063 0.7440 0.8472 0.9161
10 0.9574 0.9799 0.9912 0.9964 0.9986 0.9995 0.9998 0.9999 1.0000
6.20 0 0.0020 0.0146 0.0536 0.1342 0.2592 0.4141 0.5742 0.7160 0.8259 0.9016
10 0.9486 0.9750 0.9887 0.9952 0.9981 0.9993 0.9997 0.9999 1.0000
6.40 0 0.0017 0.0123 0.0463 0.1189 0.2351 0.3837 0.5423 0.6873 0.8033 0.8858
10 0.9386 0.9693 0.9857 0.9937 0.9974 0.9990 0.9996 0.9999 1.0000
6.60 0 0.0014 0.0103 0.0400 0.1052 0.2127 0.3547 0.5108 0.6581 0.7796 0.8686
10 0.9274 0.9627 0.9821 0.9920 0.9966 0.9986 0.9995 0.9998 0.9999 1.0000
6.80 0 0.0011 0.0087 0.0344 0.0928 0.1920 0.3270 0.4799 0.6285 0.7548 0.8502
10 0.9151 0.9552 0.9779 0.9898 0.9956 0.9982 0.9993 0.9997 0.9999 1.0000

7.00 0 0.0009 0.0073 0.0296 0.0818 0.1730 0.3007 0.4497 0.5987 0.7291 0.8305
10 0.9015 0.9467 0.9730 0.9872 0.9943 0.9976 0.9990 0.9996 0.9999 1.0000
7.20 0 0.0007 0.0061 0.0255 0.0719 0.1555 0.2759 0.4204 0.5689 0.7027 0.8096
10 0.8867 0.9371 0.9673 0.9841 0.9927 0.9969 0.9987 0.9995 0.9998 0.9999
20 1.0000
7.40 0 0.0006 0.0051 0.0219 0.0632 0.1395 0.2526 0.3920 0.5393 0.6757 0.7877
10 0.8707 0.9265 0.9609 0.9805 0.9908 0.9959 0.9983 0.9993 0.9997 0.9999
20 1.0000
7.60 0 0.0005 0.0043 0.0188 0.0554 0.1249 0.2307 0.3646 0.5100 0.6482 0.7649
10 0.8535 0.9148 0.9536 0.9762 0.9886 0.9948 0.9978 0.9991 0.9996 0.9999
20 1.0000
7.80 0 0.0004 0.0036 0.0161 0.0485 0.1117 0.2103 0.3384 0.4812 0.6204 0.7411
10 0.8352 0.9020 0.9454 0.9714 0.9859 0.9934 0.9971 0.9988 0.9995 0.9998
20 0.9999 1.0000

8.00 0 0.0003 0.0030 0.0138 0.0424 0.0996 0.1912 0.3134 0.4530 0.5925 0.7166
10 0.8159 0.8881 0.9362 0.9658 0.9827 0.9918 0.9963 0.9984 0.9993 0.9997
20 0.9999 1.0000
8.20 0 0.0003 0.0025 0.0118 0.0370 0.0887 0.1736 0.2896 0.4254 0.5647 0.6915
10 0.7955 0.8731 0.9261 0.9595 0.9791 0.9898 0.9953 0.9979 0.9991 0.9997
20 0.9999 1.0000
8.40 0 0.0002 0.0021 0.0100 0.0323 0.0789 0.1573 0.2670 0.3987 0.5369 0.6659
10 0.7743 0.8571 0.9150 0.9524 0.9749 0.9875 0.9941 0.9973 0.9989 0.9995
20 0.9998 0.9999 1.0000
8.60 0 0.0002 0.0018 0.0086 0.0281 0.0701 0.1422 0.2457 0.3728 0.5094 0.6400
10 0.7522 0.8400 0.9029 0.9445 0.9701 0.9848 0.9926 0.9966 0.9985 0.9994
20 0.9998 0.9999 1.0000
8.80 0 0.0002 0.0015 0.0073 0.0244 0.0621 0.1284 0.2256 0.3478 0.4823 0.6137
10 0.7294 0.8220 0.8898 0.9358 0.9647 0.9816 0.9909 0.9957 0.9981 0.9992
20 0.9997 0.9999 1.0000

9.00 0 0.0001 0.0012 0.0062 0.0212 0.0550 0.1157 0.2068 0.3239 0.4557 0.5874
10 0.7060 0.8030 0.8758 0.9261 0.9585 0.9780 0.9889 0.9947 0.9976 0.9989
20 0.9996 0.9998 0.9999 1.0000
9.20 0 0.0001 0.0010 0.0053 0.0184 0.0486 0.1041 0.1892 0.3010 0.4296 0.5611
10 0.6820 0.7832 0.8607 0.9156 0.9517 0.9738 0.9865 0.9934 0.9969 0.9986
20 0.9994 0.9998 0.9999 1.0000
9.40 0 0.0001 0.0009 0.0045 0.0160 0.0429 0.0935 0.1727 0.2792 0.4042 0.5349
10 0.6576 0.7626 0.8448 0.9042 0.9441 0.9691 0.9838 0.9919 0.9962 0.9983
20 0.9992 0.9997 0.9999 1.0000
9.60 0 0.0001 0.0007 0.0038 0.0138 0.0378 0.0838 0.1574 0.2584 0.3796 0.5089
10 0.6329 0.7412 0.8279 0.8919 0.9357 0.9638 0.9806 0.9902 0.9952 0.9978
20 0.9990 0.9996 0.9998 0.9999 1.0000
9.80 0 0.0001 0.0006 0.0033 0.0120 0.0333 0.0750 0.1433 0.2388 0.3558 0.4832
10 0.6080 0.7193 0.8101 0.8786 0.9265 0.9579 0.9770 0.9881 0.9941 0.9972
20 0.9987 0.9995 0.9998 0.9999 1.0000

10.00 0 0.0000 0.0005 0.0028 0.0103 0.0293 0.0671 0.1301 0.2202 0.3328 0.4579
10 0.5830 0.6968 0.7916 0.8645 0.9165 0.9513 0.9730 0.9857 0.9928 0.9965
20 0.9984 0.9993 0.9997 0.9999 1.0000
10.50 0 0.0000 0.0003 0.0018 0.0071 0.0211 0.0504 0.1016 0.1785 0.2794 0.3971
10 0.5207 0.6387 0.7420 0.8253 0.8879 0.9317 0.9604 0.9781 0.9885 0.9942
20 0.9972 0.9987 0.9994 0.9998 0.9999 1.0000
11.00 0 0.0000 0.0002 0.0012 0.0049 0.0151 0.0375 0.0786 0.1432 0.2320 0.3405
10 0.4599 0.5793 0.6887 0.7813 0.8540 0.9074 0.9441 0.9678 0.9823 0.9907
20 0.9953 0.9977 0.9990 0.9995 0.9998 0.9999 1.0000
11.50 0 0.0000 0.0001 0.0008 0.0034 0.0107 0.0277 0.0603 0.1137 0.1906 0.2888
10 0.4017 0.5198 0.6329 0.7330 0.8153 0.8783 0.9236 0.9542 0.9738 0.9857
20 0.9925 0.9962 0.9982 0.9992 0.9996 0.9998 0.9999 1.0000

12.00 0 0.0000 0.0001 0.0005 0.0023 0.0076 0.0203 0.0458 0.0895 0.1550 0.2424
10 0.3472 0.4616 0.5760 0.6815 0.7720 0.8444 0.8987 0.9370 0.9626 0.9787
20 0.9884 0.9939 0.9970 0.9985 0.9993 0.9997 0.9999 0.9999 1.0000
12.50 0 0.0000 0.0001 0.0003 0.0016 0.0053 0.0148 0.0346 0.0698 0.1249 0.2014
10 0.2971 0.4058 0.5190 0.6278 0.7250 0.8060 0.8693 0.9158 0.9481 0.9694
20 0.9827 0.9906 0.9951 0.9975 0.9988 0.9994 0.9997 0.9999 1.0000
13.00 0 0.0000 0.0000 0.0002 0.0011 0.0037 0.0107 0.0259 0.0540 0.0998 0.1658
10 0.2517 0.3532 0.4631 0.5730 0.6751 0.7636 0.8355 0.8905 0.9302 0.9573
20 0.9750 0.9859 0.9924 0.9960 0.9980 0.9990 0.9995 0.9998 0.9999 1.0000
13.50 0 0.0000 0.0000 0.0001 0.0007 0.0026 0.0077 0.0193 0.0415 0.0790 0.1353
10 0.2112 0.3045 0.4093 0.5182 0.6233 0.7178 0.7975 0.8609 0.9084 0.9421
20 0.9649 0.9796 0.9885 0.9938 0.9968 0.9984 0.9992 0.9996 0.9998 0.9999
30 1.0000

xviii
λ x 0 1 2 3 4 5 6 7 8 9

14.00 0 0.0000 0.0000 0.0001 0.0005 0.0018 0.0055 0.0142 0.0316 0.0621 0.1094
10 0.1757 0.2600 0.3585 0.4644 0.5704 0.6694 0.7559 0.8272 0.8826 0.9235
20 0.9521 0.9712 0.9833 0.9907 0.9950 0.9974 0.9987 0.9994 0.9997 0.9999
30 0.9999 1.0000
14.50 0 0.0000 0.0000 0.0001 0.0003 0.0012 0.0039 0.0105 0.0239 0.0484 0.0878
10 0.1449 0.2201 0.3111 0.4125 0.5176 0.6192 0.7112 0.7897 0.8530 0.9012
20 0.9362 0.9604 0.9763 0.9863 0.9924 0.9959 0.9979 0.9989 0.9995 0.9998
30 0.9999 1.0000
15.00 0 0.0000 0.0000 0.0000 0.0002 0.0009 0.0028 0.0076 0.0180 0.0374 0.0699
10 0.1185 0.1848 0.2676 0.3632 0.4657 0.5681 0.6641 0.7489 0.8195 0.8752
20 0.9170 0.9469 0.9673 0.9805 0.9888 0.9938 0.9967 0.9983 0.9991 0.9996
30 0.9998 0.9999 1.0000

16.00 0 0.0000 0.0000 0.0000 0.0001 0.0004 0.0014 0.0040 0.0100 0.0220 0.0433
10 0.0774 0.1270 0.1931 0.2745 0.3675 0.4667 0.5660 0.6593 0.7423 0.8122
20 0.8682 0.9108 0.9418 0.9633 0.9777 0.9869 0.9925 0.9959 0.9978 0.9989
30 0.9994 0.9997 0.9999 0.9999 1.0000
17.00 0 0.0000 0.0000 0.0000 0.0000 0.0002 0.0007 0.0021 0.0054 0.0126 0.0261
10 0.0491 0.0847 0.1350 0.2009 0.2808 0.3715 0.4677 0.5640 0.6550 0.7363
20 0.8055 0.8615 0.9047 0.9367 0.9594 0.9748 0.9848 0.9912 0.9950 0.9973
30 0.9986 0.9993 0.9996 0.9998 0.9999 1.0000
18.00 0 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010 0.0029 0.0071 0.0154
10 0.0304 0.0549 0.0917 0.1426 0.2081 0.2867 0.3751 0.4686 0.5622 0.6509
20 0.7307 0.7991 0.8551 0.8989 0.9317 0.9554 0.9718 0.9827 0.9897 0.9941
30 0.9967 0.9982 0.9990 0.9995 0.9998 0.9999 0.9999 1.0000
19.00 0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0005 0.0015 0.0039 0.0089
10 0.0183 0.0347 0.0606 0.0984 0.1497 0.2148 0.2920 0.3784 0.4695 0.5606
20 0.6472 0.7255 0.7931 0.8490 0.8933 0.9269 0.9514 0.9687 0.9805 0.9882
30 0.9930 0.9960 0.9978 0.9988 0.9994 0.9997 0.9998 0.9999 1.0000

20.00 0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0008 0.0021 0.0050
10 0.0108 0.0214 0.0390 0.0661 0.1049 0.1565 0.2211 0.2970 0.3814 0.4703
20 0.5591 0.6437 0.7206 0.7875 0.8432 0.8878 0.9221 0.9475 0.9657 0.9782
30 0.9865 0.9919 0.9953 0.9973 0.9985 0.9992 0.9996 0.9998 0.9999 0.9999
40 1.0000
21.00 0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0011 0.0028
10 0.0063 0.0129 0.0245 0.0434 0.0716 0.1111 0.1629 0.2270 0.3017 0.3843
20 0.4710 0.5577 0.6405 0.7160 0.7822 0.8377 0.8826 0.9175 0.9436 0.9626
30 0.9758 0.9848 0.9907 0.9945 0.9968 0.9982 0.9990 0.9995 0.9997 0.9999
40 0.9999 1.0000
22.00 0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0006 0.0015
10 0.0035 0.0076 0.0151 0.0278 0.0477 0.0769 0.1170 0.1690 0.2325 0.3060
20 0.3869 0.4716 0.5564 0.6374 0.7117 0.7771 0.8324 0.8775 0.9129 0.9398
30 0.9595 0.9735 0.9831 0.9895 0.9936 0.9962 0.9978 0.9988 0.9993 0.9996
40 0.9998 0.9999 1.0000

23.00 0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0008
10 0.0020 0.0044 0.0091 0.0174 0.0311 0.0520 0.0821 0.1228 0.1748 0.2377
20 0.3101 0.3894 0.4723 0.5551 0.6346 0.7077 0.7723 0.8274 0.8726 0.9085
30 0.9360 0.9564 0.9711 0.9813 0.9882 0.9927 0.9956 0.9974 0.9985 0.9992
40 0.9996 0.9998 0.9999 0.9999 1.0000
24.00 0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0004
10 0.0011 0.0025 0.0054 0.0107 0.0198 0.0344 0.0563 0.0871 0.1283 0.1803
20 0.2426 0.3139 0.3917 0.4728 0.5540 0.6319 0.7038 0.7677 0.8225 0.8679
30 0.9042 0.9322 0.9533 0.9686 0.9794 0.9868 0.9918 0.9950 0.9970 0.9983
40 0.9990 0.9995 0.9997 0.9998 0.9999 1.0000
25.00 0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002
10 0.0006 0.0014 0.0031 0.0065 0.0124 0.0223 0.0377 0.0605 0.0920 0.1336
20 0.1855 0.2473 0.3175 0.3939 0.4734 0.5529 0.6294 0.7002 0.7634 0.8179
30 0.8633 0.8999 0.9285 0.9502 0.9662 0.9775 0.9854 0.9908 0.9943 0.9966
40 0.9980 0.9988 0.9993 0.9996 0.9998 0.9999 0.9999 1.0000

30.00 0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
10 0.0000 0.0001 0.0002 0.0004 0.0009 0.0019 0.0039 0.0073 0.0129 0.0219
20 0.0353 0.0544 0.0806 0.1146 0.1572 0.2084 0.2673 0.3329 0.4031 0.4757
30 0.5484 0.6186 0.6845 0.7444 0.7973 0.8426 0.8804 0.9110 0.9352 0.9537
40 0.9677 0.9779 0.9852 0.9903 0.9937 0.9960 0.9975 0.9985 0.9991 0.9995
50 0.9997 0.9998 0.9999 0.9999 1.0000
35.00 0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0006 0.0012 0.0023
20 0.0043 0.0076 0.0128 0.0208 0.0324 0.0486 0.0705 0.0988 0.1343 0.1770
30 0.2269 0.2833 0.3449 0.4102 0.4775 0.5448 0.6102 0.6721 0.7291 0.7802
40 0.8249 0.8631 0.8950 0.9209 0.9415 0.9575 0.9697 0.9788 0.9854 0.9902
50 0.9935 0.9957 0.9973 0.9983 0.9989 0.9993 0.9996 0.9998 0.9999 0.9999
60 1.0000

40.00 0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002
20 0.0004 0.0007 0.0014 0.0026 0.0045 0.0076 0.0123 0.0193 0.0294 0.0432
30 0.0617 0.0855 0.1153 0.1514 0.1939 0.2424 0.2963 0.3547 0.4160 0.4790
40 0.5419 0.6033 0.6618 0.7162 0.7657 0.8097 0.8479 0.8804 0.9075 0.9297
50 0.9474 0.9613 0.9719 0.9800 0.9860 0.9903 0.9934 0.9956 0.9971 0.9981
60 0.9988 0.9992 0.9995 0.9997 0.9998 0.9999 0.9999 1.0000

xix
Tabela T3: Quantis da função de distribuição da Normal Z ∼ N (0, 1)

p
zp = Φ−1 (p) = Φ−1 (1 − q) q
0 zp

q 0.000 0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009 0.010

0.00 ∞ 3.0902 2.8782 2.7478 2.6521 2.5758 2.5121 2.4573 2.4089 2.3656 2.3263 0.99
0.01 2.3263 2.2904 2.2571 2.2262 2.1973 2.1701 2.1444 2.1201 2.0969 2.0748 2.0537 0.98
0.02 2.0537 2.0335 2.0141 1.9954 1.9774 1.9600 1.9431 1.9268 1.9110 1.8957 1.8808 0.97
0.03 1.8808 1.8663 1.8522 1.8384 1.8250 1.8119 1.7991 1.7866 1.7744 1.7624 1.7507 0.96
0.04 1.7507 1.7392 1.7279 1.7169 1.7060 1.6954 1.6849 1.6747 1.6646 1.6546 1.6449 0.95
0.05 1.6449 1.6352 1.6258 1.6164 1.6072 1.5982 1.5893 1.5805 1.5718 1.5632 1.5548 0.94
0.06 1.5548 1.5464 1.5382 1.5301 1.5220 1.5141 1.5063 1.4985 1.4909 1.4833 1.4758 0.93
0.07 1.4758 1.4684 1.4611 1.4538 1.4466 1.4395 1.4325 1.4255 1.4187 1.4118 1.4051 0.92
0.08 1.4051 1.3984 1.3917 1.3852 1.3787 1.3722 1.3658 1.3595 1.3532 1.3469 1.3408 0.91
0.09 1.3408 1.3346 1.3285 1.3225 1.3165 1.3106 1.3047 1.2988 1.2930 1.2873 1.2816 0.90
0.10 1.2816 1.2759 1.2702 1.2646 1.2591 1.2536 1.2481 1.2426 1.2372 1.2319 1.2265 0.89
0.11 1.2265 1.2212 1.2160 1.2107 1.2055 1.2004 1.1952 1.1901 1.1850 1.1800 1.1750 0.88
0.12 1.1750 1.1700 1.1650 1.1601 1.1552 1.1503 1.1455 1.1407 1.1359 1.1311 1.1264 0.87
0.13 1.1264 1.1217 1.1170 1.1123 1.1077 1.1031 1.0985 1.0939 1.0893 1.0848 1.0803 0.86
0.14 1.0803 1.0758 1.0714 1.0669 1.0625 1.0581 1.0537 1.0494 1.0451 1.0407 1.0364 0.85
0.15 1.0364 1.0322 1.0279 1.0237 1.0194 1.0152 1.0110 1.0069 1.0027 0.9986 0.9945 0.84
0.16 0.9945 0.9904 0.9863 0.9822 0.9782 0.9741 0.9701 0.9661 0.9621 0.9581 0.9542 0.83
0.17 0.9542 0.9502 0.9463 0.9424 0.9385 0.9346 0.9307 0.9269 0.9230 0.9192 0.9154 0.82
0.18 0.9154 0.9116 0.9078 0.9040 0.9002 0.8965 0.8927 0.8890 0.8853 0.8816 0.8779 0.81
0.19 0.8779 0.8742 0.8706 0.8669 0.8632 0.8596 0.8560 0.8524 0.8488 0.8452 0.8416 0.80
0.20 0.8416 0.8381 0.8345 0.8310 0.8274 0.8239 0.8204 0.8169 0.8134 0.8099 0.8064 0.79
0.21 0.8064 0.8030 0.7995 0.7961 0.7926 0.7892 0.7858 0.7824 0.7790 0.7756 0.7722 0.78
0.22 0.7722 0.7688 0.7655 0.7621 0.7588 0.7554 0.7521 0.7488 0.7454 0.7421 0.7388 0.77
0.23 0.7388 0.7356 0.7323 0.7290 0.7257 0.7225 0.7192 0.7160 0.7128 0.7095 0.7063 0.76
0.24 0.7063 0.7031 0.6999 0.6967 0.6935 0.6903 0.6871 0.6840 0.6808 0.6776 0.6745 0.75
0.25 0.6745 0.6713 0.6682 0.6651 0.6620 0.6588 0.6557 0.6526 0.6495 0.6464 0.6433 0.74
0.26 0.6433 0.6403 0.6372 0.6341 0.6311 0.6280 0.6250 0.6219 0.6189 0.6158 0.6128 0.73
0.27 0.6128 0.6098 0.6068 0.6038 0.6008 0.5978 0.5948 0.5918 0.5888 0.5858 0.5828 0.72
0.28 0.5828 0.5799 0.5769 0.5740 0.5710 0.5681 0.5651 0.5622 0.5592 0.5563 0.5534 0.71
0.29 0.5534 0.5505 0.5476 0.5446 0.5417 0.5388 0.5359 0.5330 0.5302 0.5273 0.5244 0.70
0.30 0.5244 0.5215 0.5187 0.5158 0.5129 0.5101 0.5072 0.5044 0.5015 0.4987 0.4958 0.69
0.31 0.4958 0.4930 0.4902 0.4874 0.4845 0.4817 0.4789 0.4761 0.4733 0.4705 0.4677 0.68
0.32 0.4677 0.4649 0.4621 0.4593 0.4565 0.4538 0.4510 0.4482 0.4454 0.4427 0.4399 0.67
0.33 0.4399 0.4372 0.4344 0.4316 0.4289 0.4261 0.4234 0.4207 0.4179 0.4152 0.4125 0.66
0.34 0.4125 0.4097 0.4070 0.4043 0.4016 0.3989 0.3961 0.3934 0.3907 0.3880 0.3853 0.65
0.35 0.3853 0.3826 0.3799 0.3772 0.3745 0.3719 0.3692 0.3665 0.3638 0.3611 0.3585 0.64
0.36 0.3585 0.3558 0.3531 0.3505 0.3478 0.3451 0.3425 0.3398 0.3372 0.3345 0.3319 0.63
0.37 0.3319 0.3292 0.3266 0.3239 0.3213 0.3186 0.3160 0.3134 0.3107 0.3081 0.3055 0.62
0.38 0.3055 0.3029 0.3002 0.2976 0.2950 0.2924 0.2898 0.2871 0.2845 0.2819 0.2793 0.61
0.39 0.2793 0.2767 0.2741 0.2715 0.2689 0.2663 0.2637 0.2611 0.2585 0.2559 0.2533 0.60
0.40 0.2533 0.2508 0.2482 0.2456 0.2430 0.2404 0.2378 0.2353 0.2327 0.2301 0.2275 0.59
0.41 0.2275 0.2250 0.2224 0.2198 0.2173 0.2147 0.2121 0.2096 0.2070 0.2045 0.2019 0.58
0.42 0.2019 0.1993 0.1968 0.1942 0.1917 0.1891 0.1866 0.1840 0.1815 0.1789 0.1764 0.57
0.43 0.1764 0.1738 0.1713 0.1687 0.1662 0.1637 0.1611 0.1586 0.1560 0.1535 0.1510 0.56
0.44 0.1510 0.1484 0.1459 0.1434 0.1408 0.1383 0.1358 0.1332 0.1307 0.1282 0.1257 0.55
0.45 0.1257 0.1231 0.1206 0.1181 0.1156 0.1130 0.1105 0.1080 0.1055 0.1030 0.1004 0.54
0.46 0.1004 0.0979 0.0954 0.0929 0.0904 0.0878 0.0853 0.0828 0.0803 0.0778 0.0753 0.53
0.47 0.0753 0.0728 0.0702 0.0677 0.0652 0.0627 0.0602 0.0577 0.0552 0.0527 0.0502 0.52
0.48 0.0502 0.0476 0.0451 0.0426 0.0401 0.0376 0.0351 0.0326 0.0301 0.0276 0.0251 0.51
0.49 0.0251 0.0226 0.0201 0.0175 0.0150 0.0125 0.0100 0.0075 0.0050 0.0025 0.0000 0.50

0.010 0.009 0.008 0.007 0.006 0.005 0.004 0.003 0.002 0.001 0.000 p

xx
Tabela T4: Quantis da função de distribuição-t de Student X ∼ t(n) : xp = FX−1 (p)

0 xp

n\p 0.6 0.7 0.75 0.8 0.85 0.9 0.925 0.95 0.975 0.99 0.995 0.999 0.9995

1 0.325 0.727 1.000 1.376 1.963 3.078 4.165 6.314 12.706 31.821 63.656 318.289 636.578
2 0.289 0.617 0.816 1.061 1.386 1.886 2.282 2.920 4.303 6.965 9.925 22.328 31.600
3 0.277 0.584 0.765 0.978 1.250 1.638 1.924 2.353 3.182 4.541 5.841 10.214 12.924
4 0.271 0.569 0.741 0.941 1.190 1.533 1.778 2.132 2.776 3.747 4.604 7.173 8.610
5 0.267 0.559 0.727 0.920 1.156 1.476 1.699 2.015 2.571 3.365 4.032 5.894 6.869

6 0.265 0.553 0.718 0.906 1.134 1.440 1.650 1.943 2.447 3.143 3.707 5.208 5.959
7 0.263 0.549 0.711 0.896 1.119 1.415 1.617 1.895 2.365 2.998 3.499 4.785 5.408
8 0.262 0.546 0.706 0.889 1.108 1.397 1.592 1.860 2.306 2.896 3.355 4.501 5.041
9 0.261 0.543 0.703 0.883 1.100 1.383 1.574 1.833 2.262 2.821 3.250 4.297 4.781
10 0.260 0.542 0.700 0.879 1.093 1.372 1.559 1.812 2.228 2.764 3.169 4.144 4.587

11 0.260 0.540 0.697 0.876 1.088 1.363 1.548 1.796 2.201 2.718 3.106 4.025 4.437
12 0.259 0.539 0.695 0.873 1.083 1.356 1.538 1.782 2.179 2.681 3.055 3.930 4.318
13 0.259 0.538 0.694 0.870 1.079 1.350 1.530 1.771 2.160 2.650 3.012 3.852 4.221
14 0.258 0.537 0.692 0.868 1.076 1.345 1.523 1.761 2.145 2.624 2.977 3.787 4.140
15 0.258 0.536 0.691 0.866 1.074 1.341 1.517 1.753 2.131 2.602 2.947 3.733 4.073

16 0.258 0.535 0.690 0.865 1.071 1.337 1.512 1.746 2.120 2.583 2.921 3.686 4.015
17 0.257 0.534 0.689 0.863 1.069 1.333 1.508 1.740 2.110 2.567 2.898 3.646 3.965
18 0.257 0.534 0.688 0.862 1.067 1.330 1.504 1.734 2.101 2.552 2.878 3.610 3.922
19 0.257 0.533 0.688 0.861 1.066 1.328 1.500 1.729 2.093 2.539 2.861 3.579 3.883
20 0.257 0.533 0.687 0.860 1.064 1.325 1.497 1.725 2.086 2.528 2.845 3.552 3.850

21 0.257 0.532 0.686 0.859 1.063 1.323 1.494 1.721 2.080 2.518 2.831 3.527 3.819
22 0.256 0.532 0.686 0.858 1.061 1.321 1.492 1.717 2.074 2.508 2.819 3.505 3.792
23 0.256 0.532 0.685 0.858 1.060 1.319 1.489 1.714 2.069 2.500 2.807 3.485 3.768
24 0.256 0.531 0.685 0.857 1.059 1.318 1.487 1.711 2.064 2.492 2.797 3.467 3.745
25 0.256 0.531 0.684 0.856 1.058 1.316 1.485 1.708 2.060 2.485 2.787 3.450 3.725

26 0.256 0.531 0.684 0.856 1.058 1.315 1.483 1.706 2.056 2.479 2.779 3.435 3.707
27 0.256 0.531 0.684 0.855 1.057 1.314 1.482 1.703 2.052 2.473 2.771 3.421 3.689
28 0.256 0.530 0.683 0.855 1.056 1.313 1.480 1.701 2.048 2.467 2.763 3.408 3.674
29 0.256 0.530 0.683 0.854 1.055 1.311 1.479 1.699 2.045 2.462 2.756 3.396 3.660
30 0.256 0.530 0.683 0.854 1.055 1.310 1.477 1.697 2.042 2.457 2.750 3.385 3.646

40 0.255 0.529 0.681 0.851 1.050 1.303 1.468 1.684 2.021 2.423 2.704 3.307 3.551
45 0.255 0.528 0.680 0.850 1.049 1.301 1.465 1.679 2.014 2.412 2.690 3.281 3.520
50 0.255 0.528 0.679 0.849 1.047 1.299 1.462 1.676 2.009 2.403 2.678 3.261 3.496
60 0.254 0.527 0.679 0.848 1.045 1.296 1.458 1.671 2.000 2.390 2.660 3.232 3.460
70 0.254 0.527 0.678 0.847 1.044 1.294 1.456 1.667 1.994 2.381 2.648 3.211 3.435

80 0.254 0.526 0.678 0.846 1.043 1.292 1.453 1.664 1.990 2.374 2.639 3.195 3.416
90 0.254 0.526 0.677 0.846 1.042 1.291 1.452 1.662 1.987 2.368 2.632 3.183 3.402
100 0.254 0.526 0.677 0.845 1.042 1.290 1.451 1.660 1.984 2.364 2.626 3.174 3.390
120 0.254 0.526 0.677 0.845 1.041 1.289 1.449 1.658 1.980 2.358 2.617 3.160 3.373
150 0.254 0.526 0.676 0.844 1.040 1.287 1.447 1.655 1.976 2.351 2.609 3.145 3.357

∞ 0.253 0.524 0.675 0.842 1.036 1.282 1.440 1.645 1.960 2.327 2.576 3.091 3.291

xxi
Tabela T5: Quantis da função de distribuição Qui-quadrado X ∼ χ2(n) : xp = FX−1 (p)

n\p 0.0005 0.001 0.005 0.01 0.025 0.05 0.075 0.10 0.15 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.85 0.90 0.925 0.950 0.975 0.990 0.995 0.999 0.9995

1 3.9E-07 1.6E-06 3.9E-05 0.0002 0.0010 0.0039 0.0089 0.0158 0.0358 0.0642 0.148 0.275 0.455 0.708 1.074 1.642 2.072 2.706 3.170 3.841 5.024 6.635 7.879 10.83 12.12
2 0.0010 0.0020 0.0100 0.0201 0.0506 0.103 0.156 0.211 0.325 0.446 0.713 1.022 1.386 1.833 2.408 3.219 3.794 4.605 5.181 5.991 7.378 9.210 10.60 13.82 15.20
3 0.0153 0.0243 0.0717 0.115 0.216 0.352 0.472 0.584 0.798 1.005 1.424 1.869 2.366 2.946 3.665 4.642 5.317 6.251 6.905 7.815 9.348 11.34 12.84 16.27 17.73
4 0.0639 0.0908 0.207 0.297 0.484 0.711 0.897 1.064 1.366 1.649 2.195 2.753 3.357 4.045 4.878 5.989 6.745 7.779 8.496 9.488 11.14 13.28 14.86 18.47 20.00
5 0.158 0.210 0.412 0.554 0.831 1.145 1.394 1.610 1.994 2.343 3.000 3.656 4.351 5.132 6.064 7.289 8.115 9.236 10.01 11.07 12.83 15.09 16.75 20.51 22.11
6 0.299 0.381 0.676 0.872 1.237 1.635 1.941 2.204 2.661 3.070 3.828 4.570 5.348 6.211 7.231 8.558 9.446 10.64 11.47 12.59 14.45 16.81 18.55 22.46 24.10
7 0.485 0.599 0.989 1.239 1.690 2.167 2.528 2.833 3.358 3.822 4.671 5.493 6.346 7.283 8.383 9.803 10.75 12.02 12.88 14.07 16.01 18.48 20.28 24.32 26.02
8 0.710 0.857 1.344 1.647 2.180 2.733 3.144 3.490 4.078 4.594 5.527 6.423 7.344 8.351 9.524 11.03 12.03 13.36 14.27 15.51 17.53 20.09 21.95 26.12 27.87
9 0.972 1.152 1.735 2.088 2.700 3.325 3.785 4.168 4.817 5.380 6.393 7.357 8.343 9.414 10.66 12.24 13.29 14.68 15.63 16.92 19.02 21.67 23.59 27.88 29.67
10 1.265 1.479 2.156 2.558 3.247 3.940 4.446 4.865 5.570 6.179 7.267 8.295 9.342 10.47 11.78 13.44 14.53 15.99 16.97 18.31 20.48 23.21 25.19 29.59 31.42
11 1.587 1.834 2.603 3.053 3.816 4.575 5.124 5.578 6.336 6.989 8.148 9.237 10.34 11.53 12.90 14.63 15.77 17.28 18.29 19.68 21.92 24.73 26.76 31.26 33.14
12 1.935 2.214 3.074 3.571 4.404 5.226 5.818 6.304 7.114 7.807 9.034 10.18 11.34 12.58 14.01 15.81 16.99 18.55 19.60 21.03 23.34 26.22 28.30 32.91 34.82
13 2.305 2.617 3.565 4.107 5.009 5.892 6.524 7.041 7.901 8.634 9.926 11.13 12.34 13.64 15.12 16.98 18.20 19.81 20.90 22.36 24.74 27.69 29.82 34.53 36.48
14 2.697 3.041 4.075 4.660 5.629 6.571 7.242 7.790 8.696 9.467 10.82 12.08 13.34 14.69 16.22 18.15 19.41 21.06 22.18 23.68 26.12 29.14 31.32 36.12 38.11
15 3.107 3.483 4.601 5.229 6.262 7.261 7.969 8.547 9.499 10.31 11.72 13.03 14.34 15.73 17.32 19.31 20.60 22.31 23.45 25.00 27.49 30.58 32.80 37.70 39.72
16 3.536 3.942 5.142 5.812 6.908 7.962 8.707 9.312 10.31 11.15 12.62 13.98 15.34 16.78 18.42 20.47 21.79 23.54 24.72 26.30 28.85 32.00 34.27 39.25 41.31
17 3.980 4.416 5.697 6.408 7.564 8.672 9.452 10.09 11.12 12.00 13.53 14.94 16.34 17.82 19.51 21.61 22.98 24.77 25.97 27.59 30.19 33.41 35.72 40.79 42.88
18 4.439 4.905 6.265 7.015 8.231 9.390 10.21 10.86 11.95 12.86 14.44 15.89 17.34 18.87 20.60 22.76 24.16 25.99 27.22 28.87 31.53 34.81 37.16 42.31 44.43
19 4.913 5.407 6.844 7.633 8.907 10.12 10.97 11.65 12.77 13.72 15.35 16.85 18.34 19.91 21.69 23.90 25.33 27.20 28.46 30.14 32.85 36.19 38.58 43.82 45.97
20 5.398 5.921 7.434 8.260 9.591 10.85 11.73 12.44 13.60 14.58 16.27 17.81 19.34 20.95 22.77 25.04 26.50 28.41 29.69 31.41 34.17 37.57 40.00 45.31 47.50
21 5.895 6.447 8.034 8.897 10.28 11.59 12.50 13.24 14.44 15.44 17.18 18.77 20.34 21.99 23.86 26.17 27.66 29.62 30.92 32.67 35.48 38.93 41.40 46.80 49.01
22 6.404 6.983 8.643 9.542 10.98 12.34 13.28 14.04 15.28 16.31 18.10 19.73 21.34 23.03 24.94 27.30 28.82 30.81 32.14 33.92 36.78 40.29 42.80 48.27 50.51

xxii
23 6.924 7.529 9.260 10.20 11.69 13.09 14.06 14.85 16.12 17.19 19.02 20.69 22.34 24.07 26.02 28.43 29.98 32.01 33.36 35.17 38.08 41.64 44.18 49.73 52.00
24 7.453 8.085 9.886 10.86 12.40 13.85 14.85 15.66 16.97 18.06 19.94 21.65 23.34 25.11 27.10 29.55 31.13 33.20 34.57 36.42 39.36 42.98 45.56 51.18 53.48
25 7.991 8.649 10.52 11.52 13.12 14.61 15.64 16.47 17.82 18.94 20.87 22.62 24.34 26.14 28.17 30.68 32.28 34.38 35.78 37.65 40.65 44.31 46.93 52.62 54.95
26 8.537 9.222 11.16 12.20 13.84 15.38 16.44 17.29 18.67 19.82 21.79 23.58 25.34 27.18 29.25 31.79 33.43 35.56 36.98 38.89 41.92 45.64 48.29 54.05 56.41
27 9.093 9.803 11.81 12.88 14.57 16.15 17.24 18.11 19.53 20.70 22.72 24.54 26.34 28.21 30.32 32.91 34.57 36.74 38.18 40.11 43.19 46.96 49.65 55.48 57.86
28 9.656 10.39 12.46 13.56 15.31 16.93 18.05 18.94 20.39 21.59 23.65 25.51 27.34 29.25 31.39 34.03 35.71 37.92 39.38 41.34 44.46 48.28 50.99 56.89 59.30
29 10.23 10.99 13.12 14.26 16.05 17.71 18.85 19.77 21.25 22.48 24.58 26.48 28.34 30.28 32.46 35.14 36.85 39.09 40.57 42.56 45.72 49.59 52.34 58.30 60.73
30 10.80 11.59 13.79 14.95 16.79 18.49 19.66 20.60 22.11 23.36 25.51 27.44 29.34 31.32 33.53 36.25 37.99 40.26 41.76 43.77 46.98 50.89 53.67 59.70 62.16
31 11.39 12.20 14.46 15.66 17.54 19.28 20.48 21.43 22.98 24.26 26.44 28.41 30.34 32.35 34.60 37.36 39.12 41.42 42.95 44.99 48.23 52.19 55.00 61.10 63.58
32 11.98 12.81 15.13 16.36 18.29 20.07 21.30 22.27 23.84 25.15 27.37 29.38 31.34 33.38 35.66 38.47 40.26 42.58 44.13 46.19 49.48 53.49 56.33 62.49 64.99
33 12.58 13.43 15.82 17.07 19.05 20.87 22.12 23.11 24.71 26.04 28.31 30.34 32.34 34.41 36.73 39.57 41.39 43.75 45.31 47.40 50.73 54.78 57.65 63.87 66.40
34 13.18 14.06 16.50 17.79 19.81 21.66 22.94 23.95 25.59 26.94 29.24 31.31 33.34 35.44 37.80 40.68 42.51 44.90 46.49 48.60 51.97 56.06 58.96 65.25 67.80
35 13.79 14.69 17.19 18.51 20.57 22.47 23.76 24.80 26.46 27.84 30.18 32.28 34.34 36.47 38.86 41.78 43.64 46.06 47.66 49.80 53.20 57.34 60.27 66.62 69.20
36 14.40 15.32 17.89 19.23 21.34 23.27 24.59 25.64 27.34 28.73 31.12 33.25 35.34 37.50 39.92 42.88 44.76 47.21 48.84 51.00 54.44 58.62 61.58 67.98 70.59
37 15.02 15.97 18.59 19.96 22.11 24.07 25.42 26.49 28.21 29.64 32.05 34.22 36.34 38.53 40.98 43.98 45.89 48.36 50.01 52.19 55.67 59.89 62.88 69.35 71.97
38 15.64 16.61 19.29 20.69 22.88 24.88 26.25 27.34 29.09 30.54 32.99 35.19 37.34 39.56 42.05 45.08 47.01 49.51 51.17 53.38 56.90 61.16 64.18 70.70 73.35
39 16.27 17.26 20.00 21.43 23.65 25.70 27.09 28.20 29.97 31.44 33.93 36.16 38.34 40.59 43.11 46.17 48.13 50.66 52.34 54.57 58.12 62.43 65.48 72.06 74.72
40 16.91 17.92 20.71 22.16 24.43 26.51 27.93 29.05 30.86 32.34 34.87 37.13 39.34 41.62 44.16 47.27 49.24 51.81 53.50 55.76 59.34 63.69 66.77 73.40 76.10
50 23.46 24.67 27.99 29.71 32.36 34.76 36.40 37.69 39.75 41.45 44.31 46.86 49.33 51.89 54.72 58.16 60.35 63.17 65.03 67.50 71.42 76.15 79.49 86.66 89.56
60 30.34 31.74 35.53 37.48 40.48 43.19 45.02 46.46 48.76 50.64 53.81 56.62 59.33 62.13 65.23 68.97 71.34 74.40 76.41 79.08 83.30 88.38 91.95 99.61 102.7
70 37.47 39.04 43.28 45.44 48.76 51.74 53.75 55.33 57.84 59.90 63.35 66.40 69.33 72.36 75.69 79.71 82.26 85.53 87.68 90.53 95.02 100.4 104.2 112.3 115.6
80 44.79 46.52 51.17 53.54 57.15 60.39 62.57 64.28 66.99 69.21 72.92 76.19 79.33 82.57 86.12 90.41 93.11 96.58 98.86 101.9 106.6 112.3 116.3 124.8 128.3
90 52.28 54.16 59.20 61.75 65.65 69.13 71.46 73.29 76.20 78.56 82.51 85.99 89.33 92.76 96.52 101.1 103.9 107.6 110.0 113.1 118.1 124.1 128.3 137.2 140.8
100 59.89 61.92 67.33 70.06 74.22 77.93 80.41 82.36 85.44 87.95 92.13 95.81 99.33 102.9 106.9 111.7 114.7 118.5 121.0 124.3 129.6 135.8 140.2 149.4 153.2
120 75.47 77.76 83.85 86.92 91.57 95.70 98.46 100.6 104.0 106.8 111.4 115.5 119.3 123.3 127.6 132.8 136.1 140.2 143.0 146.6 152.2 159.0 163.6 173.6 177.6
150 99.46 102.1 109.1 112.7 118.0 122.7 125.8 128.3 132.1 135.3 140.5 145.0 149.3 153.8 158.6 164.3 168.0 172.6 175.6 179.6 185.8 193.2 198.4 209.3 213.6
200 140.7 143.8 152.2 156.4 162.7 168.3 172.0 174.8 179.4 183.0 189.0 194.3 199.3 204.4 210.0 216.6 220.7 226.0 229.5 234.0 241.1 249.4 255.3 267.5 272.4
Tabela T6a: Quantis da função de distribuição F de Snedcor
X ∼ F(n,m) : xp = FX−1 (p) com p = 0.90

m\n 1 2 3 4 5 6 7 8 9 10 20 40 120 ∞
1 40 50 54 56 57 58 59 59 60 60 62 63 63 63
2 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.44 9.47 9.48 9.49
3 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.18 5.16 5.14 5.13
4 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 3.92 3.84 3.80 3.78 3.76
5 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.21 3.16 3.12 3.11
6 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.84 2.78 2.74 2.72
7 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 2.59 2.54 2.49 2.47
8 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 2.54 2.42 2.36 2.32 2.29
9 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 2.42 2.30 2.23 2.18 2.16
10 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 2.32 2.20 2.13 2.08 2.06
11 3.23 2.86 2.66 2.54 2.45 2.39 2.34 2.30 2.27 2.25 2.12 2.05 2.00 1.97
12 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19 2.06 1.99 1.93 1.90
13 3.14 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16 2.14 2.01 1.93 1.88 1.85
14 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 2.10 1.96 1.89 1.83 1.80
15 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06 1.92 1.85 1.79 1.76
16 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06 2.03 1.89 1.81 1.75 1.72
17 3.03 2.64 2.44 2.31 2.22 2.15 2.10 2.06 2.03 2.00 1.86 1.78 1.72 1.69
18 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 1.84 1.75 1.69 1.66
19 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 1.96 1.81 1.73 1.67 1.63
20 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 1.79 1.71 1.64 1.61
21 2.96 2.57 2.36 2.23 2.14 2.08 2.02 1.98 1.95 1.92 1.78 1.69 1.62 1.59
22 2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93 1.90 1.76 1.67 1.60 1.57
23 2.94 2.55 2.34 2.21 2.11 2.05 1.99 1.95 1.92 1.89 1.74 1.66 1.59 1.55
24 2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91 1.88 1.73 1.64 1.57 1.53
25 2.92 2.53 2.32 2.18 2.09 2.02 1.97 1.93 1.89 1.87 1.72 1.63 1.56 1.52
26 2.91 2.52 2.31 2.17 2.08 2.01 1.96 1.92 1.88 1.86 1.71 1.61 1.54 1.50
27 2.90 2.51 2.30 2.17 2.07 2.00 1.95 1.91 1.87 1.85 1.70 1.60 1.53 1.49
28 2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87 1.84 1.69 1.59 1.52 1.48
29 2.89 2.50 2.28 2.15 2.06 1.99 1.93 1.89 1.86 1.83 1.68 1.58 1.51 1.47
30 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 1.82 1.67 1.57 1.50 1.46
31 2.87 2.48 2.27 2.14 2.04 1.97 1.92 1.88 1.84 1.81 1.66 1.56 1.49 1.45
32 2.87 2.48 2.26 2.13 2.04 1.97 1.91 1.87 1.83 1.81 1.65 1.56 1.48 1.44
33 2.86 2.47 2.26 2.12 2.03 1.96 1.91 1.86 1.83 1.80 1.64 1.55 1.47 1.43
34 2.86 2.47 2.25 2.12 2.02 1.96 1.90 1.86 1.82 1.79 1.64 1.54 1.46 1.42
35 2.85 2.46 2.25 2.11 2.02 1.95 1.90 1.85 1.82 1.79 1.63 1.53 1.46 1.41
36 2.85 2.46 2.24 2.11 2.01 1.94 1.89 1.85 1.81 1.78 1.63 1.53 1.45 1.40
37 2.85 2.45 2.24 2.10 2.01 1.94 1.89 1.84 1.81 1.78 1.62 1.52 1.44 1.40
38 2.84 2.45 2.23 2.10 2.01 1.94 1.88 1.84 1.80 1.77 1.61 1.52 1.44 1.39
39 2.84 2.44 2.23 2.09 2.00 1.93 1.88 1.83 1.80 1.77 1.61 1.51 1.43 1.38
40 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76 1.61 1.51 1.42 1.38
45 2.82 2.42 2.21 2.07 1.98 1.91 1.85 1.81 1.77 1.74 1.58 1.48 1.40 1.35
50 2.81 2.41 2.20 2.06 1.97 1.90 1.84 1.80 1.76 1.73 1.57 1.46 1.38 1.33
55 2.80 2.40 2.19 2.05 1.95 1.88 1.83 1.78 1.75 1.72 1.55 1.45 1.36 1.31
60 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71 1.54 1.44 1.35 1.29
70 2.78 2.38 2.16 2.03 1.93 1.86 1.80 1.76 1.72 1.69 1.53 1.42 1.32 1.27
80 2.77 2.37 2.15 2.02 1.92 1.85 1.79 1.75 1.71 1.68 1.51 1.40 1.31 1.25
90 2.76 2.36 2.15 2.01 1.91 1.84 1.78 1.74 1.70 1.67 1.50 1.39 1.29 1.23
100 2.76 2.36 2.14 2.00 1.91 1.83 1.78 1.73 1.69 1.66 1.49 1.38 1.28 1.22
110 2.75 2.35 2.13 2.00 1.90 1.83 1.77 1.73 1.69 1.66 1.49 1.37 1.27 1.20
120 2.75 2.35 2.13 1.99 1.90 1.82 1.77 1.72 1.68 1.65 1.48 1.37 1.26 1.19
∞ 2.71 2.30 2.08 1.95 1.85 1.77 1.72 1.67 1.63 1.60 1.42 1.30 1.17 1.03

xxiii
Tabela T6b: Quantis da função de distribuição F de Snedcor
X ∼ F(n,m) : xp = FX−1 (p) com p = 0.95

m\n 1 2 3 4 5 6 7 8 9 10 20 40 120 ∞
1 161 199 216 225 230 234 237 239 241 242 248 251 253 254
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.45 19.47 19.49 19.50
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.66 8.59 8.55 8.53
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.80 5.72 5.66 5.63
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.56 4.46 4.40 4.37
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 3.87 3.77 3.70 3.67
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.44 3.34 3.27 3.23
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.15 3.04 2.97 2.93
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 2.94 2.83 2.75 2.71
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.77 2.66 2.58 2.54
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.65 2.53 2.45 2.41
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.54 2.43 2.34 2.30
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.46 2.34 2.25 2.21
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.39 2.27 2.18 2.13
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.33 2.20 2.11 2.07
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.28 2.15 2.06 2.01
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.23 2.10 2.01 1.96
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.19 2.06 1.97 1.92
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.16 2.03 1.93 1.88
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.12 1.99 1.90 1.84
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.10 1.96 1.87 1.81
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.07 1.94 1.84 1.78
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.05 1.91 1.81 1.76
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.03 1.89 1.79 1.73
25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.01 1.87 1.77 1.71
26 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 1.99 1.85 1.75 1.69
27 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 1.97 1.84 1.73 1.67
28 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 1.96 1.82 1.71 1.65
29 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 1.94 1.81 1.70 1.64
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 1.93 1.79 1.68 1.62
31 4.16 3.30 2.91 2.68 2.52 2.41 2.32 2.25 2.20 2.15 1.92 1.78 1.67 1.61
32 4.15 3.29 2.90 2.67 2.51 2.40 2.31 2.24 2.19 2.14 1.91 1.77 1.66 1.60
33 4.14 3.28 2.89 2.66 2.50 2.39 2.30 2.23 2.18 2.13 1.90 1.76 1.64 1.58
34 4.13 3.28 2.88 2.65 2.49 2.38 2.29 2.23 2.17 2.12 1.89 1.75 1.63 1.57
35 4.12 3.27 2.87 2.64 2.49 2.37 2.29 2.22 2.16 2.11 1.88 1.74 1.62 1.56
36 4.11 3.26 2.87 2.63 2.48 2.36 2.28 2.21 2.15 2.11 1.87 1.73 1.61 1.55
37 4.11 3.25 2.86 2.63 2.47 2.36 2.27 2.20 2.14 2.10 1.86 1.72 1.60 1.54
38 4.10 3.24 2.85 2.62 2.46 2.35 2.26 2.19 2.14 2.09 1.85 1.71 1.59 1.53
39 4.09 3.24 2.85 2.61 2.46 2.34 2.26 2.19 2.13 2.08 1.85 1.70 1.58 1.52
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 1.84 1.69 1.58 1.51
45 4.06 3.20 2.81 2.58 2.42 2.31 2.22 2.15 2.10 2.05 1.81 1.66 1.54 1.47
50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.03 1.78 1.63 1.51 1.44
55 4.02 3.16 2.77 2.54 2.38 2.27 2.18 2.11 2.06 2.01 1.76 1.61 1.49 1.41
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.75 1.59 1.47 1.39
70 3.98 3.13 2.74 2.50 2.35 2.23 2.14 2.07 2.02 1.97 1.72 1.57 1.44 1.35
80 3.96 3.11 2.72 2.49 2.33 2.21 2.13 2.06 2.00 1.95 1.70 1.54 1.41 1.33
90 3.95 3.10 2.71 2.47 2.32 2.20 2.11 2.04 1.99 1.94 1.69 1.53 1.39 1.30
100 3.94 3.09 2.70 2.46 2.31 2.19 2.10 2.03 1.97 1.93 1.68 1.52 1.38 1.28
110 3.93 3.08 2.69 2.45 2.30 2.18 2.09 2.02 1.97 1.92 1.67 1.50 1.36 1.27
120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91 1.66 1.50 1.35 1.26
∞ 3.84 3.00 2.61 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.57 1.40 1.22 1.03

xxiv
Tabela T6c: Quantis da função de distribuição F de Snedcor
X ∼ F(n,m) : xp = FX−1 (p) com p = 0.99

m\n 1 2 3 4 5 6 7 8 9 10 20 40 120 ∞
1 4052 4999 5404 5624 5764 5859 5928 5981 6022 6056 6209 6286 6340 6366
2 98.50 99.00 99.16 99.25 99.30 99.33 99.36 99.38 99.39 99.40 99.45 99.48 99.49 99.50
3 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23 26.69 26.41 26.22 26.13
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.02 13.75 13.56 13.46
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.55 9.29 9.11 9.02
6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.40 7.14 6.97 6.88
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.16 5.91 5.74 5.65
8 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.36 5.12 4.95 4.86
9 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 4.81 4.57 4.40 4.31
10 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.41 4.17 4.00 3.91
11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.10 3.86 3.69 3.60
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 3.86 3.62 3.45 3.36
13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.66 3.43 3.25 3.17
14 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.51 3.27 3.09 3.01
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.37 3.13 2.96 2.87
16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.26 3.02 2.84 2.75
17 8.40 6.11 5.19 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.16 2.92 2.75 2.65
18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.08 2.84 2.66 2.57
19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.00 2.76 2.58 2.49
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 2.94 2.69 2.52 2.42
21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 2.88 2.64 2.46 2.36
22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 2.83 2.58 2.40 2.31
23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 2.78 2.54 2.35 2.26
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 2.74 2.49 2.31 2.21
25 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 3.13 2.70 2.45 2.27 2.17
26 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 2.66 2.42 2.23 2.13
27 7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15 3.06 2.63 2.38 2.20 2.10
28 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 3.03 2.60 2.35 2.17 2.07
29 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09 3.00 2.57 2.33 2.14 2.04
30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.55 2.30 2.11 2.01
31 7.53 5.36 4.48 3.99 3.67 3.45 3.28 3.15 3.04 2.96 2.52 2.27 2.09 1.98
32 7.50 5.34 4.46 3.97 3.65 3.43 3.26 3.13 3.02 2.93 2.50 2.25 2.06 1.96
33 7.47 5.31 4.44 3.95 3.63 3.41 3.24 3.11 3.00 2.91 2.48 2.23 2.04 1.93
34 7.44 5.29 4.42 3.93 3.61 3.39 3.22 3.09 2.98 2.89 2.46 2.21 2.02 1.91
35 7.42 5.27 4.40 3.91 3.59 3.37 3.20 3.07 2.96 2.88 2.44 2.19 2.00 1.89
36 7.40 5.25 4.38 3.89 3.57 3.35 3.18 3.05 2.95 2.86 2.43 2.18 1.98 1.87
37 7.37 5.23 4.36 3.87 3.56 3.33 3.17 3.04 2.93 2.84 2.41 2.16 1.96 1.86
38 7.35 5.21 4.34 3.86 3.54 3.32 3.15 3.02 2.92 2.83 2.40 2.14 1.95 1.84
39 7.33 5.19 4.33 3.84 3.53 3.30 3.14 3.01 2.90 2.81 2.38 2.13 1.93 1.82
40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.37 2.11 1.92 1.81
45 7.23 5.11 4.25 3.77 3.45 3.23 3.07 2.94 2.83 2.74 2.31 2.05 1.85 1.74
50 7.17 5.06 4.20 3.72 3.41 3.19 3.02 2.89 2.78 2.70 2.27 2.01 1.80 1.68
55 7.12 5.01 4.16 3.68 3.37 3.15 2.98 2.85 2.75 2.66 2.23 1.97 1.76 1.64
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.20 1.94 1.73 1.60
70 7.01 4.92 4.07 3.60 3.29 3.07 2.91 2.78 2.67 2.59 2.15 1.89 1.67 1.54
80 6.96 4.88 4.04 3.56 3.26 3.04 2.87 2.74 2.64 2.55 2.12 1.85 1.63 1.50
90 6.93 4.85 4.01 3.53 3.23 3.01 2.84 2.72 2.61 2.52 2.09 1.82 1.60 1.46
100 6.90 4.82 3.98 3.51 3.21 2.99 2.82 2.69 2.59 2.50 2.07 1.80 1.57 1.43
110 6.87 4.80 3.96 3.49 3.19 2.97 2.81 2.68 2.57 2.49 2.05 1.78 1.55 1.40
120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.03 1.76 1.53 1.38
∞ 6.64 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 1.88 1.59 1.33 1.05

xxv

Você também pode gostar