Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
Clássica e moderna
Notas de aula
fevereiro 2009
Fernando Lucambio
Departamento de Estatı́stica
Universidade Federal do Paraná
Curitiba/PR, 81531–990, Brasil
email: lucambio@ufpr.br
2
Sumário
2 Função de verossimilhança 35
2.1 Estimador de máxima verossimilhança . . . . . . . . . . . . . . . . . . . . 35
2.1.1 Estimação numêrica . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.1.2 Propriedades do estimador de máxima verossimilhança . . . . . . . 38
2.1.3 Correções para o vı́cio em amostras pequenas . . . . . . . . . . . . 42
2.2 Outras funções de verossimilhança . . . . . . . . . . . . . . . . . . . . . . . 45
2.2.1 Quase verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.2.2 Verossimilhança perfilada . . . . . . . . . . . . . . . . . . . . . . . 45
2.2.3 Distribuição geral do erro . . . . . . . . . . . . . . . . . . . . . . . 50
3
4 SUMÁRIO
Referências Bibliográficas 68
Capı́tulo 1
5
6 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA
Dado que o objetivo de estimação é procurar, segundo algum critério, valores que
representem adequadamente os parâmetros desconhecidos devemos escolher dentre todas as
possı́veis estatı́sticas aquelas que assumam valores no espaço paramêtrico, estas estatı́sticas
são denominadas estimadores e definidos rigorosamente a continuação.
Exemplo 2 Seja X1 , . . . , Xn é uma amostra aleatória com função de densidade U(0, θ),
ou seja, uniforme de parâmetro desconhecido θ. As funções
(i) X(1) = min(X1 , . . . , Xn )
(ii) X(n) = max(X1 , . . . , Xn )
e = med(X1 , . . . , Xn )
(iii) X
P
(iv) X = n1 ni=1 Xi
são estimadores de θ. As funções min(·), max(·) e med(·) denotam, respectivamente, o
mı́nimo, máximo e a mediana amostral observada.
e assumem valores no espaço paramêtrico Θ = (0, θ) e
É fácil provar que X(1) , X(n) e X
portanto são estimadores de θ. Por outro lado, X(1) ≤ X ≤ X(n) , sendo também a média
amostral estimador para θ.
Destes exemplos percebemos claramente que precissamos alguns critérios para poder
decidir qual estimador escolher. Na próxima seção consideraremos algumas propriedades
desejáveis dos estimadores e posteriormente conheceremos diversos métodos para encon-
trarlos.
2
Definimos como amostra aleatória um conjunto de variáveis aleatórias independentes igualmente dis-
tribuı́das.
1.1. ESTIMAÇÃO PONTUAL 7
P
Lembremos que Tn −→ θ se e somente se Pr{|Tn − θ| > ǫ} → 0 quando n → ∞ para
q.c.
qualquer ǫ > 0. Podemos definir consistencia forte quando Tn −→ θ e consistencia em
r
r-ésima média se Tn −→ θ. Neste contexto entenderemos estimadores consistentes àqueles
consistentes fracamente, ou seja, àqueles que satisfazem a convergência em probabilidade.
Desta forma provamos que a média amostral X é um estimador consistente para θ. Também
P P
( ni=1 Xi +1)/(n+2) −→ θ, portanto o estimador consistente não é necessariamente único.
P P
Mais ainda, se Tn −→ θ e cn → 0 quando n → ∞ temos que Tn + cn −→ θ e se cn → 1
P
quando n → ∞ também temos que cn Tn −→ θ.
Observemos que a afirmação deste teorema implica calcular a esperança e variancia do
estimador que se quer provar consistente e posteriormente mostrar que limn→∞ E{Tn } = θ e
que limn→∞ var{Tn } = 0. Agora, e se a distribuição de probabilidades da variável não tiver
média finita, isso implica que não existira estimador consistente? a resposta é negativa no
sentido de que a esperança pode não existir e mesmo assim existir estimador consistente
para os parâmetros da distribuição.
Um exemplo é a distribuição Cauchy a qual, sabidamente, não tem momentos finitos.
Embora a média e momentos superiores sejam infinitos a mediana amostral é um estimador
consistente. Seja X1 , . . . , Xn uma amostra aletaória da distribuição Cauchy com densidade
A mediana amostral, definida como o ..........
Exercı́cios
1
Pn
1. Prove que o estimador n(n+1) i=1 iXi não é consistente para θ, cada Xi ∼ P oisson(θ),
i = 1, . . . , n.
realizar esta tarefa o estatı́stico concentra a informação contida nos dados em algumas
estatı́sticas, desde que não tenha perda de informação ao realizar isso.
As estatı́sticas que ao utilizar-las não incorremos em perda de informação são chama-
das de estatı́sticas suficientes. Por exemplo, suponamos que observamos um processo de
manufatura no qual anotamos se uma peça produzida esta conforme as especificações ou
não, neste caso observamos uma amostra X1 , . . . , Xn na qual cada Xi = 1 se o i-ésimo ı́tem
observado é defeituoso
Pn e Xi = 0 caso contrário. É intuitivo que o número total de ı́tens
observados T = i=1 Xi é uma estatı́stica que se for utilizada para entender o experimento
garante que não tenhamos perda de informação.
e, desta forma, provamos que a distribuição de X|S não depende de θ, logo S é uma
estatı́stica suficiente para θ.
Pr{X1 = 0, X2 = 1; θ}
Pr{X1 = 0, X2 = 1|X1 + 2X2 = 2; θ} =
Pr{X1 + 2X2 = 2; θ}
e−θ (θe−θ )
=
Pr{X1 = 0, X2 = 1; θ} + Pr{X1 = 2, X2 = 0; θ}
θe−2θ 1
= −2θ 2 −2θ
= ,
θe + (θ /2)e 1 + (θ/2)
Prova Consideremos que as variáveis aleatórias são discretas. Seja T uma estatı́stica
suficiente para θ. Então, pela definição, Pr{X = x|T = t} não depende de θ e podemos
escrever
Pr{X = x; θ} = Pr{X = x, T = t; θ}
= Pr{T = t; θ}Pr{X = x|T = t},
e também definimos
g(T (x); θ) = Pr{T = t; θ},
do qual obtemos (1.1).
1.1. ESTIMAÇÃO PONTUAL 11
Exercı́cios
1. Seja X1 , . . . , Xn uma amostra aleatória com função de densidade
x 2 2
f (x; θ) = 2 e−x /2θ ,
θ
12 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA
onde x > 0 e θ > 0, esta é a função de densidade Rayleigh. Encontre uma estatı́stica
suficiente para θ.
f (x; θ) = θx(θ−1) ,
4. Seja X1 , . . . , Xn uma amostra aleatória com função de densidade U(0, θ). Prove que
X(n) é uma estatı́stica suficiente para θ.
Mais geral ainda, seja d(θ) uma função do parâmetro, dizemos que θb é um estatimador
não viciado para d(θ) se
E{θ}b = d(θ),
b
para toda θ ∈ Θ. Um estimador que não satisfaz (1.2) é dito viciado e a função Bn (θ),
definida como
b = E{θ}
Bn (θ) b −θ
ou
b = E{θ}
Bn (θ) b − d(θ),
Exemplo 5 Seja X1 , . . . , Xn uma amostra aleatória de uma população com média finita.
A média amostral X é um estimador não viciado para a média populacional. Se esta mesma
população tiver variancia finita, a variancia amostral S 2 é um estimador não viciado para
a variancia populacional. Em geral, se o k-ésimo momento poulacional µk existe, o k-ésimo
momento amostral é não viciado para µk .
1.1. ESTIMAÇÃO PONTUAL 13
Se T é uma estatı́stica não viciada para θ, em geral g(T ) é uma estatı́stica viciada para
g(θ), a menos que g seja uma função linear. Vejamos isto, g é uma função linear de θ se
existirem constantes a e b tais que
g(θ) = a + bθ·
N(µ, σ 2 ). Provemos
Exemplo 6 Seja X1 , . . . , Xn uma amostra aleatória√da distribuiçãoP
que S, o desvio padrão amostral, definido como S = S 2 , onde S 2 = ni=1 (Xi − X)2 /(n −
2 2 2
√ é um estimador viciado para σ. Sabemos que (n − 1)S /σ ∼ χ (n − 1) e, assim
1)
n − 1S/σ ∼ χ(n − 1), esta última chamada de distribuição qui com n − 1 graus de
liberdade, que satisfaz (Stuart & Ord, 1987)
σµ′
E{S} = √ ,
n−1
onde
√ Γ(n/2)
µ′ = 2
Γ((n − 1)/2)
e
(n − 2)!!2
E{S} = σ √ ,
n − 1(n − 2)!
portanto S é um estimador viciado para σ.
EQM{θb1 } ≤ EQM{θb2 },
para todo θ ∈ Θ, com EQM{θb1 } < EQM{θb2 } pelo menos para um valor de θ.
Exemplo 7 A função de densidade exponencial pode ser escrita como f (x; θ) = θe−θx ,
para x e θ estritamente positivos. Sob estas condições E{X} = 1/θ e var{X} = 1/θ2 .
Obtemos então que a média amostal X é um estimador não viciado para d(θ) = 1/θ.
2
Observemos que var{X} = E2 {X}, logo seria natural pensar que X poderia servir como
estimador não viciado da variancia. Acontece que
2 n+1 1
E{X } = ,
n θ2
2
e desta forma mostramos que X é somente assintoticamente não viciado para d(θ) = 1/θ2 .
2
Aqui o vı́cio é Bn (X ) = (n − 2)/n.
EQM{θb∗ } ≤ EQM{θ},
b (1.4)
para todo θ ∈ Θ e todo θ, b e que para pelo menos um valor de θ a desigualdade é estrita,
então θb é dito ser ótimo em EQM para θ.
∗
θ(1 − θ)
EQM{θb1 } = var{X} = ·
n
Por outro lado,
√ √
b nθ + n/2 n n/2
E{θ2 } = √ = √ θ+ √ ,
n+ n n+ n n+ n
Devemos notar que o EQM de θb2 independe de θ e que nenhum estimador é melhor
do que o outropem todo√o espaço √
paramêtrico, ou seja, nenhum destes é o ótimo já que
se
p |θ − 1/2| > n(1 + 2 n)/(n + n)2 /2 temos EQM{θb2 } < EQM{θb1 } e se |θ − 1/2| <
√ √ 2
n(1 + 2 n)/(n + n) /2 temos EQM{θb2 } > EQM{θb1 }.
Exercı́cios
1. Sejam X1 , . . . , Xn variáveis aleatórias tais que E{Xi } = θ. Mostre que
X n
2
θb = iXi ,
n(n + 1) i=1
2. Seja X1 , . . . , Xn uma amostra aleatória com função de densidade U(0, θ). Mostre que
θb = 2X é não viciado para θ.
4. Seja X1 , . . . , Xn uma amostra aleatória com função de densidade N(θ, 1). Considere
os estimadores θb1 = X e θb2 = n. Encontre o EQM de θb1 e θb2 como função de θ,
algúm deles é ótimo?
Seja X1 , . . . , Xn uma amostra aleatória com função de densidade N(0, θ). Seja S 2 =
5. P
n 2
i=1 Xi . Considere os estimadores
θbc = cS 2 ·
var{θb0 } ≤ var{θ},
b
E{θb0 θ}
b = 0,
Este teorema é extremamente difı́cil de ser utilizado em situações práticas, por esse
motivo procuram-se alternativas. Estas alternativas objetivam encontrar de maneira indi-
reta os estimadores não viciados uniformemente de mı́nima variancia, a maneira indireta
encontrada é através de desigualdades que procuram encontrar limites inferiores para a
variancia de estimadores.
para todo θ ∈ Θ.
e, portanto, o limite inferior para a variancia do estimador θb pode ser escrito como
−1
b ≥E ∂ 2 log f (X; θ)
var{θ} ,
∂θ2
Também
∂ nx n(1 − x)
{nx log θ + n(1 − x) log(1 − θ)} = − ,
∂θ θ 1−θ
e
∂2 nx n(1 − x)
2
{nx log θ + n(1 − x) log(1 − θ)} = − 2 − .
∂θ θ (1 − θ)2
Por tanto,
b ≥ θ(1 − θ)
var{θ} ,
n
sendo θb qualquer estimador não viciado de θ. Por outro lado, sabemos que
θ(1 − θ)
var{X} = ,
n
Então
b ≥ [ψ(ϕ) − ψ(θ)]2
var{θ} sup ,
{ϕ:S(ϕ)⊂S(θ),ϕ6=θ} var{f (X; ϕ)/f (X; θ)}
para todo θ ∈ Θ.
Exemplo 10 Seja X ∼ U(0, θ). Se ψ < θ, temos que f (x; θ) 6= f (x; ϕ) e S(ψ) ⊂ S(θ).
Então
2 2
b ≥ sup (ϕ − θ) = sup {ϕ(θ − ϕ)} = θ ·
var{θ}
ϕ:ϕ<θ (θ/ϕ) − 1 ϕ:ϕ<θ 4
Se, por exemplo, θb = 2X,
θ2 θ2
var{2X} = 4var{X} = ≥ ·
3 4
2
Pode-se demonstrar que o limite inferior θ /4 não é atingido por nenhum estimador não
viciado para θ.
Definição 11 (Estimador eficiente) Sejam θb1 e θb2 dois estimadores não viciados para
o mesmo parâmetro θ de segundo momento finito. Definimos a eficiência de θb1 em relação
a θb2 como
var{θb1 }
eff{θb1 ; θb2 } = , (1.8)
var{θb2 }
e diremos que θb1 é mais eficiênte do que θb2 se
eff{θb1 ; θb2 } < 1· (1.9)
Exemplo 11 Seja X1 , . . . , Xn uma amostra aleatória da função Pde probabilidade Bernoulli
b b n
de parâmetro θ. Consideremos os estimadores θ1 = X e θ2 = i=1 X 2 /n. Ambos são não
viciados para θ e
θ(1 − θ)
var{θb1 } = var{θb2 } = ·
n
Desta forma eff{θb1 ; θb2 } = 1. Portanto ambos tem a mesma eficiência.
Definição 12 Assumindo que as condições de regularidade sejam satisfeitas para a famı́lia
de distribuições {Fθ : θ ∈ Θ}, diremos que o estimador não viciado θb para o parâmetro θ
é o mais eficiênte para a famı́lia {Fθ } se
2 −1
b ∂ log f (x; θ)
var{θ} = E − ·
∂θ2
Definição 13 Seja θb o estimador mais eficiente para a famı́lia de distribuições {Fθ : θ ∈
Θ}, que satisfaz as condições de regularidade. Então a eficiência de qualquer estimador
não viciado θb1 de θ é definida como
b
b = var{θ1 } ·
eff{θb1 } = eff{θb1 ; θ}
b
var{θ}
Logicamente, a eficiência do estimador mais eficiente é 1 e a eficiência de qualquer
estimador não viciado é > 1. Observemos também que o estimador mais eficiente é também
o de menor erro quadrático médio dentre os estimadores não viciados.
Definição 14 Diremos que um estimador θb1 é assintoticamente (mais) eficiente se
lim eff{θb1 } = 1,
n→∞
Exercı́cios
Seja X1 , . . . , Xn uma amostra aleatória com função de densidade N(0, θ). Seja S 2 =
1. P
n 2
i=1 Xi . Considere os estimadores
θbc = cS 2 ·
(i) Encontre o valor da constante c de maneira que θbc seja não viciado para θ.
(ii) Qual o ENVUMV para θ?
2. Seja X1 , . . . , Xn uma amostra aleatória de uma população com média µ e variancia
σ 2 , ambos desconhecidos. Seja
Xn
µ
e= c i Xi ·
i=1
Pn
(i) Mostre que µ
e é não viciado para µ se, e somente se, i=1 ci = 1.
(ii) Mostre que X é ENVUMV dentro do conjunto de todos os estimadores desta
forma.
3. Seja X1 , . . . , Xn uma amostra aleatória com função de densidade N(θ, 1).
2
(i) Mostre que θe = X − 1/n é não viciado para θ2 .
(ii) Encontre o limite inferior da variancia dos estimadores não viciados de θ2 e
verifique se θe é eficiente.
4. Seja X1 , . . . , Xn uma amostra aleatória com função de probabilidade Bernoulli(θ).
(i) Mostre que
n
θe = X(X − 1),
n−1
é não viciado para θ2 .
(ii) Encontre o limite inferior da variancia dos estimadores não viciados de θ2 e
verifique se θe é eficiente.
5. Seja f (x; θ) uma função de desnidade para a qual as condições de regularidade estão
satisfeitas. Mostre que
2 2
∂ log f (X; θ) ∂ log f (X; θ)
E = −E ·
∂θ ∂θ2
√
6. Seja Tn = X + a/ n uma sequência de estimadores, a fixo. Mostre que Tn é consis-
tente para E{X} se X1 , . . . , Xn é uma amostra aleatória.
7. Dizemos que X tem distribuição Geométrica se possui função de prpobabilidade
P (X = x; θ) = (1 − θ)x−1 θ,
se x = 1, 2, 3, . . .. Satisfaz que E{X} = 1/θ e var{X} = (1 − θ)/θ2 . Considere uma
amostra aleatória de tamanho n e identifique uma estatı́stica suficiente para θ.
1.2. MÉTODOS DE ESTIMAÇÃO 21
θ1 + θ2 (θ2 − θ1 )2
E{X} = e var{X} = ·
2 12
Nesta situação a dimensão do espaço paramêtrico é q = 2 e θ = (θ1 , θ2 ). Lembrando que
var{X} = E{X 2 } − E2 {X}, obtemos que os momentos teóricos são
θ1 + θ2 (θ1 + θ2 )2 − θ1 θ2
E{X1 } = h1 (θ) = e E{X12 } = h2 (θ) = ·
2 4
Os momentos amostrais sempre são (até a ordem 2)
n n
e 1X 1X 2
h1 = Xi e e
h2 = X ·
n i=1 n i=1 i
E{X1 } = µ e E{X12 } = σ 2 + µ2 ·
P Pn
Os momentos amostrais correspondentes são e h1 = n1 ni=1 Xi = X e e
h2 = 1
n i=1 Xi2 .
Desta forma, as equações na definição 15 resultam em
n
1X 2
2 2
e=X
µ e σ
e +µ
e = X ·
n i=1 i
Podemos estender este método P à estimação de momentos conjuntos. Assim para estimar
E{XY } utilizamos a estatı́stica n ni=1 Xi Yi . Este método não é aplicável às situações em
1
e que Pn
1 4
n i=1 Xi
α
e4 =
1
Pn ·
2 2
n i=1 Xi
Teorema 6 Seja h(θ) = (h1 (θ), . . . , hq (θ))⊤ e seja H(θ) uma matriz de posto q de ele-
mentos Hij (θ) = ∂hi (θ)/∂θj , i, j = 1, . . . , q sendo estas funções contı́nuas em θ. Então
√ D
n(θe − θ) −→ Nq (0, H −1ΣH −⊤ ),
Por este teorema percebemos que os estimadores de momentos são não viciados assin-
toticamente e consistentes. Notemos também que em amostras finitas
e 1 −1 −⊤
θ ∼ Nq θ, H ΣH ·
n
logo
∂h(θ) ∂h(θ) 1 0
H(θ) = , =
∂µ ∂σ 2 2µ 1
e, portanto
µ2 − µ1 µ1 µ3 − µ1 µ2
Σ= ,
µ3 − µ2 µ1 µ4 − µ2 µ2
onde µ1 = µ, µ2 = µ2 + σ 2 , µ3 = µ3 + 3µσ 2 e µ4 = µ4 + 3σ 4 + 6µ2 σ 2 .
Exercı́cios
Em cada uma das situações a seguir encontre os estimadores de momentos dos parâmetros
das distribuições e a distribuição em amostras grandes destes. Considere sempre que
X1 , . . . , Xn seja uma amostra aleatória.
nX
α
e = Pn 2
i=1 (Xi − X)
e
nX
βe = Pn 2
·
i=1 (Xi − X)
P (X = x; ρ) = ρB(x, ρ + 1),
onde x = 1, 2, · · · , ρ > 0 e B(·) é a função beta. Satisfaz que E{X} = ρ/(ρ − 1) para
ρ > 1 e var{X} = ρ2 /(ρ − 1)2 (ρ − 2) para ρ > 2.
5. A função de densidade Fisher-Tippett é utilizada como a função de densidade do
mı́nimo ou máximo de amostras de diversas distribuições. Por exemplo, utiliza-se
como a distribuição do nı́vel máximo de um rio num particular ano se conhecemos
os nı́veis máximos dos últimos dez anos. Também é utilizada como a distribuição de
probabilidade da ocorrência de dessastres naturais.
A função de distribuição acumulada Fisher-Tippett é
(x−µ)/β
F (x; µ, β) = e−e ,
60
Freqüência
40
20
0
2 3 4 5
lim xK(x) = 0.
n→∞
e portanto
lim E{fen (x)} = f (x)·
n→∞
1.3. ESTIMADORES DA FUNÇÃO DE DENSIDADE 27
0.6
0.4
0.2
0.0
Z +∞
lim nhn var{fen (x)} = f (x) K 2 (y)dy·
n→∞ −∞
Observemos que para garantir boas propriedades destes estimadores a função núcleo
deve ser além de real, positiva e de intregral 1, deve ser limitada, de quadrado integrável
e tal que limn→∞ xK(x) = 0. Para o parâmetro de alisamento exigimos depender do
tamanho da maostra de maneira que limn→∞ hn = 0 e limn→∞ nhn = +∞.
0.4
gaussian gaussian
epanechnikov biweight
rectangular cosine
triangular optcosine
0.3
0.3
Density
Density
0.2
0.2
0.1
0.1
0.0
0.0
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Muito é conhecido acerca da relação entre a razão de convergência de fen (x) para f e o
grau de dependência do parâmetro h como função do tamanho da amostra n. No entanto,
para n fixo, o estimador fen (x) é sensı́vel à escolha de h e não existe uma metodologia geral
para a determinação deste parâmetro.
Diversos métodos de estimação de h estão disponı́veis: nrd0, nrd, sj, bcv e ucv. Os
dois primeiros são simples e baseiam-se na idéia de que a densidade a ser estimada é muito
parecidida à gaussiana.
ucv
sj
0.5
bcv
nrd
0.4
nrd0
Density
0.3
0.2
0.1
0.0
2 3 4 5
ou utilizar as fen−1
i
(x) numa espressão aproximada ao erro quadrático integral, dada por
Z +∞ n Z +∞
e 2 1 X ei
EQIh ≈ fn (x) dx − 2 fn−1 (xi ) + f (x)2 dx.
−∞ n i=1 −∞
Escolhendo b
hn como aquele que maximiza a verossimilhança ou minimiza o erro quadrático
médio obtemos o estimador de h.
30 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA
0.6
0.5
0.4
Density
0.3
0.2
0.1
0.0
2 3 4 5
Definição 16 Uma função aletória Q(X; θ) é dita ser uma quantidade pivotal para o
parâmetro θ se sua distribuição de probabilidades não depende de θ.
então
P{t1 (X) < θ < t2 (X)} = 1 − α,
e deste modo (t1 (x); t2 (x)) é um intervalo aleatório, chamado de intervalo de confiança,
que contém θ com probabilidade 1 − α, sendo 1 − α conhecido como coeficiente ou nı́vel
de confiança.
32 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA
n n n
o
Sλ Sλ
= P √ 1
− X < −µ < n − X
√ 2
n n o
= P X + Sλ √ 2 < µ < X − Sλ
n
√1 ·
n
√ √
Logo (X − Sλ2 / n; +X − Sλ1 / n) é uma famı́lia de intervalos de confiança para µ,
de nı́vel de confiança 1 − α. Isto nos mostra que o intervalo de confiança para determinado
parâmetro não é único e então , sempre que possı́vel, devemos escolher λ1 e λ2 que produ-
zam o intervalo de menor comprimento médio. Outra forma de escolher estas constantes é
através dos chamados intervalos de confiança simétricos em probabilidade. Vejamos como
no seguinte exemplo.
ou
P{t(n − 1) < λ2 } = 1 − α/2,
logo λ2 = t1−α/2 (n − 1).
b = θb2
var{θ} ·
n
Logo o intervalo de confinaça para θ, em amostras grandes e simêtrico em probabilidade, é
√ √
n z1−α/2 n n z1−α/2 n
P − Pn ; Pn + Pn ·
− ni=1 log(xi ) i=1 log(xi ) − i=1 log(xi ) i=1 log(xi )
34 CAPÍTULO 1. TEORIA DA ESTIMAÇÃO PARAMÊTRICA
Capı́tulo 2
Função de verossimilhança
O método de máxima verossimilhança foi proposto pela primeira vez pelo matemático
alemão C. F. Gauss em 1821, no entanto constuma creditar-se ao estatı́stico inglês R.
A. Fisher a descoberta. Certamente foi ele que investogou pela primeira vez em 1922 as
propriedades do estimador obtido por este método. Atualmente é uma das técnicas mais
utilizadas na estimação paramêtrica.
35
36 CAPÍTULO 2. FUNÇÃO DE VEROSSIMILHANÇA
b = 1 e θ(2)
Então θ(1) b = 0. Observemos que se X = 1, o único valor razoável de θ é 1 ,
2 2
já que o valor 1 não pode ser observado se θ = 0.
O estimador de máxima verossimilhança pode não ser único e inclussive pode não
existir, embora na maioria das situações pode existir e ser único. Considerando que a
função de verossimilhanças seja derivável em relaçõ a θ para x fixo definimos o logaritmo
da função de verossimilhanças ou log-verossimilhança como
n
Y n
X
ℓ(θ; x) = log L(θ; x) = log f (xi ; θ) = log f (xi ; θ)·
i=1 i=1
b
Se θ(x) existe então satisfaz a equação
∂ b
ℓ(θ(x); x) = 0,
∂θ
b
que chamaremos de equação de verossimilhança. Isto deve-se ao fato de que se θ(x) ma-
ximiza L(θ; x) também maximiza log L(θ; x), por ser o logaritmo una função crescente.
Na continuação do texto supriremos da definição da função de log-verossimilhança a de-
pendência da amostra para simplificar a notação, ou seja, escreveremos ℓ(θ) ao invês de
ℓ(θ; x).
Exemplo 21 Seja uma população com três possı́veis tipos de indivı́duos, denotados por
1,2 e 3 acontecendo segundo as chamadas porporções de Hardy-Weinberg:
onde 0 < θ < 1. Se observamos uma amostra de três indivı́duos dessa população tal que
x1 = 1, x2 = 2 e x3 = 1, temos
A equação de verossimilhança é
∂ b 5 1
ℓ(θ) = − = 0,
∂θ θ 1 − θb
b
∂2 5 1
2
ℓ(θ) = − 2 − <0
∂θ θ (1 − θ)2
5
para todo θ ∈ (0, 1), podemos afirmar que 6
maximiza L(θ).
2.1. ESTIMADOR DE MÁXIMA VEROSSIMILHANÇA 37
EXERCÍCIOS
1. Seja X1 , . . . , Xn uma amostra aleatória das seguintes funções de densidade
e a log-verossmilhança
Teorema 7 Seja T (X) uma estaı́stica suficiente para a famı́lia de densidades de proba-
bilidade f (x; θ), θ ∈ Θ. Se o estimador de máxima verossimilhança de θ existe, é uma
função T .
(ii) Z +∞
∂ 2 fθ (x)
dx = 0, para todo θ ∈ Θ·
−∞ ∂2θ
(iii) Z +∞
∂ 2 log fθ (x)
−∞ < fθ (x)dx = 0, para todo θ ∈ Θ·
−∞ ∂2θ
(iv) Existe uma função H(x) tal que, para todo θ ∈ Θ
3 Z +∞
∂ log fθ (x)
< H(x) e H(x)fθ (x)dx = M(θ) < ∞·
∂3θ
−∞
(v) Existe uma função g(θ), positiva e duas vezes diferenciável para cada θ ∈ Θ e existe
uma função H(x) tal que, para todo θ satisfaz
2 Z +∞
∂ ∂ log fθ (x)
H(x)fθ (x)dx < ∞·
∂ 2 θ g(θ) ∂θ < H(x) e
−inf ty
Embora geral, existem situações nas quais as condições deste teorema não se satisfazem
e mesmo assim existem soluções da equação de verossimilhanças consistentes e assintoti-
camente normais.
(a) As condições (i), (iii) e (v) implicam que, com pribabilidade tendendo a 1 quando
n → ∞, a equação de verossimilhanças tem solução.
(b) As condições (i), (ii), (iii) e (v) implicam que existe uma solução consistente da
equação de verossimilhanças e que é assintoticamente normal.
EXERCÍCIOS
1. Seja X1 , · · · , Xn uma amostra aleatória da densidade exponencial fθ (x) = θe−θx ,
x ≥ 0 e θ > 0. Encontre o estimador de máxima verossimilhança de θ e mostre que
é consistente e assintoticamente normal.
λr = E{ℓr (θ)}, λrs = E{ℓrs (θ)}, λr,s = E{ℓr (θ)ℓs (θ)}, λrst = E{ℓrst(θ)}, · · · ,
e assumiremos que λr , λrs , λrst , etc. são funções de ordem O(n). Derivadas de cumulantes
são amplamente utilizadas e definidas como
∂λrs ∂λrst ∂λrs
λrs/t = , λrst/u = , λrs/tu = , ··· ,
∂θt ∂θu ∂θt ∂θu
as quais também assumiremos que sejam funções de ordem O(n).
Nesta definição assumimos que tanto os cumulantes quanto as derivadas destes são
funções de ordem O(n), a qual é uma suposição condizente com a literatura especializada
(DiCiccio & Stern, 1994; DiCiccio, Martin, Stern & Young, 1996; McCullagh & Tibshirani,
1990). O seguinte exemplo mostra como calcular os cumulantes.
obténdo-se que
n
n n 1 X n
ℓ1 (θ) = 2 (x − µ), ℓ2 (θ) = − 2 + 4 (xi − µ)2 , ℓ12 (θ) = ℓ21 (θ) = − (x − µ)·
σ 2σ 2σ i=1 σ4
9.0
8.5
variancia
8.0
estimador corrigido
estimador não corrigido
7.5
5 10 15 20 25
obtemos que
n
2 1X
σ
b (µ) = (xi − µ)2 ·
n i=1
Substituindo este estimador na expressão de ℓ(ϑ), obtemos a verossimilança perfilada para
o parâmetro de interesse µ
n n n
σP2 (µ)) − ·
ℓP (µ) = − log(2π) − log(b (2.3)
2 2 2
0
−100 lP verossimilhança perfilada
função de verossimilhança
−200
−300
−5 0 5 10
então
ℓP (ψbP ) ≥ ℓ(ψ,
b ςb)·
b ςb) ≥ ℓP (ψbP ),
ℓ(ψ,
já que ψbP é o máximo em um subespaço de Ω. Desta forma obtemos que os pontos ℓP (ψbP )
b ςb) coincidem.
e ℓ(ψ,
A matriz de informação observada perfilada de ψ, jP (ψ) é definida de forma análoga à
matriz de informação observada do vetor completo j(ϑ), ou seja,
∂ 2 ℓP (ψ)
jP (ψ) = − ·
∂ψ∂ψ ⊤
onde jψψ = −∂ℓ(ψ, ς)/∂ψ∂ψ ⊤ , jψς = −∂ℓ(ψ, ς)/∂ψ∂ς ⊤ e jςς = −∂ℓ(ψ, ς)/∂ς∂ς ⊤ .
Pode-se provar que jP (ψ)b = jψψ , esta avaliada em (ψ,b ςb) e, por resultados assintóticos,
isto nos permitirá calcular a matriz de covariancia assintótica estimada de ψb como jP (ψ)
b −1 .
Salientemos a vantagem operacional deste cálculo, pois invertemos uma matriz de ordem
inferior à dimensão do vetor de parâmetros completo, enquanto o seu cálculo através da
48 CAPÍTULO 2. FUNÇÃO DE VEROSSIMILHANÇA
matriz de informação j(ς) envolve a inversão de uma matriz de ordem superior. Esta
vantagem é apreciável quando o modelo apresenta muitos parâmetros de perturbação.
Estas propriedades constituem vantagens da utilização da função ℓP (ψ), a qual poderá
ser utilizada como qualquer outra verossimilhança, desfrutando por isso de uma irrestrita
aplicabilidade, fundamentalmente em problemas com parâmetros de perturbação. Infeliz-
mente ela não usufrui de todas as propriedades de uma verossimilhança genuı́na.
A função escore perfilada
∂
UP (ψ) = ℓP (ψ)
∂ψ
é, em geral viciada, ou seja
E{UP (ψ)} =6 0,
o fato da esperança da função escore perfilada não ser zero é chamado de vı́cio da esperança.
Pode ocorrer também um vı́cio na informação, ou seja,
Por estes motivos se faz necessário ajustar a função de verossimilhança perfilada ou a função
escore perfilada considerando modelos gerais, veja detalhes em Fraser (1989), McCullagh &
Tibshirani (1990), Stern (1997), DiCiccio & Stern (1994), DiCiccio et al. (1996) e Lucambio
(2003).
Uma das formas mas simples de aperfeiçoar a função de verossimilhança perfilada é
dada a seguir.
e desta forma, se este vı́cio não é elimindo, pelo menos é reduzido até uma ordem aceitável.
sendo µ
b = X, da qual obtemos a função escore perfilada da variancia como
n
2 n 1 X
UP (σ ) = − 2 + 4 (xi − x)2 ·
2σ 2σ i=1
2.2. OUTRAS FUNÇÕES DE VEROSSIMILHANÇA 49
n n 1 X
n
1 n
2 2
ℓP (σ ) = − log(2π) − log(σ ) − 2 (xi − x)2 − log − 2 ·
2 2 2σ i=1 2 σ
onde µ é a média
A importância desta parametrização reside na introdução explı́cita do parâmetro σp
como o parâmetro de variabilidade de ordem p. A curva resultante é unimodal, simêtrica
e, para p > 1
O parâmetro de forma p é correlato com a kurtosis, quando existe, já que
Na Figura 2.2.3 mostramos diferentes densidades que pertencem à esta classe. Modifi-
cando os valores do parâmetro p, podemos obter algumas funções conhecidas, por exemplo,
se p = 1 temos a distribuição Laplace, se p = 2 obtemos a densidade normal e se p → +∞
obtemos a densidade uniforme.
2.2. OUTRAS FUNÇÕES DE VEROSSIMILHANÇA 51
Distribuição Normal p
0.5
p= 1
0.4
p= 2
p= 3
p= 4
p−> ∞
0.3
f(x)
0.2
0.1
0.0
−4 −2 0 2 4
53
54 CAPÍTULO 3. TEORIA DO TESTE DE HIPÓTESIS
Verdadeiro
H0 H1
Aceitamos H0 Correto Erro tipo II
H1 Erro tipo I Correto
H0 : o indivı́duo é inocênte
e a alternativa
H1 : o indivı́duo é culpado
Com base nas evidências apresentadas, o júri terá que decidir por H0 ou H1 . Ao decidir
aceitar H1 (e então rejeitar H0 ) como verdadeira, por exemplo, o júri pode estar cometendo
um erro, pois, apesar das evidências o indivı́duo pode ser inocente. Similarmente pode
acontecer com relação à aceitação da hipótese H0 como verdadeira. Neste caso, o júri
estaria considerando como inocente um indivı́duo culpado.
Formalizando, em termos de probabilidades, definimos
α = P{Rejeitar H0 ; H0 verdadeira}
β = P{Aceitar H0 ; H0 f alsa},
como a probabilidade de cometer o erro tipo II. Estas probabilidades podem ser definidas
como P{Aceitar H1 sendo H0 verdadeira} e P{Aceitar H0 sendo H1 verdadeira},
respectivamente. A probabilidade α é também chamada de erro de significância.
Se a hipóteses nula H0 é composta, ou seja, uma classe de hipóteses nula simples,
podemos definir o nı́vel de significância como
Ω1 = {x ∈ Rn : H0 é rejeitada}·
α = P{X ≥ c; θ = 0},
ou seja, √
α = P{Z ≥ c n},
√ √
onde Z = X n ∼ N(0, 1). Então, c n = 1.64, pois na distribuição normal padrão, o
valor 1.64 é o percentil 95%. Logo c = 0.41, de modo que Ω1 = {x ∈ Rn : x ≥ 0.41}.
Existem muitas teorias e histórias acerca da utilização de α = 0.05 para denotar signi-
ficância estatı́stica. Todas elas levam à influência de R.A. Fisher. Em 1914, Karl Pearson
publicou Tables for Statisticians & Biometricians. Para cada distribuição, Pearson calcu-
lou o valor de α para uma série de valores da variável aleatória. Posteriormente Fisher
publicou Statistical Methods for Research Workers em 1925, incluindo tabelas que mostra-
vam o valor da variável aleatória para especificos valores de α. Esta publicação de Fisher
teve mais influência até os anos cinquênta e inclusive ainda é reproduzida em muitos textos
de estatı́stica.
O problema formulado por Neyman e Pearson foi o de determinar a região crı́tica tal
que, para um dado nı́vel de significância a probabilidade do erro tipo II seja o menor
possı́vel. Podemos ainda formular o problema do teste de hipóteses em função de um novo
conceito, a função poder ou poder do teste.
Definição 24 (Função poder ou Poder do Teste) O poder do teste com região crı́tica
Ω1 para testar H0 : θ ∈ Θ0 vs H1 : θ ∈ Θ1 é dado por
γ(θ) = P{Rejeitar H0 }·
sendo 0.003 a estimativa do menor nı́vel de significância ao qual a hipóteses H0 pode ser
rejeitada e, portanto, rejeitamos H0 . A probabilidade de cometer o erro tipo II é calculado
como
β = P{X < 0.68; θ = 1} = P{Z < −1.28} = 0.1002726·
Além disto, podemos encontrar a função poder, como
0.4
0.2
0.0
Ω0 = {x ∈ Rn : δ(x) = a0 }
e
Ω1 = {x ∈ Rn : δ(x) = a1 }·
3.2. TESTES MAIS PODEROSOS 57
H 0 : θ ∈ Θ0 vs H 1 : θ ∈ Θ1 ,
com Θ0 ∪ Θ1 = Θ e Θ0 ∩ Θ1 = ∅.
Denotemos por θb o estimador de máxima verossimilhança para θ e por L(x; θ) a função
b é o valor máximo desta função. Se θb0 é o ponto de
de verossimilhança, então L(x; θ)
máximo de L restrito à hipóteses nula, ou seja, se
temos que
L(x; θb0 ) ≤ L(x; θ)·
b
Construamos a razão
L(x; θb0 )
λ(x) = · (3.2)
b
L(x; θ)
Esta é uma razão de duas funções de verossimilhança quando seus parâmetros são subs-
tituidos pelos estimadores de máxima verossimilhanç restrito à hipótese nula e irrestrito.
Observemos também que λ(x) é um quaciente de duas funções da amostra, logo λ(x) é
uma variável aleatória restrita ao intervalo (0, 1).
Isto significa que, pequenos valores de λ(x) levam à rejeição de H0 e viceversa. Supo-
nhamos agora H0 verdadeira e que a função de densidade de λ(x) seja g(λ). Suponhamos
também que g(·) não depende de parâmetros desconhecidos, então podemos encontrar o
p-valor do teste através expressão
Z λ(x)
g(λ)dλ = α
b (3.3)
0
EXERCÍCIOS
Nos seguintes exercı́cios, obter a região crı́tica do teste da razão de verossmilhanças para
testar
H0 : θ = 1 vs H1 : θ 6= 1,
considerando sempre uma amostra aleatória de tamanho n.
θ3 −(θ+1) − θ
f (x; θ) = x e x,
6
sendo x e θ reais positivos.
Assim, como pequenos valores de λ(x) correspondem a grandes valores de −2 log λ(x),
segue-se qu a região crı́tica para este teste consiste em grandes valores desta variável. Logo,
pelo teorema anterior
Ω∗1 = {x ∈ Rn : −2 log λ(x) > χ2 (p)},
onde p = dim Θ − dim Θ0 .
Em sitauções práticas trabalha-se de maneira diferente. Para um valor observado da
estatı́stica de teste, calcula-se o nı́vel de significância mı́nimo para o qual a hipóteses nula
seria rejeitada. Esse valor é chamado de nı́vel de significância observado ou p-valor. No caso
da estatı́stica da razão de verossimilhanças decidimos a aceitação ou rejeição da hipótese
nula calculando
p-value = P{χ2 (p) ≥ −2 log λ(x)},
e esta probabilidade é calculada considerando a hipóteses nula como certa.
Definamos
∂ℓ(θ
U(θ) = , (3.4)
∂θ
a que chamaremos de função escore. Observemos que o estimador de máxima verossimi-
b = 0.
lhança é aquele valor do vetor de parâmetros que anula a função escore, ou seja, U(θ)
A variancia de θb pode ser calculada como a inversa da matriz de informação de Fisher
b = I −1 (θ)
var{θ}
onde
∂ 2 ℓ(θ)
I(θ) = −E ·
∂θ∂θ⊤
Se θb tem como distribuição limite a normal e se I(θ) foi estimada pelo estimador
b então
consistente I(θ),
ǫW = (θb − θ0 )⊤ I(θ)(
b θb − θ0 ),
tem como distribuição limite χ2 com p graus de liberdade quando a hipóteses nula é
verdadeira. Esta é a chamada estatı́stica de teste Wald, proposta pelo matemático húngaro
Abraham Wald em 1943.
O teste de Multiplicadores de Lagrande é obtido pelo princı́pio de maximização res-
trita quando maximizamos a função de log-verossimilhança restrita à θ = θ0 . Este teste
é idêntico ao teste escore, originalmente proposto pelo estatı́stico indiano Calyampudi
Radhakrishna Rao em 1948, definido como
ex−θ
f (x; θ) = 2,
(1 + e(x−θ) )
1 θx
P{X = x; θ} = − ,
log(1 − θ) x
Distribuições simêtricas
0.5
normal
Cauchy
logística
t−Student
0.4
0.3 Exp. potência
f(x)
0.2
0.1
0.0
−4 −2 0 2 4
Esta expressão não oferece vantagens em relação àquela já obtida se o objetivo é encon-
trar os estimadores ou escrever as estatı́sticas de teste que dela dependem, o interesse
em escrever desta maneira a função escore esta na facilidade de encontrar a matriz de
informação.
Novamente, por simples derivação, obtemos que
n n
∂U(φ) 1 1 X (1) 1 X 2 (2)
= − U(φ) + zi t (zi ) + 2 z t (zi ),
∂φ φ φ i=1 φ i=1 i
n n
∂U(φ) 1 X (1) 1 X (2)
= t (zi ) + 2 zi t (zi ),
∂µ φ2 i=1 φ i=1
n
∂U(µ) 1 X (2)
= t (zi ),
∂µ φ2 i=1
também por simples derivação pode ser obtido que ∂U(µ)/∂φ = ∂U(φ)/∂µ.
A matriz de informação observada será então
∂U(µ) ∂U(µ)
∂µ ∂φ
i(ϑ) = ∂U(φ) ∂U(φ) ,
∂µ ∂φ
66 CAPÍTULO 3. TEORIA DO TESTE DE HIPÓTESIS
U(φ0 )2 I(ϑ)−1 ,
e a estatı́stica Wald é
(φ − φ0 )2 I(ϑ),
para as hipóteses acerca de φ. Quando o interesse é a hipóteses acerca so parâmetro de
locação as estatı́sticas de teste escore e Wald assumem a forma,
Exemplo 4: Se
onde θ é o parâmetro escalar e ς(·), α(·), d(·) e ν(·) são funções conhecidas.
Para poder ser considerada parte da famı́lia exponencial de densidade, o suporte de
f (x; θ), ou seja, o conjunto {x : f (x; θ) > 0} não depende de θ. Assim, se X ∼ U(0, θ)
não pertence à famı́lia exponencial. Sabemos também que na famı́lia exponencial d(x) é
uma estatı́stica suficiente pelo teorema de fatoração. Um outro detalhe importante é que
as funções α(·), d(·) e ν(·) não são únicas, por exemplo, podemos multiplicar α(·) por uma
constante e dividir d(·) pela mesma constante.
Uma outra forma de escrever as densidade na forma definida em (3.5) é
ς ′ (θ)
β(θ) = ·
ς(θ)α′ (θ)
P
A função escore é U(θ) = −α′ (θ){nβ(θ) + ni=1 d(xi )},
o estimador de máxima verossimilhança θb é a solução da equação
n
1X b
− d(xi ) = β(θ)
n i=1
Pn b
e a estatı́stica da razão de verossimilahnças para testar H0 : θ = θ0 é ω = 2 i=1 {t(xi ; θ) −
t(xi ; θ0 )}, que pode ser escrito como
b
ω = 2nβ(θ){α( b − α(θ0 )} + 2n log{ς(θ0 )/ς(θ)}·
θ) b
Referências Bibliográficas
Anderson, T.W. (1958). An Introduction to Multivariate Statistical Analysis. Wiley, New
York.
Barndorff-Nielsen, O.E. (1986). Inference on full or partial parameters, based on the
standardized log likelihood ratio. Biometrika, 73, 307–322.
Bartlett, M.S. (1955). Approximate confidence intervals, III. A bias correction. Biometrika,
40, 306–317.
Chmielewski, M.A. (1981). Elliptically symmetric distributions: a review and bibliography.
International Statistical Review , 49, 67–74.
Cordeiro, G.M. (1987). On the corrections to the likelihood ratio statistics. Biometrika,
74(2), 265–274.
Cordeiro, G.M., Cribari-Neto, F., Aubin, E.C.Q. & Ferrari, S.L.P. (1995). Bartlett cor-
rections for one-parameter exponential family models. Journal of Statistical Computing
and Simulation, 53, 211–231.
Cordeiro, G.M., Ferrari, S.L.P., Uribe-Opazo, M.A. & Vasconcellos, K.L.P. (2000). Correc-
ted maximum likelihood estimation in a class of simmetric nonlinear regression models.
Statistics and Probability Letters, 46, 317–328.
DiCiccio, T.J. & Stern, E.E. (1994). Frequentist and bayesian Bartlett correction of test
statistics based on adjusted profile likelihoods. Journal of the Royal Statistical Society,
56(2), 397–408.
DiCiccio, T.J., Martin, M.A., Stern, E.E. & Young, G.A. (1996). Information bias and
adjusted profile likelihoods. Journal of the Royal Statistical Society, 58(1), 189–203.
Ferrari, S.L.P. & Uribe-Opazo, M.A. (2001). Corrected likelihood ratio test in a class of
symmetric linear regression models. Brazilian Journal of Probability and Statistics, 15,
49–67.
Fraser, D. (1989). Adjustments to profile likelihood. Biometrika, 76(3), 477–488.
Lawley, D.N. (1956). A general method for approximating to the distribution of likelihood
ratio criteria. Biometrika, 43, 295–303.
Lucambio, F. (2003). Ajustes para a varossimilhança perfilada em modelos lineares genera-
lizados. Ph.D. thesis, Instituto de Matemárica e Estatı́stica, Universiade de São Paulo,
Brasil.
Lunetta, G. (1963). Di una generalizzazione dello schema della curva normale. Annali
della Facoltá di Economia e Commercio di Palermo, 17(2), 235–244.
McCullagh, P. & Tibshirani, R. (1990). A simple method for the adjustment of profile
likelihoods. Journal of the Royal Statistical Society, 52(2), 325–344.
REFERÊNCIAS BIBLIOGRÁFICAS 69
Neyman, J. & Pearson, E.S. (1933). On the problem of the most efficient tests of statistical
hypotheses. Philosophical Transactions of the Royal Society of London, A231, 289–337.
Rao, C.R. (1973). Linear Statistical Inference and its Applications. John Wiley and Sons,
second edition.
Stern, S.E. (1997). A second-order adjustment to the profile likelihood in the case of a
multidimensional parameter of interest. Journal of the Royal Statistical Society, 59(3),
653–665.
Stuart, A. & Ord, J. (1987). Kendall’s Advanced Theory of Statistics. London: Charles
Griffin.