Você está na página 1de 6

EST 611 - Inferencia Estatstica - Aula com exerccios propostos N

o
5
Uma Introducao ao Metodo da Maxima Verossimilhan ca
Este metodo de estimac ao de par ametros e o mais utilizado na Estatstica. A de-
ni c ao formal de um estimador de m axima verossimilhanca requer inicialmente que se
dena func ao de verossimilhanca.
Deni cao: Fun cao de Verossimilhanca. Seja {y
1
, y
2
, . . . , y
n
} = y uma amostra
ou realiza c oes das variaves aleatorias Y
1
, Y
2
, . . . , Y
n
. Seja f(Y|) a func ao densidade
de probabilidade (f.d.p) ou a func ao de probabilidade (f.p.) conjunta da amostra. A
func ao de verossimilhanca e dada por,
L() = L(|y) = f(y|)
Portanto, L() e uma func ao do par ametro (escalar ou vetor p 1) dado que Y = y
e observado. Ou seja,
(i) Se Y
1
, Y
2
, . . . , Y
n
i.i.d.
f(y|), isto e, sao variaveis aleatorias independentes e iden-
ticamente distribudas de um modelo que depende de , ent ao, L() e a f.d.p. ou
f.p. conjunta avaliada em y,
L() =
n

i=1
f(y
i
|)
= f(y
1
, y
2
, . . . , y
n
|) se Y
1
, Y
2
, . . . , Y
n
sao v.a.c., ou,
= P(Y
1
= y
1
, Y
2
= y
2
, . . . , Y
n
= y
n
|) se Y
1
, Y
2
, . . . , Y
n
sao v.a.d.
(ii) No caso particular e mais complicado quando nao ha identidade de distribui c oes
e nem independencia, a func ao de verossimilhanca e dada por,
L() = L(|y) = f
1
(y
1
|) f
2
(y
2
|y
1
, ) f
3
(y
3
|y
1
, y
2
, ) . . . f(y
n
|y
1
, . . . , y
n1
, ).

E importante distinguir que quando se denota f(y|), o valor esta xado e y e a


variavel, por outro lado, L(|y) considera y como xo ou observado e pode variar, de
acordo com os possveis valores do espaco parametrico (conceito abordado adiante). A
letra L e universalmente utilizada em textos para designar a func ao de verossimilhanca
simplesmente porque o termo Likelihood (em ingles) signica verossimilhanca.
Fato: O princpio da verossimilhanca (que nao sera abordado diretamente neste texto)
arma que toda a inferencia `a respeito de deve ser realizada com base em L(). Em
outras palavras, segundo este princpio toda a informacao `a respeito de contida na
amostra y = {y
1
, y
2
, . . . , y
n
} esta sumarizada na func ao de verossimilhanca L(|y).
Uma maneira intuitiva de entendermos esta armac ao e por meio do seguinte exem-
plo: Para , um escalar ou um vetor, sejam
1
e
2
dois valores pontuais de que
resultam em L(
1
|y) > L(
2
|y). Pode-se ent ao armar que a amostra observada e
1
mais prov avel quando =
1
do que quando =
2
. No caso discreto esta armac ao
e verdadeira, ja que P

(y) = L(|y). Entretanto, no caso contnuo e proporcional,


isto e, P

(y) L(|y). Este princpio e a base te orica de um procedimento muito


empregado no ajuste de modelos de regressao conhecido como o Teste da Raz ao de
Verossimilhancas.
Deni cao: Estimador de Maxima Verossimilhanca (EMV). Seja uma amostra
y e seja

o valor de para a qual a func ao de verossimilhanca L(|y) e maximizada,
ou seja,
L(

|y) > L(
k
|y)
k
,
em que e o espaco parametrico, ou o conjunto de possveis valores de que fazem
com que f(y|) seja uma f.d.p. ou f.p. v alida. Ent ao

=

(y) o qual denotaremos
simplesmente como

MV
e o estimador de m axima verossimilhanca de com base na
amostra y. Portanto, podemos armar que

MV
e o valor de que maximiza a proba-
bilidade da amostra observada.
Posteriormente, neste curso de Inferencia Estatstica (EST 611), sera demonstrado
que

MV
e quase sempre um bom estimador pontual de por possuir propriedades
desejaveis de um estimador (suciencia, consistencia, variancia mnima alem de outras).
Como obter estimadores de maxima verossimilhanca ?
A tarefa de encontrar um EMV e puramente matem atica e consiste em encontrar
o m aximo global de uma func ao. Ha algumas quest oes importantes a considerar neste
processo de maximiza c ao:
(i) ao encontrar um ponto candidato para m aximo global, muitas vezes simplesmente
pela resolu c ao da(s) seguinte(s) equa c ao( oes):

i
L(|y) = 0, para i = 1, 2, . . . , p (1)
e preciso posteriormente vericar se (
1
,
2
, . . . ,
p
) denem de fato um m aximo
global, ou seja, se nao e mnimo ou m aximo local ou ainda um ponto de sela. Em
(1), obviamente e necess ario que L(|y) seja diferenci avel em
i
, ou que exista a
derivada
d
d
L(|y) no caso escalar.
(ii) Outra quest ao importante e que em muitas aplicac oes o sistema (1) nao possui
uma soluc ao em forma fechada (por ser um sistema nao linear em alguns ou todos
os s). Pode ser tambem que o sistema (1) nao exista, porque existem muitas
func oes de verossimilhanca que nao podem ser maximizadas por diferencia c ao,
pois as derivadas parciais sao complexas (equac oes nao lineares) de modo que
nao existem soluc oes explcitas em formas fechadas. Nestes casos, a soluc ao e
pela maximiza c ao numerica por metodos em geral iterativos e `as vezes difceis de
serem implementados computacionalmente porque nao ha regras bem denidas
a serem seguidas, alem de que, os metodos numericos iterativos requerem valores
2
iniciais para os s. Exemplos de tais metodos sao o metodo de Newton (baseado
numa aproxima c ao de Taylor de primeira ordem) ou o algortmo EM (EM signica
Expectation-Maximization).
(iii) Quando a func ao de verossimilhanca envolve a base do logartmo neperiano
(e
t()
= exp{t()}) e/ou termos multiplicados [t
1
() t
2
()], para facilitar o pro-
cesso de maximiza c ao, geralmente aplica-se o logaritmo neperiano, para eliminar
o termo exp, ja que ln e
t()
= t() e tambem para transformar multiplicac ao
em soma, ja que ln[t
1
() t
2
()] = ln t
1
() + ln t
2
(). Como a func ao ln e mo-
not onica, o m aximo de lnL(|y) e de L(|y) sao iguais. Nos exerccios propostos
estes resultados serao aplicados. Em geral a nota c ao mais utilizada nos livros
textos e l() = lnL().
(iv) O que pode de fato complicar e inviabilizar o processo de maximiza c ao e quando
a func ao tende a innito: lnL(|y) ou ainda quando o suporte de f(y|)
depende do(s) par ametro(s) .
(v) Pode existir um problema de sensibilidade aos dados que e inerente ao processo
de maximiza c ao. Este problema surge quando pequenas mudancas na amostra
(dados) ocasionam grandes mudancas nas estimativas obtidas com o EMV. Neste
caso, a utilizac ao do metodo da m axima verossimilhanca estar a comprometida.
(vi) Outro problema e quando o m aximo global de L() ocorre na borda do espaco
parametrico . Neste caso esta regiao do espaco parametrico deve ser checada
separadamente para a existencia de m aximos.
(vii) Finalmente, nao que seja o ultimo problema a ser considerado, se um m aximo
global no interior do espaco parametrico for encontrado (numericamente ou por
derivadas parciais), ainda restar a o problema de se vericar que este m aximo e
unico e que nao ha m aximos no innito (L. Le Cam, 2012 cita v arios problemas
por meio de exemplos em que EMV nao funciona).
Teorema: Invariancia dos EMV
Se

e o estimador de m axima verossimilhanca de , ent ao h(

) e o EMV de h(),
para qualquer func ao h(). Este teorema e v alido para um esclar ou um vetor p-
dimensional e ainda inclui func oes h() que nao denam um mapeamento um para um
(para maiores detalhes consulte paginas 319 e 320 de Casella & Berger, 2002).
Exemplo: Seja

o EMV de , obtido de uma amostra aleatoria y
1
, y
2
, . . . , y
n
da func ao
densidade de probabilidade f(y|) para < y < . Pelo teorema da invariancia,
uma estimativa de m axima verossimilhanca de h() = P(Y a) e dada por,
h(

) =


a
f(y|

) dy
3
Considera coes Finais
Este texto apresenta apenas uma breve introduc ao, existem muitas variac oes do
metodo da m axima verossimilhanca na literatura. Prole Likelihood e utilizado para
situa c oes com par ametros nuisance ou par ametros que estao no modelo mas para os
quais nao se deseja inferir; Quasi Likelihood e empregada quando se deseja uma es-
pecicac ao mais robusta (ou menos sensvel `as pressuposic oes distribucionais); Partial
Likelihood e empregada quando ha dados censurados (ou nao totalmente observados
ate o nal do experimento), Maxima Verossimilanca Restrita (REML ou Restricted
OU Residual Maximum Likelihood) e utilizada no contexto de modelos mistos (mode-
los com efeitos xos e aleatorios) e consiste em particionar a func ao de verossimilhanca
(denida sob normalidade dos dados) e maximizar apenas a parte livre dos efeitos xos.
Olivro de Hinkley, D V.; Reid, N. and Snell, L. Statistical Theory and Modelling. In
Honor of Sir David Cox. London: Chapman and Hall, 1991, e citado como uma boa
referencia por Casella & Berger, 2002.
Referencias Bibliogracas Utilizadas no Preparo deste Texto
1 - L. Le Cam, Maximum Likelihood, An Introduction. Relat orio Tecnico do
Department of Statistics, University of California, Berkeley. Disponvel em (acessado
em 25/11/2012):
http://stat-www.berkeley.edu/users/rice/LeCam/papers/tech168.pdf
2 - Casella, G. and Berger, R. L. Statistical Inference, 2
nd
edition, 2002 (LIVRO)
3 - Wackerly, D. D.; Mendenhall, W. and Scheaer, R. Mathematical Statistics
with Applications, 7
th
edition, 2008 (LIVRO)
Exerccios Propostos
A seguir apresento alguns exerccios que serao resolvidos em sala de aula. Procurei
selecionar alguns menos batidos!
1. Considere uma amostra y
1
, y
2
, . . . , y
n
i.i.d.
f(y|). Argumente porque a maxi-
mizac ao da func ao de verossimilhanca L(|y) como uma func ao de e equivalente
a maximizar lnL(|y).
2. Exerccio intuitivo de MV. Suponha que uma urna contenha 5 bolas coloridas
das quais sao pretas e as demais sao brancas. Uma amostra sem reposic ao de
tamanho n < 5 bolas coloridas desta urna forneceu x bolas pretas.
a. Obtenha L(|x).
b. Estime

MV
quando: (b1.) n = 2 e x = 1, (b2.) n = 2 e x = 2.
3. Suponha que L(
1
,
2
,
3
|y) = L() seja uma func ao de verossimilhanca que sa-
tisfa ca `as seguintes condi c oes,

1
L()|

1
,

2
,

3
= 0,

2
L()|

1
,

2
,

3
= 0 e

3
L()|

1
,

2
,

3
= 0
4
ou seja, que cada uma das primeiras derivadas parciais avaliadas no ponto

1
,

2
,

sejam iguais a zero. Quais sao as condicoes adicionais para que este ponto seja
um m aximo global de L() e portanto que as estimativas de

i
, i = 1, 2, 3 sejam
de MV.
4. Considere uma sequencia de tentativas independentes com dois possveis resulta-
dos, s = sucesso ou f = fracasso, de modo que em cada tentativa a probabilidade
do resultado s seja P(s) = p. O n umero da tentativa na qual se observa o
quinto sucesso e uma variavel aleatoria Y com distribui c ao binomial negativa
com par ametros r = 5 e p.
a. Suponha que o quinto sucesso tenha sido observado na 11
a
tentativa. Ob-
tenha o valor de p que maximiza P(Y = 11) = p
MV
.
b. Generalize o resultado obtido em a. para estimar p quando y
0
e r sao valores
conhecidos.
c. Utilize o teorema da Invariancia para obter o EMV de P(Y = y
0
) quando
y
0
e r sao valores conhecidos.
5. Admita que as variaveis aleatorias Y
1
, Y
2
, . . . , Y
n
satisfacam ao seguinte modelo:
Y
i
= X
i
+
i
, em que X
1
, X
2
, . . . , X
n
sao constantes conhecidas e
1
,
2
, . . . ,
n
sao variaveis aleatorias
i.i.d.
N(0,
2
).
a. Obtenha

MV
, o EMV de .
b. Mostre que E(

MV
) = e portanto que o estimador e nao viesado.
6. Considere Y
1
, Y
2
, . . . , Y
n
uma amostra aleatoria da distribui c ao uniforme contnua
no intervalo [0, ]. Portanto, f(y
i
|) =
1

para 0 y
i
. Obtenha o EMV de e
mostre como corrigir este estimador para que ele seja nao viesado, E

MV

= .
7. Considere as variaveis aleatorias Y
i
e
i
e tambem as constantes X
i
, para i =
1, 2, . . . , n, tais como no problema (5.), mas, considere agora o modelo de re-
gress ao linear simples Y
i
=
0
+
1
X
i
+
i
. Obtenha os EMV de
0
e
1
. Verique
ent ao que estes estimadores sao iguais aos obtidos pelo metodo dos mnimos
quadrados (que nao pressup oe normalidade).
8. Sejam X
1
, X
2
, . . . , X
n
i.i.d.
f(x|) com < x < e < < ,
f(x|) =
e
(x)
[1 + e
(x)
]
2
(distribui c ao logstica)
a. Obtenha L

() =
d
d
lnL(|x
1
, x
2
, . . . , x
n
).
b. Mostre que L

) = 0 apos o arranjo dos termos resulta em,


n

i=1
e
(x

)
1 + e
(x

)
=
n
2
5
9. O metodo de Newton e um esquema iterativo para obter soluc oes numericas apro-
ximadas para sistemas do tipo L

) = 0, que no caso vetorial


t
= [
1
,
2
, . . . ,
p
]
resulta em,
L

) =

1
lnL()|

1
,...,

2
lnL()|

1
,...,

p
. . .

p
lnL()|

1
,...,

= 0.
O metodo de Newton e baseado em uma aproxima c ao de Taylor de primeira ordem
para L

MV
) = 0 pelo ponto
()
pr oximo `a soluc ao

MV
. O metodo requer
valores iniciais
(0)
e produz uma sequencia de valores
(1)
,
(2)
, . . . ,
(k)
, . . . que
sob condi c oes ideais convergem para a soluc ao desejada

MV
.
a. Mostre detalhadamente como obter o esquema iterativo,

(k+1)
=
(k)
J
1
(
(k)
) L

(
(k)
)
que e conhecido como o metodo de Newton (cite a referencia biblograca
utilizada).
b. Escreva o esquema iterativo acima no caso em que e um escalar.
6

Você também pode gostar