LIVRO Bolfarine Sandoval-2

Heleno Bolfarine
Monica Carneiro Sandoval

INTRODUC

AO
`
A INFER
ENCIA
ESTAT
ISTICA
V
VI
CONTE
UDO
PREF
ACIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv
CAP
ITULO 1. ELEMENTOS B
ASICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1. Alguns Modelos Especiais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1. O modelo normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1
1.1.2. O modelo exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.3. O modelo binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.4. O modelo de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.5. O modelo uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Tipos de Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Amostras, Estatsticas e Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
CAP
ITULO 2. ESTIMADORES EFICIENTES E ESTAT
ISTICAS
SUFICIENTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1. Estimadores Ecientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2. Estatsticas Sucientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3. Estatsticas Conjuntamente Sucientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4. Famlias Exponenciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5. Estimadores Baseados em Estatsticas Sucientes . . . . . . . . . . . . . . . . . 39
2.6. Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
CAP
ITULO 3. M
ETODOS DE ESTIMAC

AO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.1. O Metodo de M axima Verossimilhan ca . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2. Propriedades dos Estimadores de M axima Verossimilhan ca . . . . . . . . 55
3.2.1. Invariancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.2. Distribui c ao em grandes amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3. Verossimilhan ca para Amostras Independentes . . . . . . . . . . . . . . . . . . . . 59
3.4. O Caso Multiparametrico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.5. Famlia Exponencial e o Metodo de M axima Verossimilhan ca . . . . . . 64
3.6. O Metodo dos Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.7. Estimadores Consistentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.8. Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
CAP
ITULO 4. INTRODUC

AO
`
A TEORIA DAS DECIS
OES.
OS PRINC
IPIOS MINIMAX E DE BAYES . . . . . . . . . . . . . . . . . . . 74

4.1. Os Elementos B asicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2. O Princpio Minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3. O Princpio de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.4. Estimadores de Bayes com Perda Quadr atica . . . . . . . . . . . . . . . . . . . . . 54
VII
4.5. Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
CAP
ITULO 5. ESTIMAC

AO POR INTERVALO . . . . . . . . . . . . . . . . . . . . . . . . 96
5.1. Amostras de Popula c oes Normais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.2. O Metodo da Quantidade Pivotal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.3. Intervalos para Popula c oes Normais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.3.1. O caso de uma unica amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.3.2. Duas amostras independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.4. Intervalos de Conan ca Aproximados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.5. Intervalos de Conan ca Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.6. Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
CAP
ITULO 6. TESTES DE HIP
OTESES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.1. Ideias B asicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.2. Formula c ao Estatstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
6.3. Hip otese Nula Simples contra Alternativa Simples.
Testes Mais Poderosos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.4. Testes Uniformemente Mais Poderosos . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.4.1. Hip otese nula simples contra alternativa composta . . . . . . . . . . 130
6.4.2. Hip oteses compostas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
6.5. Testes da Raz ao de Verossimilhan cas Generalizada. . . . . . . . . . . . . . . . 134
6.6. Testes Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
6.7. Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
REFER
ENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
INDICE REMISSIVO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

VIII
PREF
ACIO
O objetivo principal deste texto e propiciar aos estudantes um material
b asico para um curso introdut orio de Inferencia Estatstica usualmente minis-
trado em programas de bacharelado em Estatstica. Lecionando h a v arios anos
a referida disciplina em cursos de bacharelado e de pos gradua c ao no Departa-
mento de Estatstica do Instituto de Matem atica e Estatstica da Universidade
de S ao Paulo, experimentamos v arias alternativas did aticas, mas sempre nos
ressentimos da ausencia de textos adequados em portugues e ate mesmo em
ingles para o nvel em questao. E foi pensando em preencher essa lacuna que
resolvemos elaborar este trabalho, destinado aos estudantes com conhecimentos
b asicos de probabilidade e c alculo.
O texto esta elaborado para um curso de um semestre com seis horas sema-
nais, duas das quais devem ser reservadas para exerccios.

E dividido em seis
captulos, tendo no nal de cada um uma serie de exerccios.
O Captulo 1 e dedicado ` a descri c ao de alguns modelos comumente uti-
lizados em situa coes praticas. Sao apresentados metodos de compara c ao entre
estimadores, com enfase especial ao metodo do Erro Quadr atico Medio mnimo.
O Captulo 2 apresenta ` a obten c ao de estimadores ecientes, utilizando a
desigualdade da informa c ao, a partir da qual se obtem o limite inferior da
variancia dos estimadores nao viciados. Usando esses resultados em alguns
modelos importantes, e possvel a obten c ao de estimadores otimos, ou seja,
de menor vari ancia. Uma famlia importante em que tais estimadores sao obti-
dos e a bem conhecida famlia exponencial de distribui c oes, apresentada no
texto com algum detalhe. A utiliza c ao de estatsticas sucientes, no sentido de
apresentarem um resumo dos dados sem perda de informa c ao, e tambem consi-
derada nesse captulo. Mostra-se tambem que estimadores que nao sao fun coes
de estatsticas sucientes podem ser melhorados por meio do conhecido Teo-
rema de Rao-Blackwell.
O Captulo 3 e dedicado a tecnicas de obten c ao de estimadores, dentre
as quais destacamos os metodos de m axima verossimilhan ca e dos momen-
tos. Propriedades dos estimadores de m axima verossimilhan ca em grandes
amostras s ao tambem consideradas. Essas propriedades permitem a realiza c ao
de inferencias em modelos mais complexos que s ao comumente utilizados em
situacoes praticas.
No Captulo 4 consideramos as ideias b asicas da teoria das decis oes, en-
fatizando a import ancia da fun c ao de risco como um meio de obten c ao de
bons estimadores. A utiliza c ao da fun c ao de risco permite a deriva c ao de es-
timadores do tipo minimax e tambem de estimadores de Bayes, incorporando
uma distribui c ao a priori para descrever conhecimentos subjetivos a cerca dos
par ametros de interesse.
A constru cao de intervalos de conan ca com coecientes de conan ca exa-
tos e aproximados e considerada no Captulo 5. Um metodo importante de
IX
constru cao de intervalos e o uso de quantidades pivotais. Tal enfoque propicia a
constru cao de intervalos exatos para varios modelos importantes e aproximados
em situa coes mais complexas. Intervalos Bayesianos baseados na distribui c ao a
posteriori s ao tambem considerados.
O Captulo 6 e dedicado à constru cao de testes de hipoteses. Testes otimos
para o caso de hip otese nula simples contra alternativa simples s ao derivados
a partir do Lema de Neyman-Pearson. Algumas generaliza coes para hipoteses
compostas sao tambem consideradas. Problemas mais complexos que podem
envolver hipoteses bilaterais sao tratados utilizando a estatstica da razao de
verossimilhan cas generalizada que, apesar de nao possuir propriedades otimas,
leva em geral a bons procedimentos que nao apresentam muita diculdade de
implementa cao.
N ao inclumos no texto tabelas estatsticas, pois a enfase maior e dada
a problemas teoricos. No caso de haver necessidade de utiliza cao de tabelas,
sugerimos aos estudantes utilizar as tabelas em Bussab e Morettin (1987).
Agradecemos ` as colegas Elisete da Concei c ao Quintaneiro Aubin, Marcia
DElia Branco e Silvia Lopes de Paula Ferrari que leram as versoes preliminares
e contriburam com varias sugestoes. Agradecemos tambem à aluna Jacqueline
SantEufemia David pela elabora c ao das guras.
S ao Paulo, setembro de 2000
Heleno Bolfarine e M onica C. Sandoval
1. Elementos Basicos
1.1 Alguns Modelos Especiais
Nesta se c ao consideramos alguns modelos probabilsticos que s ao comumente
utilizados na an alise de dados em problemas pr aticos. O modelo probabilsti-
co (ou estatstico) e de suma importancia para inferir resultados da amostra
para a popula c ao toda.

E importante que, na selecao do modelo a ser utilizado,
o estatstico tenha em mente que o modelo deve representar, na medida do
possvel, a complexidade que envolve o mundo real da popula c ao em estudo.
Entre os modelos mais utilizados, temos
1.1.1 O modelo normal
Dizemos que X tem distribui c ao normal com media e variancia
2
, que
denotamos por X N(,
2
), se a fun c ao de densidade de probabilidade de X
e dada por
f(x|,
2
) =
1
2
e
(x)
2
2
2
, < x < ,
em que < < e
2
> 0. Nesse caso, e
2
sao denominados parametros
da distribui c ao e o suporte de X, isto e, A(x) = {x, f(x) > 0}, e a reta toda.
Notemos tambem que
E[X] = e V ar[X] =
2
.
Situa c oes pr aticas em que o modelo normal e comumente utilizado incluem
caractersticas populacionais, tais como: peso, altura, press ao arterial, quociente
de inteligencia, etc.
1.1.2 O modelo exponencial
Dizemos que X tem distribui c ao exponencial com par ametro , que denotamos
por X Exp(), quando a fun c ao de densidade de probabilidade de X e dada
por
2 1. Elementos Basicos
f(x|) = e
x
, x > 0,
em que > 0. Nesse caso, A(x) = {x, x > 0}. Notemos tambem que
E[X] =
1
e V ar[X] =
1
2
.
O modelo exponencial e comumente empregado para descrever tempo de vida
de equipamentos. Lembremos que o modelo exponencial tem a bem conhecida
propriedade da falta de mem oria, ou seja, se o tempo de vida de um equipa-
mento segue a distribui c ao exponencial, ent ao, em qualquer instante, o equipa-
mento e como se fosse novo, n ao importando o quanto ele j a tenha sido utilizado.
1.1.3 O modelo binomial
Dizemos que a vari avel aleat oria X tem distribui c ao binomial, com par ametros
n e , que denotamos por X Binomial (n, ), se sua fun c ao de probabilidade
e dada por
f(x|) =
_
n
x
_
x
(1 )
nx
, x = 0, 1, . . . , n,
em que 0 < < 1. Nesse caso, o suporte de X e discreto e e dado por A(x) =
{x, x = 0, 1, . . . , n}. Temos tambem que
E[X] = n e V ar[X] = n(1 ).
Lembremos que, se X tem distribui c ao Binomial(n, ), ent ao, podemos escre-
ver X = Y
1
+. . . +Y
n
, sendo Y
1
, . . . , Y
n
n variaveis aleatorias independentes e
de Bernoulli, ou seja, a fun c ao de probabilidade de Y
i
e dada por
f(y
i
|) =
yi
(1 )
1yi
, y
i
= 0, 1,
i = 1, . . . , n. O modelo binomial (ou de Bernoulli) e comumente empregado
em situa coes em que associamos a cada observa cao da amostra dois tipos de
resposta (como, por exemplo, sim e n ao, ou sucesso e fracasso) aos quais as-
sociamos os valores 0 e 1. Tais situacoes envolvem, por exemplo, pesquisas
eleitorais, em que os indivduos na popula cao sao ou nao favoraveis a determi-
nado partido ou candidato; propor c ao de pe cas defeituosas produzidas em uma
linha de produ cao e assim por diante.
1.1.4 O modelo de Poisson
Um outro modelo comumente empregado na pr atica e o modelo de Poisson.
Dizemos que a vari avel aleat oria X tem distribui c ao de Poisson com par ametro
1.1 Alguns Modelos Especiais 3
, que denotamos por X Poisson(), quando a fun c ao de probabilidade e
dada por
f(x|) =
e
x
x!
, x = 0, 1, . . . ,
em que > 0. Nesse caso, o suporte de X e o conjunto A(x) = {x, x = 0, 1, ...}.
Temos tambem que,
E[X] = V ar[X] = .
O modelo de Poisson e bastante utilizado para descrever situa c oes que en-
volvem, por exemplo, o n umero de chamadas que chegam a uma central
telef onica, o n umero de partculas emitidas por uma fonte radioativa ou
o n umero de pessoas que chegam a determinada la, sempre em um intervalo
de tempo xado.
1.1.5 O modelo uniforme
O modelo uniforme e bastante importante do ponto de vista teorico. Dizemos
que X tem distribui c ao uniforme no intervalo (0, ), que denotamos por X
U(0, ), se a fun c ao de densidade de X e dada por
f(x|) =
_
1
, 0 < x < ,
0, caso contrario,
=
1
I
(0,)
(x),
> 0, em que
I
(0,)
(x) =
_
1, 0 < x < ,
0, caso contrario,
ou seja, I
(0,)
(x) e a fun c ao indicadora do intervalo (0, ). Notemos que, nesse
caso, A(x) = {x, 0 < x < }, ou seja, o suporte da vari avel X (ou de f(x|))
depende do par ametro . No caso dos modelos normal, exponencial, binomial
e de Poisson, isso nao acontece, ou seja, nesses casos, o suporte da distribui c ao
de X e independente de . Temos tambem que, se X U(0, ), ent ao,
E[X] =

2
e V ar[X] =

2
12
.
No decorrer do texto, outros modelos parametricos, como por exemplo, o mo-
delo uniforme discreto e o modelo gama, ser ao apresentados. Veremos tambem
que os modelos normal, exponencial, binomial e de Poisson s ao membros de
uma famlia bastante geral de modelos, que e a famlia exponencial.
1.2 Tipos de Problemas
No presente texto, vamos nos ater exclusivamente a problemas de estima cao e
de testes de hip oteses.
Denicao 1.2.1. Seja X uma vari avel aleat oria com func ao de densidade (ou
de probabilidade) que abreviamos por f.d.p. (f.p.) e que denotamos por f(x|),
em que e um parametro desconhecido. Chamamos de inferencia estatstica o
problema que consiste em especicar um ou mais valores para , baseado em
um conjunto de valores observados de X.
Vamos assumir que a distribui c ao da vari avel aleat oria X pertence a certa
famlia de distribui c oes em que um particular elemento e especicado, quando
o valor do parametro e especicado.
No caso de um problema de estima cao, o objetivo e procurar, segundo al-
gum criterio especicado, valores que representem adequadamente os par ametros
desconhecidos. No caso de problemas de testes de hip oteses, o objetivo e ver-
icar a validade de arma coes sobre um valor (ou valores) do(s) par ametro(s)
desconhecido(s). Por exemplo, quando o interesse e vericar se a propor c ao
de eleitores de determinado candidato e maior que 1/2 (ou 50%), as hipoteses
a serem testadas s ao H
0
: 1/2 versus H
1
: > 1/2. Quando estamos
interessados em vericar se o peso medio, , de pacotes de um quilograma
empacotados por determinada maquina realmente e um quilograma, ent ao, as
hip oteses a serem testadas podem ser representadas por H
0
: = 1 versus
H
1
: = 1.
1.3 Amostras, Estatsticas e Estimadores
Nesta se c ao os conceitos de estatstica e estimador s ao introduzidos. Criterios
para a compara c ao de estimadores s ao tambem considerados.
Denicao 1.3.1. O conjunto de valores de uma caracterstica (observavel)
associada a uma cole c ao de indivduos ou objetos de interesse e dito ser uma
popula c ao.
Qualquer parte (ou subconjunto) de uma popula cao e denominada uma
amostra. De maneira mais formal, temos
Denicao 1.3.2. Uma sequencia X
1
, . . . , X
n
de n vari aveis aleat orias indepen-
dentes e identicamente distribudas (i.i.d.) com fun c ao de densidade (f.d.p.) ou,
no caso discreto, fun c ao de probabilidade (f.p.) f(x|) e dita ser uma amostra
aleat oria de tamanho n da distribui c ao de X. Nesse caso, temos,
1.3 Amostras, Estatsticas e Estimadores 5
(1.3.1) f(x
1
, . . . , x
n
|) =
n
i=1
f(x
i
|) = f(x
1
|) . . . f(x
n
|).
Conclumos, a partir da Deni c ao 1.3.2, que usamos a amostra X
1
, . . . , X
n
para obter informa c ao sobre o par ametro . A funcao de densidade (ou de
probabilidade) conjunta dada em (1.3.1) e denominada fun cao de verossimi-
lhan ca de , correspondente à amostra observada x = (x
1
, . . . , x
n
)
e sera
denotada por
L(; x) =
n
i=1
f(x
i
|).
Denicao 1.3.3. Qualquer funcao da amostra que nao depende de parametros
desconhecidos e denominada uma estatstica.
No exemplo que apresentamos a seguir, consideramos v arias estatsticas que
serao utilizadas com freq uencia nos captulos seguintes.
Exemplo 1.3.1. Sejam X
1
, . . . , X
n
uma amostra aleat oria da vari avel aleat oria
X, com f.d.p. ou f.p. f(x|). Exemplos de estatsticas s ao
(i) X
(1)
= min(X
1
, . . . , X
n
),
(ii) X
(n)
= max(X
1
, . . . , X
n
),
(iii)

X = med(X
1
, . . . , X
n
),
(iv) X =
1
n
n
i=1
X
i
,
(v)
2
=
1
n
n
i=1
(X
i
X)
2
.
Em (i), (ii) e (iii) acima, min(.), max(.) e med(.) denotam, respectivamente,
o mnimo, o maximo e a mediana amostral observada. Por outro lado, X e
2
denotam, respectivamente, a media e a vari ancia amostrais.
Denicao 1.3.4. O conjunto em que toma valores e denominado espaco
parametrico.
1
, . . . , X
n
X N(,
2
).
(i) Se
2
= 1, entao = e o parametro desconhecido e
= {, < < };
(ii) Se = 0, entao =
2
e o parametro desconhecido e
= {
2
,
2
> 0};
(iii) Se e
2
sao desconhecidos entao = (,
2
) e
= {(,
2
), < < e
2
> 0}.
Denicao 1.3.5. Qualquer estatstica que assuma valores em e um esti-
mador para .
Em muitas situacoes, o interesse e estimar uma funcao g(). Suponha, por
exemplo, que no caso (iii) do exemplo anterior, o objetivo e estimar somente
, sendo
2
um par ametro de pertuba c ao. Nesse caso, g() = .
Denicao 1.3.6. Qualquer estatstica que assuma valores somente no conjunto
dos possveis valores de g() e um estimador para g().
Um dos grandes problemas da estatstica e o de encontrar um estimador
razo avel para o par ametro desconhecido ou para uma fun c ao g(). Um dos
procedimentos comumente utilizados para se avaliar o desempenho de um es-
timador e o seu erro quadr atico medio que e considerado a seguir.
Denicao 1.3.7. O erro quadratico medio (EQM) de um estimador

do
par ametro e dado por
EQM[
] = E[(
)
2
].
Pode-se mostrar (ver Exerccio 1.1) que
(1.3.2) EQM[
] = V ar[
] +B
2
(
),
em que
B(
) = E[
]
e denominado o vcio do estimador

. Dizemos que um estimador

e nao
viciado para se
E[
] = ,
para todo , ou seja B(
) = 0, para todo . Se lim

n
B(
) = 0 para
todo , dizemos que o estimador

e assintoticamente nao viciado para
. No caso em que

e um estimador nao viciado para , temos que
EQM[
] = V ar[
],
ou seja, o erro quadr atico medio de

se reduz à sua variancia. Um outro conceito
importante em grandes amostras (n ) e a propriedade de consistencia que
sera considerada na Secao 3.7.
1
, . . . , X
n
X com E[X] = e V ar[X] =
2
. Temos, ent ao, que
E[X] = E
_
1
n
n
i=1
X
i
_
=
1
n
n
i=1
E[X
i
] =
e
V ar[X] =
1
n
2
n
i=1
V ar[X
i
] =

2
n
.
Portanto X e um estimador nao viciado para . Com rela cao à variancia
amostral, temos
E[
2
] =
1
n
E
n
i=1
(X
i
X)
2
=
1
n
n
i=1
E[(X
i
X)
2
]
=
1
n
n
i=1
E{[(X
i
) (X )]
2
}
(1.3.3) =
(n 1)
n

2
.
Portanto
2
e viciado para
2
, mas e assintoticamente n ao viciado, ou seja, ` a
medida que o tamanho da amostra aumenta, o vcio diminui.
O erro quadr atico medio e comumente empregado na compara c ao de esti-
madores. Dizemos, ent ao, que

1
e melhor que

2
se
(1.3.4) EQM[
1
] EQM[
2
],
para todo , com substitudo por < pelo menos para um valor de . Nesse
caso, o estimador

2
e dito ser inadmissvel. Se existir um estimador

tal
que para todo estimador

de com

=

(1.3.5) EQM[
] EQM[
],
para todo com substitudo por < para pelo menos um , ent ao

e dito
ser otimo para . Notemos que, se em (1.3.5) os estimadores s ao n ao viciados,
entao

e dito ser o estimador nao viciado de variancia uniformemente mnima,

se
V ar[
] V ar[
],
para todo , com substitudo por < para pelo menos um .
1
, X
2
, X
3
X com E[X] = e V ar[X] = 1. Consideremos os estimadores
1
= X =
X
1
+X
2
+X
3
3
e

2
=
1
2
X
1
+
1
4
X
2
+
1
4
X
3
.
Como no Exemplo 1.3.3,
E[
1
] = e V ar[
1
] =
1
3
.
Temos tambem (ver Exerccio 1.3) que
(1.3.6) E[
2
] = e V ar[
2
] =
6
16
.
Como

1
e

2
sao ambos nao viciados, segue de (1.3.4) que X e melhor que

2
,
pois V ar[X] < V ar[
2
], para todo .
1
, . . . , X
n
X com E[X] = e V ar[X] =
2
, em que
2
e conhecido. Consideramos agora
os estimadores lineares
X
L
=
n
i=1
l
i
X
i
,
em que l
i
0, i = 1, . . . , n sao constantes conhecidas. Como
E[X
L
] = E
_
n
i=1
l
i
X
i
_
=
n
i=1
l
i
E[X
i
] =
n
i=1
l
i
,
temos que X
L
e um estimador nao viciado para se e somente se
(1.3.7)
n
i=1
l
i
= 1.
O estimador X
L
com a condi cao (1.3.7) e entao uma combina cao linear con-
vexa de X
1
, . . . , X
n
. Notemos que

1
e

2
considerados no Exemplo 1.3.4 sao
combina coes lineares convexas de X
1
, X
2
, X
3
. Temos tambem que
(1.3.8) V ar[X
L
] =
n
i=1
l
2
i
V ar[X
i
] =
2
n
i=1
l
2
i
.
Portanto o estimador X
L
, que e n ao viciado e apresenta a menor vari ancia,
e obtido minimizando-se (1.3.8) sujeito à condicao (1.3.7). Para atingir tal
objetivo, sendo l =
n
i=1
l
i
/n = 1/n a media dos l
i
s, temos que
n
i=1
(l
i
l)
2
=
n
i=1
l
2
i
nl
2
=
n
i=1
l
2
i
1/n,
de modo que
V ar[X
L
] =
2
n
i=1
l
2
i
(1.3.9) =
2
_
n
i=1
_
l
i
1
n
_
2
+
1
n
_
.
Assim, a express ao (1.3.9) ser a mnima quando l
i
= 1/n, ou seja o estimador
X
L
com menor variancia e a media amostral X. Portanto, dentre todos os
estimadores lineares nao viciados X
L
, o que apresenta a menor vari ancia e a
media amostral X. De (1.3.9) segue tambem que V ar[X] =
2
/n. Uma outra
forma de minimizar a vari ancia (1.3.8), sob a condi c ao (1.3.7), e feita utilizando-
se de multiplicadores de Lagrange. Nesse caso, temos o Lagrangeano
L() =
2
n
i=1
l
2
i

_
n
i=1
l
i
1
_
.
Derivando sucessivamente com rela c ao a l
1
, . . . , l
n
, temos as equa c oes
2
2
l
1
= 0, . . . , 2
2
l
n
= 0,
de modo que
2l
i
2
= 2l
n
2
,
logo
l
i
= l
n
,
i = 1, . . . , n. Sendo
n
i=1
l
i
= 1, segue que l
i
= 1/n, i = 1, . . . , n, como
concludo acima.
1
, . . . , X
n
X N(,
2
). Conforme visto no Exemplo 1.3.3,
2
e um estimador viciado
para
2
. De (1.3.3) segue que
S
2
=
n
n 1

2
=
1
n 1
n
i=1
(X
i
X)
2
e um estimador nao viciado para
2
. Por outro lado, temos (ver Exerccio 1.4)
que
(1.3.10) EQM[S
2
] = V ar[S
2
] =
2
4
n 1
,
e que
(1.3.11) EQM[
2
] =
2
4
(n 1)
_
1
(3n 1)
2n
2
_
.
10 1. Elementos B asicos
Notemos que
2
, apesar de viciado, apresenta um EQM menor que o EQM
do estimador S
2
.
1
, . . . , X
n
uma amostra aleat oria de tamanho n da
variavel aleatoria X, com distribui c ao de Bernoulli com par ametro , ou seja
Binomial(1, ). Conforme visto no modelo binomial, Y = X
1
+ . . . + X
n
tem
distribui c ao Binomial(n, ). Consideremos os estimadores
1
= X =
Y
n
e

2
=
Y +
n/2
n +
n
.
Como E[X] = , temos que
EQM[
1
] = V ar[X] =
(1 )
n
.
Por outro lado,
E[
2
] = E
_
Y +
n/2
n +
n
_
=
n +
n/2
n +
n
=
n
n +
n
+
n/2
n +
n
,
de modo que

2
e um estimador viciado para . Notemos que, na verdade, o
vcio e uma fun c ao linear de . Portanto
EQM[

2
] = E
_
_
Y +
n/2
n +
n

_
2
_
=
1
(n +
n)
2
E
_
_
(Y n) +
n
_
1
2

__
2
_
=
1
(n +
n)
2
_
V ar[Y ] +n
_
1
2

_
2
_
=
n
4(n +
n)
2
.
Um fato importante a ser notado e que o EQM do estimador

2
e independente
de . O EQM dos dois estimadores e representado gracamente na Figura 1.1,
para n = 9.
Temos, entao, que nenhum dos estimadores e melhor uniformemente, isto e,
para todo . Para c
1
< < c
2
, EQM[
2
] < EQM[
1
], ou seja,

2
e melhor que
1
. Por outro lado, para < c
1
ou > c
2
, temos que EQM[
1
] < EQM[
2
],
ou seja,

1
e melhor que

2
. Para o c alculo de c
1
e c
2
, ver Exerccio 1.5.
Figura 1.1. EQM de
1
=

1
e
2
=

2
0 1/2 1
1/64
1/36

EQM
!
c
1
"
1
c
2
"
2
1
, . . . , X
n
X U(0, ). Vamos considerar

1
= X e

2
= X
(n)
como estimadores de .
Como E[X] = /2 e V ar[X] =
2
/12 (ver o modelo (1.1.4)), temos que
(1.3.12) E[
1
] = E[X] =

2
,
e
(1.3.13) V ar[
1
] =

2
12n
.
Portanto o estimador

1
e viciado para . Combinando (1.3.12) e (1.3.13) em
(1.3.2), temos que
EQM[
1
] =

2
12n
+
_
2

_
2
=
(1 + 3n)
12n

2
.
Por outro lado, a fun c ao de densidade de X
(n)
(ver Exerccio 1.6) e dada por
(1.3.14) f
X
(n)
(x|) =
nx
n1
n
, 0 < x < ,
logo
(1.3.15) E[X
(n)
] =
n
n + 1
e V ar[X
(n)
] =
n
2
(n + 1)
2
(n + 2)
.
Portanto
EQM[
2
] =
n
2
(n + 1)
2
(n + 2)
+

2
(n + 1)
2
=
2
2
(n + 1)(n + 2)
.
A Tabela 1.1 mostra o valor do EQM dos dois estimadores para v arios va-
lores de n. Notemos tambem que, quando n , EQM[
1
]
2
/4 e que
EQM[
2
] 0.
Tabela 1.1. EQM de

1
e

2
n EQM[
1
] EQM[
2
] EQM[
2
]/EQM[
1
]
3 5
2
/18
2
/10 0,27
5 4
2
/15
2
/21 0,12
10 31
2
/120
2
/662 0,04
20 61
2
/240
2
/2312 0,01
Portanto X
(n)
e melhor que X para todo e n > 1.
Exemplo 1.3.9. Consideremos uma urna com N bolas identicas marcadas
com os n umeros 1, . . . , N. O objetivo e a estima c ao de N, o n umero de bolas
numeradas na urna. Esse problema esta muitas vezes associado ao problema
da estima c ao do n umero N de t axis em uma cidade, em que os t axis est ao
numerados de 1 a N. Portanto uma determinada quantidade (n) de bolas (taxis)
e observada, com reposicao. Associada à i-esima observa c ao, temos a vari avel
aleat oria
X
i
: n umero da i-esima bola (t axi) retirada da urna,
i = 1, . . . , n. Nesse caso,
P[X
i
= k] =
1
N
, k = 1, . . . , N.
Portanto a distribui c ao de X
i
e uniforme discreta, pois a distribuicao de X
i
associa a mesma probabilidade a todos os possveis valores de X
i
, i = 1, . . . , n.
Como possveis estimadores de N, consideremos inicialmente

N
1
= X e

N
2
=
X
(n)
. N ao e difcil vericar que
(1.3.16) E[

N
1
] = E[X] =
N + 1
2
.
Por outro lado, desde que
P[X
(n)
= k] = P[X
(n)
k] P[X
(n)
k 1] =
_
k
N
_
n
_
k 1
N
_
n
,
temos que
E[X
(n)
] = N
n
_
N
n+1
k=1
(k 1)
n
_
.
1.4 Exerccios 13
Usando a aproxima c ao (Feller, 1976),
N
k=1
(k 1)
n
= 1
n
+. . . + (N 1)
n

=
_
N
0
y
n
dy =
N
n+1
n + 1
,
(para N grande), temos que
(1.3.17) E[

N
2
] = E[X
(n)
]
= N
n
_
N
n+1
N
n+1
n + 1
_
=
n
n + 1
N.
De (1.3.16) e (1.3.17), podemos denir novos estimadores. Por exemplo,
N
3
= 2X 1,
que e nao viciado e
N
4
=
n + 1
n
X
(n)
,
que e aproximadamente nao viciado. Se n = 8 bolas sao retiradas com reposi cao
da caixa e os n umeros observados s ao: 124, 212, 315, 628, 684, 712, 782, 926,
entao,

N
1
= X = 547, 875,

N
3
= 2X 1 = 1095,

N
2
= X
(n)
= 926, e
N
4
= 1042. Podemos considerar tambem o estimador
N
5
=
X
n+1
(n)
(X
(n)
1)
n+1
X
n
(n)
(X
(n)
1)
n
,
que e um estimador nao viciado para N (ver Exerccio 1.7).
1.4 Exerccios
1.1. Verique a validade da express ao (1.3.2).
1.4. Verique a validade das express oes (1.3.10) e (1.3.11).
1.5. Encontre c
1
e c
2
na Figura 1.1. que s ao os pontos de intersec c ao dos erros
quadraticos medios de

1
e

2
.
1.6. Sejam X
1
, . . . , X
n
uma amostra aleat oria da vari avel aleat oria X
U(0, ). Mostre que a fun c ao de densidade de probabilidade de X
(n)
e como
dada em (1.3.14), com esperan ca e vari ancia como dadas em (1.3.15).
1.7. Mostre que o

N
5
no Exemplo 1.3.9 e um estimador n ao viciado para N.
1.8. Sejam X
1
, . . . , X
n
uma amostra aleat oria de tamanho n da distribui c ao da
variavel aleatoria X, em que X N(, 1). Considere os estimadores
1
= X e

2
= 10. Encontre o EQM de
1
e de
2
como fun cao de . Fa ca um gr aco
do EQM para n = 10.
1.9. Seja X uma unica vari avel aleat oria com distribui c ao de Bernoulli com
par ametro . Sejam

1
= X e

2
= 1/2 dois estimadores de .
(i) Verique se

1
e

2
sao nao viciados para .
(ii) Compare os EQMs. Fa ca um gr aco dos EQMs como fun cao de .
1.10. Sejam X
1
, . . . , X
n
uma amostra aleat oria de tamanho n da distribui c ao
da vari avel aleat oria X com f.d.p. dada por
f(x|) = e
(x)
, x > , > 0.
(i) Especique o espa co parametrico e o suporte associado à distribuicao de X.
(ii) Verique se

1
= X e

2
= X
(1)
sao estimadores nao viciados para .
(iii) Encontre e compare os EQMs dos dois estimadores. Fa ca um gr aco como
fun c ao de .
1.11. Sejam X
1
, . . . , X
n
um amostra aleat oria de tamanho n da distribui c ao
da vari avel aleat oria X com f.d.p. dada por
f(x|) =
2x
2
, 0 < x < , > 0.
(i) Especique o espa co parametrico e o suporte associado à distribuicao de X.
(ii) Verique se

1
= X e

2
= X
(n)
sao nao viciados para .
(iii) Encontre e compare os EQMs dos dois estimadores. Fa ca um gr aco dos
EQMs como fun cao de .
1.12. Sejam X
1
, . . . , X
n
de uma vari avel aleat oria X U(0, ). Considere os estimadores

1
= c
1
X e
2
= c
2
X
(n)
.
(i) Encontre c
1
e c
2
que tornam os estimadores nao viciados.
(ii) Encontre e compare os EQMs dos dois estimadores.
1.13. Sejam X
1
, . . . , X
n
da vari avel aleat oria X N(0,
2
). Seja S
2
=
n
i=1
X
2
i
. Considere os esti-
madores

2
c
= cS
2
.
(i) Encontre o EQM do estimador acima.
(ii) Encontre o valor de c que minimiza o EQM em (i).
2. Estimadores Ecientes e Estatsticas
Sucientes
Neste captulo ser a apresentada a no c ao de estimador eciente, como sendo
aquele que atinge o limite inferior da vari ancia dos estimadores n ao viciados.
Estimadores ecientes sao obtidos apenas para distribuicoes que sao membros
de uma classe especial, que e a famlia exponencial de distribui c oes. Veremos
tambem que todo estimador para ser otimo, segundo o criterio do menor erro
quadratico medio, deve ser fun cao de uma estatstica suciente. De modo in-
formal, estatsticas sucientes para um par ametro (ou para uma distribui c ao)
sao aquelas que condensam os dados sem perder nenhuma informa c ao contida
nos mesmos. Ou seja, elas s ao t ao informativas para o par ametro (ou para a
distribui c ao) quanto a amostra toda.
2.1 Estimadores Ecientes
Eciencia de um estimador

de um par ametro e denida a seguir.
Denicao 2.1.1. Chamamos de eciencia de um estimador

, n ao viciado para
o parametro , o quociente
e(
) =
LI()
V ar[
]
,
onde LI() e o limite inferior da variancia dos estimadores nao viciados de .
Convem notar que:
(i) e(
) = 1 quando LI() = V ar[
], ou seja, quando a variancia de

coincide com o limite inferior da variancia dos estimadores nao viciados de .

Nesse caso,

e dito ser eciente;
(ii) como veremos no teorema seguinte,
(2.1.1) LI() =
1
nE
_
_
log f(X|)
_
2
_,
quando certas condi coes de regularidade estao satisfeitas;
16 2. Estimadores Ecientes e Estatsticas Sucientes
(iii) as condi c oes de regularidade a que nos referimos no item (ii) s ao basi-
camente duas, isto e, que o suporte A(x) = {x, f(x|) > 0} seja independente
de e que seja possvel a troca das ordens das opera c oes de deriva cao e de
integra cao sob a distribui cao da variavel aleatoria X;
(iv) a n ao ser que mencionado o contr ario, todo logaritmo utilizado no texto
e calculado na base e.
1
, . . . , X
n
X N(,
2
), em que
2
e conhecido. Temos que
f(x|) =
1
2
e
(x)
2
2
2
, < x < ,
e
log f(x|) = log
2
1
2
log
2
(x )
2
2
2
.
Portanto
(2.1.2)
log f(x|)
=
(x )
2
.
Assim,
E
_
_
log f(X|)
_
2
_
= E
_
(X )
2
4
_
=
1
4
E[(X )
2
] =
1
2
,
logo conclumos, juntamente com (2.1.1), que
LI() =

2
n
.
Conforme visto no Exemplo 1.3.3, temos que
V ar[X] =

2
n
= LI(),
de modo que X e um estimador eciente para . De (2.1.2), temos tambem que
(2.1.3) E
_
log f(X|)
_
=
1
2
E[X ] = 0.
Denicao 2.1.2. A quantidade
log f(X|)
e chamada funcao escore.

2.1 Estimadores Ecientes 17
O resultado (2.1.3) na verdade vale em geral quando valem as condi c oes de
regularidade, ou seja,
(2.1.4) E
_
log f(X|)
_
= 0.
Portanto o valor esperado da fun c ao escore e sempre igual a zero.
Denicao 2.1.3. A quantidade
I
F
() = E
_
_
log f(X|)
_
2
_
,
e denominada informacao de Fisher de .
Como consequencia de (2.1.4) temos que
I
F
() = V ar
_
log f(X|)
_
,
pois para uma vari avel aleat oria X qualquer com E[X] = 0, V ar[X] = E[X
2
].
Um resultado importante (veja o Exerccio 2.6) estabelece que
E
_
_
log f(X|)
_
2
_
= E
_
2
log f(X|)
2
_
.
Uma outra propriedade importante estabelece que para uma amostra aleat oria,
X
1
, . . . , X
n
, da vari avel aleat oria X com f.d.p (ou f.p.) f(x|) e informa cao
de Fisher I
F
(), a informa c ao total de Fisher de correspondente à amostra
observada e a soma da informa c ao de Fisher das n observa c oes da amostra, ou
seja, sendo
(2.1.5) L(; x) = f(x
1
, . . . , x
n
|) =
n
i=1
f(x
i
|),
a densidade conjunta de X
1
, . . . , X
n
, temos que
E
_
_
log L(; X)
_
2
_
= E
_
2
log L(; X)
2
_
(2.1.6) = E
_
n
i=1
2
log f(X
i
|)
2
_
=
n
i=1
E
_
2
log f(X
i
|)
2
_
= nI
F
(),
pois X
i
, i = 1, . . . , n tem a mesma informa c ao que X. Lembremos que, sendo
X
1
, . . . , X
n
uma amostra aleat oria da vari avel aleat oria X, ent ao X
1
, . . . , X
n
sao independentes e identicamente distribudas com a mesma distribui c ao que
X.
Teorema 2.1.1. Desigualdade da Informa cao. Quando as condicoes de
regularidade est ao satisfeitas, a vari ancia de qualquer estimador n ao viciado

do par ametro satisfaz a desigualdade

V ar[
]
1
nI
F
()
.
Prova. Vamos considerar o caso em que X e uma variavel aleatoria contnua.
Sendo X
1
, . . . , X
n
uma amostra aleat oria da vari avel aleat oria X, temos que
(2.1.7)
_

. . .
_

L(; x)dx
1
. . . dx
n
= 1,
onde L(; x) e dada em (2.1.5). Desde que

e nao viciado, ou seja, E[
] = ,
temos tambem que
(2.1.8)
_

. . .
_

L(; x)dx
1
. . . dx
n
= .
Derivando ambos os lados de (2.1.7) com rela c ao a , temos que
. . .
_

L(; x)dx
1
. . . dx
n
=
_

. . .
_

L(; x)
dx
1
. . . dx
n
= 0.
Por outro lado, de (2.1.8), temos que
. . .
_

L(; x)dx
1
. . . x
n
=
_

. . .
_

L(; x)
dx
1
. . . dx
n
= 1.
Como
L(; x)
= t(; x)L(; x),

onde
t(; x) =
log L(; x)
,
temos das express oes acima que
E[t(; X)] = 0,
e
2.1 Estimadores Ecientes 19
E[
t(; X)] = 1.
Como
t
=
E[
t(; X)] E[
]E[t(; X)]
_
V ar[
]V ar[t(; X)]
,
onde
t
denota o coeciente de correla c ao entre

e t, de tal forma que
2
t
1,
temos que
V ar[
]
1
V ar[t(; X)]
.
Como as vari aveis X
1
, . . . , X
n
sao independentes e identicamente distribudas
com densidade f(x|), temos de (2.1.5) e de (2.1.6) que
V ar[t(; X)] = V ar
_
log L(; X)
_
= nI
F
(),
o que prova o resultado.
1
, . . . , X
n
variavel aleatoria X Poisson(), com fun c ao de probabilidade dada por
f(x|) =
e
x
x!
, x = 0, 1, . . . ,
Nesse caso, temos que
log f(x|) = log x! +xlog ,
de modo que
log f(x|)
=
x
1,
ou seja,
E
_
2
log f(X|)
2
_
=
1
.
Portanto
LI() =

n
.
Como V ar[X] = /n, conclumos que X e um estimador eciente para .
Enfatizamos que a desigualdade da informacao (inicialmente chamada de
Cramer-Rao) n ao e um metodo de constru c ao de estimadores. Ela apenas possi-
bilita vericar se determinado estimador e ou n ao eciente.

E entao importante
que sejam estabelecidos metodos para constru cao de estimadores que tenham
alguma propriedade interessante, ou que levem a estimadores com boas pro-
priedades. Contudo, antes de estabelecermos tais metodos (ou criterios), vamos
considerar estatsticas que reduzam (condensem) os dados sem que haja perda
de informa c ao. Tais estatsticas s ao conhecidas como estatsticas sucientes.
2.2 Estatsticas Sucientes
Sejam X
1
, . . . , X
n
uma amostra aleat oria da vari avel aleat oria X com fun cao
de densidade ou de probabilidade f(x|). Quando resumimos a informa c ao que
os dados contem sobre , utilizando uma estatstica, e importante que nao haja
perda de informa c ao sobre . Ou seja, a estatstica a ser considerada deve,
dentro do possvel, conter toda a informa c ao sobre presente na amostra. Em
outras palavras, se pudermos usar uma estatstica T = T(X
1
, . . . , X
n
) para ex-
trairmos toda informa c ao que a amostra X
1
, . . . , X
n
contem sobre , entao dize-
mos que T (que pode ser um vetor) e suciente para . Desse modo, o conhec-
imento apenas de T (e n ao necessariamente da amostra completa X
1
, . . . , X
n
)
e suciente para que sejam feitas inferencias sobre . A seguir apresentamos a
deni c ao formal.
Denicao 2.2.1. Dizemos que a estatstica T = T(X
1
, . . . , X
n
) e suciente
para , quando a distribuicao condicional de X
1
, . . . , X
n
dado T for indepen-
dente de .
Os exemplos a seguir ilustram a obten cao de estatsticas sucientes pela
utiliza c ao da Deni c ao 2.2.1.
1
, . . . , X
n
uma amostra aleat oria da distribui c ao
Binomial(1, ), ou seja, de Bernoulli(). Vamos vericar se a estatstica
T =
n
i=1
X
i
e suciente para . De acordo com a Deni c ao 2.2.1, T e su-
ciente para , se a probabilidade condicional P[X
1
= x
1
, . . . , X
n
= x
n
|T = t]
for independente de . Temos, para x
1
, . . . , x
n
= 0 ou 1 e t = 0, . . . , n,
P[X
1
= x
1
, . . . , X
n
= x
n
|T = t] =
_
0,
n
i=1
x
i
= t,
P[X1=x1,...,Xn=xn,T=t]
P[T=t]
,
n
i=1
x
i
= t;
ou seja, sendo
n
i=1
x
i
= t, temos que
P[X
1
= x
1
, . . . , X
n
= x
n
|T = t] =
P[X
1
= x
1
, . . . , X
n
= x
n
, T = t]
P[T = t]
=
P[X
1
= x
1
, . . . , X
n
= x
n
]
_
n
t
_
t
(1 )
nt
=
P[X
1
= x
1
] . . . P[X
n
= x
n
]
_
n
t
_
t
(1 )
nt
=

x1
(1 )
1x1
. . .
xn
(1 )
1xn
_
n
t
_
t
(1 )
nt
=

t
(1 )
nt
_
n
t
_
t
(1 )
nt
=
1
_
n
t
_,
pois sabemos que T Binomial(n, ). Portanto
P[X
1
= x
1
, . . . , X
n
= x
n
|T = t] =
_
0,
n
i=1
x
i
= t,
1
(
n
t
)
,
n
i=1
x
i
= t,
2.2 Estatsticas Sucientes 21
de modo que, pela Deni c ao 2.2.1, T =
n
i=1
X
i
e suciente para .
Exemplo 2.2.2. Consideremos novamente a situa c ao do Exemplo 2.2.1, com
n = 3 e T = X
1
+ 2X
2
+ X
3
. Vamos vericar se T e suciente. Notemos que
para X
1
= 1, X
2
= 0, X
3
= 1, temos que T = 2. Logo
(2.2.1) P[X
1
= 1, X
2
= 0, X
3
= 1|T = 2] =
P[X
1
= 1, X
2
= 0, X
3
= 1]
P[X
1
+ 2X
2
+X
3
= 2]
=
P[X
1
= 1]P[X
2
= 0]P[X
3
= 1]
P[X
1
= 1, X
2
= 0, X
3
= 1] +P[X
1
= 0, X
2
= 1, X
3
= 0]
=

2
(1 )
2
(1 ) + (1 )
2
= .
Portanto, como a probabilidade (2.2.1) depende de , conclumos que T n ao
e suciente para , pois, nesse caso, a distribui c ao condicional de X
1
, . . . , X
n
dado T depende de .
1
, . . . , X
n
uma amostra aleat oria da distribui c ao de
Poisson com par ametro . Vamos vericar se T =
n
i=1
X
i
e suciente para
. Sabemos que T =
n
i=1
X
i
tem distribui c ao de Poisson com par ametro n.
Assim, para x
i
= 0, 1, 2, ..., i = 1, . . . , n e t = 0, 1, ..., temos
P[X
1
= x
1
, . . . , X
n
= x
n
|T = t] =
_
0,
n
i=1
x
i
= t,
P[X1=x1,...,Xn=xn]
P[T=t]
;
n
i=1
x
i
= t;
de modo que se
n
i=1
x
i
= t, ent ao,
P[X
1
= x
1
, . . . , X
n
= x
n
|T = t] =
P[X
1
= x
1
] . . . P[X
n
= x
n
]
P[T = t]
=
e
x1
x
1
!
. . .
e
xn
x
n
!
t!
e
n
(n)
t
=
t!
x
1
!, . . . , x
n
!
1
n
t
,
que e independente de . Segue, ent ao, da Deni c ao 2.2.1 que
n
i=1
X
i
e su-
ciente para .
Notemos que a Deni c ao 2.2.1 permite, apenas, que possamos vericar se
determinada estatstica e ou n ao suciente. Contudo n ao pode ser utilizada
como um metodo para obten cao de estatsticas sucientes. Um procedimento
para a obten c ao de estatsticas sucientes e o criterio da fatora cao que apre-
sentamos a seguir.
Teorema 2.2.1. (Criterio da Fatora c ao de Neyman) Sejam X
1
, . . . , X
n
uma
amostra aleat oria da distribui c ao da vari avel aleat oria X com fun c ao de densi-
dade (ou de probabilidade) f(x|) e funcao de verossimilhanca L(; x). Temos,
ent ao, que a estatstica T = T(X
1
, . . . , X
n
) e suciente para , se e somente
se pudermos escrever
(2.2.2) L(; x) = h(x
1
, . . . , x
n
)g
(T(x
1
, . . . , x
n
)),
onde h(x
1
, . . . , x
n
) e uma funcao que depende apenas de x
1
, . . . , x
n
(n ao de-
pende de ) e g
(T(x
1
, . . . , x
n
)) depende de e de x
1
, . . . , x
n
somente atraves
de T.
Prova. Vamos provar o teorema apenas para o caso discreto. Nesse caso,
L(; x) = P
[X = x]. Suponhamos em primeiro lugar que (2.2.2) esteja veri-

cada e entao,
P
[X = x] = f(x|) = h(x)g
(T(x)).
Como
P[X = x|T(X) = t] =
_
0; T(x) = t
P
[X=x,T(X)=t]
P
[T(X)=t]
; T(x) = t,
quando T(x) = t, P[X = x|T(x) = t] = 0, que e independente de , logo a
condi cao da Deni cao 2.2.1 esta vericada. Quando T(x) = t, o evento {X =
x, T(X) = t} esta contido no evento {T(x) = t}, ent ao
P
[X = x, T(X) = t]
P
[T = t]
=
P
[X = x]
P
[T = t]
=
h(x)g
(t)
{x;T(x)=t}
h(x)g
(t)
=
h(x)
{x;T(x)=t}
h(x)
,
que e independente de , portanto T = T(X) e suciente para .
Suponhamos agora que T = T(X) seja suciente, de modo que a distribui cao
condicional de X dado T e independente de . Sendo T(x) = t, temos que
f(x|) = P
[X = x] = P
[X = x, T(x) = t]
= P[X = x|T(x) = t]P
[T(X) = t] = h(x)g
(t),
de modo que (2.2.2) est a provada.
Exemplo 2.2.4. Consideremos novamente o modelo de Poisson do Exemplo
2.2.3. Temos, ent ao, que
L(; x) =
n
i=1
f(x
i
|)
=
e
x1
x
1
!
. . .
e
xn
x
n
!
=
1
x
1
! . . . x
n
!
e
n
x1+...+xn
.
2.3 Estatsticas Conjuntamente Sucientes 23
Portanto, tomando
h(x
1
, . . . , x
n
) =
1
n
i=1
x
i
!
n
i=1
I
{0,1,2,...}
(x
i
) e g
(T(x)) = e
n
n
i=1
xi
,
temos, pelo criterio da fatora c ao, que T(X) =
n
i=1
X
i
e suciente para ,
onde X = (X
1
, . . . , X
n
).
1
, . . . , X
n
X U(0, ). Conforme visto no Captulo 1, temos que (veja o Modelo 1.1.5)
f(x|) =
1
I
[0,]
(x).
Temos entao
L(; x) =
1
I
[0,]
(x
1
) . . .
1
I
[0,]
(x
n
)
=
1
n
I
[0,]
(x
(n)
)I
[0,x
(n)
]
(x
(1)
),
de modo que, pelo criterio da fatora c ao, X
(n)
e uma estatstica suciente para
.
1
, . . . , X
n
uma amostra aleat oria da distribui c ao
N(, 1). Temos, ent ao, que
L(; x) =
1
2
e
(x
1
)
2
2
. . .
1
2
e
(xn)
2
2
=
_
1
2
_
n
e
n
i=1
(x
i
)
2
2
=
_
1
2
_
n
e
n
i=1
x
2
i
2
e
n
2
2
+
n
i=1
xi
.
Portanto, pelo criterio da fatora c ao, T(X) =
n
i=1
X
i
e uma estatstica su-
ciente para .
2.3 Estatsticas Conjuntamente Sucientes
Na se c ao anterior vimos o caso uniparametrico, ou seja, a distribui c ao dos
dados depende de um unico par ametro . Nesta secao consideramos o caso
multiparametrico em que e um vetor de parametros, que denotamos por .
Em muitas situacoes, o modelo estatstico depende de mais de um parametro.
E o caso do modelo N(,

2
), em que = (,
2
), sendo e
2
desconhecidos.
E o caso tambem do modelo Gama(, ), em que e sao desconhecidos e,

portanto, = (, ).
Teorema 2.3.1. (Criterio da fatora c ao. Caso Multiparametrico) Sejam X
1
, . . .,
X
n
uma amostra aleat oria da distribuic ao da vari avel aleatoria X, com fun c ao
de densidade (ou de probabilidade) f(x|). Temos, entao, que a estatstica r-
dimensional T = (T
1
, . . . , T
r
), T
i
= T
i
(X) e conjuntamente suciente para
se
L(; x) = f(x
1
, . . . , x
n
|) =
n
i=1
f(x
i
|) = h(x
1
, . . . , x
n
)g
(T
1
(x), . . . , T
r
(x)),
onde h(x
1
, . . . , x
n
) e uma funcao que nao depende de e g
(T
1
(x), . . . , T
r
(x))
depende de e de x = (x
1
, . . . , x
n
) somente por meio de (T
1
(x), . . . , T
r
(x)).
No caso do Teorema 2.3.1, dizemos que a estatstica suciente e de dimens ao
r, que em muitos casos e tambem a dimens ao do espa co parametrico . Mas
existem situa coes em que tal fato nao ocorre, ou seja, a dimens ao de e menor
que r.
1
, . . . , X
n
variavel aleatoria X N(,
2
), onde e
2
sao desconhecidos. Temos, entao,
que = (,
2
). Nesse caso, a fun c ao de verossimilhan ca pode ser escrita como
L(; x) =
_
1
2
_
n
e
n
i=1
(x
i
)
2
2
2
=
_
1
2
_
n
1
n
e
1
2
2
n
i=1
x
2
i
+

n
i=1
xin

2
2
2
,
com < < e
2
> 0. Tomando h(x
1
, . . . , x
n
) = 1/(
2)
n
e
g
(t
1
(x), t
2
(x)) =
1
n
e
1
2
2
n
i=1
x
2
i
+

n
i=1
xin

2
2
2
,
temos, de acordo com o criterio da fatora c ao, que T = (
n
i=1
X
i
,
n
i=1
X
2
i
) e
conjuntamente suciente para (,
2
).
Denicao 2.3.1. Dizemos que duas estatsticas T
1
e T
2
s ao equivalentes se
existir uma rela c ao 1:1 entre elas.
Em outra palavras, T
1
e T
2
sao equivalentes se T
1
puder ser obtida a partir
de T
2
e vice-versa. Nesse caso, temos que, se T
1
e suciente para , ent ao T
2
tambem e suciente para . Esse resultado vale tambem para o caso multidi-
mensional.
2.4 Famlias Exponenciais 25
Exemplo 2.3.2. Consideremos novamente a situa c ao do Exemplo 2.2.6. Vi-
mos que T
1
=
n
i=1
X
i
e suciente para . Como T
1
e equivalente a T
2
=
n
i=1
X
i
/n = X, temos que T
2
= X tambem e suciente para .
Exemplo 2.3.3. Consideremos novamente a situa c ao do Exemplo 2.3.1. N ao e
difcil vericar que T
1
= (
n
i=1
X
i
,
n
i=1
X
2
i
) e T
2
= (X, S
2
) s ao equivalentes.
Como T
1
e suciente para (Exemplo 2.3.1), temos que T
2
tambem e suciente
para = (,
2
).
1
, . . . , X
n
X com distribui cao Gama(, ). Dizemos que X Gama(, ), se sua f.d.p.
e dada por
f(x|, ) =

x
1
e
x
()
, x > 0, , > 0.
onde (.) e a fun cao gama denida por (t) =
_
0
x
t1
e
x
dx, para t > 0.
Entao, = (, ). Temos que a fun c ao de verossimilhan ca correspondente à
amostra observada e dada por
L(; x) =

n
n
()
n
i=1
x
1
i
e
n
i=1
xi
I
(0,)
(x),
> 0, > 0. Portanto, pelo criterio da fatora c ao, temos que T
1
=
(
n
i=1
X
i
,
n
i=1
X
i
) e conjuntamente suciente para . Notemos que a es-
tatstica T
2
= (
n
i=1
log X
i
, X) e equivalente a T
1
.
2.4 Famlias Exponenciais
Muitos dos modelos estatsticos considerados nas se c oes anteriores podem ser
considerados como casos especiais de uma famlia mais geral de distribui coes .
Denicao 2.4.1. Dizemos que a distribui c ao da vari avel aleat oria X pertence
` a famlia exponencial unidimensional de distribui c oes, se pudermos escrever
sua f.p. ou f.d.p. como
(2.4.1) f(x|) = e
c()T(x)+d()+S(x)
, x A
onde c, d s ao fun c oes reais de ; T, S s ao fun c oes reais de x e A n ao depende
de .
Notemos que no caso em que X e contnua, para que f(x|) em (2.4.1) seja
uma fun c ao de densidade, e necess ario que
_
A
e
c()T(x)+d()+S(x)
dx = 1,
ou seja,
_
A
e
c()T(x)+S(x)
dx = e
d()
,
de modo que d() esta associado à constante de normaliza cao da densidade.
Resultado similar vale para o caso em que X e uma variavel aleatoria discreta.
Exemplo 2.4.1. Seja X uma vari avel aleat oria com distribui c ao de Bernoul-
li(). Ent ao, podemos escrever
f(x|) =
x
(1 )
1x
=
_

1
_
x
(1 ) = e
x log(

1
)+log(1)
, x = {0, 1}.
Portanto a distribui c ao de X pertence ` a famlia exponencial unidimensional
com
c() = log
_

1
_
, d() = log(1 ),
T(x) = x, S(x) = 0, A = {0, 1}.
Exemplo 2.4.2. Seja X uma vari avel aleat oria com distribui c ao N(, 1).
Temos, entao, que
f(x|) =
1
2
e
(x)
2
2
= e
x
2
2

x
2
2
log
2
.
Portanto a distribui c ao da vari avel aleat oria X pertence ` a famlia exponencial
unidimensional com
c() = , d() =
2
2
,
T(x) = x e S(x) =
x
2
2
log
2, A = IR.
Outras distribui coes que podem ser colocadas na forma da famlia exponen-
cial unidimensional sao, por exemplo, binomial, de Poisson e exponencial. O
pr oximo resultado estabelece que amostras aleat orias de famlias exponenciais
unidimensionais s ao tambem membros da famlia exponencial unidimensional.
Teorema 2.4.1. Sejam X
1
, . . . , X
n
vari avel aleat oria X, com fun c ao de densidade (ou de probabilidade) dada por
(2.4.1). Ent ao, a distribui c ao conjunta de X
1
, . . . , X
n
e dada por
(2.4.2) f(x
1
, . . . , x
n
|) = e
c
()
n
i=1
T(xi)+d
()+S
(x)
, x A
n
,
que tambem e da famlia exponencial com T(x) =
n
i=1
T(x
i
), c
() = c(),
d
() = nd(), e S
(x) =
n
i=1
S(x
i
).
2.4 Famlias Exponenciais 27
Notemos de (2.4.2) que considerando
h(x
1
, . . . , x
n
) = e
n
i=1
S(xi)
n
i=1
I
A
(x
i
), e g
(T) = e
c()
n
i=1
T(xi)+nd()
,
temos, pelo criterio da fatora c ao, que a estatstica T(X) =
n
i=1
T(X
i
) e su-
ciente para .
Denicao 2.4.2. Dizemos que a distribui c ao da vari avel aleat oria (ou de um
vetor aleat orio) X pertence ` a famlia exponencial de dimens ao k se a fun c ao
de densidade (ou de probabilidade) de X e dada por
(2.4.3) f(x|) = e
k
j=1
cj()Tj(x)+d()+S(x)
, x A,
onde c
j
, T
j
, d e S s ao fun c oes reais, j = 1, . . . , k, e como no caso unidimen-
sional, d() est a associado ` a constante de normaliza c ao de (2.4.3) e A nao
depende de .
Tambem, no caso de dimensao k, amostras de famlias exponenciais de di-
mens ao k tem distribui c oes que s ao membros da famlia exponencial de di-
mens ao k. Para uma amostra X
1
, . . . , X
n
de uma vari avel aleat oria com fun c ao
de densidade (ou de probabilidade) dada por (2.4.3), temos que a fun c ao de
densidade (ou de probabilidade) conjunta de X
1
, . . . , X
n
e dada por
f(x
1
, . . . , x
n
|) = e
k
j=1
c
j
()
n
i=1
Tj(x
i
)+d
()+S
(x)
,
onde
T
j
(x) =
n
i=1
T
j
(x
i
), c
j
() = c
j
(),
S
(x) =
n
i=1
S(x
i
), d
() = nd().
Nesse caso, (T
1
, . . . , T
k
) e conjuntamente suciente para .
Exemplo 2.4.3. Consideremos mais uma vez a situa c ao do Exemplo 2.3.1.
Nesse caso, temos que = (,
2
), com
(2.4.4) f(x|) =
1
2
e
(x)
2
2
2
,
= e
1
2
2
x
2
+

2
x

2
2
2
1
2
log
2
log
2
,
que e da famlia exponencial bidimensional com
T
1
(x) = x, T
2
(x) = x
2
, c
1
() =

2
, c
2
() =
1
2
2
,
d() =

2
2

1
2
log
2
, S(x) = log
2, A = IR.
A distribui c ao de uma amostra aleat oria da densidade (2.4.4) e tambem da
famlia exponencial com T
1
(X) =
n
i=1
X
i
e T
2
(X) =
n
i=1
X
2
i
, que s ao con-
juntamente sucientes para (,
2
).
Exemplo 2.4.4. Vamos considerar agora o caso em que o vetor (X, Y ) e dis-
tribudo de acordo com a distribui c ao normal bivariada com = (
x
,
y
,
2
x
,
2
y
,
), que denotamos por
_
X
Y
_
N
2
__
y
_
;
_

2
x

x
y

2
y
__
,
e com densidade
(2.4.5) f(x, y|) =
1
x

1
y
_
2(1
2
)
e
1
2(1
2
)
_
(xx)
2
2
x
2
xy
(xx)(yy)+
(yy)
2
2
y
_
.
A densidade pode ser escrita como
f(x, y|) = e
1
(1
2
)
_
x
2
x
y
xy
_
x+
1
(1
2
)
_
y
2
y
x
xy
_
y
e
1
2(1
2
)
2
x
x
2
1
2(1
2
)
2
y
y
2
+

(1
2
)xy
xy
e

2
x
2(1
2
)
2
x
2
y
2(1
2
)
2
y
+
xy
(1
2
)xy
log xy
1
2
log 2
,
que corresponde a uma densidade na forma da famlia exponencial de dimensao
5, em que
c
1
() =
1
(1
2
)
_
2
x
y
_
, T
1
(x, y) = x,
c
2
() =
1
(1
2
)
_
2
y
y
_
, T
2
(x, y) = y,
c
3
() =
1
2(1
2
)
2
x
, T
3
(x, y) = x
2
,
c
4
() =
1
2(1
2
)
2
y
, T
4
(x, y) = y
2
,
c
5
() =

(1
2
)
x
y
, T
5
(x, y) = xy.
2.5 Estimadores Baseados em Estatsticas Sucientes 29
As fun c oes d() e S(x, y) s ao obtidas de maneira similar.
Consideremos uma amostra aleat oria (X
1
, Y
1
), . . . , (X
n
, Y
n
) da densidade
normal bivariada (2.4.5). Temos, portanto, que a estatstica
T
1
=
_
n
i=1
X
i
,
n
i=1
Y
i
,
n
i=1
X
2
i
,
n
i=1
Y
2
i
,
n
i=1
X
i
Y
i
_
e conjuntamente suciente para = (
x
,
y
,
2
x
,
2
y
, ). Notemos que a es-
tatstica
T
2
= (X, Y , S
2
x
, S
2
y
, S
xy
),
onde S
2
x
=
n
i=1
(X
i
X)
2
/n, S
2
y
=
n
i=1
(Y
i
Y )
2
/n e S
xy
=
n
i=1
(X
i

X)(Y
i
Y )/n e equivalente a T
1
e, portanto, e tambem conjuntamente su-
ciente para . Estimadores comumente considerados para e que s ao fun c oes
de T
2
s ao
(2.4.6)
x
= X,
y
= Y ,
2
x
=
n
i=1
(X
i
X)
2
/n,
2
y
=
n
i=1
(Y
i
Y )
2
/n,
e
(2.4.7) =
n
i=1
(X
i
X)(Y
i
Y )
_
n
i=1
(X
i
X)
2
n
i=1
(Y
i
Y )
2
.
O estimador e conhecido como coeciente de correlacao de Pearson. Podemos
mostrar que os estimadores de dados por (2.4.6) e (2.4.7) s ao estimadores de
m axima verossimilhan ca.
2.5 Estimadores Baseados em Estatsticas Sucientes
Sejam X
1
, . . . , X
n
uma amostra aleat oria da vari avel aleat oria X com fun cao
de densidade (ou de probabilidade) f(x|). Seja T = T(X
1
, . . . , X
n
) uma es-
tatstica suciente para e S = S(X
1
, . . . , X
n
) um estimador de que nao e
fun c ao da estatstica suciente T. Ent ao,
(2.5.1)

= E[S|T],
e um estimador de , ou seja, e uma fun cao de T que nao depende de ,
pois, sendo T suciente, a distribuicao condicional de X
1
, . . . , X
n
dado T e
independente de . Notemos que S = S(X
1
, . . . , X
n
) e uma fun c ao apenas de
X
1
, . . . , X
n
. Temos, tambem, que se S e um estimador nao viciado de , ent ao
e tambem nao viciado para (veja o Exerccio 2.8). Contudo o resultado mais
importante, conhecido como Teorema de Rao-Blackwell, estabelece que, se S e
um estimador n ao viciado de , ent ao,
(2.5.2) V ar[
] V ar[S],
para todo . Para provar esse resultado, notemos que
V ar[S] = E{V ar[S|T]} +V ar{E[S|T]}
V ar{E[S|T]} = V ar[
],
pois E{V ar[S|T]} 0. Portanto temos de (2.5.2) que o estimador

baseado
na estatstica suciente T apresenta uma vari ancia menor (ou igual) que a
variancia do estimador nao viciado S. Desse modo, qualquer estimador S que
n ao e fun c ao de uma estatstica suciente pode ser melhorado pelo procedi-
mento (2.5.1).
1
, . . . , X
n
X Poisson(). Queremos estimar P(X = 0) = = e
. Temos que a
estatstica T =
n
i=1
X
i
e suciente para . Consideremos
S =
_
1, X
1
= 0,
0, caso contrario.
Temos que E(S) = P(X
1
= 0) = e
, logo S e nao viciado para e
. Notemos
que, para t = 0, 1, 2, ...,
E[S|T = t] = P(X
1
= 0|T = t) =
P(
n
i=2
X
i
= t)P(X
1
= 0)
P(
n
i=1
X
i
= t)
=
e
(n1)
((n 1))
t
t!
e
t!
e
n
(n)
t
=
_
n 1
n
_
t
,
portanto de acordo com (2.5.1) temos que o estimador
=
_
n 1
n
_
n
i=1
Xi
e nao viciado e e melhor que o estimador S, pois apresenta EQM menor.
A seguir apresentamos a deni c ao de estatstica completa que, em conjunto
com a deni cao de suciencia, possibilita a obten cao do estimador otimo, isto
e, o estimador nao viciado de variancia uniformemente mnima.
Denicao 2.5.1. Uma estatstica T = T(X
1
, . . . , X
n
) e dita ser completa em
rela c ao ` a famlia f(x|) : , se a unica fun c ao real g, denida no domnio
2.5 Estimadores Baseados em Estatsticas Sucientes 31
de T, tal que E[g(T)] = 0, para todo e a funcao nula, isto e, g(T) = 0 com
probabilidade 1.
Exemplo 2.5.2. Consideremos novamente o Exemplo 2.2.1. Temos que
E[g(T)] =
n
x=0
g(x)
_
n
x
_
x
(1 )
nx
= 0 para todo ,
se e somente se
(2.5.3)
n
x=0
g(x)
_
n
x
_
x
= 0, para todo
onde = /(1 ). Como o lado esquerdo de (2.5.3) e um polin omio em de
grau n temos que g(x) = 0 para todo x. Portanto T =
n
i=1
X
i
e completa em
rela c ao ` a famlia Binomial.
1
, X
2
uma amostra aleat oria da vari avel X
Bernoulli(). Seja T = X
1
X
2
. Temos que E(T) = E(X
1
X
2
) = 0, logo
existe a fun cao g(T) = T tal que E(g(T)) = 0, mas g(T) = 0 com probabilidade
1. Portanto T = X
1
X
2
n ao e completa.
A demonstra c ao do teorema a seguir pode ser encontrada em Lehmann
(1986).
Teorema 2.5.2. Suponha que X tenha distribuicao da famlia exponencial k-
dimensional (como denida em 2.4.2). Ent ao, a estatstica
T(X) =
_
n
i=1
T
1
(X
i
), . . . ,
n
i=1
T
k
(X
i
)
_
e suciente para . T(X) ser a tambem completa desde que o domnio de
varia c ao de (c
1
(), . . . , c
k
()) contenha um ret angulo k-dimensional.
No caso uniparametrico, e necess ario que o domnio de varia c ao de c()
contenha um intervalo da reta. No caso bidimensional, um quadrado e assim
por diante.
Teorema 2.5.3. (Lehmann-Schee) Sejam X
1
, . . . , X
n
uma amostra aleat oria
da vari avel aleat oria X com f.d.p. (ou f.p.), f(x|). Seja T uma estatstica
suciente e completa. Seja S um estimador n ao viciado de . Ent ao

= E(S|T)
e o unico estimador nao viciado de baseado em T e e o estimador n ao viciado
de vari ancia uniformemente mnima (ENVVUM) para .
Prova. De (2.5.1) e (2.5.2) temos que

e um estimador nao viciado de e que,
na procura de ENVVUMs para , basta procurar entre os que s ao fun c ao de
T (pois os que n ao s ao podem ser melhorados). Falta provar, entao, que ha um
unico estimador n ao viciado de que e fun cao de T. Para isso, suponha que
existam

1
e

2
, ambos fun c oes de T, tais que
E(
1
) = E(
2
) = ,
de modo que E(
2
) = 0 e como T e completa,

2
= 0, e portanto
1
=

2
com probabilidade 1.
1
, . . . , X
n
uma amostra aleat oria da distribui c ao de
Poisson com par ametro . Pelos Exemplos 2.2.4 e 2.5.2 temos que T =
n
i=1
X
i
e uma estatstica suciente e completa. Como X e um estimador nao viciado
de e e fun cao de T, e o ENVVUM.
2.6 Exerccios
2.1. Sejam X
1
, . . . , X
n
N(0,
2
).
(i) Encontre o limite inferior da vari ancia dos estimadores nao viciados de
2
.
(ii) Encontre uma estatstica suciente para
2
.
(iii) Obtenha a partir desta estatstica um estimador n ao viciado para
2
.
(iv) Verique se este estimador e eciente.
2.2. Sejam X
1
, . . . , X
n
Binomial(2, ).
(i) Encontre o limite inferior da vari ancia dos estimadores nao viciados de .
(ii) Encontre uma estatstica suciente para .
(iii) Obtenha um estimador n ao viciado para que seja fun cao da estatstica
suciente.
(iv) Verique se o estimador e eciente.
2.3. Sejam X
1
, . . . , X
n
uma amostra aleat oria da distribui c ao da vari avel
aleat oria X com fun cao densidade de probabilidade dada por
f(x|) = x
1
, 0 < x < 1, > 0.
(i) Mostre que a f.d.p. pertence ` a famlia exponencial.
(ii) Encontre o limite inferior da vari ancia dos estimadores nao viciados de .
(iii) Encontre uma estatstica suciente para e sua distribui c ao.
(iv) Sugira um estimador n ao viciado para que seja fun cao da estatstica
suciente e verique se e eciente.
2.4. SejamX
1
, X
2
uma amostra aleat oria da vari avel aleat oria X Poisson().
Mostre que T = X
1
+ 2X
2
n ao e suciente para .
2.6 Exerccios 33
2.5. Sejam X
1
, . . . , X
n
uma amostra aleat oria da vari avel aleat oria X com
fun c ao de densidade (ou de probabilidade) f(x|) para a qual as condi coes
de regularidade est ao satisfeitas. Seja um estimador n ao viciado para g().
Mostre que
V ar( )
(g
())
2
nE
_
_
log f(X|)
_
2
_.
2.6. Seja f(x|) uma fun c ao densidade para a qual as condi c oes de regularidade
estao satisfeitas. Mostre que
E
_
_
log f(X|)
_
2
_
= E
_
2
log f(X|)
2
_
.
2.7. Sejam X
1
, . . . , X
n
f.d.p. dada por
f(x|) = e
(x)
, x > , > 0.
(i) Encontre uma estatstica suciente para .
(ii) Baseado nesta estatstica, obtenha um estimador n ao viciado para .
2.8. Mostre que se S e um estimador nao viciado de , entao

dado por (2.5.1)
tambem e n ao viciado para .
2.9. Sejam X
1
, . . . , X
n
N(, 1).
(i) Mostre que o estimador = X
2
1/n e nao viciado para g() =
2
.
(ii) Existe ENVVUM para
2
?
(iii) Encontre o limite inferior da vari ancia dos estimadores n ao viciados de
g() =
2
e verique se e eciente.
2.10. Sejam X
1
, . . . , X
n
uma amostra aleat oria da vari avel aleat oria. X
Bernoulli(). Obtenha o ENVVUM para (1 ).
Sugest ao: verique se S
2
=
n
(n1)
X(1 X) e n ao viciado para (1 ).
2.11. Sejam X
1
, . . . , X
n
distribui c ao geometrica com par ametro , isto e,
f(x|) = (1 )
x
, x = 0, 1, 2, ..., 0 < < 1.
Encontre o ENVVUM para 1/.
2.12. SejamY
1
, . . . , Y
n
variaveis aleatorias independentes onde Y
i
N(x
i
,
2
),
onde x
i
e conhecido, i = 1, . . . , n. Note que, neste caso, as variaveis Y
i
n ao s ao
identicamente distribudas.
(i) Encontre uma estatstica conjuntamente suciente para e
2
.
(ii) Baseado nessa estatstica, obtenha os ENVVUM para e para
2
.
3. Metodos de Estima cao
No captulo anterior consideramos um criterio para vericar se determinado
estimador e ou nao eciente. Contudo tal procedimento nao e um metodo que
possibilita, em geral, a obten c ao de estimadores em situa c oes especcas. Vimos
tambem que todo bom estimador deve ser fun c ao de uma estatstica suciente.
Neste captulo vamos considerar alguns metodos que possibilitam a obten c ao
de estimadores em situa c oes especcas. O primeiro metodo que consideramos e
o metodo de maxima verossimilhan ca em que estimadores sao obtidos a partir
da maximiza c ao da fun c ao de verossimilhan ca. O segundo metodo considerado
e o metodo dos momentos em que estimadores sao obtidos igualando-se os
momentos amostrais aos correspondentes momentos populacionais.
3.1 O Metodo de Maxima Verossimilhan ca
O conceito de fun cao de verossimilhan ca, enunciado a seguir, e central na teoria
da verossimilhan ca.
Denicao 3.1.1. Sejam X
1
, . . . , X
n
vari avel aleat oria X com fun c ao de densidade (ou de probabilidade) f(x|),
com , onde e o espaco parametrico. A funcao de verossimilhanca de
correspondente ` a amostra aleat oria observada e dada por
(3.1.1) L(; x) =
n
i=1
f(x
i
|).
Denicao 3.1.2. O estimador de maxima verossimilhanca de e o valor

que maximiza a fun c ao de verossimilhan ca L(; x).
O logaritmo natural da fun cao de verossimilhan ca de e denotado por
(3.1.2) l(; x) = log L(; x).
N ao e difcil vericar que o valor de que maximiza a fun cao de verossimi-
lhan ca L(; x), tambem maximiza l(; x) dada por (3.1.2). Alem disso, no caso
36 3. Metodos de Estima c ao
uniparametrico onde e um intervalo da reta e l(; x) e deriv avel, o estimador
de m axima verossimilhan ca pode ser encontrado como a raiz da equa c ao de
verossimilhan ca
(3.1.3) l
(; x) =
l(; x)
= 0.
Em alguns exemplos simples, a solucao da equacao de verossimilhanca pode ser
obtida explicitamente. Em situa c oes mais complicadas, a solucao da equacao
(3.1.3) ser a em geral obtida por procedimentos numericos. Para se concluir que
a solu cao da equa cao (3.1.3) e um ponto de maximo, e necessario vericar se
(3.1.4) l
; x) =

2
log L(; x)
2
|
=
< 0.
Em situacoes em que e discreto ou em que o maximo de l(; x) ocorre na
fronteira de (Exemplo 1.3.8), o estimador de m axima verossimilhan ca nao
pode ser obtido a partir da solu c ao de (3.1.3). Em tais situa c oes, o m aximo e
obtido a partir da inspe c ao da fun c ao de verossimilhan ca.
1
, . . . , X
n
uma amostra aleat oria da distribui c ao da
variavel aleatoria X N(, 1). Nesse caso, a fun c ao de verossimilhan ca e dada
por
L(; x) =
_
1
2
_
n
e
1
2
n
i=1
(xi)
2
,
com = {; < < }. Como
l(; x) = nlog
2
1
2
n
i=1
(x
i
)
2
,
segue de (3.1.3) que a equacao de verossimilhanca e dada por
n
i=1
(x
i
) = 0,
logo o estimador de maxima verossimilhan ca de e dado por
=
1
n
n
i=1
X
i
= X.
N ao e difcil vericar nesse caso que (3.1.4) est a satisfeita.
Entao X, alem de ser eciente (Exemplo 2.1.1) e fun cao da estatstica su-
ciente, e tambem estimador de maxima verossimilhan ca.
3.1 O Metodo de M axima Verossimilhan ca 37
1
, . . . , X
n
X Bernoulli(). Nesse caso, a fun c ao de verossimilhan ca de e dada por
L(; x) =
n
i=1
xi
(1 )
n
n
i=1
xi
,
com = {; 0 < < 1}. De modo que
l(; x) =
n
i=1
x
i
log +
_
n
n
i=1
x
i
_
log(1 ).
Portanto segue de (3.1.3) que a equa c ao de verossimilhan ca de e dada por
n
i=1
x
i
(n
n
i=1
x
i
)
1
= 0,
logo o estimador de maxima verossimilhan ca de e dado por
=
1
n
n
i=1
X
i
,
pois neste caso, (3.1.4) tambem est a vericada.
O exemplo a seguir ilustra uma situa cao em que a equa cao (3.1.3) n ao pode
ser utilizada.
1
, . . . , X
n
X U(0, ). Conforme visto no Exemplo 2.2.5, podemos escrever a fun cao de
verossimilhan ca como
(3.1.5) L(; x) =
1
n
I
[0,]
(x
(n)
)I
[0,x
(n)
]
(x
(1)
),
onde = {; > 0}. Nesse caso, a equa c ao de verossimilhan ca (3.1.3) n ao leva
a nenhum estimador para . Por outro lado, o gr aco da fun c ao de verossimi-
lhan ca de e dado pela Figura 3.1.
Como a fun c ao de verossimilhan ca (3.1.5) e nula para < x
(n)
e vale 1/
n
para X
(n)
, temos que o maximo de L(; x) e dado por

= X
(n)
, que e uma
estatstica suciente para . Nesse caso o estimador de maxima verossimilhan ca
de e viciado (ver Exemplo 1.3.8.).
Figura 3.1. Fun cao de Verossimilhan ca
0
L(!,x)
n
n
x
) (
1
) (n
x
!
No caso discreto, o estimador de m axima verossimilhan ca de ,

, pode ser
interpretado como o valor de que maximiza a probabilidade de se observar a
amostra que foi selecionada. O exemplo a seguir ilustra bem esse fato.
Exemplo 3.1.4. Temos uma caixa com bolas brancas e vermelhas. Sabe-se
que a propor cao de bolas vermelhas na caixa e 1/3 ou 2/3. Portanto =
{1/3, 2/3}. Para obtermos informa c ao sobre , uma amostra de n = 3 bolas
e observada com reposicao e apresenta bola vermelha na primeira extra cao e
branca na segunda e na terceira extra c oes. Denindo
X
i
=
_
1, se a i-esima retirada apresenta bola vermelha
0, se a i-esima retirada apresenta bola branca,
para i = 1, 2, 3, temos que a fun c ao de verossimilhan ca de associada ` a amostra
observada e dada por
L(; x) = P
[X
1
= 1, X
2
= 0, X
3
= 0] = (1 )(1 ) = (1 )
2
.
Como
L
_
1
3
; x
_
=
1
3
_
2
3
_
2
=
4
27
e
L
_
2
3
; x
_
=
2
3
_
1
3
_
2
=
2
27
,
temos que a estimativa de m axima verossimilhan ca de e dada por

= 1/3,
pois
L
_
1
3
; x
_
> L
_
2
3
; x
_
.
O exemplo que apresentamos a seguir ilustra uma situa c ao em que o esti-
mador de m axima verossimilhan ca n ao e unico.
1
, . . . , X
n
variavel aleatoria X U( 1/2, + 1/2), isto e
f(x|) = I
[1/2;+1/2]
(x),
> 0. Temos, entao, que
L(; x) = I
[1/2;+1/2]
(x
1
) . . . I
[1/2;+1/2]
(x
n
)
= I
[x
(n)
1/2;x
(1)
+1/2]
(),
pois
1/2 x
i
+ 1/2, i = 1, . . . , n,
se e somente se
x
(1)
+ 1/2 e x
(n)
1/2 .
A Figura 3.2 apresenta o graco da funcao L(; x).
Figura 3.2. Fun cao de Verossimilhan ca
0
1

L(!,x)
x
(n)
-1/2
x
(1)
+1/2 !
Como L(; x) e nula para < x
(n)
1/2 e para > x
(1)
+ 1/2 e constante
no intervalo [x
(n)
1/2; x
(1)
+ 1/2], temos que qualquer ponto desse intervalo
e um estimador de maxima verossimilhanca de . Em particular,
=
X
(1)
+X
(n)
2
e um estimador de maxima verossimilhanca de .
Em alguns casos, principalmente quando a verossimilhanca esta associada
a modelos mais complexos, a fun cao de verossimilhan ca nao apresenta solu c ao
analtica explcita. Em tais casos, os estimadores de m axima verossimilhan ca
podem ser obtidos por meio de metodos numericos. Vamos denotar por U() a
fun c ao escore, ou seja,
U() =
log L(; x)
,
temos que, para o estimador de m axima verossimilhan ca

,
U(
) = 0,
de modo que, expandindo U(
) em serie de Taylor em torno de um ponto

0
,
obtemos
0 = U(
= U(
0
) + (

0
)U
(
0
),
ou seja, chegamos a equa c ao
(3.1.6)

=
0
U(
0
)
U
(
0
)
.
Da equa c ao (3.1.6), obtemos o procedimento iterativo (Newton-Raphson)
(3.1.7)
j+1
=
j
U(
j
)
U
(
j
)
,
que e iniciado com o valor
0
e ent ao um novo valor
1
e obtido a partir de
(3.1.7) e assim por diante, ate que o processo se estabilize, ou seja, para um
dado pequeno, |
j+1

j
| < . Nesse caso, o ponto

em que o processo
se estabiliza e tomado como o estimador de maxima verossimilhan ca de .
Em alguns casos, a substituicao de U
(
j
) em (3.1.7) por E[U
(
j
)], ou seja, a
informa cao de Fisher em
j
correspondente à amostra observada multiplicada
por 1, apresenta signicativa simplica c ao no procedimento. Esse metodo e
conhecido como metodo do escore. O exemplo a seguir ilustra uma aplica c ao
de tal procedimento.
1
, . . . , X
n
variavel aleatoria X com fun cao de densidade dada por
(3.1.8) f(x|) =
1
2
(1 +x); 1 x 1, 1 1.
Nesse caso,
L(; x) =
1
2
n
n
i=1
(1 +x
i
),
de modo que
U() =
log L(; x)
=
n
i=1
x
i
1 +x
i
.
Assim
U
() =
n
i=1
x
2
i
(1 +x
i
)
2
,
de modo que o procedimento iterativo (3.1.7) se reduz a
(3.1.9)
j+1
=
j
+
n
i=1
xi
1+jxi
n
i=1
x
2
i
(1+jxi)
2
.
Podemos vericar que a informa c ao de Fisher de e dada, para = 0, por
I
F
() =
1
2
3
_
log
_
1 +
1
_
2
_
,
de modo que um procedimento alternativo a (3.1.9) e dado por
(3.1.10)
j+1
=
j
n
i=1
xi
1+jxi
nI
F
(
j
)
.
Uma amostra de tamanho n = 20 e gerada a partir da densidade (3.1.8) com
= 0, 4. Os dados foram gerados a partir do metodo da fun c ao de distribuicao,
ou seja, sendo F(X) = U, temos que U U(0, 1). Nesse caso, como
F(x) =
_
x
1
1
2
(1 +y)dy =
x + 1
2
+
(x
2
1)
4
,
temos que se U U(0, 1), ent ao,
(3.1.11) x =
1 + 2
_
1/4 (1/2 /4 u)
tem distribui c ao com fun c ao de densidade dada por (3.1.8), ou seja, para u
gerado a partir da U(0, 1), x obtido a partir de (3.1.11) e um valor gerado a
partir da distribui c ao com fun c ao de densidade dada por (3.1.8). As observa c oes
geradas s ao dadas na Tabela 3.1.
Tabela 3.1. n = 20 observa coes da densidade (3.1.8) com = 0, 4
0,3374 0,9285 0,6802 -0,2139 0,1052
-0,9793 -0,2623 -0,1964 0,5234 -0,0349
-0,6082 0,7509 0,3424 -0,7010 -0,2605
0,4077 -0,7435 0,9862 0,9704 0,5313
Escrevendo um programa em Fortran (outra linguagem poderia tambem ser
facilmente utilizada) para calcular o estimador de m axima verossimilhan ca,
obtemos, ap os 10 itera c oes do programa, a Tabela 3.2 em que a segunda coluna
corresponde ao procedimento dado em (3.1.9) e a terceira coluna corresponde
ao procedimento (3.1.10). Como valor inicial para o procedimento iterativo foi
usado
0
= X = 0, 1282.
Tabela 3.2. Valores de

obtidos nas 10 itera c oes
Itera cao Usando (3.1.9) Usando (3.1.10)
1 0,128188 0,128188
2 0,358745 0,371861
3 0,351170 0,349163
4 0,351140 0,351328
5 0,351140 0,351123
6 0,351140 0,351142
7 0,351140 0,351140
8 0,351140 0,351140
9 0,351140 0,351140
10 0,351140 0,351140
3.2 Propriedades dos Estimadores de Maxima
Verossimilhanca
O teorema a seguir apresenta uma propriedade importante dos estimadores de
m axima verossimilhan ca, estabelecendo que o estimador de maxima verossimi-
lhan ca e fun cao de uma estatstica suciente.
1
, . . . , X
n
X com fun c ao de densidade (ou de probabilidade) f(x|). Seja T = T(X
1
, . . . ,
X
n
) uma estatstica suciente para . Entao o estimador de maxima verossi-
milhanca

(se existir) e fun c ao de T.
Prova. De acordo com o criterio da fatora c ao, temos que se T e suciente para
, ent ao,
L(; x) = h(x)g
(T(x)),
3.2 Propriedades dos Estimadores de M axima Verossimilhanca 43
onde g
(T(x)) depende de x somente atraves de T. Como h(x) e constante

com rela cao a , temos que maximar L(; x) com relacao a e equivalente a
maximizar g
(T(x)) com rela c ao a . Como g
(T(x)) depende de x somente

atraves de T, temos que

sera obrigatoriamente uma funcao de T. Outras
propriedades s ao apresentadas nas subse c oes seguintes.
3.2.1 Invariancia
A seguir apresentamos uma propriedade bastante importante do metodo de
m axima verossimilhan ca. Seja g(.) uma funcao real 1 : 1 (inversvel) denida
em .
Teorema 3.2.2. (O princpio da invari ancia.) Sejam X
1
, . . . , X
n
uma amostra
aleat oria da vari avel aleat oria X com fun c ao de densidade (ou de probabilidade)
f(x|). Se

e um estimador de maxima verossimilhanca de , ent ao g(
) e um
estimador de m axima verossimilhan ca de g().
Prova. Provamos o resultado para o caso em que g e 1:1. Sendo g(.) uma
fun c ao 1 : 1, temos que g(.) e inversvel, de modo que = g
1
(g()). Assim
(3.2.1) L(; x) = L(g
1
(g()); x),
de modo que

maximiza os dois lados de (3.2.1). Logo
= g
1
(
g()),
portanto
g() = g(
),
ou seja, o estimador de m axima verossimilhan ca de g() e g(
).
1
, . . . , X
n
variavel aleatoria X Bernoulli(). Nesse caso, o par ametro de interesse e
g() = (1). De acordo com o princpio da invari ancia, temos que o estimador
de m axima verossimilhan ca de g() e dado por
(3.2.2) g(
) = X(1 X).
De acordo com o Exerccio 2.10 temos que o estimador dado em (3.2.2) e viciado
para g(). Por outro lado, usando o Exerccio 2.10, temos que
E[g(
)] g() =
1
n
(1 ),
que decresce à medida que n aumenta.
1
, . . . , X
n
variavel aleatoria X N(, 1). Vimos que = X e o estimador de maxima
verossimilhan ca de . Suponhamos que queremos estimar
g() = P
[X 0] = ().
Pelo princpio da invari ancia, temos que
g( ) = (X)
e o estimador de maxima verossimilhanca de g().
1
, . . . , X
n
variavel aleatoria X Exp() com densidade
f(x|) = e
x
,
> 0 e x > 0. Nesse caso,

= X
1
e o estimador de maxima verossimilhanca
de . Suponhamos que e de interesse estimar
g() = P
[X > 1] = e
.
De acordo com o princpio da invari ancia, temos que o estimador de m axima
verossimilhan ca e
g(
) = e
1/X
.
Nos tres exemplos acima, vimos situa c oes em que o estimador de m axima
verossimilhan ca e uma fun cao complicada da amostra observada. Certamente,
n ao e uma tarefa f acil encontrar a distribui c ao do estimador (X), por exem-
plo. Contudo, se o tamanho da amostra for grande, o estimador de m axima
verossimilhan ca apresentara uma distribui cao aproximadamente normal, como
veremos adiante. Alem disso, veremos que o estimador de maxima verossimi-
lhan ca e eciente, em grandes amostras.
3.2.2 Distribuicao em grandes amostras
No caso em que o tamanho da amostra e grande, e as condi c oes de regularidade,
especicadas no Captulo 2, estao satisfeitas, temos que
(3.2.3)
n(
)
a
N
_
0,
1
I
F
()
_
,
e
(3.2.4)
n(g(
) g())
a
N
_
0,
(g
())
2
I
F
()
_
,
3.3 Verossimilhan ca para Amostras Independentes 45
onde
a
signica distribui c ao assint otica. Temos ent ao que, para amostras
grandes, os estimadores de m axima verossimilhan ca de e g() sao aproxi-
madamente n ao viciados, cujas vari ancias coincidem com os correspondentes
limites inferiores das variancias dos estimadores nao viciados de e g(). Por-
tanto, em grandes amostras, temos que o estimador de m axima verossimilhan ca
e eciente.
Exemplo 3.2.4. Considere o modelo do Exemplo 3.2.1. De acordo com (3.2.4),
temos que a distribui c ao do estimador de m axima verossimilhan ca (3.2.2) e
dada por
n(g(
) (1 ))
a
N
_
0, (1 2)
2
(1 )
_
,
pois g
() = 1 2.
1
, . . . , X
n
X Poisson(). Nesse caso, temos que o estimador de m axima verossimi-
lhan ca de e

= X (verique!). De acordo com o princpio da invari ancia,
temos que o estimador de m axima verossimilhan ca de e
e dado por
g(
) = e
X
.
Do resultado (3.2.4), temos que
n(g(
) e
)
a
N(0, e
2
).
3.3 Verossimilhan ca para Amostras Independentes
Existem situacoes em que temos duas ou mais amostras independentes de dis-
tribui c oes que dependem de um par ametro de interesse. No caso de duas
amostras aleat orias independentes, X
1
, . . . , X
n
e Y
1
, . . . , Y
n
, podemos escrever
(3.3.1) L(; x, y) = L(; x)L(; y),
devido ` a independencia entre as amostras. Portanto a verossimilhanca conjunta
e igual ao produto da verossimilhanca correspondente à amostra X
1
, . . . , X
n
pela verossimilhan ca correspondente ` a amostra Y
1
, . . . , Y
n
. De (3.3.1), podemos
escrever
l(; x, y) = l(; x) +l(; y),
de modo que o logaritmo da verossimilhan ca conjunta e igual à soma do logari-
tmo das verossimilhan cas correspondentes a cada uma das amostras. O exemplo
que apresentamos a seguir ilustra uma tal situa cao.
1
, . . . , X
n
uma amostra aleat oria correspondente a
X N(, 4) e Y
1
, . . . , Y
n
uma amostra aleat oria correspondente a Y N(, 9).
Assumindo que as duas amostras s ao independentes, temos que a verossimi-
lhan ca correspondente à amostra conjunta e dada por
(3.3.2) L(; x, y) = L(; x)L(; y)
=
_
1
2
2
_
n
e
n
i=1
(x
i
)
2
8
_
1
3
2
_
m
e
m
i=1
(y
i
)
2
18
=
_
1
2
2
_
n
_
1
3
2
_
m
e
n
i=1
(x
i
)
2
8

m
i=1
(y
i
)
2
18
.
Usando o criterio da fatora c ao, n ao e difcil vericar que uma estatstica su-
ciente para e dada por
(3.3.3) T(x, y) =
n
i=1
X
i
4
+
m
i=1
Y
i
9
.
Alem disso, o logaritmo da verossimilhan ca (3.3.2) pode ser escrito como
l(; x, y) =
n
2
log 8
m
2
log 18
n
i=1
(x
i
)
2
8

m
i=1
(y
i
)
2
18
,
de modo que
log L(; x, y)
=
n
i=1
(x
i
)
4
+
m
i=1
(y
i
)
9
= 0,
cuja solu cao e dada por
=
1
4
n
i=1
X
i
+
1
9
m
i=1
Y
i
n
4
+
m
9
.
Podemos notar que o estimador de m axima verossimilhan ca e fun c ao da es-
tatstica suciente dada em (3.3.3).
3.4 O Caso Multiparametrico
Nas se c oes anteriores discutimos a obten c ao dos estimadores de m axima
verossimilhan ca e estudamos suas propriedades no caso em que a fun c ao de
verossimilhan ca depende apenas de um parametro. Nesta se c ao vamos consi-
derar situa c oes em que = (
1
, . . . ,
r
), ou seja, a verossimilhan ca depende de
dois ou mais par ametros. O espa co parametrico ser a denotado por . Nos casos
em que as condi coes de regularidade estao satisfeitas, os estimadores de m axima
verossimilhan ca de
1
, . . . ,
r
podem ser obtidos como solu c ao das equa c oes
3.4 O Caso Multiparametrico 47
log L(; x)
i
= 0,
i = 1, . . . , r. Nos casos em que o suporte da distribui cao de X depende de ou
o maximo ocorre na fronteira de , o estimador de m axima verossimilhan ca e
em geral obtido inspecionando o graco da fun cao de verossimilhanca, como no
caso uniparametrico. Nos casos em que a fun cao de verossimilhan ca depende
de dois par ametros,
1
e
2
, utilizando a equa c ao
log L(
1
,
2
; x)
1
= 0,
obtemos uma solu c ao para
1
como fun cao de
2
, que podemos denotar por
1
(
2
). Substituindo a solu c ao para
1
na verossimilhan ca conjunta, temos agora
uma fun c ao apenas de
2
, ou seja,
g(
2
; x) = l(
1
(
2
),
2
; x),
conhecida como verossimilhan ca perlada de
2
que pode ser usada para que o
estimador de maxima verossimilhan ca de
2
possa ser obtido. A maximiza c ao
de g(
2
; x) pode, ent ao, ser feita de maneira usual, ou seja, atraves de deriva c ao,
quando possvel.
1
, . . . , X
n
X N(,
2
), onde e
2
sao desconhecidos. Temos, entao, que = (,
2
),
com
L(; x) =
_
1
2
2
_
n/2
e
n
i=1
(x
i
)
2
2
2
,
de modo que
l(,
2
; x) =
n
2
log 2
2
i=1
(x
i
)
2
2
2
.
Assim
l(,
2
; x)
= 2
n
i=1
(x
i
)
2
2
= 0
que leva ao estimador = X. Portanto o logaritmo da verossimilhan ca perlada
de
2
e dada por
g(
2
; x) =
n
2
log 2
2
1
2
2
n
i=1
(x
i
x)
2
,
logo o estimador de maxima verossimilhan ca de
2
e obtido como solucao da
equa cao
g(
2
; x)
2
=
n
2
2
+
n
i=1
(x
i
x)
2
2
4
= 0
que leva ao estimador

2
=
1
n
n
i=1
(X
i
X)
2
,
de modo que os estimadores de m axima verossimilhan ca de e
2
sao dados,
respectivamente, por
= X =
1
n
n
i=1
X
i
e
2
=
1
n
n
i=1
(X
i
X)
2
.
No caso multiparametrico, as mesmas propriedades como invari ancia, fun c ao
da estatstica suciente e outras, continuam valendo. O mesmo se aplica ao
caso de varias amostras independentes, conforme ilustra o exemplo a seguir.
1
, . . . , X
n
uma amostra aleat oria de X N(
x
,
2
)
e Y
1
, . . . , Y
m
uma amostra aleat oria de Y N(
y
,
2
). Nesse caso, =
(
x
,
y
,
2
). Portanto a verossimilhan ca correspondente ` a amostra observada e
dada por
L(; x, y) =
_
1
2
_
n
_
1
2
_
m
e
1
2
2
n
i=1
(xix)
2
1
2
2
m
i=1
(yiy)
2
,
logo
l(; x, y) =
(n +m)
2
log 2
(m+n)
2
log
2
i=1
(x
i
x
)
2
2
2

m
i=1
(y
i

y
)
2
2
2
.
Derivando l(; x, y) com rela c ao a
x
,
y
e
2
, chegamos ` as equa c oes
l(; x, y)
x
=
n
i=1
(x
i

x
) = 0,
l(; x, y)
y
=
m
j=1
(y
i

y
) = 0
e
l(; x, y)
2
=
(m+n)
2
1

2
+
1
2
4
_
_
_
n
i=1
(x
i

x
)
2
+
m
j=1
(y
j

y
)
2
_
_
_
= 0,
cuja solu cao apresenta os estimadores
3.5 Famlia Exponencial e o Metodo de M axima Verossimilhan ca 49

x
= X,
y
= Y
e

2
=
n
i=1
(X
i
X)
2
+
m
j=1
(Y
j
Y )
2
m+n
.
3.5 Famlia Exponencial e o Metodo de Maxima
Verossimilhanca
Se a distribui c ao da vari avel aleat oria X pertence ` a famlia exponencial unidi-
mensional de distribui c oes, ent ao o estimador de m axima verossimilhanca de
baseado na amostra X = (X
1
, . . . , X
n
) e solu c ao da equa c ao
(3.5.1) E[T(X)] = T(X),
desde que a solu c ao perten ca ao espa co parametrico correspondente ao par a-
metro . Esse resultado pode ser estendido para o caso k-parametrico em que
os estimadores de m axima verossimilhan ca de
1
, . . . ,
k
seguem como solucoes
das equa c oes
(3.5.2) E[T
j
(X)] = T
j
(X),
j = 1, . . . , k.
Exemplo 3.5.1. Consideremos uma popula c ao com 3 tipos de indivduos de-
nominados (rotulados) 1, 2, e 3, ocorrendo nas propor c oes de Hardy-Weinberg
p(1; ) =
2
, p(2; ) = 2(1 ), p(3; ) = (1 )
2
,
0 < < 1. Por exemplo, p(1; ) =
2
signica que a probabilidade de se observar
um indivduo do tipo 1 e
2
. Para uma amostra de n = 3 indivduos, se x
1
= 1,
x
2
= 2 e x
3
= 1, onde x
1
= 1 signica que o primeiro indivduo observado e do
tipo 1, x
2
= 2 signica que o segundo indivduo observado e do tipo 2 e x
3
= 1
signica que o terceiro indivduo observado e do tipo 1, temos que a fun c ao de
verossimilhan ca correspondente e dada por
L(; x) = p(1; )p(2; )p(1; ) = 2
5
(1 ),
de modo que de (3.1.3),
l
(; x) =
5
1
1
= 0
leva ao estimador

= 5/6 (verique que l
; x) < 0). Em geral, para

uma amostra de n indivduos, sendo n
1
, n
2
, n
3
o n umero de elementos de
{x
1
, . . . , x
n
} iguais a 1, 2 e 3, respectivamente, temos que
L(; x) = 2
n2
2n1+n2
(1 )
2n3+n2
= 2
n2
_

1
_
2n1+n2
(1 )
2n
.
Entao c() = log(/(1 )) e T(X) = 2N
1
+N
2
de modo que
E[T(X)] = E[2N
1
+N
2
] = 2n
2
+ 2n(1 ) = 2n.
Assim a equa c ao (3.5.1) torna-se
2N
1
+ N
2
= 2n
que produz o estimador

= (2N
1
+N
2
)/2n.
Exemplo 3.5.2. Consideremos (X
1
, Y
1
), . . . , (X
n
, Y
n
) uma amostra aleatoria
da distribui c ao normal bivariada dada no Exemplo 2.4.4, em que e obtida a
estatstica suciente T = (T
1
, T
2
, T
3
, T
4
, T
5
), com T
1
=
n
i=1
X
i
, T
2
=
n
i=1
Y
i
,
T
3
=
n
i=1
X
2
i
, T
4
=
n
i=1
Y
2
i
, T
5
=
n
i=1
X
i
Y
i
, para = (
x
,
y
,
2
x
,
2
y
, ).
Como E[X
i
] =
x
, E[Y
i
] =
y
, E[X
2
i
] =
2
x
+
2
x
, E[Y
2
i
] =
2
y
+
2
y
e E[X
i
Y
i
] =
y
+
x
y
, i = 1, . . . , n, segue que E[T
1
] = n
x
, E[T
2
] = n
y
, E[T
3
] =
n
2
x
+ n
2
x
, E[T
4
] = n
2
y
+ n
2
y
e E[T
5
] = n
x
y
+ n
x
y
, ent ao de (3.5.2),
temos que o estimador de m axima verossimilhan ca de tem componentes dadas
pelas express oes (2.4.6) e (2.4.7).
3.6 O Metodo dos Momentos
O metodo dos momentos e um dos metodos de estimacao mais simples e antigos.
Esse metodo tem sido utilizado desde o seculo XVIII. Seja
m
r
=
1
n
n
i=1
X
r
i
,
r 1, o r-esimo momento amostral de uma amostra aleat oria X
1
, . . . , X
n
. Seja
r
= E[X
r
],
r 1, o r-esimo momento populacional. O metodo dos momentos consiste na
obten c ao de estimadores para = (
1
, . . . ,
k
) resolvendo-se as equa c oes
m
r
=
r
,
r = 1, . . . , k.
Exemplo 3.6.1. Consideremos novamente o problema da estima c ao do n umero
de t axis em uma cidade. Sendo N o n umero de taxis, vimos que
3.6 O Metodo dos Momentos 51
P[X
i
= k] =
1
N
, k = 1, . . . , N,
onde X
i
e o n umero do i-esimo t axi observado. Como o primeiro momento
populacional e dado por
1
= E[X] =
N + 1
2
,
temos que um estimador para N, utilizando-se os primeiros momentos popula-
cional e amostral, e dado pela solu cao da equa cao
N + 1
2
= X,
de onde segue que
N = 2X 1.
Notemos que, nesse caso, o estimador obtido pelo metodo dos momentos n ao e
fun c ao da estatstica suciente X
(n)
.
1
, . . . , X
n
variavel aleatoria X, com densidade gama com par ametros e dados por
f(x|, ) =

x
1
e
x
()
, x > 0, > 0, > 0.
Como
E[X] =

e V ar[X] =

2
,
temos que estimadores para e sao obtidos como solucao das equacoes

=
1
n
n
i=1
X
i
e

2
2
+

2
=
1
n
n
i=1
X
2
i
que fornece os estimadores
(3.6.1) =
X
2

2
, e

=
X

2
,
onde
2
=
n
i=1
(X
i
X)
2
/n, como antes. Nesse caso, n ao e possvel obter-
mos estimadores de m axima verossimilhan ca explcitos para e . Metodos
computacionais como o metodo do escore considerado na Se cao 3.1 devem ser
utilizados. Como valores iniciais para esses metodos computacionais, podemos
utilizar os estimadores dados por (3.6.1). Notemos tambem que os estimadores
dados por (3.6.1) n ao s ao fun c oes da estatstica conjuntamente suciente, que
nesse caso e dada por (
n
i=1
X
i
,
n
i=1
X
i
).
3.7 Estimadores Consistentes
Os metodos de estima cao considerados nesta se cao produzem, em geral, esti-
madores consistentes, ou seja, ` a medida que o tamanho da amostra aumenta, os
estimadores cam tao proximos do parametro que esta sendo estimado quanto
desejado. Consistencia est a ligada ao conceito de convergencia em probabilida-
de (veja James, 1981).
Denicao 3.7.1. Sejam X
1
, . . . , X
n
uma amostra aleat oria da distribuic ao da
vari avel aleat oria X que depende do par ametro . Dizemos que o estimador
=

(X
1
, . . . , X
n
) e consistente para o parametro , se,
lim
n
P(|
| > ) = 0.
Em geral, usamos a desigualdade de Chebyshev (veja James,1981) para a veri-
ca c ao dessa propriedade.
1
, . . . , X
n
distribui c ao da vari avel aleat oria X com media e variancia
2
. Temos, usando
a desigualdade de Chebyshev, que
P(|X | > )

2
n
2
,
de modo que
lim
n
P(|X | > ) = 0,
e portanto X e consistente para .
3.8 Exerccios
3.1. Sejam X
1
, . . . , X
n
fun c ao de densidade de probabilidade
f(x|) =

x
2
, x , > 0.
Encontre o estimador de maxima verossimilhanca de e de E
[1/X].
3.2. Sejam X
1
, . . . , X
n
uma amostra aleat oria de tamanho n da vari avel
aleat oria X com fun cao de densidade de probabilidade dada por
f(x|) = x
1
, 0 < x < 1, > 0.
(i) Encontre os estimadores de m axima verossimilhan ca de e de g() = /(1+
). (ii) Encontre a distribui c ao aproximada dos estimadores em (i) quando n e
grande.
3.8 Exerccios 53
3.3. Sejam X
1
, . . . , X
n
N(, 1). Encontre o estimador de m axima verossimilhan ca de g() = P
[X > 0]
e sua distribui c ao aproximada quando n e grande.
3.4. Sejam X
1
, . . . , X
n
f(x|) =
x
2
e
x/
, x 0, > 0.
(i) Encontre o estimador de m axima verossimilhan ca de e verique se ele e
eciente.
(ii) Encontre o estimador de m axima verossimilhan ca de V ar[X] e encontre
sua distribuicao aproximada em grandes amostras.
3.5. Encontre a distribuicao aproximada para grandes amostras do estimador
de m axima verossimilhan ca de (), considerado no Exemplo 3.2.2.
3.6. Encontre o estimador de maxima verossimilhanca de
2
no Exerccio 2.9
e compare seu erro quadr atico medio com o do estimador eciente dado no
Exerccio 2.9, (i).
3.7. Considere uma amostra aleat oria de tamanho n da distribui c ao da vari avel
aleat oria X onde cada observa c ao apresenta um de tres resultados possveis (por
exemplo, favoravel, contra e indiferente), que denotamos por 0, 1 e 2.
Suponhamos que a probabilidade de 0 e p
1
= (1 )/2, a probabilidade da
ocorrencia do resultado 1 e p
2
= 1/2 e do resultado 2 e p
3
= /2. Seja n
1
:
o n umero de vezes que 0 ocorre, n
2
: o n umero de vezes que 1 ocorre e n
3
:
o n umero de vezes que o 2 ocorre.
(i) Encontre, como fun c ao de n
1
, n
2
, n
3
, uma estatstica suciente para .
(ii) Encontre o estimador de m axima verossimilhan ca de .
3.8. Sejam X
1
, . . . , X
n
f(x|) = ( + 1)x
1
(1 x), 0 x 1, > 0.
(i) Encontre, usando o metodo dos momentos, um estimador para .
(ii) Encontre o estimador de m axima verossimilhan ca de e sua distribui c ao
aproximada em grandes amostras.
3.9. Sejam X
1
, . . . , X
n
uma amostra aleat oria de tamanho n da vari avel X com
fun c ao de densidade de probabilidade dada por
f(x|) =
1
(x)
e
e
(x)
, < x < , < < , > 0.

(i) Encontre a distribui c ao de Y = e
X
.
(ii) Discuta a obten c ao do estimador de m axima verossimilhan ca para ,
quando = 0.
(iii) Encontre estatsticas conjuntamente sucientes para e .
(iv) Discuta a obten c ao dos estimadores de m axima verossimilhan ca para e
e verique se s ao fun c oes das estatsticas obtidas em (iii).
(v) Usando (i), gere uma amostra aleat oria de tamanho n =20 da variavel
aleat oria Y . A partir desta amostra, obtenha uma amostra de tamanho n=20
para a vari avel aleat oria X e usando um programa de computador, obtenha os
estimadores de maxima verossimilhan ca de e .
3.10. Sejam X
1
, . . . , X
n
aleat oria X com fun cao de densidade de probabilidade
f(x|) =
(x + 1)
( + 1)
e
x/
, x > 0, > 0.
(i) Encontre o estimador de m axima verossimilhan ca para e sua distribui cao
em grandes amostras.
(ii) Obtenha um estimador para usando o metodo dos momentos.
3.11. Refa ca o Exerccio 3.7 supondo agora que p
1
=
2
, p
2
= 2(1 ) e
p
3
= (1 )
2
.
3.12. Sejam X
1
, . . . , X
n
N(0,
2
). Encontre o estimador de m axima verossimilhan ca de e sua dis-
tribui c ao em grandes amostras.
3.13. Sejam X
1
, . . . , X
n
distribui c ao exponencial com par ametro . Encontre o estimador de m axima
verossimilhan ca de g() = P[X > 1] e sua distribui c ao aproximada quando n
for grande.
3.14. Sejam X
1
, . . . , X
n
fun c ao de densidade de probabilidade Weibull dada por
f(x|, a) = ax
a1
e
x
a
; x, a, > 0.
(i) Suponha que a seja conhecido. Encontre o estimador de maxima verossimi-
lhan ca de e sua distribui cao aproximada para quando n for grande.
(ii) Suponha agora que e a sao desconhecidos. Encontre as equacoes de
verossimilhan ca para os dois parametros. Proponha um procedimento iterativo
para encontrar os estimadores de m axima verossimilhan ca dos dois par ametros.
Discuta a implementa c ao do procedimento no computador.
(iii) Gere uma amostra com n = 10 elementos da distribui cao de X assumindo
que a = = 1. Usando o procedimento iterativo em (ii), obtenha estimadores
3.8 Exerccios 55
de m axima verossimilhan ca de a e de . Compare as estimativas com os valores
usados para simular a amostra.
3.15. Obtenha a informa cao de Fisher I
F
() no Exemplo 3.1.6.
3.16. Obtenha os estimadores de maxima verossimilhan ca de e
2
no modelo
de regress ao dado no Exerccio 2.12.
3.17. Verique se os estimadores obtidos nos Exemplos 3.1.2, 3.1.3, 3.2.1, 3.2.3
e 3.6.2 s ao consistentes.
3.18. Sejam Y
1
, . . . , Y
n
variaveis aleatorias independentes com Y
i
N( +
x
i
,
2
), onde x
i
e conhecido, i = 1, . . . , n. Encontre os estimadores de maxima
verossimilhan ca de , e
2
.
3.19. Sejam Y
1
, . . . , Y
n
variaveis aleatorias independentes com Y
i
N(x
i
,
2
x
i
), onde x
i
> 0 e conhecido, i = 1, . . . , n. Encontre os estimadores de
m axima verossimilhan ca de e
2
.
3.20. No caso do modelo do Exerccio 3.18, os estimadores de e obtidos
atraves do metodo de mnimos quadrados minimizam a soma de quadrados
n
i=1
(Y
i
x
i
)
2
. Verique que os estimadores de mnimos quadrados co-
incidem com os estimadores de maxima verossimilhan ca de e .
3.21. Dena o criterio correspondente para obter os estimadores de mnimos
quadrados para o modelo do Exerccio 3.19.
4. Introdu cao à Teoria das Decisoes.
Os Princpios Minimax e de Bayes
Neste captulo apresentamos uma breve introdu c ao ` a teoria das decis oes. Os
problemas usuais de estima c ao e testes de hip oteses s ao vistos pela otica da teo-
ria dos jogos, em que os advers arios s ao o estatstico e a natureza. Em primeiro
lugar, apresentamos os elementos basicos da teoria das decisoes, sendo o obje-
tivo principal a minimiza c ao da fun c ao de risco. Como, em geral, n ao e possvel
a obten c ao de um procedimento que minimize a fun c ao de risco uniformemente
em , outros criterios para a obten cao de procedimentos otimos s ao necess arios.
Dois desses procedimentos s ao discutidos neste captulo. O primeiro e o pro-
cedimento minimax, em que o estatstico procura precaver-se contra o risco
m aximo. A seguir apresentamos o princpio de Bayes em que a caracterstica
principal e a formula c ao do problema de decis ao, assumindo que a natureza
utiliza um procedimento aleat orio, representado por uma distribui cao de pro-
babilidade, para escolher um valor para . Solucoes gerais sao apresentadas
para o estimador de Bayes com respeito a alguns tipos especiais de fun coes de
perda, dentre as quais destacamos a perda quadr atica.
4.1 Os Elementos Basicos
Os elementos basicos de um problema de decisao sao:
(i) um conjunto n ao vazio dos possveis estados da natureza que na verdade
representa o espa co parametrico. A natureza escolhe para um valor nesse
conjunto;
(ii) um conjunto n ao vazio A das possveis ac oes que podem ser tomadas pelo
estatstico. No caso de problemas de estima cao, A = , em geral. No caso de
problemas de testes de hip oteses, geralmente A consiste nas a coes de se aceitar
ou rejeitar uma hip otese formulada;
(iii) uma fun c ao d : X A, denominada fun c ao de decis ao, em que X e o
espa co amostral associado a uma variavel aleatoria X correspondente a um ex-
perimento idealizado pelo estatstico para espionar (obter informa c oes) sobre
a escolha de feita pela natureza. Seja D o conjunto (ou classe) das possveis
fun c oes de decis ao. Nessa classe, o estatstico procura um procedimento que
seja melhor, segundo algum criterio;
58 4. Introdu c ao ` a Teoria das Decis oes
(iv) uma fun c ao real l(, a), denida em A, que ser a chamada de fun c ao
de perda e que satisfaz ` as seguintes propriedades:
(a) l(, a) 0, para todo , a A,
e
(b) l(, a) = 0, quando a = ,
ou seja, quando a a c ao correta e tomada.
Portanto a fun c ao l(, a) representa a perda incorrida pelo estatstico ao
tomar a a c ao a quando e a escolha feita pela natureza. Algumas funcoes
de perda comumente empregadas em problemas de decis ao s ao: (i) l(, a) =
( a)
2
, comumente conhecida como perda quadr atica; (ii) l(, a) = | a|,
conhecida como perda do valor absoluto e (iii) l(, a) = c()| a|
r
, c() > 0,
r > 0, que e uma perda mais geral, tendo as perdas em (i) e (ii) como casos
particulares.
Como n ao e possvel a implementa c ao de procedimentos que minimizem
diretamente a fun c ao de perda, pois essa depende de , que e desconhecido, o
estatstico procura minimizar a fun cao de risco, denida a seguir.
Denicao 4.1.1. A funcao de risco correspondente ao procedimento (funcao
de decis ao) d e a funcao de perda l(, a) e dada por
(4.1.1) R(, d) = E[l(, d(X))] =
{xX}
l(, d(x))f(x|),
no caso discreto. No caso contnuo, o somat orio na express ao acima e sub-
stitudo por uma integral denida em X.
Em (4.1.1), f(x|) corresponde à fun cao de verossimilhan ca da amostra
observada (ver Deni c ao 3.1.1). Portanto a fun c ao de risco nada mais e do
que a perda media sobre o espa co amostral X, e e funcao do parametro .
Podemos ent ao comparar procedimentos mediante ` a utiliza c ao da fun c ao de
risco, conforme denido a seguir.
Denicao 4.1.2. Dizemos que um procedimento d
1
e melhor que um procedi-
mento d
2
, quando
(4.1.2) R(, d
1
) R(, d
2
),
para todo , e
(4.1.3) R(, d
1
) < R(, d
2
),
para algum .
No caso em que (4.1.2) e (4.1.3) est ao satisfeitas para todos os procedi-
mentos d
2
em uma certa classe D de procedimentos, ent ao dizemos que d
1
e o
4.1 Os Elementos B asicos 59
melhor procedimento em D. Alem disso, estando as condi c oes (4.1.2) e (4.1.3)
satisfeitas, temos que o procedimento d
2
e dito ser inadmissvel. Gracamente,
temos a situa c ao da Figura 4.1.
Figura 4.1 Figura 4.2

0
R(!,d)
d
2
R(!,d)
0

d
1
!

0
d
2
d
1
R(!,d)
!
Contudo, em geral, ocorre a situa c ao da Figura 4.2, em que o procedimento
d
1
e prefervel para alguns valores de , enquanto que para outros valores de ,
d
2
e prefervel. Portanto, em geral, nao existe um procedimento que seja melhor
para todos os valores de . Em situa c oes como essa, outros criterios devem ser
utilizados para se decidir sobre um procedimento em certa classe D. O exemplo
que apresentamos a seguir ilustra uma tal situa cao.
Exemplo 4.1.1. Suponha que uma moeda apresenta cara com probabilidade
igual a 1/3 ou 2/3, ou seja, = {1/3, 2/3}.

E entao adequado tomar como
espa co das a coes A = {1/3, 2/3}. Para obter informa cao sobre , o estatstico
faz um lan camento da moeda e observa a vari avel aleat oria X que denota
o n umero de caras obtidas no lan camento. O espa co amostral associado ao
experimento e, portanto, X = {0, 1}. Nesse caso, podemos denir entao quatro
fun c oes de decis ao, d
1
, d
2
, d
3
e d
4
, que s ao dadas por
d
1
(0) = 1/3, d
2
(0) = 1/3, d
3
(0) = 2/3, d
4
(0) = 2/3,
d
1
(1) = 2/3, d
2
(1) = 1/3, d
3
(1) = 2/3, d
4
(1) = 1/3.
Considerando a fun c ao de perda do valor absoluto l(, a) = | a|, e como a
distribui c ao de X e discreta, temos que,
R(, d) = l(, d(0))P
[X = 0] +l(, d(1))P
[X = 1],
onde P
[X = 1] = = 1 P
[X = 0]. Portanto, para = 1/3, temos que

R(1/3, d
1
) = l(1/3, d
1
(0)).2/3 +l(1/3, d
1
(1)).1/3
= 0.2/3 + 1/3.1/3 = 1/9,
R(1/3, d
2
) = 0.2/3 + 0.1/3 = 0,
R(1/3, d
3
) = 1/3.2/3 + 1/3.1/3 = 1/3,
R(1/3, d
4
) = 1/3.2/3 + 0.1/3 = 2/9.
Por outro lado, para = 2/3, de maneira similar, temos que
R(2/3, d
1
) = l(2/3, d
1
(0)).1/3 +l(2/3, d
1
(1)).2/3
= 1/3.1/3 + 0.2/3 = 1/9,
R(2/3, d
2
) = 1/3.1/3 + 1/3.2/3 = 1/3,
R(2/3, d
3
) = 0.1/3 + 0.2/9 = 0,
R(2/3, d
4
) = 0.1/3 + 1/3.2/3 = 2/9.
Resumindo os c alculos acima, temos a Tabela 4.1.
Tabela 4.1. Riscos de d
1
, d
2
, d
3
, d
4
d = 1/3 = 2/3 maxR(; d)
d
1
1/9 1/9 1/9
d
2
0 1/3 1/3
d
3
1/3 0 1/3
d
4
2/9 2/9 2/9
Da Tabela 4.1 podemos concluir que R(, d
1
) < R(, d
4
), para = 1/3 e
= 2/3, de modo que d
4
e inadmissvel. Com relacao a d
1
, d
2
e d
3
, temos a
situacao da Figura 4.2, em que nenhum procedimento e melhor para todo .
4.2 O Princpio Minimax
Conforme mencionado na introdu c ao, o procedimento minimax e o procedi-
mento que protege o estatstico contra o risco m aximo.
Denicao 4.2.1. Dizemos que o procedimento d
0
e um procedimento minimax
numa classe D de procedimentos, se
sup
R(, d
0
) = inf
dD
sup
R(, d).
Conforme notamos a partir da Deni c ao 4.2.1, o princpio minimax compara
simplesmente o maximo dos riscos dos procedimentos.
4.3 O Princpio de Bayes 61
Exemplo 4.2.1. Consideremos novamente a situa c ao do Exemplo 4.1.1. Vimos
que o procedimento d
4
e inadmissvel. Com relacao aos procedimentos d
1
, d
2
e
d
3
, temos da Tabela 4.1 que o procedimento d
1
apresenta o menor risco m aximo
e, portanto, e o procedimento minimax nesse caso.
Exemplo 4.2.2. Seja X uma unica observa c ao de uma vari avel aleat oria X
com distribui cao de Poisson com parametro . Portanto consideramos A = =
(0, ), com X = {0, 1, 2, . . .}. Considerando a classe das fun c oes de decis ao
D = {d; d(X) = cX}, onde c e uma constante, temos, para um procedimento d
em D, com rela c ao a fun c ao de perda
l(, a) =
( a)
2
,
que
R(, d) = E[l(, d(X))]
= E
_
( cX)
2
_
=
1
E[c(X ) +(c 1)]

2
(4.2.1) = c
2
+(c 1)
2
.
Como R(, d) dado em (4.2.1) e uma funcao linear em e > 0, temos que
R(, d) tem m aximo nito somente quando c = 1, pois, nesse caso, R(, d) = 1,
para todo , ou seja, quando c = 1,
max
R(, d) = 1.
Portanto, na classe D, d(X) = X e o procedimento minimax.
4.3 O Princpio de Bayes
Nesta se c ao consideramos que a natureza utiliza um mecanismo aleatorio para
escolher um valor para o parametro . Esse procedimento aleat orio e repre-
sentado por uma distribuicao de probabilidade que chamamos de distribui c ao
a priori com fun c ao de densidade de probabilidade (ou fun cao de probabili-
dade, no caso discreto), representada por (). Com rela c ao a priori , temos
a seguinte deni cao.
Denicao 4.3.1. O risco de Bayes do procedimento d, com relacao à perda
l(, d) e dado por
r(, d) = E
[R(, d)]
(4.3.1) =
{}
R(, d)(),
no caso discreto. No caso em que e contnuo, o somatorio em (4.3.1) e
substitudo pela integral correspondente, ou seja,
r(, d) =
_
R(, d)()d.
Notemos que se R(, d) e constante (isto e, independente de ), ent ao r(, d) =
R(, d).
Denicao 4.3.2. Uma fun c ao de decis ao d
B
e chamada uma funcao de decisao
de Bayes com respeito a priori e a classe D das fun c oes de decis ao, se
r(, d
B
) = min
dD
r(, d).
Exemplo 4.3.1. Consideremos mais uma vez a situa c ao do Exemplo 4.2.1,
sendo (1/3) = p e (2/3) = 1p. De acordo com a Deni cao 4.3.1, temos que
r(, d
1
) =
1
9
(1/3) +
1
9
(2/3) =
1
9
p +
1
9
(1 p) = 1/9,
r(, d
2
) = 0p +
1
3
(1 p) =
1 p
3
e
r(, d
3
) =
1
3
p + 0(1 p) =
p
3
.
Portanto temos que, se p < 1/3, d
3
e a solucao de Bayes. Se p = 1/3, ent ao d
1
e d
3
sao solucoes de Bayes. Notemos que nesse caso a solucao de Bayes n ao e
unica. Se 1/3 < p < 2/3, ent ao d
1
e a solucao de Bayes. Se p = 2/3, ent ao d
1
e
d
2
sao solucoes de Bayes, de modo que nesse caso tambem a solu c ao de Bayes
n ao e unica. Se p > 2/3, ent ao a solu c ao de Bayes e d
2
.
Exemplo 4.3.2. Com rela c ao ao Exemplo 4.2.2, vimos que d(X) = X e a
solucao minimax com relacao a perda l(, a) = ( a)
2
/. Considerando a
priori exponencial com par ametro um para , ou seja,
() = e
, > 0,
temos que
r(, d) = E
[R(, d)] = E
[c
2
+(c 1)
2
]
= c
2
+ (c 1)
2
E
[]
= c
2
+ (c 1)
2
.
4.4 Estimadores de Bayes com Perda Quadr atica 63
Como
r(, d)
c
= 2c + 2(c 1) = 0,
temos que r(, d) e mnimo quando c = 1/2, ou seja, com rela c ao a priori e ` a
perda acima, o estimador de Bayes na classe D e dado por d
B
(X) = X/2.
4.4 Estimadores de Bayes com Perda Quadratica
Com rela c ao ` a perda quadr atica, e possvel a caracteriza cao dos estimadores
na classe D de todas as fun c oes de decis ao. Notemos que no Exemplo 4.3.2,
o estimador de Bayes foi obtido numa particular classe de estimadores, ou
seja, D = {d; d(X) = cX}. Contudo a fun c ao de perda n ao era quadr atica. O
resultado para perda quadr atica e enunciado e provado a seguir para o caso em
que X e uma variavel aleatoria contnua.
1
, . . . , X
n
uma amostra aleat oria da distribuic ao da
vari avel aleat oria X, com fun c ao de densidade de probabilidade f(x|). Consi-
deremos para a distribui c ao a priori com fun c ao de densidade de probabilidade
(). Entao, com relacao à perda quadratica, o procedimento (estimador) de
Bayes na classe D de todas as fun c oes de decis ao e dado por
d
B
(X) = E[|X],
ou seja, e o valor esperado de calculado na distribui c ao condicional de dado
X
1
, . . . , X
n
, que e denominada distribui c ao a posteriori de .
Prova. Com rela c ao ` a perda quadr atica, a fun c ao de risco de um procedimento
qualquer d(X) e dada por
(4.4.1) R(, d) =
_
X
( d(x)
2
)f(x|)dx,
onde x = (x
1
, . . . , x
n
), X e o espaco amostral e f(x|) =
n
i=1
f(x
i
|) e a
fun c ao de verossimilhan ca correspondente ` a amostra observada. Com relacao a
priori , temos de (4.4.1) que o risco de Bayes do procedimento d(X) e dado
por
r(, d) =
_
__
X
(d(x) )
2
f(x|)dx
_
()d
(4.4.2) =
_
_
X
(d(x) )
2
f(x|)()dxd.
Como
(4.4.3) f(x|)() = f(x; ) = (|x)g(x),
temos de (4.4.2) que
r(, d) =
_
_
X
(d(x) )
2
(|x)g(x)dxd
(4.4.4) =
_
X
__
(d(x) )
2
(|x)d
_
g(x)dx.
De acordo com a Deni c ao 4.3.2, temos que o procedimento de Bayes e o
procedimento que minimiza (4.4.4), ou seja, para cada x, e o procedimento que
minimiza
(4.4.5)
_
(d(x) )
2
(|x)d = E[(d(X) )
2
|X].
Derivando (4.4.5) com rela c ao a d(X) e igualando a derivada a zero, chegamos
ao procedimento
d
B
(X) = E[|X],
que e a forma geral do estimador de Bayes com rela cao à perda quadr atica.
De (4.4.3) temos que
(4.4.6) (|x) =
f(x|)
g(x)
=
f(x|)()
g(x)
,
onde
(4.4.7) g(x) =
_
f(x|)()d
e a densidade marginal de x = (x
1
, . . . , x
n
). A densidade (|x) e denominada
fun c ao de densidade de probabilidade a posteriori e pode ser interpretada di-
retamente a partir do Teorema de Bayes, ou seja, a densidade (ou fun c ao de
probabilidade) condicional e igual ` a densidade (ou fun cao de probabilidade)
conjunta dividida pela densidade (ou fun cao de probabilidade) marginal de x.
O Teorema 4.4.1 pode ser generalizado para o caso de uma fun cao qualquer de
, (), ou seja, o estimador de Bayes de () com rela c ao ` a perda quadr atica
e dado por
d
B
(x) = E[()|X] =
_
()(|x)d.
Notemos, portanto, que os estimadores de Bayes n ao s ao invariantes, como
sao os estimadores de maxima verossimilhanca no sentido de que sendo

um
estimador de Bayes de , (
) n ao e necessariamente um estimador de Bayes

de ().
1
, . . . , X
n
variavel aleatoria X com distribui cao de Bernoulli com parametro . Conside-
remos para a fun cao de densidade a priori
() =
[a +b]
[a][b]
a1
(1 )
b1
,
0 < < 1, a, b > 0, usualmente conhecida como densidade beta com par ametros
a e b, que denotamos por Beta(a, b) e onde [a] e a fun c ao gama avaliada no
ponto a, ou seja,
(4.4.8) [a] =
_

0
x
a1
e
x
dx.
Como
f(x|) =
n
i=1
f(x
i
|) =
n
i=1
xi
(1 )
n
n
i=1
xi
,
temos de (4.4.7) que,
g(x) =
_
1
0
n
i=1
xi
(1 )
n
n
i=1
xi
[a +b]
[a][b]
a1
(1 )
b1
d
=
[a +b]
[a][b]
_
1
0
n
i=1
xi+a1
(1 )
n
n
i=1
xi+b1
d
=
[a +b]
[a][b]
[
n
i=1
x
i
+a] [n
n
i=1
x
i
+b]
[n +a +b]
.
Portanto de (4.4.6) temos que
(|x) =
[a+b]
[a][b]
n
i=1
xi+a1
(1 )
n
n
i=1
xi+b1
[a+b]
[a][b]
[
n
i=1
xi+a][n
n
i=1
xi+b]
[n+a+b]
=
[n +a +b]
[
n
i=1
x
i
+a][n
n
i=1
x
i
+b]
n
i=1
xi+a1
(1 )
n
n
i=1
xi+b1
,
ou seja, a distribui c ao a posteriori de dado X e uma distribuicao beta com
par ametros
n
i=1
x
i
+a e n
n
i=1
x
i
+b que denotamos por
|X Beta
_
n
i=1
x
i
+a; n
n
i=1
x
i
+b
_
.
Entao, o estimador de Bayes de com rela cao à perda quadratica e dado por
(4.4.9) d
B
(X) = E[|X] =
n
i=1
x
i
+a
n +a +b
.
Notemos, dos c alculos acima, que as distribui c oes a priori e a posteriori per-
tencem ` a mesma famlia de distribui c oes, ou seja, no caso em que a distribui c ao
de X e Bernoulli e a distribuicao a priori e da famlia Beta, a distribui cao a
posteriori e tambem da famlia Beta. Dizemos, ent ao, que a distribui cao Beta e
conjugada para a Bernoulli.

E tambem verdade que a distribuicao Beta e conju-
gada para as distribui c oes Binomial e Binomial Negativa. Os parametros a e b
da priori beta devem ser escolhidos de modo que () expresse o conhecimento
a priori que o estatstico tem sobre . No caso particular em que a = b = 1,
temos que
(4.4.10) () = 1, 0 < < 1,
ou seja, nesse caso a distribui c ao U(0, 1) e escolhida como priori para . No
caso da priori uniforme, temos de (4.4.9) que
(4.4.11) d
B
(X) =
n
i=1
X
i
+ 1
n + 2
.
A priori uniforme indica que, inicialmente, o estatstico tem pouca informa c ao
sobre , pois com rela c ao a essa priori, qualquer intervalo de mesmo compri-
mento tem a mesma area (probabilidade).
Para calcularmos o risco de Bayes do estimador (4.4.11) com rela cao a priori
uniforme, temos que
R(, d) = E
_
_
n
i=1
X
i
+ 1
n + 2

_
2
_
=
1
(n + 2)
2
E
_
_
_
n
i=1
X
i
n + 1 2
_
2
_
_
=
1
(n + 2)
2
[(4 n)
2
(4 n) + 1].
Com rela c ao a priori uniforme dada em (4.4.10), temos que E
[] = 1/2,
V ar
[] = 1/12 e E
[
2
] = 1/3, de modo que
r(, d) =
1
(n + 2)
2
_
(4 n)
3

(4 n)
2
+ 1
_
=
1
6(n + 2)
.
Certamente, o estimador de Bayes em (4.4.11) tem risco de Bayes menor, com
rela c ao a priori uniforme acima, que o risco de Bayes do estimador de maxima
verossimilhan ca

= X.
1
, . . . , X
n
variavel aleatoria Xcom distribui cao de Poisson(). Consideremos para a
distribui c ao a priori com fun c ao de densidade de probabilidade
(4.4.12) () =
b
a
a1
e
b
[a]
,
> 0, a > 0, b > 0, ou seja, gama com par ametros a e b, que denotamos por
Gama(a, b). Em (4.4.12), [a] e como denido em (4.4.8). Como
f(x|)() =
e
n
n
i=1
x
i
n
i=1
xi!

a1
e
b
b
a
[a]
=
b
a
e
(n+b)
n
i=1
xi+a1
n
i=1
x
i
![a]
,
> 0, temos que
g(x) =
_

0
b
a
e
(n+b)
n
i=1
xi+a1
n
i=1
x
i
![a]
d
=
b
a
n
i=1
x
i
![a]
[
n
i=1
x
i
+ a]
(n +b)
n
i=1
xi+a
.
Portanto
(|x) =
e
(n+b)
i=1
xi+a1
[
n
i=1
xi+a]
(n+b)
n
i=1
x
i
+a
,
ou seja, a distribui c ao a posteriori de dado X e uma distribuicao gama com
par ametros
n
i=1
x
i
+a e n +b que denotamos por
|X
_
n
i=1
x
i
+a; n +b
_
.
Assim,
E[|X] =
n
i=1
x
i
+a
n +b
.
Alem disso, no caso da Poisson, como visto acima, priori gama leva a uma
posteriori gama, de modo que a distribui c ao gama e conjugada para a Poisson.
Ap os algumas manipula c oes algebricas, n ao e difcil vericar que (ver Exerccio
4.5)
R(, d) = E
_
_
n
i=1
x
i
+a
n +b

_
2
_
=
1
(n +b)
2
[a
2
+b
2
2
+(n 2ab)],
de modo que
r(, d) = E
[R(, d)] =
a
b(n +b)
.
1
, . . . , X
n
variavel aleatoria X com distribui cao N(,
2
0
), onde
2
0
e conhecido. Conside-
remos para a priori N(a, b
2
), ou seja,
() =
1
2b
e
(a)
2
2b
2
,
onde a e b sao conhecidos. A priori N(a, b
2
) expressa o fato de que a e um valor
razo avel para enquanto que b
2
(ou b) quantica a conan ca (ou certeza) de
que a e um valor razoavel para . Quanto maior b
2
(ou b), mais incerto o
estatstico esta com rela cao a escolha feita pela natureza com rela cao a . Apos
uma serie de manipula c oes algebricas (verique!), temos que
f(x|)() =
_
1
2
0
_
n
1
2b
e
n
i=1
(x
i
)
2
2
2
0
(a)
2
2b
2
=
_
1
2
0
_
n
1
2b
e
n
i=1
x
2
i
2
2
0
a
2
2b
2
+
_
n
i=1
x
i
2
0
+
a
b
2
_
2
2
_
n
2
0
+
1
b
2
_

e
1
2
_
n
2
0
+
1
b
2
_
_
n
i=1
x
i
2
0
+
a
b
2
n
2
0
+
1
b
2
_
2
,
e
g(x) =
_
1
2
0
_
n
1
b
1
n
2
0
+
1
b
2
e
n
i=1
x
2
i
2
2
0
a
2
2b
2
+
_
n
i=1
x
i
2
0
+
a
b
2
_
2
2
_
n
2
0
+
1
b
2
_
,
de modo que (verique!)
(|x) =
1
2
_
1
n
2
o
+
1
b
2
e
1
2
_
n
2
0
+
1
b
2
_
_
_
_
n
i=1
x
i
2
0
+
a
b
2
n
2
0
+
1
b
2
_
_
_
2
,
ou seja, a distribui c ao a posteriori de dado X
1
, . . . , X
n
e normal com media
(
n
i=1
x
i
/
2
0
+a/b
2
)/(n/
2
0
+1/b
2
) e vari ancia 1/(n/
2
0
+1/b
2
), que denotamos
por
|X N
_
n
i=1
xi
2
o
+
a
b
2
n
2
0
+
1
b
2
;
1
n
2
o
+
1
b
2
_
.
Temos, portanto, que a priori normal e conjugada para a distribui c ao normal
quando queremos estimar com variancia
2
0
conhecida. Com rela cao a perda
quadratica, temos, entao, que
d
B
=
n
i=1
Xi
2
0
+
a
b
2
n
2
0
+
1
b
2
=
n
2
0
n
2
0
+
1
b
2
X +
1
b
2
n
2
0
+
1
b
2
a,
de modo que o estimador de Bayes de e uma combinacao linear convexa (co-
ecientes somam um) entre a media amostral X (que e o estimador eciente
e de m axima verossimilhan ca de ) e a media a priori a. Notemos que quanto
maior n, maior o peso atribudo a X. Portanto para n grande a distribui c ao a
priori tem pouca inuencia na distribui c ao a posteriori. Por outro lado, valores
pequenos de b aumentam a contribui c ao de a no estimador d
B
acima. Lem-
bramos que b pequeno indica uma maior conan ca do estatstico de que a e um
valor razoavel para . Temos tambem que (verique!)
R(, d
B
) = E
_
_
_
_
nX
2
0
+
a
b
2
n
2
0
+
1
b
_
_
2
_
_ =
n
2
0
+
(a)
2
b
4
_
n
2
0
+
1
b
2
_
2
e
r(, d) =
1
n
2
0
+
1
b
2
.
Alem disso,
R(, d
B
)

2
0
n
,
quando b , ou seja, a informa c ao a priori e pouco precisa.
Para nalizar o captulo, apresentamos a seguir um resultado importante,
relacionando os estimadores de Bayes a uma estatstica suciente.
1
, . . . , X
n
distribui c ao da vari avel aleat oria X com fun c ao de densidade (ou de proba-
bilidade) f(x|). Seja T = T(X
1
, . . . , X
n
) uma estatstica suciente para .
Consideremos para a funcao de densidade (ou de probabilidade) (). Ent ao,
o estimador de Bayes de com rela c ao ` a perda quadr atica e fun c ao de T.
Prova. Vamos considerar a demostra c ao apenas para o caso em que X e
sao variaveis aleatorias contnuas. Sendo T uma estatstica suciente para ,
usando o Criterio da Fatora c ao, podemos escrever
f(x|) = h(x)g
(t(x)),
ou seja, g
(t(x)) depende de x somente por t(x). Podemos, ent ao, escrever a

fun c ao de densidade (ou de probabilidade) a posteriori como
(|x) =
f(x|)()
_
f(x|)d
h(x)g
(t(x))()
_
h(x)g
(t(x))()d
=
g
(t(x))()
_
(t(x))()d
,
de modo que a fun c ao de densidade a posteriori depende de x somente atraves
de T = T(x). Como o estimador de Bayes de com rela cao à perda quadratica
e a media da posteriori, ele dependera de X somente atraves de T.
O resultado do Teorema 4.4.2 vale na verdade em situa coes mais gerais no
que diz respeito à fun cao de perda. Na verdade qualquer que seja a fun c ao
de perda considerada, o estimador de Bayes s o depender a de X atraves de
T = T(X
1
, . . . , X
n
), pois qualquer que seja a fun c ao de perda, o estimador de
Bayes e obtido utilizando a distribui cao a posteriori (|x).
4.5 Exerccios
4.1. Seja X uma unica observa c ao da distribui c ao N(, 1), onde < < .
Considere a perda quadr atica.
(i) Encontre o risco R(, d) para a classe D = {d; d(x) = cX}.
(ii) Encontre, na classe D, o estimador minimax de .
(iii) Encontre em D o estimador de Bayes de com rela cao a priori () =
1/2; 1 1.
4.2. Seja X uma unica observa c ao da vari avel aleat oria X com fun cao de
probabilidade
4.5 Exerccios 71
f(x|) =
2!
x!(2 x)!
x
(1 )
2x
, x = 0, 1, 2,
onde 0 < < 1. Considere os estimadores d
1
(X) = X/2 e d
2
(X) = (X + 1)/4
e fun c ao de perda quadr atica.
(i) Verique se existe um estimador uniformemente melhor (melhor para todo
), ou seja, verique se um dos estimadores e inadmissvel.
(ii) Qual dos estimadores e minimax?
4.3. Considere uma unica observa c ao da vari avel aleat oria X Binomial(m, ).
Seja l(, d) = ( d)
2
.
(i) Encontre o risco de d(X) = X/m.
(ii) Encontre o risco de Bayes de d(X) em (i), com rela cao a priori () =
1, 0 1.
4.4. Refa ca o Exerccio 4.3., considerando agora a perda l(, d) = (
a)
2
/(1 ).
4.5. Seja uma unica observa c ao da distribui c ao Poisson(). Encontre o risco
de Bayes do estimador d(X) = X, com rela c ao ` a perda quadr atica e a priori
Gama(, ).
4.6. Considere o problema de se estimar = {0, 1}, baseado em uma unica
observa c ao da vari avel aleat oria X, com densidade
f(x|) = 2
(x+)
, x = 1 , 2 , 3 , ...
Considere a perda 0-1, ou seja,
l(0, 0) = l(1, 1) = 0 e l(0, 1) = l(1, 0) = 1.
Considere tambem os estimadores
d
1
(X) =
_
1, X = 0,
0, X > 0,
e d
2
(X) =
_
0, X 1,
1, X > 1,
(i) Encontre R(, d
i
(X)), i = 1, 2.
(ii) Qual dos estimadores e minimax? Alguns dos estimadores e inadmissvel?
4.7. Seja X uma unica observa c ao da distribui c ao U(0, ), onde e uma variavel
aleat oria com densidade
() = e
, > 0.
(i) Encontre a densidade a posteriori de .
(ii) Encontre o estimador de Bayes de com respeito à perda quadratica.
4.8. Seja X o tempo de vida de uma lampada (em mil horas) fabricada por
certa companhia. Considera-se que X e uma variavel aleatoria com densidade
f(x|) = e
x
, x > 0.
Considere para a priori
() = 16e
4
, > 0.
(i) Encontre a distribui c ao a posteriori de .
(ii) Encontre o estimador de Bayes de E(X) e V ar(X) com rela cao à perda
quadratica.
4.9. Em uma area de reorestamento, o n umero de arvores de determinada
especie, por hectare, com certa doen ca tem uma distribuicao Poisson(). A
distribui c ao a priori de e exponencial com media igual a 1. Encontre o esti-
mador de Bayes de P
(X = 0) com rela cao à perda quadratica..

4.10. Sejam X
1
, . . . , X
n
uma amostra aleat oria da distribui c ao U(0, ). Supo-
nhamos que seja uma variavel aleatoria com funcao de densidade de proba-
bilidade (Pareto)
() =
_
ba
b
/
b+1
, a,
0, < a,
Encontre a distribuicao a posteriori de e o estimador de Bayes de com
rela c ao ` a perda quadr atica.
4.11. Sejam X
1
, . . . , X
n
Bernoulli(). Considere para a priori
() =
_
2, 0 < < 1,
0, caso contrario,
Encontre o estimador de Bayes de com rela cao à perda quadratica e seu risco
de Bayes.
4.12. Sejam X
1
, . . . , X
n
uma amostra aleat oria de tamanho n da densidade
f(x|) = x
1
, 0 < x < 1, > 0.
Vamos assumir para a priori gama
() =
r
r1
e
/(r),
onde r e sao conhecidos. Encontre a distribuicao a posteriori de e o estimador
de Bayes de com rela cao à perda quadratica.
5. Estima cao por Intervalo
Neste captulo consideramos o problema de estima c ao de par ametros utilizando
intervalos de conan ca. Os intervalos classicos sao obtidos a partir de variaveis
aleat orias especiais que denominamos quantidades pivotais. Os intervalos de
conan ca Bayesianos sao obtidos utilizando a distribui cao a posteriori. Em
primeiro lugar, discutimos propriedades da media e da variancia amostrais
quando as amostras sao obtidas a partir de popula coes normais. A seguir in-
troduzimos os metodos de constru c ao de intervalos.
5.1 Amostras de Popula coes Normais
Os resultados que apresentamos a seguir sao utilizados com bastante freq uencia
na constru c ao de intervalos de conan ca e testes de hip oteses para popula c oes
normais.
Teorema 5.1. Sejam X
1
, . . . , X
n
distribui c ao N(,
2
). Ent ao
(i) X e S
2
s ao independentes;
(ii)
(n1)S
2
2

2
n1
;
(iii)
n(X)
S
t
n1
;
onde
2
denota uma vari avel aleat oria com distribui c ao quiquadrado com
graus de liberdade, isto e, com f.d.p. dada por
f(y|) =
1
2
/2
(/2)
y
/21
e
y/2
, y > 0;
t
denota uma vari avel aleat oria com distribui c ao t de Student com graus de
liberdade,isto e, com f.d.p. dada por
f(y|) =
(( + 1)/2)
(/2)
(1 +t
2
/)
(+1)/2
, < t < ;
74 5. Estima c ao por Intervalo
e como antes, X =
n
i=1
X
i
/n e S
2
=
n
i=1
(X
i
X)
2
/(n 1).
Prova. (i) Temos que
X N(,
2
/n),
enquanto que X
i
X N
_
0,
2
(n1)
n
_
. Por outro lado, a fun c ao geradora de
momentos (James, 1981) de Y
1
= X e Y
2
= X
i
X e dada por
M
Y1,Y2
(s
1
, s
2
) = E
_
e
s1X+s2(XiX)
_
= E
_
e
s2Xi+X(s1s2)
_
= E
_
e
(s2+
(s
1
s
2
)
n
)Xi+
(s
1
s
2
)
n
n
j=i
Xj
_
= E
_
e
(s2+
(s
1
s
2
)
n
)Xi
_
E
_
e
(s
1
s
2
)
n
n
j=i
Xj
_
.
Como X
i
N(,
2
) e
n
j=i
X
j
N((n 1); (n 1)
2
), temos que
M
Y1,Y2
(s
1
, s
2
) = e
_
s2+
(s
1
s
2
)
n
_
+
2
2
_
s2+
(s
1
s
2
)
n
_
2
e
(n1)
n
(s1s2)+
1
2
_
(
s
1
s
2
n
)
2
(n1)
2
_
= e
s1+
s
2
1
2
2n
e
s
2
2
(n1)
2
2n
que e o produto das fun coes geradoras de momentos das distribui c oes de X e
X
i
X. Portanto temos que X
i
X e X sao independentes, pois a funcao gera-
dora da distribui c ao conjunta e o produto das fun c oes geradoras de momentos
das distribui c oes marginais. Como
n
i=1
(X
i
X)
2
e funcao de X
i
X que e
independente de X, temos que S
2
e independente de X.
(ii) N ao e difcil vericar que
(5.1.1)
n
i=1
(X
i
)
2
2
=
n
i=1
(X
i
X)
2
2
+n
(X )
2
2
.
Como (X
i
)/ N(0, 1), temos que (X
i
)
2
/
2

2
1
, i = 1, . . . , n, de
modo que
Y
1
=
n
i=1
(X
i
)
2
2

2
n
.
Tambem n(X )
2
/
2

2
1
. Como a fun c ao geradora de momentos da dis-
tribui c ao quiquadrado com g graus de liberdade e dada por
M
g
(s) = (1 2s)
g/2
,
5.2 O Metodo da Quantidade Pivotal 75
temos que as fun c oes geradoras das distribui c oes quiquadrado com g = 1 e
g = n graus de liberdade s ao dadas respectivamente por
(5.1.2) M
1
(s) = (1 2s)
1/2
e M
n
(s) = (1 2s)
n/2
.
Alem disso, como X e S
2
sao independentes, temos que os dois termos do lado
direito de (5.1.1) que denotamos por Y
2
e Y
3
, respectivamente, s ao indepen-
dentes, de modo que
M
Y1
(s) = M
Y2
(s)M
Y3
(s),
ou seja, de (5.1.2) segue que
M
Y2
(s) =
M
Y1
(s)
M
Y3
(s)
= (1 2s)
(n1)/2
,
logo a distribui cao de Y
2
= (n 1)S
2
/
2
e quiquadrado com n 1 graus de
liberdade.
(iii) Note que podemos escrever
(5.1.3)
n
(X )
S
=
n
(X)
_
(n1)S
2
(n1)
2
que corresponde ao quociente entre duas variaveis aleatorias independentes
em que o numerador e uma variavel aleatoria com distribui c ao N(0, 1) e o
denominador e a raiz quadrada de uma vari avel aleat oria com distribui c ao
quiquadrado com n 1 graus de liberdade (veja (ii)) dividido pelo n umero de
graus de liberdade, de modo que a vari avel (5.1.3) tem distribui cao t de Student
com n 1 graus de liberdade.
5.2 O Metodo da Quantidade Pivotal
A constru c ao de intervalos utilizando quantidades pivotais e considerada a
seguir.
Denicao 5.2.1. Uma vari avel aleat oria Q(X
1
, . . . , X
n
; ) = Q(X; ) e dita ser
uma quantidade pivotal para o par ametro se sua distribui c ao for independente
de .
Notemos que uma quantidade pivotal n ao e uma estatstica, pois ela depende
de um par ametro desconhecido. Podemos, ent ao, para cada = 1 xado,
encontrar
1
e
2
na distribui c ao de Q(X; ) de modo que
(5.2.1) P[
1
Q(X; )
2
] = .
Sendo a distribui c ao de Q(X; ) independente de ,
1
e
2
tambem n ao de-
pendem de . Alem disso, se para cada X existirem t
1
(X) e t
2
(X) tais que
1
Q(X; )
2
se e somente se t
1
(X) t
2
(X)
e ent ao de (5.2.1),
(5.2.2) P[t
1
(X) t
2
(X)] = ,
de modo que [t
1
(X); t
2
(X)] e um intervalo (aleat orio) que contem com proba-
bilidade (coeciente de conan ca) = 1 . Nos casos em que a distribui c ao
da vari avel aleat oria X e discreta, em geral, nao se consegue determinar
1
e
2
de tal forma que (5.2.1) esteja satisfeita exatamente. Em tais casos, podemos
escolher
1
e
2
tal que (5.2.1) esteja satisfeita para um coeciente de con-
an ca maior ou igual a (o mais pr oximo possvel). Quando n e razoavelmente
grande, uma alternativa seria considerar os intervalos de conan ca baseados
na distribui c ao do estimador de m axima verossimilhan ca que consideramos na
Se c ao 3.5. Um outro ponto a salientar e que, na maioria dos casos, existem
muitos pares (
1
,
2
) satisfazendo (5.2.1). Sempre que possvel, devemos esco-
lher (
1
,
2
) que produz o intervalo de menor comprimento. Tal procedimento
e facilitado em situacoes em que a distribuicao de Q(X; ) e simetrica, como
no caso da distribui c ao normal.
1
, . . . , X
n
variavel aleatoria X, com densidade
(5.2.3) f(x|) = e
x
, > 0, x > 0.
Como vimos no Captulo 2, a estatstica T =
n
i=1
X
i
e suciente para . Mas,
como a distribui cao de T e Gama(n; ), temos que T n ao e uma quantidade
pivotal para . Por outro lado, a densidade de Q(X; ) = 2
n
i=1
X
i
e dada
por
(5.2.4) f
Q
(y) =
y
n1
e
y/2
2
n
[n]
, y > 0
que corresponde a densidade de uma distribui cao quiquadrado com 2n graus de
liberdade, que denotamos por
2
2n
. Portanto Q(X; ) pode ser considerada como
uma quantidade pivotal, pois sua distribui c ao e independente de . Entao, dado
o coeciente de conanca = 1 , obtemos
1
e
2
na tabela da distribui c ao
2
2n
, de modo que
(5.2.5) P
_
1
2
n
i=1
X
i

2
_
= ,
logo um intervalo de conan ca para com coeciente de conan ca e dado
por
(5.2.6)
_

1
2
n
i=1
X
i
;

2
2
n
i=1
X
i
_
.
Conforme enfatizado anteriormente, existem innitos pares (
1
,
2
) para os
quais (5.2.5) esta vericada. Sempre que possvel, (
1
,
2
) devem ser escolhidos
de modo que o intervalo (5.2.6) seja de comprimento mnimo. Tal intervalo
existe, mas (
1
,
2
) deve ser obtido por metodos computacionais. Uma alterna-
tiva e considerarmos intervalos simetricos em que (
1
,
2
) s ao obtidos a partir
da distribui c ao
2
2n
, de modo que a area ` a esquerda de
1
seja igual à area à
direita de
2
e igual a /2. Ver Figura 5.1.
Figura 5.1. Determina c ao de
1
e
2

0
#
2
#
1 x
f(x)
$/2
$/2
Denotando estes pontos por q
1
e q
2
, temos que o intervalo simetrico e dado
por
(5.2.7)
_
q
1
2
n
i=1
X
i
;
q
2
2
n
i=1
X
i
_
.
A n ao ser que o tamanho da amostra n seja muito pequeno, o intervalo (5.2.7) e
bastante pr oximo do intervalo de comprimento mnimo. Consideramos a seguir
n = 20 observa coes simuladas a partir da distribui cao exponencial com = 2.
Como
F(x) = 1 e
x
e como qualquer que seja a fun c ao de distribui c ao F(x)
U = F(X) U(0, 1),
ou seja, a distribui c ao de F(X) e uniforme no intervalo (0, 1), gerando ob-
servacoes u a partir da distribui cao U(0, 1), temos que
(5.2.8) x =
1
log(1 u)
e uma observacao simulada da distribuicao exponencial com parametro e com
densidade dada em (5.2.3). As n = 20 observa coes simuladas a partir da U(0, 1)
sao dadas na Tabela 5.1 abaixo.
Tabela 5.1. n = 20 observa coes da U(0, 1)
0,659 0,591 0,381 0,658 0,012
0,469 0,017 0,128 0,328 0,166
0,353 0,594 0,051 0,757 0,045
0,847 0,749 0,535 0,700 0,781
Usando os valores da Tabela 5.1 na rela c ao (5.2.8) temos na Tabela 5.2 as
n = 20 observa coes simuladas da distribui cao exponencial (5.2.3) com = 2.
Tabela 5.2. n = 20 observa coes da distribui cao Exp(2)
0,5380 0,4470 0,2398 0,5365 0.0061
0,3165 0,0086 0,0064 0,1995 0,9008
0,2177 0,4507 0,0262 0,7073 0,0230
0,9339 0,6912 0,3829 0,6020 0,7593
Considerando as primeiras n = 10 observa c oes na Tabela 5.2, temos que
10
i=1
X
i
= 3, 1992. Tomando = 0, 05, temos da tabela da distribui c ao qui-
quadrado com 20 graus de liberdade que q
1
= 9, 59 e q
2
= 34, 17, ent ao de
(5.2.7) segue que o intervalo [1, 50; 5, 34] e um intervalo de conan ca para
com coeciente de conan ca = 0, 95. Considerando n = 20, temos que
20
i=1
X
i
= 7, 9934 e usando a aproxima c ao normal para a distribui c ao qui-
quadrado (a maioria das tabelas da distribui cao quiquadrado n ao trazem per-
centis para 40 graus de liberdade), ou seja,
2
2n
E[
2
2n
]
_
V ar[
2
2n
]
a
N(0, 1)
temos, usando a tabela da distribui c ao N(0, 1), que
q
1
= 1, 96
80 + 40 e q
2
= 1, 96
80 + 40,
de modo que, nesse caso, o intervalo e dado por [1, 41; 3, 60] que, conforme era
esperado, tem comprimento bem menor que o comprimento do correspondente
intervalo com n = 10.
1
, . . . , X
n
variavel aleatoria X com distribui cao uniforme no intervalo (0, ), ou seja, X
U(0, ). Vimos no Captulo 2 que uma estatstica suciente para e dada por
Y = X
(n)
= max{X
1
, . . . , X
n
}, com fun c ao de densidade dada por
f
Y
(y) =
ny
n1
n
I
[0,]
(y)I
[0,)
().
Logo X
(n)
n ao e uma quantidade pivotal j a que sua distribui c ao depende de .
Por outro lado, a distribui c ao da quantidade Q(X; ) = X
(n)
/ e dada por
(5.2.9) f
Q
(q) = nq
n1
I
[0,1]
(q)
que nao depende de . Portanto a variavel aleatoria Q(X; ) e uma quantidade
pivotal, de modo que dado = 1, podemos encontrar
1
e
2
na distribui c ao
de Q, tal que
(5.2.10)
_
2
1
f
Q
(q)dq = = 1 .
Como existem innitos pares (
1
,
2
) satisfazendo (5.2.10), consideramos o
intervalo simetrico, ou seja, consideramos o intervalo satisfazendo
(5.2.11)
_
1
0
f
Q
(q)dq =

2
e
_
1
2
f
Q
(q)dq =

2
.
Resolvendo as equa c oes (5.2.11), chegamos a
1
=
_
2
_
1/n
e
2
=
_
1

2
_
1/n
,
de modo que
P
_
1

X
(n)

2
_
= P
_
X
(n)
2

X
(n)
1
_
= 1
que leva ao intervalo
(5.2.12)
_
X
(n)
(1 /2)
1/n
;
X
(n)
(/2)
1/n
_
.
Considerando as primeiras n = 10 observa coes da Tabela 5.1 e = 0, 95, temos
que o intervalo (5.2.12) se reduz a [0, 659/(0, 975)
1/10
; 0, 659/(0, 025)
1/10
], ou
seja, [0, 661; 0, 953]. Considerando as n = 20 observa c oes da Tabela 5.1, o in-
tervalo se reduz a (0,848;1,019). Notemos que = 1 n ao est a contido no in-
tervalo com n = 10, mas est a contido no intervalo com n = 20. Como a dis-
tribui c ao de Q n ao e simetrica, o intervalo (5.2.12) n ao e o de menor compri-
mento para um dado . No Exerccio 5.3 apresentamos um intervalo de menor
comprimento que o do intervalo (5.2.12).

E importante ressaltar que o coe-
ciente de conan ca esta associado ao intervalo aleatorio que segue de (5.2.2).
Quanto ao intervalo numerico que segue do intervalo aleatorio, arma c oes do
tipo P[0, 848 1, 019] n ao s ao apropriadas, pois n ao existem quantidades
aleat orias associadas ` a desigualdade 0, 848 1, 019. O que se aplica no
caso numerico e a interpreta cao freq uentista, ou seja, para cada 100 intervalos
numericos construdos a partir do intervalo aleatorio, aproximadamente 100%
deles v ao conter . Para um problema particular, o intervalo que construmos
a partir de uma amostra observada pode ser ou nao um daqueles 100(1 )%
que nao contem . Mas n ao temos condi c oes de sabe-lo.
5.3 Intervalos para Popula coes Normais
Consideremos em primeiro lugar (Se c ao 5.3.1) o caso de uma unica amostra. A
seguir, na Secao 5.3.2, abordamos o caso de duas amostras.
5.3.1 O caso de uma unica amostra
SejamX
1
, . . . , X
n
uma amostra aleat oria de tamanho n da distribui c ao N(,
2
).
Assumindo
2
conhecido, temos que uma quantidade pivotal para , baseada
na estatstica suciente
n
i=1
X
i
= nX e dada por
Q(X; ) =
X
/
n
que tem distribui cao N(0, 1). Portanto, dado o coeciente de conan ca , de-
terminamos
1
e
2
de modo que
(5.3.1) P
_
1

X
/
n

2
_
= .
Conforme enfatizado anteriormente, existem innitos pares (
1
,
2
) que satis-
fazem (5.3.1). Como a distribui c ao N(0, 1) e simetrica, o intervalo de menor
comprimento e o intervalo simetrico, ou seja, aquele em que a area à direita de
2
e igual a area à esquerda de
1
que e igual a /2. Sejam ent ao
1
= z
/2
e
5.3 Intervalos para Popula c oes Normais 81
2
= z
/2
, onde P(Z z
/2
) = 1 /2, Z N(0, 1) de modo que o intervalo
de menor comprimento e dado por
(5.3.2)
_
X z
/2
n
; X +z
/2
n
_
.
Por outro lado, sendo
2
desconhecido, temos pelo Teorema 5.1. (iii), que
Q(X, ) =
X
S/
n
t
n1
que nesse caso e uma quantidade pivotal. Entao, dado , existem
1
e
2
na
distribui c ao t
n1
de modo que
P
_
1

X
S/
n

2
_
= .
Como a distribui c ao da quantidade pivotal Q e simetrica, devemos escolher
1
e
2
de modo que a area ` a direita de
2
seja igual a area à esquerda de
1
, ou
seja
1
= t
/2
e
2
= t
/2
, onde P(T t
/2
) = 1 /2, T t
n1
de modo
que o intervalo de menor comprimento e dado por
_
X t
/2
S
n
; X +t
/2
S
n
_
.
Quanto a
2
, considerando desconhecido, temos, de acordo com o Teorema
5.1. (ii), que
Q(X,
2
) =
(n 1)S
2
2

2
n1
e uma quantidade pivotal para
2
. Portanto, dado , podemos determinar
1
e
2
de modo que
(5.3.3) P
_
1

(n 1)S
2
2

2
_
= .
Considerando o intervalo simetrico, ou seja,
1
= q
1
e
2
= q
2
, onde P[
2
n1

q
2
] = P[
2
n1
q
1
] = /2, temos de (5.3.3), o intervalo
_
(n 1)S
2
q
2
;
(n 1)S
2
q
1
_
.
5.3.2 Duas amostras independentes
Vamos considerar o caso em que temos X
1
, . . . , X
n
, uma amostra aleatoria
da vari avel aleat oria X N(
1
,
2
) e Y
1
, . . . , Y
m
, uma amostra aleat oria da
variavel aleatoria Y N(
2
,
2
), onde X e Y sao independentes. Sabemos que
X Y N
_
2
,
2
_
1
n
+
1
m
__
de modo que, sendo =
1
2
, consideramos a quantidade pivotal
Q(X, Y, ) =
X Y (
1
2
)
_
1
n
+
1
m
N(0, 1).
Sendo
2
conhecido, temos, como na se cao anterior, o intervalo
_
X Y z
/2
_
1
n
+
1
m
; X Y +z
/2
_
1
n
+
1
m
_
onde z
/2
e obtido como em (5.3.2). Sendo
2
desconhecido, temos que uma
quantidade pivotal e dada por
(5.3.4) Q(X, Y, ) =
X Y (
1
2
)
S
p
_
1
n
+
1
m
t
n+m2
onde
S
2
p
=
(n 1)S
2
x
+ (m1)S
2
y
(n +m2)
, S
2
x
=
1
n 1
n
i=1
(X
i
X)
2
e S
2
y
=
1
m1
m
i=1
(Y
i
Y )
2
.
Como
(n 1)S
2
x
2

2
n1
e
(m1)S
2
y
2

2
m1
,
e, pela independencia de S
2
x
e S
2
y
, temos que
(5.3.5)
(n +m2)S
2
p
2
=
(n 1)S
2
x
+ (m1)S
2
y
2

2
n+m2
.
Entao do Teorema 5.1, (iii) segue o resultado (5.3.4). Um intervalo de conan ca
para =
1
2
, com coeciente de conan ca e, entao, dado por
5.4 Intervalos de Conan ca Aproximados 83
_
X Y t
/2
S
p
_
1
n
+
1
m
; X Y +t
/2
S
p
_
1
n
+
1
m
_
,
onde t
/2
e obtido na tabela da distribuicao t com n+m2 graus de liberdade.
Para construirmos um intervalo de conan ca para
2
, podemos considerar a
quantidade pivotal (5.3.5).
No caso em que X N(
1
,
2
1
) e Y N(
2
,
2
2
) e o interesse e a constru c ao
de um intervalo de conan ca para
2
1
/
2
2
, notando que
(n 1)S
2
x
2
1

2
n1
e
(m1)S
2
y
2
2

2
m1
,
temos que
Q(X, Y, ) =
(m1)S
2
y
/
2
2
(m1)
(n 1)S
2
x
/
2
1
(n 1)
F
m1,n1
,
onde F
m1,n1
denota a distribui c ao F com m1 e n1 graus de liberdade, e
uma quantidade pivotal para . Entao, dado , obtemos
1
e
2
na distribui c ao
F
m1,n1
, de modo que
P
_
2
1
S
2
y
2
2
S
2
x

2
_
=
Considerando o intervalo simetrico, ou seja,
1
= F
1
e
2
= F
2
, de modo que
P[F
m1,n1
F
2
] = P[F
m1,n1
F
1
] = /2,
onde F
1
e F
2
sao obtidos na tabela da distribuicao F com m1 e n 1 graus
de liberdade, temos o intervalo
_
F
1
S
2
x
S
2
y
; F
2
S
2
x
S
2
y
_
.
5.4 Intervalos de Conan ca Aproximados
Nesta se c ao consideramos intervalos de conan ca aproximados para um par a-
metro baseados na distribui c ao assint otica do estimador de m axima verossi-
milhan ca

de . De acordo com (3.2.3), temos que

_
(nI
F
())
1
a
N(0, 1).
Como, I
F
() pode depender de , que nao e conhecido, substituindo I
F
() por
I
F
(
), temos que
(5.4.1) Q(X, ) =

_
(nI
F
(
))
1
a
N(0, 1),
de modo que Q(X, ) e uma quantidade pivotal com distribui c ao aproximada-
mente igual a distribui c ao N(0, 1) em grandes amostras. Com rela c ao a uma
fun c ao g(), podemos considerar a vari avel aleat oria
(5.4.2) Q(X, g()) =
g(
) g()
_
(g
))
2
nIF (
)
a
N(0, 1),
que para amostras grandes e uma quantidade pivotal.
1
, . . . , X
n
X Bernoulli(). Como o estimador de m axima verossimilhan ca de e

= X
e I
F
() = 1/(1 ), de (5.4.1), temos que uma quantidade pivotal para e
dada por
Q(X, ) =
X
_
X(1X)
n
a
N(0, 1),
de modo que para valores grandes de n, um intervalo de conan ca para com
coeciente de conan ca aproximadamente e dado por
_
_
X z
/2
X(1 X)
n
; X +z
/2
X(1 X)
n
_
_
.
Suponhamos agora, que seja de interesse a obten c ao de um intervalo de
conan ca para g() = (1 ). Como g
() = 1 2 e I
F
() = 1/(1 ),
temos de (5.4.2) que uma quantidade pivotal para g() e dada por
Q(X, ) =
(1
) (1 )
_
(1
)(12
)
2
n
a
N(0, 1),
de modo que um intervalo de conan ca aproximado para g() = (1) e dado
por
_
X(1 X) z
/2
_
X(1 X)(1 2X)
2
n
; X(1 X) + z
/2
_
X(1 X)(1 2X)
2
n
_
,
5.5 Intervalos de Conan ca Bayesianos 85
onde z
/2
e obtido na tabela da distribuicao N(0, 1).
1
, . . . , X
n
variavel aleatoria X Exp() , com fun c ao densidade
f(x|) = e
x
; x > 0, > 0.
Como I
1
F
() =
2
e

= 1/X, segue de (5.4.1) que uma quantidade pivotal
para e dada por
Q(X, ) =
1/X
_
2
/n
a
N(0, 1),
de modo que um intervalo de conan ca com coeciente de conan ca aproximado
= 1 e dado por
(5.4.3)
_
1
X
z
/2
1
nX
2
;
1
X
+z
/2
1
nX
2
_
.
Considerando a amostra da Tabela 5.2, temos que para n = 10 o intervalo
(5.4.3) se reduz a (1,189;5,063) e para n = 20, temos o intervalo (1,405;3,599).
Notemos que o intervalo aproximado para comn = 20 coincide com o intervalo
exato obtido no Exemplo 5.2.1.
5.5 Intervalos de Conan ca Bayesianos
Sejam X
1
, . . . , X
n
uma amostra aleat oria de tamanho n da vari avel aleat oria
X com fun cao densidade de probabilidade (ou fun cao de probabilidade) f(x|).
Consideremos para a funcao de densidade a priori (). Portanto a fun c ao de
densidade a posteriori para , e, de acordo com (4.4.6), dada por
(|X) =
n
i=1
f(x
i
|)()
_
n
i=1
f(x
i
|)()d
.
Denicao 5.5.1. Dizemos que [t
1
; t
2
] e um intervalo de conanca Bayesiano
para , com coeciente de conan ca = 1 se
(5.5.1)
_
t2
t1
(|X)d = .
Como no caso cl assico existem, em geral, innitos intervalos [t
1
; t
2
] satis-
fazendo (5.5.1). Sempre que possvel, o comprimento do intervalo [t
1
; t
2
] deve
ser mnimo. Nos casos em que a funcao de densidade a posteriori e simetrica,
os intervalos simetricos s ao em geral os de menor comprimento. O intervalo
Bayesiano de menor comprimento e usualmente conhecido como o intervalo
de densidade a posteriori m axima highest posterior density (HPD) interval.
Metodos computacionais s ao em geral necess arios para a obten c ao do intervalo
HPD.
1
, . . . , X
n
distribui c ao N(, 1). Consideremos para a distribui c ao a priori N(
0
, 1).
Do Exemplo 4.4.3, temos que a distribui c ao a posteriori de dado X que
denotamos por |X, e dada por
|X N
_
n
i=1
X
i
+
0
n + 1
,
1
n + 1
_
.
Sendo = 0, 95, temos ent ao de (5.5.1) e da tabela da distribui c ao N(0, 1) que
[t
1
; t
2
] deve ser escolhido de modo que
t
1
n
i=1
Xi+0
n+1
_
1
n+1
= 1, 96 e
t
2
n
i=1
Xi+0
n+1
_
1
n+1
= 1, 96,
ou seja,
t
1
=
n
i=1
X
i
+
0
n + 1
1, 96
_
1
n + 1
e t
2
=
n
i=1
X
i
+
0
n + 1
+ 1, 96
_
1
n + 1
,
logo o intervalo Bayesiano de menor comprimento (HPD) para com coeciente
de conan ca = 0, 95 e dado por
_
n
i=1
X
i
+
0
n + 1
1, 96
_
1
n + 1
;
n
i=1
X
i
+
0
n + 1
+ 1, 96
_
1
n + 1
_
.
1
, . . . , X
n
variavel aleatoria X U(0, ). Consideremos para a priori com densidade
(Pareto)
() =
ba
b
b+1
I
(a,)
().
Do Exerccio 4.10, temos que a densidade a posteriori de dado X
1
, . . . , X
n
e
dada por
(5.5.2) h(|X) =
(n +b)(max(a, X
(n)
))
n+b
n+b+1
I
(max(a,X
(n)
);)
().
Entao, temos de (5.5.1) que o intervalo Bayesiano simetrico para , com
coeciente de conan ca = 1 e obtido pela solucao das equacoes
5.6 Exerccios 87
_
t1
max(a,X
(n)
)
(n +b)max(a, X
(n)
)
n+b
n+b+1
d =

2
e
_

t2
(n +b)max(a, X
(n)
)
n+b
n+b+1
d =

2
,
o que leva a
t
1
=
max(a, X
(n)
)
(1 /2)
1/n+b
e t
2
=
max(a, X
(n)
)
(/2)
1/n+b
,
de modo que o intervalo Bayesiano simetrico para , com coeciente de con-
an ca = 1 , e dado por
(5.5.3)
_
max(a, X
(n)
)
(1 /2)
1/n+b
;
max(a, X
(n)
)
/2
1/n+b
_
.
Desde que a densidade a posteriori (5.5.2) n ao e simetrica, temos que o intervalo
(5.5.3) n ao e o HPD que nesse caso deve ser obtido numericamente.
5.6 Exerccios
5.2. Considere o Exemplo 5.2.1. Mostre que a distribui c ao da quantidade pi-
votal
Q(X, ) = 2
n
i=1
X
i
e quiquadrado com 2n graus de liberdade com densidade dada por (5.2.4).
5.3. Considere o Exemplo 5.2.2. Mostre que a distibui c ao de Q(X, ) = X
(n)
/
e dada por (5.2.9). Considere o intervalo
(5.6.1)
_
X
(n)
;
X
(n)
1/n
_
.
Encontre seu coeciente de conanca, compare seu comprimento com o do
intervalo obtido no Exemplo 5.2.2, e mostre que o intervalo (5.6.1) e o de menor
comprimento dentre todos os intervalos com coeciente de conan ca = 1.
5.4. Seja X uma unica observa c ao da densidade
f(x|) = x
1
0 < x < 1, > 0.
(i) Mostre que log X e uma quantidade pivotal e use-a para construir um
intervalo de conan ca para com coeciente de conan ca = 1 .
(ii) Seja Y = (log X)
1
. Encontre o coeciente de conan ca associado ao
intervalo (Y/2, Y ).
5.5. Sejam X
1
, . . . , X
n
N(, ). Sugira uma quantidade pivotal para construir um intervalo de con-
an ca para com = 1 .
5.6. Sejam X
1
, . . . , X
n
fun c ao de densidade de probabilidade dada por
f(x|) = I
(1/2,+1/2)
(x).
Seja [X
(1)
; X
(n)
] um intervalo de conan ca para . Calcule seu coeciente de
conan ca. Mostre que o resultado vale para qualquer distribui c ao simetrica em
torno de .
5.7. Sejam X
1
, . . . , X
n
fun c ao densidade de probabilidade dada por
f(x|) = e
x
; x > 0, > 0.
Encontre intervalos de conanca para E(X) e V ar(X) com coecientes de
conan ca = 1 .
5.8. SejamX
1
, X
2
uma amostra aleat oria de tamanho 2 da distribui c ao N(, 1).
Seja Y
1
< Y
2
a amostra ordenada correspondente.
(i) Encontre o coeciente de conan ca associado ao intervalo (Y
1
, Y
2
).
(ii) Considere o intervalo de conan ca para baseado na quantidade pivotal
X, onde X = (X
1
+X
2
)/2. Compare o comprimento esperado deste intervalo
com o comprimento esperado do intervalo em (i) usando o mesmo .
5.9. Sejam X
1
, . . . , X
n+1
, uma amostra aleatoria de tamanho n+1 (n > 1) da
distribui c ao N(,
2
), onde e
2
sao desconhecidos.
(i) Encontre c tal que
c(X X
n+1
)
S
t
n1
,
onde
X =
1
n
n
i=1
X
i
e S
2
=
1
n
n
i=1
(X
i
X)
2
.
(ii) Se n = 8, encontre k de modo que
P[X kS X
9
X +kS] = 0, 80.
5.6 Exerccios 89
5.10. Sejam X
1
, . . . , X
n
Exp(
1
) e Y
1
, . . . , Y
m
uma amostra aleat oria da vari avel aleat oria Y Exp(
2
).
Assumindo que as duas amostras s ao independentes,
(i) obtenha uma quantidade pivotal para construir um intervalo de conan ca
para
1
/
2
.
(ii) Suponha que
1
= 1, 5 e
2
= 2, 0. Simule uma amostra aleat oria com
n = 10 da vari avel Xe com m = 15 da vari avel aleat oria Y . Como ca o seu
intervalo obtido a partir da quantidade pivotal encontrada em (i)?
5.11. Sejam X
1
, . . . , X
n
Poisson(), com priori
() = e
, > 0.
Construa um intervalo de conan ca Bayesiano simetrico para com = 0, 95.
Se n = 10 e
n
i=1
X
i
= 18, como ca o intervalo?
5.12. Considere o Exerccio 4.9. Obtenha um intervalo de conan ca Bayesiano
para com coeciente de conan ca = 0, 95. Como ca seu intervalo se x = 4?
5.13. Considere o Exerccio 4.12. Construa um intervalo de conan ca para
com coeciente de conan ca = 1 , sendo r = = 2. Considere = 2 e
simule uma amostra de X com n = 10. Como ca o intervalo com = 0, 95?
5.14. Usando a amostra de tamanho n = 20 no Exemplo 3.1.6, construa um
intervalo aproximado para , onde f(x|) e dada em (3.1.8).
6. Testes de Hipoteses
Neste captulo apresentamos a teoria de testes de hip oteses em um nvel bas-
tante introdut orio. Testes otimos, como os testes mais poderosos para hip otese
nula simples contra alternativa simples e testes uniformemente mais poderosos
para hip oteses compostas, s ao obtidos utilizando o conhecido Lema de Neyman-
Pearson. Situa c oes mais complexas, como o caso de hip oteses bilaterais, sao
tratadas utilizando-se a estatstica da raz ao de verossimilhan cas generalizada
que, apesar de nao apresentar propriedades otimas, tem um comportamento
bastante satisfat orio.
6.1 Ideias Basicas
Em muitas situacoes temos interesse em tomar a decisao de aceitar ou rejeitar
determinada arma c ao baseando-se em um conjunto de evidencias. Um exem-
plo comum e o caso em que um indivduo est a sendo julgado por determinado
delito. Com base nas evidencias (testemunhas, fatos, etc.), o j uri ter a que de-
cidir pela culpa ou inocencia do indivduo. Podemos, ent ao, concluir que o j uri
formula duas hip oteses: H
0
: o indivduo e inocente e a alternativa H
1
: o
indivduo e culpado. Com base nas evidencias apresentadas, o j uri ter a que
se decidir por H
0
ou por H
1
. Ao tomar, por exemplo, a decis ao de aceitar H
1
(ent ao rejeitar H
0
) como verdadeira, o j uri pode estar cometendo um erro, pois,
apesar das evidencias, o indivduo pode ser inocente. O mesmo pode acontecer
com rela cao à aceita cao da hipotese H
0
como verdadeira. Nesse caso, o j uri
estaria considerando como inocente um indivduo culpado.
Um problema mais pr oximo da area de atua c ao da estatstica (apesar de que
muita estatstica tem sido utilizada em problemas jurdicos), e o problema de se
decidir sobre a eciencia ou n ao de certa vacina utilizada no combate ` a determi-
nada doen ca. Os pesquisadores formulam ent ao as hip oteses H
0
: a vacina nao
e eciente e H
1
: a vacina e eciente. Nesse caso, um experimento e plane-
jado, envolvendo um grupo possivelmente grande de indivduos em que uma
parte (escolhida ao acaso) recebe a vacina e o restante recebe uma subst ancia
inoqua. Com base nos resultados desse experimento, os pesquisadores ter ao
92 6. Testes de Hip oteses
entao que se decidir por H
0
ou H
1
. Novamente, n ao est a descartada a possi-
bilidade de que erros sejam cometidos ao se considerar, por exemplo, a vacina
eciente (H
0
falsa) quando, na verdade, ela n ao o e (H
0
e verdadeira), o que
seria bastante prejudicial à populacao. O estatstico envolvido na pesquisa deve
procurar utilizar tecnicas que tornem mnima a probabilidade de se cometer
erros.
6.2 Formula cao Estatstica
Nesta se c ao os princpios b asicos da teoria s ao especicados. Formalizamos a
seguir a nocao de hipotese estatstica.
Denicao 6.2.1. Chamamos de hipotese estatstica qualquer armacao acerca
da distribui c ao de probabilidades de uma ou mais vari aveis aleat orias.
Denotamos por H
0
(hip otese nula) a hip otese de interesse. Caso H
0
seja re-
jeitada, aceitamos como verdadeira a hip otese alternativa H
1
. Sendo a variavel
aleat oria X distribuda de acordo com a fun c ao de densidade (ou de probabi-
lidade) f(x|), com , dizemos que a distribui c ao de X esta totalmente
especicada quando conhecemos f(x|) e . A distribui cao de X sera dita estar
parcialmente especicada quando conhecemos a fun c ao de densidade (ou de
probabilidade) f(x|), mas n ao . Associados ` as hip oteses H
0
e H
1
, denimos
os conjuntos
0
e
1
, ou seja, H
0
arma que
0
(nota c ao: H
0
:
0
) e
H
1
arma que
1
(nota c ao: H
1
:
1
). No caso em que
0
= {
0
} dize-
mos que H
0
e simples. Caso contrario, dizemos que H
0
e composta. O mesmo
vale para a hipotese alternativa H
1
.
Denicao 6.2.2. Chamamos de teste de uma hipotese estatstica a funcao
de decis ao d : X {a
0
, a
1
}, em que a
0
corresponde ` a a c ao de considerar a
hip otese H
0
como verdadeira e a
1
corresponde ` a a c ao de considerar a hip otese
H
1
como verdadeira.
Na deni c ao acima, X denota o espa co amostral associado ` a amostra
X
1
, . . . , X
n
. A fun cao de decisao d divide o espa co amostral X em dois conjun-
tos
A
0
= {(x
1
, . . . , x
n
) X; d(x
1
, . . . , x
n
) = a
0
}
e
A
1
= {(x
1
, . . . , x
n
) X; d(x
1
, . . . , x
n
) = a
1
},
onde A
0
A
1
= X e A
0
A
1
= . Como em A
0
temos os pontos amostrais
x = (x
1
, . . . , x
n
) que levam ` a aceita c ao de H
0
, vamos chamar A
0
de regi ao de
aceita c ao e, por analogia, A
1
de regi ao de rejei c ao de H
0
, tambem chamada de
regi ao crtica.
6.2 Formula c ao Estatstica 93
Exemplo 6.2.1. Uma caixa contem duas moedas. Uma apresenta cara com
probabilidade p = 0, 5 (equilibrada) e a outra apresenta cara com probabili-
dade p = 0, 6. Uma moeda e escolhida aleatoriamente e lan cada tres vezes.
Suponhamos que as hip oteses de interesse s ao H
0
: p = 0, 5 e H
1
: p = 0, 6.
Seja X
i
a variavel de Bernoulli que assume o valor 1 se ocorre cara no i-esimo
lan camento e 0 caso contrario, i = 1, 2, 3. Nesse caso,
X = {(0, 0, 0), (1, 0, 0), (0, 1, 0), (0, 0, 1), (0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)}.
Podemos considerar, por exemplo, a regi ao crtica
A
1
= {(x
1
, x
2
, x
3
); x
1
+x
2
+x
3
2},
de modo que
A
0
= {(x
1
, x
2
, x
3
); x
1
+x
2
+x
3
< 2}.
Notemos que A
0
A
1
= X e A
0
A
1
= .
No caso em que H
0
: =
0
(simples) e H
1
: =
1
(simples), considerando
a fun cao de perda l(, d) = 0 ou 1, se a decis ao correta ou incorreta, respecti-
vamente, e tomada, a funcao de risco e, entao, dada por
R(
0
, d) = E[l(
0
, d)] = 0.P[X A
0
|
0
] + 1.P[X A
1
|
0
]
= P[X A
1
|
0
] = = P
H0
[Rejeitar H
0
]
e
R(
1
, d) = E[l(
1
, d)] = 0.P[X A
1
|
1
] + 1.P[X A
0
|
1
]
= P[X A
0
|
1
] = = P
H1
[aceitar H
0
].
Os riscos e sao conhecidos na literatura como probabilidades dos erros
dos tipos I e II, respectivamente. Mais precisamente, o erro do tipo I ocorre
quando rejeitamos H
0
, sendo H
0
verdadeira, enquanto que o erro do tipo II
ocorre quando aceitamos H
0
, sendo H
0
falsa. A situa c ao descrita acima est a
ilustrada na Tabela 6.1 dada abaixo.
Tabela 6.1. Tipos de erros em testes de hip oteses
Decis ao H
0
e verdadeira H
0
e falsa
Aceitar H
0
Decis ao correta Erro do tipo II
Rejeitar H
0
Erro do tipo I Decis ao correta
Denicao 6.2.3. O poder do teste com regiao crtica A
1
para testar H
0
: =
0
contra H
1
: =
1
e dado por
(6.2.1) (
1
) = P
H1
[X A
1
] = P[X A
1
|
1
].
Notemos de (6.2.1) que (
1
) = 1 , onde e a probabilidade de se cometer
o erro do tipo II.
1
, . . . , X
n
distribui c ao da vari avel aleat oria X N(, 1). Consideremos as hip oteses H
0
:
= 0 e H
1
: = 1. Consideremos o teste com regiao crtica A
1
= {x; x c},
onde, como nos captulos anteriores, x = (x
1
+ . . . + x
n
)/n. Suponhamos que
n = 16 e que temos interesse em xar = 0, 05. Ent ao, para determinar c,
temos que resolver a equa c ao = P
H0
[X c], ou seja,
0, 05 = P
H0
[X c] = P[Z c
n],
onde Z = X
n N(0, 1). Ent ao, c
n = 1, 64, pois na distribui c ao N(0, 1), o

valor 1, 64 e o percentil 95%. Logo c = 0, 41, de modo que A
1
= {x, x 0, 41}.
6.3 Hipotese Nula Simples contra Alternativa Simples.
Testes Mais Poderosos
Nesta se c ao, xada a probabilidade do erro do tipo I, , tambem conhecida
como nvel do teste, procuramos a regiao crtica A
1
que tenha a menor pro-
babilidade de erro do tipo II, ou seja, maior poder dentre todos os testes com
nvel menor ou igual a . Enfatizamos que, no caso discreto,
(A
1
) = P
H0
[X A
1
] =
xA1
f(x|
0
) e (A
1
) =
xA0
f(x|
1
),
onde A
0
= A
c
1
, conforme enfatizado anteriormente.
Exemplo 6.3.1. Consideremos o problema de se testar H
0
: =
0
versus H
1
:
=
1
, com uma unica observa c ao da vari avel aleat oria X, com distribui c ao
de probabilidade dada na Tabela 6.2 abaixo.
Tabela 6.2. Fun cao de probabilidade da variavel aleatoria
X sob H
0
e H
1
X 0 1 2 3 4 5
f(x|
0
) 0,02 0,03 0,05 0,05 0,35 0,50
f(x|
1
) 0,04 0,05 0,08 0,12 0,41 0,30
Notemos que as possveis regi oes crticas A
1
de nvel (A
1
) = 0, 05 com os
respectivos = (A
1
) s ao dadas na Tabela 6.3 abaixo.
6.3 Hip otese Nula Simples contra Alternativa Simples. Testes Mais Poderosos 95
Tabela 6.3. Regi oes crticas A
1
com nvel (A
1
) = 0, 05
A
1
A
0

{0, 1} 0,05 {2, 3, 4, 5} 0,91
{2} 0,05 {0, 1, 3, 4, 5} 0,92
{3} 0,05 {0, 1, 2, 4, 5} 0,88
Portanto, dentre todas as regi oes crticas de nvel = 0, 05, a mais poderosa
(menor ) e dada por A
1
= {3}.
O resultado que segue apresenta o teste que minimiza uma combina cao
linear dos erros, do tipo a +b, com a e b conhecidos.
Lema 6.3.1. Consideremos o teste com regiao crtica
A
1
=
_
x;
L
1
(x)
L
0
(x)

a
b
_
,
onde a e b s ao especicados e b > 0. Entao, para qualquer outro teste com
regi ao crtica A
1
, temos que
a(A
1
) +b(A
1
) a(A
1
) +b(A
1
),
onde
(6.3.1) L
1
(x) =
n
i=1
f(x
i
|
1
) e L
0
(x) =
n
i=1
f(x
i
|
0
).
Prova. Conforme visto acima, para qualquer teste com regi ao crtica A
1
, temos
que
(A
1
) =
xA1
f(x|
0
) e (A
1
) =
xA0
f(x|
1
),
para uma vari avel aleat oria X discreta. Ent ao,
a(A
1
) +b(A
1
) = a
xA1
f(x|
0
) +b
xA0
f(x|
1
)
= a
xA1
f(x|
0
) +b
_
1
xA1
f(x|
1
)
_
= b +
xA1
[af(x|
0
) bf(x|
1
)].
Portanto a soma a(A
1
) +b(A
1
) ser a mnima quando a regi ao crtica incluir
somente os pontos amostrais x tais que af(x|
0
)bf(x|
1
) 0, ou seja, quando
f(x|
1
)
f(x|
0
)
=
L
1
(x)
L
0
(x)

a
b
,
o que conclui a prova.
Para o caso em que X e uma variavel aleatoria contnua, a demostracao e
an aloga, bastando substituir as somas por integrais correspondentes.
Exemplo 6.3.2. Consideremos o Exemplo 6.3.1 novamente. Temos que o teste
com + (a = b = 1) mnimo tem regiao crtica dada por A
1
= {0, 1, 2, 3, 4},
de modo que = 0, 5 e = 0, 3 sendo + = 0, 80.
O resultado que apresentamos a seguir considera o teste mais poderoso
(M.P.) de nvel para testar H
0
: =
0
contra H
1
: =
1
.
Lema 6.3.2. (Lema de Neyman-Pearson) Consideremos o teste com regiao
crtica
(6.3.2) A
1
=
_
x;
L
1
(x)
L
0
(x)
k
_
.
em que L
0
(x) e L
1
(x) s ao dados em (6.3.1). Ent ao A
1
e a melhor regiao
crtica de nvel = (A
1
) para testar H
0
: =
0
contra H
1
: =
1
, isto e,
(A
1
) (A
1
) para qualquer outro teste A
1
com (A
1
) .
Prova. Do Lema 6.3.1, temos que
(6.3.3) k(A
1
) +(A
1
) k(A
1
) +(A
1
),
para qualquer outra regi ao crtica A
1
. Como (A
1
) (A
1
), a desigualdade
(6.3.3) implica que (A
1
) (A
1
), o que conclui a prova.
O teste com regiao crtica (6.3.2) e tambem conhecido como teste da raz ao
de verossimilhan cas. Calculando a fun c ao de verossimilhan ca dada em (3.1.1)
sob H
0
(L
0
(x)) e sob H
1
(L
1
(x)), o teste mais poderoso rejeita H
0
quando
L
1
(x)/L
0
(x) k, ou seja, quando a evidencia em favor de H
1
(expressa por
L
1
(x)) e maior que a evidencia em favor de H
0
(expressa por L
0
(x)). Portanto,
a seguir, quando nos referimos ao teste M.P., nos referimos à regiao crtica A
1
.
1
, . . . , X
n
distribui c ao de X N(, 1). O objetivo e encontrar o teste M.P. para testar
H
0
: = 0 contra H
1
: = 1. Nesse caso, a fun cao de verossimilhan ca e dada
por
L(; x) =
_
1
2
_
n
e
n
i=1
(x
i
)
2
2
,
de modo que o teste M.P. rejeita H
0
quando
L
1
(x)
L
0
(x)
=
_
1
2
_
n
e
n
i=1
(xi1)
2
/2
_
1
2
_
n
e
n
i=1
x
2
i
/2
k,
ou seja, quando
e
n
i=1
xi
n
2
k,
que e equivalente a rejeitar H
0
quando
n
i=1
x
i
log k + n/2 = c. Portanto a
regi ao crtica do teste M.P. e dada por
(6.3.4) A
1
=
_
x,
n
i=1
x
i
c
_
.
Dado = 0, 05, por exemplo, c e tal que
0, 05 = P
H0
_
n
i=1
X
i
c
_
.
Como, sob H
0
,
n
i=1
X
i
N(0, n), temos que c = 1, 64
n. Sendo n = 9, temos
que c = 4, 92, de modo que, de (6.3.4),
(6.3.5) A
1
=
_
x;
n
i=1
x
i
4, 92
_
.
Associada ` a regi ao crtica (6.3.5), temos que
= P
H1
_
n
i=1
X
i
< 4, 92
_
= P
H1
_
n
i=1
X
i
n
n
<
4, 92 n
n
_
,
e como n = 9, = P
_
Z
4,08
3
= 0, 09, onde Z N(0, 1). O poder do

teste e, ent ao, dado por (
1
) = 1 = 0, 91. Sendo as hip oteses de interesse
H
0
: =
0
e H
1
: =
1
>
0
, o teste M.P. tem regi ao crtica dada por
(6.3.4) com c dado por
c = 1, 64
n +n
0
.
1
, . . . , X
n
variavel aleatoria X N(,
2
), onde e conhecido. Queremos o teste M.P.
para testar H
0
:
2
=
2
0
contra H
1
:
2
=
2
1
(>
2
0
). De acordo com o Lema
6.3.2, temos que o teste M.P. rejeita H
0
quando
L
1
(x)
L
0
(x)
=
_
1
2
2
1
_
n
e
n
i=1
(x
i
)
2
2
2
1
_
1
2
2
0
_
n
e
n
i=1
(x
i
)
2
2
2
0
k,
que e equivalente a
n
i=1
(x
i
)
2
log(k(
1
0
)
n
)
1
2
_
1
2
0
2
1
_ = c.
Entao, a regiao crtica do teste M.P. e dada por
(6.3.6) A
1
=
_
x;
n
i=1
(x
i
)
2
c
_
.
Fixando , temos que o valor de c em (6.3.6) e dado pela solu cao da equa cao
= P
H0
_
n
i=1
(X
i
)
2
c
_
= P
_
n
i=1
(X
i
)
2
2
0
2
0
_
.
Mas, sob H
0
,
n
i=1
(X
i
)
2
2
0

2
n
,
entao, sendo = 0, 05, n = 10 e
2
0
= 8, temos
0, 05 = P
_
2
10

c
8
_
onde
2
10
e a variavel aleatoria com distribuicao quiquadrado com 10 graus de
liberdade. Portanto temos que a regiao crtica e dada por
(6.3.7) A
1
=
_
x;
10
i=1
(x
i
)
2
146, 456
_
.
Nesse caso, sendo
2
1
= 10, 0 temos que
= P
H1
_
10
i=1
(X
i
)
2
< 146, 456
_
= P
_
2
10
14, 646
= 0, 85,
pois, sob H
1
,
10
i=1
(X
i
)
2
10

2
10
.
Assim, associado ` a regi ao crtica (6.3.7) temos o poder (
2
1
) = 1 = 0, 15.
1
, . . . , X
n
distribui c ao da vari avel aleat oria X com distribui cao Bernoulli(). Conside-
remos o problema de testar H
0
: =
0
contra H
1
: =
1
(
1
>
0
). De
acordo com o Lema de Neyman-Pearson e a fun c ao de verossimilhan ca dada
em (3.1.1), a regiao crtica do teste M.P. rejeita H
0
quando
n
i=1
xi
1
(1
1
)
n
n
i=1
xi
n
i=1
xi
0
(1
0
)
n
n
i=1
xi
k,
que pode ser escrita como
_
1
(1
0
)
0
(1
1
)
_
n
i=1
xi
k
_
1
0
1
1
_
n
,
que se reduz a
n
i=1
x
i

log[k(
10
11
)
n
]
log[
1(10)
0(11)
]
= c.
Portanto a regi ao crtica do teste M.P. e dada por
A
1
=
_
x;
n
i=1
x
i
c
_
.
Sob H
0
,
n
i=1
X
i
Binomial(n,
0
), ent ao sendo = 0, 055,
0
= 0, 5,
1
=
0, 6 e n = 10, temos que
= P
H0
_
n
i=1
X
i
c
_
,
leva à regiao crtica
(6.3.8) A
1
=
_
x;
10
i=1
x
i
8
_
.
Assim, associada ` a regi ao crtica A
1
em (6.3.8), temos que
= P
H1
_
10
i=1
X
i
7
_
= 0, 833.
Portanto o poder associado ` a regi ao crtica (6.3.8) e dado por (0, 6) = 1
0, 833 = 0, 167. Sendo n grande (maior que 20, pelo menos), podemos usar a
aproxima c ao normal, ou seja,
n
i=1
X
i
n
_
n(1 )
a
N(0, 1).
Dado , podemos obter o valor de c na regi ao crtica (6.3.8), como solu c ao da
equa cao
= P
_
Z
c n
0
_
n
0
(1
0
)
_
,
onde Z N(0, 1).
Denimos a seguir nvel descritivo que est a associado ao valor efetivamente
observado da estatstica do teste.
Denicao 6.3.1. Consideramos como nvel descritivo, que denotamos por ,
como o menor nvel de signic ancia para o qual a hip otese nula H
0
seria
rejeitada.
Notemos que, se > , rejeitamos H
0
e, se < , nao rejeitamos H
0
, onde
e o nvel de signicancia adotado.
Exemplo 6.3.6. Consideremos novamente o Exemplo 6.3.3 e suponhamos que
para uma amostra de n = 9 observa coes, x = 0, 68. Portanto
= P
H0
[X 0, 68] = P[Z 2, 04] = 0, 02,
onde Z N(0, 1). Nesse caso, tomando = 0, 05, rejeitamos H
0
: = 0.
6.4 Testes Uniformemente Mais Poderosos
Na se c ao anterior consideramos testes otimos (M.P.) para testar hipoteses nu-
las simples contra alternativas simples. Nesta se cao generalizamos os resultados
da Se c ao 6.3 para o caso de hip oteses mais complexas. A Se cao 6.4.1 apresenta
testes otimos para o caso em que temos hip otese nula simples e alternativas com-
postas. Na Se c ao 6.4.2, discutimos brevemente o caso em que as duas hipoteses
sao compostas.
6.4.1 Hipotese nula simples contra alternativa composta
Consideremos que as hip oteses de interesse s ao H
0
: =
0
contra H
1
:
1
.
Denicao 6.4.1. Um teste A
1
e dito ser uniformemente mais poderoso
(U.M.P.) para testar H
0
: =
0
contra H
1
:
1
, se ele e M.P. de
nvel para testar H
0
: =
0
contra H
1
: =
1
, qualquer que seja
1

1
.
De acordo com a Deni c ao 6.4.1, a regi ao crtica A
1
n ao pode depender
particularmente de
1
, para qualquer
1

1
.
6.4 Testes Uniformemente Mais Poderosos 101
1
, . . . , X
n
distribui c ao N(, 1). Consideremos as hip oteses H
0
: = 0 contra H
1
: > 0.
Neste caso,
1
= {; > 0}. Para testar H
0
: = 0 contra H
1
: =
1
> 0,
temos do Exemplo 6.3.3 que o teste M.P. tem regi ao crtica dada por A
1
=
{x;
n
i=1
x
i
c}. Como A
1
n ao depende do particular
1
especicado acima,
segue da Denicao 6.4.1 que A
1
e a regiao crtica do teste U.M.P. para testar
H
0
: = 0 contra H
1
: > 0.
1
, . . . , X
n
distribui c ao Bernoulli(). Consideremos as hip oteses H
0
: = 0, 5 contra
H
1
: < 0, 5. Para testar H
0
: = 0, 5 contra H
1
: =
1
< 0, 5, temos que o
teste M.P. tem regi ao crtica dada por A
1
= {x,
n
i=1
x
i
c}. Como A
1
n ao
depende do particular valor de
1
especicado em H
1
, temos que A
1
e a regiao
crtica do teste U.M.P. para testar H
0
: = 0, 5 contra H
1
: < 0, 5.
1
, . . . , X
n
X N(, 1). Consideremos as hip oteses H
0
: = 0 contra H
1
: = 0.
Para testar H
0
: = 0 contra H
1
: = 1, o teste M.P. e dado por A
1
=
{x,
n
i=1
x
i
c}. Por outro lado, para testar H
0
: = 0 contra H
1
: = 1,
o teste M.P. tem regiao crtica dada por A
1
= {x;
n
i=1
x
i
c}. Portanto a
regi ao crtica do teste M.P. depende do particular valor de
1
escolhido para
H
1
, ou seja, a regiao crtica nao e unica. Portanto nao existe teste U.M.P. para
testar H
0
: = 0 contra H
1
: = 0.
Denicao 6.4.2. A funcao de poder () com regi ao crtica A
1
para testar
H
0
: =
0
contra H
1
:
1
e dada por
() = P
[X A
1
],
ou seja, e a probabilidade de rejeitar H
0
para . Notemos que (
0
) = .
1
, . . . , X
n
, uma amostra aleat oria de tamanho n da
distribui c ao N(, 1). Consideremos o problema de testar H
0
: = 0 contra
H
1
: > 0. Conforme visto no Exemplo 6.4.1, a regi ao crtica do teste U.M.P.
e dada por A
1
= {x,
n
i=1
x
i
c}. Sendo n = 9 e = 0, 05, temos, como
no Exemplo 6.3.3, que c = 1, 64
9 = 4, 92, de modo que A
1
= {x;
n
i=1
x
i

4, 92}. A fun cao de poder e, entao, dada por
(6.4.1) () = P
_
9
i=1
X
i
4, 92
_
= 1
_
4, 92 9
3
_
,
onde (.) denota a funcao de distribuicao acumulada da distribui cao N(0, 1).
Entao,
(0, 3) = 1 (0, 74) = 1 0, 77 = 0, 23.
De modo similar, (0, 5) = 1 (0, 14) = 0, 44 e (1, 0) = 0, 91 e (0, 0) =
0, 05 = . Gracamente, temos a Figura 6.1 que representa a fun c ao poder do
teste.
Figura 6.1. Fun cao poder dada em (6.4.1)
0 0.5 1
0.05
0.5
1

%()
6.4.2 Hipoteses compostas
Nesta se c ao consideramos brevemente testes U.M.P. para situa coes onde as
hip oteses nula e alternativa s ao compostas. Mais especicamente, consideramos
o problema de se testar as hip oteses H
0
:
0
contra H
1
:
1
. O
resultado apresentado a seguir estabelece condi c oes para que se tenha o teste
U.M.P. para testar as hip oteses compostas acima. A demonstra c ao pode ser
vista em De Groot (1975).
Teorema 6.4.1. No caso em que X
1
, . . . , X
n
seguem uma distribui c ao da
famlia exponencial (Se c ao 2.4), temos que o teste U.M.P. para testar H
0
:
=
0
contra H
1
: >
0
e tambem U.M.P. para testar H
0
:
0
contra
H
1
: >
0
. Tambem o teste U.M.P. para testar H
0
: =
0
contra H
1
: <
0
e U.M.P. para testar H
0
:
0
contra H
1
: <
0
.
1
, . . . , X
n
variavel aleatoria X N(, 1). De acordo com o Teorema 6.4.1, temos do
Exemplo 6.4.1 que o teste U.M.P. para testar H
0
: 0 contra H
1
: > 0
tem regi ao crtica dada por A
1
= {x;
n
=1
x
i
c} .
1
, . . . , X
n
X Bernoulli(). De acordo com o Teorema 6.4.1 e Exemplo 6.4.2, segue que
6.5 Testes da Raz ao de Verossimilhan cas Generalizada 103
o teste U.M.P. para testar H
0
: 0, 5 contra H
1
: < 0, 5 e dada por
A
1
= {x,
n
i=1
x
i
c}.
A fun cao de poder do teste U.M.P., nesta situa cao mais geral, e tambem
como na Deni cao 6.4.2, ou seja, () = P
[X A
1
], .
6.5 Testes da Razao de Verossimilhan cas Generalizada
Na Se c ao 6.4 vimos que os testes UMP existem apenas em situa c oes especiais.
Essas situacoes compreendem o caso das famlias exponenciais unidimensionais.
Vimos tambem que, em geral, n ao existem testes UMP para testar H
0
: =
0
versus H
1
: =
0
. Tambem nao existe teste UMP na maioria dos casos em que
a distribuicao envolve mais de um parametro desconhecido como, por exemplo,
a N(,
2
) com e
2
desconhecidos. Um procedimento que produz testes
razo aveis e que pode ser utilizado em muitos casos, sem muita diculdade, e o
Teste da Razao de Verossimilhan cas Generalizada (TRVG).
Consideremos uma situa c ao bastante geral onde as hip oteses de interesse
sao
H
0
:
0
versus H
1
:
1
onde =
0

1
,
0

1
= ,
0
= e
1
= .
O TRVG pode ser denido como o teste com regi ao crtica dada por (ver
Bickel e Doksum(1976))
A
1
=
_
x;
sup
1
L(; x)
sup
0
L(; x)
c
_
.
Podemos notar que, quando as hip oteses s ao simples, ou seja,
0
= {
0
} e
1
= {
1
}, o TRVG coincide com o LNP dado em (6.3.2).
Como
sup
L(; x)
sup
0
L(; x)
= max
_
1,
sup
1
L(; x)
sup
0
L(; x)
_
,
por facilidades computacionais o TRVG pode tambem ser denido como
(6.5.1) A
1
=
_
x; (x) =
sup
0
L(; x)
sup
L(; x)
c
_
.
Observemos que 0 (x) 1, pois o numerador e o supremo com rela c ao a
pertencente a um subconjunto de (
0
), enquanto que o denominador e
o supremo sobre todo conjunto . Se a hip otese H
0
for verdadeira, esperamos
que (x) esteja pr oximo de 1, e se a hip otese H
0
for falsa, esperamos que o
denominador seja grande em rela c ao ao numerador, e, portanto, (x) deve ser
pr oximo de zero.
Para determinar c em (6.5.1) temos que resolver a equa cao
= sup
0
P((X) c).
Para isso, precisamos da distribui c ao da estatstica (X) que, em geral, n ao e
simples de ser obtida, ou, entao, podemos encontrar uma fun c ao h estritamente
crescente no domnio de (x) tal que h((X)) tenha uma forma simples e uma
distribui c ao conhecida e tabelada sob a hip otese H
0
.
Para implementa c ao do TRVG, os seguintes passos devem ser seguidos:
1) obter o estimador de m axima verossimilhan ca (EMV )

de ;
2) obter o EMV

0
de , quando
0
;
3) calcular (X) =
L(
0;X)
L(
;X)
;
4) encontrar a fun c ao h;
5) obter c, resolvendo a equa c ao = P
H0
(h((X)) c).
A seguir apresentamos alguns exemplos.
Exemplo 6.5.1. Consideremos o Exemplo 6.3.3 novamente, mas agora o in-
teresse e testar H
0
: =
0
versus H
1
: =
0
. Conforme vimos no Exemplo
6.4.3 n ao existe teste UMP nesse caso. Pelo Exemplo 3.1.1, temos que o EMV
de e dado por = X. Como a hipotese H
0
so especica um unico valor para
, o numerador de (x) em (6.5.1) e L(
0
; x) de modo que
(x) =
(2)
n/2
e
1
2
(xi0)
2
(2)
n/2
e
1
2
(xix)
2
= e
1
2
[
(xi0)
2
(xix)
2
]
.
Podemos simplicar (x) usando o fato de que
(6.5.2)
(x
i
0
)
2
=
(x
i
x)
2
+n(x
0
)
2
.
De (6.5.1) temos que o TRVG rejeita H
0
quando
e
n
2
(0x)
2
c,
0
quando
|x
0
|
_
2logc/n.
Portanto a regi ao crtica do TRVG e dada por
A
1
= {x;
n|x
0
| a}.
Fixado , obtemos a de forma que
= P
H0
(
n|X
0
| a)
Como sob H
0
,

n(X
0
) N(0, 1), temos que a = z
/2
. Sendo = 0, 05
temos que A
1
= {x;
n|x
0
| 1, 96}. Considerando
0
= 0, n = 9,
n
i=1
x
i
= 3, 4, n ao rejeitamos H
0
pois
9|3, 4/9 0| < 1, 96. Nesse caso,

a fun cao de poder do teste e
() = P
n|X| 1, 96) = 1P(1, 96
n(X) 1, 96
n)
= 1 [(1, 96
n) (1, 96
n)],
pois temos que

n(X ) N(0, 1) quando e o verdadeiro valor do
par ametro. A Figura 6.2 apresenta o gr aco dessa fun c ao poder para os da-
dos acima. Notemos que (0) = 1 P(1, 96 Z 1, 96) = 0, 05, onde
Z N(0, 1). De maneira similar, (0, 3) = (0, 3) = 0, 15, e assim por di-
ante.
Figura 6.2. Fun cao poder

-1 -0.5 0 0.5 1
0.5
1
%()
Exemplo 6.5.2. SejamX

1
, . . . , X
n
X N(,
2
) com e
2
desconhecidos. O interesse e testar H
0
: =
0
versus
H
1
: =
0
. Nesse caso,
0
= {(
0
,
2
);
2
> 0} e = {(,
2
), < < ,
2
> 0}
De acordo com o Exemplo 3.4.1, o EMV de (,
2
) em e dado por = X
e
2
=
(X
i
X)
2
/n e em
0
e dado por
0
=
0
e
2
0
=
(X
i

0
)
2
/n.
Logo a estatstica do TRVG e dada por
(x) =
(2)
n/2
(
2
0
)
n/2
e
1
2
2
0
(xi0)
2
(2)
n/2
(
2
)
n/2
e
1
2
2
(xix)
2
=
_

2

2
0
_
n/2
.
Usando (6.5.2), temos que o TRVG rejeita H
0
quando
_
_
1
1 +
n(x0)
2
(xix)
2
_
_
n/2
c
0
quando
n|x
0
|
_
(xix)
2
n1
_
(c
2/n
1)(n 1)
A
1
=
_
x;
n|x
0
|
s
a
_
onde s
2
=
(xix)
2
n1
. Sob a hipotese H
0
,
n(X0)
S
t
n1
e, entao, dado
= 0, 05 e n = 9 obtemos, usando a tabela da distribui cao t com 8 graus de
liberdade, a = 2, 306. Se
0
= 0, x = 0, 68 e s = 1, 2, ent ao
n(x0)
s
= 1, 7 de
modo que n ao rejeitamos H
0
.
Exemplo 6.5.3. Consideremos novamente o Exemplo 6.5.2, mas sendo que o
interesse e testar H
0
:
2
=
2
0
versus H
1
:
2
=
2
0
. Nesse caso,
0
= {(,
2
); < < ,
2
=
2
0
}
e
= {(,
2
), < < ,
2
> 0}
Pelo Exemplo 3.4.1., o EMV de (,
2
) em e dado por = X e
2
=
(X
i
X)
2
/n, enquanto que em
0
e dado por
0
= X e
2
0
=
2
0
. Logo, a
estatstica do TRVG e dada por
(x) =
(2)
n/2
(
2
0
)
n/2
e
1
2
2
0
(xix)
2
(2)
n/2
(
2
)
n/2
e
1
2
2
(xix)
2
=
_

2
2
0
_
n/2
e
1
2
2
0
(xix)
2
+n/2
.
Entao, temos que o TRVG rejeita H
0
quando
_
(x
i
x)
2
2
0
_
n/2
e
(x
i
x)
2
2
2
0
c.
Notemos que se g(y) = y
n/2
e
y/2
, y > 0 entao a fun cao log g(y) (e tambem
g(y)) e crescente para y < n, atingindo o ponto de maximo em y = n e e
decrescente para y > n, logo g(y) c se e somente se y c
1
ou y c
2
com
g(c
1
) = g(c
2
). Portanto o TRVG e equivalente a rejeitar H
0
quando
(x
i
x)
2
2
0
c
1
ou
(x
i
x)
2
2
0
c
2
.
Sob a hip otese H
0
,
(XiX)
2
2
0

2
n1
e, entao, dado = 0, 05 e n = 9 obtemos,
usando a tabela da distribui c ao quiquadrado com 8 graus de liberdade, c
1
=
2, 180 e c
2
= 17, 534 se considerarmos, como na Se c ao 5.2, probabilidades iguais
para as duas caudas.
1
, . . . , X
n
uma amostra aleat oria da vari aval aleat oria
X com fun cao densidade de probabilidade dada por
f(x|) =
_
e
(x)
, x
0, x <
onde < < . A fun c ao de verossimilhan ca pode ser escrita como
L(; x) =
_
e
xi+n
, x
(1)
0, > x
(1)
.
Suponhamos que o interesse seja testar H
0
:
0
versus H
1
: >
0
onde
0
e um valor especicado. Podemos vericar que L(; x) e uma fun c ao crescente
em no intervalo < x
(1)
. Logo, em , o EMV de e

= X
(1)
e em
0
e dado por

=
0
se x
(1)
>
0
e

= x
(1)
se x
(1)

0
. Portanto a estatstica
do TRVG e dada por
(x) =
_
1, x
(1)

0
e
n(x
(1)
0)
, x
(1)
>
0
.
Portanto a regi ao crtica do TRVG pode ser escrita como
A
1
=
_
x, x
(1)

0
log c
n
_
.
Como mencionado anteriormente, a forma e a distribui c ao de (X) po-
dem ser complicadas e nem sempre podemos encontrar uma fun cao h com
distribui c ao conhecida. O Teorema a seguir fornece a distribui c ao assint otica
da estatstica do TRVG, resolvendo esse problema pelo menos para o caso de
amostras grandes. A prova desse resultado envolve conhecimentos avan cados
de probabilidade e pode ser encontrada em Sen e Singer (1993).
1
, . . . , X
n
X com f.d.p. f(x|). Sob as condicoes de regularidade, se
0
, entao a
distribui c ao da estatstica 2log(X) converge para a distribui c ao quiquadrado
quando o tamanho da amostra n tende ao innito. O n umero de graus de
liberdade da distribuic ao limite e a diferenca entre o n umero de par ametros
n ao especicados em e o n umero de parametros nao especicados em
0
.
1
, . . . , X
n
X Poisson(). O interesse e testar H
0
: = 5 versus H
1
: = 5. Pelo
Exemplo 3.2.5 temos que o EMV de e dado por

= X. Como a hipotese H
0
so especica um unico valor para , o numerador de (x) em 6.5.1 e L(5, x) de
modo que
(x) =
e
5n
5
xi
x
i
!
x
i
!
e
nx
x
xi
= e
n(5x)
(5/x)
xi
Pelo Teorema 6.5.1 temos que
2log(x) = 2
_
n(5 x) +
x
i
log(5/x)
_
.
A
1
= {2[n(5 x) +
x
i
log5/x] c}
onde um valor aproximado para c e obtido de modo que P(
2
1
c) = 0, 05, que
requer a utiliza c ao da tabela da distribui c ao quiquadrado.
A seguir apresentamos alguns exemplos onde o interesse e a compara c ao de
duas popula c oes.
1
, . . . , X
n
X N(
X
,
2
) e Y
1
, . . . , Y
m
uma amostra aleat oria da vari avel aleat oria Y
N(
Y
,
2
). Suponhamos que as amostras s ao independentes e que o interesse e
testar H
0
:
X
=
Y
versus H
1
:
X
=
Y
. Nesse caso
0
= {(
X
,
Y
,
2
);
X
=
Y
= , < < ,
2
> 0}
e
= {(
X
,
Y
,
2
), <
X
< , <
Y
< ,
2
> 0}
Em os EMV s sao dados por

X
= X ,
Y
= Y
e

2
=
(X
i
X)
2
+
(Y
i
Y )
2
n +m
,
enquanto que em
0
sao dados por

0
=
X
i
+
Y
i
n +m
e
2
0
=
(X
i

0
)
2
+
(y
i

0
)
2
n +m
.
Logo a estatstica do TRVG pode ser escrita como
(x, y) =
(2)
(n+m)/2
(
2
0
)
(n+m)/2
e
1
2
2
0
{
(xi 0)
2
+
(yi
2
0
)}
(2)
(n+m)/2
(
2
)
(n+m)/2
e
1
2
2
{
(xix)
2
+
(yiy)
2
}
=
_

2

2
0
_
(n+m)/2
.
Usando (6.5.1), temos que o TRVG rejeita H
0
quando
_
_
1
1 +
n(x 0)
2
+m(y 0)
2
(xix)
2
+
(yiy)
2
_
_
(n+m)/2
c
0
quando
n(x
0
)
2
+m(y
0
)
2
s
2
p
c
1
onde s
2
p
=
(xix)
2
+
(yiy)
2
n+m2
. Mas
x
0
=
m
n +m
(x y)
y
0
=
n
n +m
(y x),
portanto a regi ao crtica do TRVG e dada por
A
1
=
_
_
_
(x, y);
x y
s
p
_
(
1
n
+
1
m
)
c
1
ou
x y
s
p
_
(
1
n
+
1
m
)
c
2
_
_
_
Sob a hip otese H
0
,
XY
Sp
1
n
+
1
m
t
n+m2
. Os valores de c
1
e c
2
sao obtidos
utilizando a tabela da distribui c ao t com n +m2 graus de liberdade.
1
, . . . , X
n
X N(
X
,
2
X
) e Y
1
, . . . , Y
m
N(
Y
,
2
Y
). Suponhamos que as amostras s ao independentes e que o interesse
e testar H
0
:
2
X
=
2
Y
versus H
1
:
2
X
=
2
Y
. Nesse caso
0
= {(
X
,
Y
,
2
); <
X
,
Y
< ,
2
> 0}
e
= {(
X
,
Y
,
2
X
,
2
Y
), <
X
,
Y
< ,
2
X
> 0,
2
Y
> 0}
Em os EMV s dos par ametros s ao dados por

X
= X ,
Y
= Y
e

2
X
=
(X
i
X)
2
n
,
2
Y
=
(Y
i
Y )
2
m
enquanto que em
0
sao dados por

X
= X,
Y
= Y ,
2
=
(X
i
X)
2
+
(y
i
Y )
2
n +m
.
Logo a estatstica do TRVG e
(x, y) =
(2)
(n+m)/2
(
2
)
(n+m)/2
e
1
2
2
{
(xix)
2
+
(yiy
2
}
(2
2
X
)
n/2
e
1
2
2
X
(xix)
2
(2
2
Y
)
m/2
e
1
2
2
Y
(yiy)
2
=
(
2
X
)
n/2
(
2
Y
)
m/2
(
2
)
(n+m)/2
,
de modo que rejeitamos H
0
quando
g(F) =
(
m1
n1
F)
m/2
(1 +
m1
n1
F)
n+m/2
c
onde F =
(yiy)
2
/(m1)
(xix)
2
/(n1)
. Mas g(F) c se e somente se F c
1
ou F c
2
,
portanto a regi ao crtica do TRVG e dada por
A
1
= {(x, y); F c
1
ou F c
2
}
Sob a hip otese H
0
, F F
m1,n1
e, entao, dado = 0, 10, m = 9 e n = 8,
obtemos usando a tabela da distribui c ao F com 8 e 7 graus de liberdade que
c
1
= 0, 27 e c
2
= 3, 5.
1
, . . . , X
n
X Bernoulli(
1
) e Y
1
, . . . , Y
m
Y Bernoulli(
2
). Suponhamos que as amostras s ao independentes e que o
interesse e testar H
0
:
1
=
2
versus H
1
:
1
=
2
. Nesse caso
0
= {(
1
,
2
);
1
=
2
= , 0 < < 1}
e
= {(
1
,
2
); 0 <
1
< 1, 0 <
2
< 1}
Em os EMV s sao dados por
1
= X e

2
= Y ,
enquanto que em
0
e dado por
x
i
+
y
i
n +m
.
Logo
(x, y) =
xi+
yi)
(1
)
(n+m
xi
yi)
xi
1
(1
1
)
n
xi
y2
2
(1
2
)
m
yi
Como n ao conseguimos explicitar a regi ao crtica atraves de uma estatstica
com distribui cao conhecida, entao pelo Teorema 6.5.1, temos que
2 log (x, y) = 2
_
_
x
i
+
y
i
_
log

+
_
m+n
x
i
y
i
_
log(1
x
i
log
_
n
x
i
_
log(1
1
)
y
i
log

_
m
y
i
_
log(1
2
)
_
tem distribui c ao aproximadamente
2
1
. Logo, quando 2 log (x, y) c rejeita-
mos H
0
. Suponhamos que n = 400,
x
i
= 60, m = 225,
y
i
= 40. Assim,
= 100/625 de modo que 2log(x, y) = 0, 82. Tomando = 0, 05, temos que

c = 3, 841, portanto n ao rejeitamos H
0
.
Exemplo 6.5.9. Consideramos neste exemplo uma extens ao do modelo bino-
mial considerado no exemplo anterior. Suponhamos que os indivduos em uma
popula c ao podem ser de tres tipos, que rotulamos por tipos 1, 2 e 3. No caso
de preferencia eleitoral, por exemplo, um indivduo e do tipo 1 se ele for eleitor
do partido A; do tipo 2 se for eleitor do partido B e do tipo 3 se for eleitor
de um outro partido, que n ao o A e ou o B. Suponhamos que a propor c ao de
indviduos do tipo i seja
i
, i = 1, 2, 3, de modo que
1
+
2
+
3
= 1. Para uma
amostra de n indivduos observados na popula cao suponhamos que n
i
seja do
tipo i, i = 1, 2, 3, de modo que n
1
+n
2
+n
3
= n. A fun c ao de verossimilhan ca
pode ent ao ser escrita como
(6.5.4) L(, x) =
n1
1

n2
2
(1
1
2
)
nn1n2
,
onde x = (x
1
, . . . , x
n
), com x
i
representando o r otulo (1, 2 ou 3) do i-esimo
indivduo observado na amostra. Portanto, como no Exemplo 3.5.1, n
1
, n
2
e n
3
representam o n umero de elementos de {x
1
, . . . , x
n
} iguais a 1, 2 ou 3, respec-
tivamente. Derivando-se o logaritmo da verossimilhan ca (6.5.4) com rela c ao a
1
e a
2
, temos os estimadores de m axima verossimilhan ca
(6.5.5)

1
=
n
1
n
e

2
=
n
2
n
,
de modo que o estimador de m axima verossimilhan ca de
3
e dado por
3
= n
3
/n (veja o Exerccio 6.13). A extens ao para o caso geral (caso multino-
mial, com k tipos diferentes de indivduos) pode ser feita de maneira similar.
Suponhamos agora que queremos testar a hip otese de que os indivduos na po-
pula c ao seguem o equilbrio de Hardy-Weinberg, isto e, que H
0
:
1
= p(1; ) =
2
,
2
= p(2; ) = 2(1 ),
3
= p(3; ) = (1 )
2
, para 0 < < 1. Sob o
modelo geral, ou seja, em = {(
1
,
2
,
3
);
i
> 0,
1
+
2
+
3
= 1} os es-
timadores de m axima verissimilhan ca de = (
1
,
2
,
3
) sao como dados em
(6.5.5). Sob a hip otese H
0
, ou seja em
0
(escreva!), temos que o estimador de
m axima verossimilhan ca de e obtido no Exemplo 3.5.1, ou seja, e dado por
= (2n
1
+ n
2
)/2n. Temos, portanto, que a raz ao de verossimilhan cas genera-
lizada e dada por
(x) =
(
2n1+n2
2n
)
2n1
(2
(2n1+n2)
2n
(1
2n1+n2
2n
))
n2
(1
2n1+n2
2n
)
2n3
(
n1
n
)
n1
(
n2
n
)
n2
(
n3
n
)
n3
,
de modo que
2 log (x) = 2
_
(2n
1
+n
2
) log
_
2n
1
+n
2
2n
_
n
1
log n
1
n
2
log n
2
(6.5.6) +(n
2
+ 2n
3
) log
_
1
2n
1
+n
2
2n
_
n
3
log n
3
+nlog n +n
2
log 2
_
,
que tem, aproximadamente, distribui cao
2
1
.
Uma estatstica assintoticamente (em grandes amostras) equivalente (veja
Bickel e Doksun, 1977) à estatstica da razao de verossimilhan cas generalizada,
calculada acima, e dada pela estatstica quiquadrado de Pearson, que no caso
do modelo do equilbrio de Hardy-Weinberg, e dada por
(6.5.7) Q =
3
i=1
(n
i
np(i;

))
2
np(i;

)
=
(n
1
n
2
)
2
n
2
+
(n
2
n2
(1
))
2
n2
(1
)
+
(n
3
n(1
)
2
)
2
n(1
)
2
,
que, para n grande, tem a mesma distribui c ao que 2 log (x), ou seja,
2
1
.
Notemos que a estatstica Q dada em (6.5.7) e, em geral, interpretada como
a soma do quadrado da diferen ca entre o n umero observado (dado por n
i
) e
o n umero esperado (sob H
0
) de indivduos do tipo i na amostra, que e dado
por ng
i
(
), dividido pelo n umero esperado (sob H

0
) de indivduos do tipo i na
amostra, para todos os tipos de indivduos na popula c ao. No caso do equilbrio
de Hardy-Weinberg, temos que p(1; ) =
2
, p(2; ) = 2(1 ) e p(3; ) =
(1 )
2
. A estatstica Q pode tambem ser generalizada para situa c oes mais
complexas que aquela considerada acima. Entre outras, citamos sua utiliza c ao
em testes de independencia em tabelas de contigencia, discutido em textos
b asicos de estatstica como, por exemplo, em Bussab e Morettin (1987).
Vamos discutir brevemente as rela c oes entre testes de hipoteses e intervalos
de conan ca. Consideremos o Exemplo 6.5.1 novamente. Nesse exemplo temos
que, para um nvel xado, a hip otese H
0
e aceita se |x
0
| z
/2
/
n, ou
equivalentemente, se
x
z
/2
n

0
x +
z
/2
n
.
Como o teste tem nvel , a P(H
0
ser aceita| =
0
) = 1, entao podemos
escrever que
P
_
X
z
/2
n

0
X +
z
/2
n
| =
0
_
= 1 .
No entanto essa probabilidade deve valer para todo
0
, de modo que
P
_
X
z
/2
n
X +
z
/2
n
_
= 1 .
Portanto o intervalo
_
x
z
/2
n
; x +
z
/2
n
_
obtido a partir da regi ao de aceita c ao
do teste de nvel , e um intervalo de 100(1)% de conan ca para e coincide
com o intervalo (5.3.2).
Por outro lado, a partir do intervalo de conan ca, podemos construir um
teste bilateral (H
0
: =
0
versus H
1
: =
0
) onde
rejeitamos H
0
se
0
I.C.
aceitamos H
0
se
0
I.C.
Esse teste tem nvel , pois
P(H
0
ser rejeitada| =
0
) = P
0
(
0
I.C) = .
Conclumos, ent ao, que podemos obter um intervalo de conan ca a partir de
um teste de hip otese e vice e versa.
6.6 Testes Bayesianos
O problema de testes de hip oteses tambem pode ser formulado do ponto de
vista Bayesiano. Nesse caso, o teste sera baseado na distribui c ao a posteriori.
Como vimos na se c ao anterior existe uma rela c ao entre testes de hipoteses e
intervalos de conan ca, entao uma maneira de se construir um teste Bayesiano
e atraves da obtencao de um intervalo de conanca Bayesiano.
Suponhamos que o interesse seja testar H
0
: =
0
versus H
1
: =
0
.
Para isso, construmos o intervalo Bayesiano para e, se
0
estiver contido no
intervalo, entao aceitamos H
0
e, se
0
estiver fora do intervalo, entao rejeitamos
H
0
.
1
, . . . , X
n
X N(, 1), e consideremos uma priori N(0, 1). O interesse e testar H
0
: = 0
versus H
1
: = 0. Do Exemplo 4.4.3 temos que a distribui cao a posteriori de
e N
_
nx
n+1
,
1
n+1
_
, ou seja,

nx
n+1
_
1
n+1
N(0, 1).
Logo
P
_
_
z
/2

nx
n+1
_
1
n+1
z
/2
_
_
=
de modo que o intervalo Bayesiano (intervalo de credibilidade) com probabili-
dade e dado por
_
nx
n + 1
z
/2
_
1
n + 1
,
nx
n + 1
+z
/2
_
1
n + 1
_
.
Suponhamos que n = 8,
8
i=1
x
i
= 0, 57 e = 0, 05. Logo o intervalo de
conan ca Bayesiano e [-0,59;0,72]. Como o zero esta contido no intervalo, nao
rejeitamos a hip otese H
0
, ao nvel de = 5%.
6.7 Exerccios 115
6.7 Exerccios
6.1. Seja X uma vari avel aleat oria com fun c ao de densidade f(x|) =
2
xe
x
,
x > 0, > 0. Queremos testar H
0
: = 1 versus H
1
: = 2.
i) Qual e a regiao crtica se n = 5 e = 0, 05?
ii) Se n = 1, qual e o teste que minimiza +? E qual o valor de +?
6.2. Sejam X
1
, . . . , X
n
N(, 1). Queremos testar H
0
: = 0 versus H
1
: = 1. Encontre n que
produz o teste mais poderoso com = = 0, 05.
6.3. Sejam X
1
, . . . , X
n
fun c ao de densidade dada por
f(x|) = x
1
, 0 < x < 1 , > 0.
i) Mostre que o teste mais poderoso para testar H
0
: = 1 versus H
1
: = 2,
rejeita H
0
, se e somente se,
n
i=1
logx
i
a, onde a e uma constante.
ii) Sendo n = 2 e = (1 log2)/2, qual a regi ao crtica?
6.4. Seja X uma unica observa c ao da fun c ao de densidade
f(x|) = (2x + 1 )I
(0,1)
(x)
Queremos testar H
0
: = 0 versus H
1
: = 1.
i) Obtenha o teste mais poderoso com nvel de signicancia .
ii) Se = 0, 05 e x = 0, 8, qual a sua conclus ao?
6.5. Sejam X
1
, . . . , X
n
Poisson().
i) Encontre o teste UMP para testar H
0
: =
0
versus H
1
: >
0
.
ii) Seja = 0, 05, fa ca o gr aco da fun c ao poder para
0
= 1 e n = 25 (use o
Teorema do limite central).
6.6. Sejam X
1
, . . . , X
n
N(
X
, 1) e sejam Y
1
, . . . , Y
m
Y N(
Y
, 4) sendo as amostras independentes.
i) Determine o teste mais poderoso para testar
H
0
:
X
=
Y
= 0 versus H
1
:
X
=
Y
= 1
ii) Sendo n = 9,
x
i
= 3, 95; m = 4;
y
i
= 2, 03. Qual a sua conclus ao ao
nvel de signicancia de 5%? E qual o poder do teste?
6.7. Sejam X
1
, . . . , X
n
f.d.p. dada por
f(x|) =
1
x
(1)/
, 0 < x < 1, > 0.
Queremos testar H
0
:
0
versus H
1
: >
0
.
i) Encontre o teste UMP de nvel (se existir).
ii) Se n = 2,
0
= 1 e = 0, 05, encontre a regi ao crtica.
6.8. Sejam X
1
, . . . , X
n
N(0,
2
).
i) Encontre o teste UMP para testar H
0
:
2
=
2
0
versus H
1
:
2
>
2
0
.
ii) Seja = 0, 05, n = 9 e
2
0
= 9, fa ca o graco da fun cao poder.
6.9. SejamX
1
, . . . , X
n
uma amostra aleat oria da vari avel aleat oria X exp().
i) Encontre o teste da razao de verossimilhan cas generalizada para testar
H
0
: = 1 versus H
1
: = 1.
ii) Se voce observar n = 5; x
1
= 0, 8; x
2
= 1, 3; x
3
= 1, 8; x
4
= 0, 9 e x
5
= 1, 0,
qual a sua decisao ao nvel de 5%?
6.10. Sejam X
1
, . . . , X
n
N(
X
, 9) e seja Y
1
, . . . , Y
m
N(
Y
, 25), sendo as amostras independentes.
i) Determine o teste da RVG para testar
H
0
:
X
=
Y
versus H
1
:
X
=
Y
ii) Sendo n = 9,
x
i
= 3, 4, m = 16,
y
i
= 4, 3. Qual a sua conclus ao a um
nvel de signicancia de 5%?
6.11. Sejam X
1
, . . . , X
n
Poisson(
1
) e sejam Y
1
, . . . , Y
m
Y Poisson(
2
) sendo as amostras independentes.
i) Encontre o teste da RVG(aproximado) para testar H
0
:
1
=
2
versus H
1
:
1
=
2
.
ii) Sendo n = 5,
x
i
= 3, 8; m = 8;
y
i
= 4, 8, qual a sua conclus ao a um
nvel de signicancia de 5%?
6.12. Sejam X
1
, . . . , X
n
exp(
1
) e sejam Y
1
, . . . , Y
n
exp(
2
), sendo as amostras independentes.
i) Determine o teste mais poderoso para testar
H
0
:
1
=
2
= 1 versus H
1
:
1
=
2
= 2.
ii) Verique se seu teste e UMP para testar
6.7 Exerccios 117
H
0
:
1
=
2
= 1 versus H
1
:
1
=
2
> 1.
iii) Se voce observar n = 5, x = 1, 1; y = 0, 8, qual a sua decis ao ao nvel de
5%?
iv) Determine o teste da RVG para testar H
0
:
1
=
2
versus H
1
:
1
=
2
.
v) Mostre que o teste acima e equivalente a um teste F exato.
6.13. Discuta a obten c ao dos estimadores de m axima verossimilhan ca dados
em (6.5.5). Suponha que em uma popula cao com tres tipos de indivduos, temos
para uma amostra de n = 100 indivduos, n
1
= 26 do tipo 1, n
2
= 47 do tipo
2 e n
3
= 27 do tipo 3. Verique ao nvel de 5% se a distribui cao dos tipos de
indivduos na popula cao segue o equilbrio de Hardy-Weinberg.
6.14. Discuta a implementa c ao de um procedimento (teste) para vericar se
um dado e equilibrado, ou seja, para testar H
0
:
1
= . . . =
6
sendo que n
lan camentos do dado apresenta n
i
ocorrencia da face i, i = 1, . . . , 6. Sendo
n = 120, n
1
= 23, n
2
= 18, n
3
= 15, n
4
= 21, n
5
= 27 e n
6
= 16, qual sua
decis ao ao nvel de 5%?
6.15. Um modelo genetico para a distribui c ao dos tipos de sangue 1, 2, 3 e 4,
especica as propor coes
1
= p(1; ) = (2 + )/4,
2
= p(2; ) = (1 )/4 =
3
= p(3; ) e
4
= p(4; ) = /4. Uma amostra de n = 100 indivduos da
popula c ao apresenta n
1
= 65, n
2
= 6, n
3
= 8 e n
4
= 21. Verique se os dados
obtidos suportam o modelo genetico acima para a distribui cao dos tipos de
sangue na populacao de onde foi selecionada a amostra.
6.16. Desenvolva o teste da raz ao de verossimilhan cas generalizada para testar
H
0
: =
0
versus H
1
: =
0
no modelo de regress ao descrito no Exerccio
2.12.
6.17. O teste t pareado. Sejam (X
1
, Y
1
), . . . , (X
n
, Y
n
) uma amostra aleatoria
da vari avel aleat oria bidimensional (X, Y ) com distribuicao normal bivariada
como dada no Exemplo 2.4.4. Mostre que para testar H
0
:
x
=
y
versus
H
1
:
x
=
y
, o teste da razao de verossimilhancas generalizado apresenta
regi ao crtica dada por
A
= {d;
n|d|
S
d
> c},
onde d =
n
i=1
d
i
/n e S
2
d
=
n
i=1
(d
i
d)
2
/(n 1).
Referencias
1. BICKEL, P.J. e DOKSUM, K.A. (1977). Mathematical Statistical. Basic Ideas
and Selected Topics. Holden-Day.
2. BUSSAB, W.O. e MORETTIN, P.A. (1987). Estatstica Basica. Sao Paulo: Atual.
3. DEGROOT, M.H. (1989). Probability and Statistics. New York: Addison-Wesley.
4. FELLER, W. (1976). Probabilidades. Sao Paulo: Edgard Bl ucher.
5. JAMES, B.R. (1981). Probabilidade: Um Curso em Nvel Intermediario. Rio de
Janeiro: Livro Tecnico.
6. LEHMANN, E.L. (1986). Testing Statistical Hypotheses. Wiley: New York.
7. SEN, P.K. e SINGER, J.M. (1993). Large Sample Methods in Statistics. An In-
troduction with Applications. Chapman and Hall.
120 Referencias

LIVRO Bolfarine Sandoval-2

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

LIVRO Bolfarine Sandoval-2

Enviado por

Direitos autorais:

Formatos disponíveis

Heleno Bolfarine

Monica Carneiro Sandoval

ITULO 2. ESTIMADORES EFICIENTES E ESTAT

IPIOS MINIMAX E DE BAYES . . . . . . . . . . . . . . . . . . . 74

ITULO 6. TESTES DE HIP

INDICE REMISSIVO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

) = 0, para todo . Se lim

e dito ser o estimador nao viciado de variancia uniformemente mnima,

) = 1 quando LI() = V ar[

], ou seja, quando a variancia de

coincide com o limite inferior da variancia dos estimadores nao viciados de .

e chamada funcao escore.

do par ametro satisfaz a desigualdade

= t(; x)L(; x),

[X = x]. Suponhamos em primeiro lugar que (2.2.2) esteja veri-

E o caso do modelo N(,

E o caso tambem do modelo Gama(, ), em que e sao desconhecidos e,

, logo S e nao viciado para e

) em serie de Taylor em torno de um ponto

(T(x)) depende de x somente atraves de T. Como h(x) e constante

(T(x)) com rela c ao a . Como g

(T(x)) depende de x somente

; x) < 0). Em geral, para

que produz o estimador

, < x < , < < , > 0.

[X = 0]. Portanto, para = 1/3, temos que

E[c(X ) +(c 1)]

) n ao e necessariamente um estimador de Bayes

(t(x)) depende de x somente por t(x). Podemos, ent ao, escrever a

(X = 0) com rela cao `a perda quadratica..

n N(0, 1). Ent ao, c

n = 1, 64, pois na distribui c ao N(0, 1), o

= 0, 09, onde Z N(0, 1). O poder do

9 = 4, 92, de modo que A

9|3, 4/9 0| < 1, 96. Nesse caso,

n|X| 1, 96) = 1P(1, 96

Exemplo 6.5.2. SejamX

= 100/625 de modo que 2log(x, y) = 0, 82. Tomando = 0, 05, temos que

), dividido pelo n umero esperado (sob H

Você também pode gostar