Escolar Documentos
Profissional Documentos
Cultura Documentos
INFERE NCIA ESTAT ISTICA - Ricardo Ehlers - Usp
INFERE NCIA ESTAT ISTICA - Ricardo Ehlers - Usp
INFERE
RICARDO S. EHLERS
Sum
ario
1 Introdu
c
ao
1.1 Princpios de estimacao . . . . .
1.2 Funcao de Verossimilhanca . . .
1.3 Suficiencia e famlia exponencial
1.3.1 Famlia Exponencial . .
1.4 Problemas . . . . . . . . . . . .
1.5 Teorema Central do Limite . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Estima
c
ao Bayesiana
4.1 Distribuicao a Posteriori . . . . . . . . . . . . . . . .
4.1.1 Observacoes Sequenciais . . . . . . . . . . . .
4.2 Problemas . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Distribuicoes a Priori Conjugadas . . . . . . . . . . .
4.3.1 Amostrando de um Distribuicao de Bernoulli .
4.3.2 Amostrando de uma Distribuicao de Poisson .
4.3.3 Amostrando de uma Distribuicao Exponencial
4.3.4 Amostrando de uma Distribuicao Multinomial
4.3.5 Amostrando de uma Distribuicao Normal . . .
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2
3
8
9
11
12
.
.
.
.
14
18
18
19
21
.
.
.
.
.
.
23
23
31
32
33
36
38
.
.
.
.
.
.
.
.
.
39
40
42
42
43
43
44
45
45
46
SUMARIO
ii
4.4
4.5
4.6
Problemas . . . . . . . . . . .
Estimadores de Bayes . . . . .
4.5.1 Introducao `a Teoria da
4.5.2 Estimadores de Bayes .
Problemas . . . . . . . . . . .
. . . . .
. . . . .
Decisao
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Estima
c
ao por Intervalos
5.1 Procedimento Geral . . . . . . . . . . . . . .
5.2 Estimacao no Modelo Normal . . . . . . . .
5.2.1 O caso de uma amostra . . . . . . .
5.2.2 O caso de duas amostras . . . . . . .
5.2.3 Variancias desiguais . . . . . . . . . .
5.2.4 Comparacao de variancias . . . . . .
5.2.5 Amostras pareadas . . . . . . . . . .
5.2.6 Comentario . . . . . . . . . . . . . .
5.3 Intervalos de confianca para uma proporcao
5.4 Intervalos de Confianca Assintoticos . . . . .
5.4.1 Usando a Funcao Escore . . . . . . .
5.5 Problemas . . . . . . . . . . . . . . . . . . .
5.6 Intervalos Bayesianos . . . . . . . . . . . . .
5.7 Estimacao no Modelo Normal . . . . . . . .
5.7.1 Variancia Conhecida . . . . . . . . .
5.7.2 Media e Variancia desconhecidas . .
5.7.3 O Caso de duas Amostras . . . . . .
5.8 Problemas . . . . . . . . . . . . . . . . . . .
6 Testes de Hip
oteses
6.1 Introducao e notacao . . . . . . . . . . . . .
6.1.1 Tipos de Decisao . . . . . . . . . . .
6.1.2 A Funcao Poder . . . . . . . . . . . .
6.1.3 Problemas . . . . . . . . . . . . . . .
6.2 Testando Hipoteses Simples . . . . . . . . .
6.2.1 Problemas . . . . . . . . . . . . . . .
6.3 Probabilidade de significancia (P -valor) . . .
6.4 Testes Uniformemente mais Poderosos . . .
6.4.1 Problemas . . . . . . . . . . . . . . .
6.5 Testes Bilaterais . . . . . . . . . . . . . . . .
6.5.1 Testes Gerais . . . . . . . . . . . . .
6.6 Testes de Hipoteses no Modelo Normal . . .
6.6.1 Testes para Varias Medias . . . . . .
6.6.2 Variancias Desconhecidas e Desiguais
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
48
50
50
51
54
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
56
57
60
60
62
64
65
66
68
68
69
71
72
75
76
77
79
84
86
.
.
.
.
.
.
.
.
.
.
.
.
.
.
88
88
92
92
95
95
98
98
100
102
104
105
105
107
108
SUMARIO
6.7
6.8
6.9
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7 Correlac
ao e Regress
ao
7.1 Definicoes . . . . . . . . . . . . . . . . . . . . . . .
7.2 Interpretacao do coeficiente de correlacao . . . . . .
7.3 Problemas . . . . . . . . . . . . . . . . . . . . . . .
7.4 Regressao . . . . . . . . . . . . . . . . . . . . . . .
7.4.1 Modelo de regressao linear simples . . . . .
7.4.2 Estimando os parametros do modelo . . . .
7.4.3 Construindo intervalos e testando hipoteses
7.4.4 Transformacoes de dados . . . . . . . . . . .
7.4.5 Representacao Matricial . . . . . . . . . . .
7.4.6 Problemas . . . . . . . . . . . . . . . . . . .
7.5 Regressao Linear M
ultipla . . . . . . . . . . . . . .
7.6 Problemas . . . . . . . . . . . . . . . . . . . . . . .
A Lista de Distribui
c
oes
A.1 Distribuicao Normal . . . . . .
A.2 Distribuicao Gama . . . . . . .
A.3 Distribuicao Gama Inversa . . .
A.4 Distribuicao Beta . . . . . . . .
A.5 Distribuicao de Dirichlet . . . .
A.6 Distribuicao t de Student . . . .
A.7 Distribuicao F de Fisher . . . .
A.8 Distribuicao Binomial . . . . . .
A.9 Distribuicao Multinomial . . . .
A.10 Distribuicao de Poisson . . . . .
A.11 Distribuicao Binomial Negativa
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
109
110
112
113
116
118
.
.
.
.
.
.
.
.
.
.
.
.
119
120
121
125
127
130
131
132
134
135
135
137
143
.
.
.
.
.
.
.
.
.
.
.
145
145
146
146
146
147
147
147
148
148
148
149
B Propriedades de Distribui
c
oes
150
C Soluc
oes de Exerccios Selecionados
152
References
155
Captulo 1
Introduc
ao
Inferencia estatstica e o processo pelo qual podemos tirar conclusoes acerca de
um conjunto maior (a populacao) usando informacao de um conjunto menor (a
amostra). Em Estatstica, o termo populacao nao se refere necessariamente a
pessoas, plantas, animais, etc. Ele poderia tambem se referir, por exemplo, a
fosseis, rochas e sedimentos num determinado local, itens produzidos em uma
linha de montagem, etc.
A populacao se refere a todos os casos ou situacoes sobre as quais o pesquisador
quer fazer inferencias. Diferentes pesquisadores podem querer fazer inferencias
acerca da concentracao de poluentes num determinado lencol freatico; predizer a
quantidade de petroleo num poco a ser perfurado e assim por diante.
Note que o investigador nao esta interessado em todos os aspectos da populacao. O pesquisador pode nao estar interessado em estudar a concentracao de
todos os tipos de poluentes, somente alguns poluentes mais importantes para seu
estudo.
Uma amostra e um subconjunto qualquer da populacao usado para obter
informacao acerca do todo. Algumas razoes para se tomar uma amostra ao inves
de usar a populacao toda sao as seguintes,
custo alto para obter informacao da populacao toda,
tempo muito longo para obter informacao da populacao toda,
algumas vezes impossvel, por exemplo, estudo de poluicao atmosferica
algumas vezes logicamente impossvel, por exemplo, em ensaios destrutivos.
CAPITULO 1. INTRODUC
AO
1.1
Princpios de estima
c
ao
DE VEROSSIMILHANCA
1.2. FUNC
AO
Das definicoes acima segue entao que qualquer estimador e uma estatstica
mas nem toda estatstica define um estimador.
Defini
c
ao 1.4 Momentos amostrais: Para uma amostra aleatoria X1 , . . . , Xn o
k-esimo momento amostral e definido como
n
Mk =
1X k
X
n i=1 i
Mk =
1.2
1X
(Xi X)k
n i=1
Func
ao de Verossimilhanca
Seja uma u
nica variavel aleatoria X cuja distribuicao depende de um u
nico
parametro . Para um valor x fixo e variando , p(x|) = l(; x) e a plausibilidade ou verossimilhanca de cada um dos valores de . Assim, a funcao de
verossimilhanca de e uma funcao que associa o valor de p(x|) a cada um dos
possveis valores de . Vale notar que l(; x) nao e uma funcao de densidade de
probabilidade, i.e. em geral
Z
l(; x)d 6= 1.
x = 0, 1, 2 (0, 1)
1
0
x (1 )2x d =
(x + 1)(3 x)
x!(2 x)!
=
.
(x + 1 + 3 x)
3!
CAPITULO 1. INTRODUC
AO
Esta u
ltima igualdade vem do fato que sendo x um n
umero inteiro positivo entao
(x) = (x 1)!. Apos algumas simplificacoes segue que
Z
1
l(; x)d = .
3
Alem disso, para cada possvel valor observado de X temos um valor mais
plausvel para ,
(i) l(; x = 1) = 2(1 ) e o valor mais provavel de e 1/2.
(ii) l(; x = 2) = 2 e o valor mais provavel e 1.
(iii) l(; x = 0) = (1 )2 e o valor mais provavel e 0.
Claro que na pratica um u
nico valor de X sera observado. Na Figura 1.1 estao
representadas as funcoes de verossimilhanca para uma u
nica variavel aleatoria X
com distribuicoes Binomial(2,), Poisson() e Exponencial().
Se x = (x1 , . . . , xn ) sao os valores observados das variaveis aleatorias
X1 , . . . , Xn cuja funcao de (densidade) de probabilidade conjunta e p(x|) entao
a funcao de verossimilhanca de e l(; x) = p(x|). No caso particular em que
X1 , . . . , Xn sao variaveis aleatorias independentes e identicamente distribuidas, a
funcao de verossimilhanca de correpondente `a amostra observada x1 , . . . , xn e
dada por
n
Y
l(; x) =
p(xi |).
i=1
Note porem que a definicao de verossimilhanca nao requer que os dados sejam
observacoes de variaveis aleatorias independentes ou identicamente distribuidas.
Alem disso, fatores que dependem somente de x e nao dependem de podem ser
ignorados quando se escreve a funcao de verossimilhanca ja que eles nao fornecem
informacao sobre a plausibilidade relativa de diferentes valores de .
No caso geral pode ser um escalar, um vetor ou mesmo uma matriz de
parametros.
Informa
c
ao de Fisher
O conceito visto a seguir sera u
til no calculo da variancia de estimadores, estudo
do comportamento assintotico de estimadores de maxima verossimilhanca e em
inferencia Bayesiana.
Defini
c
ao 1.5 Considere uma u
nica observacao X com funcao de (densidade)
de probabilidade p(x|). A medida de informacao esperada de Fisher de atraves
DE VEROSSIMILHANCA
1.2. FUNC
AO
de X e definida como
2 log p(x|)
.
I() = E
2
No caso de um vetor parametrico = (1 , . . . , k ) define-se a matriz de informacao esperada de Fisher de atraves de X como
2
log p(x|)
I() = E
.
Note que o conceito de informacao aqui esta sendo associado a uma especie de
curvatura media da funcao de verossimilhanca no sentido de que quanto maior a
curvatura mais precisa e a informacao contida na verossimilhanca, ou equivalentemente maior o valor de I(). Em geral espera-se que a curvatura seja negativa
e por isso seu valor e tomado com sinal trocado. Note tambem que a esperanca
matematica e tomada em relacao `a distribuicao amostral p(x|).
0.8
x=0
x=1
x=2
x=8
0.0
0.4
l( )
0.4
0.0
l( )
0.8
x=0
x=1
x=2
0.0
0.2
0.4
0.6
0.8
1.0
10
0.4
x=0.5
x=1
x=2
x=5
0.0
0.2
l( )
0.6
Figura 1.1: Funcoes de verossimilhanca para uma unica variavel aleatoria X com
distribuicoes Binomial(2,), Poisson() e Exponencial().
Podemos considerar entao I() uma medida de informacao global enquanto
CAPITULO 1. INTRODUC
AO
que uma medida de informacao local e obtida quando nao se toma o valor esperado
na definicao acima. A medida de informacao observada de Fisher J() fica entao
definida como
2 log p(x|)
J() =
.
2
Lema 1.1 Seja X = (X1 , . . . , Xn ) uma colecao de vari
aveis aleatorias independentes com distribuicoes pi (x|), i = 1, . . . , n e sejam I(), J(), Ji () e Ii ()
as medidas de informacao de obtidas atraves de X e de Xi , respectivamente.
Entao,
n
n
X
X
I() =
Ii () e J() =
Ji ().
i=1
i=1
O lema nos diz entao que a informacao total contida em observacoes independentes e igual a soma das informacoes individuais. Um caso particular importante
e quando as observacoes sao tambem identicamente distribuidas ja que neste caso
Ii () e constante e assim a informacao total e simplesmente nI().
Outra estatstica muito importante no estudo da funcao de verossimilhanca e
que sera u
til e a funcao escore definida a seguir.
Defini
c
ao 1.6 A funcao escore de X denotada por U (X; ) e dada por
U (X; ) =
log p(X|)
.
DE VEROSSIMILHANCA
1.2. FUNC
AO
Exemplo 1.5 : Seja X1 , . . . , Xn uma amostra aleatoria da distribuicao exponencial com parametro . A funcao de densidade de cada Xi e dada por
p(xi |) = exi ,
> 0,
p(x|) = e
> 0,
sendo t =
n
X
xi .
i=1
2
2
n
log p(x|)
= t e
U (X, ) =
n X
Xi .
i=1
> 0,
sendo t =
n
X
xi .
i=1
2 log p(x|)
t
= 2
2
i=1
i=1
CAPITULO 1. INTRODUC
AO
1.3
Sufici
encia e famlia exponencial
e portanto T (X) =
Pn
i=1
Exemplo 1.8 : Dado , X1 , , Xn sao independentes e identicamente distribuidos com funcoes de densidade p(xi |). Entao a funcao de densidade conjunta e
p(x|) = p(x1 , , xn |) =
n
Y
i=1
p(xi |).
n
Y
i=1
p(xi |) =
n
Y
i=1
1.3. SUFICIENCIA
E FAMILIA EXPONENCIAL
com g(x) = 1, f (t, ) =
n
Y
i=1
p(yi |) e t = (y1 , , yn ).
1.3.1
Famlia Exponencial
A famlia exponencial inclui muitas das distribuicoes de probabilidade mais comumente utilizadas em Estatstica, tanto contnuas quanto discretas. Uma caracterstica essencial desta famlia e que existe uma estatstica suficiente com
dimensao fixa.
Defini
c
ao 1.9 A famlia de distribuicoes com funcao de (densidade) de probabilidade p(x|) pertence `
a famlia exponencial a um par
ametro se podemos escrever
p(x|) = a(x) exp{u(x)() + b()}.
Note que pelo criterio de fatoracao de Neyman U (X) e uma estatstica suficiente
para .
A definicao de famlia exponencial pode ser estendida ao caso multiparametrico com = (1 , . . . , r ),
)
( r
X
uj (x)j () + b() ,
p(x|) = a(x) exp
j=1
CAPITULO 1. INTRODUC
AO
10
j=1
i=1
P
Neste caso, definindo Uj (X) = ni=1 Uj (xi ), i = 1, . . . , n, entao pelo criterio de
fatoracao, T (X) = (U1 (X), . . . , Ur (X)) e uma estatstica conjuntamente suficiente para o vetor de parametros (1 , . . . , r .
Exemplo 1.9 : (X1 , , Xn ) Bernoulli()
p(x|) = x (1 )1x Ix ({0, 1})
= exp x log
+ log(1 ) Ix ({0, 1})
1
!
( n
)
X
p(x|) = exp
xi log
+ n log(1 ) Ix ({0, 1}n )
1
i=1
Conclusao: A Bernoulli pertence `a famlia exponencial e U =
tica suficiente para .
Pn
i=1
Xi e estats-
Pn
i=1
Xi e estatstica
1 2
2
1
1/2
2
= (2)
exp
xi 2 xi 2 log
2
2
2
2
(
)
2
n
n
X
X
1
n
Pn
i=1
Xi ,
Pn
i=1
Xi2 )
1.4. PROBLEMAS
1.4
11
Problemas
1. Uma u
nica variavel aleatoria X tem distribuicao de Bernoulli com
parametro desconhecido mas sabe-se que = 0, 25 ou = 0, 75. A
tabela abaixo descreve a distribuicao de X para cada possvel valor de .
X
0
1
0,25 0,75
1/4 5/6
3/4 1/6
(a) Explique por que a soma em cada coluna e igual a 1 mas a soma em
cada linha nao e.
(b) Qual valor de voce escolheria como o mais plausvel se X = 1 for
observado?
2. Explique as diferencas entre estatsticas, estimadores e estimativas.
3. Se X1 , . . . , Xn e uma amostra aleatoria da N (, 2 ) prove que se S 2 =
Pn
1
2
ao
i=1 (Xi X) ent
n1
U=
(n 1)S 2
2n1 .
2
CAPITULO 1. INTRODUC
AO
12
(i) Distribuicao uniforme no intervalo (a, b) com a conhecido e b desconhecido (b > a), T = max(X1 , . . . , Xn ).
(j) Distribuicao uniforme no intervalo (a, b) com a desconhecido e b conhecido (a < b), T = min(X1 , . . . , Xn ).
9. Verifique que cada uma das famlias de distribuicoes abaixo e uma famlia
exponencial e obtenha as estatsticas suficientes de dimensao mnima.
(a) A famlia de distribuicoes de Bernoulli com parametro p desconhecido.
(b) A famlia de distribuicoes de Poisson com media desconhecida.
(c) A famlia de distribuicoes Normais com media desconhecida e variancia
conhecida.
(d) A famlia de distribuicoes Normais com media conhecida e variancia
desconhecida.
(e) A famlia de distribuicoes Gama(, ) com desconhecido e conhecido.
(f) A famlia de distribuicoes Gama(, ) com conhecido e desconhecido.
(g) A famlia de distribuicoes Beta(, ) com desconhecido e conhecido.
(h) A famlia de distribuicoes Beta(, ) com conhecido e desconhecido.
1.5
13
Teorema 1.2 Se X1 , X2 , . . . s
ao vari
aveis aleatorias independentes e identicaP
ao
mente distribuidas com media e vari
ancia 2 < e X n = ni=1 Xi /n ent
n(X n ) Y, quando n
(1.1)
com Y N (0, 2 ).
Para simplificar a notacao usualmente escreve-se (1.1) como
Assim, o Teorema 1.2 nos diz que qualquer que seja a distribuicao da variavel de interesse, a distribuicao das medias amostrais tendera a uma distribuicao
normal `a medida que o tamanho de amostra cresce.
Captulo 2
Propriedades dos Estimadores
Na inferencia estatstica classica nao existe um criterio u
nico para escolha de
estimadores em um dado problema, mas sim um conjunto de criterios que podem
ser utilizados para selecao e comparacao. Estes criterios ou propriedades sao
descritos a seguir.
Defini
c
ao 2.1 Seja uma amostra aleatoria X1 , . . . , Xn tomada de uma distribuicao parametrizada por . O erro quadratico medio de um estimador de
e definido como
= E( )2 .
EQM ()
Podemos reescrever esta u
ltima expressao como
= E[( E())
+ (E()
)]2
EQM ()
2 + [E()
]2
= E[ E()]
+ [E()
]2 .
= V ar()
15
camente distribuidas com E(Xi ) = e V ar(Xi ) = 2 . Entao,
n
1X
1X
(i) E(X) =
E(Xi ) =
=
n i=1
n i=1
n
n
1 X
1 X 2 2
V ar(Xi ) = 2
= .
(i) V ar(X) = 2
n i=1
n i=1
n
Mas a soma dos quadrados em torno da media amostral pode ser reescrita como
n
X
i=1
(Xi X)
n
X
i=1
=
=
n
X
i=1
n
X
i=1
[(Xi ) (X )]2
n
X
(Xi ) 2(X )
(Xi ) + n(X )2
2
i=1
(Xi )2 n(X )2 .
=
E(
2) = 2.
E
n1
n1
16
Portanto, o estimador
1 X
S =
(Xi X)2
n 1 i=1
2
Em geral o processo de estimacao consiste em escolher o estimador que apresenta o menor erro quadratico medio. No caso de estimadores nao viesados isto
equivale a escolher aquele com a menor variancia.
Exemplo 2.3 : (continuacao) Seja o estimador
= X1 para a media populacional . Como E(
) = E(X1 ) = segue que
= X1 e tambem um ENV para
. Portanto
EQM (X) =
2
< EQM (
) = 2 ,
n
para n > 1 e
i=1 (Xi
2
X)2
2n1
entao
E(T 2 ) = c(n 1) 2
e V ar(T 2 ) = c2 2(n 1) 4
17
e portanto
EQM (T 2 ) = 2c2 (n 1) 4 + [c(n 1) 2 2 ]2 .
Para obter o valor de c tal que T 2 tem o menor erro quadratico medio vamos
derivar a expressao acima em relacao a c e igualar a zero, i.e.
d
EQM (T 2 ) = 4c(n 1) 4 + 2[c(n 1) 2 2 ](n 1) 2 = 0
dc
ou equivalentemente
4c(n 1) 4 = 2(n 1) 2 [c(n 1) 2 2 ]
e finalmente
1
.
n+1
Nao e difcil mostrar que a segunda derivada em relacao a c e maior do que zero
para n > 1 de modo que o estimador
c=
T02
1 X
=
(Xi X)2
n + 1 i=1
tem o menor EQM nesta classe de estimadores, para todos os possveis valores
de e 2 .
Vimos entao que o erro quadratico medio e a ferramenta usualmente utilizada
para comparar estimadores. Dizemos que 1 e melhor do que 2 se
EQM (1 ) EQM (2 )
com substituido por < para ao menos um valor de . Neste caso o estimador 2
e dito ser inadmissvel. Um estimador e dito ser
otimo (ou admissvel) para se
nao existir nenhum outro estimador melhor do que ele. Assim, e um estimador
otimo para se
EQM ( ) EQM ()
com substituido por < para ao menos um valor de . No Exemplo 2.5 o
estimador T02 e otimo naquela classe de estimadores.
No caso de estimadores nao viesados a comparacao e feita em termos de
variancias. Em particular, se for um ENV para e
V ar( ) V ar(),
com substituido por < para ao menos um valor de entao e dito ser n
ao
18
viesado de vari
ancia uniformemente mnima (UMVU). A seguir serao apresentados conceitos que possibilitarao a obtencao de estimadores nao viesados otimos.
2.1
2.2
Efici
encia
1
.
I()
2.3. CONSISTENCIA
19
V ar()
Vale notar que a variancia de um estimador UMVU nao necessariamente
atinge o limite inferior de Cramer-Rao e sua eficiencia pode ser menor do que
1. Porem o contrario e sempre verdade, i.e. estimadores eficientes sao necessariamente UMVU.
O Teorema 2.3 pode ser generalizado para o caso de T (X) ser um ENV para
uma funcao h(), i.e. E[T (X)] = h(). Neste caso, a desigualdade de CramerRao e dada por
[h ()]2
V ar[T (X)]
I()
sendo h () = dh()/d.
Esta forma geral da desigualdade pode ser usada para calcular o limite inferior
da variancia de um estimador viesado. Seja um estimador de com vies b() =
. Portanto e um ENV para b() + . Fazendo h() = b() + segue
E()
entao que
2
[b () + 1] .
V ar[]
I()
2.3
Consist
encia
20
Exemplo 2.6 : Sejam as variaveis aleatorias X1 , . . . , Xn independentes e identicamente distribuidas com E(Xi ) = e V ar(Xi ) = 2 . Vimos no Exemplo 2.1
que E(X) = e V ar(X) = 2 /n, portanto X e um estimador consistente para a
media populacional . Alem disso,
n1
2
2 2 , quando n .
E(
)=
n
e a variancia de
2 e obtida usando o fato de que
Y =
Pn
i=1 (Xi
2
X)2
2n1
4
2 4 (n 1)
2
V ar(
) = V ar
Y = 2 V ar(Y ) =
0, quando n
n
n
n2
e segue que
2 e um estimador consistente para 2 .
2.4. PROBLEMAS
2.4
21
Problemas
22
Captulo 3
M
etodos de Estima
c
ao
3.1
Estimadores de M
axima Verossimilhanca
Defini
c
ao 3.2 O estimador de maxima verossimilhanca (EMV) de e o valor
(3.1)
claro que e sempre necessario verificar que a segunda derivada e negativa para
E
garantir que a solucao de (3.1) e um ponto de maximo. Ou seja, devemos ter
2 l(; x)
< 0.
2 =
23
24
CAPITULO 3. METODOS
DE ESTIMAC
AO
Em muitas aplicacoes e mais simples algebricamente (e muitas vezes computacionalmente) trabalhar na escala dos logaritmos. Do ponto de vista da maximizacao nao fara diferenca ja que a funcao logaritmo e estritamente crescente e o valor
de que maximiza l(; x) e o mesmo que que maximiza log l(; x). Portanto, a
equacao (3.1) pode ser reescrita em termos de logaritmo da verossimilhanca e fica
log l(; x)
= U (X; ) = 0.
n
Y
i=1
xi (1 )1xi .
Como o valor de que maximiza l(; x) e o mesmo que maximiza log l(; x) neste
caso e mais conveniente algebricamente determinar o EMV obtendo o valor de
3.1. ESTIMADORES DE MAXIMA
VEROSSIMILHANCA
25
que maximiza
log l(; x) =
n
X
i=1
n
X
i=1
xi
log +
n
X
i=1
xi
log(1 )
= n[
x log + (1 x) log(1 )].
Assim, a primeira derivada e dada por
x (1 x)
n
(1 )
e igualando a zero obtem-se que = x. A segunda derivada e dada por
x
(1 x)
n 2 +
<0
(1 )2
i.e. a proporcao amostral de sucessos. Como
de modo que o EMV de e = X,
E(X) = segue que este estimador e tambem nao viesado. Note que esta solucao
so vale se 0 < < 1 pois assumimos que 0 < < 1. No entanto, quando x = 0
temos que log l(; x) = n log(1 ) que e uma funcao decrescente de e portanto
e maximizada em = 0. Analogamente, se x = 1 temos que log l(; x) = n log()
e o EMV de mesmo que a proporcao
que e maximizada em = 1. Assim, X
amostral de sucessos seja 0 ou 1.
n
Y
i=1
= (2)n/2 exp
n
X
i=1
(xi )2 /2
X
n
log l(; x) = log(2)
(xi )2 /2.
2
i=1
Tomando a primeira derivada e igualando a zero obtem-se a equacao de verossim-
CAPITULO 3. METODOS
DE ESTIMAC
AO
26
ilhanca
n
X
i=1
Pn
(xi ) = 0
cuja solucao e = i=1 xi /n. A segunda derivada e n < 0 de modo que o EMV
Alem disso o estimador e nao viesado para . Note que aqui nao
de e = X.
precisamos nos preocupar com valores extremos (como no exemplo anterior) pois
o espaco parametrico e ilimitado.
Exemplo 3.3 : Seja X1 , . . . , Xn uma amostra aleatoria da distribuicao U (0, ),
> 0. A funcao de densidade e dada por
p(x|) =
1/n , 0 xi , i = 1, . . . , n
0, caso contrario.
Assim, a verossimilhanca e uma funcao estritamente decrescente de e portanto seu maximo e atingido quando assume o menor dos seus possveis valores. Esta condicao e satisfeita quando = max(x1 , . . . , xn ), i.e. o EMV e
= max(X1 , . . . , Xn ). Por outro lado a funcao de densidade poderia ser definida
como
1/n , 0 < xi < , i = 1, . . . , n
p(x|) =
0, caso contrario.
Neste caso, max(X1 , . . . , Xn ) nao e um dos possveis valores de ja que > xi ,
i = 1, . . . , n, i.e. > max(X1 , . . . , Xn ). Portanto, o EMV nao existe.
Exemplo 3.4 : Seja X1 , . . . , Xn uma amostra aleatoria da distribuicao
U (, + 1), < < . A funcao de densidade e dada por
p(x|) =
1, xi + 1, i = 1, . . . , n
0, caso contrario.
1, max(x1 , . . . , xn ) 1 min(x1 , . . . , xn )
0, caso contrario.
3.1. ESTIMADORES DE MAXIMA
VEROSSIMILHANCA
27
n
Y
i=1
(2 2 )1/2 exp((xi )2 /2 2 )
= (2 2 )n/2 exp
n
X
i=1
(xi )2 /2 2
X
n
(xi )2 /2 2 .
L(, ; x) = log l(, ; x) = log(2 2 )
2
i=1
2
n
n
1 X
(xi )2 = 0.
+
2
4
2 i=1
=
0
e
= 4 < 0.
2
4
4
6
e Pn (Xi X)
2 /n sao os EMV de e 2 respectivamente.
Conclui-se entao que X
i=1
28
CAPITULO 3. METODOS
DE ESTIMAC
AO
Invari
ancia
Seja X1 , . . . , Xn uma amostra aleatoria de p(x|) e e o EMV de . Suponha que
queremos inferir o valor de = g() onde g e uma funcao 1 a 1 (ou bijetora) de .
maximiza p(x|h()).
Se = h() e a funcao inversa e e o EMV de entao h()
=
Por outro lado tambem maximiza p(x|h()), i.e. h() = e portanto h()
ou equivalentemente = g().
e o EMV de g(). Esta propriedade e chamada
Conclui-se entao que g()
princpio da invariancia.
Exemplo 3.6
: No Exemplo 3.5, pelo princpio da invariancia segue que o EMV
pP
n
2
de e
=
i=1 (Xi X) /n.
Exemplo 3.8 : Seja X1 , . . . , Xn uma amostra aleatoria da distribuicao exponencial com parametro e queremos estimar a probabilidade g() = P (X > 1). O
e a funcao de distribuicao de X e P (X < x) = 1 ex ,
EMV de e = 1/X
portanto P (X > 1) = 1 P (X < 1) = e . Assim, pelo princpio da invariancia
o EMV de P (X > 1) e
= e = e1/X .
g()
O EMV n
ao depende do plano amostral
Se dois experimentos dao origem a funcoes de verossimilhanca l1 () e l2 () que
sao proporcionais, i.e. l1 () = k l2 (), k > 0 e k nao depende de , entao o EMV
de e o mesmo.
Exemplo 3.9 : O tempo (em minutos) entre chegadas de clientes em um banco e
denotado pela variavel aleatoria X Exp(). Deseja-se estimar o tempo medio
entre chegadas a partir de uma amostra aleatoria X1 , . . . , Xn . O EMV de e
e pela propriedade de invariancia segue que o EMV de = E(X) = 1/
= 1/X
Para uma amostra de tamanho n = 20 dois planos amostrais
e
= 1/ = X.
poderiam ter sido utilizados,
(i) Fixar n = 20 a priori.
(ii) Observar X1 , X2 , . . . ate obter um tempo superior a 10 minutos.
Suponha que no segundo experimento observou-se xi < 10, i = 1, . . . , 19 e x20 >
10 e em ambos a media amostral foi igual 6 minutos. Entao a estimativa de
3.1. ESTIMADORES DE MAXIMA
VEROSSIMILHANCA
29
Observac
oes incompletas
Em muitas situacoes praticas os dados fornecem informacoes incompletas sobre
determinado fenomeno. Isto ocorre em geral quando o experimento precisa ser
terminado por algum motivo de ordem pratica e que pode ou nao estar sob
controle do pesquisador. Esta observacao parcial dos dados e chamada de censura
e os metodos para descricao e modelagem deste tipo de dados e chamada de
analise de sobrevivencia ou analise de confiabilidade. Esta informacao parcial
deve ser levada em conta ao se tentar estimar os parametros de interesse.
Exemplo 3.10 : No Exemplo 3.9, o tempo ate a chegada do proximo cliente
sera observado ate que: o cliente chegue ou o expediente se encerre, o que ocorrer
primeiro. Suponha que esperou-se 15 minutos e o expediente se encerrou sem
que ninguem tenha aparecido. Ou seja, X21 nao foi observado mas sabe-se que
X21 > 15. A media amostral baseada em 21 observacoes e maior do que 6 e a
estimativa de maxima verossimilhanca e obtida maximizando-se
20
20
X
xi ) exp(15).
i=1
Do Exemplo 3.9 temos que x = 6 entao o tempo total de espera dos 20 primeiros
P
clientes foi 20
cao de verossimilhanca fica 20 e135 .
i=1 xi = 120 e a fun
Solu
c
ao num
erica
Em muitas situacoes praticas a funcao de verossimilhanca esta associada a modelos complexos e a equacao de verossimilhanca nao apresenta solucao analtica
explicita.
Exemplo 3.11 : Suponha que uma variavel aleatoria X tem funcao de densidade
P
P
f (x) = kj=1 pj fj (x), sendo pj > 0 e kj=1 pj = 1. Para uma amostra aleatoria
X1 , . . . , Xn a funcao de verossimilhanca fica
!
k
n
X
Y
pj fj (xi ) .
f (x) =
i=1
j=1
CAPITULO 3. METODOS
DE ESTIMAC
AO
30
+
log(xi )
xi
x exp(xi ) = n log
L(, ; x) = log
() i
()
i=1
i=1
i=1
e L(, ; x)/ = 0 nao tem solucao analtica explcita.
Nestes casos pode-se recorrer a metodos numericos para obter o EMV de um
parametro . Lembrando que a funcao escore e definida como
U (X; ) =
log l(; x)
= 0. Expandindo U (X; )
em serie
entao, se e o EMV de segue que U (X; )
de Taylor em torno de 0 obtemos que
= U (X; 0 ) + ( 0 )U (X; 0 ) + . . .
0 = U (X; )
e desprezando os termos de ordem mais alta entao para valores de e 0 proximos
segue que
U (X; 0 ) + ( 0 )U (X; 0 ).
0 = U (X; )
U (X; 0 )
U (X; 0 )
0
= 0 +
U (X; 0 )
J(0 )
onde J() e a informacao observada de Fisher.
Assim, a partir de um valor inicial (0) um procedimento iterativo para busca
de maximo e dado por
(j+1) = (j)
U (X; (j) )
U (X; (j) )
(j)
=
+
U (X; (j) )
J((j) )
que deve ser repetido ate que o processo se estabilize segundo algum criterio
de convergencia. Um criterio tipicamente utilizado e |(j+1) (j) | < onde e
especificado arbitrariamente. Este e o conhecido algoritmo de Newton-Raphson e
o ponto aonde o algoritmo se estabiliza e tomado como a estimativa de maxima
verossimilhanca.
Uma modificacao do algoritmo acima e obtida substituindo-se a informacao
3.1. ESTIMADORES DE MAXIMA
VEROSSIMILHANCA
31
observada, J(), pela informacao esperada de Fisher, I(). Sob algumas condicoes de regularidade, tipicamente verificadas na pratica, este metodo modificado
converge para o estimador de maxima verossimilhanca.
Distribuic
ao assint
otica
Em muitas situacoes a equacao de verossimilhanca tem solucao analtica explcita porem o EMV e uma funcao complicada da amostra. Neste caso, pode nao
ser uma tarefa facil obter a distribuicao do estimador ou verificar sua eficiencia.
Uma alternativa e estudar o comportamento do estimador quando o tamanho
da amostra n tende a infinito (comportamento assintotico). Como na pratica o
tamanho amostral e finito os resultados obtidos sao aproximadamente corretos
para n suficientemente grande.
Pode-se mostrar que, sob condicoes de regularidade
N (, I 1 ()),
quando n .
A prova deste resultado esta alem do escopo destas notas e sera omitida (ver
Migon and Gamerman 1999). Na pratica, i.e. para n finito, dizemos que para
n suficientemente grande, o estimador de maxima verossimilhanca tem distribuicao aproximadamente N (, I 1 ()). Ou seja, o EMV e sempre assintoticamente nao viesado e eficiente ja que sua esperanca tende para e sua variancia
tende para o limite inferior da desigualdade de Cramer-Rao. Alem disso, ele e
0 quando n .
consistente ja que V ar()
O resultado pode ser generalizado para uma funcao g(), i.e.
[g ()]2
, quando n .
g() N g(),
I()
Exemplo 3.13 : Suponha uma u
nica observacao X da distribuicao binomial com
parametros n e desconhecido. O EMV de e = X/n e a informacao de Fisher
e n/[(1 )] (verifique). Portanto, para n grande a distribuicao aproximada da
variavel aleatoria
n( )
p
(1 )
e N (0, 1).
3.1.1
Coment
arios
CAPITULO 3. METODOS
DE ESTIMAC
AO
32
Felizmente varios metodos computacionalmente intensivos (Bootstrap, algoritmo EM, metodos de Monte Carlo, algoritmos geneticos, etc) foram e continuam sendo desenvolvidos ou adaptados para tratar de situacoes cada vez mais
complexas (e portanto mais realistas). Os recursos computacionais atualmente
disponveis vem contribuindo muito para disseminar o uso destas tecnicas.
3.1.2
Problemas
3.2. METODO
DOS MOMENTOS
33
3.2
M
etodo dos Momentos
CAPITULO 3. METODOS
DE ESTIMAC
AO
34
(nao observaveis) por seus equivalentes momentos amostrais. Assim, para uma
variavel aleatoria X cuja distribuicao depende de um parametro com momentos
de ordem k dados por
k = E(X k |)
e uma amostra aleatoria X1 , . . . , Xn desta distribuicao, o metodo preconiza a
estimacao de k por
n
1X k
k =
X .
n i=1 i
k = k ,
k = 1, . . . , r.
Nao e difcil verificar que o metodo sempre produz estimadores nao viesados
para os momentos populacionais, i.e.
n
1X
E(Xik ) = k .
E(
k ) =
n i=1
com variancia dada por
n
V ar(
k ) = V ar
1X k
X
n i=1 i
n
1 X
=
V ar(Xik )
2
n i=1
n
1 X
E(Xi2k ) E 2 (Xik )
=
2
n i=1
2k 2k
.
n
O metodo tambem tem boas propriedades assintoticas ja que as leis dos grandes
n
umeros garantem que
k k com probabilidade 1 quando n .
Exemplo 3.14 : Seja uma amostra aleatoria X1 , . . . , Xn tomada de uma distribuicao com E(X) = 1 e V ar(X) = 2 . Pelo metodo dos momentos, a media
3.2. METODO
DOS MOMENTOS
35
2 =
1X 2
X .
n i=1 i
2.
=
X i nX
Xi X =
(Xi X)
= 2 1 =
n i=1
n i=1
n i=1
Assim, os estimadores da media e da variancia coincidem com os EMV no caso
normal.
Exemplo 3.15 : Seja uma amostra aleatoria X1 , . . . , Xn tomada de uma distribuicao Gama com parametros e . A media e a variancia populacionais sao
dados por
E(X) = / e V ar(X) = / 2 .
Portanto, pelo metodo dos momentos os estimadores para e sao obtidos como
solucao das equacoes
n
1X
/ =
Xi = X
n i=1
n
1X 2
/2 +
2 /2 =
X
n i=1 i
A segunda equacao pode ser reescrita como
1
+
=X
+X
1X 2
X
n i=1 i
obtendo-se
Pn
Pn
2
2
2
X
1
i=1 Xi /n
= i=1 (Xi X) /n = Pn
=
X
2
2 .
X
X
i=1 (Xi X) /n
Substituindo na primeira equacao obtem-se que
2
X
2
2 .
i=1 (Xi X) /n
= Pn
CAPITULO 3. METODOS
DE ESTIMAC
AO
36
3.3
Seja agora uma amostra aleatoria Y1 , . . . , Yn tomada de uma distribuicao tal que
E(Yi |) = fi () e V ar(Yi |) = 2 . Ou seja, a media de cada Yi assume uma forma
especfica, que pode depender de outras variaveis, e as variancias sao as mesmas.
Uma forma equivente e
Yi = fi () + i
com E(i ) = 0 e V ar(i ) = 2 para i = 1, . . . , n.
O criterio adotado aqui consiste em estimar de modo a minimizar os erros
cometidos, Yi fi (), minimizando uma funcao destes erros. Uma funcao que
penaliza igualmente erros positivos e negativos e e comumente utilizada e a funcao
quadratica. Assim, o criterio pode ser expresso como, obter que minimiza
S() =
n
X
i=1
(Yi fi ())2 .
n
X
i=1
(Yi Xi )2 .
P
e como a segunda derivada e dada por 2 ni=1 Xi2 > 0 segue que o EMQ de e
Pn
Yi Xi
= Pi=1
.
n
2
i=1 Xi
Note como nenhuma distribuicao de probabilidades foi assumida para que o
37
metodo pudesse ser aplicado. Este e um dos motivos para sua grande utilizacao. Por outro lado, se os dados tiverem distribuicao normal o procedimento
coincide com a estimacao de maxima verossimilhanca, i.e. pode-se mostrar que
minimizar a soma de quadrados dos erros e equivalente a maximizar a funcao de
verossimilhanca.
Outro fato importante e que o peso atribuido a cada observacao na soma de
quadrados foi o mesmo ja que todas tem a mesma variancia. O metodo pode ser
estendido ao caso de variancias desiguais e conhecidas a menos de uma constante,
i.e. V ar(Yi |) = 2 /wi . Neste caso a soma de quadrados a ser minimizada e
S() =
n
X
i=1
wi (Yi fi ())2
n
X
i=1
n
X
i=1
Em ambos os casos teremos um vetor de parametros 0 , 1 , . . . , k a serem estimados (alem da variancia 2 ) o que equivale a resolver um sistema de k + 1
equacoes do tipo S/j = 0 para j = 0, . . . , k.
CAPITULO 3. METODOS
DE ESTIMAC
AO
38
3.4
Problemas
Captulo 4
Estima
c
ao Bayesiana
Considere uma amostra aleatoria X1 , . . . , Xn tomada de uma distribuicao de probabilidades com parametro desconhecido, p(x|). Em muitas situacoes, antes de
observar a amostra o pesquisador tem condicoes de resumir sua informacao e
experiencia anteriores sobre as chances de pertencer a determinadas regioes
do espaco parametrico. Este conhecimento pode ser quantificado construindo-se
uma distribuicao de probabilidades para , chamada distribuicao a priori.
Exemplo 4.1 : Seja a probabilidade de obter cara quando uma moeda e
lancada. Sabe-se que a moeda e honesta ou tem duas caras, i.e. os dois possveis valores de sao 1/2 e 1. Se a probabilidade a priori de que a moeda seja
honesta e p entao a distribuicao a priori de e p( = 1/2) = p e p( = 1) = 1 p.
Exemplo 4.2 : A proporcao de itens defeituosos em um grande lote e desconhecida e supoe-se que os possveis valores de se distribuem uniformemente no
intervalo (0,1). A distribuicao a priori e entao dada por U (0, 1) ou
p() =
1, 0 < < 1
0, caso contrario.
= 0, 0002 e
= 0, 00012
2
39
BAYESIANA
CAPITULO 4. ESTIMAC
AO
40
de onde se obtem que
=
0, 0002
= 20 000 e = 0, 0002 = 4.
0, 00012
20 0004 3 20 000
e
, >0
3!
p() =
0, 0.
4.1
Distribui
c
ao a Posteriori
Por simplicidade vamos assumir que todas as quantidades envolvidas sao contnuas de modo que p(x|) e p() sao funcoes de densidade de probabilidade. Multiplicando estas duas densidades obtem-se a densidade conjunta de X1 , . . . , Xn e
, i.e.
p(x, ) = p(x|)p().
A funcao de densidade conjunta marginal de X1 , . . . , Xn pode ser obtida por
integracao como
Z
p(x) = p(x|)p()d.
p(x|)p()
1
=
p(x|)p().
p(x)
p(x)
(4.1)
A funcao de densidade (4.1) esta representando a distribuicao de apos os dados serem observados, e portanto e chamada distribuicao a posteriori de . Todos
estes resultados valem tambem para distribuicoes discretas de probabilidade.
Note que 1/p(x) em (4.1) nao depende de e funciona como uma constante
normalizadora de p(|x). Assim, a forma usual do teorema de Bayes e
p(|x) p(x|)p().
(4.2)
A POSTERIORI
4.1. DISTRIBUIC
AO
41
Pn
i=1
y (1 )ny , xi = 0, 1, i = 1, . . . , n
0, caso contrario
Por comparacao pode-se notar que, a menos de uma constante (que nao depende
de ), o lado direito desta expressao tem a forma da funcao de densidade de uma
distribuicao Beta com parametros = y + 1 e = n y + 1. Assim, como
a distribuicao a posteriori de e proporcional ao lado direito desta expressao
conclui-se que
|x Beta(y + 1, n y + 1).
Exemplo 4.5 : No Exemplo 4.3 suponha que uma amostra aleatoria X1 , . . . , Xn
com os tempos de vida de n lampadas e tomada. Neste caso, definindo y =
Pn
e
i=1 xi , a densidade conjunta para xi > 0, i = 1, . . . , n
p(x|) = n ey .
onde todos os termos que nao dependem de foram omitidos. Por comparacao, o
lado direito desta expressao tem a mesma forma da funcao de densidade de uma
distribuicao Gama com parametros = n + 4 e = 20 000 + y. Assim, para
BAYESIANA
CAPITULO 4. ESTIMAC
AO
42
4.1.1
Observac
oes Sequenciais
i=1
pn (xn |) p(|xn1 , , x1 ).
4.2
Problemas
4.3. DISTRIBUIC
OES
A PRIORI CONJUGADAS
43
4.3
Distribui
co
es a Priori Conjugadas
4.3.1
Amostrando de um Distribuic
ao de Bernoulli
BAYESIANA
CAPITULO 4. ESTIMAC
AO
44
i = 1, . . . , n e dada por
p(x|) = y (1 )ny
e assumindo que a distribuicao a priori e Beta com parametros > 0 e > 0
entao
p() 1 (1 )1 .
Usando o teorema de Bayes, a distribuicao a posteriori e dada por
p(|x) y (1 )ny 1 (1 )1
+y1 (1 )+ny1 , 0 < < 1.
Exceto por uma constante que nao depende de o lado direito desta expressao
pode ser reconhecido como a funcao de densidade de uma distribuicao Beta com
parametros + y e + n y. Portanto esta e a distribuicao a posteriori de , i.e.
|x Beta( + y, + n y).
Uma extensao direta e o modelo binomial, i.e. se Y | Binomial(n, ) entao
p(y|) y (1 )ny
e portanto a priori conjugada e Beta(, ).
4.3.2
> 0,
t=
n
X
xi .
i=1
O n
ucleo da verossimilhanca e da forma a eb que caracteriza a famlia de distribuicoes Gama. Assim, vamos assumir que a distribuicao a priori e Gama com
parametros positivos > 0 e > 0, i.e.
p() 1 e ,
, > 0 > 0.
4.3. DISTRIBUIC
OES
A PRIORI CONJUGADAS
45
4.3.3
Seja X1 , . . . , Xn uma amostra aleatoria da distribuicao Exponencial com parametro . Sua funcao de densidade de probabilidade conjunta e dada por
p(x|) = e
t n
> 0,
t=
n
X
xi .
i=1
O n
ucleo da verossimilhanca e novamente da forma a eb e assim vamos assumir
que a distribuicao a priori e Gama com parametros positivos > 0 e > 0.
Neste caso a densidade a posteriori fica
p(|x) +n1 exp {( + t)}
que corresponde `a densidade Gama( + n, + t). Ou seja, a distribuicao Gama
e a priori conjugada para o modelo exponencial.
4.3.4
=
1.
Al
e
m
disso,
a
restri
c
a
o
em se aplica.
i
i=1
i=1 Xi = n obviamente tamb
Dizemos que X tem distribuicao multinomial com parametros n e e a funcao
de probabilidade conjunta das p contagens X e dada por
n!
p(x|) = Qp
i=1
xi !
p
Y
ixi .
i=1
Note que esta e uma generalizacao da distribuicao binomial que tem apenas duas
categorias. A funcao de verossimilhanca para e
l(; x)
p
Y
ixi
i=1
BAYESIANA
CAPITULO 4. ESTIMAC
AO
46
como priori para o vetor entao a funcao de densidade a priori e dada por
p()
p
Y
iai 1 ,
ai > 0,
i = 1, . . . p
i=1
p
Y
i=1
ixi
p
Y
i=1
iai 1
p
Y
ixi +ai 1 .
i=1
4.3.5
02 0 + 2 x
02 + 2
e 12 = 02 + 2 .
4.3. DISTRIBUIC
OES
A PRIORI CONJUGADAS
47
onde os termos que nao dependem de foram incorporados `a constante de proporcionalidade. Portanto, a verossimilhanca tem a mesma forma daquela baseada
em uma u
nica observacao bastando substituir x por x e 2 por 2 /n. Logo vale
o Teorema 4.1 com as devidas substituicoes, i.e. a distribuicao a posteriori de
dado x e N (1 , 12 ) onde
02 0 + n 2 x
1 =
02 + n 2
e 12 = 02 + n 2 .
BAYESIANA
CAPITULO 4. ESTIMAC
AO
0.020
48
Fisico A
Fisico B
0.000
0.005
0.010
0.015
priori
posteriori
verossimilhanca
700
750
800
850
900
950
1000
4.4
Problemas
4.4. PROBLEMAS
49
e desvio-padrao 1 para .
(a) Se o tempo medio para atender uma amostra aleatoria de 20 clientes
foi de 3,8 minutos, qual a distribuicao a posteriori de .
(b) Qual o menor n
umero de clientes que precisam ser observados para
que o coeficiente de variacao a posteriori se reduza para 0,1?
5. Seja X1 , . . . , Xn uma amostra aleatoria da distribuicao de Poisson com
parametro .
(a) Determine os parametros da priori conjugada de sabendo que E() =
4 e o coeficiente de variacao a priori e 0,5.
(b) Quantas observacoes devem ser tomadas ate que a variancia a posteriori se reduza para 0,01 ou menos?
(c) Mostre que a media a posteriori e da forma n x + (1 n )0 , onde
0 = E() e n 1 quando n . Interprete este resultado.
6. O n
umero medio de defeitos por 100 metros de uma fita magnetica e desconhecido e denotado por . Atribui-se uma distribuicao a priori Gama(2,10)
para . Se um rolo de 1200 metros desta fita foi inspecionado e encontrou-se
4 defeitos qual a distribuicao a posteriori de ?
7. Seja X1 , . . . , Xn uma amostra aleatoria da distribuicao Bernoulli com
parametro e usamos a priori conjugada Beta(a, b). Mostre que a media a posteriori e da forma n x + (1 n )0 , onde 0 = E() e n 1
quando n . Interprete este resultado.
8. Para uma amostra aleatoria X1 , . . . , Xn tomada da distribuicao U (0, ),
mostre que a famlia de distribuicoes de Pareto com parametros a e b, cuja
funcao de densidade e p() = aba /a+1 , e conjugada `a uniforme.
9. Para uma amostra aleatoria de 100 observacoes da distribuicao normal com
media e desvio-padrao 2 foi especificada uma priori normal para . Mostre
que o desvio-padrao a posteriori sera sempre menor do que 1/5 (Interprete
este resultado).
10. Para uma amostra aleatoria da distribuicao normal com media e desviopadrao 2 foi especificada uma priori normal para com variancia igual a 1.
Qual deve ser o menor n
umero de observacoes para que o desvio-padrao a
posteriori seja 0,1?
BAYESIANA
CAPITULO 4. ESTIMAC
AO
50
(+1) /
e
,
()
, > 0.
Mostre que esta famlia e conjugada ao modelo normal com media conhecida e variancia desconhecida.
4.5
Estimadores de Bayes
A distribuicao a posteriori de um parametro contem toda a informacao probabilstica a respeito deste parametro e um grafico da sua funcao de densidade a
posteriori e a melhor descricao do processo de inferencia. No entanto, algumas
vezes e necessario resumir a informacao contida na posteriori atraves de alguns
poucos valores numericos. O caso mais simples e a estimacao pontual de onde se
Como veremos
resume a distribuicao a posteriori atraves de um u
nico n
umero, .
4.5.1
Introduc
ao `
a Teoria da Decis
ao
51
Defini
c
ao 4.2 Uma regra de decis
ao e
otima se tem risco mnimo, i.e.
Vale notar que estas perdas traduzem uma avaliacao subjetiva em relacao `a
gravidade dos erros cometidos. Suponha agora que a incerteza sobre os estados
da natureza e descrita por P ( = 1) = , 0 < < 1 avaliada na distribuicao
atualizada de (seja a priori ou a posteriori). Note que, para fixo, L(, ) e uma
variavel aleatoria discreta assumindo apenas dois valores com probabilidades e
1 . Assim, usando a definicao de risco obtemos que
R( = 0) = E(L(0, )) = 1500 + (1 )100 = 1400 + 100
Uma questao que se coloca aqui e, para que valores de a regra de Bayes sera de
lancar a droga. Nao e difcil verificar que as duas acoes levarao ao mesmo risco,
i.e. R( = 0) = R( = 1) se somente se = 0, 20. Alem disso, para < 0, 20
temos que R( = 0) < R( = 1) e a regra de Bayes consiste em nao lancar a
droga enquanto que > 0, 20 implica em R( = 1) < R( = 0) e a regra de Bayes
deve ser de lancar a droga.
4.5.2
Estimadores de Bayes
52
BAYESIANA
CAPITULO 4. ESTIMAC
AO
para o qual, com alta probabilidade, o erro (X) estara proximo de zero.
Para cada possvel valor de e cada possvel estimativa a vamos associar
uma perda L(a, ) de modo que quanto maior a distancia entre a e maior o
valor da perda. Neste caso, a perda esperada a posteriori e dada por
Z
E[L(a, )|x] =
L(a, )p(|x)d
Exemplo 4.9 : No Exemplo 4.8 suponha que foi especificada uma priori
Beta(1,1) (ou equivalentemente U(0,1)) para e 10 itens foram inspecionados
dos quais 8 eram defeituosos. A estimativa de Bayes de e (1+8)/(2+10) = 0, 75
enquanto = 0, 80.
A perda quadratica e as vezes criticada por penalizar demais o erro de estimacao. A funcao de perda absoluta, definida como L(a, ) = |a |, introduz
punicoes que crescem linearmente com o erro de estimacao e pode-se mostrar que
o estimador de Bayes associado e a mediana da distribuicao atualizada de .
Para reduzir ainda mais o efeito de erros de estimacao grandes podemos considerar funcoes que associam uma perda fixa a um erro cometido, nao importando
53
sua magnitude. Uma tal funcao de perda, denominada perda 0-1, e definida como
L(a, ) =
1 se |a | >
0 se |a | <
para todo > 0. Neste caso pode-se mostrar que o estimador de Bayes e a moda
da distribuicao atualizada de . A moda da posteriori de tambem e chamado
de estimador de maxima verossimilhanca generalizado (EMVG) e e o mais facil
de ser obtido dentre os estimadores vistos ate agora. No caso contnuo devemos
obter a solucao da equacao
p(|x)
= 0.
02 0 + n 2 X
.
02 + n 2
Exemplo 4.11 : No Exemplo 4.8 suponha que foram observados 100 itens dos
quais 10 eram defeituosos. Usando perda quadratica a estimativa de Bayes de
e
+ 10
.
(x) =
+ + 100
Assim, se a priori for Beta(1,1), ou equivalentemente U (0, 1), entao (x) = 0, 108.
Por outro lado se especificarmos uma priori Beta(1,2), que e bem diferente da anterior, entao (x) = 0, 107. Ou seja, as estimativas de Bayes sao bastante proximas, e isto e uma consequencia do tamanho amostral ser grande. Note tambem
que ambas as estimativas sao proximas da proporcao amostral de defeituosos 0,1,
que e a estimativa de maxima verossimilhanca.
BAYESIANA
CAPITULO 4. ESTIMAC
AO
54
4.6
Problemas
1
0
diagnostico
doenca A doenca B
0
5
10
0
4.6. PROBLEMAS
55
Captulo 5
Estima
c
ao por Intervalos
A principal restricao da estimacao pontual e que quando estimamos um parametro atraves de um u
nico valor numerico toda a informacao presente nos dados
importante encontrar tambem um intervalo
e resumida atraves deste n
umero. E
de valores plausveis para o parametro.
A ideia e construir um intervalo em torno da estimativa pontual de modo que
ele tenha uma probabilidade conhecida de conter o verdadeiro valor do parametro.
Tipicamente as distribuicoes amostrais de estimadores dos parametros desconhecidos serao utilizadas. Antes de descrever o procedimento geral veremos um
exemplo simples de construcao do intervalo de confianca.
Exemplo 5.1 : Seja X1 , . . . , Xn uma amostra aleatoria da distribuicao N (, 2 ),
com 2 conhecido. Para fazer inferencias sobre nos baseamos na media amostral
X e sabemos que
n (X )
N (0, 1).
U=
P X z/2 X + z/2
= 1 .
n
n
Esta u
ltima igualdade pode dar margem a interpretacoes erroneas, o que alias
acontece com bastante frequencia. Na inferencia classica, o parametro e desconhecido mas fixo e portanto nao e passvel de descricao probabilstica, ou seja
nao se trata de um intervalo de probabilidade para . Na verdade os limites do
56
57
intervalo e que sao variaveis aleatorias. Apos a amostra ser observada teremos
um valor numerico para a media amostral, i.e. X = x e dizemos que
x z/2 x + z/2
n
n
com confianca 100(1 )%. Nao se pode fazer afirmacoes do tipo o verdadeiro
x c2
e x c1 .
n
n
No entanto, pode-se mostrar que dentre todos os intervalos de confianca com esta
caracterstica, aquele definido acima que e simetrico em torno do media amostral
x e o de menor comprimento.
Exemplo 5.2 : No Exemplo 5.1 suponha que foram observados os dados abaixo,
-3.83 -1.88 -1.55 -12.64 -0.4 -18.87 4.98 -9.52 -14.06 13.56
e queremos construir um intervalo de 95% para a media com = 10. A media
amostral e x = 4.421. Na Tabela 5.1 abaixo encontram-se os valores de c1 e c2
obtidos para diferentes probabilidades nas caudas da distribuicao normal padrao.
Na u
ltima coluna estao os comprimentos (c2 c1 )/ n dos intervalos.
1
2
3
4
P(Z<c 1) P(Z>c 2)
0.010
0.040
0.020
0.030
0.025
0.025
0.045
0.005
c 1
-2.326
-2.054
-1.960
-1.695
c 2
1.751
1.881
1.960
2.576
comp
12.890
12.440
12.400
13.510
5.1
Procedimento Geral
58
POR INTERVALOS
CAPITULO 5. ESTIMAC
AO
2. Usando a distribuicao de U , encontrar as constantes a e b tais que
P (a U b) 1 .
3. Definir { : a G(x, ) b} como o intervalo (ou regiao) de confianca
100(1-)% para .
n
Y
i=1
59
20
10
Medias
0
10
20
20
40
60
80
Amostras
Nivel de Confianca Real = 97 %
100
Figura 5.1: Intervalos de 95% de confianca para media de 100 amostras de tamanho
n = 20 simuladas de uma distribuicao N (0, 100). As setas indicam os intervalos que
nao contem o valor verdadeiro (zero).
POR INTERVALOS
CAPITULO 5. ESTIMAC
AO
60
0.87 7.94 3.16 9.85 3.39 1.53 5.15 4.38 8.5 7.02
Usando a expressao acima entao segue que 9.9 < < 13.29 com confianca 0,90.
5.2
Estima
c
ao no Modelo Normal
Nesta secao serao discutidos os casos em que os dados provem de uma distribuicao
normal. Inicialmente veremos o caso em que temos uma u
nica amostra de uma
distribuicao normal e queremos estimar sua media e sua variancia. Na Secao
5.2.2 estudaremos o caso de duas amostras tomadas de distribuicoes normais
independentes.
5.2.1
n(X )
N (0, 1)
(n 1)S 2
2n1 .
2
NO MODELO NORMAL
5.2. ESTIMAC
AO
61
n(X )
tn1 (0, 1)
S
n(X )/,
t/2,n1
n (X )
t/2,n1
S
=1
Estimando a Vari
ancia
Para obter estimativas da variancia populacional 2 usamos a seguinte quantidade
pivotal
(n 1)S 2
Q=
2
que tem distribuicao qui-quadrado com n 1 graus de liberdade. Devemos entao
obter os percentis 2/2,n1 e 2/2,n1 desta distribuicao tais que
(n 1)S 2
2
2
/2,n1 = 1 .
P /2,n1
2
62
POR INTERVALOS
CAPITULO 5. ESTIMAC
AO
x 1.833 s/ n x + 1.833 s/ n
e um I.C. de 90% para . Substituindo os valores de x e s obtemos que 10.015
1.173.
5.2.2
Nesta secao vamos assumir que X11 , . . . , X1n1 e X21 , . . . , X2n2 sao amostras
aleatorias das distribuicoes N (1 , 12 ) e N (2 , 22 ) respectivamente e que as
amostras sao independentes.
Podemos comparar as medias populacionais estimando a diferenca
= 1 2 . A estimacao e baseada na diferenca entre medias amostrais, i.e.
X 1 X 2 que e o estimador de maxima verossimilhanca de . Se as variancias
NO MODELO NORMAL
5.2. ESTIMAC
AO
63
12 22
+ .
n1 n2
s
s
2
2
2
2
x1 x2 z/2 1 + 2 ; x1 x2 + z/2 1 + 2 .
n1 n2
n1 n2
No caso de variancias populacionais desconhecidas porem iguais, i.e. 12 =
22 = 2 podemos combinar os duas variancias amostrais para formar uma estimativa combinada da variancia. Atribumos mais peso `as amostras maiores e
esta variancia combinada e dada por
Sp2 =
isto e, a media ponderada das variancias amostrais com pesos dados por n1 1
e n2 1. Agora podemos calcular o erro padrao das diferencas nas medias como
r
1
1
EP (X 1 X 2 ) = Sp
+ .
n1 n2
Note que min{s21 , s22 } s2p max{s21 , s22 } sempre ja que a soma dos coeficientes
e igual a 1. Se isto nao ocorrer seus calculos estao errados.
Note tambem que
(n1 1)S12
2n1 1
2
(n2 1)S22
2n2 1
2
POR INTERVALOS
CAPITULO 5. ESTIMAC
AO
64
x1 x2 t/2, sp
1
1
+
; x1 x2 + t/2, sp
n1 n2
1
1
+
n1 n2
5.2.3
Vari
ancias desiguais
.
S12 S22
+
n1
n2
NO MODELO NORMAL
5.2. ESTIMAC
AO
65
No entanto, a distribuicao exata de T depende da razao 12 /22 , que e desconhecida. Se n1 e n2 forem grandes T tem distribuicao aproximadamente normal
padrao, mas quando eles sao ambos pequenos uma solucao simples e utilizar uma
distribuicao t de Student com k 1 graus de liberdade onde k = min(n1 , n2 ).
Outra solucao aproximada (metodo aproximado de Aspin-Welch) consiste em
utilizar a estatstica acima com distribuicao t de Student e n
umero de graus de
liberdade dado por
(w1 + w2 )2
=
w12
w22
+
n1 1 n2 1
onde
w1 =
s21
n1
e w2 =
s22
.
n2
No caso de estar utilizando valores tabelados entao deve ser arrendondado para
o inteiro mais proximo.
Novamente pode-se construir intervalos de confianca para a diferenca entre as
medias populacionais usando esta estatstica.
5.2.4
Comparac
ao de vari
ancias
POR INTERVALOS
CAPITULO 5. ESTIMAC
AO
66
5.2 nao e difcil mostrar que
S12 22
F (n1 1, n2 1).
S22 12
Embora sua funcao de distribuicao nao possa ser obtida analiticamente os valores estao tabelados em muitos livros de estatstica e tambem podem ser obtidos
na maioria dos pacotes computacionais. Os percentis podem entao ser utilizados
na construcao de intervalos de confianca para a razao de variancias.
Uma propriedade bastante u
til para calcular probabilidade com a distribuicao
F vem do fato de que se X F (2 , 1 ) entao X 1 F (1 , 2 ) por simples inversao na razao de distribuicoes qui-quadrado independentes. Assim, denotando os
quantis e 1 da distribuicao F (1 , 2 ) por F (1 , 2 ) e F (1 , 2 ) respectivamente segue que
1
F (1 , 2 ) =
.
F (2 , 1 )
Note que e usual que os livros fornecam tabelas com os percentis superiores da
distribuicao F para varias combinacoes de valores de 1 e 2 devido `a propriedade
acima. Por exemplo, se temos os valores tabelados dos quantis 0,95 podemos obter
tambem um quantil 0,05. Basta procurar o quantil 0,95 inverterndo os graus de
liberdade.
Exemplo 5.5 : Suponha que X F (4, 6) e queremos obter o valor x tal que
P (X < x) = 0, 05. Neste caso devemos obter primeiro o valor y tal que P (X 1 >
y) = 0, 05 sendo que X 1 F (6, 4). Este valor e dado por y = 6, 16. Podemos
agora calcular x = 1/y 0, 16.
5.2.5
Amostras pareadas
NO MODELO NORMAL
5.2. ESTIMAC
AO
67
d t/2,n1 sD / n D d + t/2,n1 sD / n.
Note que neste caso estamos interessados na diferenca media enquanto que
para duas amostras independentes, estamos interessados na diferenca das medias.
Ainda que numericamente estas quantidades possam ser as mesmas, conceitualmente elas sao diferentes. Outra observacao importante e que estamos assumindo
normalidade para as diferencas e nao para os dados originais. Lembre-se, mesmo
que X1i e X2i sejam normais isto nao implica que os Di sejam normais ja que
aqui nao ha independencia. Portanto a hipotese de normalidade deve ser feita
nas diferencas.
Exemplo 5.6 : A mudanca nos nveis de um contaminante numa certa area do
incio ao final de seis meses de observacao foram (em /l):
1, 5 0, 6 0, 3 0, 2 2, 0 1, 2
Aqui nao estamos interessados nos nveis de contaminacao mas sim em sua variacao. A media e o desvio padrao amostrais sao d = 0, 9 e s = 0, 81 respecti
vamente. Entao o erro padrao e 0, 81/ 6 = 0, 33. Podemos agora construir um
intervalo de confianca para verificar se a perda na concentracao media e nula.
Para = 0,05 e 5 graus de liberdade obtem-se t0,025 = 2.45 e o I.C. de 95% para
D fica
POR INTERVALOS
CAPITULO 5. ESTIMAC
AO
68
5.2.6
Coment
ario
5.3
5.4. INTERVALOS DE CONFIANCA
ASSINTOTICOS
69
5.4
I() N (0, 1)
POR INTERVALOS
CAPITULO 5. ESTIMAC
AO
70
pode ser tratado como uma quantidade pivotal aproximada e se for possvel isolar
na desigualdade
p
z/2 < (n ) I() < z/2
p(x|) = e
, > 0, t =
n
X
xi .
i=1
2 log p(|)
n
= 2
2
n/X
n/X
1 .
<<
P
n + z/2
n z/2
Exemplo 5.8 : Os dados abaixo (simulados) formam uma amostra aleatoria de
X Exp(), com = 0, 5. Deseja-se construir um intervalo de confianca de 95%
para .
5.02 1.11 0.04 0.48 1.59 0.75 5.1 0.38 2.33 0.68
5.4. INTERVALOS DE CONFIANCA
ASSINTOTICOS
71
z/2
1/X
< p
< z/2
2 /n
= 0, 95
5.4.1
Usando a Func
ao Escore
Em algumas situacoes nao se tem uma forma explcita para o estimador de maxima verossimilhanca e neste caso a funcao escore sera particularmente u
til. Lembrando que a funcao escore de X tem media zero e variancia igual a I() entao
P
temos pelo teorema central do limite que ni=1 U (Xi ; ) converge em distribuicao
para uma N (0, I()). Podemos usar este resultado para fazer inferencia aproximada sobre e assim o intervalo de confianca aproximado de 100(1 )% e
obtido fazendo-se
!
n
1 X
P p
U (Xi ; ) < z/2 1 .
I()
i=1
Finalmente, vale ressaltar que todos os resultados desta secao podem ser es-
POR INTERVALOS
CAPITULO 5. ESTIMAC
AO
72
5.5
Problemas
1. Seja X uma u
nica observacao de uma distribuicao com densidade
p(x|) = x1 , 0 < x < 1, > 0.
(a) Mostre que log X e uma quantidade pivotal.
(b) Use este pivot para construir um intervalo de confianca para com
coeficiente de confianca 0,90.
2. No problema anterior, se Y = ( log X)1 e (Y /2, Y ) e o intervalo de confianca para , calcule o coeficiente de confianca.
3. Seja X1 , . . . , Xn uma amostra aleatoria da distribuicao Exponencial().
Obtenha uma quantidade pivotal e mostre como construir um I.C. para
. (Dica: mostre que min{Xi } Exponencial(n).
4. Seja X1 , . . . , Xn uma amostra aleatoria da distribuicao N (, ). Obtenha
uma quantidade pivotal para construir um intervalo de confianca para .
5. Se X11 , . . . , X1n1 e X21 , . . . , X2n2 sao amostras aleatorias independentes das
distribuicoes N (1 , 12 ) e N (2 , 22 ) mostre que
(X 1 X 2 ) (1 2 )
r
1
1
Sp
+
n1 n2
tem distribuicao t-Student com n1 + n2 2 graus de liberdade.
6. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma media
de 72,9 batidas por minuto (bpm) e um desvio padrao de 11,0 bpm foram
obtidos. Construa um intervalo de confianca de 95% para a pulsacao media
em repouso de pessoas sadias com base nesses dados.
7. Tendo sido medido o eixo maior de 9 graos de quartzo de um corpo arenoso
em uma lamina de arenito, obteve-se um comprimento amostral medio de
1,5mm e um desvio padrao de 0,3mm. Deseja-se construir um intervalo de
confianca para o comprimento medio dos graos de quartzo do corpo arenoso.
5.5. PROBLEMAS
73
8. O tempo medio, por operario, para executar uma tarefa, tem sido de 100
minutos com desvio padrao de 15 minutos. Foi introduzida uma modificacao
para reduzir este tempo e apos alguns meses foi selecionada uma amostra
de 16 operarios medindo-se o tempo de execucao de cada um. Obteve-se um
tempo medio amostral de 90 minutos e um desvio padrao de 16 minutos.
(a) Estime o novo tempo medio de execucao por um intervalo com 95%
de confianca.
(b) Inteprete o I.C. obtido no item anterior. Voce diria que a modificacao
surtiu efeito? (Justifique).
(c) Estime a nova variancia populacional por um intervalo com 98% de
razoavel concluir que a variancia populacional se alterou?
confianca. E
9. Os QIs de 181 meninos com idades entre 6-7 anos de Curitiba foram medidos. O QI medio foi 108,08, e o desvio padrao foi 14,38.
(a) Calcule um intervalo de confianca de 95% para o QI medio populacional dos meninos entre 6-7 anos de idade em Curitiba usando estes
dados.
(b) Interprete o intervalo de confianca com palavras.
(c) Foi necessario assumir que os QIs tem distribuicao normal neste caso?
Por que?
10. Em um experimento sobre o efeito do alcool na habilidade perceptual, 10
indivduos sao testados duas vezes, uma depois de ter tomado dois drinks
e uma depois de ter tomado dois copos de agua. Os dois testes foram
realizados em dois dias diferentes para evitar influencia do efeito do alcool.
Metade dos indivduos tomou a bebida alcoolica primeiro e a outra metade
agua. Os escores dos 10 indivduos sao mostrados abaixo. Escores mais
altos refletem uma melhor performance. Verifique se a bebida alcoolica
teve um efeito significativo com 99% de confianca.
1
agua 16
alcool 13
2 3
15 11
13 12
4 5 6
20 19 14
16 16 11
7 8
13 15
10 15
9 10
14 16
9 16
POR INTERVALOS
CAPITULO 5. ESTIMAC
AO
74
medicao 1
medicao 2
1
2
3
4
5
6
7
8
9
10
10.3 11.4 10.9 12.0 10.0 11.9 12.2 12.3 11.7 12.0
12.2 12.1 13.1 11.9 12.0 12.9 11.4 12.1 13.5 12.3
75
5.6
Intervalos Bayesianos
76
POR INTERVALOS
CAPITULO 5. ESTIMAC
AO
intervalo seja o menor possvel, o que em geral implica em usar uma igualdade.
Ou seja, queremos obter c1 e c2 tais que,
Z c2
p(|x)d = 1 .
c1
5.7
Estima
c
ao no Modelo Normal
NO MODELO NORMAL
5.7. ESTIMAC
AO
5.7.1
77
Vari
ancia Conhecida
02 0 + n 2 x
02 + n 2
e 12 = 02 + n 2 .
N (0 , 02 )
|x N (1 , 12 )
Portanto, intervalos de confianca Bayesianos para podem entao ser construdos usando o fato de que
1
|x N (0, 1).
1
Assim, usando uma tabela da distribuicao normal padronizada podemos obter o
valor do percentil z/2 tal que
P
z/2
1
z/2
=1
Portanto 1 z/2 1 ; 1 + z/2 1 e o intervalo de credibilidade 100(1-)%
MDP para , devido `a simetria da normal.
A priori nao informativa pode ser obtida fazendo-se a variancia da priori
tender a infinito, i.e. 02 . Neste caso, e facil verificar que
12 n 2
e 1 x,
x z/2 ; x + z/2
n
n
POR INTERVALOS
CAPITULO 5. ESTIMAC
AO
78
15
15
= [82.65; 97.35].
90 1.96 ; 90 + 1.96
16
16
NO MODELO NORMAL
5.7. ESTIMAC
AO
79
+ }
Exemplo 5.10 : No Exemplo 5.9 sabe-se que o tempo medio de execucao tem
sido de 100 minutos com desvio padrao igual a 10 minutos. Podemos usar esta
informacao como priori para o tempo medio ou seja N (0 , 02 ) com 0 = 100
e 0 = 10. Assim, segue que
|x1 , . . . , xn N (, 12 )
1
16
+
= 0.0811
12 =
152 102
(16/152 )(90) + (1/102 )(100)
1 =
= 91.245
0.0811
e o I.C. Bayesiano de 95% fica
#
"
r
r
1
1
= [84.36; 98.13].
; 91.245 + 1.96
91.245 1.96
0.0811
0.0811
Usando a funcao ic.mdp obtemos
ic.mdp(x=rep(90,16),sigma=15,mu0=100,tau0=100,plot=F,conf=0.95)
[1] 84.35098 98.11477
5.7.2
M
edia e Vari
ancia desconhecidas
POR INTERVALOS
CAPITULO 5. ESTIMAC
AO
80
Distribuic
ao Marginal de 2
O proximo passo e obter a distribuicao a posteriori marginal de 2 e para isto
basta integrar a densidade a posteriori conjunta em relacao a . Assim,
Z
1
2
2
n2
2
p( |x) =
Z
n n
o
1
n2
2
=
exp 2 (n 1)s
exp 2 (x )2 d
2
2
Nesta u
ltima integral temos o n
ucleo de uma funcao de densidade normal com
2
media x e variancia /n, portanto ela e dada simplesmente por
Z
o
n n
p
exp 2 (x )2 d = 2 2 /n.
2
2 (n+1)/2
p( |x) ( )
(n 1)s2
.
exp
2 2
NO MODELO NORMAL
5.7. ESTIMAC
AO
81
|x GI
n 1 (n 1)s2
,
2
2
(n 1)s2
|x 2n1 .
2
2/2,n1
(n 1)s2
2/2,n1
2
= 1 .
POR INTERVALOS
CAPITULO 5. ESTIMAC
AO
82
outro setor da empresa o tempo de execucao desta mesma tarefa tem variancia
igual a 10. Apos introduzir algumas alteracoes foram observados 16 operarios
e seus tempos de execucao em minutos resultaram em s2 = 16. O intervalo,
tanto classico quanto Bayesiano, de 95% para 2 e exatamente [8,73; 38,33]. O
estatstico classico diria que nao indicacao nos dados de que a variancia tenha se
alterado (de 10 para outro valor). No entanto,
15 16
15 16
15 16
2
<
<
P (8.73 < < 10) = P
10
2
8.73
15 16
= P 24 <
< 27.49 = 0.04
2
15 16
15 16
15 16
2
P (10 < < 38.33) = P
<
<
38.33
2
10
15 16
< 24 = 0.91.
= P 6.26 <
2
0.00
0.02
0.04
0.06
0.08
10
20
30
40
50
NO MODELO NORMAL
5.7. ESTIMAC
AO
83
Distribuic
ao Marginal de
Tipicamente estaremos interessados em estimar a media do processo, i.e. o
parametro . Do ponto de vista Bayesiano, todo a inferencia e feita com base na
distribuicao a posteriori marginal de obtida como
Z
Z
2
2
p(|x, 2 )p( 2 |x)d 2 .
p(, |x)d =
p(|x) =
0
[(n
(n/2)
[(n 1)s2 + n(x )2 ]n/2
+ n(x )2 ]n/2
1)s2
n(x )2
(n 1) +
s2
n/2
que e o n
ucleo da distribuicao t de Student com n 1 graus de liberdade,
parametro de locacao x e parametro de escala s2 /n (ver Apendice A). Ou seja,
|x tn1 (x, s2 /n).
ou equivalentemente,
x
|x tn1 (0, 1).
s/ n
A conclusao final e que mais uma vez um intervalo Bayesiano ira coincidir numericamente com um intervalo de confianca classico. O intervalo de probabilidade
100(1-)% de MDP e dado por
s
s
x t/2,n1 ; x + t/2,n1
n
n
e a probabilidade de pertencer a este intervalo e 1 .
Mais uma vez vale enfatizar que esta coincidencia com as estimativas classicas e apenas numerica uma vez que as interpretacoes dos intervalos diferem
radicalmente.
Exemplo 5.13 : Voltando ao Exemplo 5.9, usando priori nao informativa o
POR INTERVALOS
CAPITULO 5. ESTIMAC
AO
84
intervalo Bayesiano sera exatamente o mesmo, i.e. [82,65; 97,35], porem com
uma interpretacao probabilstica,
P ( [82, 65; 97, 35] | x) = 0, 95.
5.7.3
Nesta secao vamos assumir que X11 , . . . , X1n1 e X21 , . . . , X2n2 sao amostras
aleatorias das distribuicoes N (1 , 12 ) e N (2 , 22 ) respectivamente e que as
amostras sao independentes.
Para comecar vamos assumir que as variancias 12 e 22 sao conhecidas. Neste
caso, a funcao de verossimilhanca e dada por
p(x1 , x2 |1 , 2 ) = p(x1 |1 ) p(x2 |2 )
n2
n1
2
2
exp 2 (2 x2 )
exp 2 (1 x1 )
21
22
isto e, o produto de verossimilhancas relativas a 1 e 2 . Assim, se assumirmos
que 1 e 2 sao independentes a priori entao eles tambem serao independentes a
posteriori ja que, pelo Teorema de Bayes
p(1 , 2 |x1 , x2 ) =
p(x1 )
p(x2 )
i |xi N (i , i ), i = 1, 2
sendo a media e a variancia dadas por
i
i2 i + ni i2 xi
=
i2 + ni i2
e i = 1/(i2 + ni i2 ),
i = 1, 2.
|x1 , x2 N (1 2 , 1 + 2 )
NO MODELO NORMAL
5.7. ESTIMAC
AO
85
Vari
ancias Desconhecidas
No caso de variancias populacionais desconhecidas porem iguais, temos que 12 =
22 = 2 e novamente podemos definir a variancia amostral combinada
s2p =
Vejamos agora como fica a analise usando priori nao informativa. Neste caso,
pode-se mostrar que a distribuicao a priori e dada por
p(1 , 2 , 2 ) 1/ 2
e as distribuicoes a posteriori marginais de 1 2 e 2 sao
1
1
2
+
1 2 |x1 , x2 tn1 +n2 2 x1 x2 , sp
n1 n2
ou equivalentemente,
1 2 (x1 x2 )
r
tn1 +n2 2
1
1
sp
+
n1 n2
e
Gamma
ou equivalentemente,
n1 + n2 2 (n1 + n2 2)s2p
,
2
2
(n1 + n2 2)s2p
2n1 +n2 2 .
2
O intervalo de 100(1 )% para 2 e obtido de maneira analoga ao caso de uma
amostra usando a distribuicao qui-quadrado, agora com n1 + n2 2 graus de
POR INTERVALOS
CAPITULO 5. ESTIMAC
AO
86
liberdade, i.e.
Vari
ancias desiguais
Ate agora assumimos que as variancias populacionais desconhecidas eram iguais
(ou pelo menos aproximadamente iguais). Na inferencia classica a violacao desta
suposicao leva a problemas teoricos e praticos uma vez que nao e trivial encontrar
uma quantidade pivotal para com distribuicao conhecida ou tabelada. Do ponto
de vista Bayesiano o que precisamos fazer e combinar informacao a priori com a
verossimilhanca e basear a estimacao na distribuicao a posteriori. A funcao de
verossimilhanca agora pode ser fatorada como
p(x1 , x2 |1 , 2 , 12 , 22 ) = p(x1 |1 , 12 )p(x2 |2 , 22 ).
A analise usando priori nao informativa pode ser feita assumindo que
p(1 , 2 , 12 , 22 ) 12 22
e a obtencao das posterioris marginais de (1 2 ), 12 e 22 sera deixada como
exerccio.
5.8
Problemas
1. Refaca o Exemplo 5.9 sabendo que o tempo medio de execucao tem sido de
100 minutos com desvio padrao igual a 10 minutos. Use esta informacao
como priori para o tempo medio e construa um I.C. Bayesiano de 95%.
2. Seja X1 , . . . , Xn uma amostra aleatoria da distribuicao normal com media
desconhecida e variancia 2 conhecida. Usando uma priori nao informativa
para , obtenha o tamanho da amostra tal que P (a < < b|x) = 0, 95 e o
comprimento do intervalo (a, b) seja menor do que 0,01.
3. Seja X1 , . . . , Xn uma amostra aleatoria de tamanho 16 da distribuicao
P
N (, 1). Sabendo-se que foi observado ni=1 xi = 160 e usando uma priori
nao informativa, obtenha um intervalo de credibilidade MDP de 95% para
. Interprete este intervalo.
4. Repita o problema 3 supondo agora que a variancia populacional ( 2 ) tambem e desconhecida, assumindo uma priori nao informativa e sabendo que
foi observado s2 = 1. Construa tambem um intervalo de credibilidade para
2.
5.8. PROBLEMAS
87
Captulo 6
Testes de Hip
oteses
6.1
Introduc
ao e nota
c
ao
E NOTAC
6.1. INTRODUC
AO
AO
89
No entanto, e possvel que um aluno acerte 8 ou mais questoes e esteja advinhando, ou seja podemos rejeitar H0 quando ela e verdadeira. A probabilidade
de que isto ocorra e
P (X 8 | p = 1/2) =
10
X
k=8
CAPITULO 6. TESTES DE HIPOTESES
90
5
X
k=0
6
X
k=0
7
X
k=0
H1 : 1
E NOTAC
6.1. INTRODUC
AO
AO
91
0.00
0.15
(a)
10
10
0.0
0.2
0.4
(b)
CAPITULO 6. TESTES DE HIPOTESES
92
6.1.1
Tipos de Decis
ao
Ao tomar uma decisao a favor ou contra uma hipotese existem dois tipos de erros
que podemos cometer. Podemos rejeitar a hipotese nula quando de fato ela e
verdadeira (erro tipo I) ou podemos falhar em rejeitar H0 quando de fato ela
e falsa (erro tipo II). Frequentemente denotamos as probabilidades destes dois
tipos de erro como e respectivamente.
Existe um balanco entre esses dois tipos de erros, no sentido de que ao tentar-se
minimizar , aumenta-se . Isto e, nao e possvel minimizar estas duas probabilidades simultaneamente e na pratica e costume fixar um valor (pequeno) para .
Na Tabela 6.1 estao descritos as decisoes que podemos tomar e os tipos de erro
associados.
Tabela 6.1: Tipos de decisao e tipos de erro associados a testes de hipoteses.
Decisao
Verdade
Aceitar H0
Rejeitar H0
H0 verdadeira Decisao correta
Erro Tipo I
(probabilidade 1 ) (probabilidade )
H0 falsa
Erro Tipo II
Decisao correta
(probabilidade )
(probabilidade 1 )
6.1.2
A Func
ao Poder
E NOTAC
6.1. INTRODUC
AO
AO
0.0
0.2
0.4
(p)
0.6
0.8
1.0
93
0.0
0.2
0.4
0.6
0.8
1.0
17 + / n
CAPITULO 6. TESTES DE HIPOTESES
94
0.0
0.2
0.4
()
0.6
0.8
1.0
17 + / n
sup P Z >
= (17) = P (Z > 1) 0, 159.
/ n
17
14
16
18
20
22
Coment
ario
Fica claro que os testes de hipoteses classicos dependem basicamente da probabilidade de X pertencer a uma determinada regiao do espaco amostral. Isto
significa que os testes dependem da probabilidade de dados que poderiam ter
6.2. TESTANDO HIPOTESES
SIMPLES
95
sido observados mas na realidade nao foram. Portanto, estes testes violam o
princpio da verossimilhanca.
6.1.3
Problemas
6.2
Testando Hip
oteses Simples
mais u
E
til comecar o estuda da teoria de testes de hipoteses considerando apenas
hipoteses simples. Isto equivale a dizer que uma amostra aleatoria X1 , . . . , Xn foi
tomada de uma dentre duas possveis distribuicoes e queremos decidir de qual
delas vem a amostra. Neste caso o espaco parametrico contem apenas dois
pontos, digamos 0 e 1 e queremos testar
H 0 : = 0
H 1 : = 1 .
Neste caso, as probabilidades dos dois tipo de erro sao dadas por
= P (rejeitar H0 | = 0 )
= P (aceitar H0 | = 1 )
96
6.2. TESTANDO HIPOTESES
SIMPLES
97
Exemplo 6.5 : Seja X1 , . . . , Xn uma amostra aleatoria da distribuicao exponencial com parametro e queremos testar H0 : = 0 H1 : = 1 , com 1 > 0 .
A razao de verossimilhancas e dada por
"
#
n
n
X
p0
0
exp (0 1 )
xi
=
p1
1
i=1
entao, pelo lema de Neyman-Pearson, o teste mais poderoso (teste otimo) rejeita
H0 se p0 /p1 < k ou equivalentemente se
n
X
i=1
n
1
1
=c
xi <
log k
0 1
0
Pn
i=1
Xi Gama(n, 0 )
P
sendo que 2 ni=1 Xi 220 . Usando uma tabela da distribuicao qui-quadrado
com 20 graus de liberdade obtemos que 2c = 10.85. Assim, a regra de decisao
P
consiste em rejeitar H0 se ni=1 Xi < 5.425, ou equivalentemente se X < 0.5425.
CAPITULO 6. TESTES DE HIPOTESES
98
6.2.1
Problemas
6.3
Probabilidade de signific
ancia (P -valor)
6.3. PROBABILIDADE DE SIGNIFICANCIA
(P -VALOR)
99
Coment
arios
Da forma como a metodologia classica de testes de hipoteses foi desenvolvida
podemos ter a impressao de que estamos calculando probabilidades a respeito de
uma hipotese. De fato, algumas vezes e incorretamente afirmado que rejeitar H0
ao nvel indica que a probabilidade de H0 ser verdadeira e menor do que .
100
6.4
Na Secao 6.2 foram definidos testes otimos para testar hipoteses simples. Nesta
secao os resultados serao generalizados para hipoteses compostas. Considere entao um teste em que H0 pode ser uma hipotese simples ou composta e H1 e
sempre uma hipotese composta.
Defini
c
ao 6.1 Um teste de H0 : 0 H1 : 1 e dito ser uniformemente mais poderoso (UMP) de tamanho se e somente se
sup () =
0
1 .
Assim, de acordo com esta definicao, precisamos especificar um teste cuja probabilidade maxima de rejeitar H0 quando ela e verdadeira seja e que ao mesmo
tempo maximize a probabilidade de rejeitar H0 quando ela e falsa. Veremos a
seguir que os testes UMP so existem em situacoes especiais, por exemplo quando
a distribuicao pertence `a famlia exponencial vista na Secao 1.3.1.
Teorema 6.2 Se X1 , . . . , Xn e uma amostra aleatoria de um membro da famlia
exponencial e for estritamente crescente em ent
ao o teste UMP de nvel
para testar H0 : 0 H1 : > 0 rejeita H0 se T (x) > c. Se as hip
oteses forem
invertidas ou for estritamente decrescente em ent
ao o teste UMP rejeita H0
se T (x) < c. Se ambas as condicoes ocorrerem o teste fica inalterado.
101
Um fato importante e que, em qualquer condicao estes testes tem funcao poder
crescente em e portanto seu valor maximo sob H0 e atingido em = 0 . Assim
a constante c acima e obtida de modo que P (rejeitar H0 | = 0 ) , com
igualdade no caso contnuo.
Exemplo 6.9 : Seja X1 , . . . , Xn uma amostra aleatoria da distribuicao de
Bernoulli com parametro . Suponha que queremos testar H0 : 0, 1 H1 :
> 0, 1 ao nvel maximo de 5% com base em uma amostra de tamanho n = 15.
P
Entao, definindo t(x) = ni=1 xi
p(x|) = t(x) (1 )nt(x) = exp[t(x) log + (n t(x)) log(1 )]
+ n log(1 ) .
= exp t(x) log
1
P (Y > 4 | = 0, 1) = 0, 013
P (Y > 5 | = 0, 1) = 0, 002
P (Y > 6 | = 0, 1) = 0, 0003.
e a regra de decisao consiste em rejeitar H0 se
Pn
i=1
Xi > 4.
Exemplo 6.10 : Seja X1 , . . . , Xn uma amostra aleatoria da distribuicao exponencial com parametro e queremos testar H0 : 0 H1 : > 0 . Definindo
P
t(x) = ni=1 xi a funcao de densidade conjunta e
p(x|) = n e t(x) = exp(n log t(x)).
A propriedade que garante a existencia de testes UMP na famlia exponencial pode ser estendida a famlias de distribuicoes com razao de verossimilhanca
monotona.
CAPITULO 6. TESTES DE HIPOTESES
102
Defini
c
ao 6.2 A famlia de distribuicoes com funcao de (densidade) de probabilidade p(x|) e dita ter razao de verossimilhanca mon
otona se existe uma estatstica T (X) tal que 1 , 2 , com 1 < 2 , a razao p(x|2 )/p(x|1 ) e uma
funcao mon
otona em t(x).
Intuitivamente, quanto maior for a razao de verossimilhanca mais plausvel e
o valor 2 em relacao a 1 . Assim, se queremos testar H0 : 0 H1 : > 0
e se a RV for uma funcao crescente de T (X) entao e razoavel rejeitar H0 para
valores grandes de T (X). Pode-se mostrar que neste caso o teste UMP rejeita
H0 se T (X) > c. Analogamente, se as hipoteses forem invertidas ou se a RV for
uma funcao decrescente de T (X) entao o teste UMP rejeita H0 se T (X) < c. Se
ambas as condicoes ocorrerem o teste fica inalterado.
Em qualquer destas condicoes o fato importante e que a funcao poder e
sempre crescente em . Portanto, a constante c acima e obtida de modo que
P (rejeitar H0 | = 0 ) , com igualdade no caso contnuo.
Exemplo 6.11 : Seja X1 , . . . , Xn uma amostra aleatoria da distribuicao de
Bernoulli com parametro e queremos testar H0 : 0 H1 : > 0 . Entao,
P
definindo t(x) = ni=1 xi temos que
p(x|) = t(x) (1 )nt(x)
t
n
1 2
(1 2 )nt(x)
2 (1 1 )
= t n .
=
t(x)
nt(
x
)
(1
)
1
1
2
1
1 (1 1 )
6.4.1
Problemas
1. Para cada uma das distribuicoes abaixo considere uma amostra aleatoria
X1 , . . . , Xn e obtenha o teste UMP para testar as hipoteses H0 :
0 H 0 : > 0 .
(a) Poisson com parametro .
(b) Normal com media conhecida e variancia desconhecida.
(c) Gama com parametro desconhecido e conhecido.
(d) Gama com parametro conhecido e desconhecido.
103
CAPITULO 6. TESTES DE HIPOTESES
104
6.5
Testes Bilaterais
(6.1)
Defini
c
ao 6.3 Um teste e dito ser n
ao viesado para as hip
oteses H0 : 0
H1 : 1 se 0 e 1 ent
ao () ( ). Caso contr
ario o teste
e dito viesado.
Ou seja, em testes nao viesados a probabilidade de rejeitar H0 quando ela e falsa
e no mnimo tao grande quanto para H0 verdadeira.
Podemos agora tentar construir testes para hipoteses bilaterais que sejam
UMP dentro da classe de testes nao viesados. Se a distribuicao pertence `a famlia
exponencial, pode-se mostrar que se () for uma funcao estritamente crescente
em entao o teste UMP nao viesado de nvel para as hipoteses (6.1) aceita
H0 quando c1 < T (X) < c2 . As constantes c1 e c2 sao obtidas de modo que
P (c1 < T (X) < c2 | = 0 ) = 1 .
Note que existe uma infinidade de valores de c1 e c2 satisfazendo a esta
condicao. Em muitas situacoes e conveniente tomar valores tais que
P (T (X) < c1 | = 0 ) = P (T (X) > c2 | = 0 ) = /2
e se T (X) tem uma distribuicao simetrica em torno de um ponto isto implica
em escolher c1 e c2 simetricamente em relacao a este ponto. No entanto, nada
impede que outros valores possam ser considerados. Por exemplo, o pesquisador
pode considerar mais grave aceitar H0 quando < 0 do que quando > 0 e
neste caso e melhor considerar testes com funcao poder assimetrica.
6.6. TESTES DE HIPOTESES
NO MODELO NORMAL
6.5.1
105
Testes Gerais
Em muitas situacoes nao e possvel obter nem mesmo um teste nao viesado. Um
procedimento geral para testar H0 : 0 H1 : 1 e baseado na estatstica
da razao de maxima verossimilhanca (RMV) dada por
(X) =
sup0 p(X|)
.
sup1 p(X|)
Este segundo problema sera discutido em mais detalhes quando falarmos de testes
assintoticos na Secao 6.7.
6.6
Testes de Hip
oteses no Modelo Normal
Os resultados desenvolvidos nas secoes anteriores serao aplicados ao modelo normal para testes sobre media e variancia em problemas de uma ou mais amostras
e em modelos de regressao linear. Nesta secao considere uma amostra aleatoria
X1 , , Xn tomada da distribuicao N (, 2 ).
Suponha que queremos testar H0 : = 0 H1 : 6= 0 e inicialmente vamos
CAPITULO 6. TESTES DE HIPOTESES
106
n(X 0 )
z/2 = 1
P z/2
sup
(, 2 )
p(X|, 2 ) = p(x|,
2 ).
sup
(, 2 )
6.6. TESTES DE HIPOTESES
NO MODELO NORMAL
107
02
=
2
onde T =
Pn
X)2 + n(X 0 )2
n(X 0 )2
T2
=
1
+
=
1
+
Pn
2
(n 1)S 2
n1
i=1 (Xi X)
i=1 (Xi
T2
1+
n1
n/2
6.6.1
Testes para V
arias M
edias
Para comecar vamos assumir que temos duas amostras aleatorias X11 , . . . , X1n1
e X21 , . . . , X2n2 das distribuicoes N (1 , 12 ) e N (2 , 22 ) respectivamente e que as
amostras sao independentes. Neste caso o vetor de parametros e (1 , 2 , 12 , 22 ) e
em geral estaremos interessados em testar as hipoteses
H0 : 1 = 2 , 12 > 0, 22 > 0
H1 : 1 6= 2 , 12 > 0, 22 > 0
(6.2)
CAPITULO 6. TESTES DE HIPOTESES
108
2 =
e
02 =
2 +
n1 n2
(x1 x2 )2 .
(n1 + n2 )2
6.6.2
Vari
ancias Desconhecidas e Desiguais
O procedimento visto na secao anterior para variancias iguais pode ser estendido
facilmente para o caso de variancias desconhecidas e desiguais, desde que a razao
de variancias 12 /22 seja conhecida. Suponha por exemplo que 12 = k22 onde k
e uma constante positiva conhecida. Definindo-se
2 =
6.6. TESTES DE HIPOTESES
NO MODELO NORMAL
109
+
n1 n2
tem distribuicao t de Student com n1 + n2 2 graus de liberdade.
Finalmente, se mesmo a razao de variancias for desconhecida entao o problema
de testar as hipoteses 6.2 torna-se bastante complexo. Este problema e conhecido
na literatura como o problema de Behrens-Fisher. Varios procedimentos de teste
ja foram propostos e a maioria foi objeto de controversia em relacao a sua utilidade
e correcao.
6.6.3
Comparac
ao de Vari
ancias
Pode-se mostrar que nao existe teste UMP para estas hipoteses e e pratica
comum utilizar-se o chamado teste F . Este teste e nao viesado e na verdade e
UMP dentro da classe de testes nao viesados. Usando a estatstica da razao de
maxima verossimilhanca pode-se mostrar que o teste F rejeita H0 se
Pn1
(x1i x1 )2 /(n1 1)
s21
Pni=1
=
> c.
2
2
s22
i=1 (x2i x2 ) /(n2 1)
Vimos na Secao 5.2.4 que
S12 22
F (n1 1, n2 1).
S22 12
e portanto a constante c pode ser obtida tal que
2 2
2
S1 2
S1
2
2
P
> c | 1 = 2 = P
>c =
S22 12
S22
usando os valores tabelados da distribuicao F com n1 1 e n2 1 graus de
liberdade.
CAPITULO 6. TESTES DE HIPOTESES
110
No caso de testes bilaterais, i.e.
H0 : 12 = 22
H1 : 12 6= 22
o teste F rejeita H0 se S12 /S22 < c1 ou S12 /S22 > c2 onde as constantes c1 e c2 sao
mais uma vez obtidas como percentis da distribuicao F com n1 1 e n2 1 graus
de liberdade. Analogamente ao teste t, e pratica comum escolher c1 e c2 tal que
as probabilidades nas caudas sejam iguais, i.e. /2.
6.6.4
Problemas
H1 : < 0, 1 ou > 0, 2.
H1 : > 5, 2.
6.6. TESTES DE HIPOTESES
NO MODELO NORMAL
111
CAPITULO 6. TESTES DE HIPOTESES
112
6.7
Testes Assint
oticos
6.7. TESTES ASSINTOTICOS
113
p(X|0 )
p(X|)
p(X|0 )
p(X|)
J()(
0 )
2.
= 2[L(0 ) L()]
J()/n
converge quase certamente para o seu valor esperado I(0 )/n quando H0
e verdadeira entao a distribuicao assintotica de 2 log (X) e 21 . Assim, um
teste com nvel de significancia assintotico rejeita H0 se 2 log (X) > c onde
c e tal que P (2 log (X) > c| = 0 ) = .
Este resultado pode ser generalizado para o caso de um vetor de parametros = (1 , . . . , k ) de dimensao k. Neste caso, a estatstica 2 log (X) tem
distribuicao assintotica 2k .
6.7.1
Teste Qui-quadrado
H0 : i 6=
i0 ,
i = 1, . . . , k
(6.3)
CAPITULO 6. TESTES DE HIPOTESES
114
k
X
(Ni n0 )2
i
i=1
ni0
>c
onde a estatstica Q tem distribuicao assintotica 2k1 . Estes testes tambem sao
conhecidos na literatura como testes de qualidade de ajuste ou testes de aderencia
e estao entre os mais utilizados em Estatstica.
Uma observacao de ordem pratica e que as frequencias esperadas ni0 nao
devem ser muito pequenas para que a distribuicao 2 seja uma boa aproximacao
da distribuicao de Q. Especificamente, pode-se mostrar que a aproximacao sera
muito boa se ni0 5 e apenas razoavel ni0 1, 5.
Varias aplicacoes para dados categoricos e metodos nao parametricos que
utilizam testes qui-quadrado podem ser vistas por exemplo em DeGroot (1989).
Testes de Ader
encia
Suponha agora que deseja-se testar a hipotese de que a amostra foi tomada de
uma certa distribuicao indexada por um vetor de parametros = (1 , . . . , m ).
Neste caso a hipotese alternativa e que a amostra foi tomada de alguma outra
distribuicao. Alem disso, suponha que foram observados k valores de uma variavel
categorica ou os dados foram agrupados em k classes de valores.
Agora, para calcular as probabilidades de que um item pertenca a cada
uma das classes ou categorias precisamos dos valores estimados dos parametros
1 , . . . , m . Se usarmos estimativas de maxima verossimilhanca pode-se mostrar
que a estatstica Q tem distribuicao assintotica qui-quadrado com k 1m graus
de liberdade sendo m o n
umero de parametros estimados no modelo teorico. Uma
condicao de validade desta distribuicao e que ei 5, i = 1, . . . , k.
Exemplo 6.12 : A proporcao p de itens defeituosos em um grande lote e desconhecida e deseja-se testar as hipoteses
H0 : p = 0, 1
H1 : p 6= 0, 1
com base em uma amostra aleatoria de 100 itens dos quais 16 sao defeituosos.
Podemos usar o teste qui-quadrado com duas categorias (defeituoso e nao de-
6.7. TESTES ASSINTOTICOS
115
Usando uma tabela da distribuicao qui-quadrado com 1 grau de liberdade obtemse que 0,025 < P -valor < 0,05 e assim H0 deve ser rejeitada ao nvel de 5% e
aceita ao nvel de 2,5%.
Exemplo 6.13 : O teste 2 tambem pode ser aplicado no estudo da relacao entre
duas variaveis categoricas com p e k possveis categorias. Neste caso queremos
testar se as variaveis sao independentes (hipotese nula). A estatstica de teste
e a mesma porem com n
umero de graus de liberdade igual a (p 1)(k 1)
Considere por exemplo a Tabela 6.3 na qual estao apresentados os n
umero de
alunos matriculados nos colegios A e B, em relacao `a sua classe social. Se as
Tabela 6.2:
Classe social
Colegio Alta Media Baixa Total
A
20
40
40
100
B
50
40
30
120
Total
70
80
70
220
80
70
70
= 31, 82 100
= 36, 36 100
= 31, 82
220
220
220
Colegio B: 120
80
70
70
= 38, 18 120
= 43, 64 120
= 38, 18
220
220
220
CAPITULO 6. TESTES DE HIPOTESES
116
6.8
Problemas
1. Em uma amostra de 100 lotes com 5 itens cada um, verificou-se que o
n
umero de itens defeituosos tem a distribuicao de frequencias abaixo. Teste
a adequacao do modelo binomial.
no de defeituosos 0 1
75 21
no de lotes
2 3
3 1
4
0
5
0
total
100
3 4
31 14
total
300
6.8. PROBLEMAS
117
3. Em seus experimentos com ervilhas, Mendel ao cruzar plantas de sementes amarelas lisas com plantas de sementes verdes enrugadas observou
a seguinte descendencia na 2a geracao: 315 plantas com sementes amarelas lisas, 108 com sementes amarelas enrugadas, 101 com sementes verdes
lisas e 32 com sementes verdes enrugadas. De acordo com os postulados de
Mendel a segregacao esperada nesta geracao deveria seguir a proporcao de
9:3:3:1. Verifique se a teoria de Mendel explica a segregacao observada.
4. Em uma amostra de 1800 valores no intervalo (0,1) obteve-se 391 valores
entre 0 e 0,2, 490 valores entre 0,2 e 0,5, 580 entre 0,5 e 0,8; e 339 maiores do
que 0,8. Teste a hipotese de que a amostra foi tomada de uma distribuicao
uniforme no intervalo (0,1) (neste caso a probabilidade de um valor cair no
intervalo (a, b) e b a).
CAPITULO 6. TESTES DE HIPOTESES
118
6.9
Testes Bayesianos
p(x|H0 )p(H0 )
p(x)
e p(H1 |x) =
p(x|H1 )p(H1 )
.
p(x)
raz
ao de chances
P (x|H0 )
P (x|H )
| {z 1 }
P (H0 )
.
P (H1 )
| {z }
a posteriori
a priori
O fator de Bayes (FB) sera usado para testar as hipoteses e pode ser reescrito
como
Z
p(|H0 )p(x|, H0 )d
P (x|H0 )
FB =
.
=Z
P (x|H1 )
p(|H1 )p(x|, H1 )d
log FB
<0
[0, 5]
(5, 11]
(11, 22]
> 22
Forca da evidencia
negativa (suporta H1 )
fraca
positiva
forte
muito forte
Captulo 7
Correla
c
ao e Regress
ao
Em diversas investigacoes deseja-se avaliar a relacao entre duas medidas quantitativas. Por exemplo, as alturas dos filhos estao relacionadas com as alturas dos
seus pais? O faturamento de uma empresa e afetado pelo n
umero de funcionarios?
A producao de uma maquina depende do nvel de treinamento do operador? Note
que nestes casos nao estamos mais interessados em amostras independentes como
na secao anterior.
Em geral os principais objetivos de tais investigacoes sao os seguintes.
Verificar se as variaveis estao associados, isto e se os valores de uma variavel
tendem a crescer (ou decrescer) `a medida que os valores da outra variavel
crescem.
Predizer o valor de uma variavel a partir de um valor conhecido da outra.
Descrever a relacao entre as variaveis, isto e dado um aumento especfico
numa variavel, qual o crescimento medio esperado para a outra variavel?
E REGRESSAO
CAPITULO 7. CORRELAC
AO
120
7.1
Definico
es
DO COEFICIENTE DE CORRELAC
7.2. INTERPRETAC
AO
AO
121
denotado pela letra grega e tambem esta definido no intervalo [-1,1]. Os valores 1 e 1 representam correlacao linear perfeita (negativa ou positiva) enquanto o valor
zero representa ausencia de correlacao linear. Podemos considerar r como sendo
uma estimativa de . Na Figura com seus coeficientes de correlacao amostrais
calculados.
0.83
0.02
0.99
7.2
Interpreta
c
ao do coeficiente de correlac
ao
negativos
positivos
negativa
positiva
Usamos o termo correlacao positiva quando r > 0, e nesse caso `a medida que
x cresce tambem cresce y, e correlacao negativa quando r < 0, e nesse caso `a
medida que x cresce, y decresce (em media).
E REGRESSAO
CAPITULO 7. CORRELAC
AO
122
a
a
a
a
a
0,19
0,39
0,69
0,89
1,00
Interpretacao
Uma
Uma
Uma
Uma
Uma
correlacao
correlacao
correlacao
correlacao
correlacao
bem fraca
fraca
moderada
forte
muito forte
1 r2
< < r + t/2
n2
1 r2
.
n2
r
P
|T
|
>
2
1r
n2
DO COEFICIENTE DE CORRELAC
7.2. INTERPRETAC
AO
AO
123
onde T tn2 . Note que a nao rejeicao de H0 nos diz que nao ha evidencia
amostral de haver correlacao linear entre as variaveis. Em outras palavras, a
correlacao entre as variaveis nao e significativa.
Exemplo 7.2 : Na Figura 7.1 os dados foram simuladas de distribuicoes normais
e cada amostra tem 30 observacoes. As correlacoes amostrais r, estatistica t
observadas, I.C. de 95% e os p-valores de testes de hipoteses bilaterais estao na
Tabela 7.1.
Tabela 7.1: Correlacoes amostrais, estatisticas observadas, I.C. de 95% e p-valores
bilaterais.
r
t g.l.
IC 95%
p-valor
0,9914 40,1368 28 0,9819 0,9960 < 0,001
0,7477
5,9590 28 0,5303 0,8729 < 0,001
0,0259
0,1372 28 -0,3375 0,3826
0,8918
-0,9981 -84,8822 28 -0,9991 -0,9959 < 0,001
Observac
oes Discrepantes
A reta de regressao e estimada com base na soma de quadrados das distancias dos
pontos em relacao `a reta. Por isso, observacoes discrepantes ou outliers podem
ter uma grande influencia na estimativa da inclinacao da reta e consequentemente
no coeficiente de correlacao amostral.
Linearidade e normalidade
bom enfatizar que somente relacoes lineares sao detectadas pelo coeficiente de
E
correlacao que acabamos de descrever (tambem chamado coeficiente de correlacao
de Pearson). Ou seja, aceitar a hipotese de que = 0 nao necessariamente implica
que as variaveis nao estejam de alguma forma associadas.
Por exemplo, nos graficos da Figura 7.2, mesmo existindo uma clara relacao
(nao-linear) entre as variaveis x e y, o coeficiente de correlacao e estatisticamente
zero (Verifique!).
A mensagem aqui e que deve-se sempre fazer o grafico dos dados de modo que se
possa tentar visualizar tais relacoes.
Transformac
oes
Em alguns casos pode ser apropriado e mesmo justificavel fazer transformacoes em
x e/ou y induzindo uma relacao linear na escala transformada. Por exemplo, na
E REGRESSAO
CAPITULO 7. CORRELAC
AO
124
r= 0.2
20
r= 0.3
40
Figura 7.2: Exemplos de associacao nao linear entre duas variaveis simuladas.
difcil vizualizar
Figura militares contra o produto interno bruto em 75 pases. E
uma relacao linear entre estas variaveis especialmente para valores grandes. No
grafico da direita foi tomado o logaritmo natural das variaveis e a relacao linear
fica bem mais aparente.
Correlac
ao n
ao significa causalidade
Um dos erros de interpretacao mais comuns e assumir que correlacoes significativas necessariamente implicam em uma relacao de causa e efeito entre duas
variaveis. Esta interpretacao e incorreta. Na verdade e extremamente difcil estabelecer relacoes causais a partir de dados observados. Seria preciso realizar
experimentos controlados para obter mais evidencias de um relacao causal.
Tambem e preciso ter cuidado ao assumir que existe correlacao somente porque
duas variaveis seguem o mesmo padrao de variabilidade. A correlacao pode ser
devida a uma terceira variavel influenciando as duas primeiras.
Finalmente, vale notar que correlacoes estatisticamente significativas (i.e.
quando se rejeita a hipotese de correlacao nula) nao necessariamente tem sig-
7.3. PROBLEMAS
125
nificado pratico. Por exemplo, que conclusoes poderia-se tirar de uma correlacao
significativa positiva entre nascimento de bebes e n
umero de cegonhas em determinada regiao?
Resumindo, se encontramos uma associacao ou correlacao entre duas variaveis
X e Y podem existir diversas explicacoes do porque elas variam conjuntamente,
incluindo:
Mudancas em X causam mudancas em Y .
Mudancas em Y causam mudancas em X.
Mudancas em outras variaveis causam mudancas tanto em X quanto em
Y.
A relacao observada e somente uma coincidencia.
Coeficiente de determinac
ao
O quadrado do coeficiente de correlacao de Pearson e chamado de coeficiente de
determinacao e costuma ser denotado por R2 . Esta e uma medida da proporcao
da variabilidade em uma variavel que e explicada pela variabilidade da outra.
Na pratica nao se espera encontrar uma correlacao perfeita (i.e. R2 = 1), porque
existem muitos fatores que determinam as relacoes entre variaveis no mundo real.
Por exemplo, na Figura ?? se o coeficiente de correlacao calculado para os
logaritmos dos gastos militares e PIB dos pases for r = 0, 80, entao R2 = 0, 64
ou 64%. Ou seja, cerca de 36% da variabilidade nos gastos militares nao pode ser
descrita ou explicada pela variabilidade nos PIB e portanto fica claro que existem
outros fatores que poderiam ser importantes.
7.3
Problemas
1. Dados os valores x=(-2,-1,0,1,2) e y=(4,2,0,1,2) calcule o coeficiente de correlacao amostral e teste a hipotese de correlacao nula. Faca um grafico de
dispersao e comente os resultados.
2. Dados os valores x=(-2,-1,0,1,2) e y=(-8,-1,0,1,8) calcule o coeficiente de
correlacao amostral. Teste a hipotese de nao haver correlacao linear. Qual
a sua conclusao notando que yi = x3i ?
126
E REGRESSAO
CAPITULO 7. CORRELAC
AO
Cr
16,8
20,0
14,2
17,5
10,1
15,5
13,8
18,2
13,0
15,0
Ni
4,5
5,4
8,8
18,0
6,2
20,5
10,0
4,0
4,4
15,9
Cr
15,5
13,0
12,5
20,2
12,5
13,5
17,8
12,8
12,2
13,0
7.4. REGRESSAO
127
angulo de
inclinacao y
profundidade x
7.4
Regress
ao
E REGRESSAO
CAPITULO 7. CORRELAC
AO
128
70
40
50
60
pesos
80
90
100
140
150
160
170
180
190
alturas
7.4. REGRESSAO
50
55
60
65
70
75
80
85
129
155
160
165
170
175
Parece razoavel tentar minimizar alguma funcao destes erros. Em geral nao
importa se as diferencas sao positivas ou negativas e todas elas tem o mesmo grau
de importancia. Assim, uma funcao que pode ser minimizada e
S(, ) =
n
X
i=1
(yi yi )
n
X
i=1
(yi xi )2
e ,
Igualando a zero a primeira derivada de S(, ) em relacao a e e resolvendo
para
e nao e difcil verificar que a melhor reta segundo este criterio de
1
Outras funcoes dos erros podem ser consideradas, e.g. soma dos erros absolutos, erro
absoluto maximo, etc.
130
E REGRESSAO
CAPITULO 7. CORRELAC
AO
P
= P 2
= 2
=
2
sx
(xi x)
x n
x2
= y x.
(7.1)
As condicoes de segunda ordem tambem devem ser verificadas para garantir que
este e um ponto de mnimo. Note que pode reescrito como
sy
sy sxy
=r
=
2
sy sx
sx
e assim o coeficiente de correlacao amostral pode ser obtido a partir da reta
estimada.
Exemplo 7.3 : Suponha que para o exemplo das alturas e pesos de indivduos
obtivemos
= 51, 17 kg e = 0, 68 kg/cm. Entao a reta de regressao estimada
e dada por
y = 51, 17 + 0, 68x.
O valor estimado de (0,68) pode ser interpretado como o aumento medio (ou
aumento esperado) no peso quando a altura aumenta de 1cm. O valor estimado
de (-51,17) nao possui qualquer significado ja que neste caso nao faz sentido
incluir o ponto x = 0. Esta reta ajustada e uma estimativa da reta de regressao
populacional (desconhecida), y = + x.
O proximo passo e construir intervalos de confianca e testar hipoteses para
e , mas para fazer isto precisamos pensar mais cuidadosamente sobre nossas
suposicoes acerca da populacao.
7.4.1
Modelo de regress
ao linear simples
Este e o modelo mais simples para descrever a relacao entre uma variavel explicativa x e uma variavel resposta y. O modelo faz a seguintes suposicoes, em ordem
decrescente de importancia:
1. o valor medio da variavel resposta e uma funcao linear de x,
2. a variancia de y e constante, ou seja e a mesma para todos os valores de x,
3. a variacao aleatoria de y para qualquer valor fixo de x segue uma distribuicao normal, e estes termos de erro sao independentes.
7.4. REGRESSAO
131
(7.2)
7.4.2
Estimando os par
ametros do modelo
= y x.
1 X
i )2
=
(yi
x
n 2 i=1
2
E REGRESSAO
CAPITULO 7. CORRELAC
AO
132
e substituindo as expressoes de
e obtem-se que
n1
=
n2
2
Sy2
2
Sxy
2
Sx
(7.3)
Exemplo 7.4 : Para os dados de alturas (x) e pesos (y) na Figura 7.3, sabendose que as medias amostrais sao x = 164, 3 e y = 66, 7, as variancias amostrais sao
Sx2 = 91 e Sy2 = 81 e a covariancia amostral e Sxy = 52, 6 segue que as estimativas
dos coeficientes sao
= 52, 6/91 = 0, 58
e
=
81
= 52, 4.
28
91
Um grafico dos dados com a reta ajustada e dado na Figura 7.5
O ajuste da reta nao parece tao bom. Existem dois pontos bem distantes da
reta ajustada, que parecem ter tido uma grande influencia no ajuste. Na pratica
e aconselhavel investigar a acuracia destes valores e/ou verificar quanto muda a
reta ajustada quando estes pontos sao removidos.
7.4.3
Usualmente e de interesse saber qual a precisao nas estimativas de e principalmente de . Para construir intervalos de confianca e testar hipoteses usaremos
as seguintes estatsticas
s P
!
qX
n (xi x)2
P 2
(xi x)2
e
.
xi
Ambas tem distribuicao t de Student com n 2 graus de liberdade e as demonstracoes sao omitidas. Assim, podemos construir intervalos de confianca obtendo
o valor de t na tabela apropriada
s
P 2
xi
t
P
.
e pP
2
n (xi x)
(xi x)2
7.4. REGRESSAO
70
60
50
40
peso
80
90
100
133
130
140
150
160
170
180
190
altura
E REGRESSAO
CAPITULO 7. CORRELAC
AO
134
t=
(xi x)2
t = 51, 37 0, 58/
52, 4 = 4, 12.
7.4.4
Transformac
oes de dados
7.4. REGRESSAO
7.4.5
135
Representac
ao Matricial
y1
1 x1
1
..
.. ..
..
y = . X = . . =
=.
yn
1 xn
n
podemos reescrever o modelo como y = X + . Esta representacao sera u
til
quando mais variaveis explicativas forem introduzidas.
7.4.6
Problemas
E REGRESSAO
CAPITULO 7. CORRELAC
AO
136
EP
2.1616
0.2417
estatistica t
1.756
-3.062
P-valor
0.09001
0.00482
P9
i=1
xi yi = 299, 5,
P9
i=1
x2i = 409 e
LINEAR MULTIPLA
7.5. REGRESSAO
7.5
137
Regress
ao Linear M
ultipla
Dada uma variavel dependente y e k variaveis explicativas x1 , . . . , xk e n observacoes destas variaveis o modelo de regressao linear m
ultipla e dado por
yi = + 1 xi1 + + k xik + i ,
i = 1, . . . , n.
(7.4)
Em palavras,
y = combinacao linear dos X s + erro.
Os erros i representam desvios (supostos independentes) da relacao linear
entre y e x1 , . . . , xk e assume-se que i N (0, 2 ). Equivalentemente,
yi |xi1 , . . . , xik N ( + 1 xi1 + + k xik , 2 ).
Aqui cada coeficiente j representa o efeito de xj sobre y quando todas as outras
variaveis sao mantidas constantes. Neste caso temos k + 2 parametros a serem
estimados.
Exemplo 7.6 : Em um problema de regressao com uma variavel resposta y e
3 variaveis explicativas x1 , x2 , x3 podemos investigar o grau de associacao entre
cada par de variaveis atraves de graficos de dispersao como na Figura 7.6. Parece
haver alguma associacao linear entre y e cada uma das variaveis explicativas, e
um modelo de regressao linear m
ultipla levara em conta todas estas correlacoes
simultaneamente.
Exemplo 7.7 : Um fabricante de borrachas (de apagar lapis) tem interesse em determinar a perda de abrasividade apos certo tempo de uso, porem
esta variavel e muito cara de ser medida diretamente. Uma sada e tentar medi-la indiretamente a partir de outras variaveis e para isto foi coletada uma amostra de 30 borrachas aonde foram medidas as variaveis Perda de
abrasividade, Dureza e Resistencia `a tensao. Os dados estao disponveis em
http://www.stats.bris.ac.uk/ peter/Teach/LM. O grau de associacao entre
as variaveis pode ser investigado atraves das Figuras 7.7 e 7.8.
Para usar a representacao matricial em regressao m
ultipla, i.e. y = X +
definimos
1 x11 x1k
y1
1
1
.. ..
..
.
.. = . = ...
y = . X = . .
.
..
1 xn1 xnk
yn
n
k
E REGRESSAO
CAPITULO 7. CORRELAC
AO
138
10
10 5
10
10
30
10
10
30
10
10
10
x1
10
10 5
x2
10 5
x3
30
10
10
30
10 5
10
=
(yi
1 xi1 k xik )2 .
n k 1 i=1
2
hj
LINEAR MULTIPLA
7.5. REGRESSAO
60
70
80
90
250
350
50
139
70
80
90
50
150
Abrasividade
200
240
50
60
Dureza
120
160
Tensao
50
150
250
350
120
160
200
240
p
hj .
E REGRESSAO
CAPITULO 7. CORRELAC
AO
250
50
0
100
120
140
160
180
200
220
Dureza
200
150
90
80
70
60
50
40
100
Abrasividade
300
350
400
140
240
Tensao
|i=1 {z
SQT
sendo
|i=1 {z
SQReg
|i=1 {z
SQR
O ajuste sera tanto melhor quanto mais proximo a SQReg estiver da SQT, ou
equivalentemente quanto menor for a SQR. Uma forma de medir isto e atraves
LINEAR MULTIPLA
7.5. REGRESSAO
141
estatistica t
2.11
-2.96
1.84
-1.24
de liberdade
p-valor
0.03746
0.00387
0.06842
0.218
(1 R2 )(n 1)
.
nk
O Teste F
Suponha agora que queremos testar a hipotese mais geral de que nao existe qualquer relacao linear entre a variavel dependente e as regressoras no seu modelo.
Este teste pode ser formulado como
H0 : 1 = 2 = = k = 0
E REGRESSAO
CAPITULO 7. CORRELAC
AO
142
SQReg/k
.
SQR/(n k + 1)
e SQR = (1 R2 )SQT.
n k + 1 R2
F =
.
k
1 R2
100 3 + 1 0, 68
= 69, 41667
3
0, 32
Efeito de Interac
ao
Considere o seguinte modelo de regressao linear com duas variaveis regressoras
y = 0 + 1 x1 + 2 x2 + 3 x1 x2 + .
Neste modelo, x1 x2 representa a interacao entre as variaveis independentes x1 e
x2 . Se a interacao e significativa, i.e. rejeitamos a hipotese 3 = 0, entao, o efeito
de x1 na resposta media depende do nvel de x2 e, analogamente, o efeito de x2
na resposta media depende do nvel de x1 .
A interpretacao dos coeficientes da regressao agora fica
Quando x2 e mantida constante, a cada mudanca de uma unidade em x1 ,
a mudanca na resposta media sera 1 + 3 x2 .
Quando x1 e mantida constante, a cada mudanca de uma unidade em x2 ,
a mudanca na resposta media sera 2 + 3 x1 .
7.6. PROBLEMAS
7.6
143
Problemas
p-valor: 1.767e-11
4. Em um conjunto de dados economicos para 50 pases temos os valores medios para o perodo 1960-1970 das seguintes variaveis: Renda per capita
(Renda), Taxa de crescimento da renda per capita (Taxa), Poupanca agregada dividida pela renda disponvel (PoupR), percentual da populacao
abaixo dos 15 (Pop15) e acima dos 75 anos (Pop75). Interprete o resultado
abaixo de um modelo de regressao linear tendo a variavel PoupR como
resposta e as outras como regressoras. Estes dados estao disponiveis em
http://www.maths.bath.ac.uk/ jjf23/LMR.
Estimativa
Intercepto 28.566
Pop15
-0.461
Pop75
-1.691
Renda
-0.000
Taxa
0.409
E.P. Estatistica t
7.35
3.884
0.14
-3.189
1.08
-1.561
0.00
-0.362
0.19
2.088
p-valor
0.000334
0.002603
0.125530
0.719173
0.042471
p-valor: 0.0007904
144
E REGRESSAO
CAPITULO 7. CORRELAC
AO
(b) yi = 0 + 1 xi1 + 2 xi2 + 3 xi1 xi2 + i , i = 1, . . . , n.
(c) yi = 0 + 1 xi1 + 2 log(xi2 ) + 3 xi1 senxi2 + i , i = 1, . . . , n.
(d) yij = i + ij , i = 1, 2 e j = 1, . . . , ni .
Ap
endice A
Lista de Distribui
co
es
Neste apendice sao listadas as distribuicoes de probabilidade utilizadas no texto
para facilidade de referencia. Sao apresentadas suas funcoes de (densidade) de
probabilidade alem da media e variancia. Uma revisao exaustiva de distribuicoes
de probabilidades pode ser encontrada em Johnson et al. (1992, 1995) e Evans
et al. (1993).
A.1
Distribui
c
ao Normal
< x < ,
APENDICE
A. LISTA DE DISTRIBUIC
OES
146
A.2
Distribui
c
ao Gama
x > 0,
para , > 0.
E(X) = /
e V (X) = / 2 .
A.3
Distribui
c
ao Gama Inversa
(+1) /x
x
e
,
()
x > 0,
para , > 0.
E(X) =
1
2
e V (X) =
.
( 1)2 ( 2)
A.4
Distribui
c
ao Beta
( + ) 1
x (1 x)1 ,
()()
0 < x < 1,
para , > 0.
E(X) =
e V (X) =
( +
)2 (
+ + 1)
DE DIRICHLET
A.5. DISTRIBUIC
AO
A.5
147
Distribui
c
ao de Dirichlet
i
,
0
Pk
V (Xi ) =
i=1
k
X
xi = 1,
i=1
i .
(0 i )i
,
02 (0 + 1)
e Cov(Xi , Xj ) =
i j
2
0 (0 +
1)
A.6
Distribui
c
ao t de Student
x R,
2
,
2
para > 2.
A.7
Distribui
c
ao F de Fisher
APENDICE
A. LISTA DE DISTRIBUIC
OES
148
x > 0, e para 1 , 2 > 0.
222 (1 + 2 2)
,
1 (2 4)(2 2)2
E(X) =
2
,
2 2
A.8
Distribui
c
ao Binomial
para 2 > 4.
A.9
Distribui
c
ao Multinomial
O vetor aleatorio X = (X1 , . . . , Xk ) tem distribuicao multinomial com parametros n e probabilidades 1 , . . . , k , denotada por Mk (n, 1 , . . . , k ) se sua funcao de
probabilidade conjunta e dada por
n!
x1 , . . . , kxk ,
p(x|1 , . . . , k ) =
x1 !, . . . , xk ! 1
xi = 0, . . . , n,
k
X
xi = n,
i=1
P
para 0 < i < 1 e ki=1 i = 1. Note que a distribuicao binomial e um caso
especial da multinomial quando k = 2. Alem disso, a distribuicao marginal de
cada Xi e binomial com parametros n e i e
E(Xi ) = ni ,
A.10
V (Xi ) = ni (1 i ),
e Cov(Xi , Xj ) = ni j .
Distribui
c
ao de Poisson
x e
,
x!
x = 0, 1, . . .
BINOMIAL NEGATIVA
A.11. DISTRIBUIC
AO
149
para > 0.
E(X) = V (X) = .
A.11
Distribui
c
ao Binomial Negativa
Ap
endice B
Propriedades de Algumas
Distribui
co
es de Probabilidade
Nos resultados a seguir assume-se que X1 , . . . , Xk sao k variaveis aleatorias independentes.
k
X
i=1
Xi Binomial
k
X
ni , p .
i=1
2. Se Xi P oisson(i ), i = 1, . . . , k. Entao
Y =
k
X
i=1
Xi P oisson
k
X
i=1
3. Se Xi Geometrica(p), i = 1, . . . , k. Entao
Y =
k
X
i=1
i=1
150
i=1
151
5. Se Xi Gama(i , ), i = 1, . . . , k. Entao
Y =
k
X
i=1
Xi Gama
k
X
i=1
i ,
6. Se Xi Exponencial(), i = 1, . . . , k. Entao
Y = min{Xi } Exponencial(k).
Ap
endice C
Soluc
oes de Exerccios
Selecionados
Captulo 4
Sec
ao 4.4
5. (a) a = 4 e b = 1
10. n = 396
Sec
ao 4.6
3. (a) media 0, 17, (b) moda 0, 15
4. media 2, 67
4. media 175, 86
Captulo 5
Sec
ao 5.5
1. (a) Definindo Y = log X segue por transformacao de variaveis que
p(y) = p(x(y))|
dx
ey/
| = [ey/ ]1
= ey , y > 0 (pois log x < 0).
dy
153
com 2 graus de liberdade c1 e c2 tais que
P (c1 < 2 log X < c2 ) = 0, 90.
3. Se X1 , . . . , Xn Exp() entao Xi Gama(1, ), i = 1, . . . , n e como
Pn
os Xi s sao independentes segue que
i=1 Xi Gama(n, ) e portanto
Pn
2
2 i=1 Xi 2n . Assim, basta obter as constantes c1 e c2 tais que
P
P (c1 < 2 ni=1 Xi < c2 ) = 1 em uma tabela qui-quadrado com 2n
graus de liberdade. Isolando segue que
2
c
Pn1
i=1
Xi
<<
c
Pn2
i=1
Xi
10. O I.C. de 99% para a diferenca media e [0,2143177; 4,185682]. Com 99%
de confianca podemos afirmar que a bebida teve efeito significativo pois em
media houve aumento nos escores apos ingestao de agua.
11.
Sec
ao 5.8
P
6. (b) Usando a distribuicao a posteriori do item (a) com ni=1 xi = 10 e n = 10,
segue que |x Gama(10, 5; 10). Portanto, 20|x 221 . Da tabela quiquadrado com 21 graus de liberdade obtemos que,
P (20 < 10.283) = 0.025 e P (20 > 35.479) = 0.025
e segue entao que 10.283/20 < < 35.479/20 com probabilidade 0.95 e o
intervalo de credibilidade e 0.51415 < < 1.77395.
Captulo 6
Sec
ao 6.1.3
1. (a) A funcao poder e dada por () = P (max{Xi } 1) = P (X1
Q
1, . . . , Xn 1) = ni=1 P (Xi 1) = 1/n .
(b) O tamanho do teste e dado por sup2 () = (2) = 1/2n .
APENDICE
C. SOLUC
OES
DE EXERCICIOS SELECIONADOS
154
Sec
ao 6.4
Pn
P
Q
Xi > c, (b) ni=1 (Xi )2 > c, (c) ni=1 Xi > c, (d) X > c.
P
2. Rejeitar H0 se ni=1 Xi2 > 36, 62.
P
3. Rejeitar H0 se ni=1 Xi > 31, 41.
P
P
5. Teste UMP rejeita H0 se
log Xi > c ou equivalentemente se log Xi <
c sendo que log Xi Exp().
1. (a)
i=1
Sec
ao 6.6.4
6 Da Tab. A.7 obtemos P (Y > 28.71)=0,01 sendo Y F (4, 3) entao
FSU P =28,71 Da Tab. A.7 obtemos P (Z > 16.69)=0,01 sendo Z
F (3, 4) entao FIN F =1/16,69 SA2 /SB2 = 770/3892 = 0.1978417 e como
0, 0599 < 0, 197841 < 28, 71 aceita-se H0 ao nvel de 2%.
Refer
encias
Broemeling, L. (1985). Bayesian Analysis of Linear Models. New York: Marcel
Dekker.
DeGroot, M. H. (1989). Probability and Statistics (2nd ed.). Addison Wesley.
DeGroot, M. H. and M. J. Schervish (2002). Probability and Statistics (3rd
ed.). Addison Wesley.
Evans, M., N. Hastings, and B. Peacock (1993). Statistical Distributions, Second Edition (Second ed.). Wiley Interscience.
Johnson, N. L., S. Kotz, and N. Balakrishnan (1995). Continuous Univariate
Distributions (2nd ed.), Volume 2. John Wiley, New York.
Johnson, N. L., S. Kotz, and A. W. Kemp (1992). Univariate Discrete Distributions (2nd ed.). John Wiley, New York.
Lehman, E. and J. P. Romano (2005). Testing Statistical Hypothesis (Third
ed.). Springer.
Migon, H. S. and D. Gamerman (1999). Statistical Inference: An Integrated
Approach. Arnold.
155