Você está na página 1de 10

teoria clássica da inferência estatística consiste em dois ramos: a

estimação e o teste de hipóteses. Até agora, abordamos o tema da estimação dos parâmetros do mo-

parâmetros 1, 2 e 2. Sob as hipóteses do modelo clássico de regressão linear, demonstramos que os es-
timadores desses parâmetros, 1, 2 e 2, satisfazem várias propriedades estatísticas desejáveis, como
a de não viés, variância mínima etc. (Lembre-se da propriedade de melhor estimador linear não vie-
sado [ou não tendencioso]: MELNT ou BLUE). Note que, como são estimadores, seus valores muda-
rão de amostra para amostra. Portanto, esses estimadores são variáveis aleatórias.
Mas a estimação é metade do caminho. A outra metade é o teste de hipóteses. Lembre-se de que, na
análise de regressão, nosso objetivo é não apenas estimar a função de regressão amostral (FRA), mas
também usá-la para fazer inferências sobre a função de regressão populacional (FRP), como enfatiza-
mos no Capítulo 2. Então, queremos saber até que ponto 1 aproxima-se de 1 ou quanto 2 está próxi-
mo do verdadeiro 2. Por exemplo, no Exemplo 3.2 estimamos a FRA apresentada na Equação (3.7.2).
Mas como essa regressão está baseada em uma amostra de 55 famílias, como saberemos se a PMC esti-

Portanto, como 1, 2 e 2 são variáveis aleatórias, precisamos descobrir suas distribuições de


probabilidade, pois, sem esse conhecimento, não seremos capazes de relacioná-las a seus verdadeiros
valores.

Para descobrir as distribuições de probabilidade dos estimadores de mínimos quadrados ordiná-


2. Como mostramos no Apêndice 3A.2,

2 k i Yi

em que ki xi xi2 Mas, como supomos que os X


Xi , a Equação (4.1.1)
mostra que 2 é uma função linear de Yi , que é aleatória por hipótese. Devido ao fato de Yi 1 2
Xi ui, podemos escrever a Equação (4.1.1) como

2 ki ( 1 2 Xi ui)
Modelo clássico de regressão linear normal (MCRLN)

Como ki, os betas e Xi 2 é, em última análise, uma função linear da variável alea-
tória ui, que é aleatória por hipótese. Portanto, a distribuição de probabilidade de 2 (e também de 1)
dependerá da hipótese adotada sobre a distribuição de probabilidade de ui. E, por ser necessário co-
nhecer as distribuições de probabilidade dos estimadores de mínimos quadrados ordinários para
fazer inferências sobre seus valores populacionais, a natureza da distribuição de probabilida-
de de u i assume um papel muito importante no teste de hipóteses.
-
bilística de ui; ele é de pouca ajuda para inferências sobre a função de regressão populacional com
base nos resultados da função de regressão amostral, apesar do teorema de Gauss-Markov. Esse hiato
pode ser preenchido se nos dispusermos a aceitar que os u seguem alguma distribuição de probabili-
dade. Por motivos explicados em breve, no contexto da regressão em geral supõe-se que os u sigam
a distribuição normal. Acrescentando a hipótese da normalidade para ui às hipóteses do modelo clás-
sico de regressão linear examinado no Capítulo 3, obtemos o que se conhece por modelo clássico de
regressão linear normal (MCRLN).

u i seja distribuído normal-


mente com

Média: E(u i ) 0

Variância: E[u i E(u i )]2 E u 2i 2

cov (ui, uj): E [(u i E(u i )][u j E(u j )] E(u i u j ) 0 i j

Essas hipóteses podem ser representadas de modo mais compacto como

2
ui N (0, )

em que o símbolo e N representa a distribuição normal, os termos entre


parênteses são os dois parâmetros da distribuição normal: a média e a variância.
Conforme observado no Apêndice A, no caso de duas variáveis com distribuição normal,
. Dada a hipó-
tese de normalidade, a Equação (4.2.4) indica que ui e uj não estão correlacionados e são distri-
buídos independentemente.
Dessa forma, podemos escrever a Equação (4.2.4) como

2
ui NID (0, )

em que NID representa normal e independentemente .

1. De acordo com a Seção 2.5, ui -


te) de um grande número de variáveis não incluídas explicitamente no modelo de regressão. Espera-

teorema central do limite (TCL) da estatística (veja o Apêndice A


para maiores detalhes) permite demonstrar que, se há um grande número de variáveis aleatórias
independentes e com distribuição idêntica, então, com poucas exceções, a distribuição de suas somas
1

ui.
2. Uma variante do TCL informa que, mesmo que o número de variáveis não seja muito grande
ou que essas variáveis não sejam estritamente independentes, sua soma ainda pode ser normalmen-
te distribuída.2
3. Dada a hipótese de normalidade, a distribuição de probabilidade dos estimadores de mínimos
quadrados ordinários pode ser facilmente derivada, porque, segundo o Apêndice A, uma das pro-
priedades da distribuição normal é que qualquer função linear de variáveis com distribuição
normal também é normalmente distribuída. Como já discutimos, os estimadores de mínimos
quadrados ordinários 1 e 2 são funções lineares de ui. Portanto, se os ui estiverem normalmente
distribuídos, 1 e 2 também estarão, o que facilita muito nossa tarefa de testar as hipóteses.
4. A distribuição normal é comparativamente simples, envolvendo apenas dois parâmetros (mé-
dia e variância); é muito conhecida e suas propriedades teóricas já foram extensamente estudadas na
estatística matemática. Além disso, muitos fenômenos parecem seguir a distribuição normal.

observações, a hipótese de normalidade assume um papel fundamental. Ela não só nos auxilia a derivar
a distribuição de probabilidade exata dos estimadores de mínimos quadrados ordinários, mas também
2
nos permite usar os testes estatísticos, t, F e , para modelos de regressão. As propriedades estatísticas
desses testes são discutidas no Apêndice A. Como mostraremos a seguir, se o tamanho da amostra for

amostras grandes, as estatísticas de t e F têm aproximadamente as distribuições


probabilísticas de t e F de forma que os testes de t e F que se baseiam na hipótese de que o erro pa-
drão tem distribuição normal ainda possam ser aplicados validamente.3 Hoje, há muita informação
sobre corte transversal e temporais que possuem um número razoavelmente grande de observações.
Portanto, a hipótese de normalidade pode não ser muito relevante em grandes conjuntos de dados.
-
cações práticas envolvendo dados de amostras pequenas se ela é adequada. Mais à frente, apresentare-
mos alguns testes que se destinam a isso e também veremos situações em que a hipótese de normalidade
pode ser inadequada. Por enquanto continuaremos trabalhando com a hipótese de normalidade pelos
motivos examinados anteriormente.

Dada a hipótese de que ui segue a distribuição normal como na Equação (4.2.5), os estimadores
de mínimos quadrados ordinários têm as seguintes propriedades (o Apêndice A apresenta uma dis-
cussão geral sobre as propriedades estatísticas desejáveis dos estimadores):
1. São não viesados.
estimadores não viesados
com variância mínima ou .
Modelo clássico de regressão linear normal (MCRLN)

3. São consistentes; -
res convergem para os verdadeiros valores da população.
4. 1 (que é uma função linear de ui) apresenta distribuição normal com

Média: E( 1) 1

2 X i2 2
var ( 1 ):
1 n xi2

2
1 N 1,
1

Pelas propriedades da distribuição normal, a variável Z

1 1
Z
1

segue a distribuição normal padrão; uma distribuição normal com média zero e variância unitária
( 1) ou

Z N (0, 1)

5. Como 2 (sendo uma função linear de ui) tem distribuição normal com

Média: E( 2) 2
2
2
var ( 2 ):
2 xi2

2
2 N 2,
2

Como na Equação (4.3.3),

2 2
Z
2

também segue a distribuição normal padrão. A Figura 4.1 apresenta geometricamente as distribuições
de probabilidades de 1 e 2.
6. ( 2)( 2/ 2) segue a distribuição de 2 (qui-quadrado) com ( 2) graus de liberdade.4 Essa
informação nos ajuda a fazer inferências a respeito do verdadeiro 2 com base em 2 estimado, como
mostraremos no Capítulo 5. (A distribuição de qui-quadrado e suas propriedades são discutidas no
Apêndice A.)
f( 1) f( 2)
Distribuição das
probabilidades de
Densidade

Densidade
1e 2.

1 2
E( 1) = 1 E( 2) = 2
f(Z) f(Z)
Densidade

Densidade

Z=
1 1 2– 2
Z
0 1 0 2

7. A distribuição de ( 1, 2) é independente de 2. A importância disso será explicada no próximo


capítulo.
8. 1 e 2 -
neares ou não. Esse resultado, formulado por Rao, é muito pertinente, pois, diferentemente do teorema
de Gauss-Markov, não se limita apenas à classe dos estimadores lineares.5 Podemos dizer que os esti-
madores de mínimos quadrados ordinários são os melhores estimadores não viesados (MELNT);
eles têm a variância mínima na classe inteira de estimadores não viesados.

Resumindo: o importante a observar é que a hipótese de normalidade nos permite deduzir as


distribuições de probabilidade, ou amostrais, de 1 e 2 (ambas normais) e de 2 (relacionada à qui-

Note também que, dada a hipótese de que ui N(0, 2), Yi, sendo uma função linear de ui, também
está distribuído normalmente com média e variância dadas por

E(Yi ) 1 2 Xi

2
var (Yi )

2
Yi N( 1 2 Xi , )

Um método de estimação pontual com algumas propriedades teóricas mais fortes que as do mé-
todo dos mínimos quadrados ordinários é o da máxima verossimilhança (MV). Tratando-se de um
-
ciente observar que, se considerarmos a distribuição de ui
examinadas, os estimadores de máxima verossimilhança e de mínimos quadrados ordinários dos coe-
, serão idênticos e isso é válido tanto para as regressões simples quanto
2
é u i2 n Esse estimador
2
é viesado, enquanto o estimador de mínimos quadrados ordinários de u i2 (n 2) é, como
Modelo clássico de regressão linear normal (MCRLN)

vimos, não viesado. Mas, comparando esses dois estimadores de 2, vemos que, à medida que o ta-
manho da amostra n aumenta, os dois estimadores de 2 tendem a se igualarem. Dessa forma, assin-
2
toticamente (quando n
também é não viesado.
Como o método dos mínimos quadrados acrescido da hipótese de normalidade de ui nos oferece
todas as ferramentas necessárias tanto para a estimação quanto para o teste de hipóteses dos modelos
de regressão linear, não há perda para os leitores que não se interessarem pelo método da máxima
verossimilhança em função de sua possível complexidade matemática.

1. Este capítulo abordou o modelo clássico de regressão linear normal (MCRLN).


2. A diferença entre este modelo e o modelo clássico de regressão linear (MCRL) é que o primeiro
ui
modelo de regressão linear clássico não requer qualquer hipótese sobre a distribuição de proba-
bilidade ui; apenas exige que o valor médio de ui seja igual a zero e sua variância seja uma cons-

teorema central do limite.


4. Sem a hipótese de normalidade, sob as demais hipóteses examinadas no Capítulo 3, o teorema de

viesados (MELNT ou BLUE).


melhores es-
timadores não viesados (MENT ou BUE), mas também seguem distribuições de probabilidade
-
ui ( 2)
relaciona-se à distribuição qui-quadrado.
6. Nos Capítulos 5 e 8 mostraremos como este conhecimento é útil para inferências sobre os valores
dos parâmetros populacionais.
7. Uma alternativa ao método dos mínimos quadrados é o da máxima verossimilhança (MV). No
entanto, para aplicar esse método, é preciso fazer uma suposição sobre a distribuição de proba-
bilidade do termo de erro ui. No contexto da regressão, a suposição mais empregada é de que ui
segue a distribuição normal.

ui são diferentes. Em grandes amostras, os dois estimadores


convergem.
método de amostras grandes. Ele tem
uma aplicação mais ampla, já que também pode ser usado para modelos de regressão não lineares

veja o Capítulo 14.


10. Neste livro, usaremos muito o método dos mínimos quadrados ordinários por questões práticas:
(a) comparado ao método da máxima verossimilhança, o dos mínimos quadrados é fácil de apli-
car; (b) os estimadores de máxima verossimilhança e os de mínimos quadrados ordinários de 1 e
2 são idênticos (o que também é válido para as regressões múltiplas); e (c) mesmo em amostras
relativamente grandes, os estimadores de 2 dos dois métodos citados não diferem demasiada-
mente.

No entanto, para os leitores com mais inclinação à matemática, apresentamos uma breve introdução
ao método da máxima verossimilhança no apêndice a seguir e também no Apêndice A.
Suponha que no modelo de duas variáveis i 1 2 Xi ui os i sejam normal e independentemente dis-
2
tribuídos, com média 1 2Xi e variância . -
sidade de probabilidade conjunta de Y1, Y2, . . . , Yn, dadas a média e a variância anteriores, pode ser escrita
como
2
f (Y1 , Y2 , , Yn 1 2 Xi , )

Mas, tendo em vista a independência dos Y, essa função de densidade de probabilidade conjunta pode ser
expressa como um produto de n funções de densidade individuais
2
f (Y1 , Y2 , , Yn 1 2 Xi , )
2 2 2
f (Y1 1 2 Xi , ) f (Y2 1 2 Xi , ) f (Yn 1 2 Xi , )
em que
2
1 1 (Yi 1 2 Xi )
f (Yi ) exp 2
2 2

que é a função de densidade de uma variável com distribuição normal, dadas a média e a variância.
( e elevado à potência da expressão indicada por {}.)
Substituindo a Equação (2) por cada Yi na Equação (1) obtemos
2
2 1 1 (Yi 1 2 Xi )
f (Yi , Y2 , , Yn 1 2 Xi , ) n exp 2
n 2 2

Se Y1, Y2, ..., Yn são conhecidos ou dados, mas 1, 2 e 2 não são, a função na Equação (3) é chamada de
2
função de verossimilhança, 1, 2 e ), e expressa como16
2
2 1 1 (Yi 1 2 Xi )
FV( 1 , 2, ) n exp 2
n 2 2

método da máxima verossimilhança, como o nome indica, consiste em estimar os parâmetros desco-
nhecidos de maneira que a probabilidade de observar os dados Y seja a maior (ou a máxima) possível. Precisa-

derivar, é mais fácil expressar a Equação (4) na forma logarítmica, como a seguir.2 ( ln log natural.)
2
n 1 (Yi 1 2 Xi )
ln FV n ln ln (2 ) 2
2 2
2
n 2 n 1 (Yi 1 2 Xi )
ln ln (2 ) 2
2 2 2
2
Derivando a Equação (5) parcialmente em relação a 1, 2e , obtemos

ln FV 1
2
(Yi 1 2 X i )( 1)
1
Modelo clássico de regressão linear normal (MCRLN)

ln FV 1
2
(Yi 1 2 X i )( Xi )
2

ln FV n 1 2
2 2 4
(Yi 1 2 Xi )
2 2

-
2
res de máxima verossimilhança por 1, 2 e obtemos3

1 ˜1 ˜2 X i )
(Yi 0
˜2
1 ˜1 ˜2 X i ) X i
(Yi 0
˜2
n 1 ˜1 ˜2 X i ) 2
(Yi 0
2˜2 2˜ 4

Yi n ˜1 ˜2 Xi

Yi X i ˜1 Xi ˜2 X i2

que são exatamente as equações normais da teoria dos mínimos quadrados obtidas nas Equações (3.1.4) e (3.1.5).
Portanto, os estimadores de máxima verossimilhança, os , dados
nas Equações (3.1.6) e (3.1.7). Essa igualdade não é acidental. Examinando a verossimilhança (5), vemos que o
último termo entra com sinal negativo. Maximizar a Equação (5) é o mesmo que minimizar esse termo, que é
justamente o que faz a abordagem dos mínimos quadrados, como se pode ver na Equação (3.1.2).
Substituindo na Equação (11) os estimadores de máxima verossimilhança ( -
mos o estimador de máxima verossimilhança para 2 como

1 ˜1 ˜2 X i ) 2
˜2 (Yi
n

1 2
(Yi 1 2 Xi )
n
1
u 2i
n
2
difere do estimador de
2
[1 (n 2)] u 2i , que como já foi demonstrado no Apêndice 3A é um estimador não viesados
de 2. Assim, o estimador de máxima verossimilhança de 2 é viesado. A magnitude desse viés pode ser de-
terminada com facilidade do seguinte modo:
Tomando-se a esperança matemática da Equação (14) de ambos os lados, obtemos
1
E( ˜ 2 ) E u 2i
n

n 2 2
usando a Equação (16) da Seção 3A.5
n
do Apêndice 3A
2 2 2
n
que mostra que 2 é viesado para baixo (isto é, subestima o verdadeiro 2
) em amostras pequenas. Note que
quando n,
tende a zero. Portanto, assintoticamente (em amostras muito grandes), 2 também é não viesado, ou seja, lim
E( 2) 2
quando . Pode-se demonstrar adicionalmente que 2 é também um estimador consistente4;
2
conforme n converge para seu valor verdadeiro 2.

despesas totais em 55 domicílios rurais na Índia. Como, sob a hipótese de normalidade, os estimadores dos coe-
-
2
1 = 1 94,2087 e 2 2
é 2 2
-
vado, em amostras pequenas, o estimador de máxima verossimilhança é viesado para baixo; subestima em mé-
dia a verdadeira variância de 2. Naturalmente, como seria de esperar, quando o tamanho da amostra aumenta,

de –308,1625. Nenhum outro valor dos parâmetros proporcionará uma probabilidade maior de obter a amostra
utilizada na análise.

igual a zero. Mas o inverso não é necessariamente verdadeiro, isto é, correlação zero não implica indepen-
dência estatística. Contudo, se duas variáveis têm distribuição normal, correlação igual a zero implica ne-

probabilidade conjunta de duas variáveis, Y1 e Y2, normalmente distribuídas (essa função de densidade de pro-
babilidade conjunta é conhecida como função de densidade de probabilidade normal bivariada):

1 1
f (Y1 , Y2 ) exp 2)
2 1 2 1 2 2(1

2 2
Y1 1 (Y1 1 )(Y2 2) Y2 2
2 2
1 1 2

em que 1 média de Y1
2 média de Y2
1 desvio padrão de Y1
2 desvio padrão de Y2
Y1 e Y2
4.2. Aplicando as condições de segunda ordem para a otimização (teste da derivada segunda), mostre que o
estimador de máxima verossimilhança de 1, 2 e 2 obtidos pela solução das Equações (9), (10) e (11)
maximizam, de fato, a função de verossimilhança na Equação (4).
Modelo clássico de regressão linear normal (MCRLN)

4.3. Uma variável aleatória X segue a distribuição exponencial se tem a seguinte função de densidade de proba-
bilidade:
X
f ( X) (1 )e para X 0
0 nos demais casos

em que 0 é o parâmetro da distribuição. Usando o método de máxima verossimilhança, mostre que o


é X i n, em que n
de máxima verossimilhança de é a média amostral X .
-
meando X 1 quando o resultado é um sucesso e X 0 quando é um fracasso, a função de densidade de
probabilidade, ou massa, de X é dada por

p( X 0) 1 p
p( X 1) p, 0 p 1

Qual o mais provável estimador de p

Você também pode gostar