Lecture06 - Distribuição Amostral Dos Estimadores Da RLM, Testes de Hipóteses

Análise Multivariada I
Graduação em Ciências Atuariais
Henrique Castro
hcastro@usp.br
Universidade de São Paulo
2017
1 of 34
Lecture 6
Análise de regressão múltipla: distribuição
amostral dos estimadores, testes de hipótese e
intervalos de confiança
2 of 34
Introdução
Lecture 6: Distribuição amostral dos estimadores MQO
• Nesta aula trataremos dos testes de hipótese acerca dos

parâmetros do modelo de regressão populacional.
• Especificamente, trataremos:
◦ Da distribuição dos estimadores MQO sob o pressuposto de
distribuição Normal dos termos de erro.
◦ Dos diferentes testes de hipótese acerca de parâmetros individuais.
3 of 34
Recapitulação
• Até agora nós estudamos pressupostos que garantem que o método

MQO é não enviesado.
• Também discutimos o viés causado por variável omitida.
• Vimos também que a variância do estimador MQO é a menor
entre os estimadores lineares não enviesados (BLUE).
• Derivamos a esperança e a variância dos estimadores MQO.
4 of 34
Esperança e variância não bastam
• Conhecer o valor esperado e a variância dos estimadores de MQO é

útil para descrever a precisão deles.
• Porém, para a inferência estatística, necessitamos conhecer mais
que os dois primeiros momentos de β̂j .
• Precisamos conhecer a distribuição amostral completa de β̂j , que
pode ter qualquer forma mesmo sob os pressupostos de
Gauss-Markov.
• A distribuição dos estimadores depende da distribuição dos erros.
Por isso, vamos precisar de um novo pressuposto.
5 of 34
Pressuposto 6
Normalidade
O erro populacional u é independente das variáveis explicativas
x1 , x2 , . . . , xk e é normalmente distribuído com média zero e variância
σ 2 : u ∼ N(0, σ 2 ).
• Esse pressuposto é muito mais forte que quaisquer dos anteriores.
• Note que como u é independente de xj , o Pressuposto 6 já garante
◦ E(u|x1 , . . . , xk ) = E(u) = 0, e
◦ V(u|x1 , . . . , xk ) = V(u) = σ 2 .
• Ou seja, se assumirmos o Pressuposto 6, estamos assumindo os
Pressupostos 4 (média condicional zero) e 5 (homoscedasticidade).
6 of 34
Pressupostos do MLC
• Para aplicações em cross-section (dados transversais), os

pressupostos 1 a 6 são chamados de pressupostos do modelo
linear clássico (MLC).
• Os pressupostos do MLC contém os cinco pressupostos de
Gauss-Markov mais o pressuposto de normalidade dos termos de
erro.
• Sob os pressupostos do MLC, os estimadores β̂j serão os
estimadores não enviesados de menor variância entre todos os
estimadores não enviesados (lineares ou não).
• Os pressupostos do MLC podem ser resumidos como:
y |x ∼ N(β0 + β1 x1 + · · · + βk xk , σ 2 ).
7 of 34
Por que distribuição Normal?
• O argumento que justifica uma distribuição normal para os termos

de erro é:
◦ O erro u contém inúmeros fatores não observados que afetam y .
◦ Esses fatores, cada um, tem sua própria distribuição de probabilidade
(não necessariamente Normal).
◦ Pelo Teorema Central do Limite (TCL), agregadamente, o termo de
erro tende a ter distribuição Normal.
• Fraquezas do argumento:
◦ As distribuições dos fatores podem ser muito diferentes de uma
Normal, fazendo com que a aproximação do erro à Normal seja ruim.
◦ Possíveis interações complexas entre os fatores também podem causar
uma aproximação ruim do erro à Normal.
8 of 34
Assumindo normalidade de u
• Em qualquer aplicação, saber se a normalidade de u pode ser

assumida é uma questão empírica.
• Por exemplo, não há teorema dizendo que salário condicionado a
educação, experiência e tenure é normalmente distribuído.
• Salários não podem assumir valores negativos. Salários possuem
um mínimo que concentra muitas observações na sua vizinhança.
• Por essas razões, salário não pode ser normalmente distribuído.
• Contudo, como uma questão prática, podemos verificar se a
distribuição condicional do salário está próxima de uma distribuição
normal.
9 of 34
As boas notícias
• Frequentemente, fazer uma transformação, especialmente

logarítmica, produz uma distribuição mais próxima da normal.
• A outra boa notícia é que normalidade não é um problema grave
em grandes amostras.
10 of 34
Distribuição Normal dos estimadores
• A normalidade do termo de erro traduz-se nas distribuições normais

amostrais dos estimadores MQO:
β̂j ∼ N[βj , V(β̂j )], (L6.1)
tal que V(β̂j ) = σ 2 /[SSTj (1 − Rj2 )].

• Portanto,
(β̂j − βj )/dp(β̂j ) ∼ N(0, 1).
• Para mostrar (L6.1), usamos o conhecimento que β̂j é uma combinação

linear dos erros na amostra, ui , que sob os Pressupostos 2 e 6 são iid
com distribuição N(0, σ 2 ).
• Como uma combinação linear de v.a. Normais é uma v.a. Normal, os β̂j
têm distribuição Normal.
11 of 34
Introdução
Lecture 6: Teste de hipótese acerca de um parâmetro populacional
• Seja o seguinte modelo populacional:
y = β0 + β1 x1 + · · · + βk xk + u. (L6.2)
• O método MQO produz estimadores não enviesados de βj , o

parâmetro verdadeiro e desconhecido da população.
• Todavia, podemos construir hipóteses sobre o valor de βj e, em
seguida, utilizar a inferência estatística para testar nossa hipótese.
12 of 34
Distribuição do estimador padronizado
• A fim de construir os testes de hipóteses, precisamos do seguinte

resultado:
βbj − βj
∼ tn−k−1 . (L6.3)
ep(β̂j )
• Na equação acima, k + 1 é o número de parâmetros desconhecidos no

modelo populacional.
• A distribuição t surge por conta da constante σ em ep(β̂j ) ter que ser
substituída pela v.a. σ̂.
• Isso faz com que tenhamos a razão entre uma v.a. com distribuição
Normal e a raiz de uma v.a. com distribuição qui-quadrado. Isso gera
uma v.a. com distribuição t.
13 of 34
Distribuição do estimador padronizado
• A equação (L6.3) nos permite testar hipóteses que envolvem βj ,

como:
H0 : βj = 0. (L6.4)
• A equação (L6.4) quer dizer que a j-ésima variável não tem efeito
sobre o valor esperado de y após controlarmos por todas as demais
variáveis independentes.
14 of 34
Ilustração
• Considere a equação do salário como:
log(wage) = β0 + β1 educ + β2 exper + β3 tenure + u. (L6.5)
• A hipótese nula H0 : β2 = 0 significa que, controlando por

educação e tenure, o número de anos no mercado de trabalhos
(exper ) não tem efeito sobre o salário por hora.
• Se β2 > 0, então a experiência prévia de trabalho está relacionada
a maiores salários.
15 of 34
Estatística t
• A estatística que usamos para testar hipóteses é chamada de estatística

t, e é definida como:
tβ̂j ≡ β̂j /ep(β̂j ). (L6.6)
• Em qualquer problema prático, a estimativa pontual β̂j nunca será

exatamente zero, seja H0 verdadeira ou não.
• A questão é: quão distante de zero está β̂j ?
• Como há um certo erro amostral na estimativa de β̂j , devemos ponderar
seu valor pelo seu erro padrão, conforme (L6.6).
• Valores de tβ̂ suficientemente distantes de zero rejeitarão H0 .
j
• Atenção: sempre estamos testando hipóteses acerca do parâmetro

populacional.
16 of 34
Hipótese alternativa
• Para saber se podemos rejeitar ou não H0 , devemos enunciar

também uma hipótese alternativa.
• Considere a seguinte hipótese alternativa unicaudal:
H1 : βj > 0. (L6.7)
• Quando declaramos a hipótese alternativa como em (L6.7),

estamos declarando H0 como H0 : βj ≤ 0.
• Se βj for o parâmetro de educação na regressão de salário, só
estamos interessados em saber se betaj é diferente de zero quando
ele for positivo.
17 of 34
Regra de rejeição
• Para escolher uma regra de rejeição, devemos escolher um nível de

significância, ou probabilidade α de rejeitar H0 quando ela de fato
for verdadeira. Geralmente α = 5%.
• Podemos também escolher um valor crítico c, ou seja, um valor
que proporcionará a rejeição de H0 em 5% dos casos quando H0
for verdadeira:
tβ̂j > c. (L6.8)
• A regra de rejeição que escolhemos em (L6.8) leva a um teste

unicaudal.
18 of 34
Exemplo 1
• Use os dados do arquivo WAGE1.dta e estime a equação
\ = 0.284 + 0.092 educ + 0.0041 exper + 0.022 tenure

lwage
(0.104) (0.007) (0.0017) (0.003)
2
n = 526 R = 0.316.
• Teste H0 : βexper = 0 versus a H1 : βexper > 0 usando α = 0.05.

• Como você enunciaria o resultado do teste desse hipótese?
• Qual o efeito de três anos a mais de experiência sobre salário,
mantendo constantes educação e tenure?
• Esse efeito é grande economicamente?
19 of 34
Regra de rejeição novamente
• Quando testamos uma alternativa unicaudal de que o parâmetro

populacional é menor que zero, temos:
H1 : βj < 0. (L6.9)
• A regra de rejeição passa a ser:
tβ̂j < −c, (L6.10)
tal que c é o valor crítico.

• Lembre-se que a distribuição t é simétrica.
20 of 34
Exemplo 2
• Um estudo clássico é sobre o efeito do tamanho da escola e o

desempenho de estudantes. Uma hipótese é que, ceteris paribus,
estudantes de escolas menores vão melhor que os de escolas maiores.
• Essa hipótese seria verdadeira mesmo controlando pelas diferenças no
tamanho das salas que existe entre as escolas.
• Use o arquivo MEAP93.dta que contém dados de 408 escolas de
Michigan no ano de 1993 e teste a hipótese
H0 : βenroll = 0 versus H1 : βenroll < 0.
• Tamanho da escola é medido como a quantidade de matrículas (enroll),
desempenho é medido como math10 e você deve usar dois controles:
totcomp, o salário médio anual do corpo docente (proxy para qualidade
do corpo docente), e staff , quantidade de funcionários por mil
estudantes.
21 of 34
Exemplo 2: efeito da forma funcional
• Para ilustrar como a forma funcional das variáveis pode influenciar

as conclusões, estime o mesmo modelo usando log nas variáveis
independentes.
• As conclusões se alteram?
• Você prefere o modelo nível-nível ou o modelo nível-log?
• Por quê?
22 of 34
Regra de rejeição novamente
• Em testes de hipótese bicaudais, nossa hipótese nula é H0 : βj = 0

e a alternativa é
H1 : βj 6= 0. (L6.11)
• A regra de rejeição para testes de hipótese bicaudais é
|tβ̂j | > c. (L6.12)
• Quando uma hipótese alternativa não é explicitamente definida, é

comum considerarmos o caso bicaudal.
23 of 34
Exemplo 3
• Usando os dados do arquivo GPA1.dta, estimamos o modelo que

explica a nota (colGPA) na faculdade em termos do número de
faltas por semana (skipped), além da nota no ensino médio
(hsGPA) e do vestibular (ACT ).
• O resultado é:
\ = 1.39 + 0.412 hsGPA + 0.015 ACT − 0.083 skipped

colGPA
(0.33) (0.094) (0.011) (0.026)
2
n = 141 R = 0.234
• Quais variáveis são estatisticamente significantes em um teste

bicaudal?
• Como você interpreta o coeficiente de skipped?
24 of 34
Outros testes de hipótese
• Testar H0 : βj = 0 é o teste mais comum em análise de regressão,

mas não é o único.
• Podemos querer testar se o parâmetro populacional é igual a um
valor em especial:
H0 : β j = a j , (L6.13)
tal que aj é nosso valor conjecturado para βj .

• A estatística t apropriada é
t = (β̂j − aj )/ep(β̂j ).
• Assim como antes, t mede quantos desvios-padrão β̂j está distante

do valor conjecturado para βj .
25 of 34
Exemplo 4
• Considere o modelo de regressão simples que relaciona a

quantidade anual de crimes cometidos em diversos campi (crime) e
a quantidade de estudantes em cada campi (enroll).
• Estimando um modelo log-log com o arquivo de dados
CAMPUS.dta, temos que β1 mede a elasticidade do crime com
relação à quantidade de estudantes.
• Uma hipótese interessante é testar se essa elasticidade é igual a 1
contra a alternativa de que é maior. Por quê?
• Qual o resultado do teste de hipótese?
\ = − 6.63 + 1.27 lenroll

lcrime
(1.03) (0.11)
2
n = 97 R = 0.585
26 of 34
Calculando p-valores
• Dado o valor observado da estatística t, qual o menor nível de

significância que faria com que a hipótese nula fosse rejeitada?
• Esse nível é chamado de p-valor do teste.
• Os softwares que estimam regressões geralmente reportam esse
resultado para um teste bicaudal.
• Se nossa hipótese alternativa for unicaudal, basta dividir o p-valor
por 2.
27 of 34
Lembrete sobre terminologia
• Quando H0 não é rejeitada, costumamos dizer “não conseguimos

rejeitar H0 no nível de x%”.
• Nunca dizemos que “aceitamos” H0 .
• Isso porque ao não rejeitarmos H0 : βj = 1, por exemplo, não
necessariamente é porque βj é igual a um.
• Ele pode ser igual a (muitos) outros valores na vizinhança de 1.
28 of 34
Significância estatística v. econômica
• Não devemos prestar atenção só no tamanho das estatísticas t

(significância estatística).
• Devemos prestar atenção também na magnitude das estimativas
dos coeficientes (significância econômica).
• A significância econômica da variável está relacionada ao tamanho
e ao sinal de β̂j .
• A significância estatística pode ser alcançada tanto porque β̂j é
grande como porque ep(β̂j ) é pequeno.
29 of 34
Significância estatística v. econômica
• Colocar muita ênfase sobre a significância estatística pode levar à

conclusão falsa de que uma variável é importante para explicar y
embora seu efeito estimado seja moderado.
• Outro aspecto que deve ser levado em consideração é o tamanho
da amostra. Em geral, os erros-padrão tendem a diminuir com o
aumento do tamanho da amostra. Assim, costuma-se usar níveis
de significância menores, como 1%, nesses casos.
30 of 34
Exemplo 5
• A taxa de refugo de uma indústria é a quantidade de itens defeituosos a

cada 100 unidades produzidas. Para uma quantidade de itens produzidos,
a taxa de refugo é uma medida da produtividade dos empregados.
• As v.i. do modelo são: hrsemp mede a quantidade de horas de
treinamento por ano de cada empregado, lsales é o log da receita da
empresa em dólares, e lemploy é o log da quantidade de empregados.
• Usando o arquivo JTRAIN.dta e os dados apenas para o ano de 1987
(year = 1987) das empresas não sindicalizadas (union = 0), estime o
modelo:
lscrap = β0 + β1 hrsemp + β2 lsales + β3 lemploy + u.
• A variável de interesse é hrsemp. Analise a significância estatística e
econômica dessa variável.
• Como o tamanho da amostra pode influenciar nesse resultado?
31 of 34
Recomendações
• Cheque a significância estatística. Se for significante, discuta a

magnitude do coeficiente (significância econômica).
• Se não for estatisticamente significante nos níveis usuais (10%, 5% ou
1%), verifique se obteve o efeito esperado sobre y e se tal efeito é, na
prática, grande. Se for, verifique o p-valor. Para n pequeno você pode, às
vezes, construir um argumento para p-valores pouco maiores que 10%.
• É comum encontrar estatísticas t pequenas que têm o sinal “errado”.
Para propósitos práticos, ignore-as, concluindo que são estatisticamente
não significantes.
• Uma variável importante com sinal “errado” e significância econômica é
um problema muito mais preocupante e difícil de resolver. Repense o
modelo e a natureza dos dados: pode haver variáveis omitidas ou outros
problemas de especificação.
32 of 34
Intervalos de confiança
Lecture 6: Intervalos de confiança
• Sob os pressupostos do MLC é fácil construir intervalos de confiança (IC)

para o parâmetro populacional βj :
β̂j ± c · ep(β̂j ), (L6.14)
tal que c é o valor crítico da distribuição t com n − k − 1 graus de

liberdade para o percentil desejado.
Qual o significado de intervalo de confiança?

Se amostras aleatórias fossem obtidas sucessivamente e para cada uma delas
um IC de 95% fosse obtido, o verdadeiro (e desconhecido) parâmetro
populacional estaria dentro de 95% desses intervalos.
• Na prática, só construímos um IC. E βj está dentro desse IC ou não está.

Mas há 95% de chance de termos obtido um IC que contenha βj .
33 of 34
Exemplo 6
Lecture 6: Intervalos de confiança
• Estamos interessados na relação entre tamanho da empresa

(medido pelas vendas) e gastos com P&D.
• Também estamos interessados no efeito da margem sobre vendas
(profmarg) sobre os gastos com P&D.
• Use o arquivo RDCHEM.dta com dados de 32 empresas químicas
americanas para estimar a equação:
log(rd) = β0 + β1 log(sales) + β2 profmarg + u.
• Calcule um IC de 95% para a elasticidade das vendas sobre os

gastos com P&D.
• Você rejeitaria H0 : βlsales = 1 em um teste bicaudal? E
H0 : βprofmarg = 0?
34 of 34

Lecture06 - Distribuição Amostral Dos Estimadores Da RLM, Testes de Hipóteses

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Lecture06 - Distribuição Amostral Dos Estimadores Da RLM, Testes de Hipóteses

Enviado por

Direitos autorais:

Formatos disponíveis

Análise Multivariada I

Graduação em Ciências Atuariais

Universidade de São Paulo

• Nesta aula trataremos dos testes de hipótese acerca dos

• Até agora nós estudamos pressupostos que garantem que o método

• Conhecer o valor esperado e a variância dos estimadores de MQO é

• Para aplicações em cross-section (dados transversais), os

• O argumento que justifica uma distribuição normal para os termos

• Em qualquer aplicação, saber se a normalidade de u pode ser

• Frequentemente, fazer uma transformação, especialmente

• A normalidade do termo de erro traduz-se nas distribuições normais

tal que V(β̂j ) = σ 2 /[SSTj (1 − Rj2 )].

(β̂j − βj )/dp(β̂j ) ∼ N(0, 1).

• Para mostrar (L6.1), usamos o conhecimento que β̂j é uma combinação

• Seja o seguinte modelo populacional:

• O método MQO produz estimadores não enviesados de βj , o

• A fim de construir os testes de hipóteses, precisamos do seguinte

• Na equação acima, k + 1 é o número de parâmetros desconhecidos no

• A equação (L6.3) nos permite testar hipóteses que envolvem βj ,

• Considere a equação do salário como:

log(wage) = β0 + β1 educ + β2 exper + β3 tenure + u. (L6.5)

• A hipótese nula H0 : β2 = 0 significa que, controlando por

• A estatística que usamos para testar hipóteses é chamada de estatística

• Em qualquer problema prático, a estimativa pontual β̂j nunca será

• Atenção: sempre estamos testando hipóteses acerca do parâmetro

• Para saber se podemos rejeitar ou não H0 , devemos enunciar

• Quando declaramos a hipótese alternativa como em (L6.7),

• Para escolher uma regra de rejeição, devemos escolher um nível de

tβ̂j > c. (L6.8)

• A regra de rejeição que escolhemos em (L6.8) leva a um teste

• Use os dados do arquivo WAGE1.dta e estime a equação

\ = 0.284 + 0.092 educ + 0.0041 exper + 0.022 tenure

• Teste H0 : βexper = 0 versus a H1 : βexper > 0 usando α = 0.05.

• Quando testamos uma alternativa unicaudal de que o parâmetro

• A regra de rejeição passa a ser:

tβ̂j < −c, (L6.10)

tal que c é o valor crítico.

• Um estudo clássico é sobre o efeito do tamanho da escola e o

• Para ilustrar como a forma funcional das variáveis pode influenciar

• Em testes de hipótese bicaudais, nossa hipótese nula é H0 : βj = 0

• A regra de rejeição para testes de hipótese bicaudais é

|tβ̂j | > c. (L6.12)

• Quando uma hipótese alternativa não é explicitamente definida, é

• Usando os dados do arquivo GPA1.dta, estimamos o modelo que

\ = 1.39 + 0.412 hsGPA + 0.015 ACT − 0.083 skipped

• Quais variáveis são estatisticamente significantes em um teste

• Testar H0 : βj = 0 é o teste mais comum em análise de regressão,

tal que aj é nosso valor conjecturado para βj .

• Assim como antes, t mede quantos desvios-padrão β̂j está distante

• Considere o modelo de regressão simples que relaciona a

\ = − 6.63 + 1.27 lenroll

• Dado o valor observado da estatística t, qual o menor nível de

• Quando H0 não é rejeitada, costumamos dizer “não conseguimos

• Não devemos prestar atenção só no tamanho das estatísticas t

• Colocar muita ênfase sobre a significância estatística pode levar à

• A taxa de refugo de uma indústria é a quantidade de itens defeituosos a

• Cheque a significância estatística. Se for significante, discuta a

• Sob os pressupostos do MLC é fácil construir intervalos de confiança (IC)

β̂j ± c · ep(β̂j ), (L6.14)

tal que c é o valor crítico da distribuição t com n − k − 1 graus de

Qual o significado de intervalo de confiança?

• Na prática, só construímos um IC. E βj está dentro desse IC ou não está.

• Estamos interessados na relação entre tamanho da empresa