Você está na página 1de 34

Análise Multivariada I

Graduação em Ciências Atuariais

Henrique Castro
hcastro@usp.br

Universidade de São Paulo

2017

1 of 34
Lecture 6
Análise de regressão múltipla: distribuição
amostral dos estimadores, testes de hipótese e
intervalos de confiança

2 of 34
Introdução
Lecture 6: Distribuição amostral dos estimadores MQO

• Nesta aula trataremos dos testes de hipótese acerca dos


parâmetros do modelo de regressão populacional.
• Especificamente, trataremos:
◦ Da distribuição dos estimadores MQO sob o pressuposto de
distribuição Normal dos termos de erro.
◦ Dos diferentes testes de hipótese acerca de parâmetros individuais.

3 of 34
Recapitulação
Lecture 6: Distribuição amostral dos estimadores MQO

• Até agora nós estudamos pressupostos que garantem que o método


MQO é não enviesado.
• Também discutimos o viés causado por variável omitida.
• Vimos também que a variância do estimador MQO é a menor
entre os estimadores lineares não enviesados (BLUE).
• Derivamos a esperança e a variância dos estimadores MQO.

4 of 34
Esperança e variância não bastam
Lecture 6: Distribuição amostral dos estimadores MQO

• Conhecer o valor esperado e a variância dos estimadores de MQO é


útil para descrever a precisão deles.
• Porém, para a inferência estatística, necessitamos conhecer mais
que os dois primeiros momentos de β̂j .
• Precisamos conhecer a distribuição amostral completa de β̂j , que
pode ter qualquer forma mesmo sob os pressupostos de
Gauss-Markov.
• A distribuição dos estimadores depende da distribuição dos erros.
Por isso, vamos precisar de um novo pressuposto.

5 of 34
Pressuposto 6
Lecture 6: Distribuição amostral dos estimadores MQO

Normalidade
O erro populacional u é independente das variáveis explicativas
x1 , x2 , . . . , xk e é normalmente distribuído com média zero e variância
σ 2 : u ∼ N(0, σ 2 ).
• Esse pressuposto é muito mais forte que quaisquer dos anteriores.
• Note que como u é independente de xj , o Pressuposto 6 já garante
◦ E(u|x1 , . . . , xk ) = E(u) = 0, e
◦ V(u|x1 , . . . , xk ) = V(u) = σ 2 .
• Ou seja, se assumirmos o Pressuposto 6, estamos assumindo os
Pressupostos 4 (média condicional zero) e 5 (homoscedasticidade).

6 of 34
Pressupostos do MLC
Lecture 6: Distribuição amostral dos estimadores MQO

• Para aplicações em cross-section (dados transversais), os


pressupostos 1 a 6 são chamados de pressupostos do modelo
linear clássico (MLC).
• Os pressupostos do MLC contém os cinco pressupostos de
Gauss-Markov mais o pressuposto de normalidade dos termos de
erro.
• Sob os pressupostos do MLC, os estimadores β̂j serão os
estimadores não enviesados de menor variância entre todos os
estimadores não enviesados (lineares ou não).
• Os pressupostos do MLC podem ser resumidos como:

y |x ∼ N(β0 + β1 x1 + · · · + βk xk , σ 2 ).
7 of 34
Por que distribuição Normal?
Lecture 6: Distribuição amostral dos estimadores MQO

• O argumento que justifica uma distribuição normal para os termos


de erro é:
◦ O erro u contém inúmeros fatores não observados que afetam y .
◦ Esses fatores, cada um, tem sua própria distribuição de probabilidade
(não necessariamente Normal).
◦ Pelo Teorema Central do Limite (TCL), agregadamente, o termo de
erro tende a ter distribuição Normal.
• Fraquezas do argumento:
◦ As distribuições dos fatores podem ser muito diferentes de uma
Normal, fazendo com que a aproximação do erro à Normal seja ruim.
◦ Possíveis interações complexas entre os fatores também podem causar
uma aproximação ruim do erro à Normal.

8 of 34
Assumindo normalidade de u
Lecture 6: Distribuição amostral dos estimadores MQO

• Em qualquer aplicação, saber se a normalidade de u pode ser


assumida é uma questão empírica.
• Por exemplo, não há teorema dizendo que salário condicionado a
educação, experiência e tenure é normalmente distribuído.
• Salários não podem assumir valores negativos. Salários possuem
um mínimo que concentra muitas observações na sua vizinhança.
• Por essas razões, salário não pode ser normalmente distribuído.
• Contudo, como uma questão prática, podemos verificar se a
distribuição condicional do salário está próxima de uma distribuição
normal.

9 of 34
As boas notícias
Lecture 6: Distribuição amostral dos estimadores MQO

• Frequentemente, fazer uma transformação, especialmente


logarítmica, produz uma distribuição mais próxima da normal.
• A outra boa notícia é que normalidade não é um problema grave
em grandes amostras.

10 of 34
Distribuição Normal dos estimadores
Lecture 6: Distribuição amostral dos estimadores MQO

• A normalidade do termo de erro traduz-se nas distribuições normais


amostrais dos estimadores MQO:
β̂j ∼ N[βj , V(β̂j )], (L6.1)

tal que V(β̂j ) = σ 2 /[SSTj (1 − Rj2 )].


• Portanto,

(β̂j − βj )/dp(β̂j ) ∼ N(0, 1).

• Para mostrar (L6.1), usamos o conhecimento que β̂j é uma combinação


linear dos erros na amostra, ui , que sob os Pressupostos 2 e 6 são iid
com distribuição N(0, σ 2 ).
• Como uma combinação linear de v.a. Normais é uma v.a. Normal, os β̂j
têm distribuição Normal.
11 of 34
Introdução
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Seja o seguinte modelo populacional:

y = β0 + β1 x1 + · · · + βk xk + u. (L6.2)

• O método MQO produz estimadores não enviesados de βj , o


parâmetro verdadeiro e desconhecido da população.
• Todavia, podemos construir hipóteses sobre o valor de βj e, em
seguida, utilizar a inferência estatística para testar nossa hipótese.

12 of 34
Distribuição do estimador padronizado
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• A fim de construir os testes de hipóteses, precisamos do seguinte


resultado:

βbj − βj
∼ tn−k−1 . (L6.3)
ep(β̂j )

• Na equação acima, k + 1 é o número de parâmetros desconhecidos no


modelo populacional.
• A distribuição t surge por conta da constante σ em ep(β̂j ) ter que ser
substituída pela v.a. σ̂.
• Isso faz com que tenhamos a razão entre uma v.a. com distribuição
Normal e a raiz de uma v.a. com distribuição qui-quadrado. Isso gera
uma v.a. com distribuição t.
13 of 34
Distribuição do estimador padronizado
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• A equação (L6.3) nos permite testar hipóteses que envolvem βj ,


como:

H0 : βj = 0. (L6.4)

• A equação (L6.4) quer dizer que a j-ésima variável não tem efeito
sobre o valor esperado de y após controlarmos por todas as demais
variáveis independentes.

14 of 34
Ilustração
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Considere a equação do salário como:

log(wage) = β0 + β1 educ + β2 exper + β3 tenure + u. (L6.5)

• A hipótese nula H0 : β2 = 0 significa que, controlando por


educação e tenure, o número de anos no mercado de trabalhos
(exper ) não tem efeito sobre o salário por hora.
• Se β2 > 0, então a experiência prévia de trabalho está relacionada
a maiores salários.

15 of 34
Estatística t
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• A estatística que usamos para testar hipóteses é chamada de estatística


t, e é definida como:
tβ̂j ≡ β̂j /ep(β̂j ). (L6.6)

• Em qualquer problema prático, a estimativa pontual β̂j nunca será


exatamente zero, seja H0 verdadeira ou não.
• A questão é: quão distante de zero está β̂j ?
• Como há um certo erro amostral na estimativa de β̂j , devemos ponderar
seu valor pelo seu erro padrão, conforme (L6.6).
• Valores de tβ̂ suficientemente distantes de zero rejeitarão H0 .
j

• Atenção: sempre estamos testando hipóteses acerca do parâmetro


populacional.
16 of 34
Hipótese alternativa
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Para saber se podemos rejeitar ou não H0 , devemos enunciar


também uma hipótese alternativa.
• Considere a seguinte hipótese alternativa unicaudal:

H1 : βj > 0. (L6.7)

• Quando declaramos a hipótese alternativa como em (L6.7),


estamos declarando H0 como H0 : βj ≤ 0.
• Se βj for o parâmetro de educação na regressão de salário, só
estamos interessados em saber se betaj é diferente de zero quando
ele for positivo.

17 of 34
Regra de rejeição
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Para escolher uma regra de rejeição, devemos escolher um nível de


significância, ou probabilidade α de rejeitar H0 quando ela de fato
for verdadeira. Geralmente α = 5%.
• Podemos também escolher um valor crítico c, ou seja, um valor
que proporcionará a rejeição de H0 em 5% dos casos quando H0
for verdadeira:

tβ̂j > c. (L6.8)

• A regra de rejeição que escolhemos em (L6.8) leva a um teste


unicaudal.

18 of 34
Exemplo 1
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Use os dados do arquivo WAGE1.dta e estime a equação

\ = 0.284 + 0.092 educ + 0.0041 exper + 0.022 tenure


lwage
(0.104) (0.007) (0.0017) (0.003)
2
n = 526 R = 0.316.

• Teste H0 : βexper = 0 versus a H1 : βexper > 0 usando α = 0.05.


• Como você enunciaria o resultado do teste desse hipótese?
• Qual o efeito de três anos a mais de experiência sobre salário,
mantendo constantes educação e tenure?
• Esse efeito é grande economicamente?

19 of 34
Regra de rejeição novamente
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Quando testamos uma alternativa unicaudal de que o parâmetro


populacional é menor que zero, temos:

H1 : βj < 0. (L6.9)

• A regra de rejeição passa a ser:

tβ̂j < −c, (L6.10)

tal que c é o valor crítico.


• Lembre-se que a distribuição t é simétrica.

20 of 34
Exemplo 2
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Um estudo clássico é sobre o efeito do tamanho da escola e o


desempenho de estudantes. Uma hipótese é que, ceteris paribus,
estudantes de escolas menores vão melhor que os de escolas maiores.
• Essa hipótese seria verdadeira mesmo controlando pelas diferenças no
tamanho das salas que existe entre as escolas.
• Use o arquivo MEAP93.dta que contém dados de 408 escolas de
Michigan no ano de 1993 e teste a hipótese
H0 : βenroll = 0 versus H1 : βenroll < 0.
• Tamanho da escola é medido como a quantidade de matrículas (enroll),
desempenho é medido como math10 e você deve usar dois controles:
totcomp, o salário médio anual do corpo docente (proxy para qualidade
do corpo docente), e staff , quantidade de funcionários por mil
estudantes.
21 of 34
Exemplo 2: efeito da forma funcional
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Para ilustrar como a forma funcional das variáveis pode influenciar


as conclusões, estime o mesmo modelo usando log nas variáveis
independentes.
• As conclusões se alteram?
• Você prefere o modelo nível-nível ou o modelo nível-log?
• Por quê?

22 of 34
Regra de rejeição novamente
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Em testes de hipótese bicaudais, nossa hipótese nula é H0 : βj = 0


e a alternativa é

H1 : βj 6= 0. (L6.11)

• A regra de rejeição para testes de hipótese bicaudais é

|tβ̂j | > c. (L6.12)

• Quando uma hipótese alternativa não é explicitamente definida, é


comum considerarmos o caso bicaudal.

23 of 34
Exemplo 3
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Usando os dados do arquivo GPA1.dta, estimamos o modelo que


explica a nota (colGPA) na faculdade em termos do número de
faltas por semana (skipped), além da nota no ensino médio
(hsGPA) e do vestibular (ACT ).
• O resultado é:

\ = 1.39 + 0.412 hsGPA + 0.015 ACT − 0.083 skipped


colGPA
(0.33) (0.094) (0.011) (0.026)
2
n = 141 R = 0.234

• Quais variáveis são estatisticamente significantes em um teste


bicaudal?
• Como você interpreta o coeficiente de skipped?
24 of 34
Outros testes de hipótese
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Testar H0 : βj = 0 é o teste mais comum em análise de regressão,


mas não é o único.
• Podemos querer testar se o parâmetro populacional é igual a um
valor em especial:

H0 : β j = a j , (L6.13)

tal que aj é nosso valor conjecturado para βj .


• A estatística t apropriada é

t = (β̂j − aj )/ep(β̂j ).

• Assim como antes, t mede quantos desvios-padrão β̂j está distante


do valor conjecturado para βj .
25 of 34
Exemplo 4
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Considere o modelo de regressão simples que relaciona a


quantidade anual de crimes cometidos em diversos campi (crime) e
a quantidade de estudantes em cada campi (enroll).
• Estimando um modelo log-log com o arquivo de dados
CAMPUS.dta, temos que β1 mede a elasticidade do crime com
relação à quantidade de estudantes.
• Uma hipótese interessante é testar se essa elasticidade é igual a 1
contra a alternativa de que é maior. Por quê?
• Qual o resultado do teste de hipótese?

\ = − 6.63 + 1.27 lenroll


lcrime
(1.03) (0.11)
2
n = 97 R = 0.585
26 of 34
Calculando p-valores
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Dado o valor observado da estatística t, qual o menor nível de


significância que faria com que a hipótese nula fosse rejeitada?
• Esse nível é chamado de p-valor do teste.
• Os softwares que estimam regressões geralmente reportam esse
resultado para um teste bicaudal.
• Se nossa hipótese alternativa for unicaudal, basta dividir o p-valor
por 2.

27 of 34
Lembrete sobre terminologia
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Quando H0 não é rejeitada, costumamos dizer “não conseguimos


rejeitar H0 no nível de x%”.
• Nunca dizemos que “aceitamos” H0 .
• Isso porque ao não rejeitarmos H0 : βj = 1, por exemplo, não
necessariamente é porque βj é igual a um.
• Ele pode ser igual a (muitos) outros valores na vizinhança de 1.

28 of 34
Significância estatística v. econômica
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Não devemos prestar atenção só no tamanho das estatísticas t


(significância estatística).
• Devemos prestar atenção também na magnitude das estimativas
dos coeficientes (significância econômica).
• A significância econômica da variável está relacionada ao tamanho
e ao sinal de β̂j .
• A significância estatística pode ser alcançada tanto porque β̂j é
grande como porque ep(β̂j ) é pequeno.

29 of 34
Significância estatística v. econômica
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Colocar muita ênfase sobre a significância estatística pode levar à


conclusão falsa de que uma variável é importante para explicar y
embora seu efeito estimado seja moderado.
• Outro aspecto que deve ser levado em consideração é o tamanho
da amostra. Em geral, os erros-padrão tendem a diminuir com o
aumento do tamanho da amostra. Assim, costuma-se usar níveis
de significância menores, como 1%, nesses casos.

30 of 34
Exemplo 5
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• A taxa de refugo de uma indústria é a quantidade de itens defeituosos a


cada 100 unidades produzidas. Para uma quantidade de itens produzidos,
a taxa de refugo é uma medida da produtividade dos empregados.
• As v.i. do modelo são: hrsemp mede a quantidade de horas de
treinamento por ano de cada empregado, lsales é o log da receita da
empresa em dólares, e lemploy é o log da quantidade de empregados.
• Usando o arquivo JTRAIN.dta e os dados apenas para o ano de 1987
(year = 1987) das empresas não sindicalizadas (union = 0), estime o
modelo:
lscrap = β0 + β1 hrsemp + β2 lsales + β3 lemploy + u.
• A variável de interesse é hrsemp. Analise a significância estatística e
econômica dessa variável.
• Como o tamanho da amostra pode influenciar nesse resultado?
31 of 34
Recomendações
Lecture 6: Teste de hipótese acerca de um parâmetro populacional

• Cheque a significância estatística. Se for significante, discuta a


magnitude do coeficiente (significância econômica).
• Se não for estatisticamente significante nos níveis usuais (10%, 5% ou
1%), verifique se obteve o efeito esperado sobre y e se tal efeito é, na
prática, grande. Se for, verifique o p-valor. Para n pequeno você pode, às
vezes, construir um argumento para p-valores pouco maiores que 10%.
• É comum encontrar estatísticas t pequenas que têm o sinal “errado”.
Para propósitos práticos, ignore-as, concluindo que são estatisticamente
não significantes.
• Uma variável importante com sinal “errado” e significância econômica é
um problema muito mais preocupante e difícil de resolver. Repense o
modelo e a natureza dos dados: pode haver variáveis omitidas ou outros
problemas de especificação.
32 of 34
Intervalos de confiança
Lecture 6: Intervalos de confiança

• Sob os pressupostos do MLC é fácil construir intervalos de confiança (IC)


para o parâmetro populacional βj :

β̂j ± c · ep(β̂j ), (L6.14)

tal que c é o valor crítico da distribuição t com n − k − 1 graus de


liberdade para o percentil desejado.

Qual o significado de intervalo de confiança?


Se amostras aleatórias fossem obtidas sucessivamente e para cada uma delas
um IC de 95% fosse obtido, o verdadeiro (e desconhecido) parâmetro
populacional estaria dentro de 95% desses intervalos.

• Na prática, só construímos um IC. E βj está dentro desse IC ou não está.


Mas há 95% de chance de termos obtido um IC que contenha βj .
33 of 34
Exemplo 6
Lecture 6: Intervalos de confiança

• Estamos interessados na relação entre tamanho da empresa


(medido pelas vendas) e gastos com P&D.
• Também estamos interessados no efeito da margem sobre vendas
(profmarg) sobre os gastos com P&D.
• Use o arquivo RDCHEM.dta com dados de 32 empresas químicas
americanas para estimar a equação:

log(rd) = β0 + β1 log(sales) + β2 profmarg + u.

• Calcule um IC de 95% para a elasticidade das vendas sobre os


gastos com P&D.
• Você rejeitaria H0 : βlsales = 1 em um teste bicaudal? E
H0 : βprofmarg = 0?
34 of 34