Você está na página 1de 74

1

Mestrado Profissional em Administração

Disciplina: Análise Avançada de Informações II


Professora: Priscila Fernandes Ribeiro
Monitorias: : Jorge Norio Rezende Ikawa
3º trimestre de 2021
2

Critérios de Avaliação
3

Critérios de Avaliação

Nome da Avaliação Sigla Peso (%)

Prova PF 40

Trabalho TR 30

Exercícios EX 30
4

Prova
✓ Matéria: compreende a matéria dada em sala de aula e a
apresentada nas indicações de leitura.

✓ A prova enviada no último dia de aula, 27/09 e a data da entrega


será dia 05/10, às 00:01h.

✓ A prova poderá ser feita em grupo, com, no máximo, 3 integrantes.

✓ O professor não tirará dúvidas durante a prova: faz parte da


avaliação compreender a questão. Se ela contiver erros que
tornem a resolução impossível, indique-os na sua prova e você
receberá a nota completa pela questão, podendo esta ser anulada,
se for o caso.
5

Trabalho em Grupo (3 a 4 integrantes)


Ao final de cada tópico do programa, será disponibilizado um artigo e
base de dados (com exceção do último) para que seja feita a replicação
deste artigo pelo grupo (será indicado o que deverá ser replicado) e
apresentação de 15 a 20 minutos na data indicada.

Estão previstos 5 artigos neste trimestre. O grupo deverá apresentar a


importância e motivação do artigo, metodologia e resultados
encontrados, conclusão e possíveis melhorias ou limitações.

Importante:

A formação dos grupos precisa ser indicada até o dia 22/07.

Haverá sorteio para designação dos artigos.


6
Trabalho em Grupo (3 a 4 integrantes)
1) Endogeneidade – Apresentação: 30/07
• Acemoglu, D., Johnson, S., & Robinson, J. A. (2001). The colonial origins of comparative
development: An empirical investigation. American economic review, 91(5), 1369-1401.

2) Endogeneidade – Apresentação: 02/08


• Card, David. (1999). Using Regional Variation to Measure the Effect of the Federal Minimum
Wage. Industrial and Labor Relations Review, 46, 22-37.

3) Painel – Apresentação: 23/08


• Cornwell, Christopher, and William N. Trumbull. (1994). Estimating the economic model of
crime with panel data. The Review of Economics and Statistics, 360-366.

4) Avaliação de Impacto (Diff-in-Diff) – Apresentação: 13/09


• Card, D., & Krueger, A. B. (1994). Minimum wages and employment: a case study of the fast-
food industry in New Jersey and Pennsylvania: reply. American Economic Review, 90(5),
1397-1420.

5) Avaliação de Impacto (Propensity Matching Score) - Apresentação: 23/09


• Angrist, J. D., (1998). Estimating the Labor Market Impact of Voluntary Military Service Using
Social Security Data on Military Applicants. Econometrica, 66, 249-288.
7

Exercícios
✓ Exercícios de listas, entregue via link no Blackboard.

✓ Será disponibilizado um link para cada exercício, com data


de vencimento a ser definida pelo monitor.

✓ Após o vencimento, não poderá mais ser entregue.

✓ A correção também será feita pelo monitor.


8

Cronograma
9

Conteúdo
(Plano de aula)
10

Revendo AAI-I
11 11

Teoria vs Realidade:
deterministico e aleatório
❖ Modelos Teóricos tem objetivos de ilustrar um caso
representativo. Porém, nem sempre podem representar a
realidade.

Exemplo: Demanda por um bem


− Quais as suposições feitas para obeter a demanda de
um consumidor
− Essas suposições são validas quando observamos
muitos consumidores?
12 12

Os Métodos Econométricos dependem da


natureza dos dados que são utilizados
❖ Utilização de métodos inadequados pode levar a
resultados enganosos
Tipos de Dados:
− Cross-sectional (corte transversal)
– Séries Temporais
– Pooled cross sections (cortes transversais agrupados)
– Painel/Longitudinais
Ao longo dessa disciplina trabalharemos com todos os tipos de
dados, em especial dados do tipo pooled/painel e séries de tempo.
13 13

Tipos de Dados
Dado cross-sectional

Amostra formada por indivíduos, firmas, cidades, estados, países ou


qualquer outra unidade de interesse, observadas num determinado
instante de tempo ou período do tempo

Exemplo: Pesquisa Nacional por Amostra de Domicílios (PNAD)

Obtém informações anuais sobre características demográficas e


socioeconômicas da população, como sexo, idade, educação,
trabalho e rendimento, e características dos domicílios, e, com
periodicidade variável, informações sobre migração, fecundidade,
nupcialidade, entre outras, tendo como unidade de coleta os
domicílios. Temas específicos abrangendo aspectos demográficos,
sociais e econômicos também são investigados.
14 14

Formato da Base de Dados


Exemplo de uma base de dados do tipo cross-sectional contendo
informações sobre salário e outras características de 526 indivíduos,
coletados ao acaso

Variável Dummy
(1=sim, 0=não)

Número da Observação Salário-hora

Fonte: Wooldridge (2013, 5 ed)


15 15

Tipos de Dados

Pooled cross sections


Duas ou mais cross sections são combinadas numa única base de dados.

Dados em Painel ou Longitudinais


Os indivíduos de determinada cross-sectional são seguidos ao longo de
diversos instantes de tempo
– Dados em Painel Panel apresentam tanto a dimensão de cross-sectional
quanto a dimensão de série de tempo.
16 16

Formato da Base de Dados


Avaliar o efeito da mudança nos impostos sobre os preços dos imóveis
Exemplo de uma base de dados do tipo Pooled cross-sectional contendo
informações sobre preço de 250 imóveis e suas características, em 1993 (antes da
mudança nos impostos sobre propriedades), e sobre o preço de outros 270
imóveis e suas características, em 1995 (após a mudança nos impostos sobre
propriedades)

Antes da mudança

Após a mudança

Fonte: Wooldridge (2013, 5 ed)


17 17

Formato da Base de Dados


Exemplo de uma base de dados em Painel contendo informações sobre,
por exemplo, taxa de homicídios, taxa de desemprego e quantidade de
policiais, em diversas cidades norte-americanas, nos anos de 1986 e
1990.

Cada cidade apresenta duas


observações ao longo do
tempo

❖ Painel: mistura de dados


cross-sectional com dados
em série temporal

Fonte: Wooldridge (2013, 5 ed)


100,000
200,000
250,000

150,000

0,000
50,000

-0,500
0,000
0,500
1,000
1,500
2,000
2,500
3,000

2008.01
2008.01 2008.07
Paulo (FipeZap), nos anos de 2008 a 2020.

2008.07 2009.01
2009.01 2009.07
2009.07 2010.01
2010.01 2010.07
2010.07 2011.01
2011.01 2011.07
2011.07 2012.01
2012.01 2012.07
2012.07 2013.01
2013.01 2013.07
2013.07 2014.01
2014.01
2014.07
2014.07
2015.01
FipeZap - SP

2015.01
2015.07
2015.07
2016.01 2016.01
2016.07 2016.07
Variação FipeZap - SP
18

2017.01
Formato da Base de Dados

2017.01
2017.07 2017.07
2018.01 2018.01
2018.07 2018.07
2019.01 2019.01
2019.07 2019.07
2020.01 2020.01
18

informações sobre, por exemplo, Índice de Preços de Imóveis em São


Exemplo de uma base de dados em séries temporais contendo
19 19

Natureza dos dados

A natureza dos dados coletados pode ser:

✓ quantitativa (discreta ou contínua) — resultados como o preço,


a renda, o número de filhos, etc.

✓ qualitativa (nominal ou ordinal) — por exemplo, um


consumidor pode ou não comprar um particular bem ou uma
pessoa pode pagar ou não um empréstimo.
20 20

Revendo Análise de regressão


21 21

Associação
entre duas variáveis quantitativas
o Diagrama de dispersão: recurso gráfico que nos
permite visualizar o comportamento conjunto das
duas variáveis.

o Coeficiente de correlação linear: mede a intensidade


da associação linear existente entre as variáveis.
22 22

Coeficiente de Correlação Linear

Definição: Medida de associação linear entre duas


variáveis quantitativas (varia entre –1 e +1).

▪ Valores próximos a +1: indicam forte relação linear positiva;


▪ Valores próximos a -1: indicam forte relação linear negativa;
▪ Valores próximos a zero: indicam ausência de relação linear.
23 23

Diferença entre correlação e causalidade


• A correlação não implica necessariamente uma relação de causalidade.
Ou seja, um dos eventos não necessariamente causa a ocorrência do
outro. Todavia, a correlação pode ser uma pista...

• Não é porque (A) acontece juntamente com (B) que podemos afirmar que
(A) causa (B).

• Por outro lado, se (A) e (B) apresentam relação de causalidade, então eles
apresentarão correlação.
24 24

Diferença entre correlação e causalidade


• Assim, determinar se existe de fato uma relação de causalidade
requer investigação adicional pois podem acontecer as seguintes
situações:

– (A) causa realmente (B);

– (B) pode ser a causa de (A);

– Um terceiro fator (C) pode ser causa tanto de (A) quanto de (B);

– A correlação pode ser apenas uma coincidência, ou seja, os dois


eventos não têm qualquer relação para além do fato de ocorrerem ao
mesmo tempo.
25 25

Análise de Regressão
Objetivo – Na situação em que muitas variáveis estão
envolvidas, estudar o efeito que algumas
variáveis exercem nas outras. Este estudo
consistiria na construção e análise de uma
relação matemática ou estatística entre as
variáveis (no geral, uma variável em função das
outras).

Regressão – Técnica estatística utilizada para investigar e


modelar a relação entre variáveis.
26 26

Análise de Regressão

x3
x1
y •
variável resposta


x2
xk

x1, x1, ..., xk: variáveis explicativas (regressores)


27 27

Modelo de regressão linear múltipla

Vamos admitir que X1, X2, ..., Xk sejam as variáveis


independentes e Y a variável dependente.

Dada uma amostra de n observações,

(x1i, x2i, ..., xki, yi), i = 1, 2, ..., n,

o modelo de regressão linear múltipla será dado por:


28 28

Modelo de regressão linear múltipla

E[yi | x1i, x2i, ..., xki] = 0 + 1 x1i + 2 x2i + ... + k xki ,

i = 1, 2, ..., n

ou

yi = 0 + 1 x1i + 2 x2i + ... + k xki + i ,

i = 1, 2, ..., n.

em que n > (k+1).


29

Mínimos Quadrados Ordinários


30 30

Método dos Mínimos Quadrados

Para determinarmos os estimadores de mínimos


quadrados de 0, 1, ..., k, devemos minimizar o erro
quadrático total (i2):

n n

 ( ) =  ( y − β0 − β1 x1i −  − βk xki )
2 2
i i
i =1 i =1

30
31 31

Regressão Linear
y i = E (Y | X ) +  i =  0 + 1 x1i +  2 x 2i +  i

Parâmetros
0 – é o intercepto;
1 – coeficiente angular da reta de regressão
2 – coeficiente angular da reta de regressão
E(Y|X = x)
= β1
x1
E(Y|X = x)
= β2
x2
32 32

Suposições e Propriedades
RLS.1 – O modelo de regressão é linear nos parâmetros

No modelo populacional, a variável resposta y está


relacionada ao regressor x e ao erro  como

y i =  0 + 1 x1i +  2 x 2i +  i
em que

0 – parâmetro de intercepto populacional (constante);

1 – parâmetro de inclinação populacional (constante);

2 – parâmetro de inclinação populacional (constante);

 – erro aleatório não observável.


33 33

Suposições e Propriedades
RLS.2 – Amostragem Aleatória

Temos uma amostra aleatória de n observações

(xi, yi), i = 1, 2, ..., n,

proveniente do modelo populacional descrito em RLS.1.

RLS.3 – Variação amostral no regressor

Os resultados amostrais em x, ou seja, {xi, i = 1, 2, ..., n} não


são todos de mesmo valor.
34 34

Suposições e Propriedades
RLS.4 – Média Condicional Zero

O termo de erro aleatório, , tem valor esperado igual a zero,


dado qualquer valor do regressor. Ou seja,

E( | x) = 0.

Teorema 1. Sob as suposições RLS.1 a RLS.4, condicional


aos valores amostrais do regressor, os estimadores de MQO
dos parâmetros do modelo de regressão linear simples são
não-viesados, ou seja, E(βˆ j ) = β j , j = 0, 1.
35 35

Observação

SUPOSIÇÃO FUNDAMENTAL:

E(x) = 0

Ou seja, todos os fatores contidos em  devem ser


não correlacionados com o regressor. Além disso,
deve ter sido usada a forma funcional correta.
36 36

Observação (cont.)

SUPOSIÇÃO FUNDAMENTAL: (cont)

Como pode falhar?


▪ Omissão de regressor relevante, correlacionado com x;
▪ Forma funcional especificada incorretamente;
▪ Erro de medida em x;
▪ Simultaneidade entre y e x;
37 37

Suposições e Propriedades

RLS.5 – Homocedasticidade

O termo de erro aleatório  tem a mesma variância dado


qualquer valor do regressor. Ou seja,

Var( | x) = 2.

Observação

De RLS.4 e RLS.5 temos que E(2 | x) = 2, o que significa que


2 também é a expectativa incondicional de 2. Dessa forma,
Var() = 2 (variância do erro).
38 38

Distribuição amostral de β̂ j

RLS.6 – Normalidade

O erro populacional  é independente do regressor x


e é normalmente distribuído, com média zero e
variância 2. Ou seja,

 ~ N(0; 2)
39 39

Importância das suposições


Teorema de Gauss-Markov: Sob as suposições
anteriores (1 a 6), garantimos que os estimadores de
mínimos quadrados sejam não viesados e de
variância mínima na classe dos estimadores lineares
não viesados de 0 e 1 .
A suposição de normalidade permite que sejam
feitos testes de hipóteses e intervalos de confiança
para os parâmetros e previsões do modelo.
40 40

EMQ - Melhores estimadores


lineares não-viesados (BLUE)
➢ Teorema de Gauss-Markov: sob as suposições
anteriores (exceto normalidade dos erros), os estimadores
de mínimos quadrados para os parâmetros 0 e 1, do
modelo de regressão linear, são os melhores dentre todos
os estimadores lineares não viesados.

➢ Isto quer dizer que além de serem não viesados, têm a


menor variância dentre os demais estimadores não
viesados, gerando estimadores com menor erro
quadrático médio dentro dos lineares.
41 41

Modelos com Interação


Algumas vezes é natural que o efeito parcial, a elasticidade ou
a semi-elasticidade da variável dependente, com relação à
independente, dependa da magnitude de alguma outra variável
explicativa.

Tal dependência pode ser medida ao estimarmos, por exemplo,


o seguinte modelo

y =  1 +  2 x2 +  3 x3 +  4 x2 x3 +  .
41
42 42

Modelos com Interação


Assim, o efeito parcial da variável explicativa x2 em y
(mantendo x3 fixada) é dado por

E ( y | x2 , x3 )
=  2 +  4 x3
x2
Já o efeito parcial da variável explicativa x3 em y (mantendo
x2 fixada) é dado por

E ( y | x2 , x3 )
=  3 +  4 x2
x3
43 43

Variáveis Dummy

A gerente do departamento de RH da empresa TEMCO, gostaria

de estimar os parâmetros de um modelo de regressão linear que

levasse em consideração as variáveis explicativas sexo e dept na

explicação da variável resposta salário. Auxilie a gerente nesta

proposição.
44 44

Base de dados da Empresa TEMCO


Apenas para lembrar, a gerente, coletou informações de uma
amostra aleatória de 46 funcionários da empresa, sobre as
seguintes variáveis:
id – número cadastral do funcionário;
salario – anual, em dólares;
anosemp – tempo (em anos) na empresa;
expprev – experiência anterior (em anos);
educ – anos de estudo após o segundo grau;
sexo – (feminino = 0, masculino = 1);
dept – departamento no qual o funcionário atua
(Compras = 1, Engenharia = 2, Propaganda = 3, Vendas = 4);
super – número de empregados sob responsabilidade do empregado.
45 45

Voltando à Empresa TEMCO

À primeira vista, como existem quatro departamentos na


empresa TEMCO, a gerente poderia optar por usar a variável
dept, com os valores 1, 2, 3 e 4.

Dessa maneira,
𝑠𝑎𝑙á𝑟𝑖𝑜 = 𝛽0 + 𝛽1 𝑎𝑛𝑜𝑠𝑒𝑚𝑝 + 𝛽2 𝑑𝑒𝑝𝑡 + 𝜀

No entanto, ao fazer isto, ela estaria introduzindo uma ideia


de espaçamento, que ficará mais clara nos resultados
descritos nos slides a seguir.
46

Variável Dummy

A solução é, portanto, trabalharmos com algumas variáveis

dummy.

No geral, se temos p estados, devemos trabalhar com p – 1

variáveis dummy.
47 47

Variável Dummy
Para o nosso exemplo, poderíamos definir as variáveis
dummy DC, DE e DP da seguinte maneira, para representar os
estados da variável departamento:

dept DC DE DP
Compras 1 0 0
Engenharia 0 1 0
Propaganda 0 0 1
Vendas 0 0 0
48 48

Variável Dummy

Variáveis binárias como DC, DE e DP, que são incorporadas

num modelo de regressão para dar conta de um

deslocamento do intercepto como resultado de algum fator

qualitativo, são chamadas de variáveis binárias de intercepto

ou, simplesmente, variáveis dummy de intercepto.


49 49

Variável Dummy

Como criar variáveis dummy no Stata?

Comando: tabulate dept, gen (dept_)

O que aconteceu ao realizar o procedimento anterior?


50 50

Voltando à Empresa TEMCO


Estimação dos Parâmetros do Modelo de Interesse

. reg lsalario anosemp dept_1 dept_2 dept_3

Source SS df MS Number of obs = 46


F(4, 41) = 25.54
Model 2.15508575 4 .538771438 Prob > F = 0.0000
Residual .864805813 41 .021092825 R-squared = 0.7136
Adj R-squared = 0.6857
Total 3.01989156 45 .067108701 Root MSE = .14523

lsalario Coef. Std. Err. t P>|t| [95% Conf. Interval]

anosemp .0276141 .0029731 9.29 0.000 .0216098 .0336183


dept_1 .2243819 .0704293 3.19 0.003 .082147 .3666167
dept_2 .2105104 .0558024 3.77 0.001 .0978152 .3232056
dept_3 .0971519 .0718328 1.35 0.184 -.0479173 .2422212
_cons 10.12326 .0560383 180.65 0.000 10.01009 10.23643
51 51

Voltando à Empresa TEMCO


Estimação dos Parâmetros do Modelo de Interesse

. reg lsalario anosemp i.departamento i.gender

Source SS df MS Number of obs = 46


F(5, 40) = 22.17
Model 2.21906937 5 .443813873 Prob > F = 0.0000
Residual .800822197 40 .020020555 R-squared = 0.7348
Adj R-squared = 0.7017
Total 3.01989156 45 .067108701 Root MSE = .14149

lsalario Coef. Std. Err. t P>|t| [95% Conf. Interval]

anosemp .0266596 .0029453 9.05 0.000 .0207069 .0326124

departamento
Engenharia -.0204484 .0607104 -0.34 0.738 -.1431487 .1022519
Propaganda -.1356443 .0761171 -1.78 0.082 -.2894826 .0181941
Vendas -.2369528 .0689752 -3.44 0.001 -.3763568 -.0975488

gender
Masculino -.0767627 .0429392 -1.79 0.081 -.163546 .0100206
_cons 10.40123 .06075 171.21 0.000 10.27845 10.52401
52 52

Observação 1
Vale recordar que a escolha dos valores de DC, DE e DV não é única.
Entretanto, qualquer que seja a escolha, os resultados finais da
estimação deverão ser sempre os mesmos.

Observação 2
INTERPRETAÇÃO DOS COEFICIENTES LIGADOS ÀS VARIÁVEIS DUMMY

Correspondem à diferença em relação ao valor do intercepto e, portanto,


à categoria que ele representa (“benchmark”, ou categoria de referência)
53 53

Exercício
Num modelo de regressão linear que já que
acomodou anosemp como variável explicativa para
salário, seria interessante inserir a variável sexo em
tal modelo?
54 54

Exercício (cont.)

. bysort gender: sum salario

-> gender = Feminino

Variable Obs Mean Std. Dev. Min Max

salario 24 42417.58 11093.3 26548 69246

-> gender = Masculino

Variable Obs Mean Std. Dev. Min Max

salario 22 37001.73 10413.29 23654 65487 54


55 55

Variável Dummy de Inclinação

Sejam DC, DE e DP as variáveis dummy do exemplo


anteriormente citado.

Considere, ainda, o seguinte modelo

y = 1 + 2 anosmep + DC(0 + 1anosemp) +


+ DE(2 + 3anosemp) + DP(4 + 5anosemp) + 
56 56

Variável Dummy de Inclinação


Assim, para cada um dos departamentos, teríamos os
seguintes modelos de regressão:

yvendas = 1 + 2 anosemp + 

ycompras = (1 + 0) + (2 + 1) anosemp + 

yengenharia = (1 + 2) + (2 + 3) anosemp + 

ypropaganda = (1 + 4) + (2 + 5) anosemp + 


57

Variável Dummy de Inclinação


Observe que o modelo anterior pode ser reescrito como

y = 1 + 2 anosemp + 0DC + 2DE + 4DP +


1 anosemp DC + 3 anosempDE + 5 anosemp DP + 

Donde, não é difícil observar que os parâmetros associados


às variáveis dummy DC, DE e DP, isoladamente, serão
responsáveis pela alteração dos interceptos.

Ainda, os parâmetros associados aos produtos de DC, DE e


DP por anosemp serão responsáveis pela alteração dos
coeficientes angulares.
58 58

Variável Dummy de Inclinação


Finalmente, as variáveis anosempDC, anosempDE e

anosempDP são chamadas de variáveis de interação, pois

são responsáveis por capturar o efeito de interação entre a

escolaridade e departamento sobre o salário. Traduzindo, o

impacto na variação do salário esperado de indivíduos de

setores diferentes, dada a variação de um ano na

escolaridade desses indivíduos, podem ser diferentes.


59 59

Gráfico de dispersão
60 60

-> gender = Feminino, departamento = Compras


Descritiva
Variable Obs Mean Std. Dev. Min Max

salario 3 45523.67 10006.55 36571 56326

-> gender = Feminino, departamento = Engenharia

Variable Obs Mean Std. Dev. Min Max

salario 11 44821.09 13908.21 26548 69246

-> gender = Feminino, departamento = Propaganda

Variable Obs Mean Std. Dev. Min Max

salario 4 43724 8045.283 36578 53234

-> gender = Feminino, departamento = Vendas

Variable Obs Mean Std. Dev. Min Max

salario 6 35587.17 4946.519 29548 41889

-> gender = Masculino, departamento = Compras

Variable Obs Mean Std. Dev. Min Max

salario 5 32764 4320.644 26578 36431

-> gender = Masculino, departamento = Engenharia

Variable Obs Mean Std. Dev. Min Max

salario 10 41397.8 11346.36 26452 65487

-> gender = Masculino, departamento = Propaganda

Variable Obs Mean Std. Dev. Min Max

salario 3 36586 16143.56 23654 54679

-> gender = Masculino, departamento = Vendas

Variable Obs Mean Std. Dev. Min Max

salario 4 31620.5 6408.721 24749 39828


61 61

Variável Dummy de Inclinação


Modelo Estimado
. reg salario i.gender i.departamento##c.anosemp

Source SS df MS Number of obs = 46


F(8, 37) = 19.32
Model 4.3928e+09 8 549098837 Prob > F = 0.0000
Residual 1.0515e+09 37 28417856.9 R-squared = 0.8069
Adj R-squared = 0.7651
Total 5.4443e+09 45 120983365 Root MSE = 5330.8

salario Coef. Std. Err. t P>|t| [95% Conf. Interval]

gender
Masculino -2453.447 1642.279 -1.49 0.144 -5781.02 874.1256

departamento
Engenharia -1850.87 4136.596 -0.45 0.657 -10232.41 6530.669
Propaganda -746.2809 5035.288 -0.15 0.883 -10948.74 9456.182
Vendas 129.9043 4504.996 0.03 0.977 -8998.084 9257.892

anosemp 1655.61 505.6549 3.27 0.002 631.0554 2680.164

departamento#c.anosemp
Engenharia -116.7152 529.8322 -0.22 0.827 -1190.257 956.8268
Propaganda -636.173 552.3789 -1.15 0.257 -1755.399 483.053
Vendas -1146.684 542.6748 -2.11 0.041 -2246.247 -47.11998

_cons 29355.57 3811.843 7.70 0.000 21632.05 37079.1

.
62 62

O que é Heterocedasticidade?
A suposição de homocedasticidade implica que, condicional
às variáveis explicativas, a variância do erro é constante.

Ou seja,

Var ( i | x2i , x3i ,..., xki ) = Var ( i ) =  2 , i = 1, 2, ..., n

A homocedasticidade não se verifica sempre que a variância


dos fatores não observáveis muda ao longo de diferentes
segmentos da população, nos quais os segmentos são
determinados pelos diferentes valores das variáveis
explicativas.
63 63

Exemplo

f(y|x)

. E(yi |x2i) = 1 + 2x2i


.
.
x21 x22 x23 x
63
64 64

Consequências para os estimadores de MQO

Aqui, percebemos que a expressão usual de cálculo da


variância dos estimadores, quando a suposição de
homocedasticidade é válida, dada por

𝝈𝟐
෢𝒋 =
𝑽𝒂𝒓 𝜷
𝑺𝑺𝑻𝒙𝒋 𝟏 − 𝑹𝟐𝒙𝒋

não se aplica mais.


65 65

Consequências para os estimadores de MQO

➢ A partir da expressão do slide anterior, pode-se demonstrar


que os estimadores das variâncias dos estimadores dos
parâmetros do modelo de regressão linear múltipla são
viesados, se não for válida a suposição de
homocedasticidade, o que afeta o erro-padrão dos
estimadores de mínimos quadrados;
66

Consequências para os estimadores de MQO

➢ Isso significa que os intervalos de confiança e os testes t,


F são prejudicados;

➢ Também, é sabido que o Teorema de Gauss-Markov, que


afirma que os estimadores de MQO são os melhores
estimadores lineares não viesados (BLUE), vale-se de forma
crucial da suposição de homocedasticidade. Assim, na
presença da heterocedasticidade, os estimadores de MQO
não são mais BLUE e nem assintoticamente eficientes.
67 67

Observações

(a) A suposição de homocedasticidade é necessária para a


determinação das distribuições das somas de quadrados
e das estatísticas dos testes de hipóteses.

(b) Todavia, quando os erros são heterocedásticos, os


estimadores de MQO dão mais peso para os resíduos
associados às observações com maior variância, já que a
soma de quadrados dos resíduos (SSR) associados com
os termos de maior variância tende a ser maior que
aquela associada aos termos de menor variância.
68 68

Observações

(c) A suposição de homocedasticidade entra


fundamentalmente na derivação das distribuições das
variáveis presentes nos testes. Logo, toda a análise neles
baseada não é válida (a falha na suposição de
homocedasticidade é mais grave que a falha na
suposição de normalidade).
69 69

Teste de Homocedasticidade

TESTE DE WHITE

Do exposto nos slides anteriores, White (1980), motivado


pelo fato de que a suposição

Var ( i | x2i , x3i ,.., xki ) =  2 , i = 1, 2, ..., n


poderia ser substituída pela suposição mais fraca de que
bastaria o erro ao quadrado, 2, ser não correlacionado
com todas as variáveis explicativas, com os quadrados das
variáveis explicativas e com todos os produtos cruzados
entre as variáveis explicativas, escreveu seu clássico
artigo.
70 70

Teste de Homocedasticidade

TESTE DE WHITE

Assim, por exemplo, quando o modelo de interesse


apresentar k = 3 variáveis explicativas, o teste de White
ficará baseado nos resultados da estimação do seguinte
modelo de regressão auxiliar

ˆe 2 = 1 +  2 x2 +  3 x3 +  4 x4 +
+ x + x + x +
2
5 2
2
6 3
2
7 4

+  8 x2 x3 +  9 x2 x4 + 10 x3 x4 +
71 71

Teste de Homocedasticidade

TESTE DE WHITE

Neste caso, a hipótese nula de interesse seria

H0: 2 = ... = 10 = 0,


(hipótese de homocedasticidade)

a qual, segundo White (1980), pode ser testada usando:

LM = n  R ~  2
eˆ 2
2
(9 )
72 72

Inferência - Estimadores Robustos

Na prática é muito difícil conhecer a verdadeira


forma como a heterocedasticidade se apresenta.
Assim, precisamos buscar alguma metodologia que
nos forneça resultados válidos na presença de
heterocedasticidade cuja forma é desconhecida.
73 73

Inferência - Estimadores Robustos

Recentemente, muito se tem desenvolvido com relação


ao ajuste de erros padrões e estatísticas de testes para
que os mesmos se tornem válidos na presença de
heterocedasticidade.

Estes procedimentos são conhecidos como ROBUSTOS


pois são válidos, pelo menos com amostras grandes,
sendo ou não a variância do erro constante.
74 74

EXEMPLO
Nesta questão foi utilizado o arquivo de dados temco.dta.
Os resultados seguem :
. reg lsalario i.gender i.departamento##c.anosemp, rob

Linear regression Number of obs = 46


F(8, 37) = 23.57
Prob > F = 0.0000
R-squared = 0.7904
Root MSE = .13078

Robust
lsalario Coef. Std. Err. t P>|t| [95% Conf. Interval]

gender
Masculino -.0678971 .0421619 -1.61 0.116 -.1533252 .017531

departamento
Engenharia .0036816 .075163 0.05 0.961 -.148613 .1559763
Propaganda -.0419211 .1006995 -0.42 0.680 -.2459576 .1621155
Vendas -.0149482 .0806105 -0.19 0.854 -.1782806 .1483842

anosemp .0424273 .0105887 4.01 0.000 .0209726 .0638819

departamento#c.anosemp
Engenharia -.0093924 .0110467 -0.85 0.401 -.0317751 .0129904
Propaganda -.0157168 .0119886 -1.31 0.198 -.040008 .0085744
Vendas -.0275616 .0109497 -2.52 0.016 -.0497478 -.0053754
74
_cons 10.30305 .0670001 153.78 0.000 10.1673 10.43881

Você também pode gostar