Você está na página 1de 77

Wooldridge, Captulo 02

Chapter 2

O Modelo de Regresso Simples

Luciano Sampaio

O Modelo de Regresso
Simples
Objetivos:
Definio do modelo de regresso

simples
Estimativas de Mnimos Quadrados
Ordinrios
Propriedades de MQO em dados
amostrais
Unidades de medida e forma funcional

Definio do Modelo de
Regresso Simples
de Dados de Corte Transversais
Anlise

Assumimos que temos uma amostra aleatria da


populao de interesse
Existem duas variveis, e , e gostaramos de estudar:
"Como varia com mudanas em "?"
Exemplos:
a quantidade de fertilizante e a produo de soja
a escolaridade e o salrio de uma pessoa.

Uma grande parte das teorias estuda uma


relao entre duas variveis que no exata

Definio do Modelo de
Regresso Simples
Para
medir uma relao entre 2 variveis temos que resolver

3 problemas:

Outros fatores diferentes de x podem afetar y?


Dificilmente h uma relao exata entre as variveis.

Qual a forma funcional da relao entre e ?


Podemos assumir que estamos capturando um efeito

causal ("ceteris paribus"), ou seja, que os outros fatores


no so alterados quando alteramos x?

Definio do Modelo de
Regresso Simples

Intercepto

Varivel dependente,
Varivel explicada,
regressando

Parmetro de inclinao

Termo de erro,
Varivel independente, distrbio,
Varivel explicativa,
No-observveis,
regressor,

Definio do modelo de
regresso linear simples

Nomenclatura:

Varivel dependente

Varivel independente

Varivel explicada

Varivel explicativa

Varivel de resposta

Varivel de controle

Regressando

regressor

Os termos " explicada" e "explicativa" so


provavelmente os melhores, pois so os mais
descritivos e com maior aplicao. Independente
e dependente tambm so usados com

Definio do modelo de
regresso linear simples

termo de erro ou distrbio ou fatores noobservados anteriormente. A equao:

permite explicitamente que outros fatores que no


x afetem y.

A equao tambm resolve o problema da forma


funcional. Estamos assumindo que y tem uma
relao linear com x.

Chamamos de intercepto e de parmentro de


inclinao.

Interpretao do Modelo de
Regresso Simples

contanto que

Esta interpretao para a inclinao


somente correta se todos os demais fatores
permanecerem constantes quando a varivel
independente aumenta em 1 unidade.

Interpretao do Modelo de
Regresso Simples

Exemplo: Produo de soja e fertilizante

chuva,
qualidade da terra,
presena de parasitas,

Exemplo: Equao de salrio

Experincia,
durao no emprego atual,
inteligncia, ...

Interpretao do Modelo de
Regresso Simples

Dissemos

que temos que enfrentar 3 problemas:


Como permitir que outros fatores alm de x afetem
y?
Qual a forma funcional da relao entre x e y?
Como podemos ter certeza de que estimamos uma
relao "ceteris paribus" entre y e x?
O modelo de regresso simples:

leva em conta todos eles.

Como podemos estimar o efeito causal se


simplesmente assumimos que todos o fatores noobservados esto jogados em u?
Temos que restringir como x e u esto relacionados na

Interpretao do Modelo de
Regresso Simples

Isto

, para termos boas estimativas de da relao


entre as duas variveis, temos que supor duas
hipteses:

Uma sobre u
Outra sobre a relao entre u e x

Interpretao do Modelo de
Regresso Simples

Como

limitar a relao entre x e u na populao para


que a regresso leve a um efeito causal?

x e u so vistos como tendo uma distribuio


populacional.
Exemplo: se x = , podemos obter sua distribuio
para uma populao de adultos. Suponha que u
mede a habilidade cognitiva. Se pudermos medi-la,
tambm podemos assumir que u tem uma
distribuio na populao.

Ento temos que impor uma restrio na forma como


u e x se relacionam na populao.
A hiptese da mdia condicional zero

Interpretao do Modelo de
Regresso Simples

Primeiro

precisamos assumir que a mdia de igual


a zero na populao:

Normalizar a "qualidade da terra" ou a "habilidade" a


zero na populao deveria ser trivial.
Na verdade, se a regresso possui um intercepto, esta hiptese

trivial!

Assuma que:
Ento podemos reescrever a equao:

e o novo termo de erro tem mdia zero.


O intercepto mudou, mas o coeficiente de
inclinao ,no.

Interpretao do Modelo de
Regresso Simples

Como

podemos restringir a relao de


dependncia entre u e x?

Podemos assumir que u e x so no correlacionados


na populao:

A correlao zero funciona em alguns casos, mas ela


apenas implica que u e x no tem relao linear. Na
verdade podemos assumir uma hiptese um pouco
mais forte:
, para todos os valores de .
Dizemos que a mdia de independente de .

Combinando e a hiptese da mdia condicional

Interpretao do Modelo de
Regresso Simples
da mdia condicional zero:
Hiptese

A varivel explicativa no pode conter


informao sobre a mdia dos fatores
no observveis

Exemplo: equao salrio


Ex: inteligncia

A hiptese da mdia condicional zero certamente no


satisfeita, pois indivduos com mais anos de educao
podem ser, em mdia, mais inteligentes do que os que tem
poucos anos de educao.

Portanto esperamos que a mdia de (que inclui a


inteligncia) seja na verdade uma funo da educao.

Interpretao do Modelo de
Regresso Simples

Exemplo:

fertilizante e produo de soja

Suponha que = qualidade da terra

Ento, razovel se a quantidade de fertilizante tiver


sido escolhida independentemente da qualidade da
terra.

Essa hiptese razovel mas assume que a


quantidade de fertilizante tenha sido escolhida
aleatoriamente, como em um experimento.

Interpretao do Modelo de
Regresso Simples

Interpretao do Modelo de
Regresso Simples

Funo de regresso
da mdia da
populao

Interpretao do Modelo de
Regresso Simples
Exemplo:
nota na universidade e nota no ensino mdio

Suponha que para a populao de alunos que frequentam a


universidade, sabemos de alguma forma que:

Tal que a nota na universidade e a nota no ensino mdio.

Se , ento a nota mdia de todos os estudantes da


universidade :

Isso no significa que um aluno com nota 8 no ensino mdio


v ter um nota exatamente igual a 7. O valor 7 a nota
mdia na universidade para toda a "fatia" de estudantes na
populao que tem nota do EM igual a 8.

Ao fazermos uma regresso analisamos o efeito das variveis


explicativas na mdia da varivel dependente.

Estimao do Modelo de
Regresso Simples

1 observao
2 observao
3 observao

n-sima observao

Valor da varivel
explicativa para a
i-sima observao

Valor da varivel
dependente Para a
i-sima observao

Estimao do Modelo de
Regresso Simples

A ideia encontrar a melhor reta possvel (a que melhor


se ajusta aos dados):

Reta de regress
estimada

resduo

valor estimado

Estimao do Modelo de
Regresso Simples

O que significa o melhor ajuste da reta?


Estimador de Mnimos Quadrados
Ordinrios
Estimador do Mtodo dos Momentos
Estimador de Mxima Verossimilhana

Estimao do Modelo de
Regresso Simples
Usando
o mtodo dos momentos:

(com as 2 hipteses vistas)


Temos 2 restries que decorrem da mdia condicional
zero:

Usamos estes dois momentos para estimar 2 parmetros ( e )

Agora substitumos nas equaes acima:

Usamos a contrapartida amostral para

Estimao do Modelo de
Regresso Simples
Para
resolver o sistema com 2 equaes e 2 incgnitas:

Ento:. Substitumos na 2 equao:

Estimao do Modelo de
Regresso Simples


Com alguma contas mostramos que:
que funo apenas de !

Se usarmos 3 propriedades do somatrio:

Estimao do Modelo de
Regresso Simples
resolvemos o sistema:
Assim

Desde que a soma dos quadrados dos desvios de x seja


positiva (ou seja, que haja variao nos valores de x):

Estimao do Modelo de
Regresso Simples

Estimao do Modelo de
Regresso Simples
Exemplo com 3 pontos visto na aula passada:

55

Resduo 2

Resduo n

40

Resduo 1

10

y = mx + b
3 pontos

Estimao do Modelo de
Regresso Simples

Resumindo, pelos 2 mtodos, a declividade estimada por:

A declividade estimada a covarincia amostral entre x e y dividida


pela varincia amostral de x

Se x e y so positivamente correlacionadas, a declividade ser positiva

Se x e y so negativamente correlacionadas, a declividade ser


negativa

Apenas precisamos que x varie em nossa amostra

Estimao do Modelo de
Regresso Simples

Salrio de Diretores de empresas e o retorno das aes


da empresa
(roe)

Salrio em milhares de dlares


Retorno da ao da empresa do diretor em %

Regresso
estimada

Intercepto

Interpretao de causalidade?

Se o retorno da ao aumentar em 1%,


Ento prev-se que o salrio aumenta
em 18 mil e 501 dlares.

Estimao do Modelo de
Regresso Simples
Salri
o

Equao de regresso
estimada
(depende da amostra)
mais sobre inferncia a
seguir...

Equao de regresso da
populao DESCONHECIDA

Estimao do Modelo de
Regresso Simples

Salrio e educao (WAGE1.dta):

Salrio por hora

Anos de estudo

Regresso estimada:

Intercepto

Na amostra, uma ano a mais de


educao est associado a um aumento
de 0.54$ no salrio obtido por hora de
Interpretao de causalidade? trabalho.

Estimao do Modelo de
Regresso Simples

Percentual de votos e gastos de campanha (2 partidos)


(VOTE1.dta):

% de votos para o candidato A

% dos gastos da campanha do candidato A


com relao aos gastos totais

Regresso
estimada:
Intercepto

Se a proporo dos gastos do


candidado A aumentar em 1%, ele
recebe 0.464 pontos percentuais a
Interpretao de causalidade? mais do total de votos.

Propriedades de MQO
Propriedades de MQO em qualquer amostra

Lembrando que para os parmetros obtidos partir da


amostra,
tem-se:

Valor estimado ou "previsto"

Desvio em relao a reta de regresso (= resduo

Propriedades algbricas da regresso de MQO:

A soma dos resduos do MQO zero

Assim, a mdia amostral dos resduos de MQO tambm zero

A covarincia amostral entre regressores e os resudos de MQO zero

A linha de regresso de MQO sempre passa na mdia amostral

Propriedades de MQO
Propriedades de MQO em qualquer amostra

Lembrando:

Valor estimado ou "previsto"

Desvio em relao a reta de regresso (= resduo

Propriedades algbricas da regresso de MQO:

A soma dos resduos


(desvio em relao
a reta) igual a 0

A correlao entre os
resduos e os
regressores igual a 0.

Propriedades de MQO

Por exemplo, para o diretor 12 o


salrio foi 526 023 dlares mais
baixo do que o previsto usando a
informao do retorno s aes da

Ajuste do modelo

At que ponto o modelo linear ajuda a explicar


variaes nos valores da varivel dependente, y?

a) o modelo explica toda a variao em y,


b) o modelo explica quase toda a variao de y
c) o modelo explica uma pequena parte da
variao de y

Ajuste do modelo

Soma dos Quadrados Total, Soma dos Quadrados


representa a variao total Explicada,
da varivel dependente.
representa a variao
explicada pela regresso.

Soma dos Quadrados


dos
Resduos,representa a
variao no explicada
pela regresso.

Ajuste do modelo

At que ponto o modelo linear ajuda a explicar


variaes nos valores da varivel dependente, y?

Reta
horizontal em

Reta de
regresso

Soma dos Quadrados


dos
Resduos,representa a
variao no explicada

Soma dos Quadrados Total,


representa a variao total
da varivel dependente.

Ajuste do modelo

Decomposio da variao total

Variao
total

Parte
explicada

Parte no
explicada

Medida do ajuste do modelo (R-quadrado ou R2)

R2 mede a frao da
variao total que
explicada pelo modelo
de regresso linear

Ajuste do modelo

Salrio dos diretores e retorno das aes

Voting outcomes and campaign expenditures

A regresso explica
apenas 1.3% da
variao total do salrio
dos diretores

A regresso explica
85.6% da variao
total no resultado das
eleies.

Cuidado: Um valor alto de R2 no significa necessariamente


que a regresso tem uma interpretao de causalidade!

Problemas com R2

y2

10

12
10
8
6
4

Anscombe
encontrou
exemplos de
dados bastante
diferentes com
medidas
descritivas muito
parecidas.

y1

12

Anscombe's 4 Regression data sets

10

15

10

y4

6
4
5

R=0.667

10

12
10
8
6
4

Todas as 4
regresses ao
lado apresentam o
mesmo R. O que
vocs acham do
poder explicativo
do modelo?

y3

x2

12

x1

15

10
x3

15

10

15
x4

Anscombe, Francis J. (1973) Graphs in statistical analysis.American


Statistician,27, 1721
Ver no R: data(anscombe); example(anscombe).

Incorporando nolinearidades

Mudana
percentual no
salrio

se a educao
aumenta em 1
ano

Incorporando nolinearidades

Regresso estimada

O salrio aumenta 8.3% para


cada ano adicional de educao
(chamado retorno da educao).

Efeitos diploma podem ser includos


no modelo (veremos mais frente
no curso).
Taxa de crescimento do salrio igual a
8.3% para cada anos a mais de
educao. J a variao do salrio a
cada ano adicional crescente (ver a

Incorporando nolinearidades

Mudana % no salrio
se as vendas
aumentam em 1 %

Incorporando nolinearidades

Salrio

dos CEOs e vendas das firmas: equao


estimada

+ 1 % de vendas est associado a + 0.257 % no salrio

A forma log-log assume que o modelo tem


elasticidade constante
Elasticidade y x, a mudana percentual em y
associada a uma mudana de 1% em x. Ex:
elasticidade preo da demanda.

Incorporando nolinearidades

Resumo das interpretaes com formas logartmicas


Modelo

Varivel
Dependent
e

Varivel
Independe
nte

Nvel-nvel
Nvel-nvel
Nvel-log
Nvel-log

y
y
y
y

x
x
ln(x)
ln(x)

Log-nvel
Log-nvel

ln(y)
ln(y)

x
x

Log-log
Log-log

ln(y)
ln(y)

ln(x)
ln(x)

Interpreta
o do
coeficiente

Inferncia
Podemos

mostrar que, sob algumas


Hipteses tradicionais:
Os parmetros estimados so no-

viesados
(necessrias mais 4 hipeses: RLS 1 a RLS 4)

Pode-se calcular a varincia destes

estimadores
(necessrio adicionar mais uma hipteses:

Inferncia

Os dados so aleatrios e dependem da amostra que foi sorteada da


populao

Inferncia

Os dados formam uma aleatria de tamanho n


da populao

Ento, cada observao segue a equao populacional


(que continua sendo desconhecida)

Inferncia

Inferncia

Os valores sorteados
para o i-simo trabalhador

O erro que o modelo populacional


prev para o trabalhador i:

Inferncia

Hipteses para o modelo linear (cont.)

Hiptese RLS.3 (Variao Amostral da varivel explicativa)


Os valores da varivel explicativa no so os
mesmos para todas as observaes (caso
contrrio seria impossvel estudar como
valores diferentes da varivel explicativa
levam a valores diferentes da varivel
dependente).

Hiptese RLS.4 (Mdia Condicional Zero)


O valor da varivel explicativa no
pode conter informao a respeito da
mdia dos fatores no observveis
(termo de erro).

Inferncia ausncia de
vis

Inferncia
Exemplo
de simulao (Devore 12.10):

Suponha que conhecemos a verdadeira relao


populacional:
com.

Podemos gerar amostras de mesmo tamanho usando


um gerador aleatrios de valores normais com mdia
zero e desvio-padro igual a 35.

Temos, por exemplo, 20 amostras diferentes de


tamanho 14

Para cada uma das 20 amostras, rodamos a regresso


por MQO.

Inferncia
Exemplo de simulao (Devore 12.10):
Para cada uma das 10 amostras, rodamos a regresso
por MQO.

Como j era de esperar, existe uma variao nos


valores estimados dos parmetros para cada

Inferncia

Inferncia

Resumo da propriedade Ausncia de vis


Os estimadores de MQO so no viesados
A prova de ausncia de vis depende de 4 hipteses assumidas

se qualquer uma delas falha, ento o MQO pode gerar


parmetros viesados
Ausncia de vis uma descrio do estimador numa dada

amostra, podemos estar prximos ou longe do verdadeiro


parmetro

Concluso: se a amostra tpica da populao,


ento os estimadores devem estar prximos dos
verdadeiros valores da populao

Inferncia

Exemplo

de vis (dada a quebra de uma das


hipteses):

Se a RLS 4 no satisfeita estimadores (betas) sero

viesados
Correlao entre x e u (veremos no cap 3. a direo e o
tamanho do vis)
Se u contem fatores que afetam y e tambm so
correlacionados com x

Ex. 2.12: performance em matemtica e programa de


lanche
Pergunta: fundo federal para lanche afeta performance em

matemtica?
Expectativa: programa tem impacto positivo ceteris paribus
(outros fatores fixos)
Math = % passou no teste de matemtica; lnchpr = %

Inferncia - varincia

Varincia dos Estimadores


Agora que sabemos que a distribuio amostral de nossa

estimativa centrada no parmetro verdadeiro (isto , beta


no viesado)
Queremos pensar sobre quanto espalhada essa distribuio

(quanto o beta pode variar?)


Para tanto, precisaremos de uma hiptese adicional:
RLS 5: Homocedasticidade ou varincia do termo de erro

constante

Inferncia

O valor da varivel explicativa no


pode conter informao a respeito da
variabilidade dos fatores no
observveis (termo de erro)

Inferncia

Ilustrao grfica da Homocedasticidade

A variabilidade dos fatores no


observveis no pode depender
do valor da varivel explicativa
Vemos abaixo que todas as
curvas "normais" tem o mesmo
desvio-padro

Inferncia

Um exemplo de heterocedasticidade: Salrio e educao

Inferncia

Inferncia

Um estimador da varincia do erro que no viesado


obtido ao corrigirmos para os graus de liberdade
perdidos na estimao.

Inferncia

As estimativas dos desvios-padro dos coeficientes de regresso so


chamados de "erros-padro". Eles medem a preciso na estimao dos
coeficientes de regresso. Se eles so grandes, os coeficientes estimados
variam muito de amostra a amostra.

Resumo

Resumo

Stata

Hoje em dia muito fcil "rodar" um modelo de


regresso, ou seja, obter as estimativas de MQO, seus
erros-padro e medidas de ajuste do modelo. No
precisamos fazer os clculos de somatrio mo.

Dizemos que rodamos um modelo de regresso


linear, ou que, regredimos y em relao a x, ou
simplesmente, regredimos y em x.

O comando do stata muito simples:


reg y x
A ordem fundamental!
Um intercepto adicionado automaticamente.

Stata
Lembrem-se

que a resoluo no stata de todos os exemplos do livro do Wooldridge


est disponvel na pgina:
http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge.html

Exemplo

2.12 (Desempenho de Estudantes de Matemtica e o Programa de


Merenda Escolar).

Pergunta:

0 programa de merenda escolar melhora o desempenho dos alunos em


matemtica? Esperamos que o programa tenha um efeito positivo no desempenho
escolar dos alunos tudo o mais constante.

Como

seria um experimento ideal para medir este efeito? Que variveis vocs
gostariam de utilizar?

arquivo MEAP93 possui informao das seguintes variveis para 408 escolas de
Michigan em 92-93:
math10: % de alunos do primeiro ano do ensino mdio aprovados em uma exame de

matemtica.
lnchprg: ln do % de estudantes em uma escola que esto aptos a participar do programa de
merenda escolar.

Stata

use MEAP93, clear


reg math10 lnchpr

Stata
Exemplo 2.12 (Desempenho de Estudantes de Matemtica e o
Programa de Merenda Escolar).
Estime a regresso usando o stata.

use MEAP93, clear


reg math10 lnchpr

Resultado:
Source

SS

df

MS

Model
Residual

7665.26597
37151.9145

1
406

7665.26597
91.5071786

Total

44817.1805

407

110.115923

math10

Coef.

lnchprg
_cons

-.3188643
32.14271

Std. Err.
.0348393
.9975824

t
-9.15
32.22

Number of obs
F( 1,
406)
Prob > F
R-squared
Adj R-squared
Root MSE

P>|t|
0.000
0.000

=
=
=
=
=
=

408
83.77
0.0000
0.1710
0.1690
9.5659

[95% Conf. Interval]


-.3873523
30.18164

-.2503763
34.10378

Stata
Como obter os valores previstos pelo modelo e o
resduo
Usar comando predict do stata, aps a regresso

Exemplo (WAGE1): Equao salrio

reg wage educ


predict wagehat, xb

Esse
comando cria uma
varivel nova com o nome
"wagehat" (qquer nome poderia
ter sido usado) para segundo a
equao estimada
O valor previsto da varivel
dependente obtido quando
usamos a opo "xb"

Stata

Como obter os valores previstos pelo modelo e o resduo


Usar comando predict do stata, aps a regresso

Exemplo (WAGE1): Equao salrio


reg wage educ
predict wagehat, xb
reg wage educ
predict wageresid, r

Esse
comando cria uma varivel
nova com o nome "wagehat"
(qquer nome poderia ter sido
usado) para segundo a equao
estimada
Esse comando cria uma varivel
nova com o nome "wageresid"
(qquer nome poderia ter sido
usado) para o resduo segundo a
equao estimada

Stata

Ser que a hiptese de homocedasticidade razovel?


Vamos investigar a relao entre os resduos e os valores
previstos de y:

Residuals
5

10

15

Exemplo (WAGE1): Equao salrio


reg wage educ
predict wagehat, xb
reg wage educ
predict wageresid, r

-5

Faz
o grfico com no eixo
das ordenadas e nas
abcissas.
Se a homocedasticidade
fosse razovel, no

scatter wageresid wagehat

-2

4
Linear prediction

Stata

10

15

20

25

Como mostrar a equao estimada:


gr tw scatter wage educ
gr tw (scatter wage educ) (lfit wage educ)

10
educ
wage

15
Fitted values

20

1 Lista de Exerccios
Wooldridge:

Captulo 2: 2.2; 2.3; 2.4; 2.7; 2.11


Exerccios em Computador: 2.1; 2.3; 2.4; 2.5; 2.7

Gujarati:

Captulo 2:
2.15: despesas com alimentao e gastos totais de famlias na

India

2.17: pontuao mdia em teste superior versus renda

Captulo 3: escolher um dentre os Exemplos resolvidos:


Da seo 3.6, exemplo do salrio vs. escolaridade
Da seo 3.7: exemplo 3.2 (India); exemplo 3.3 (assinaturas vs.

PCs)