Você está na página 1de 80

Econometria

Modelos de
Regresso Linear

Prof. Jos Francisco


professorjfmp@hotmail.com

Regresso
Objetivo: Estabelecer uma funo matemtica que descreva
a relao entre uma varivel contnua (varivel explicada ou
dependente) e uma ou mais variveis explicativas ou
independentes.
y = f(x1,x2,...,xK) +
 y denota a varivel dependente.
 x1,x2,...,xK denotam as variveis independentes.
 f(x1,x2,...,xK) descreve a variao sistemtica
 representa a variao no sistemtica (erro aleatrio)
Modelos de regresso (funo f) podem ser lineares ou no
lineares.
A funo f no conhecida e deve ser inferida a partir
das observaes das variveis y, x1,x2,...,xk.

Regresso Linear
Tcnica estatstica que pode ser usada para analisar a relao entre uma
nica varivel dependente (explicada) e um conjunto de variveis
independentes (explicativas).
O objetivo da anlise de regresso linear consiste em identificar uma
equao linear que permita prever o valor da varivel dependente em
funo dos valores conhecidos das variveis independentes.
Regresso linear simples: apenas uma varivel independente.
Exemplo:
varivel dependente = vendas
varivel independente = despesas com propaganda
Regresso linear mltipla: duas ou mais variveis independentes.
Exemplo:
varivel dependente = preo do imvel
variveis independentes = rea, n de quartos, n de banheiros, idade

Motivao (HANKE & WICHERN, 2006)


Uma empresa transportadora deseja estimar o custo de agregar
carga a um caminho parcialmente cheio.
A empresa acredita que o nico incremento de custo, decorrente da
agregao de carga, o custo adicional de combustvel, pois o
rendimento (milhas por galo) seria menor.
Admite-se que a frota da transportadora formada por caminhes
idnticos.
No perodo 2009-2012 foram realizadas 5.428 viagens e uma
amostra aleatria de 40 viagens foi tomada. Na tabela ao lado so
apresentados os pesos e os rendimentos (milhas/galo) das 40
viagens selecionadas na amostra.

Diagrama de
disperso
representao grfica
que permite
visualizar a
relao/associao
entre duas variveis

Um incremento no
peso reduz o
rendimento
A relao entre as
variveis no
exata (estocstica)

Motivao
A boa aderncia da nuvem de pontos ao redor de um reta imaginria indica
que a relao entre as duas variveis pode ser aproximada por uma relao
linear.

A essncia da relao entre o peso e o rendimento pode ser expressa por uma
reta. Seja Y o rendimento em milhas/galo e X o peso da carga (1000 libras),
ento temos o seguinte modelo de regresso linear simples:
modelo

y = 0 + 1x +

0 e 1 so constantes no conhecidas
um termo aleatrio com distribuio normal ( ~ N(0,2))

A identificao desta reta (estimao dos parmetros do modelo) pode ser


efetuada por meio do estimador de mnimos quadrados ordinrios (MQO).

Motivao
Neste caso o rendimento (y) explicado pelo peso da carga (x),
ento, y=f(x):
y = rendimento = varivel dependente
x = peso da carga = varivel independente
A relao estocstica entre as duas variveis pode ser modelada
da seguinte forma:
y = 0 + 1x +
Onde:
 0 e 1 so coeficientes desconhecidos da reta que relaciona as
variveis x e y (estimados a partir dos dados da amostra).
 um termo aleatrio (erro) que representa a impreciso na
relao entre x e y.

Motivao
Y
Equao da reta estimada por MQO
(Y|X) = 8,8484 0,0604 X

X
Para uma carga de 70 mil libras (X= 70) espera-se um rendimento de 4,62
milhas/galo ( (Y|X) = 4,62 )
E(Y|X) = 8,8484 0,0604 x 70 4,62

Motivao
Estimao por mnimos quadrados ordinrios (MQO)

Estimador MQO

(x
n

1 =

i =1

)(

x yi y

(x
n

i =1

Modelo ajustado
(Y|X) = 8,8484 0,0604 X

0 = y 1 x
X a varivel independente ou explicativa, neste caso o
peso ( X a mdia amostral de X)
Y a varivel dependente ou explicada, neste caso o
rendimento (milhas por galo), Y a mdia amostral de Y
n nmero de observaes, neste caso 40

Motivao

Interpretao da equao estimada


(Y|X) = 8,8484 0,0604 X
Cada incremento de 1000 libras (
X=1) na carga implica em uma reduo, mdia,
do rendimento (milhas/galo) da ordem de 0,0604 milhas/galo.
A transportadora paga $ 1,25 por galo de diesel, ento qual o incremento no
custo para transportar 1000 libras adicionais por um trajeto de 100 milhas, dado
que o frete o mdio (68,6 1000 libras)?

Motivao

centride
Y = 4,7

A transportadora paga $ 1,25


por galo de diesel, ento
qual o custo para transportar
1000 libras de carga em um
trajeto de 100 milhas ?
O rendimento mdio 4,7
milhas/galo, logo para um
trajeto de 100 milhas com
trasporte do frete mdio (68,6
1000 libras), em mdia, o
custo total :

X = 68,6

100 milhas x 1,25 $/galo

= $ 26,60

4,7 milhas/galo
O custo da mesma viagem com 1000 libras adicionais :
100 milhas x 1,25 $/galo

= $ 26,94

(4,7 0,0604) milhas/galo


Ou seja, 1000 libras adicionais na carga aumenta o custo em 34 centavos

Modelos de regresso linear


Modelo de regresso linear simples:
uma varivel dependente explicada
independente.

por

uma

varivel

y = 0 + 1x +
Modelo de regresso linear mltipla:
Uma varivel dependente explicada por pelo menos duas
variveis independentes.
y = 0 + 1x1 + ... + KxK +

(K2)

Objetivo: Identificar uma funo linear que permita explicar uma


varivel dependente (y) em funo das variveis explicativas (x),
ou seja, como y varia de acordo com mudanas em x.

Significado do erro
O erro representa:
 Todos os outros fatores que afetam a varivel dependente Y,
mas que no esto contempladas nas variveis explicativas X.
 Erros de medio.
 Forma funcional inadequada, por exemplo,
y = 0 + 1x
 Inerente variabilidade
econmicos.

ou y = 0 + 1x + 1x2 ?
no

comportamento

dos

agentes

Modelo de Regresso Linear Simples


Equao de regresso populacional:
y = 0 + 1x +

(apenas uma varivel independente)

Os coeficientes 0 e 1 no so conhecidos e devem ser


estimados a partir de uma amostra aleatria de tamanho n da
populao:
Amostra aleatria de tamanho n (xi , yi), i=1,n
Em cada unidade amostrada tem-se que
yi = 0 + 1xi + i i=1,n
Componente
determnistica

Erro, varivel aleatria


no-observvel

Modelo de Regresso Linear Simples


Hipteses assumidas pelo modelo
H1) A relao entre as variveis linear yi = 0 + 1xi + i i=1,n:
H2) Mdia nula: E(i) = 0 para todo i=1,n
H3) Varincia constante: V(i) = 2 para todo i=1,n
H4) Erros no correlacionados: Cov(i,k) = 0 para todo ik
H5) Distribuio Normal: i ~ N(0,2) para todo i=1,n
i so independentes e identicamente distribudos N(0,
2)

H6) A varivel explicativa X fixa, i.e., no estocstica

Modelo de Regresso Linear Simples


y = 0 + 1x +
E
E

(y
(y

| x

)=
x)=

E (

)
( )

+ 1x +

+ 1x + E

Como o valor esperado do erro zero E()=0, o valor esperado de y condicionado


ao valor de x igual a:

E ( y | x ) = 0 + 1x
Por hiptese a varivel independente no aleatria, assim tem-se:

V (y ) =

Como o erro tem distribuio Normal com mdia 0 e varincia 2

y ~ N 0 + 1 x,

Modelo de Regresso Linear Simples

Reta de regresso

E ( y | x ) = 0 + 1 x

Modelo de Regresso Linear Simples


Estimador de mnimos quadrados
yi = 0 + 1xi + i i = yi - 0 - 1xi
f = = [ yi (0 + 1xi )]
n

Soma dos quadrados dos erros

2
i

i =1

i =1

f = [ yi (0 + 1xi )]
n

As estimativas de 0 e 1 devem minimizar a


soma sos quadrados dos desvios
No ponto de mnimo as
derivadas parciais so nulas

Min
0 ,1

i =1

n
f
= 0 [ yi (0 + 1xi )] = 0
0
i =1
n
f
= 0 xi [ yi (0 + 1xi )] = 0
1
i =1
n

i =1

i =1

n0 + 1 xi = yi
Sistema de equaes normais
A soluo deste sistema fornece
os estimadores de 0 e 1

0 xi + 1 x = xi yi
i =1

i =1

2
i

i =1

Modelo de Regresso Linear Simples


Estimador de mnimos quadrados
Soluo do sistema de equaes normais
Estimadores de mnimos quadrados
Sistema de equaes normais
n

n0 + 1 xi = yi
i =1

i =1

i =1

i =1

i =1

(x
n

1 =

i =1

)(

x yi y

(x
n

i =1

0 xi + 1 xi2 = xi yi
0 = y 1 x

Modelo de Regresso Linear Simples


Estimador de mnimos quadrados

Equao de regresso estimada

y = E ( y | x ) = 0 + 1x

Valor estimado da varivel dependente


y dado que x igual a xi

y i = 0 + 1xi

Resduo da i-sima observao igual


a diferena entre o valor observado e o
valor estimado da varivel yi

i = yi y i
i = yi 0 + 1xi

Modelo de regresso linear simples


Se as hipteses H1 at H6 forem satisfeitas, os estimadores de mnimos
quadrados so estimadores lineares no tendenciosos de varincia
mnima (Teorema de Gauss Markov)
O estimador
MQO no
tendencioso

( )

E 0 = 0

2 =
0

2 xi2
n

( )

2 =
1

i =1

n xi x
i =1

E 1 = 1

Os estimadores
so normalmente
distribudos

0 ~ N 0 , 20

2
n

2
x
i x

1 ~ N 1, 21

i =1

Estimador da
varincia do
erro

2 =

u
i =1

(
n

2
i

n2

i =1

yi 0 1 xi
n2

Modelo de regresso linear simples


Decomposio do erro

Yi (valor observado)
^
Yi - Yi
Yi - Y

^
Yi

(resduo)

(valor estimado pela reta)

^ -Y
Y
i
Y
Mdia da
varivel
dependente

^ = b + b X (reta de regresso)
Y
0
1

Modelo de regresso linear simples


Decomposio do erro

SQT = Yi Y
i =1

SQT a soma dos


quadrados dos
desvios de Y em
relao a sua mdia,
logo SQT uma
medida da variao
total da varivel
dependente.

Modelo de regresso linear simples


Decomposio do erro

SQR = Yi Y
i =1

SQR a soma dos


quadrados dos desvios
entre a reta de regresso
e a mdia da varivel
dependente Y.

Y corresponde as
estimativas definidas
pela reta de regresso

SQR uma medida da


variao total da varivel
dependente explicada
pela regresso.

Modelo de regresso linear simples


Decomposio do erro

SQE =
i =1

Yi Yi

SQE a soma dos


quadrados dos desvios
de Y em relao a reta de
regresso (resduos).
SQE expressa a parcela
da variao de Y no
explicada pela reta de
regresso.

Y corresponde as
estimativas definidas
pela reta de regresso

Modelo de regresso linear simples


Decomposio da soma de quadrados total

(Y Y ) = (
n

i =1

SQT

i =1

Yi Yi + Yi Yi
SQE

i =1

SQR

SQT = Soma de Quadrados Total (variao total da varivel dependente)


SQR = Soma de Quadrados da Regresso (parcela da variao total explicada pelo
modelo)
SQE = Soma de Quadrados dos Erros (Resduos) (parcela da variao total no
explicada pelo modelo)

n o total de observaes na amostra

Modelo de regresso linear simples


Coeficiente de determinao

R2 =

SQR
=
SQT

Yi Yi
i =1
n

(Y Y )
i =1

= 1

SQE
SQT

0 R2 1
 Se R2 estiver prximo de 1, a varivel x explica a maior parte da variao total de
y. Neste caso, a varivel x uma boa preditora da varivel y.
 Se R2 estiver prximo de 0, a varivel x explica muito pouco da variao total de y.
Neste caso, a varivel x no uma boa preditora da varivel y.

Modelo de regresso linear simples


Anlise da varincia (ANOVA)
F=

Fonte de variao

Graus de
liberdade

Regresso

Soma dos quadrados


SQR = 2
1

(x
n

i =1

Resduos

n-2

SQE = ( yi y i )

i =1
n

Total

n-1

SQT = yi2 nY

SQR
SQE (n 2)

Quadrados mdios

QMR = SQR / 1

QME = SQE / (n 2 )

i =1

2
R2 =

SQR
SQT

Estimador da
varincia do erro

Modelo de regresso linear simples


Anlise da varincia (ANOVA)
No exemplo da transportadora tem-se que
Resultados gerados pelo Excel

R2 = 0,76, ou seja, 76% da


variao do rendimento
explicada pela equao de
regresso Y = 8,8484 0,0604X
SQR
SQE

equao de regresso
Y = 8,8484 0,0604X

SQT

Modelo de regresso linear simples


Inferncia Estatstica
Modelo de regresso linear simples: Y = 0 + 1X +
Teste t
Avalia a significncia do coeficiente de regresso linear associado
com uma determinada varivel explicativa.
H0 : 1 = 0 ( ausncia do efeito )
H1 : 1 0 ( presena do efeito )
Sob H0

1
t=
~ t N 2

1

Estatstica teste

t > tcrtico rejeita H0


t < tcrtico aceita H0
tcrtico um valor tabelado para um nvel de
significncia , no Excel use INVT(alfa;N-2)

Modelo de regresso linear simples


Inferncia Estatstica (teste t)
No exemplo da transportadora tem-se que
Resultados gerados pelo Excel

H0 : 1 = 0
H1 : 1 0

Estatstica teste

t=
~ t N 2

Ao nvel de significncia de 5% o valor


tabelado (tcrtico) de uma t com (40-2) = 38
graus de liberdade 2,024 =INVT(0,05;38)
Valor absoluto do t calculado maior que
tcrtico, logo H0 rejeitada.

1 0,0604
t=
=
= 10,9052

0,0055
t calculado
1

Exemplo modelo de regresso linear simples


Inferncia Estatstica (teste t)
No exemplo da transportadora tem-se que
Regio de rejeio
Distribuio t

H0 : 1 = 0
H1 : 1 0
Regio de
rejeio bilateral

- 2,024

2,024

tcalculado = -10,9052
tcrtico = INVT(0,05;38)

1
t=

Exemplo modelo de regresso linear simples


Inferncia Estatstica (teste t e valor p)
O valor p (p-value) fornece uma forma direta de decidir entre a rejeio
e a no rejeio da hiptese nula H0
P-valor a probabilidade de encontrar um valor para a estatstica teste
mais extremo que o valor calculado para a estatstica teste (tcalculado).
Se o valor p menor que os nveis usuais de significncia (1% ou 5%)
devemos concluir pela rejeio da hiptese nula
Clculo do valor p no exemplo da transportadora: No Excel
=DISTT(10,9052;38;2)
tcalculado = -10,9052
valor p = P(t mais extremo que tcalculado) = P (t -10,9052 ou t 10,9052) = 2,91E-13
Probabilidade muito pequena e menor que o nvel de significncia
adotado (5%), logo a hiptese nula (H0) deve ser rejeitada

H0 : 1 = 0
H1 : 1 0

Exemplo modelo de regresso linear simples


Inferncia Estatstica (teste t e p-valor)

Resultados gerados pelo Excel

Valor p menor que o nvel de significncia adotado (5%),


logo a hiptese nula (H0) deve ser rejeitada

Modelo de regresso linear simples


Inferncia Estatstica (intervalo de confiana)
Intervalo de confiana 100(1-
)%

1 1 t

1 1 + 1 t

No exemplo da transportadora tem-se que

Valores
tabelados

Resultados gerados pelo Excel

O intervalo -0,0716 1 -0,0492 tem


95% de confiana de conter o valor do
coeficiente de regresso da varivel peso

Modelo de regresso linear simples


Previso do valor esperado

Previsor

E (Y h | X

Erro de previso

h = E(Yh | Xh ) E (Yh | Xh ) = 0 0 + 1 1 Xh

) = 0

+ 1 X

X h X
2
2 1
S ( h ) = + n

2
n

Xi X

i =1
Intervalo de previso

[E(Y | X ) t
h

)(

SQ Re s
n2

S2 (h ), E(Yh | Xh ) +tc S2 (h )

Modelo de regresso linear simples


Previso de uma observao
Dado XT+h prever YT+h
Previsor

Yh = 0 + 1 X h

Erro de previso

h = Yh Yh = 0 0 + 1 1 Xh + uh

)(

2
1
X h X
2
2
S ( h ) = 1 + + n

2
n

Xi X

i =1

Intervalo de previso

[Y t
h

S2 (h ),Yh +tc S2 (h )

SQ Re s
n2

Modelo de regresso linear simples


Intervalo de previso de uma observao

Intervalo de previso do valor esperado

Exemplo
A Comisso de Servios Pblicos responsvel pela regulao dos servios
pblicos, ou seja, atua no sentido de induzir as empresas a serem eficientes e
prestarem servios de qualidade ao preo justo para a populao.
Em um determinado Estado atuam diferentes empresas de servios pblicos sob o
regime de monoplio nas respectivas reas de concesso. O trabalho do auditor
consiste em visitar estas empresas e auditar seus registros financeiros para detectar
se algum tipo de abuso est ocorrendo. A maior dificuldade do auditor avaliar se
os custos apresentados pelas empresas so razoveis, pois as empresas tm
diferentes tamanhos
O arquivo empresas.xls contm registros do nmero de clientes e custos de
manuteno de 12 empresas de servio pblico.

Estime o modelo de regresso.

Qual o custo de manuteno esperado para uma empresa com 75.000 clientes ?

Suponha que uma empresa com 75.000 clientes reporte uma despesa com
manuteno de 1.500.000. Com base nos resultados da regresso linear, o auditor
deve ver este nmero como razovel ou excessivo ?

Exemplo
clientes (1000) despesas com manuteno (1000 US$)
25.3
484.6
36.4
672.3
37.9
839.4
45.9
694.9
53.4
836.4
66.8
681.9
78.4
1037
82.6
1095.6
93.8
1563.1
97.5
1377.9
105.7
1711.7
124.3
2138.6

Y = 33,32 + 15,02 X
Y = Despesa com manuteno
X = N de clientes

Exemplo
Qual o custo de manuteno esperado para uma empresa com 75.000 clientes ?
X = 75

Y = 33,32 + 15,02 75 = 1159,82


Y = Despesa com manuteno
X = N de clientes

1159,82

75

US$ 1.159.820,00

Exemplo
Suponha que uma empresa com 75.000 clientes reporte uma despesa com
manuteno de 1.500.000. Com base nos resultados da regresso linear, o auditor
deve ver este nmero como razovel ou excessivo ?
Podemos responder esta pergunta por meio de um intervalo de previso para uma
observao.

[Y t
h

Valor estimado pelo modelo de


regresso para varivel dependente
(Yh = 1159,2) quando Xh = 75.

S2 (h ),Yh +tc S2 (h )

t crtico com N-2 graus de liberdade ao nvel de


significncia . No Excel =INVT(0.05;10) = 2,2281

2
1
X h X
2
2
onde
S ( h ) = 1 + + n

2
n

Xi X

i =1
Obtido na Anova
Quadrado mdio do
resduo 35236

N de observaes = 12
Mdia da varivel dependente
70,67

Exemplo
O intervalo de confiana cobre o ponto (75, 1500), logo o valor do custo no
excessivo.

X = 75 (1000 clientes)
Y = 1500 (1000 US$)

Exemplo modelo de regresso linear simples no Excel


1) Matriz de dados para regresso linear simples
1 varivel dependente
2) No menu Ferramentas escolha a
1 varivel independente
opo Anlise de dados

4) Informe os dados para regresso


na caixa de dilogo

3) Na caixa de dilogo escolha a


opo Regresso e clique em Ok

Exemplo modelo de regresso linear simples no Excel


Intervalo com os valores da
varivel independente

Rtulos:
nomes das
variveis

Intervalo com os valores da


varivel dependente

Caixa de dilogo regresso

Marque s
e tem rtu
lo

Grfico dos
resduos
contra a
varivel
explicativa

Grava resultados da regresso


em uma nova planilha

Apresenta a
srie de
resduos

Y Y

Grfico para avaliar se a


hiptese de normalidade do
erro satisfeita

Grfico com
os valores
observados
e previstos

Exemplo modelo de regresso linear simples no Excel


Planilha de Resultados
Valor P < 5%
rejeito H0 no
teste F

R2

R2

Valor P
P(F>24,3492) = 0,0011

Valor P
P( |t| >4,9345) = 0,0011

Y Y Y

Valor P
P( |t| >2,1495) = 0,0638
Intervalo de
confiana

Valores para
a plotagem de
probabilidade
normal

Valor P < 5%
rejeito H0 no
teste F

- 4,9345

4,9345

Exemplo modelo de regresso linear simples no Excel


Grficos na planilha de Resultados
til na verificao da hiptese de
normalidade do erro (valores ao
redor de uma reta imaginria
indicam que a hiptese de
normalidade no foi violada)

Resduos

X Plotagem de resduos
20
0
-20

10

20

30

40

50

Plotagem de probabilidade normal

60

til na verificao da hiptese de


varincia constante do erro

50

40

Valores observados contra valores estimados


til na avaliao da qualidade do ajuste

30
20
10
0

X Plotagem de ajuste de linha

40

60

Percentil da amostra

60
50
40
Y

20

Y
Previsto(a) Y

30
20
10
0
0

10

20

30
X

40

50

80

100

Regresses que se tornam lineares por anamorfose


As especificaes a seguir so no-lineares, mas podem se tornar lineares por
anamorfose, ou seja, mediante alguma transformao das variveis.
(exponencial) Yi = 0 1 i

ln Yi = ln 0 + ln 1 X i + ln i

Xi

Modelo linear

(potncia)

Yi = 0 X i 1 i

ln Yi = ln 0 + 1 ln X i + ln i
*
*
*
Modelo linear Y = + X + v
i
0
1
i
i
X i* = 1

(hiprbole)

1
Yi = 0 + 1
+ i
Xi

Xi

A substituio de variveis vlida, pois a


relao entre X1 e X2 no linear

(polinomial)

Yi* = 0* + 1* X i + vi

Yi = 0 + 1 X i + 1 X i2 + i

Yi = 0 + 1 X i* + i
X i1 = X i
X i 2 = X i2

Yi * = ln Yi
0* = ln 0

1* = ln 1
vi = ln i
Yi * = ln Yi
0* = ln 0
X i* = ln X i
vi = ln i

Modelo linear

Modelo regresso linear mltipla

Yi = 0 + 1 X i1 + 1 X i 2 + i

Modelo de regresso linear mltipla

Modelo de regresso linear mltipla


A varivel dependente uma funo linear de K variveis independentes (K
2)

Y i = 0 + 1 X 1i + 2 X

2i

+K + k X

Ki

+ i

i=1,n

1, 2, 3,..., k, 2 so parmetros do modelo que devem ser estimados

Yi = [1

X i ,1

Notao matricial

Y1
Y
Y = 2
M

Yn

0

X i , K ] 1 + i i=1,n
M

k

Y = X +

1
1
X =
M

X 11
X 12
X 1n

X k1
X k 2

X kn

1

= 2
M

n

0

= 1
M

k

Na regresso linear simples (K=1), um caso particular da regresso linear mltipla

Hipteses assumidas pelo modelo de regresso linear mltipla


Basicamente, so as mesmas hipteses assumidas na regresso linear simples
H1) A relao entre as variveis linear yi = 0 + 1xi1 + 2x2i +...+ kxki + i i=1,n.
H2) A varivel explicativa X fixa, ou seja, no aleatria.
H3) As colunas da matriz X so linearmente independentes, ou seja, no h uma
relao linear perfeita entre duas ou mais as variveis explicativas.
H4) Erros tem mdia nula: E(i) = 0 para todo i=1,n.
H5) Varincia do erro constante (homocedasticidade):
V(i) = 2 para todo i=1,n.
H6) Erros no correlacionados: Cov(i,k) = 0 para todo ik.
H7) Erros tem distribuio Normal: i ~ N(0,2) para todo i=1,n.
H2,H3,H4 e H5 i so independentes e identicamente distribudos N(0,
2)

Modelo de regresso linear mltipla


Estimador de Mnimos Quadrados Ordinrios (MQO)

= X T X

n
n

X 1i

i =1
T

X X = n
X 2i
i =1
M
n
X Ki
i =1

Equao de
projeo

X
i =1
n

X
i =1

1i

i =1

X
i =1

X
i =1

1i

2i

X 2i

1i

X 2i

i =1

2
2i

O
n

X
i =1

1i

X Ki

X
i =1

2i

X TY

Ki

i =1

n
X 1i X ki

i =1
n

X 2 i X ki

i =1

2
X Ki

i =1

i =1
n

x1i y i

i =1

X Y = n
x2i yi
i =1

x
y
Ki i
i =1

2
1i

X Ki

y = E ( y | X ) = 0 + 1 X 1 + K + k X K = [1

X1

X K ] 1
M

k

Estimador de mnimos quadrados


Propriedades do estimador de mnimos quadrados

( )
( ) = (X X )
E =

Estimador no tendencioso

Matriz de covarincia dos estimadores

SQE
=
nk
2

1
T
2

~ N K +1 , ( X X )

j ~ N ( j , 2 a jj )

O vetor de estimadores tem


distribuio normal multivariada
Cada j tem distribuio normal
ajj elemento da diagonal principal
da inversa de XX

Se as hipteses H1 at H6 forem satisfeitas, o estimador de mnimos


quadrados o melhor estimador linear no tendencioso (Teorema de
Gauss Markov)

Exemplo modelo de regresso linear mltipla (KUTNER et al, 2004)


Uma empresa de artigos infantis opera em 21 cidades de mdio porte. A empresa
est analisando a possibilidade de expanso em outras cidades de mdio porte e
para isso deseja investigar se a vendas (Y) em uma localidade podem ser preditas
com base no nmero de pessoas com at 16 anos de idades (X1) e a renda per
capita na localidade (X2). Valores expressos em milhares.

X2
16,7
16,8
18,2
16,3
17,3
18,2
15,9
17,2
16,6
16
18,3
17,1
17,4
15,8
17,8
18,4
16,5
16,3
18,1
19,1
16

Y
174,4
164,4
244,2
154,6
181,6
207,5
152,8
163,2
145,4
137,2
241,9
191,1
232
145,3
161,1
209,7
146,4
144
232,6
224,1
166,5

300

300

250

250

200

200

X1
68,5
45,2
91,3
47,8
46,9
66,1
49,5
52
48,9
38,4
87,9
72,8
88,4
42,9
52,5
85,7
41,3
51,7
89,6
82,7
52,3

Atualmente a empresa est presente em 21 localidades (N = 21), cujos dados so


apresentados na tabela abaixo:

150

150

100

100

50

50

0
30

40

50

60

70

X1

80

90

100

0
15

16

17

18

X2

Modelo de regresso linear mltipla a ser estimado

Y = 0 + 1 X1 + 2 X 2 +

19

20

Exemplo modelo de regresso linear mltipla


Os dados das 21 localidades podem ser dispostos em um grfico, onde cada
localidade representada por um ponto.
A equao de regresso

E (Yi X 1 , X 2 ) = 0 + 1 X 1 + 2 X 2

define um plano

passando pelo meio da nuvem de pontos. Este plano representa o valor esperado
das vendas em funo da renda e da populao abaixo de 16 anos em uma
localidade

vendas

renda

populao

Exemplo modelo de regresso linear mltipla


Modelo de regresso linear

Yi = 0 + X 1, i + 2 X 2, i + i

Estimao dos coeficientes de regresso por mnimos quadrados

X X=
T

Dados

Y=

174,4
164,4
244,2
154,6
181,6
207,5
152,8
163,2
145,4
137,2
241,9
191,1
232
145,3
161,1
209,7
146,4
144
232,6
224,1
166,5

X=

1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

68,5
45,2
91,3
47,8
46,9
66,1
49,5
52
48,9
38,4
87,9
72,8
88,4
42,9
52,5
85,7
41,3
51,7
89,6
82,7
52,3

16,7
16,8
18,2
16,3
17,3
18,2
15,9
17,2
16,6
16
18,3
17,1
17,4
15,8
17,8
18,4
16,5
16,3
18,1
19,1
16

(X X )
T

X Y=
T

21,00
1.302,40
360,00

1.302,40
87.707,94
22.609,19

360,00
22.609,19
6.190,26

29,7289
0,0722
-1,9926

0,0722
0,0004
-0,0055

3.820,00
249.643,35
66.072,75

= X T X

-1,9926
-0,0055
0,1363

X TY

0 68,8571

1 = 1,4546

9
,
3655

2
Equao estimada

Y = 68,86 + 1,45 X1 + 9,37 X 2 +

Exemplo modelo de regresso linear mltipla


Grficos dos resduos contra cada varivel explicativa e a varivel explica exibe
um padro aleatrio e a disperso parece constante e, portanto, esto coerentes
com as hipteses (pressupostos) de covarincias nulas entre os erros e varincia
do erro constante.

Exemplo modelo de regresso linear mltipla


O grfico de probabilidade normal ndica que a distribuio dos resduos
normal, portanto, coerente com a hiptese (pressuposto) de distribuio normal
para o erro.

Modelo de regresso linear mltipla


Inferncia Estatstica no Modelo de Regresso Linear
Anlise da varincia - ANOVA
Fonte de
variao

Graus de
liberdade

Soma dos quadrados

Quadrados mdios

Regresso

Resduos

n - (K+1)

Total

n
T
T

SQR = X Y yi
i =1
SQE = Y TY T X T Y
n
SQT = Y Y yi
i =1
T

n -1

(Y Y )
n

SQR
R =
=
SQT
2

(Y

i =1
n

n 1
R = 1 1 R
nk

QMR = SQR / K
QME = SQE / [n (K 1)]

i =1

QMR
SQR k
F=
=
QME SQE [n (k + 1)]

Exemplo modelo de regresso linear mltipla


Construo da ANOVA para o exemplo da cadeia de lojas de roupas juvenis

Yi = 68,8571 + 1,4546 X 1i + 9,3655 X 2 i

SQE

SQR

SQT

Exemplo modelo de regresso linear mltipla


Construo da ANOVA para o exemplo da cadeia de lojas de roupas juvenis
ANOVA
Soma dos
quadrados
(A)

Graus de
liberdade
(B)

Quadrado
mdio
(C=A/B)

Regresso

SQR
24015,28

12007,64

Resduo

SQE
2180,93

N-3=18

121,1626

Total

SQT
26196,21

N-1=20

Fonte de
variao

2 variveis
explicativas
Coeficiente de
determinao R2

3 coeficientes
estimados
Por isso N 3

SQR 24015.28
2
R =
=
= 0,917
SQT 26196,21

F
12007,64 / 121.1626 =
99,1035

O quadrado mdio dos


resduos uma estimativa
da varincia do erro

Modelo de regresso linear mltipla


Inferncia Estatstica
Teste t

H0 : j = 0
H1 : j 0

bj
t=
~ t n (k +1)
j

t t tab elad o rejeita H 0

Teste F
H0 : 1 = 2 = 3 =...= k =0
H1 : pelo menos um j 0

SQR k
F=
SQE [n (k + 1)]

F Fta belad o rejeita H 0

Exemplo modelo de regresso linear mltipla


Modelo de regresso linear

Yi = b0 + bX 1, i + b2 X 2, i + i

Estimativas dos erros padro dos coeficientes de regresso

2
0
S =
0 1

0 2

S =

3.602,0347
8,7459
-241,4230

0 1

1 2

8,7459
0,0449
-0,6724

Resultado na ANOVA = 121,1626

0 2

1
2
T

= X X
1 2
29,7289
0,0722
-1,9926

0,0722
0,0004
-0,0055
2

-1,9926
-0,0055
0,1363

-241,4230
-0,6724
16,5158

Erros padro dos


estimadores dos
coeficientes de
regresso (valores
informados pelo ajuste
de regresso no Excel)

Varincias na diagonal principal


Covarincias fora da diagonal principal

= 2 = 3602,0347 = 60,0170
0

= 2 = 0,0449 = 0,2118
1

= 2 = 16,5158 = 4,0640
2

Exemplo modelo de regresso linear mltipla


Inferncia do modelo
Teste F: Testa o efeito conjunto das variveis explicativas sobre a varivel
dependente.

H0 : b1 = b2 = 0 ( no h regresso de Y em X1 e X2)
H1 : b1 0 ou b2 0 ( presena do efeito )
1) Estatstica teste
SQR
K
F=
SQE
n (K + 1)

2) Distribuio da
estatstica testes sob H0

3) Valor da estatstica
teste na amostra
observada (Fcalculado)

4) F crtico ao nvel de
significncia de 5% = 3,5546
=FINV(0,05;2;18) no Excel

12.007,64
2
F=
= 99,1035
121,1626
21 (2 + 1)

SQR
K
~ FK ,n ( K +1)
SQE
n (K + 1)

5) Concluso
Fcalculado > Fcrtico logo rejeita H0

Distribuio F

Exemplo modelo de regresso linear mltipla


Inferncia do modelo
Teste t: Testa a significncia do coeficiente de regresso linear associado com
uma determinada varivel explicativa.

H0 : b1 = 0 ( ausncia do efeito )
H1 : b1 0 ( presena do efeito )
1) Estatstica teste

b1
t=

2) Distribuio da
estatstica testes sob H0

Distribuio t

b1
~ t N 3

1

3) Valor da estatstica
teste na amostra
observada (tcalculado)

1,4546
t=
= 6,8682
0,2118

4) t crtico ao nvel de
significncia de 5% = 2,1
=TINV(0,05;18) no Excel
5) Concluso
tcalculado > tcrtico logo rejeita H0

Exemplo modelo de regresso linear mltipla


Inferncia do modelo
Teste t: Testa a significncia do coeficiente de regresso linear associado com
uma determinada varivel explicativa.

H0 : b2 = 0 ( ausncia do efeito )
H1 : b2 0 ( presena do efeito )
1) Estatstica teste

b2
t=

2) Distribuio da
estatstica testes sob H0

Distribuio t

b2
~ t N 3

2

3) Valor da estatstica
teste na amostra
observada (tcalculado)

9,3655
t=
= 2,3045
4,0640

4) t crtico ao nvel de
significncia de 5% = 2,1
=TINV(0,05;18) no Excel
5) Concluso
tcalculado > tcrtico logo rejeita H0

Exemplo modelo de regresso linear mltipla


Intervalos 95% de confiana para os coeficientes da equao de regresso

bi bi
t n ( K +1) (2,5% )
t n ( K +1) (2,5% )
bi

Distribuio t

K = nmero de variveis independentes


n = tamanho da amostra

95%

68,8571 b0
2,1
2,1 194,948 b0 57,2339
60,0170
2,1

1,4546 b1
2,1 1,0096 b1 1,8995
0,2118

2,1

9,3655 b2
2,1 0,8274 b2 17,9036
4,0640

R2 ajustado
Problema com a estatstica R2 : sempre aumenta a medida que novas variveis
so includas no modelo de regresso linear mltipla, independentemente da
varivel adicionada.
No entanto cada varivel adicionada ao modelo tem um custo, pois mais um
coeficiente deve ser estimado. Ento interessante ter uma medida que permita
avaliar o benefcio para melhoria do modelo com a adio de uma nova varivel
explicativa em relao ao custo de estimar mais um coeficiente.
Esta medida o R2 ajustado

2
ajustado

n 1
2
(
= 1
1 R )
nk

Onde
n o tamanho da amostra
K o nmero de parmetros da equao de regresso.
O R2 ajustado til quando desejamos comparar dois modelos diferentes ou
comparar um mesmo modelo com tamanhos de amostras diferentes

Modelo de regresso linear mltipla


Previso
Dado

x hT = [1

X 1h

X 2h

X kh ]

Previso do valor esperado da varivel dependente dado Y

E (Yh | X ) = 0 + 1 X 1h + K + k X kh
s 2previso =

x hT S x h

Previso do valor da varivel dependente dado Y

Yh = 0 + 1 X 1h + K + k X kh
Erro padro das
previses

s 2previso =

x hT S x h + 2

Quadrado mdio
dos resduos
Valor obtido na
ANOVA

Exemplo
Calcule a previso das vendas esperadas nas cidades A e B:

Cidade A
nmero de pessoas com at 16 anos de idades (X1) : 65,4
renda per capita na localidade (X2) : 17,6

x hT = [1 65 , 4 17 ,6 ]

Cidade B
nmero de pessoas com at 16 anos de idades (X1) : 53,1
renda per capita na localidade (X2) : 17,7

x hT = [1 53 ,1 17 ,7 ]

Previso da venda esperada


na cidade A E(Y|X)

= 68,86 + 1,45 65,4 + 9,37 17,6 = 191,10

Previso da venda esperada


na cidade B E(Y|X)

= 68,86 + 1,45 53,1 + 9,37 17,7 = 174,15

Exemplo
Intervalos de confiana para as vendas esperadas nas cidades A e B:
Cidade A
nmero de pessoas com at 16 anos de idades (X1) : 65,4
T
renda per capita na localidade (X2) : 17,6

x h = [1 65 , 4 17 ,6 ]

Cidade B
nmero de pessoas com at 16 anos de idades (X1) : 53,1
T
renda per capita na localidade (X2) : 17,7

x h = [1 53 ,1 17 ,7 ]
Matriz de covarincias dos
estimadores slide 54

Resultado da ANOVA slide 52


2

= 121,1626

S =

Erro padro das estimativas slide 60

s 2previso =

x hT S x h

3.602,0347
8,7459
-241,4230

8,7459
0,0449
-0,6724

-241,4230
-0,6724
16,5158

Cidade A = 11,35

Cidade B = 11,93

Exemplo
Intervalos de confiana para as vendas esperadas nas cidades A e B:
E(Y|X) a mdia das
vendas dado X

2
2
previso t N ( k +1) s previso E (Y | X ) previso + t N ( k +1) s previso
2
2

Valor crtico da t com N-(k+1) graus de liberdade ao nvel de confiana 1-alfa,


podem ser obtidos no Excel, por exemplo, para 95% de confiana =INVT(0,05;18),
cujo valor aproximadamente 2,101

167,3 E (Y | X ) 214,9

Cidade A

149,1 E (Y | X ) 199,2

Cidade B

Note que os intervalos de confiana tem grande amplitude apesar do elevado R2


(0,92), portanto, valores elevados de R2 no garantem necessariamente previses
precisas

Exemplo modelo de regresso linear mltipla no Excel


1) Matriz de dados para regresso linear mltipla
1 varivel dependente
2) No menu Ferramentas escolha a
2 varivel independentes
opo Anlise de dados

4) Informe os dados para regresso


na caixa de dilogo

3) Na caixa de dilogo escolha a


opo Regresso e clique em Ok

Exemplo modelo de regresso linear mltipla no Excel


Intervalo com os valores da
varivel independente

Intervalo com os valores da


varivel dependente

Rtulos:
nomes das
variveis

Caixa de dilogo regresso

Marque s
e tem rtu
lo

Grfico dos
resduos
contra a
varivel
explicativa

Grava resultados da regresso


em uma nova planilha

Apresenta a
srie de
resduos

Y Y

Grfico para avaliar se a


hiptese de normalidade do
erro satisfeita

Grfico com
os valores
observados
e previstos

Exemplo modelo de regresso linear mltipla no Excel

2 1

Exemplo modelo de regresso linear mltipla no Excel


Grficos na planilha de Resultados

30,00
20,00
10,00
0,00
-10,00 0
-20,00
-30,00

20

40

60

X2 Plotagem de resduos

80

100

Resduos

Resduos

X1 Plotagem de resduos
40,00
20,00
0,00
-20,00 0
-40,00

10

20

X2

X1

X1 Plotagem de ajuste de linha


300
250
200
150
100
50
0

X2 Plotagem de ajuste de linha


300

Y
Previsto(a) Y

200

Y
Previsto(a) Y

15

100
0

50
X1

100

10

20
X2

30

25

Exemplo modelo de regresso linear mltipla no Excel


Grficos na planilha de Resultados

Plotagem de probabilidade normal


300
Y

200
100
0
0

50
100
Percentil da amostra

150

Problemas que podem acontecer em um modelo de


regresso linear
Multicolinearidade: Quando h relaes lineares exatas ou aproximadamente
lineares entre as variveis explicativas, a redundncia entre as varveis pode
resultar em estimativas com valores elevados para o erro padro ou impossibilitar
a estimao dos coeficientes de regresso no caso de relaes lineares exatas.
Heterocedasticidade: A varincia do erro no uma constante, (violao da
hiptese de homocedasticidade). No raro acontece quando a amostra de
observaes um corte transversal de unidades com tamanhos heterogneos.
Na presena de heterocedasticidade o estimador MQO permanece no
tendencioso, mas deixa de ser o melhor estimador. Nestas situaes deve-se
utilizar o mtodos mnimos quadrados ponderados (MQP).
Autocorrelao: Os erros so autocorrelacionados, violao da hiptese de
covarincia nula entre os erros. Problema frequente quando a amostra de dados
formada por sries temporais. Na presena de autocorrelao serial dos erros o
estimador MQO permanece no tendencioso, mas deixa de ser o melhor
estimador. Nestas situaes deve-se utilizar o mtodos mnimos quadrados
generalizados (MQG).

Multicolinearidade
Ocorre quando qualquer varivel independente altamente
correlacionada com um conjunto de outras variveis independentes.
No caso extremo, uma varivel independente guarda uma relao linear
com outra varivel independente. Neste caso no possvel obter as
estimativas de mnimos quadrados.
Consequncias da multcolinearidade:
Estimativas mais imprecisas
Erros-padro maiores
Dificuldade da separao dos efeitos de cada varivel
Solues para contornar a multicolineardade.
Coletar mais dados
Eliminar variveis
Usar componentes principais para reduzir a dimenso dos dados

Avaliao da Multicolinearidade
1) Coeficientes de correlao simples entre as variveis independentes
2) Tolerncia: quantia de variabilidade da varivel dependente no
explicada pelas outras variveis independentes. Valores altos significam
um pequeno grau de multicolinearidade.
Tolerncia= 1Rk2, se menor que 0,1 indica multicolinearidade
Onde Rk2 o coeficiente de determinao da varivel independente k nas
demais variveis independentes.
3) Fator de inflao da varincia (VIF): o inverso da tolerncia. Valores
altos significam maiores nveis de multicolinearidade.
VIF = 1 / Tolerncia, se maior do que 10 j indica multicolinearidade

Referncias Bibliogrficas
Hanke, J.E.; Wichern, D.W. Pronsticos en los negocios, Naucalpan de
Jurez: Pearson Education de Mxico, 2006.
Kutner, M.H.; Nachtsheim, C.J.; Neter, J. Applied linear regression models,
New York: McGraw-Hill Irwin, 2004.

Você também pode gostar