Escolar Documentos
Profissional Documentos
Cultura Documentos
Modelos de
Regresso Linear
Regresso
Objetivo: Estabelecer uma funo matemtica que descreva
a relao entre uma varivel contnua (varivel explicada ou
dependente) e uma ou mais variveis explicativas ou
independentes.
y = f(x1,x2,...,xK) +
y denota a varivel dependente.
x1,x2,...,xK denotam as variveis independentes.
f(x1,x2,...,xK) descreve a variao sistemtica
representa a variao no sistemtica (erro aleatrio)
Modelos de regresso (funo f) podem ser lineares ou no
lineares.
A funo f no conhecida e deve ser inferida a partir
das observaes das variveis y, x1,x2,...,xk.
Regresso Linear
Tcnica estatstica que pode ser usada para analisar a relao entre uma
nica varivel dependente (explicada) e um conjunto de variveis
independentes (explicativas).
O objetivo da anlise de regresso linear consiste em identificar uma
equao linear que permita prever o valor da varivel dependente em
funo dos valores conhecidos das variveis independentes.
Regresso linear simples: apenas uma varivel independente.
Exemplo:
varivel dependente = vendas
varivel independente = despesas com propaganda
Regresso linear mltipla: duas ou mais variveis independentes.
Exemplo:
varivel dependente = preo do imvel
variveis independentes = rea, n de quartos, n de banheiros, idade
Diagrama de
disperso
representao grfica
que permite
visualizar a
relao/associao
entre duas variveis
Um incremento no
peso reduz o
rendimento
A relao entre as
variveis no
exata (estocstica)
Motivao
A boa aderncia da nuvem de pontos ao redor de um reta imaginria indica
que a relao entre as duas variveis pode ser aproximada por uma relao
linear.
A essncia da relao entre o peso e o rendimento pode ser expressa por uma
reta. Seja Y o rendimento em milhas/galo e X o peso da carga (1000 libras),
ento temos o seguinte modelo de regresso linear simples:
modelo
y = 0 + 1x +
0 e 1 so constantes no conhecidas
um termo aleatrio com distribuio normal ( ~ N(0,2))
Motivao
Neste caso o rendimento (y) explicado pelo peso da carga (x),
ento, y=f(x):
y = rendimento = varivel dependente
x = peso da carga = varivel independente
A relao estocstica entre as duas variveis pode ser modelada
da seguinte forma:
y = 0 + 1x +
Onde:
0 e 1 so coeficientes desconhecidos da reta que relaciona as
variveis x e y (estimados a partir dos dados da amostra).
um termo aleatrio (erro) que representa a impreciso na
relao entre x e y.
Motivao
Y
Equao da reta estimada por MQO
(Y|X) = 8,8484 0,0604 X
X
Para uma carga de 70 mil libras (X= 70) espera-se um rendimento de 4,62
milhas/galo ( (Y|X) = 4,62 )
E(Y|X) = 8,8484 0,0604 x 70 4,62
Motivao
Estimao por mnimos quadrados ordinrios (MQO)
Estimador MQO
(x
n
1 =
i =1
)(
x yi y
(x
n
i =1
Modelo ajustado
(Y|X) = 8,8484 0,0604 X
0 = y 1 x
X a varivel independente ou explicativa, neste caso o
peso ( X a mdia amostral de X)
Y a varivel dependente ou explicada, neste caso o
rendimento (milhas por galo), Y a mdia amostral de Y
n nmero de observaes, neste caso 40
Motivao
Motivao
centride
Y = 4,7
X = 68,6
= $ 26,60
4,7 milhas/galo
O custo da mesma viagem com 1000 libras adicionais :
100 milhas x 1,25 $/galo
= $ 26,94
por
uma
varivel
y = 0 + 1x +
Modelo de regresso linear mltipla:
Uma varivel dependente explicada por pelo menos duas
variveis independentes.
y = 0 + 1x1 + ... + KxK +
(K2)
Significado do erro
O erro representa:
Todos os outros fatores que afetam a varivel dependente Y,
mas que no esto contempladas nas variveis explicativas X.
Erros de medio.
Forma funcional inadequada, por exemplo,
y = 0 + 1x
Inerente variabilidade
econmicos.
ou y = 0 + 1x + 1x2 ?
no
comportamento
dos
agentes
(y
(y
| x
)=
x)=
E (
)
( )
+ 1x +
+ 1x + E
E ( y | x ) = 0 + 1x
Por hiptese a varivel independente no aleatria, assim tem-se:
V (y ) =
y ~ N 0 + 1 x,
Reta de regresso
E ( y | x ) = 0 + 1 x
2
i
i =1
i =1
f = [ yi (0 + 1xi )]
n
Min
0 ,1
i =1
n
f
= 0 [ yi (0 + 1xi )] = 0
0
i =1
n
f
= 0 xi [ yi (0 + 1xi )] = 0
1
i =1
n
i =1
i =1
n0 + 1 xi = yi
Sistema de equaes normais
A soluo deste sistema fornece
os estimadores de 0 e 1
0 xi + 1 x = xi yi
i =1
i =1
2
i
i =1
n0 + 1 xi = yi
i =1
i =1
i =1
i =1
i =1
(x
n
1 =
i =1
)(
x yi y
(x
n
i =1
0 xi + 1 xi2 = xi yi
0 = y 1 x
y = E ( y | x ) = 0 + 1x
y i = 0 + 1xi
i = yi y i
i = yi 0 + 1xi
( )
E 0 = 0
2 =
0
2 xi2
n
( )
2 =
1
i =1
n xi x
i =1
E 1 = 1
Os estimadores
so normalmente
distribudos
0 ~ N 0 , 20
2
n
2
x
i x
1 ~ N 1, 21
i =1
Estimador da
varincia do
erro
2 =
u
i =1
(
n
2
i
n2
i =1
yi 0 1 xi
n2
Yi (valor observado)
^
Yi - Yi
Yi - Y
^
Yi
(resduo)
^ -Y
Y
i
Y
Mdia da
varivel
dependente
^ = b + b X (reta de regresso)
Y
0
1
SQT = Yi Y
i =1
SQR = Yi Y
i =1
Y corresponde as
estimativas definidas
pela reta de regresso
SQE =
i =1
Yi Yi
Y corresponde as
estimativas definidas
pela reta de regresso
(Y Y ) = (
n
i =1
SQT
i =1
Yi Yi + Yi Yi
SQE
i =1
SQR
R2 =
SQR
=
SQT
Yi Yi
i =1
n
(Y Y )
i =1
= 1
SQE
SQT
0 R2 1
Se R2 estiver prximo de 1, a varivel x explica a maior parte da variao total de
y. Neste caso, a varivel x uma boa preditora da varivel y.
Se R2 estiver prximo de 0, a varivel x explica muito pouco da variao total de y.
Neste caso, a varivel x no uma boa preditora da varivel y.
Fonte de variao
Graus de
liberdade
Regresso
(x
n
i =1
Resduos
n-2
SQE = ( yi y i )
i =1
n
Total
n-1
SQT = yi2 nY
SQR
SQE (n 2)
Quadrados mdios
QMR = SQR / 1
QME = SQE / (n 2 )
i =1
2
R2 =
SQR
SQT
Estimador da
varincia do erro
equao de regresso
Y = 8,8484 0,0604X
SQT
1
t=
~ t N 2
1
Estatstica teste
H0 : 1 = 0
H1 : 1 0
Estatstica teste
t=
~ t N 2
1 0,0604
t=
=
= 10,9052
0,0055
t calculado
1
H0 : 1 = 0
H1 : 1 0
Regio de
rejeio bilateral
- 2,024
2,024
tcalculado = -10,9052
tcrtico = INVT(0,05;38)
1
t=
H0 : 1 = 0
H1 : 1 0
1 1 t
1 1 + 1 t
Valores
tabelados
Previsor
E (Y h | X
Erro de previso
h = E(Yh | Xh ) E (Yh | Xh ) = 0 0 + 1 1 Xh
) = 0
+ 1 X
X h X
2
2 1
S ( h ) = + n
2
n
Xi X
i =1
Intervalo de previso
[E(Y | X ) t
h
)(
SQ Re s
n2
S2 (h ), E(Yh | Xh ) +tc S2 (h )
Yh = 0 + 1 X h
Erro de previso
h = Yh Yh = 0 0 + 1 1 Xh + uh
)(
2
1
X h X
2
2
S ( h ) = 1 + + n
2
n
Xi X
i =1
Intervalo de previso
[Y t
h
S2 (h ),Yh +tc S2 (h )
SQ Re s
n2
Exemplo
A Comisso de Servios Pblicos responsvel pela regulao dos servios
pblicos, ou seja, atua no sentido de induzir as empresas a serem eficientes e
prestarem servios de qualidade ao preo justo para a populao.
Em um determinado Estado atuam diferentes empresas de servios pblicos sob o
regime de monoplio nas respectivas reas de concesso. O trabalho do auditor
consiste em visitar estas empresas e auditar seus registros financeiros para detectar
se algum tipo de abuso est ocorrendo. A maior dificuldade do auditor avaliar se
os custos apresentados pelas empresas so razoveis, pois as empresas tm
diferentes tamanhos
O arquivo empresas.xls contm registros do nmero de clientes e custos de
manuteno de 12 empresas de servio pblico.
Qual o custo de manuteno esperado para uma empresa com 75.000 clientes ?
Suponha que uma empresa com 75.000 clientes reporte uma despesa com
manuteno de 1.500.000. Com base nos resultados da regresso linear, o auditor
deve ver este nmero como razovel ou excessivo ?
Exemplo
clientes (1000) despesas com manuteno (1000 US$)
25.3
484.6
36.4
672.3
37.9
839.4
45.9
694.9
53.4
836.4
66.8
681.9
78.4
1037
82.6
1095.6
93.8
1563.1
97.5
1377.9
105.7
1711.7
124.3
2138.6
Y = 33,32 + 15,02 X
Y = Despesa com manuteno
X = N de clientes
Exemplo
Qual o custo de manuteno esperado para uma empresa com 75.000 clientes ?
X = 75
1159,82
75
US$ 1.159.820,00
Exemplo
Suponha que uma empresa com 75.000 clientes reporte uma despesa com
manuteno de 1.500.000. Com base nos resultados da regresso linear, o auditor
deve ver este nmero como razovel ou excessivo ?
Podemos responder esta pergunta por meio de um intervalo de previso para uma
observao.
[Y t
h
S2 (h ),Yh +tc S2 (h )
2
1
X h X
2
2
onde
S ( h ) = 1 + + n
2
n
Xi X
i =1
Obtido na Anova
Quadrado mdio do
resduo 35236
N de observaes = 12
Mdia da varivel dependente
70,67
Exemplo
O intervalo de confiana cobre o ponto (75, 1500), logo o valor do custo no
excessivo.
X = 75 (1000 clientes)
Y = 1500 (1000 US$)
Rtulos:
nomes das
variveis
Marque s
e tem rtu
lo
Grfico dos
resduos
contra a
varivel
explicativa
Apresenta a
srie de
resduos
Y Y
Grfico com
os valores
observados
e previstos
R2
R2
Valor P
P(F>24,3492) = 0,0011
Valor P
P( |t| >4,9345) = 0,0011
Y Y Y
Valor P
P( |t| >2,1495) = 0,0638
Intervalo de
confiana
Valores para
a plotagem de
probabilidade
normal
Valor P < 5%
rejeito H0 no
teste F
- 4,9345
4,9345
Resduos
X Plotagem de resduos
20
0
-20
10
20
30
40
50
60
50
40
30
20
10
0
40
60
Percentil da amostra
60
50
40
Y
20
Y
Previsto(a) Y
30
20
10
0
0
10
20
30
X
40
50
80
100
ln Yi = ln 0 + ln 1 X i + ln i
Xi
Modelo linear
(potncia)
Yi = 0 X i 1 i
ln Yi = ln 0 + 1 ln X i + ln i
*
*
*
Modelo linear Y = + X + v
i
0
1
i
i
X i* = 1
(hiprbole)
1
Yi = 0 + 1
+ i
Xi
Xi
(polinomial)
Yi* = 0* + 1* X i + vi
Yi = 0 + 1 X i + 1 X i2 + i
Yi = 0 + 1 X i* + i
X i1 = X i
X i 2 = X i2
Yi * = ln Yi
0* = ln 0
1* = ln 1
vi = ln i
Yi * = ln Yi
0* = ln 0
X i* = ln X i
vi = ln i
Modelo linear
Yi = 0 + 1 X i1 + 1 X i 2 + i
Y i = 0 + 1 X 1i + 2 X
2i
+K + k X
Ki
+ i
i=1,n
Yi = [1
X i ,1
Notao matricial
Y1
Y
Y = 2
M
Yn
0
X i , K ] 1 + i i=1,n
M
k
Y = X +
1
1
X =
M
X 11
X 12
X 1n
X k1
X k 2
X kn
1
= 2
M
n
0
= 1
M
k
= X T X
n
n
X 1i
i =1
T
X X = n
X 2i
i =1
M
n
X Ki
i =1
Equao de
projeo
X
i =1
n
X
i =1
1i
i =1
X
i =1
X
i =1
1i
2i
X 2i
1i
X 2i
i =1
2
2i
O
n
X
i =1
1i
X Ki
X
i =1
2i
X TY
Ki
i =1
n
X 1i X ki
i =1
n
X 2 i X ki
i =1
2
X Ki
i =1
i =1
n
x1i y i
i =1
X Y = n
x2i yi
i =1
x
y
Ki i
i =1
2
1i
X Ki
y = E ( y | X ) = 0 + 1 X 1 + K + k X K = [1
X1
X K ] 1
M
k
( )
( ) = (X X )
E =
Estimador no tendencioso
SQE
=
nk
2
1
T
2
~ N K +1 , ( X X )
j ~ N ( j , 2 a jj )
X2
16,7
16,8
18,2
16,3
17,3
18,2
15,9
17,2
16,6
16
18,3
17,1
17,4
15,8
17,8
18,4
16,5
16,3
18,1
19,1
16
Y
174,4
164,4
244,2
154,6
181,6
207,5
152,8
163,2
145,4
137,2
241,9
191,1
232
145,3
161,1
209,7
146,4
144
232,6
224,1
166,5
300
300
250
250
200
200
X1
68,5
45,2
91,3
47,8
46,9
66,1
49,5
52
48,9
38,4
87,9
72,8
88,4
42,9
52,5
85,7
41,3
51,7
89,6
82,7
52,3
150
150
100
100
50
50
0
30
40
50
60
70
X1
80
90
100
0
15
16
17
18
X2
Y = 0 + 1 X1 + 2 X 2 +
19
20
E (Yi X 1 , X 2 ) = 0 + 1 X 1 + 2 X 2
define um plano
passando pelo meio da nuvem de pontos. Este plano representa o valor esperado
das vendas em funo da renda e da populao abaixo de 16 anos em uma
localidade
vendas
renda
populao
Yi = 0 + X 1, i + 2 X 2, i + i
X X=
T
Dados
Y=
174,4
164,4
244,2
154,6
181,6
207,5
152,8
163,2
145,4
137,2
241,9
191,1
232
145,3
161,1
209,7
146,4
144
232,6
224,1
166,5
X=
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
68,5
45,2
91,3
47,8
46,9
66,1
49,5
52
48,9
38,4
87,9
72,8
88,4
42,9
52,5
85,7
41,3
51,7
89,6
82,7
52,3
16,7
16,8
18,2
16,3
17,3
18,2
15,9
17,2
16,6
16
18,3
17,1
17,4
15,8
17,8
18,4
16,5
16,3
18,1
19,1
16
(X X )
T
X Y=
T
21,00
1.302,40
360,00
1.302,40
87.707,94
22.609,19
360,00
22.609,19
6.190,26
29,7289
0,0722
-1,9926
0,0722
0,0004
-0,0055
3.820,00
249.643,35
66.072,75
= X T X
-1,9926
-0,0055
0,1363
X TY
0 68,8571
1 = 1,4546
9
,
3655
2
Equao estimada
Graus de
liberdade
Quadrados mdios
Regresso
Resduos
n - (K+1)
Total
n
T
T
SQR = X Y yi
i =1
SQE = Y TY T X T Y
n
SQT = Y Y yi
i =1
T
n -1
(Y Y )
n
SQR
R =
=
SQT
2
(Y
i =1
n
n 1
R = 1 1 R
nk
QMR = SQR / K
QME = SQE / [n (K 1)]
i =1
QMR
SQR k
F=
=
QME SQE [n (k + 1)]
SQE
SQR
SQT
Graus de
liberdade
(B)
Quadrado
mdio
(C=A/B)
Regresso
SQR
24015,28
12007,64
Resduo
SQE
2180,93
N-3=18
121,1626
Total
SQT
26196,21
N-1=20
Fonte de
variao
2 variveis
explicativas
Coeficiente de
determinao R2
3 coeficientes
estimados
Por isso N 3
SQR 24015.28
2
R =
=
= 0,917
SQT 26196,21
F
12007,64 / 121.1626 =
99,1035
H0 : j = 0
H1 : j 0
bj
t=
~ t n (k +1)
j
Teste F
H0 : 1 = 2 = 3 =...= k =0
H1 : pelo menos um j 0
SQR k
F=
SQE [n (k + 1)]
Yi = b0 + bX 1, i + b2 X 2, i + i
2
0
S =
0 1
0 2
S =
3.602,0347
8,7459
-241,4230
0 1
1 2
8,7459
0,0449
-0,6724
0 2
1
2
T
= X X
1 2
29,7289
0,0722
-1,9926
0,0722
0,0004
-0,0055
2
-1,9926
-0,0055
0,1363
-241,4230
-0,6724
16,5158
= 2 = 3602,0347 = 60,0170
0
= 2 = 0,0449 = 0,2118
1
= 2 = 16,5158 = 4,0640
2
H0 : b1 = b2 = 0 ( no h regresso de Y em X1 e X2)
H1 : b1 0 ou b2 0 ( presena do efeito )
1) Estatstica teste
SQR
K
F=
SQE
n (K + 1)
2) Distribuio da
estatstica testes sob H0
3) Valor da estatstica
teste na amostra
observada (Fcalculado)
4) F crtico ao nvel de
significncia de 5% = 3,5546
=FINV(0,05;2;18) no Excel
12.007,64
2
F=
= 99,1035
121,1626
21 (2 + 1)
SQR
K
~ FK ,n ( K +1)
SQE
n (K + 1)
5) Concluso
Fcalculado > Fcrtico logo rejeita H0
Distribuio F
H0 : b1 = 0 ( ausncia do efeito )
H1 : b1 0 ( presena do efeito )
1) Estatstica teste
b1
t=
2) Distribuio da
estatstica testes sob H0
Distribuio t
b1
~ t N 3
1
3) Valor da estatstica
teste na amostra
observada (tcalculado)
1,4546
t=
= 6,8682
0,2118
4) t crtico ao nvel de
significncia de 5% = 2,1
=TINV(0,05;18) no Excel
5) Concluso
tcalculado > tcrtico logo rejeita H0
H0 : b2 = 0 ( ausncia do efeito )
H1 : b2 0 ( presena do efeito )
1) Estatstica teste
b2
t=
2) Distribuio da
estatstica testes sob H0
Distribuio t
b2
~ t N 3
2
3) Valor da estatstica
teste na amostra
observada (tcalculado)
9,3655
t=
= 2,3045
4,0640
4) t crtico ao nvel de
significncia de 5% = 2,1
=TINV(0,05;18) no Excel
5) Concluso
tcalculado > tcrtico logo rejeita H0
bi bi
t n ( K +1) (2,5% )
t n ( K +1) (2,5% )
bi
Distribuio t
95%
68,8571 b0
2,1
2,1 194,948 b0 57,2339
60,0170
2,1
1,4546 b1
2,1 1,0096 b1 1,8995
0,2118
2,1
9,3655 b2
2,1 0,8274 b2 17,9036
4,0640
R2 ajustado
Problema com a estatstica R2 : sempre aumenta a medida que novas variveis
so includas no modelo de regresso linear mltipla, independentemente da
varivel adicionada.
No entanto cada varivel adicionada ao modelo tem um custo, pois mais um
coeficiente deve ser estimado. Ento interessante ter uma medida que permita
avaliar o benefcio para melhoria do modelo com a adio de uma nova varivel
explicativa em relao ao custo de estimar mais um coeficiente.
Esta medida o R2 ajustado
2
ajustado
n 1
2
(
= 1
1 R )
nk
Onde
n o tamanho da amostra
K o nmero de parmetros da equao de regresso.
O R2 ajustado til quando desejamos comparar dois modelos diferentes ou
comparar um mesmo modelo com tamanhos de amostras diferentes
x hT = [1
X 1h
X 2h
X kh ]
E (Yh | X ) = 0 + 1 X 1h + K + k X kh
s 2previso =
x hT S x h
Yh = 0 + 1 X 1h + K + k X kh
Erro padro das
previses
s 2previso =
x hT S x h + 2
Quadrado mdio
dos resduos
Valor obtido na
ANOVA
Exemplo
Calcule a previso das vendas esperadas nas cidades A e B:
Cidade A
nmero de pessoas com at 16 anos de idades (X1) : 65,4
renda per capita na localidade (X2) : 17,6
x hT = [1 65 , 4 17 ,6 ]
Cidade B
nmero de pessoas com at 16 anos de idades (X1) : 53,1
renda per capita na localidade (X2) : 17,7
x hT = [1 53 ,1 17 ,7 ]
Exemplo
Intervalos de confiana para as vendas esperadas nas cidades A e B:
Cidade A
nmero de pessoas com at 16 anos de idades (X1) : 65,4
T
renda per capita na localidade (X2) : 17,6
x h = [1 65 , 4 17 ,6 ]
Cidade B
nmero de pessoas com at 16 anos de idades (X1) : 53,1
T
renda per capita na localidade (X2) : 17,7
x h = [1 53 ,1 17 ,7 ]
Matriz de covarincias dos
estimadores slide 54
= 121,1626
S =
s 2previso =
x hT S x h
3.602,0347
8,7459
-241,4230
8,7459
0,0449
-0,6724
-241,4230
-0,6724
16,5158
Cidade A = 11,35
Cidade B = 11,93
Exemplo
Intervalos de confiana para as vendas esperadas nas cidades A e B:
E(Y|X) a mdia das
vendas dado X
2
2
previso t N ( k +1) s previso E (Y | X ) previso + t N ( k +1) s previso
2
2
167,3 E (Y | X ) 214,9
Cidade A
149,1 E (Y | X ) 199,2
Cidade B
Rtulos:
nomes das
variveis
Marque s
e tem rtu
lo
Grfico dos
resduos
contra a
varivel
explicativa
Apresenta a
srie de
resduos
Y Y
Grfico com
os valores
observados
e previstos
2 1
30,00
20,00
10,00
0,00
-10,00 0
-20,00
-30,00
20
40
60
X2 Plotagem de resduos
80
100
Resduos
Resduos
X1 Plotagem de resduos
40,00
20,00
0,00
-20,00 0
-40,00
10
20
X2
X1
Y
Previsto(a) Y
200
Y
Previsto(a) Y
15
100
0
50
X1
100
10
20
X2
30
25
200
100
0
0
50
100
Percentil da amostra
150
Multicolinearidade
Ocorre quando qualquer varivel independente altamente
correlacionada com um conjunto de outras variveis independentes.
No caso extremo, uma varivel independente guarda uma relao linear
com outra varivel independente. Neste caso no possvel obter as
estimativas de mnimos quadrados.
Consequncias da multcolinearidade:
Estimativas mais imprecisas
Erros-padro maiores
Dificuldade da separao dos efeitos de cada varivel
Solues para contornar a multicolineardade.
Coletar mais dados
Eliminar variveis
Usar componentes principais para reduzir a dimenso dos dados
Avaliao da Multicolinearidade
1) Coeficientes de correlao simples entre as variveis independentes
2) Tolerncia: quantia de variabilidade da varivel dependente no
explicada pelas outras variveis independentes. Valores altos significam
um pequeno grau de multicolinearidade.
Tolerncia= 1Rk2, se menor que 0,1 indica multicolinearidade
Onde Rk2 o coeficiente de determinao da varivel independente k nas
demais variveis independentes.
3) Fator de inflao da varincia (VIF): o inverso da tolerncia. Valores
altos significam maiores nveis de multicolinearidade.
VIF = 1 / Tolerncia, se maior do que 10 j indica multicolinearidade
Referncias Bibliogrficas
Hanke, J.E.; Wichern, D.W. Pronsticos en los negocios, Naucalpan de
Jurez: Pearson Education de Mxico, 2006.
Kutner, M.H.; Nachtsheim, C.J.; Neter, J. Applied linear regression models,
New York: McGraw-Hill Irwin, 2004.