Escolar Documentos
Profissional Documentos
Cultura Documentos
Bertolo
Correlao e Regresso
Notas preparadas por L.A. Bertolo
ndice
Termos bsicos e conceitos ...................................................................................................................1
Regresso simples ................................................................................................................................5
Regresso Mltipla ..............................................................................................................................13
Terminologia de Regresso ..................................................................................................................20
Frmulas de Regresso .......................................................................................................................21
Variao = x x
x x
N1
Covarincia =
onde N o tamanho da amostra
xi a i-sima observao da varivel x,
a mdia das observaes da varivel x,
yi a i-sima observao da varivel y, e
a mdia das observaes da varivel y.
y y
x x
N1
D. O valor real da covarincia no significante porque ele no afetado pela a escala das duas variveis. Isto o
porqu de se calcular o coeficiente de correlao para tornar algo interpretvel da informao da covarincia.
E. O coeficiente de correlao, r, uma medida da intensidade da relao entre ou dentre as variveis.
Clculo:
r=
y y
8
7
x x
N1
r=
:
:
:
:
9 x x
9 y y
N1
N1
Observao
x
12
13
10
9
20
7
4
22
15
23
135
y
50
54
48
47
70
20
15
40
35
37
416
Desvio
de x
x - xMdio
Desvio
Quadrado
de x
(x - xMdio)2
-1,50
-0,50
-3,50
-4,50
6,50
-6,50
-9,50
8,50
1,50
9,50
0,00
2,25
0,25
12,25
20,25
42,25
42,25
90,25
72,25
2,25
90,25
374,50
Desvio
de y
y - yMdio
Desvio
Quadrado
de y
(y - yMdio)2
Produto
dos desvios
(x - xMdio)(y - yMdio)
8,40
12,40
6,40
5,40
28,40
-21,60
-26,60
-1,60
-6,60
-4,60
0,00
70,56
153,76
40,96
29,16
806,56
466,56
707,56
2,56
43,56
21,16
2342,40
-12,60
-6,20
-22,40
-24,30
184,60
140,40
252,70
-13,60
-9,90
-43,70
445,00
1
2
3
4
5
6
7
8
9
10
Soma
Clculos
xMdio=
135/10
13,5
yMdio=
416/10
41,6
s2x=
s2y=
374,5/9
41,611
2.342,4/9 =
260,267
r=
i.
ii.
iii. O coeficiente de correlao est limitado por 1 e +1. Quanto mais prximo o coeficiente estiver de 1 ou +1,
mais forte a correlao.
iv. Com a exceo dos extremos (isto , r = 1,0 ou r = -1), ns no podemos realmente falar acerca da
intensidade de uma relao indicada pelo coeficiente de correlao sem um teste estatstico de significncia.
v. As hipteses de interesse a respeito da correlao da populao, , so:
= 0
H0:
Hipteses Nulas
=/ 0
Ha:
;=
< >?
Exemplo 2, continuao
No exemplo anterior,
r = 0,475
N = 10
B, DEFG
A=
HI B, DEFJ
I, KDKF
=
= I, FJLE
B, GG
?< @
vii. Para tomar uma deciso, compare a estatstica-t calculada com a estatstica-t crtica para os graus de liberdade
apropriados e nvel de significncia.
Problema
Suponha o coeficiente de correlao como 0,2 e o nmero de observaes como 32. Qual o teste estatstico calculado?
Isto uma correlao significante usando um nvel de significncia de 5%?
Soluo
Hipteses:
= 0
H0:
Ha:
0
Estatstica-t calculada:
;=
M,N?
?O,OP
O,NO
O,QR
= 1,11803
;=
M,VOR?
?O,RP
O,VOWO
O,NR
W,RWRVW
O,R
= 9,42809
O valor-t crtico para um nvel de significncia de 1% e 11 observaes 3,169. Ento, a hiptese nula rejeitada e
conclumos que existe correlao significante.
Notas sobre Regresso, Preparadas por L. A. Bertolo
3 de 22
F. Um valor afastado (outlier1) um valor extremo de uma varivel. O valor afastado deve ser bem grande ou
bem pequeno (onde grande e pequeno so definidos relativamente ao restante da amostra).
i. Um valor afastado deve afetar a estatstica da amostra, tanto quanto um coeficiente de correlao.
possvel para um valor afastado afetar o resultado, por exemplo, tal que conclumos que existe uma relao
significante quando de fato no existe nenhuma ou concluir que no existe relao quando de fato h uma
relao.
ii. O pesquisador deve exercitar o julgamento (e cuidado) quando decidir se inclui ou exclui uma observao.
G. Correlao espria uma aparncia de uma relao quando de fato no existe relao. Valores afastados
podem resultar numa correlao espria .
i. O coeficiente de correlao no indica uma relao causal. Certos itens dados podem estar altamente
correlacionados, mas no necessariamente um resultado de uma relao causual.
ii. Um bom exemplo de uma correlao espria a cada de neve e os preos de aes em Janeiro. Se
fizermos uma regresso histrica dos preos de aes versus o total de cada de neve em Minnesota,
obteremos uma relao estatstica significante especialmente para os meses de Janeiro. Desde que no
existe uma razo econmica para esta relao, este seria um exemplo de correlao espria.
Regresso Simples
1. Regresso a anlise da relao entre uma varivel e alguma outra varivel(s), assumindo uma relao linear.
Tambm referida como regresso dos mnimos quadrados e mnimos quadrados ordinrios (ordinary
least squares - OLS).
A. O propsito explicar a variao numa varivel (isto , como uma varivel difere do seu valor mdio)
usando a variao em uma ou outras mais variveis.
B. Suponha que queremos descrever, explicar, ou predizer porque uma varivel difere de sua mdia. Seja a isima observao desta varivel representada como Yi, e seja n indicando o nmero de observaes.
A variao nos Yi's (os quais queremos explicar) :
Variao
= y y
= SS^
do Y
&"_
C. O princpio dos mnimos quadrados que a linha de regresso determinada minimizando a soma dos
quadrados das distncias verticais entre os valores reais de Y e os valores previstos de Y.
Uma observao extrema que est bem separada do restante dos dados. Em anlise de regresso, nem todos
os valores outlying tero uma influncia na funo de ajuste. Estes outlying com respeito a seus valores X
(alavancagem alta), e aqueles com valores Y que no so consistentes com a relao de regresso para outros
valores (resduos altos) espera-se que sejam influentes. Para testar a influncia de tais valores usada a
estatstica Cook
4 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo
Uma linha um ajuste atravs dos pontos XY tal que a soma dos resduos quadrticos (isto , a soma dos
quadrados da distncia vertical entre as observaes e a linha) seja minimizada.
2. As variveis numa relao de regresso consistem de variveis dependentes e variveis independentes.
A. A varivel dependente a varivel cuja variao est sendo explicada pela(s) outra(s) varivel(s).
Tambm referida como varivel explicada, a varivel endgena, ou a varivel prevista.
B.
A varivel independente a varivel cuja variao usada
para explicar aquelas da varivel dependente. Tambm referida como a
varivel explicativa, a varivel exgena, ou a varivel previsvel.
C. Os parmetros numa equao de regresso simples so a
inclinao (b1) e o intercepto (b0):
yi = b0 + b1 xi + i
onde yi a i-sima observao da varivel dependente,
xi a i-sima observao da varivel independente,
b0 um intercepto.
b1 o coeficiente de inclinao,
i um resduo para a i-sima observao.
D. A inclinao, b1, a variao em Y para uma variao de uma unidade em X. A inclinao pode ser positiva,
negativa, ou zero, calculados como:
b =
! a,b
!"# '
e
d874. c4
d8
.fg76. c6
ecg
@
e
.fg74. c4
d8
ecg
Suponha que:
d = 1.000
x x
y y
= 450
x x
N = 30
Ento
b =
g.jjj
@k
lmj
@k
NP,PVnR
W,WnP
b
d
d
y y
x x
b
N 1
=
d
x x
N1
x y
x y? p q
N
=
x
x p
q
N
E. O intercepto, b0, a interseco da linha com o Y- em X=0. O intercepto pode ser positivo, negativo ou
zero. O intercepto calculado como:
boO = y b x
5 de 22
Exemplo 1, continuaao:
Exemplo 1, continuao:
Preos de vendas (eixo vertical) versus ps quadrados para
uma amostra de 34 casas venda em Setembro de 2007
em St. Lucie County.
referida
como
heteroscedasticidade.]
E. Os resduos so distribudos independentemente; isto , o resduo ou distrbio para uma observao no
est correlacionado com aquele de outra observao. [Uma violao disto referida como auto-correlao.]
F.
4. O erro padro da estimativa, SEE, (tambm referido como o erro padro do resduo ou erro padro da
regresso, e freqentemente indicado como se) o desvio padro dos valores previstos da varivel dependente
ao redor da linha de regresso estimada.
5. Erro padro da estimativa (SEE) =
@
Hs% = 9
sst+,.2u1v
?
7( ?x ?x ' 8
(. ?(
%{.
z.
SEE = 9 .fg .?j . . = 9 .fg?
= 9 .fg
?
e
R =
~"#" %'_""
Exemplo 2, continuao:
Considere as seguintes observaes sobre X e Y:
Observao
1
2
3
4
5
6
7
8
9
10
Soma
x
12
13
10
9
20
7
4
22
15
23
135
y
50
54
48
47
70
20
15
40
35
37
416
x
12
13
10
9
20
7
4
22
15
23
y
50
54
48
47
70
20
15
40
35
37
^y
39,82
41,01
37,44
36,25
49,32
33,88
30,31
51,70
43,38
52,89
y-^y
10,18
12,99
10,56
10,75
20,68
-13,88
-15,31
-11,70
-8,38
-15,89
0,00
e
103,63
168,74
111,51
115,56
427,66
192,65
234,40
136,89
70,22
252,49
1.813,77
Portanto,
SSResidual = 1.813,63/8 = 226,70
1/2
SEE = (226,70) = 15,06
B. Um R2 de 0,49 indica que as variveis independentes explicam 49% da variao da varivel dependente.
7 de 22
Exemplo 2, continuao
2
x
12
13
10
9
20
7
4
22
15
23
R
R
y
50
54
48
47
70
20
15
40
35
37
416
(y - yMdio)2
^y
y-^y
(^y - yMdio)2
70,56
153,76
40,96
29,16
806,56
466,56
707,56
2,56
43,56
21,16
2.342,40
39,82
41,01
37,44
36,25
49,32
33,88
30,31
51,70
43,38
52,89
416,00
10,18
12,99
10,56
10,75
20,68
-13,88
-15,31
-11,70
-8,38
-15,89
0,00
3,17
0,35
17,31
28,62
59,60
59,60
127,46
102,01
3,17
127,46
528,75
103,63
168,74
111,51
115,56
427,66
192,65
234,40
136,89
70,22
252,49
1.813,77
ou
|o ; og
Ou
onde tc um valor-t crtico para o nvel de confiana selecionado. Se existirem 30 graus de liberdades e um
nvel de confiana 95%, o tc 2,042 [tomado de uma tabela-t].
B. A interpretao do intervalo de confiana que ele um intervalo que acreditamos que incluir o parmetro
verdadeiro ( 1 b s no caso acima) com nvel de confiana especificado.
8. Quando o erro padro da estimativa (a variabilidade dos dados ao redor da linha de regresso) subir, a
confiana se alarga. Em outras palavras, quanto mais variveis forem os dados, menos confiante voc ficar
quando estiver usando o modelo de regresso para estimar o coeficiente.
9. O erro padro do coeficiente uma raiz quadrada da razo da varincia da regresso pela variao da
varivel independente:
S%
S|y =
d
1
x x
A. Teste de hipteses: uma varivel explicativa individual
i. Para testar hiptese do coeficiente de inclinao (isto , para ver se a inclinao estimada igual a um
valor hipottico, b0, Ho: b = b1, calculamos a estatstica t-distribuda:
; =
|y 1 |1
|y
ii. O teste estatstico tdistribudo com Nk1 graus de liberdade (nmero de observaes (N), menos o
nmero de variveis independentes (k), menos um).
B. Se a estatstica-t maior que o valor-t crtico para o apropriado
grau de liberdade, (ou menor que o valor-t crtico uma
inclinao negativa) podemos dizer que o coeficiente de
inclinao diferente do valor hipottico, b1.
C. Se no existir relao entre a varivel dependente e uma
varivel independente, o coeficiente de inclinao, b1, ser zero.
Uma inclinao zero indica que no existe variao em Y para uma dada variao em X
Uma inclinao zero indica que no existe relao entre Y e X.
D. Para testar se uma varivel independente explica a variao na varivel dependente, a hiptese que
testada se a inclinao zero:
Ho:
b1 = 0
b1 0
Esta hiptese alternativa referida como uma hiptese bilateral. Isto significa que rejeitamos a nula se a
inclinao observada diferente de zero em uma das duas direes (positiva ou negativa).
E. Existem hipteses na economia que se referem ao sinal da relao entre as variveis dependente e as
independentes. Neste caso, a alternativa direcional (> ou <) e o teste-t unilateral (usa somente uma
cauda da distribuio-t). No caso de uma alternativa unilateral, existe somente um valor-t crtico.
9 de 22
10
Rejeitar H0
ogc g
y
O,nV?O
O,N
= 2,4375
Rejeitar H0
Exemplo 4
Suponha que voc estimou um modelo de
regresso com as seguintes estimativas:
y = 1,50 + 2,5 X1
Alm disso, voc tem valores projetados para a
varivel independente, X1=20. O valor projetado
para y 51,5:
y = 1,50 + 2,50 (20) = 1,50 + 50 = 51,5
y =
11
b0 + bi xp
Graus de
Liberdade
1
N2
Total
N1
Exemplo 5
Fonte de variao
Regresso (Explicada)
Erro (no explicado)
Total
R2 = 5.050/5.650 =
0,8938 ou 89,38%
Graus de
Liberdade
1
28
29
Mdia Quadrtica
Regresso Quadrtica
Mdia =
SSRegresso+/1
Erro quadrtico mdio =
SSResiduo+/N-2
Mdia Quadrtica
5.050
600
5.650
5050
21.429
SEE = (600/28)1/2 =
(21.429)1/2 = 4,629
12
Regresso Mltipla
1. Regresso mltipla a anlise de regresso com mais do que uma varivel independente.
A. O conceito de regresso mltipla idntico daquele da anlise de regresso simples exceto que duas ou
mais variveis independentes so usadas simultaneamente para explicarem as variaes da varivel
dependente.
y = b0 + b1x1 + b2x2 + b3x3 + b4x4
B. Numa regresso mltipla, a meta minimizar a
soma dos erros quadrticos. Cada coeficiente de
inclinao estimado enquanto se mantm as
outras variveis constantes.
2. O intercepto na equao de regresso tem a mesma interpretao que ela tinha sob o caso linear simples o
intercepto um valor da varivel dependente quando todas as variveis independentes so iguais a zero.
3. O coeficiente de inclinao um parmetro que reflete a variao na varivel dependente para uma unidade de
variao na varivel independente.
A. Os coeficientes de inclinaes (os betas) so
descritos como o movimento na varivel
dependente para uma variao de uma unidade de
variao na varivel independente mantendo
todas as
constantes.
outras
variveis
independentes
4. Modelo de Regresso:
Yi = b0 + b1 x1i + b2 x2i + i
onde:
bj a coeficiente de inclinao da j-sima varivel dependente; e
xji a i-sima observao da j-sima varivel.
A. Os graus de liberdade para o teste de um coeficiente de inclinao so N-k-1, onde n um nmero de
observaes da amostra e k um nmero de variveis independentes.
B. Na regresso mltipla, as variveis independentes podem estar correlacionadas umas com as outras,
resultando em estimativas menos confiveis. Este problema referido como multi-colinearidade.
5. Um intervalo de confiana para uma inclinao da regresso de populao numa regresso mltipla um
intervalo centrado na inclinao estimada:
|o ; og
ou
A. Este o mesmo intervalo usado na regresso simples para o intervalo de um coeficiente de inclinao.
B. Se este intervalo contm zero, conclumos que a inclinao no estatisticamente diferente de zero.
13
0 + b 1 x1i + 2 b x2i)
= =
e
{ .
@
.fg %
??
ss
??
df =
$%# %
x%#!"%
$%# %
!"#!% $%%$%$&%
1 = N k 1 = N k + 1
A. Os graus de liberdade so o nmero de pedaos de informaes independentes que so usadas para estimar
os parmetros de regresso. No clculo dos parmetros de regresso, usamos os seguintes pedaos de
informaes:
A mdia da varivel dependente.
A mdia de cada uma das variveis independentes.
B. Ento,
se a regresso uma regresso simples, usamos os dois graus de liberdade na estimao da linha de
regresso.
se a regresso uma regresso mltipla com quatro variveis independentes, usamos cinco graus de
liberdade na estimao da linha de regresso.
10. Previso (Forecasting) usando regresso envolve fazer predies acerca da varivel dependente baseadas nas
relaes mdias observadas na regresso estimada.
14
nVQ
RW?W?
nVQ
WQ
= 13,373
Soluo
O valor previsto para Y 90:
^Y = 1,50 + 2,50 (20) 0,20 (120) + 1,25 (50)
= 1,50 + 50 24 + 62,50 = 90
11. A estatstica-F uma medida de quo bem um conjunto de variveis independentes, como um grupo, explica
a variao na varivel dependente.
A. A estatstica-F calculada como:
F=
s
s
t+3+,,/
t+,.2u1v
eccg
z . c6
6
e
.fg
z
6. c6
e
.fg
eccg
B. A estatstica-F pode ser formulada para testar todas as variveis independentes como um grupo (a aplicao
mais comum). Por exemplo, se existirem quatro variveis independentes no modelo, as hipteses so:
H0:
b1 = b2 = b3 = b4 = 0
Ha: no mnimo um bi 0
C. A Estatstica-F pode ser formulada para testar subconjuntos de variveis independentes (para ver se elas
tem poder de explicao incremental (incremental explicativa power). Por exemplo se existirem quatro
variveis independentes no modelo, um subconjunto poderia ser examinado:
H0:
b1=b4=0
Ha:
b1 ou b4 0
12. O coeficiente de determinao, R2, a porcentagem da variao da varivel dependente explicada pelas
variveis independentes.
R =
R =
~"#" %'_""
~"#" ^ &"_
e
z? (
d
@
.fg (
15
13.1/
13.1/
? +40v.121
/1v
~"#" ^ &"_
0<R2<1
e
d
@
.fg (? (
R = 1 )
?
?
5 1 R
onde a mdia de Y.
SS^
&"_
= y y
B. SSResidual (a.k.a. SSE) a variabilidade isto no explicada pela regresso e calculada como:
onde
C. SSRegression (a.k.a. SSExplicada) a variabilidade que explicada pela equao de regresso e calculada
como SSTotal SSResidual.
SS%#% = y{ y
16
Fonte
Regresso
Erro (no explicado)
Total
R2 =
F=
df
Graus de
Liberdade
k
Nk-1
N1
=1
SS
Soma dos quadrados
SSRegresso
SSResidual
SSTotal
SS/df
Mdia Quadrtica
MSR
MSE
14. Variveis Dummy so variveis qualitativas que tomam os valores zero ou um.
A. A maioria das variveis independentes representa um fluxo contnuo de valores. Entretanto, Alguma vezes a
varivel independente de natureza binria (ela ou ON ou OFF).
B. Estes tipos de variveis so chamadas variveis dummy e aos dados atribudo um valor de "0" ou "1". Em
muitos casos, voc aplica o conceito de varivel dummy para quantificar o impacto de uma varivel
qualitativa. Uma varivel dummy uma varivel dicotmica; isto , ela toma um valor de um ou zero.
C. Use uma varivel dummy a menos que o nmero de classes (p.ex., se tem trs classes, use duas variveis
dummy), caso contrrio voc cair numa varivel dummy "emboscada" (multicolinearidade perfeita
hiptese da violao [2]).
D. Uma varivel dummy interativa uma varivel dummy (0,1) multiplicada por uma varivel para criar uma
nova varivel. A inclinao desta nova varivel diz-nos a inclinao incremental.
15. Heteroscedasticidade uma situao em que a varincia dos resduos no constante em todas as
observaes.
A. Uma hiptese da metodologia da regresso que a amostra extrada da mesma populao, e que a
varincia dos resduos constante nas observaes; em outras palavras, os resduos so homoscedsticos.
B. Heteroscedasticidade um problema porque os estimadores no tem a menor varincia possvel, e portanto
o erro padro dos coeficientes no sero corretos.
16. Auto-correlao uma situao em que os termos de resduos esto correlacionadas unscom os outros. Isto
ocorre freqentemente em anlises de sries temporais.
A. Auto-correlao aparece geralmente em dados de sries temporais. Se o lucro do ano passado foi maior, isto
significa que o lucro deste ano pode ter uma probabilidade maior de ser alto do que ser baixo. Isto um
exemplo de auto-correlao positiva. Quando um ano bom for sempre seguido por uma ano ruim, isto um
exemplo de auto-correlao negativa.
B. Auto-correlao um problema porque os estimadores no tem a menor varincia possvel e portanto oerro
padro dos coeficientes no seriam corretos.
17. Multicolinearidade um problema de alta correlao entre ou dentre duas ou mais variveis independentes.
A. Multicolinearidade uma problema porque
i. A presena da multicolinearidade pode causar distores no erro padro e pode conduzir a problemas
com teste significncia dos coeficientes individuais, e
ii. Estimativas so sensveis s variaes nas observaes da amostra ou da especificao do modelo.
B. Se existir multicolinearidade, estamos mais aptos a concluir que uma varivel no importante.
C. Multicolinearidade est provavelmente presente em certo grau na maioria dos modelos econmicos.
Multicolinearidade perfeita nos proibir de estimar os parmetros de regresso. O caso ento
realmente a um dos graus.
17
18. O significado econmico dos resultados de uma estimao de regresso focaliza principalmente nos
coeficientes de inclinao.
A. Os coeficientes de inclinao indicam a variao da varivel dependente para uma variao de uma unidade
na varivel independente. Esta inclinao pode ser ento interpretada como uma medida da elasticidade;
isto , a variao em uma varivel corresponde a uma variao em outra varivel.
B. possvel ter significncia estatstica, apesar de que no tenha significncia econmica (p.ex., retornos
anormais significantes associados com um anncio, mas estes retornos no so suficientes para cobrirem
custos de transaes).
Para
Testar o papel de uma nica varivel na explicao da
variao da varivel dependente
use
a estatstica-t.
a estatstica-F.
o coeficiente de inclinao.
o intercepto.
o R2.
18
Regresso terminologia
Analysis of varincia
ANOVA
Autocorrelao
Coefficient of determination
Confidence interval
Correlation coeficiente
Covariance
Covariation
Cross-sectional
Degrees of freedom
Dependent varivel
Explained varivel
Explanatory varivel
Forecast
Estatstica-F
Heteroskedasticity
Homoskedasticity
Invarivel dependente
Intercept
Least squares regresso
Mean square error
Mean square regresso
Multicollinearity
Regresso mltipla
Negative correlao
Ordinary least squares
Frmulas de Regresso
Variao =
x x
Correlao r =
Varincia =
e
@
.fg '?'
?
d876. c6
d 85
)e
.fg74. c4
;=
ecg
e :
e :
:@
:@
.fg74. c4d8 .fg76. c6d8
ecg
ecg
Regresso
yi = b0 + b1 xi + i
b =
! a,b
!"# '
e
d 874. c4
d8
.fg76. c6
ecg
@
e
.fg74. c4
d8
ecg
Covarincia =
boO = y b x
< >?
?< @
e
(. ?(
d
.fg '. ?'
?
19
SEE =
=
=
N2
N2
N2
S%
S|y =
d
1
x x
; =
|y 1 |1
|y
d
SS%#%
{ y
y
N k 1 N k 1
Previso
Anlise de Varincia
y y
= SS^
&"_
SS%#% = y{ y
d
SS%#%
{ y
y
N k 1 N k 1
Regresso
Notas sobre Regresso, Preparadas por L. A. Bertolo 19 de 22
20