NotasSobreRegressao - Cópia

Notas sobre Regresso, Preparadas por L. A.
Bertolo
Correlao e Regresso
Notas preparadas por L.A. Bertolo
ndice
Termos bsicos e conceitos ...................................................................................................................1
Regresso simples ................................................................................................................................5
Regresso Mltipla ..............................................................................................................................13
Terminologia de Regresso ..................................................................................................................20
Frmulas de Regresso .......................................................................................................................21
Termos Bsicos e conceitos

1. Um grfico de espalhamento (scatter plot) uma representao grfica da relao entre duas ou mais
variveis. Num grfico de espalhamento de duas variveis x e y, cada ponto no grfico um par x-y.
2. Ns usamos regresso e correlao para descrever a variao em uma ou mais variveis.
A. A variao a soma dos desvios quadrados de
uma varivel de sua mdia.

Variao = x x

Exemplo1: Preos de vendas de casas e ps

quadrados
Preos de venda de casas (eixo vertical) v. ps quadrados
para uma amostra de 34 casas em Setembro de 2005 em St.
Lucie County.
B. A variao o numerador da varincia de uma

amostra:
Varincia =

x x
N1
C. Ambas, a variao e a varincia, so medidas

da disperso de uma amostra.
3. A covarincia entre duas variveis aleatrias
uma medida estatstica do grau para o qual as
duas variveis se movem juntas.
A. A covarincia captura quanto uma varivel diferente da sua mdia quando a outra varivel for diferente da
sua mdia.
B. Uma covarincia positiva indica que as variveis tendem a se moverem juntas; uma covarincia negativa indica
que as variveis tendem a se moverem em direes opostas.
C. A covarincia calculada como a razo da co-variao pelo tamanho da amostra menos um:
Covarincia =
onde N o tamanho da amostra
xi a i-sima observao da varivel x,
a mdia das observaes da varivel x,
yi a i-sima observao da varivel y, e
a mdia das observaes da varivel y.

y y
x x
N1
D. O valor real da covarincia no significante porque ele no afetado pela a escala das duas variveis. Isto o
porqu de se calcular o coeficiente de correlao para tornar algo interpretvel da informao da covarincia.
E. O coeficiente de correlao, r, uma medida da intensidade da relao entre ou dentre as variveis.
Clculo:
Notas sobre Regresso,

Preparadas por
L. A. Bertolo
r=
!"#$" %$&#% ' % (
*+,-./ 0123/ *+,-./ 0123/

)
5)
5
2+ 4
2+ 6
y y 8
7
x x
N1
r=
:
:
:
:
9 x x 9 y y
N1
N1
Observao
x
12
13
10
9
20
7
4
22
15
23
135
y
50
54
48
47
70
20
15
40
35
37
416
Desvio
de x
x - xMdio
Desvio
Quadrado
de x
(x - xMdio)2
-1,50
-0,50
-3,50
-4,50
6,50
-6,50
-9,50
8,50
1,50
9,50
0,00
2,25
0,25
12,25
20,25
42,25
42,25
90,25
72,25
2,25
90,25
374,50
Nota: A correlao no implica que um

causa o outro. Podemos dizer que duas
variveis X e Y esto correlacionadas, mas
no que X causa Y ou que Y causa X, na
mdia eles simplesmente esto relacionados ou associados um com o outro.
Desvio
de y
y - yMdio
Desvio
Quadrado
de y
(y - yMdio)2
Produto
dos desvios
(x - xMdio)(y - yMdio)
8,40
12,40
6,40
5,40
28,40
-21,60
-26,60
-1,60
-6,60
-4,60
0,00
70,56
153,76
40,96
29,16
806,56
466,56
707,56
2,56
43,56
21,16
2342,40
-12,60
-6,20
-22,40
-24,30
184,60
140,40
252,70
-13,60
-9,90
-43,70
445,00
1
2
3
4
5
6
7
8
9
10
Soma
Clculos
xMdio=
135/10
13,5
yMdio=
416/10
41,6
s2x=
s2y=
374,5/9
41,611
2.342,4/9 =
260,267
r=
(445/9)/((41,611)1/2(260,267)1/2) = 49,444/(6,451*16,133) = 0,475
i.
O tipo de relao est representada pelo coeficiente de correlao:

r =+1 correlao perfeitamente positiva
+1 >r > 0 relao positiva
r = 0 nenhuma relao
0 > r > 1 relao negativa
r = 1 correlao perfeitamente negativa
ii.
Voc pode determinar o grau de correlao observando o grfico de espalhamento.
Se a relao para cima existe correlao positiva.

Se a relao para baixo existe correlao negativa.
2 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

Preparadas por
L. A. Bertolo
iii. O coeficiente de correlao est limitado por 1 e +1. Quanto mais prximo o coeficiente estiver de 1 ou +1,
mais forte a correlao.
iv. Com a exceo dos extremos (isto , r = 1,0 ou r = -1), ns no podemos realmente falar acerca da
intensidade de uma relao indicada pelo coeficiente de correlao sem um teste estatstico de significncia.
v. As hipteses de interesse a respeito da correlao da populao, , so:
= 0
H0:
Hipteses Nulas
Em outras palavras, no existe correlao entre as duas variveis

Hipteses Alternativas
=/ 0
Ha:
Em outras palavras, h uma correlao entre as duas

variveis
vi. O teste estatstico est t-distribudo com n-2 graus de liberdade:
;=
< >?
Exemplo 2, continuao
No exemplo anterior,
r = 0,475
N = 10
B, DEFG
A=
HI B, DEFJ
I, KDKF
=
= I, FJLE
B, GG
?< @
vii. Para tomar uma deciso, compare a estatstica-t calculada com a estatstica-t crtica para os graus de liberdade
apropriados e nvel de significncia.
Problema
Suponha o coeficiente de correlao como 0,2 e o nmero de observaes como 32. Qual o teste estatstico calculado?
Isto uma correlao significante usando um nvel de significncia de 5%?
Soluo
Hipteses:
= 0
H0:
Ha:
0
Estatstica-t calculada:
;=
M,N?
?O,OP
O,NO
O,QR
= 1,11803
Graus de liberdade = 32-1 = 31

O valor-t crtico para um nvel de significncia de 5% e 31 graus de liberdade 2,042. Ento, no existe correlao
significante (1,11803 cai entre os dois valores crticos de 2.042 e +2.042).
Problema
Suponha o coeficiente de correlao como 0,80 e o nmero de observaes como 62. Qual o teste estatstico calculado?
Isto uma correlao significante usando um nvel de significncia de 1%?
Soluo
Hipteses:
H0:
= 0
Ha:
0
Estatstica-t calculada:
;=
M,VOR?
?O,RP
O,VOWO
O,NR
W,RWRVW
O,R
= 9,42809
O valor-t crtico para um nvel de significncia de 1% e 11 observaes 3,169. Ento, a hiptese nula rejeitada e
conclumos que existe correlao significante.
Notas sobre Regresso, Preparadas por L. A. Bertolo
3 de 22

Preparadas por
L. A. Bertolo
F. Um valor afastado (outlier1) um valor extremo de uma varivel. O valor afastado deve ser bem grande ou
bem pequeno (onde grande e pequeno so definidos relativamente ao restante da amostra).
i. Um valor afastado deve afetar a estatstica da amostra, tanto quanto um coeficiente de correlao.
possvel para um valor afastado afetar o resultado, por exemplo, tal que conclumos que existe uma relao
significante quando de fato no existe nenhuma ou concluir que no existe relao quando de fato h uma
relao.
ii. O pesquisador deve exercitar o julgamento (e cuidado) quando decidir se inclui ou exclui uma observao.
G. Correlao espria uma aparncia de uma relao quando de fato no existe relao. Valores afastados
podem resultar numa correlao espria .
i. O coeficiente de correlao no indica uma relao causal. Certos itens dados podem estar altamente
correlacionados, mas no necessariamente um resultado de uma relao causual.
ii. Um bom exemplo de uma correlao espria a cada de neve e os preos de aes em Janeiro. Se
fizermos uma regresso histrica dos preos de aes versus o total de cada de neve em Minnesota,
obteremos uma relao estatstica significante especialmente para os meses de Janeiro. Desde que no
existe uma razo econmica para esta relao, este seria um exemplo de correlao espria.
Regresso Simples
1. Regresso a anlise da relao entre uma varivel e alguma outra varivel(s), assumindo uma relao linear.
Tambm referida como regresso dos mnimos quadrados e mnimos quadrados ordinrios (ordinary
least squares - OLS).
A. O propsito explicar a variao numa varivel (isto , como uma varivel difere do seu valor mdio)
usando a variao em uma ou outras mais variveis.
B. Suponha que queremos descrever, explicar, ou predizer porque uma varivel difere de sua mdia. Seja a isima observao desta varivel representada como Yi, e seja n indicando o nmero de observaes.
A variao nos Yi's (os quais queremos explicar) :

Variao
= y y = SS^
do Y

&"_
C. O princpio dos mnimos quadrados que a linha de regresso determinada minimizando a soma dos
quadrados das distncias verticais entre os valores reais de Y e os valores previstos de Y.
Uma observao extrema que est bem separada do restante dos dados. Em anlise de regresso, nem todos
os valores outlying tero uma influncia na funo de ajuste. Estes outlying com respeito a seus valores X
(alavancagem alta), e aqueles com valores Y que no so consistentes com a relao de regresso para outros
valores (resduos altos) espera-se que sejam influentes. Para testar a influncia de tais valores usada a
estatstica Cook

Preparadas por
L. A. Bertolo
Uma linha um ajuste atravs dos pontos XY tal que a soma dos resduos quadrticos (isto , a soma dos
quadrados da distncia vertical entre as observaes e a linha) seja minimizada.
2. As variveis numa relao de regresso consistem de variveis dependentes e variveis independentes.
A. A varivel dependente a varivel cuja variao est sendo explicada pela(s) outra(s) varivel(s).
Tambm referida como varivel explicada, a varivel endgena, ou a varivel prevista.
B.
A varivel independente a varivel cuja variao usada
para explicar aquelas da varivel dependente. Tambm referida como a
varivel explicativa, a varivel exgena, ou a varivel previsvel.
C. Os parmetros numa equao de regresso simples so a
inclinao (b1) e o intercepto (b0):
yi = b0 + b1 xi + i
onde yi a i-sima observao da varivel dependente,
xi a i-sima observao da varivel independente,
b0 um intercepto.
b1 o coeficiente de inclinao,
i um resduo para a i-sima observao.
D. A inclinao, b1, a variao em Y para uma variao de uma unidade em X. A inclinao pode ser positiva,
negativa, ou zero, calculados como:
b =
! a,b
!"# '
e
d874. c4
d8
.fg76. c6
ecg
@
e
.fg74. c4
d8
ecg
Suponha que:
d = 1.000

x x
y y

= 450
x x
N = 30
Ento
b =
g.jjj
@k
lmj
@k
Sugesto: Pense na linha de regresso como a

mdia da relao entre a varivel independente e
a varivel dependente . O resduo representa a
distncia de quanto um valor observado da
varivel dependente (i.e., Y) est longe da relao
mdia como descrito pela linha de regresso.
NP,PVnR
W,WnP
Uma frmula atalho para o coeficiente de correlao:
b
d
d

y y x x
b
N 1
=

d
x x
N1
x y

x y? p q
N
=

x

x p
q
N
Se isto realmente um atalho ou no depende do mtodo de

realizar os clculos: manualmente, usando o Microsoft Excel,
ou usando uma calculadora.
E. O intercepto, b0, a interseco da linha com o Y- em X=0. O intercepto pode ser positivo, negativo ou
zero. O intercepto calculado como:
3. A regresso linear assume o seguinte:
boO = y b x
5 de 22

Preparadas por
L. A. Bertolo
A. Uma relao linear existe entre as

variveis, dependente e independente.
Nota: se a relao no linear, pode
ser possvel transformar uma ou
ambas variveis de modo que exista
uma relao linear.
B. A varivel independente no est
correlacionada com os resduos; isto
, a varivel independente no
aleatria.
Exemplo 1, continuaao:
Exemplo 1, continuao:
Preos de vendas (eixo vertical) versus ps quadrados para
uma amostra de 34 casas venda em Setembro de 2007
em St. Lucie County.
C. O valor esperado do termo distrbio

zero; isto , E(i)=0
D. H uma varincia constante do termo
distrbio; isto , os temos distrbio ou
resduo so todos extrados de uma
distribuio com uma varincia
idntica. Em outras palavras, os
termos
distrbios
so
homoscedsticos. [Uma violao disto
referida
como
heteroscedasticidade.]
E. Os resduos so distribudos independentemente; isto , o resduo ou distrbio para uma observao no
est correlacionado com aquele de outra observao. [Uma violao disto referida como auto-correlao.]
F.
O termo distrbio (a.k.a. resduo, a.k.a. error term) normalmente distribudo.
4. O erro padro da estimativa, SEE, (tambm referido como o erro padro do resduo ou erro padro da
regresso, e freqentemente indicado como se) o desvio padro dos valores previstos da varivel dependente
ao redor da linha de regresso estimada.
5. Erro padro da estimativa (SEE) =
@
Hs% = 9
sst+,.2u1v
?
7( ?x ?x ' 8
(. ?(
%{.
z.
SEE = 9 .fg .?j . . = 9 .fg?
= 9 .fg
?
e
Onde SSResidual a soma dos erros quadrticos;

^ indica o valor predito ou estimado da varivel ou parmetro; e
y{ = |o O bo x o ponto na linha de regresso correspondente a um valor da varivel independente ,

o xi; o valor esperado de y, dado a relao mdia estimada entre x e y.

Preparadas por
L. A. Bertolo
A. O erro padro da estimativa ajuda-nos calibrar

o "ajuste" da linha de regresso; isto , quo
bem temos descrito a variao na varivel
dependente.
i. Quanto menor o erro padro, melhor o
ajuste.
ii. O erro padro da estimativa uma medida
da proximidade dos valores estimados
(usando a regresso estimada), os y 's,
esto dos valores reais, os Y's.
iii. Os is (a.k.a. os termos distrbios; a.k.a. os
resduos) so as distncias verticais entre o
valor observado de Y e aquele previsto pela
equao, os y '
iv. Os is esto nos mesmos termos (unidades de
medidas) que os Ys (p.ex, dollars, pounds,
billions)
6. O coeficiente de determinao, R2, a
porcentagem da variao da varivel dependente
(variao dos Yi's ou a soma dos quadrados total,
SST) explicada pela varivel independente(s).
A. O coeficiente de determinao calculado como:
R =
~"#" %'_""
~"#" & &"_

~"#" & &"_?~"#" %'_""
~"#" & &"_

sst+3+,,/
ss/1v ? sst+,.2u1v
=
ss/1v
ss/1v
Exemplo 2, continuao:
Considere as seguintes observaes sobre X e Y:
Observao
1
2
3
4
5
6
7
8
9
10
Soma
x
12
13
10
9
20
7
4
22
15
23
135
y
50
54
48
47
70
20
15
40
35
37
416
A linha de regresso estimada :

Yi = 25,559 + 1,188 xi
E os resduos so calculados como:
Observao
1
2
3
4
5
6
7
8
9
10
x
12
13
10
9
20
7
4
22
15
23
y
50
54
48
47
70
20
15
40
35
37
^y
39,82
41,01
37,44
36,25
49,32
33,88
30,31
51,70
43,38
52,89
y-^y
10,18
12,99
10,56
10,75
20,68
-13,88
-15,31
-11,70
-8,38
-15,89
0,00
e
103,63
168,74
111,51
115,56
427,66
192,65
234,40
136,89
70,22
252,49
1.813,77
Portanto,
SSResidual = 1.813,63/8 = 226,70
1/2
SEE = (226,70) = 15,06
B. Um R2 de 0,49 indica que as variveis independentes explicam 49% da variao da varivel dependente.
7 de 22

Preparadas por
L. A. Bertolo
Exemplo 2, continuao
2
Continuando o exemplo de regresso anterior, podemos calcular o R .
x
12
13
10
9
20
7
4
22
15
23
R
R
y
50
54
48
47
70
20
15
40
35
37
416
(y - yMdio)2
^y
y-^y
(^y - yMdio)2
70,56
153,76
40,96
29,16
806,56
466,56
707,56
2,56
43,56
21,16
2.342,40
39,82
41,01
37,44
36,25
49,32
33,88
30,31
51,70
43,38
52,89
416,00
10,18
12,99
10,56
10,75
20,68
-13,88
-15,31
-11,70
-8,38
-15,89
0,00
3,17
0,35
17,31
28,62
59,60
59,60
127,46
102,01
3,17
127,46
528,75
103,63
168,74
111,51
115,56
427,66
192,65
234,40
136,89
70,22
252,49
1.813,77
= 528,77/ 2.342,40 = 22,57%
ou
= 1 (1.813,63/2.342,40) = 1 0,7743 = 22,57%.
7. Um intervalo de confiana um intervalo de valores de coeficientes de regresso para um dado valor

estimado do coeficiente e um dado nvel de probabilidade.
A. O intervalo de confiana para um regresso coeficiente |o calculado como:
|o ; og
Ou
|o ; og < | <|o + ; og
onde tc um valor-t crtico para o nvel de confiana selecionado. Se existirem 30 graus de liberdades e um
nvel de confiana 95%, o tc 2,042 [tomado de uma tabela-t].
B. A interpretao do intervalo de confiana que ele um intervalo que acreditamos que incluir o parmetro
verdadeiro ( 1 b s no caso acima) com nvel de confiana especificado.
8. Quando o erro padro da estimativa (a variabilidade dos dados ao redor da linha de regresso) subir, a
confiana se alarga. Em outras palavras, quanto mais variveis forem os dados, menos confiante voc ficar
quando estiver usando o modelo de regresso para estimar o coeficiente.
9. O erro padro do coeficiente uma raiz quadrada da razo da varincia da regresso pela variao da
varivel independente:
S%
S|y =
d
1
x x
A. Teste de hipteses: uma varivel explicativa individual
i. Para testar hiptese do coeficiente de inclinao (isto , para ver se a inclinao estimada igual a um
valor hipottico, b0, Ho: b = b1, calculamos a estatstica t-distribuda:

Preparadas por
L. A. Bertolo
; =
|y 1 |1
|y
ii. O teste estatstico tdistribudo com Nk1 graus de liberdade (nmero de observaes (N), menos o
nmero de variveis independentes (k), menos um).
B. Se a estatstica-t maior que o valor-t crtico para o apropriado
grau de liberdade, (ou menor que o valor-t crtico uma
inclinao negativa) podemos dizer que o coeficiente de
inclinao diferente do valor hipottico, b1.
C. Se no existir relao entre a varivel dependente e uma
varivel independente, o coeficiente de inclinao, b1, ser zero.
Nota: A frmula para o erro

padro do coeficiente tem a
variao da varivel independente
no denominador, no a varincia.
A varincia = variao / n-1.
Uma inclinao zero indica que no existe variao em Y para uma dada variao em X
Uma inclinao zero indica que no existe relao entre Y e X.
D. Para testar se uma varivel independente explica a variao na varivel dependente, a hiptese que
testada se a inclinao zero:
Ho:
b1 = 0
versus a alternativa (que voc conclui se voc rejeitar a nula, Ho):

Ha:
b1 0
Esta hiptese alternativa referida como uma hiptese bilateral. Isto significa que rejeitamos a nula se a
inclinao observada diferente de zero em uma das duas direes (positiva ou negativa).
E. Existem hipteses na economia que se referem ao sinal da relao entre as variveis dependente e as
independentes. Neste caso, a alternativa direcional (> ou <) e o teste-t unilateral (usa somente uma
cauda da distribuio-t). No caso de uma alternativa unilateral, existe somente um valor-t crtico.
9 de 22
10

Preparadas por
L. A. Bertolo
Exemplo 3: Testando a significncia de um coeficiente de

inclinao
Suponha que o coeficiente de inclinao estimado seja 0,78, o tamanho da
amostra seja 26, o erro padro da coeficiente seja 0.32, e o nvel de
significncia seja 5%. A inclinao diferente de zero?
O teste estatstico calculado : tb =
Os valores-t crticos so = 2,060
Rejeitar H0
ogc g
y
Falha para rejeitar H0
O,nV?O
O,N
= 2,4375
Rejeitar H0
Portanto, rejeitamos a hiptese nula, concluindo que a inclinao

diferente de zero.
10. Interpretao dos coeficientes.

A. O intercepto estimado interpretado como o valor da varivel dependente (o Y) se a varivel independente
(o X) tomar um valor zero.
B. O coeficiente estimado de inclinao interpretado como a variao na varivel dependente para uma dada
variao de uma unidade na varivel independente.
C. Quaisquer concluses respeito da importncia de uma varivel independente na explicao de uma
varivel dependente exige determinar a significncia estatstica se o coeficiente inclinar. Simplesmente
olhando para a magnitude do coeficiente de inclinao no indica esta matria de importncia da varivel.
11. Previso usar regresso envolve fazer predies acerca da varivel dependente baseado nas relaes
mdias observadas na regresso estimada.
A. Valores preditos so valores da varivel
dependente baseado nos coeficientes de regresso
estimados e uma predio acerca dos valores das
variveis independentes.
B. Para uma regresso simples, o valor de Y
predito como:
Exemplo 4
Suponha que voc estimou um modelo de
regresso com as seguintes estimativas:
y = 1,50 + 2,5 X1
Alm disso, voc tem valores projetados para a
varivel independente, X1=20. O valor projetado
para y 51,5:
y = 1,50 + 2,50 (20) = 1,50 + 50 = 51,5

Preparadas por
L. A. Bertolo
y =
11
b0 + bi xp
onde y um valor previsto da varivel dependente, e

xp um valor previsto da varivel independente (input).
12. Uma anlise de tabela de varincia (tabela ANOVA) um resumo das explicao da variao da varivel
dependente. A forma bsica da tabela ANOVA como segue:
Fonte de variao
Regresso (Explicada)
Graus de
Liberdade
1
Erro (no explicado)
N2
Total
N1
Exemplo 5
Fonte de variao
Regresso (Explicada)
Erro (no explicado)
Total
R2 = 5.050/5.650 =
0,8938 ou 89,38%
Graus de
Liberdade
1
28
29
Soma dos quadrados
Mdia Quadrtica
Soma das regresses ao

quadrado (SSRegresso)
Regresso Quadrtica
Mdia =
SSRegresso+/1
Erro quadrtico mdio =
SSResiduo+/N-2
Soma dos resduos ao

quadrado (SSResidual)
Soma dos quadrados total
(SSTotal)
Soma dos quadrados
Mdia Quadrtica
5.050
600
5.650
5050
21.429
SEE = (600/28)1/2 =
(21.429)1/2 = 4,629
Notas sobre Regresso, Preparadas por L. A. Bertolo 11 de 22
12

Preparadas por
L. A. Bertolo
Regresso Mltipla
1. Regresso mltipla a anlise de regresso com mais do que uma varivel independente.
A. O conceito de regresso mltipla idntico daquele da anlise de regresso simples exceto que duas ou
mais variveis independentes so usadas simultaneamente para explicarem as variaes da varivel
dependente.
y = b0 + b1x1 + b2x2 + b3x3 + b4x4
B. Numa regresso mltipla, a meta minimizar a
soma dos erros quadrticos. Cada coeficiente de
inclinao estimado enquanto se mantm as
outras variveis constantes.
Ns no representamos a regresso mltipla

graficamente porque ela exigiria grficos que esto
em mais do que duas dimenses.
2. O intercepto na equao de regresso tem a mesma interpretao que ela tinha sob o caso linear simples o
intercepto um valor da varivel dependente quando todas as variveis independentes so iguais a zero.
3. O coeficiente de inclinao um parmetro que reflete a variao na varivel dependente para uma unidade de
variao na varivel independente.
A. Os coeficientes de inclinaes (os betas) so
descritos como o movimento na varivel
dependente para uma variao de uma unidade de
variao na varivel independente mantendo
todas as
constantes.
outras
variveis
independentes
B. Por esta razo, os coeficientes betas numa

regresso linear mltipla, so algumas vezes
chamados de betas parciais ou coeficientes
parciais de regresso.
Uma inclinao com qualquer outro nome

O coeficiente de inclinao a elasticidade da
varivel dependente com respeito varivel
independente.
Em outras palavras, a derivada primeira da varivel
dependente com respeito varivel independente.
4. Modelo de Regresso:
Yi = b0 + b1 x1i + b2 x2i + i
onde:
bj a coeficiente de inclinao da j-sima varivel dependente; e
xji a i-sima observao da j-sima varivel.
A. Os graus de liberdade para o teste de um coeficiente de inclinao so N-k-1, onde n um nmero de
observaes da amostra e k um nmero de variveis independentes.
B. Na regresso mltipla, as variveis independentes podem estar correlacionadas umas com as outras,
resultando em estimativas menos confiveis. Este problema referido como multi-colinearidade.
5. Um intervalo de confiana para uma inclinao da regresso de populao numa regresso mltipla um
intervalo centrado na inclinao estimada:
|o ; og
ou
|o ; og < | <|o + ; og
A. Este o mesmo intervalo usado na regresso simples para o intervalo de um coeficiente de inclinao.
B. Se este intervalo contm zero, conclumos que a inclinao no estatisticamente diferente de zero.
6. As hipteses do modelo da regresso mltipla so como segue:

A. Uma relao linear existe entre as variveis, dependente e independente.

Preparadas por
L. A. Bertolo
13
B. As variveis independentes no esto correlacionadas com os resduos; isto , a varivel independente no

aleatria. Alm disso, no existe relao linear entre duas ou mais variveis independentes. [Nota: isto
ligeiramente modificado das hipteses do modelo de regresso simples.]
C. O valor esperado do termo distrbio zero; isto , E(i)=0
D. H uma varincia constante do termo distrbio; isto , os termos distrbio ou resduo so todos extrados de
uma distribuio com uma varincia idntica. Em outras palavras, os termos distrbios so
homoscedsticos. [Uma violao disto referida como heteroscedasticidade2.]
E. Os resduos so distribudos independentemente; isto , o resduo ou distrbio para uma observao no
est correlacionado com aquele de outra observao. [Uma violao disto is referida como auto-correlao.]
F. O termo distrbio (a.k.a. resduo, a.k.a. error term) normalmente distribudo.
G. O resduo (a.k.a. termo distrbio, a.k.a. error term) o que no explicado pelas variveis independentes.
7. Numa regresso com duas variveis independentes, o resduo para a i-sima observao :
i =Yi (b
0 + b 1 x1i + 2 b x2i)
8. O erro padro da estimativa (SEE) o erro padro do resduo:
= =
e
{ . @
.fg %
??
ss
??
9. Os graus de liberdade, df, so calculados como:
df =
$%# %
x%#!"%
$%# %
!"#!% $%%$%$&%
1 = N k 1 = N k + 1
A. Os graus de liberdade so o nmero de pedaos de informaes independentes que so usadas para estimar
os parmetros de regresso. No clculo dos parmetros de regresso, usamos os seguintes pedaos de
informaes:
A mdia da varivel dependente.
A mdia de cada uma das variveis independentes.
B. Ento,
se a regresso uma regresso simples, usamos os dois graus de liberdade na estimao da linha de
regresso.
se a regresso uma regresso mltipla com quatro variveis independentes, usamos cinco graus de
liberdade na estimao da linha de regresso.
10. Previso (Forecasting) usando regresso envolve fazer predies acerca da varivel dependente baseadas nas
relaes mdias observadas na regresso estimada.
Em estatstica, uma seqncia ou um vetor de variveis aleatrias heteroscedstico (heteroskedastistic) se as variaveis

aleatrias tiverem varincias diferentes. O conceito complementar chamado homocedasticidade (homoscedasticity). (Nota: A
ortografia alternativa homo- ou heteroskedasticity igualmente correta e tambm usada freqentemente). O termo significa
"varincia diferindo" e vem do Grego "hetero" ('diferente') e "skedastios" ('disperso').
Quando usar algumas tcnicas estatsticas, tais como mnimos quadrados ordinrios (ordinary least squares - OLS), vrias
hipteses so geralmente feitas. Uma delas que o termo erro tenha uma varincia constante. Isto ser verdadeiro se as
observaes do termo erro forem assumidas serem extradas de distribuies idnticas. Heteroscedasticidade uma violao
desta hiptese.
Por exemplo, o termo erro poder variar ou aumentar com cada observao, de certa forma este o caso freqente com
medidas de seo cruzada ou sries temporais. Heteroscedasticidade freqentemente estudada como parte da econometria,
que freqentemente lida com dados exibindo ela.
Com o advento de erros padres robustos permitindo-nos fazer inferncia sem especificar o segundo momento condicional do
termo erro, testar a homoscedasticidade condicional no to importante quanto no passado.
O econometricista Robert Engle ganhou o 2003 Nobel Memorial Prize for Economics pelos seus estudos sobre anlise de
regresso na presena de heteroscedasticidade, que conduziu sua formulao da tcnica de modelagem ARCH (Auto
Regressive Conditional Heteroscedasticity).
14

Preparadas por
L. A. Bertolo
A. Valores Preditos so valores da varivel

dependente baseados na regresso estimada dos
coeficientes e uma predio acerca dos valores das
B. Para uma regresso simples, o valor de y
previsto como:
y = b 0 + b 1x 1 + b 2 x 2
onde
y o valor previsto da varivel dependente,
b i o parmetro estimado, e
x i o valor previsto da varivel independente
C. Quanto melhor for o ajuste da regresso (isto ,
quanto menor for o SEE), mais confiantes estamos
nas nossas predies.
Exemplo 6: Usando informao da anlise

de varincia
Suponha que estamos estimando com o modelo
de regresso mltipla que tem cinco variveis
independentes usando uma de 65 observaes.
Se a soma dos resduos quadrticos 789, qual
o erro padro da estimativa?
Soluo
Dado:
SSResidual = 789
N = 65
k=5
SEE =
nVQ
RW?W?
nVQ
WQ
= 13,373
Cuidado: O intercepto estimado e todas as inclinaes estimadas so usadas na

predio do valor da varivel dependente, mesmo se uma inclinao no for
estatisticamente significantemente diferente de zero.
Exemplo 7: Calculando um valor projetado (forecasted)

Suponha que voc est estimando um modelo de regresso com as seguinte estimativas:
^Y = 1,50 + 2,5 X1 0,2 X2 + 1,25 X3
Alm disso, voc tem os valores previstos para as variveis independentes:
X1=20
X2=120
X3=50
Qual o valor previsto de y?
Soluo
O valor previsto para Y 90:
^Y = 1,50 + 2,50 (20) 0,20 (120) + 1,25 (50)
= 1,50 + 50 24 + 62,50 = 90
11. A estatstica-F uma medida de quo bem um conjunto de variveis independentes, como um grupo, explica
a variao na varivel dependente.
A. A estatstica-F calculada como:
F=
%#% "#&" "

## "#&
s
s
t+3+,,/
t+,.2u1v
eccg

z . c6
6
e
.fg

z
6. c6
e
.fg
eccg
B. A estatstica-F pode ser formulada para testar todas as variveis independentes como um grupo (a aplicao
mais comum). Por exemplo, se existirem quatro variveis independentes no modelo, as hipteses so:
H0:
b1 = b2 = b3 = b4 = 0
Ha: no mnimo um bi 0
C. A Estatstica-F pode ser formulada para testar subconjuntos de variveis independentes (para ver se elas
tem poder de explicao incremental (incremental explicativa power). Por exemplo se existirem quatro
variveis independentes no modelo, um subconjunto poderia ser examinado:
H0:
b1=b4=0
Ha:
b1 ou b4 0
12. O coeficiente de determinao, R2, a porcentagem da variao da varivel dependente explicada pelas

Preparadas por
L. A. Bertolo
R =

R =
~"#" %'_""
~"#" ^ &"_
e
z? (
d @
.fg (
15
13.1/
13.1/
? +40v.121
/1v
~"#" ^ &"_
0<R2<1
e
d @
.fg (? (
A. Por construo, R2 varia de 0 a 1,0

B. O R2-ajustado uma alternativa a R2:
R = 1 )
?
?
5 1 R
i. O R2-ajustado menor que ou igual a R2 (igual a somente quando k=1).

ii. Adicionando variveis independentes ao modelo o R2 aumentar. Adicionar variveis independentes ao
modelo pode aumentar ou diminuir o R2-ajustado (Nota: R2-ajustado pode ser at negativo).
iii. O R2-ajustado no tem a explicao clara do poder explicativo que o R2 tem.
13. O propsito da tabela da Anlise da Varincia (ANOVA) atribuir a total variao da varivel dependente ao
modelo de regresso (a fonte de regresso na coluna 1) e os resduos (a fonte de erro da coluna 1).
A. SSTotal a total variao de Y ao redor de sua mdia ou valor mdio (a.k.a. soma dos quadrados total) e
calculada como
onde a mdia de Y.
SS^
&"_
= y y

B. SSResidual (a.k.a. SSE) a variabilidade isto no explicada pela regresso e calculada como:

SS%"_ = SSE = y y{ = e{

onde
Y o valor da varivel dependente usando a equao de regresso.
C. SSRegression (a.k.a. SSExplicada) a variabilidade que explicada pela equao de regresso e calculada
como SSTotal SSResidual.

SS%#% = y{ y

D. MSE o erro quadrtico mdio, ou MSE = SSResidual / (N k - 1) onde k o nmero de variveis

independentes na regresso.
E. MSR a regresso quadrtica mdia, MSR =SSRegresso / k
16

Preparadas por
L. A. Bertolo
Tabela de Anlise da Varincia (ANOVA)
Fonte
Regresso
Erro (no explicado)
Total
R2 =
F=
df
Graus de
Liberdade
k
Nk-1
N1
=1
SS
Soma dos quadrados
SSRegresso
SSResidual
SSTotal
SS/df
Mdia Quadrtica
MSR
MSE
14. Variveis Dummy so variveis qualitativas que tomam os valores zero ou um.
A. A maioria das variveis independentes representa um fluxo contnuo de valores. Entretanto, Alguma vezes a
varivel independente de natureza binria (ela ou ON ou OFF).
B. Estes tipos de variveis so chamadas variveis dummy e aos dados atribudo um valor de "0" ou "1". Em
muitos casos, voc aplica o conceito de varivel dummy para quantificar o impacto de uma varivel
qualitativa. Uma varivel dummy uma varivel dicotmica; isto , ela toma um valor de um ou zero.
C. Use uma varivel dummy a menos que o nmero de classes (p.ex., se tem trs classes, use duas variveis
dummy), caso contrrio voc cair numa varivel dummy "emboscada" (multicolinearidade perfeita
hiptese da violao [2]).
D. Uma varivel dummy interativa uma varivel dummy (0,1) multiplicada por uma varivel para criar uma
nova varivel. A inclinao desta nova varivel diz-nos a inclinao incremental.
15. Heteroscedasticidade uma situao em que a varincia dos resduos no constante em todas as
observaes.
A. Uma hiptese da metodologia da regresso que a amostra extrada da mesma populao, e que a
varincia dos resduos constante nas observaes; em outras palavras, os resduos so homoscedsticos.
B. Heteroscedasticidade um problema porque os estimadores no tem a menor varincia possvel, e portanto
o erro padro dos coeficientes no sero corretos.
16. Auto-correlao uma situao em que os termos de resduos esto correlacionadas unscom os outros. Isto
ocorre freqentemente em anlises de sries temporais.
A. Auto-correlao aparece geralmente em dados de sries temporais. Se o lucro do ano passado foi maior, isto
significa que o lucro deste ano pode ter uma probabilidade maior de ser alto do que ser baixo. Isto um
exemplo de auto-correlao positiva. Quando um ano bom for sempre seguido por uma ano ruim, isto um
exemplo de auto-correlao negativa.
B. Auto-correlao um problema porque os estimadores no tem a menor varincia possvel e portanto oerro
padro dos coeficientes no seriam corretos.
17. Multicolinearidade um problema de alta correlao entre ou dentre duas ou mais variveis independentes.
A. Multicolinearidade uma problema porque
i. A presena da multicolinearidade pode causar distores no erro padro e pode conduzir a problemas
com teste significncia dos coeficientes individuais, e
ii. Estimativas so sensveis s variaes nas observaes da amostra ou da especificao do modelo.
B. Se existir multicolinearidade, estamos mais aptos a concluir que uma varivel no importante.
C. Multicolinearidade est provavelmente presente em certo grau na maioria dos modelos econmicos.
Multicolinearidade perfeita nos proibir de estimar os parmetros de regresso. O caso ento
realmente a um dos graus.

Preparadas por
L. A. Bertolo
17
18. O significado econmico dos resultados de uma estimao de regresso focaliza principalmente nos
coeficientes de inclinao.
A. Os coeficientes de inclinao indicam a variao da varivel dependente para uma variao de uma unidade
na varivel independente. Esta inclinao pode ser ento interpretada como uma medida da elasticidade;
isto , a variao em uma varivel corresponde a uma variao em outra varivel.
B. possvel ter significncia estatstica, apesar de que no tenha significncia econmica (p.ex., retornos
anormais significantes associados com um anncio, mas estes retornos no so suficientes para cobrirem
custos de transaes).
Para
Testar o papel de uma nica varivel na explicao da
variao da varivel dependente
use
a estatstica-t.
Testar o papel de todas as variveis na explicao da variao

da varivel dependente
a estatstica-F.
Estimar a variao na varivel dependente para uma variao

de uma unidade na varivel independente
o coeficiente de inclinao.
Estimar a varivel dependente se todas as variveis

independentes tomarem um valor zero
o intercepto.
Estimar a porcentagem das variaes explicadas das variveis

dependentes pelas variveis independentes
o R2.
Prever o valor da varivel dependente dados os valores

estimados da varivel independente(s)
A equao de regresso, substituindo os valores

estimados da varivel independente(s) na equao.
18

Preparadas por
L. A. Bertolo
Regresso terminologia
Analysis of varincia
ANOVA
Autocorrelao
Coefficient of determination
Confidence interval
Correlation coeficiente
Covariance
Covariation
Cross-sectional
Degrees of freedom
Dependent varivel
Explained varivel
Explanatory varivel
Forecast
Estatstica-F
Heteroskedasticity
Homoskedasticity
Invarivel dependente
Intercept
Least squares regresso
Mean square error
Mean square regresso
Multicollinearity
Regresso mltipla
Negative correlao
Ordinary least squares
Perfect negative correlao

Perfect positive correlao
Positive correlao
Predicted valor
R2
Regresso
Residual
Scatterplot
se
SEE
Simple regresso
Slope
Slope coeficiente
Spurious correlao
SSResidual
SSRegression
SSTotal
Standard error da estimate
Sum of squares error
Sum of squares regresso
Sum of squares total
Time-series
t-statistic
Varincia
Variao
Frmulas de Regresso
Variao =

x x
Correlao r =
Varincia =
e
@
.fg '?'
?
d876. c6
d 85
)e
.fg74. c4
;=
ecg
e :
e :
:@
:@
.fg74. c4d8 .fg76. c6d8
ecg
ecg
Regresso
yi = b0 + b1 xi + i
b =
! a,b
!"# '
y = b0 + b1x1 + b2x2 + b3x3 + b4x4 + i
e
d 874. c4
d8
.fg76. c6
ecg
@
e
.fg74. c4
d8
ecg
Covarincia =
boO = y b x
< >?
?< @
e
(. ?(
d
.fg '. ?'
?

Preparadas por
L. A. Bertolo
19
Testes e intervalos de confiana

o
o

{
{
7y bO b x 8
y y
e
SEE =
=
=
N2
N2
N2

S%
S|y =
d
1
x x
; =
|y 1 |1
|y
d
SS%#%
{ y
y
Regresso quadrtica mdia

MSR

k
k
F=
=
=
SS
Erro mdio quadrtico
MSE
y y{d
%"_

N k 1 N k 1
Previso
|o ; og < | <|o + ; og

y = b 0 + b 1x 1 + b 2 x 2
Anlise de Varincia

y y = SS^

&"_
SS%"_ = SSE = y y{ = e{

SS%#% = y{ y

d
SS%#%
{ y
y
Regresso quadrtica mdia

MSR

k
k
F=
=
=
SS
Erro mdio quadrtico
MSE
y y{d
%"_

N k 1 N k 1
Regresso
20

Preparadas por
L. A. Bertolo
yi = b0 + b1 xi + i y = b0 + b1x1 + b2x2 + b3x3 + b4x4 + i

NotasSobreRegressao - Cópia

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

NotasSobreRegressao - Cópia

Enviado por

Direitos autorais:

Formatos disponíveis

Notas sobre Regresso, Preparadas por L. A.

Termos Bsicos e conceitos

Exemplo1: Preos de vendas de casas e ps

B. A variao o numerador da varincia de uma

C. Ambas, a variao e a varincia, so medidas

Notas sobre Regresso,

 !"#$" %$&#% ' % (

*+,-./ 0123/ *+,-./ 0123/

Nota: A correlao no implica que um

(445/9)/((41,611)1/2(260,267)1/2) = 49,444/(6,451*16,133) = 0,475

O tipo de relao est representada pelo coeficiente de correlao:

Voc pode determinar o grau de correlao observando o grfico de espalhamento.

Se a relao para cima existe correlao positiva.

2 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso,

Em outras palavras, no existe correlao entre as duas variveis

Em outras palavras, h uma correlao entre as duas

Graus de liberdade = 32-1 = 31

Notas sobre Regresso,

Notas sobre Regresso,

Sugesto: Pense na linha de regresso como a

Uma frmula atalho para o coeficiente de correlao:

Se isto realmente um atalho ou no depende do mtodo de

3. A regresso linear assume o seguinte:

Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso,

A. Uma relao linear existe entre as

C. O valor esperado do termo distrbio

O termo distrbio (a.k.a. resduo, a.k.a. error term) normalmente distribudo.

Onde SSResidual a soma dos erros quadrticos;

y{ = |o O bo x o ponto na linha de regresso correspondente a um valor da varivel independente ,

6 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso,

A. O erro padro da estimativa ajuda-nos calibrar

~"#" & &"_

~"#" & &"_

A linha de regresso estimada :

Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso,

Continuando o exemplo de regresso anterior, podemos calcular o R .

= 528,77/ 2.342,40 = 22,57%

= 1 (1.813,63/2.342,40) = 1 0,7743 = 22,57%.

7. Um intervalo de confiana um intervalo de valores de coeficientes de regresso para um dado valor

|o ; og < | <|o + ; og

8 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso,

Nota: A frmula para o erro

versus a alternativa (que voc conclui se voc rejeitar a nula, Ho):

Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso,

Exemplo 3: Testando a significncia de um coeficiente de

Os valores-t crticos so = 2,060

Falha para rejeitar H0

Portanto, rejeitamos a hiptese nula, concluindo que a inclinao

10. Interpretao dos coeficientes.

10 de 22 - Notas sobre Regresso, Preparadas por L. A. Bertolo

Notas sobre Regresso,

onde y um valor previsto da varivel dependente, e

Erro (no explicado)

Soma dos quadrados

Soma das regresses ao

Soma dos resduos ao

Soma dos quadrados

Notas sobre Regresso, Preparadas por L. A. Bertolo 11 de 22

!"#$" %$&#% ' % (

+,-./ 0123/ +,-./ 0123/

y{ = |o O bo x o ponto na linha de regresso correspondente a um valor da varivel independente ,

~"#" & &"_

~"#" & &"_

|o ; og < | <|o + ; og

|o ; og < | <|o + ; og

%#% "#&" "

SS%"_ = SSE = y y{ = e{

|o ; og < | <|o + ; og

SS%"_ = SSE = y y{ = e{