Você está na página 1de 11

1

AlphaQuant Consultoria
www.alphaquant.com.br
TABELAS DO SPSS PARA REGRESSO LINEAR


Model Summary
Model R R Square Adjusted R
Square
Std. Error of
the Estimate
1 2 3 4
a Predictors: (Constant), X
b Dependent Variable: Y

1
R coeficiente de correlao mltipla ou R mltiplo.

o coeficiente de correlao entre Y e

. Dessa forma, ser sempre positivo.



No caso da Regresso Linear Simples (RLS), o R mltiplo ser igual ao mdulo da
correlao entre Y e X.


O valor de r (coeficiente de correlao) mede a fora da relao entre duas variveis e o
sinal indica se essa relao diretamente proporcional (sinal positivo) ou inversamente
proporcional (sinal negativo). Quanto mais prximo de 1 (ou de -1), maior ser a
relao linear entre duas variveis.

adimensional.

2
R Square = R
2
coeficiente de determinao.
Fornece a capacidade preditiva do modelo. Ele diz qual a proporo da variao total
que explicada pela relao entre X e Y.

R
2
= Soma dos Quadrados da Regresso / Soma de Quadrados Total.
Ou, R
2
= 1 (SQResduos / SQTotal).

O valor do R
2
uma das medidas para se escolher o melhor modelo (na regresso
simples).

Quanto mais prximo de 1 melhor.

adimensional.

y x
i i
s s n
y y x x
r
) 1 (
) )( (

1 1 s s r
2

AlphaQuant Consultoria
www.alphaquant.com.br
3
Adjusted R Square = R
2
ajustado

Ele diz qual a proporo da variao de Y explicada por todas as variveis Xs
tomadas em conjunto.

A diferena entre o R
2
ajustado e o R
2
puro, que o R
2
ajustado leva em considerao o
tamanho da amostra e o nmero de variveis independentes no modelo.

usado em regresso linear mltipla para comparar modelos com diferentes
quantidades de variveis independentes.

Quanto maior for o R
2
ajustado melhor.


p = nmero de variveis independentes
n = nmero de observaes

adimensional.

4
Std. Error of the Estimate

o desvio padro do modelo.

O desvio padro do modelo a raiz quadrada da varincia residual do modelo.

A unidade dele a mesma unidade de Y.


ANOVA
Model Sum of
Squares
df Mean
Square
F Sig.
1 Regression 5 8 11 13 14
Residual 6 9 12
Total 7 10

a Predictors: (Constant), X
b Dependent Variable: Y

5
SQRegresso = soma de quadrados da regresso = representa a variao do valor
ajustado em torno da mdia.

a medida da variao explicada pelo modelo. devida relao entre X e Y.

SQTotal
sduos SQ
p n
n
R
ajustado
Re
1
1
1
2
|
|
.
|

\
|


=
2
)

( Re

= Y Y gresso SQ
i
3

AlphaQuant Consultoria
www.alphaquant.com.br

6
SQResduos a soma de quadrados dos resduos, representando a variabilidade em
torno da reta de regresso;

a variao no explicada pelo modelo. Ela devida a outros fatores fora da regresso.


7
SQTotal = soma de quadrados total = representa a variabilidade total. a medida da
variao das observaes em torno da mdia.

A soma de quadrados total composta pela soma dos quadrados no explicada pela
regresso e pela soma dos quadrados devida regresso.

SQTotal = SQRegresso + SQResduos.




8
graus de liberdade da regresso. igual ao nmero de variveis independentes no
modelo.

9
graus de liberdade do resduo. a diferena entre os graus de liberdade totais e os da
regresso. Ou ento, (n p 1), onde n o nmero de observaes e p o nmero de
variveis independentes no modelo.


10
graus de liberdade total. igual ao nmero de observaes menos 1.

11
Mdia quadrtica da regresso. a soma de quadrados da regresso dividida pelo
nmero de graus de liberdade da regresso.

12
Mdia quadrtica dos resduos. a soma de quadrados dos resduos dividida pelo
nmero de graus de liberdade dos resduos.

Ela tambm chamada de varincia residual do modelo.

A unidade da mdia quadrtica dos resduos ser a mesma unidade da varivel Y
elevada ao quadrado.

=
2
)

( Re
i i
Y Y sduos SQ

=
2
) ( Y Y SQT
i
4

AlphaQuant Consultoria
www.alphaquant.com.br
13
F

o valor de F calculado. igual a mdia quadrtica da regresso sobre a mdia
quadrtica dos resduos.

O teste F tenta avaliar a importncia relativa dos resduos devido entrada de uma nova
varivel sobre os resduos da regresso sem esta varivel. Este teste mais til no caso
de regresso mltipla, quando se pretende escolher as variveis que no conjunto
melhoram o modelo. Quanto maior for o valor de F, maior ser a evidncia da incluso
da varivel X no modelo.

Procedimento para o teste F (na regresso SIMPLES):

H
0
: Y = |
0
+ c
H
1
: Y = |
0
+ |
1
X + c

Temos que comparar o F
calculado
com o F
tabelado(g.l.numerador, g.l.denominador, o)
. Quanto maior for
o F
calculado
em relao ao F
tabelado
, mais significativa ser a entrada da varivel no
modelo.



Testamos aqui o modelo reduzido (H
0
) contra o modelo completo (H
1
). O alfa (nvel de
significncia) no ser divido por dois, pois a curva do F s tem uma cauda, ele ser
sempre positivo.

Caso no possua a tabela F, compara-se o Sig. com o valor de alfa. Caso o Sig seja
menor do que alfa, rejeita-se H
0
e conclui-se que o modelo completo (com as variveis
independentes) melhor do que o modelo reduzido (que s contm a mdia).

Caso contrrio, no rejeita-se H
0
, com o de significncia, e diz-se que o modelo
reduzido melhor do que o modelo completo.

Procedimento para o teste F (na regresso MLTIPLA):

H
0
: |
1
= |
1
=

|
2
=

|
3
=

.... =

|
p
= 0
H
1
: pelo menos um | diferente de zero

Compara-se o Sig. com o valor de alfa. Caso o Sig seja menor do que alfa, rejeita-se H
0

e conclui-se que existe pelo menos um beta diferente de zero, ou seja, existe relao
linear de Y com pelo menos um X.

Caso contrrio, no rejeita-se H
0
, com o de significncia, e diz-se que todos os betas so
iguais a zero. No existe relao linear de Y com nenhum X.

sduos MQ
gresso MQ
F
calculado
Re
Re
=
5

AlphaQuant Consultoria
www.alphaquant.com.br
14
Sig

a rea direita da curva a partir da estatstica calculada.

Para decidir sobre a rejeio ou no de uma hiptese em um teste estatstico, compara-
se o valor do Sig. com o valor do nvel de significncia do teste (o). Caso o Sig seja
menor do que o, rejeita-se H
0
(hiptese nula).

Caso contrrio, no rejeita-se H
0
, com o% de significncia.


Coefficients
Unstandardized
Coefficients
Standardized
Coefficients
T Sig. 95%
Confidence

Interval for B
Model B Std.
Error
Beta Lower Bound Upper Bound
(Constant) 15 17 - 19 21 23 24
X 16 18 - 20 22 25 26
a Dependent Variable: Y


15
o coeficiente linear. O beta zero chapu (beta zero estimado).

A sua unidade a mesma de Y.

A interpretao a seguinte: se a varivel X for igual a zero, a varivel Y dever ser
igual a b
0
.

16
o coeficiente angular. o beta 1 chapu (estimado).

A sua unidade a unidade do Y sobre a unidade do X.

Se b
1
positivo, a interpretao a seguinte: a cada unidade adicional na varivel X, a
varivel Y deve aumentar em b
1
unidades.

Se b
1
for negativo, a interpretao a seguinte: a cada unidade adicional na varivel X,
a varivel Y deve diminuir em b
1
unidades.


17
o desvio padro do coeficiente b
0
. A sua unidade a mesma do coeficiente.


18
o desvio padro do coeficiente b
1
. A sua unidade a mesma de b
1
.

6

AlphaQuant Consultoria
www.alphaquant.com.br
19
o t calculado para o beta 0.

VER 20

t
crtico (ou tabelado) para o/2 e n-p-1 g.l.



20
o t calculado para o beta 1.

Para avaliar a relevncia do parmetro estimado, formula-se o teste de hiptese no qual
a hiptese nula a de no relevncia do parmetro, ou seja, Y independe de X, contra a
hiptese alternativa de relevncia deste.

Teste t para beta
1

H
0
: |
1
= 0
H
1
: |
1
= 0

o = 0,05

b
1
~ N [|
1
, s(b
1
)]

t
calculado
= (b
1
|
1
) / s(b
1
)

e compara-se o t calculado com o t tabelado

t
crtico (ou tabelado) para o/2 e n-p-1 g.l.


Se cair da regio crtica, rejeita-se H
0
e conclui-se que h evidncia de relao linear
entre X e Y.

Outra forma de testar, caso no tenha a tabela t, comparar o Sig (dado pelo SPSS).
Caso esses sejam menores do que o, rejeita-se H
0
. Esses valores representam a rea
direita do valor de t
calculado
(no caso de t ser positivo), ou a rea esquerda caso o t
calculado,
caso seja negativo.

O Sig constitui uma medida do grau com que os dados amostrais contradizem a hiptese
nula. Quanto menor for o valor de prova (valor-p, ou, p-value, ou, Sig.), maior ser o
grau com que a hiptese nula rejeitada. Quando no possumos uma tabela da
distribuio t, podemos tomar o Sig e compar-lo com o nvel de significncia fixado
para o teste.

O critrio de deciso feito da seguinte forma:
Se Sig > o, no rejeitamos H
0
e com isso no h evidncia de relao linear entre X
e Y;
Se Sig < o, rejeita-se H
0
ao nvel de significncia fixado para o teste.


7

AlphaQuant Consultoria
www.alphaquant.com.br
21
VER 20

22
VER 20

23 e 24

o intervalo de confiana para beta0.

VER 25 e 26



25 e 26
o intervalo de confiana para beta1.

Um intervalo de confiana de 95% para beta1, significa dizer que, em mdia, de cada
100 amostras extradas da populao, espera-se que 95 destas forneam intervalos de
confiana que contenham o verdadeiro valor de beta1. Ou ento, em 95% das vezes o
intervalo de confiana contm o verdadeiro beta1.

O alfa (nvel de significncia), o erro que estamos cometendo ao afirmar que em 95%
das vezes o intervalo de confiana contm o verdadeiro beta1.

IC
1
: [b
1
(t
(n-p-1, o/2)
s(b
1
))]

Onde n = nmero de observaes;
p = n de variveis independentes;
o= nvel de significncia.



Premissas bsicas do modelo:

Devem ser verificadas para assegurar a adequabilidade do modelo.

So elas:
1. Linearidade
2. c
i
~ Normal - Normalidade
3. E(c
i
) = 0
4. o
2
(c
i
) constante Homocedasticidade
5. cov(c
i,
c
j
) = 0 Independncia

A primeira a premissa de linearidade. Pode ser verificada atravs do grfico entre X e
Y, que devem estar se relacionando de forma linear. Tambm pode ser verificada pelo
teste F.
8

AlphaQuant Consultoria
www.alphaquant.com.br
Uma outra forma de verificar usando o grfico dos resduos versus valores ajustados,
no qual os pontos devem estar distribudos de forma aleatria (totalmente
despadronizados). Caso eles estejam em forma de parbola, deve-se incluir uma
varivel quadrtica (X
2
) no modelo, ou buscar novas formas de relao.

A segunda premissa a da normalidade. Deve-se observar o grfico chamado P-P Plot.
Caso as observaes estejam na reta ou prximas da reta, aceitamos a normalidade. A
normalidade importante pois toda a inferncia feita com base nas distribuies (t, F)
que vm da Normal. Se essa premissa for violada, os parmetros no podero ser
testados. O modelo no poder ser realizado. Para corrigir o problema, deve-se ento
aumentar o tamanho da amostra ou procurar novas variveis.

A quarta premissa a de homocedasticidade, que o mesmo que dizer que a varincia
dos erros constante. Caso no seja, deve-se usar o mtodo dos mnimos quadrados
ponderados. Essa premissa ser observada no grfico dos resduos (na vertical) versus
valores ajustados (na horizontal). Se os pontos estiverem em forma de buzina porque
existe problema e essa premissa est sendo violada.

A premissa da independncia dos erros pode ser observada no mesmo grfico dos
resduos versus valores ajustados. Se os pontos estiverem distribudos aleatoriamente
(sem formas) porque no h problema. Mas caso eles estejam distribudos como retas
paralelas, a premissa estar sendo violada. Esse problema ocorre mais em sries
temporais.


Outlier
O outlier uma observao que se afasta significativamente das demais, podendo causar
rudos no desejveis no processo de estimao. Ele pode piorar as estimativas dos
parmetros do modelo aumentando a varincia residual.

A observao candidata a outlier deve ser investigada separadamente.

Quando existir algum caso suspeito, deve-se retir-lo do modelo e rodar a regresso,
obtendo novos parmetros, como os coeficientes de regresso e a varincia residual.

Pode-se testar tambm atravs da estatstica studentized deleted residuals - t
i
. Para
isso, deve-se comparar o valor de t
i
com o t tabelado para (n-p-2) gl. Se rejeitar H
0
,
conclui-se que o caso um outlier.

H
0
: o caso no outlier
H
1
: o caso outlier

9

AlphaQuant Consultoria
www.alphaquant.com.br
O t
i
a razo entre o deleted residual da i-sima observao - d
i
e o desvio padro
dos erros quando essa observao foi omitida. Em outras palavras: o SPSS deleta a i-
sima observao, ajusta a regresso para as (n-1) observaes e obtm a estimao
pontual da i-sima observao. A diferena entre o valor observado e o estimado ser o
d
i
.

O alfa usado ser divido pelo nmero de observaes a serem investigadas. Ento, se
existe suspeita de 3 observaes, divide-se o alfa por 3.



Valores Influentes
Nesse caso, se a observao suspeita for retirada do modelo, isso ir resultar em
alteraes nas inferncias e nas interpretaes feitas do modelo.

Na medida em que a remoo de alguma observao resultar em estimativas distantes
da original, haver evidncia de um valor influente.

Para verificar, utiliza-se a distncia de Cook - D
i
. Ela compara o vetor contendo os
coeficientes estimados com base em todas as observaes, com o vetor contendo os
coeficientes estimados sem considerarmos uma determinada observao. Com isso,
avalia-se a influncia de uma observao na estimativa dos parmetros do modelo.

Se o caso observado no fornecer valor para Di substancialmente maior do que 1 (ou
0,9), significa que no h razo para afirmar que um caso influente.

Pode-se rodar a regresso sem o caso que contm o maior Di e observar as alteraes
em beta 0 e beta 1 e nas demais estatsticas.



Multicolinearidade
Ao ter variveis explicativas multicorrelacionadas, ou seja, quando uma funo de
outra, ocorrem alguns problemas como a instabilidade dos coeficientes, alm de grandes
variaes das previses com base no modelo.

Como uma regresso mltipla, ou seja, tem-se vrias variveis explicativas no
modelo, temos que testar multicolinearidade. A questo a seguinte: sempre que
inclumos uma varivel explicativa no modelo, os resduos vo diminuir, mas essa
varivel que entrou vai reduzir os resduos em quanto?

Sabemos que se as variveis forem correlacionadas, essa contribuio vai chegar a
muito prximo de zero e ento no vale a pena mantermos essa varivel no modelo.

Alm disso, a multicolinearidade est associada com estimativas instveis dos
coeficientes de regresso, ocorrendo as seguintes caractersticas.
(1) grandes mudanas nos valores dos coeficientes estimados quando adiciona-se ou
elimina-se alguma varivel;
10

AlphaQuant Consultoria
www.alphaquant.com.br
(2) grandes mudanas nos coeficientes quando uma observao eliminada ou tem seu
valor alterado;
(3) Quando as variveis so altamente correlacionadas os estimadores possuem
varincia elevada;
(4) As estimativas obtidas para os betas so de m qualidade e isso gera problemas na
fase de previso.

Para testarmos a multicolinearidade utilizamos a estatstica V.I.F. (variance inflation
factor). Se VIF for maior do que 5 porque existe o problema da multicolinearidade.

Se existir esse problema, deve-se procurar uma nova amostra ou eliminar uma das
variveis que esto correlacionadas entre si.



Mtodo Backward

A seleo do modelo realizada pelo mtodo Backward, feita da seguinte forma:
Comea-se com o modelo cheio, ou seja, com todas as variveis explicativas no modelo.
Calcula-se a estatstica F parcial para cada varivel regressora como se ela fosse a
ltima varivel a entrar no modelo.
A menor dessas estatsticas F comparada com o valor pr estabelecido. Em outras
palavras, o F-out, ou F de remoo, comparado ao F parcial e se o F parcial for menor
ou igual ao F-out a varivel regressora removida do modelo. Isso significa dizer que a
varivel regressora cuja presena no contribui para explicar uma proporo
significativa da variao total da varivel dependente retirada do modelo.
Agora, um modelo sem essa varivel independente ajustado, e as estatsticas F para
este novo modelo so calculadas e repete-se o procedimento.
O processo termina quando o menor valor de F parcial for maior que o F-out. No nosso
caso, o F-out 10%.

11

AlphaQuant Consultoria
www.alphaquant.com.br
Mtodo Forward

O critrio Forward Selection comea com a suposio de que no existe nenhuma
varivel independente (regressora) no modelo. A busca do conjunto timo de
variveis regressoras feita inserindo variveis no modelo, uma a uma.

A 1
a
varivel selecionada aquela que tem a maior correlao com Y. Suponha que
seja a varivel X
1
, ela ser a varivel regressora que ir fornecer o maior valor da
estatstica F para testar a significncia da regresso.

A regressora entra se F exceder um valor pr estabelecido (F-valor), digamos F-
IN
, F
de entrada.

A 2
a
varivel regressora escolhida para entrar no modelo aquela que tem a maior
correlao parcial com Y, obtida depois de ajustar o efeito de X
1
em Y. Suponha
que a regressora com a maior correlao parcial com Y seja X
2
, ento,

(onde MQR(X
2
/X
1
) a mdia quadrtica da regresso devida X
2
, quando X
1
j est no modelo, e
MQE a mdia quadrtica da regresso)

fornece a maior estatstica F parcial. Se (F>F-
IN
), ento X
2
entra no modelo. O
procedimento termina quando o valor da estatstica F em um particular passo no
exceder o F-
IN
, ou quando a ltima regressora for adicionada ao modelo. No nosso
caso F
-IN
= 0,05.

) , (
) / (
2 1
1 2
X X MQE
X X MQR
F
parcial
=

Você também pode gostar