Você está na página 1de 8

Regresso Linear em SPSS

1. No ficheiro Calor.sav encontram-se os valores do consumo mensal de energia, medido em


milhes de unidades termais britnicas, acompanhados de valores de output, em milhes de
kWh, de electricidade fornecida por uma central termo-elctrica em Inglaterra.
1.1. Construa um grfico de disperso que permita relacionar ambas as variveis com a inteno
de identificar uma possvel relao linear.
em SPSS: Graph / Interactive /Scatterplot

Unidades fornecidas

1 5,0 0 0

A
A
A

1 2,5 0 0
AA

AA
A
A

A
A
A
A

1 0,0 0 0
A
A

7 ,50 0

5 ,00 0
A
AA

5 00 0 0

1 00 0 00

1 50 0 00

2 00 0 00

Calor Consumido (milhes de UBT)

Da observao do grfico de disperso


razovel afirmar que existe uma relao linear
entre as duas variveis.

1.2. Estabelea o modelo a ajustar aos dados


Como do grfico de disperso podemos constatar que existe uma relao linear entre as duas
variveis podemos usar um modelo de regresso linear para ajustar estes dados.
Note que se seleccionamos no menu: Graph / Interactive /Scatterplot, o tab Fit como
mtodo para ajustar os dados Regression podemos obter o grfico de disperso com a recta
de regresso desenhada e a sua equao.

Unidades fornecidas

15,000

Unidades fornecidas = -0,87 + 0,00 * calor


R-Square = 0,99

12,500

Linear Regression

A
A
A

AA
AA

A
A
A
A

AA

10,000
A
A

7,500

5,000
A
A
A

50000

100000

150000

200000

Calor Consumido (milhes de UBT)

Note que o valor do declive na recta de regresso 0.00,


mas isto devido aproximao usada. Como poderemos
verificar logo este valor diferente de 0, porem um
valor muito pequeno, da ordem de 10-5

Mas de uma forma mais geral, a anlise de regresso linear no SPSS efectuada atravs do menu:
em SPSS: Analize / Regression /Linear

O mtodo do mnimo dos quadrados o mtodo implementado em SPSS para estimar os


coeficientes de regresso Com as opes do SPSS seleccionadas podemos obter como output a
seguintes 4 tabelas:
Variables Entered/Removedb
Model
1

Variables
Entered
Calor
Consumid
o (milhes
a
de UBT)

Variables
Removed

Method
.

Enter

a. All requested variables entered.


b. Dependent Variable: Unidades fornecidas

Model Summary

Model
1

R
,997(a)

Adjusted R
Square
,994

R Square
,995

Std. Error of
the Estimate
,282649

O coeficiente de correlao
R=0, 997 1, pelo que
evidente a existncia de uma
relao linear entre as
variveis em estudo

a Predictors: (Constant), Calor Consumido (milhes de UBT)


O teste realizado pela ANOVA :
H0: b1 = 0 vs. H1: b1 0
Como o p-value=0 para q.q. nvel de
significncia rejeita-se H0
b1 0 a regresso linear tem
significado para q.q. nvel de significncia

ANOVA(b)

Model
1

Regression

Sum of
Squares
302,731

Residual

df

1,598

Mean Square
302,731

20

,080

F
3789,321

Sig.
,000(a)

Total

304,329
21
a Predictors: (Constant), Calor Consumido (milhes de UBT)
b Dependent Variable: Unidades fornecidas

Valores observados das estatsticas dos testes:


para a ordenada na origem b0:
t0obs = -4, 328
(T0 tn-2 )
para o declive b1:
t0obs = 61, 328
(T1 tn-2 )

Coefficients(a)
Unstandardized
Coefficients
Model
1

B
-,869

(Constant)
Calor Consumido
(milhes de UBT)

7,20E-005

Standardized
Coefficients

Std. Error

Beta

,201
,000

,997

t
B
-4,329

Std. Error
,000

61,557

,000

a Dependent Variable: Unidades fornecidas


Modelo de Regresso Linear:
unid. fornecidas = b0 + b1 x calor consumido +
com erro N (0, 2)
Estimativas dos coeficientes:
b0 = -0, 869,

b1 = 7,20 x 10-5

Sig.

p-value para a ordenada na origem: 0


p-value para o declive: 0

1.3. Com base nos resultados obtidos responda as seguintes questes:


a.

Quais as estimativas do declive (b1) e da ordenada na origem (b0) da recta de


regresso?

b0 = -0, 869

b1 = 7,20 x 10-5

b. Qual a equao da recta de regresso?

y = -0, 869 + 7,20 x 10-5 x


c. O valor do declive significativamente diferente de 0, ao nvel de significncia 5%?
i. Escreva as hipteses em causa
vs H1: b1 0

H0: b1 = 0

ii. Indique o valor do p-value do teste


p-value = 0
iii. Conclua
A hiptese nula rejeitada para q.q nvel de significncia. Concluise que o declive no nulo para q.q. nvel de significncia
d. A ordenada na origem significativamente diferente de 0, ao nvel de significncia
5%?
i. Escreva as hipteses em causa
H0: b0 = 0

vs H1: b0 0

ii. Indique o valor do p-value do teste:

iii. Conclua: A hiptese nula rejeitada para q.q nvel de significncia. Concluise que a ordenada na origem no nula para q.q. nvel de significncia
1.4. Efectue os clculos necessrios para obter os p-values dos testes para os coeficientes de
regresso mostrados na tabela dos coeficientes
Descriptive Statistics
N
Unidades fornecidas
Calor Consumido
(milhes de UBT)
Valid N (listwise)

22

Minimum
3,173

Maximum
15,852

Mean
10,91527

Std. Deviation
3,806819

22

55266

233603

163559,41

52698,343

22

Da tabela das estatsticas descritivas obtemos n=22


O p-value para um teste bilateral igual a:
2P(T < tobs|H0) se tobs for reduzido
2P(T > tobs|H0) se tobs for elevado

O valor observado da estatstica do teste tobs considera-se reduzido (elevado) se a estimativa


que se obtm para o parmetro a testar inferior (superior) ao valor especificado em H0


Teste de hiptese para a ordenada na origem b0 da recta de regresso:


 H0: b0 = 0 vs. H1: b0 0
 t0obs = -4,329 (valor observado da estatstica do teste, ver tabela dos coeficientes )
 o valor observado da estatstica do teste reduzido pois a estimativa que se obtm
para b0 (-0.869) um valor inferior a 0 (o valor especificado em H0).
Assim:
p-value = 2 P(T<-4.329) = 2 tn-2(-4.329) = 2 (1- tn-2(4.329))
= 2 (1- CDF.T(4.329, 20)) = 2 x 0 = 0

Teste de hiptese para o declive b1 da recta de regresso:


 H0: b1 = 0 vs. H1: b1 0
 t1obs = 61,777 (valor observado da estatstica do teste, ver tabela dos coeficientes)
 o valor observado da estatstica do teste elevado pois a estimativa que se obtm
para b1 (7,20 x 10-5 ) um valor superior a 0 (o valor especificado em H0).
Assim:
p-value = 2 P(T>61.777) = 2 (1- P(T <61.557) = 2 (1- tn-2(61.557))
= 2 (1-CDF.T(61.557, 20)) = 2 x 0 = 0

1.5. Qual a proporo de variabilidade de Y explicada por x?


Da tabela de ANOVA podemos obter o coeficiente de determinao R2 = ,995 (ver R square).
Este coeficiente mede a quantidade de variabilidade explicada por x, isto , pelo modelo de
regresso j que consiste na razo entre a soma dos quadrados devido aos resduos (SSR) e a
soma dos quadrados total (SYY ).

Ento, R2 = ,995 quer dizer que 99.5% da variabilidade encontrada para y explicada por x e
apenas os restantes 0,5% se devem a outros factores.
Um bom ajuste do modelo deve reflectir-se num valor de R2 prximo de 1. Como neste caso o
coeficiente de determinao bastante elevado (muito prximo de 1), podemos concluir que a
relao linear entre as duas variveis forte.

1.6. Proceda anlise dos resduos com a inteno de validar os pressupostos do modelo.
Pressupostos de regresso: os erros so independentes e identicamente distribudos com
distribuio Normal de media zero e varincia 2. Uma vez que no conhecemos os erros temos
que analisar a sua estimativa que dada pelos resduos:

Para validar que os resduos tm distribuio Normal:





construir QQ-plot ou PP-plot dos resduos, realizar teste de ajustamento de


Kolmogorov-Smirnov
atravs do menu de Regresso Linear podemos fazer directamente um PP-plot dos
resduos

Para validar que os resduos so independentes e identicamente distribudos (so


aleatrios e com varincia constante):


construir grficos de resduos versus valores preditos ou observados.

Todos estes grficos podem ser feitos atravs do menu de Regresso Linear:

Normal P-P Plot of Regression Standardized Residual

Dependent Variable: Unidades fornecidas

Expected Cum Prob

1,0

0,8

0,6

0,4

0,2

0,0
0,0

0,2

0,4

0,6

0,8

1,0

Observed Cum Prob




O PP-plot no nos d qualquer indicao que contrarie o pressuposto da normalidade


dos resduos
O grfico de disperso dos resduos em funo dos valores preditos estandardizados
mostra-se bastante aleatrio

Tambm podemos fazer um QQ-plot ou um teste de ajustamento de K-S para validar os


pressupostos de normalidade dos resduos. Para isto devemos guardar os resduos numa
nova varivel, usando a opo Save do menu de Linear Regression

Depois podemos escolher o menu Analyze \ Descriptive Statistics \ Explore com a opo
Normality plots with tests

Usando a varivel RES-1 (os resduos guardados) e fazendo um QQ-plot e os testes de


ajustamento de Kolmogorov-Smirnov e de Shapiro Wilk podemos concluir que os resduos tm
distribuio Normal (o QQ-plot identifica um ajuste entre os quantis amostrais e os quantis de
distribuio Normal e os testes de ajustamentos fornecem valores de p-values superiores aos
nveis usuais de significncia.
Tests of Normality
Kolmogorov-Smirnov(a)
Unstandardized Residual

Statistic
,085

* This is a lower bound of the true significance.


a Lilliefors Significance Correction

df
22

Sig.
,200(*)

Shapiro-Wilk
Statistic
,982

df
22

Sig.
,940

Você também pode gostar