Você está na página 1de 47

ANALISIS REGRESI

Teori dan Aplikasinya


Jerry D.T. Purnomo, Ph.D.
Pendahuluan (1/3)
• Misalnya suatu perusahaan ingin merencanakan produksi,
perusahaan ini memerlukan informasi tentang penjualan agar
tidak terjadi over production atau under production.
• Andaikan jumlah produksi disimbolkan dengan y, dan jumlah
penjualan disimbolkan dengan x. Apabila dua variabel y dan x
mempunyai hubungan, maka nilai variabel x yang sudah
diketahui dapat digunakan untuk memperkirakan/menduga
variabel y.
Pendahuluan (2/3)
• Bentuk hubungan dua variabel (misal x dan y) pada umumnya
terdiri atas 2 macam, yaitu ada hubungan antara dua variabel
(positif atau negatif) dan tidak ada hubungan.
• Hubungan x dan y dikatakan positif apabila kenaikan
(penurunan) x pada umumnya diikuti oleh kenaikan
(penurunan) y.
Pendahuluan (3/3)
• Sebaliknya dikatakan negatif kalau kenaikan (penurunan) x
pada umumnya diikuti oleh penurunan (kenaikan) y.
• Sedangkan x dan y tidak berhubungan apabila
kenaikan/penurunan x pada umumnya tidak diikuti oleh naik
turunnya y.
Scatter Plot Hubungan Variabel
• Diagram pencar untuk hubungan positif (a), negatif (b), dan
tidak ada hubungan antara x dan y (c)
Y Y Y

X X X
(a) (b) (c)
Koefisien Korelasi (1/2)
• Kuat dan tidaknya hubungan antara x dan y apabila dinyatakan
dengan fungsi linear, diukur dengan suatu nilai yang disebut
koefisien korelasi.
• -1 ≤ r ≤ 1
Koefisien Korelasi (2/2)
• Nilai koefisien korelasi yang semakin mendekati 1
menunjukkan hubungan antara variabel x dan y semakin kuat
dan positif.
• Sedangkan nilai koefisien korelasi yang semakin mendekati -1
menunjukkan hubungan antara variabel x dan y semakin kuat
tetapi negatif.
Regresi Linear Sederhana (1/2)
• Model Regresi Linear dengan hanya melibatkan satu variabel x.
• Bentuk umum dari model regresi ini:
yi  0  1 xi   i ; i = 1, 2, …, n
dimana
yi = variabel respon/dependen
xi = variabel prediktor/independen
 0 = intercept
1 = slope
 i = residual
• Goal: diberikan yi dan xi estimasi  0 dan 1.
Regresi Linear Sederhana (2/2)
• Salah satu metode yang paling terkenal untuk mengestimasi
parameter regresi  0 dan 1 adalah metode ordinary least
square (OLS).
• Ide dasar dari metode ini adalah meminimumkan jumlah
kuadrat residual (SSE).
Ordinary Least Square (OLS) (1/4)

(xn, yn) yˆ  ˆ0  ˆ1 x


en
(x1, y1)

e1
e2
(x2, y2)
OLS (2/4)
• Kriteria least square didefinisikan:
 i2   yi   0  1 xi 2
S  0 , 1    yi   0  1 xi 
2

• Estimator least square untuk  0 dan 1 , yaitu ˆ0 dan ˆ1 , harus
memenuhi
S
 
n
 2 yi  ˆ0  ˆ1 xi  0
 0 ˆ0 , ˆ1 i 1

S
 
n
 2 yi  ˆ0  ˆ1 xi xi  0
1 ˆ0 , ˆ1 i 1
OLS (3/4)
• Dengan menyederhanakan kedua persamaan di atas
didapatkan persamaan normal least square:
n n
nˆ0  ˆ1  xi   yi
i 1 i 1
n n n
ˆ0  xi  ˆ1  xi2   xi yi
i 1 i 1 i 1
OLS (4/4)
• Dengan menyelesaikan persamaan normal ini didapatkan:
ˆ0  Y  ˆ1 X


n
X  X Y  Y  s
̂1  i 1

i i XY

 X  X 
n 2
s XX
i 1 i
Property of LS Fit
• Jumlah kuadrat regresi (SSR):
n
SSR    yˆ i  y 
2

i 1

• Jumlah kuadrat residual/error (SSE):


n
SSE    yi  yˆ i 
2

i 1

• Jumlah kuadrat total (SST):


n
SST    yi  y 
2

i 1
ANOVA

Sumber Variasi SS DF MS Fh
Regresi SSR 1 SSR 1 MSR MSE
Residual SSE n-2 SSE (n  2)
Total SST n-1 SST (n  1)
Koefisien Determinasi
• Nilai koefisien determinasi (R2) dapat digunakan untuk
memprediksi seberapa besar kontribusi pengaruh variabel
prediktor x terhadap variabel respon y dengan syarat hasil uji F
dalam analisis regresi bernilai signifikan.
• Koefisien determinasi:
SSR
R 
2

SST
Bagus jika R 2  60%
Statistik Uji
• Statistik uji yang digunakan untuk slope:
ˆ1
th 
se( ˆ1 )
dimana

ˆ SSE / n  2
se( 1 ) 
s xx
p-value
• Nilai p (p-value) adalah ukuran probabilitas kekuatan dari bukti
untuk menolak atau menerima hipotesis null (H0).
• Semakin kecil nilai p yang diperoleh maka semakin kuat bukti
tersebut untuk menolak hipotesis null.
• Dalam aplikasinya kita biasanya membandingkan dengan nilai
alpha yang digunakan.
• Jika p-value < α, maka tolak H0, sedangkan jika p-value > α,
maka gagal tolak H0.
Interval Confidensi (CI) (1/2)
• Rentang antara dua nilai di mana nilai suatu sample mean
tepat berada di tengah-tengahnya.
• Nilai sebuah interval confidensi dapat dinyatakan
dengan kemungkinan (probability) berapa sample dalam 100
kali pengambilan samples nilai population mean sesungguhnya
akan masuk dalam sebuah rentang sample mean.
Contoh: 95% of confidence interval artinya jika saya mengambil
100 sampel maka kemungkinan 95 sampel saya akan
mencakup nilai population mean sesungguhnya.
Interval Konfidensi (CI) (2/2)
• Jadi, 100(1–α)% CI untuk 1 diberikan:

   
ˆ1  t 2, n2se ˆ1  1  ˆ1  t 2, n2se ˆ1
Uji Hipotesis Untuk Slope
Hipotesis untuk model regresi sederhana:
Hipotesis:
H0 : 1  0
H1 : 1  0
Kriteria Penolakan H0
Hipotesis nol (H0) ditolak jika terpenuhi salah satu kriteria
berikut:
1. th  t 2, n2
2. p-value < α
3. CI tidak memuat nilai nol.
Asumsi Regresi
• Error/residual harus memenuhi asumsi identik, independen,
distribusi normal (IIDN)
• Identik : gunakan uji Glejser
• Independen: gunakan uji Durbin-Watson
• Normal : gunakan uji kolmogorov-Smirnov
Bentuk Plot Residual
Asumsi Distribusi Normal
• Hipotesis
H0 : residual berdistribusi normal
H1 : residual tidak berdistribusi normal
Contoh 1
• The Rocket Propellant Data (Montgomery, Peck, and Vining,
2012).
• Berikut adalah data tentang kekuatan dorong roket. Diketahui
bahwa kekuatan dorong roket terindikasi dipengaruhi oleh usia
mesin pendorongnya.
• Berdasarkan informasi ini:
yi = kekuatan dorong roket (psi)
xi = umur mesin pendorong (minggu)
Analisis
• Kita akan melakukan analisis yang mendalam berdasarkan
contoh 1 di atas.
• Bentuk hubungan antara kekuatan dorong dan umur mesin
pendorong digambarkan dengan scatter plot sebagai berikut.
Scatter Plot (1/2)

Gambar 1. Scatter plot hubungan antara kekuatan dorong


roket dan umur mesin pendorong
Scatter Plot (2/2)
• Berdasarkan Gambar 1 diketahui bentuk hubungan antara
kekuatan dorong roket dan umur mesin pendorong adalah
linear negatif, artinya semakin tua umur mesin pendorong,
kekuatan dorong roket semakin lemah.
Parameter Regresi
• Dari data ini didapatkan estimasi parameter regresi:
ˆ1  37.15
ˆ0  2627.82
• Model regresinya:
kekuatan dorong  2627.82  37.15umur mesin
ANOVA

Sumber Variasi DF SS MS F P
Regresi 1 1527483 1527483 165.4 0.000
Error 18 166255 9236
Total 19 1693738

p-value<α (0.05). Artinya model regresi signifikan.


Uji Hipotesis Parameter Regresi
Hipotesis untuk model regresi data rocket propellant:
Hipotesis:
H0 : 1  0
H1 : 1  0
Predictor Coef SE Coef T P
Konstanta 2627.820 44.180 59.470 0.000
Jumlah -37.154 2.889 -12.860 0.000
R-Sq = 90.2% R-Sq (Adj) = 89.6%
Kesimpulan
Karena:
1. th  t 2, n2 atau 12.86>2.101, atau
2. p-value<α atau 0.000<0.05, atau
3. CI untuk 1 tidak memuat nol atau -43.22≤1 ≤-31.08

maka tolak H0. Artinya variabel umur mesin pendorong berpengaruh


terhadap kekuatan dorong roket, dan hubungan di antara dua
variabel ini adalah hubungan negatif (lihat tanda dari parameter
regresi ˆ1)
Uji Asumsi Residual
• Hipotesis
H0 : residual berdistribusi normal
H1 : residual tidak berdistribusi normal
• Nilai p (p-value) yang didapatkan adalah 0.066. Nilai ini lebih
dari α (0.05). Artinya gagal tolak H0 atau residual berdistribusi
normal.
Multiple Linear Regression
• Bentuk umum model regresi linear dengan lebih dari satu
variabel prediktor:
yi  0  1 xi1   2 xi 2     p xip   i
alternatively:
y  Xβ  ε
• y = variabel respon/dependen
• x = variabel prediktor/independen
• 0 , ,  p adalah parameter regresi
OLS (Pendekatan Matriks)
• Metode OLS untuk multiple linear regression dapat
didefinisikan sebagai berikut:
ˆβ   XT X 1  XT Y 
dimana
1 x11 x21 x p1   y1 
1 x x22 x p 2  y 
X  12
 2
 
, Y
 
   
1 x1n x2 n x pn 
 yn 
ANOVA

Sumber Variasi SS DF MS Fh
Regresi SSR 1 SSR 1 MSR MSE
Residual SSE n-2 SSE (n  2)
Total SST n-1 SST (n  1)
SSR  βˆ T XT y
SST  y T y
SSE  y T y  βˆ T XT y
Uji Hipotesis
• Uji serentak (menguji ANOVA)
Hipotesis:
H0 : 1  2    p  0
H1 : at least one of  i is not equal; i = 1,…, p
• Uji individu/parsial (jika hasil uji serentak adalah tolak H0):
Hipotesis:
H0 :  i = 0
H1 :  i ≠ 0; i = 1 ,…, p
Contoh 2
• The delivery time data (Montgomery, Peck, and Vining, 2012)
• Berikut adalah data tentang waktu pengiriman minuman soft
drink ke vending machines (menit). Diketahui waktu
pengiriman soft drink (y), dipengaruhi oleh jumlah soft drink
yang diletakkan di vending machines (x1), dan jarak tempuh
(feet) dari perusahaan ke lokasi vending machines (x2)
Scatter Plot (1/2)

Gambar 2. Scatter plot y vs jumlah (a), dan y vs jarak tempuh (b)


Scatter Plot (2/2)
• Berdasarkan Gambar 2, terdapat gambaran hubungan antara
variabel respon dan kedua variabel prediktor semuanya adalah
hubungan linear positif. Artinya semakin tinggi jumlah barang
dan jarak, maka waktu pengiriman akan semakin lama.
ANOVA

Sumber Variasi DF SS MS F P
Regresi 2 5550.82 2775.41 165.38 0.000
Error 22 233.73 10.62
Total 24 5784.54
Uji Serentak
Hipotesis:
H0 : 1  2    p  0
H1 : at least one of  i is not equal; i = 1,…, p

Berdasarkan output ANOVA didapatkan p-value (0.000)<α (0.05),


jadi tolak H0. Artinya ada minimal satu variabel prediktor yang
signifikan. Karena kesimpulan uji serentak adalah tolak H0, maka
dilanjutkan dengan uji parsial untuk mengetahui variabel
prediktor mana saja yang signifikan.
Uji Parsial
Hipotesis:
H0 :  i = 0
H1 :  i ≠ 0; i = 1 ,…, p
Predictor Coef SE Coef T P
Konstanta 2.341 1.097 2.130 0.044
Jumlah 1.616 0.171 9.460 0.000
Jarak 0.014 0.004 3.980 0.001
R-Sq = 96.0% R-Sq(Adj) = 95.6%
Model Regresi
• Model regresi untuk data waktu pengiriman adalah:
waktu  2.341  1.616 jumlah  0.014 jarak
Kesimpulan
• Karena semua p-value<α (0.05), maka tolak H0. Artinya semua
variabel prediktor berpengaruh terhadap waktu pengiriman
soft drink ke vending machines.
• Nilai koefisien regresi, ˆ1 danˆ2 , semuanya positif. Ini
menunjukkan hubungan antara kedua variabel prediktor dan
variabel respon adalah positif.
• Nilai koefisien determinasi, R2=96%. Nilai ini sangat tinggi. Hal
ini menunujukkan bahwa pengaruh variabel-variabel prediktor
sangat signifikan
Uji Asumsi Residual
• Hipotesis
H0 : residual berdistribusi normal
H1 : residual tidak berdistribusi normal
• Nilai p (p-value) yang didapatkan adalah 0.057. Nilai ini lebih
dari α (0.05). Artinya gagal tolak H0 atau residual berdistribusi
normal.

Você também pode gostar