Você está na página 1de 10

ANALISIS DISKRIMINAN

IV.1. KONSEP ANALISIS DISKRIMINAN


Analisis diskriminan adalah bagian dari analisis statistik peubah ganda (multivariate
statistical analysis) yang bertujuan untuk memisahkan beberapa kelompok data yang sudah
terkelompokkan dengan cara membentuk fungsi diskriminan. Analisis diskriminan adalah
salah satu teknik statistik yang bisa digunakan pada hubungan dependensi (hubungan antar
variabel dimana sudah bisa dibedakan mana variabel respon dan mana variabel penjelas). Lebih
spesifik lagi, analisis diskriminan digunakan pada kasus dimana variabel respon berupa data
kualitatif dan variabel penjelas berupa data kuantitatif.
Menurut Johnson and Wichern (1982 : 470), tujuan dari analisis disriminan adalah
untuk menggambarkan ciri-ciri suatu pengamatan dari bermacam-macam populasi yang
diketahui, baik secara grafis maupun aljabar dengan membentuk fungsi diskriminan. Dengan
kata lain, analisis diskriminan digunakan untuk mengklasifikasikan individu ke dalam salah
satu dari dua kelompok atau lebih.

Tujuan diskriminan secara umum adalah:


1.

Mengetahui apakah ada perbedaan yang jelas antara kelompok pada variabel dependen.
Bisa juga dikatakan untuk melihat perbedaan antara anggota grup 1 dengan grup 2.

2.

Jika ada perbedaan, untuk mengetahui variabel bebas mana yang membuat perbedaan
tersebut.

3.

Membuat fungsi atau model diskriminan yang pada dasarnya mirip dengan persamaan
regresi.

4.

Melakukan klasifikasi terhadap objek (dalam terminology spss disebut baris), dan untuk
mengetahui apakah suatu objek termasuk pada grup 1 atau grup 2 atau lainnya.

IV.2. ASUMSI DAN SAMPEL


Asumsi dalam analisis diskriminan:
1.

Sejumlah p variabel independen harus berdistribusi normal.

2.

Matriks ragam-peragam variabel independen berukuran pxp pada kedua kelompok


harus sama.
1

3.

Tidak ada korelasi antar variabel independen.

4.

Tidak terdapat data yang outlier pada variabel independen.


Menurut Hair et al. (1987 : 76), analisis diskriminan tidak terlalu sensitif dengan

pelanggaran asumsi ini, kecuali pelanggarannya bersifat ekstrim. Dan Johnson and Wichern
(1988: 472) mengatakan hal yang sama bahwa asumsi ini (kesamaan ragam-peragam) di dalam
praktiknya sering dilanggar.
Tidak ada jumlah sampel yang ideal secara pasti pada analisis diskriminan. Pedoman
yang bersifat umum menyatakan untuk setiap variabel independen terdapat 5-20 sampel.
Dengan demikian, jika terdapat 6 variabel independen maka seharusnya terdapat minimal
6x5=30 sampel. Secara terminology spss, jika ada enam kolom variabel independen, sebaiknya
ada 30 baris data.
Selain itu, pada analisis diskriminan sebaiknya digunakan dua jenis sampel, yakni
analisis sampel yang digunakan untuk membuat fungsi diskriminan, serta holdout sampel (split
sampel) yang digunakan untuk menguji hasil diskriminan.

IV.3. PROSEDUR ANALISIS


Berikut adalah prooses untuk melakukan analisis diskriminan:
1. Memisah variabel-variabel menjadi variabel dependen dan variabel independen.
2. Menentukan metode untuk membuat fungsi diskriminan. Pada prinsipnya terdapat dua
metode dasar untuk membuat fungsi diskriminan, yakni:
Simultaneus estimation, semua variabel independen dimasukkan secara bersama-sama
kemudian dilakukan proses diskriminan.
Stepwise estimation, variabel independen dimasukkan satu per satu kedalam model
diskriminan. Pada proses ini akan ada variabel yang tetap ada dalam model dan ada
variabel yang dibuang dari model.
3. Menguji signifikansi dari fungsi diskriminan yang telah terbentuk, menggunganan Wilks
lamda, Pilai, F test dan lainnya.
4. Menguji ketepatan klasifikasi dari fungsi diskriminan serta mengetahui ketepatan
klasifikasi secara individual dengan casewise diagnostics.
5. Melakukan interpretasi terhadap fungsi diskriminan tersebut.
6. Melakukan uji validasi terhadap fungsi diskriminan.

Suatu fungsi diskriminan layak untuk dibentuk bila terdapat perbedaan nilai rataan di
antara 2 kelompok yang ada. Oleh karena itu, sebelum fungsi diskriminan dibentuk perlu
dilakukan pengujian terhadap perbedaan vektor nilai rataan dari 2 kelompok tersebut. Dalam
pengujian vektor nilai rataan antar kelompok, asumsi yang harus dipenuhi adalah peubahpeubah yang diamati berdistribusi multivariate normality dan semua kelompok populasi
mempunyai matrik ragam-peragam yang sama.
1. Uji multivariate normal
Menurut Karson (1982 : 80), untuk menguji kenormalan peubah ganda digunakan prosedur
yang dikembangkan oleh Mardia (1970) dengan cara menghitung dua macam ukuran statistik
yaitu ukuran skewness (b1,p) dan kurtosis (b2,p), yaitu:

b 1 n X X S X
2

1, p

u1 u'1

u' X

(1.1)

b 1 nX X S X X
n

2, p

u1

(1.2)

Hipotesis yang digunakan adalah:


H0 : peubah ganda mengikuti sebaran normal
H1 : peubah ganda tidak mengikuti sebaran normal
Jika

nb1,p /6 p( p1)(p2) / 6 , dan


2

b2,p p(p + 2) /

8p( p 2) / n Z (tabel normal),

maka H0 diterima, berarti peubah ganda mengikuti sebaran normal.


Menurut Johnson and Wichern (1982 : 152), untuk menguji kenormalan ganda adalah
2

dengan mencari nilai jarak kuadrat untuk setiap pengamatan yaitu d j

(X j X)'S1(X j X)

, di mana Xj adalah pengamatan yang ke-j dan S-1 adalah kebalikan (inverse) matriks ragamperagam S
Kemudian
plot

d2j

d2j

diurutkan dari yang paling kecil ke yang paling besar, selanjutnya dibuat

dengan nilai Chi-Kuadrat

p2 j 1 2
n

di mana: j = urutan = 1, 2, ..., n dan p =

banyaknya peubah. Bila hasil plot dapat didekati dengan garis lurus, maka dapat disimpulkan
bahwa peubah ganda menyebar normal.
Menurut Nurosis (1986), berdasarkan teori Wahl dan Kronmal (1977), dikatakan bahwa
seringkali kenormalan ganda sulit diperoleh terutama bila sampel yang diambil relatif kecil.
3

Bila hal ini terjadi, uji vektor nilai rataan tetap bisa dilakukan selama asumsi kedua (kesamaan
ragam-peragam) dipenuhi.

2. Uji kesamaan ragam-peragam


Untuk menguji kesamaan matrik ragam-peragam () antar kelompok digunakan hipotesis:

H0 : 1 = 2 =

H1 : 1 2

Statistik uji: statistik Boxs M

- 2ln* n klnW (n k) nj 1lnSj


k

j1

S
k

j1

(2.1)

(nj 1) / 2
j

(2.2)

W /(n k) (nk) / 2

dimana :
k

= banyaknya kelompok.

W / (n-k)

= matrik ragam-peragam dalam kelompok gabungan.

Sj

= matrik ragam-peragam kelompok ke-j.

Bila hipotesis nol (H0) benar, maka (-2ln*) / b akan mengikuti sebaran F dengan derajat
bebas v1 dan v2 pada taraf signifikansi , di mana:
v1 = (1/2)(k 1)p(p + 1)
v2 = (v1+ 2) / (a2 a12)
b = v1 / (1 a1 - v1/ v1)
3
k

a1 2p 3p1 1 1
6(k 1)(p1) j1 (nj 1) (nk)

a2 ( p 1)(p 2) 1 2 1 2
6(k 1) j1 (nj 1) (n k)
4

(2.3)

p = jumlah peubah pembeda dalam fungsi diskriminan.

Jika (-2ln*) / b Fv1,v2, maka tidak ada alasan untuk menolak H0 dan dapat
disimpulkan bahwa antar kelompok mempunyai matrik ragam-peragam yang sama dan
sebaliknya bila (-2ln*) / b > Fv1,v2, maka H0 ditolak.

3. Uji vector nilai rata-rata


Pengujian terhadap vektor nilai rataan antar kelompok dilakukan dengan hipotesis:

H0 : 1 = 2

H1 : 1 2

Statistik uji: V-Bartlett yang menyebar mengikuti distribusi Chi-kuadrat (2) dengan
derajat bebas p(k - 1), apabila H0 benar.
Statistik V-Bartlett diperoleh melalui:

V (n1) ( p k) 2ln()

(3.1)

dimana:
n = banyaknya pengamatan
p = banyaknya peubah dalam fungsi diskriminan
k = banyaknya kelompok

W
Wilks lambda
WB

W= matrik jumlah kuadrat dan hasil kali data dalam kelompok

(X
k ni

i1 j1

ij

Xi )(Xij Xi )'

(3.2)

B = matrik jumlah kuadrat dan hasil kali data antar kelompok.

n (X X)(X X)'
k

i1

(3.3)

Xij = pengamatan ke-j kelompok ke-i

Xi = vektor rataan kelompok ke-i


5

ni= jumlah pengamatan pada kelompok ke-i,

X = vektor rataan total

Apabila V p(k1),(1) maka, tidak ada alasan untuk menolak H0, ini berarti bahwa
2

terdapat perbedaan vektor nilai rataan antar kelompok. Sebaliknya bila

V p2(k1),(1)

maka H0 ditolak.
Bila dari hasil pengujian ada perbedaan vektor nilai rataan, maka fungsi diskriminan
layak untuk disusun untuk mengkaji hubungan antar kelompok serta berguna untuk
mengelompokkan suatu obyek baru ke dalam salah satu kelompok tersebut.

4. Penyusunan fungsi diskriminan


Dalam analisis diskriminan, observasi-observasi dipisahkan atau dikelompokkan
berdasarkan pengukuran terhadap sejumlah p random variabel independen, dimana sejumlah
kelompok harus memenuhi 2 k < p, dimana p adalah banyaknya variabel pembeda. Fungsi
diskriminan yang mempunyai bentuk umum berupa persamaan linier (Fishers Sample Linear
Discriminant Function) yaitu:

y 1x1 2x2 p xp atau dapat ditulis sebagai


y ' x

(4.1)

dimana:
y = skor diskriminan/variabel bebas

' 1,2,..., p

= vektor koefisien estimasi

x = x1, x2, ..., xp = vektor variabel independen


Nilai

dipilih sedemikian sehingga fungsi diskriminan berbeda sebesar mungkin

antara kedua kelompok, atau sehingga rasio antara between-groups sum of squares dengan
within-groups sum of squares maksimum. Johnson dan Wichern (1988) mengatakan bahwa
untuk kelompok, nilai

' yang memaksimumkan rasio tersebut

1
' (x1 x2)'Spooled

adalah:
(4.2)

dimana:

x1= rata-rata sampel populasi-1

x2 = rata-rata sampel populasi-2


1
Spooled
= kovarian sampel gabungan

Pengujian fungsi diskriminan dilakukan untuk mengetahui kelayakan fungsi


diskriminan tersebut dalam memindahkan observasi-observasi ke dalam kelompok-kelompok
yang didefinisikan. Pengujian yang umum adalah dengan melihat perbandingan variabilitas
skor dalam kelompok terhadap variabilitas skor total, yang dikenal dengan statitik Wilks
Lambda. Statistik ini sebenarnya adalah proporsi total variasi skor diskriminan yang tidak dapat
diterangkan oleh perbedaan di antara kelompok (baru). Untuk melihat signifikansi
perbedaannya,

statistik

Wilks

Lambda

ditransformasikan

kedalam

statistik

Chi-

Square.(Johnson dan Wichern, 1988). Setelah diuji tingkat signifikansinya, fungsi diskriminan
yang signifikan dapat digunakan untuk mengklasifikasikan observasi-observasi baru ke dalam
kelompok-kelompok tadi.
Pengujian fungsi diskriminan dapat juga dilakukan dengan menggunakan persentase
observasi yang klasifikasinya tidak berubah, yaitu persentase observasi yang klasifikasinya
menggunakan diskriminan tidak berbeda dengan klaifikasinya dalam kelompok acuan.
Menurut Hair et al., (1987) pada besar persentase observasi yang klasifikasinya tidak berubah
tersebut kurang dari suatu standar tertentu, fungsi diskriminan tidak baik digunakan dalam
analisis. Ada 2 standar persentase yang digunakan yaitu kriteria peluang proporsional
(proportional chance criterion) dan kriteria peluang maksimum (maximum chance criterion).
Kriteria peluang proporsional ditentukan dengan rumus:
Cprop = p2 + (1 - p)2

(4.3)

di mana:
Cprop = kriteria proporsional dari model chance.
P = proporsi perusahaan dalam kelompok-1.
(1 p) = proporsi peluang dalam kelompok-2.

Kriteria peluang maksimum ditentukan dengan menghitung total sampel yang


ditunjukkan oleh kelompok dengan prior probability terbesar, rumusnya adalah:
Cmax = prior probability

(4.4)

Suatu observasi diukur berdasarkan semua variabel independen yang digunakan dan
kemudian dimasukkan ke dalam fungsi diskriminan untuk memperoleh skornya. Kriteria
pengelompokan ke dalam kelompok yang ada adalah berdasarkan skor batas. Jika hanya ada 2
kelompok yang didefinisikan, dan bila sampel dari kedua kelompok berbeda, maka rata-rata
kelompok harus ditimbang dengan jumlah sampel. Maka skor batas yang digunakan adalah:

m n

y n y 1 '
n x x S n x nx
n
2

1
gab

(4.5)

dimana:

y1 = rata-rata skor diskriminan dari populasi (kelompok)-1


y2 = rata-rata skor diskriminan dari populasi (kelompok)-2
n1 = jumlah sampel dari kelompok 1
n2= jumlah sampel dari kelompok 2
n = n1 + n2
Selisih antara skor observasi (y) dengan nilai
(W = y -

m ini adalah statistik Wald-Anderson W

m ). Oleh karena itu aturan klasifikasi yang digunakan adalah (Morrison, 1976):

Klasifikasikan observasi ke observasi solvent jika W 0


Klasifikasikan observasi ke observasi insolvent jika W < 0
Peluang tepat pengelompokan dapat dihitung dari matriks yang menunjukkan nilai
sebenarnya (actual members) dan nilai prediksi (prediction members) dari setiap group. Untuk
n1 penelitian dari populasi satu (1) dan n2penelitian dari populasi dua (2)diperoleh matriks
sebagai berikut:

Nilai Prediksi
1
1

n1c

Nilai
Sebenarnya
2

2
n1m = n1
n1c

n2m = n2
n2c

n2c

n1

n2

dimana:
n1c

= jumlah dari 1 item yang tepat dikelompokkan pada 1 item

n1m

= jumlah dari 1 item yang salah dikelompokkan pada 2 item

n2c

= jumlah dari 2 item yang tepat dikelompokkan pada 2 item

n2m

= jumlah dari 2 item yang salah dikelompokkan pada 1 item

Rumus dari peluang tepat pengelompokan adalah:

Persentase tepat pengelompokan

n1c n2c
100%
n1 n2

5. Prosedur stepwise
Menurut Nourosis (1986), apabila dalam suatu penelitian menggunakan banyak
variabel independen, maka untuk efisiensi dalam menentukan variabel independen mana yang
berperan dalam pembentukan fungsi diskriminan, dilakukan melalui analisis diskriminan
bertatar (stepwise disciminant). Prosedur ini digunakan untuk menghilangkan informasi dari
variabel independen yang kurang berguna dalam membentuk fungsi diskriminan. Prosedur
diskriminan bertatar dimulai dengan pemilihan peubah ganda yang paling berarti.
Untuk melihat variabel independen yang paling berarti (variabel independen yang dapat
diikutsertakan dalam pembentukan fungsi diskriminan), dapat dilakukan dengan beberapa
kriteria, yaitu:
1. Peubah yang memiliki nilai F terbesar.
2. Peubah yang memiliki nilai Wilks Lambda terkecil.

Nilai minimum dari F to enter adalah 3,84 dan nilai maksimum dari F to remove adalah
2,71. Nilai dari kedua F ini diperoleh dari rumus:

1p1 p
F n g p

g 1 p1 p

(5.1)

dimana n adalah total dari jumlah baris, g adalah jumlah kelompok, p adalah variabel
independen yang ditambahkan, p adalah Wilks Lambda sebelum penambahan variabel dan
p+1 adalah Wilks Lambda setelah penambahan/pemasukan variabel. Namun, variabel
independen yang sudah terpilih bisa dikeluarkan dari fungsi diskriminan jika informasi yang
dikandung tentang perbedaan kelompok ada di beberapa kombinasi peubah-peubah terpilih
lainnya (Hair et al., 1987).

10

Você também pode gostar