Escolar Documentos
Profissional Documentos
Cultura Documentos
Analisis Multivariat adalah metode pengolahan variabel dalam jumlah yang banyak,
dimana tujuannya adalah untuk mencari pengaruh variabel-variabel tersebut terhadap
suatu obyek secara simultan atau serentak.
Analisis multivariat adalah salah satu dari teknik statistik yang diterapkan untuk memahami
struktur data dalam dimensi tinggi. Dimana variabel-variabel yang dimaksud tersebut saling
terkait satu sama lain.
Dimana minimal ada satu variabel terikat dan lebih dari satu variabel bebas serta terdapat
korelasi atau keterikatan antara satu variabel dengan variabel lainnya. Maka dapat diartikan
bahwa Analisis Multivariat juga merupakan analisis yang melibatkan cara perhitungan yang
kompleks. tujuannya adalah agar dapat memahami struktur data berdimensi tinggi dan saling
terkait satu sama lain.
Statistikian juga berpendapat bahwa telah sering terjadi kesalahpahaman yang mendasar dari
para mahasiswa atau bahkan para peneliti. Yaitu tentang definisi Analisis Multivariat, yaitu
kerancuan dalam memahami perbedaan antara Analisis Multivariat dan analisis multiple.
Perlu dipahami dan diperhatikan, bahwa pengertian Analisis Multivariat benar-benar berbeda
dengan analisis multiple atau disebut juga analisis multivariabel. Kalau tentang Analisis
Multivariat sudah dibahas di atas, saatnya kita coba kupas tentang analisis multivariabel.
Maka statistikian dapat menyimpulkan perbedaan antara Analisis Multivariat dan analisis
multivariabel, yaitu: Analisis Multivariat pastilah analisis multivariabel, sedangkan analisis
multivariabel belum tentu Analisis Multivariat.
Baiklah, untuk meningkatkan pemahaman para pembaca, kami coba jelaskan lebih jauh
pengertian harfiah dari Variate. Alasan statistikian perlu menjelaskannya adalah karena Analisis
Multivariat tidak pernah bisa lepas dari variate. Maka, pertanyaannya: apakah yang disebut
dengan variate?
Pengertian Variat
Titik penyusun bangunan atau pondasi dari Analisis Multivariat adalah variat itu sendiri
Variat adalah suatu kombinasi linear dari variabel-variabel yang memiliki bobot empiris yang
telah ditentukan
Suatu variate dari sejumlah n variabel yang terbobot (X1 sampai dengan Xn) dapat dinyatakan
secara matematis adalah sebagai berikut: nilai variate = w1X1+ w2X2+ w3X3++wnXn.
Sebelum melangkah lebih jauh, penting sekali bagi para pembaca, bahwa Analisis Multivariat
adalah salah satu bentuk dari analisis inferensial. Analisis inferensial artinya analisis yang
melibatkan sejumlah sampel saja. Dan dimana hasilnya nanti digunakan sebagai alat
generalisasi untuk keseluruhan populasi. Oleh karena itu, nantinya dalam Analisis Multivariat
tidak akan lepas dari istilah-istilah signifikansi dan juga tingkat kesalahan dan derajat
kepercayaan.
Data metrik adalah data yang bersifat numerik atau berisi angka-angka dan dapat dilakukan
perhitungan matematis di dalamnya, misal nilai ujian, tingkat IQ, berat badan, dll. Data metrik
disebut juga dengan data numerik atau data kuantitatif.
Dalam hal ini data metrik ada 2 macam, yaitu data interval dan data rasio. Untuk lebih jelasnya
pelajari artikel kami tentang skala data. Sedangkan data non metrik adalah data non numerik
atau disebut juga data kualitatif atau data kategorik.
Ada dua macam jenis data non metrik ini, yaitu data nominal dan data ordinal. Sekali lagi, agar
anda lebih paham lagi maka untuk lebih jelasnya silahkan pelajari artikel kami tentang skala
data.
Baiklah, sepertinya pembukaan atau pengantar tentang Analisis Multivariat telah kita lalui.
Selanjutnya kita bahas lebih dalam lagi tentang klasifikasi Analisis Multivariat.
Para pakar ada yang menyebutkan bahwa Analisis Multivariat hanya dikelompokkan ke dalam 2
klasifikasi saja. Yaitu analisis dependensi dan analisis interdependensi. Menurut statistikian,
tidak ada masalah tentang perbedaan ini, sebab para pakar yang berpendapat bahwa ada dua
klasifikasi, telah memasukkan Model Struktural atau struktural equation modelling sebagai
bagian dari klasifikasi analisis dependensi.
Analisis dependensi berfungsi untuk menerangkan atau memprediksi variabel terikat dengan
menggunakan dua atau lebih variabel bebas.
Sehingga berdasarkan pengertian di atas, maka analisis yang termasuk di dalam klasifikasi
analisis dependensi antara lain: analisis regresi linear berganda atau multiple linear
regression, analisis diskriminan atau discriminant analysis, analisis varian multivariate
(MANOVA), dan analisis korelasi kanonikal atau canonical correlations.
Regresi linear dan regresi logistik digunakan jika jumlah variabel dependen ada 1.
Perbedaannya adalah, regresi linear digunakan jika skala data variabel terikat adalah metrik.
Sedangkan regresi logistik, skala data variabel terikat adalah non metrik.
Analisis diskriminan juga melibatkan satu variabel terikat, namun sama halnya dengan regresi
logistik, skala data variabel terikat adalah data non metrik. Analisis diskriminan lebih dekat
dengan regresi linear dari pada regresi logistik, sebab analisis diskriminan mewajibkan variabel
bebas yang berskala data numerik haruslah berdistribusi normal.
Analisis Kanonikal lebih mirip dengan analisis diskriminan, hanya saja jumlah variabel terikat
yang digunakan lebih dari satu. Sedangkan MANOVA lebih mirip dengan analisis kanonikal,
dimana perbedannya adalah pada MANOVA atau yang biasa disebut dengan Multivariate
Analysis of Variance menggunakan data non metrik pada variabel bebas.
Agar anda lebih paham lagi, kami jelaskan beberapa pengertian tentang analisis dependensi
yang sudah disebutkan di atas.
Multiple Linear Regression atau Regresi Linear Berganda
Regresi Linear Berganda adalah metode analisis ini bertujuan menguji hubungan antara dua
variabel bebas atau lebih dan satu variabel terikat. Silahkan pelajari lebih jauh tentang Analisis
Regresi Korelasi.
Asumsi dari analisis Diskriminan Berganda adalah adalah variabel bebas harus berupa data
metrik dan berdistribusi normal. Silahkan pelajari lebih jauh tentang Analisis Diskriminan.
Multiple Logit Regression atau Multiple Logistic Regression atau Regresi logistik
Berganda
Regresi logistik Berganda adalah model regresi dimana satu variabel terikat non metrik yang
diprediksi atau diramalkan oleh beberapa variabel bebas berskala data metrik atau non metrik.
Teknik ini hampir sama dengan analisis diksriminan, hanya saja dalam perhitungannya
menggunakan prinsip perhitungan regresi seperti halnya regresi linear. Silahkan pelajari lebih
jauh tentang regresi logistik.
Perbedaannya dengan regresi linear berganda adalah: regresi linear berganda hanya
menggunakan satu variabel terikat dengan beberapa variabel bebas. Sedangkan pada korelasi
kanonikal ini menggunakan beberapa variabel terikat yang akan dikorelasikan dengan variabel
bebas.
Dalam analisis faktor ada dua jenis analisis, yaitu Principal Components Analysis atau PCA dan
Common Factor Analysis. Silahkan pelajari lebih detail di artikel kami: Analisis Faktor.
Dalam analisis kluster, ada dua jenis analisis, yaitu analisis kluster hirarki dan analisis kluster
non hirarki. Silahkan pelajari lebih detail di artikel kami: Analisis Kluster.
Kelebihan SEM adalah dapat meneliti hubungan antara beberapa kelompok variabel secara
bersamaan atau serentak. Baik variabel bebas maupun variabel terikat. Bahkan metode ini juga
dapat menggabungkan adanya variabel laten. Variabel laten dalam hal ini adalah variabel yang
sebenarnya keberadaannya tidak dapat diukur secara langsung ke dalam analisis.
Analisis Faktor
Analisis faktor merupakan perluasan dari analisis komponen utama. Digunakan juga untuk
mengidentifikasi sejumlah faktor yang relatif kecil yang dapat digunakan untuk menjelaskan sejumlah
besar variabel yang saling berhubungan.
Sehingga variabel-variabel dalam satu faktor mempunyai korelasi yang tinggi, sedangkan korelasi dengan
variabel-variabel pada faktor lain relatif rendah. Tiap-tiap kelompok dari variabel mewakili suatu
konstruksi dasar yang disebut faktor. Untuk meningkatkan daya interpretasi faktor, harus
dilakukan transformasi pada matriks loading. Transformasi dilakukan dengan merotasi matriks tersebut
dengan metode varimax, quartimax, equamax, quartimin, biquartimin dan covarimin serta oblimin.
Analisis Faktor
Hasil rotasi ini akan mengakibatkan setiap variabel asal mempunyai korelasi tinggi dengan faktor tertentu
saja dan dengan faktor yang lain korelasi relatif rendah sehingga setiap faktor akan lebih mudah untuk
diinterpretasikan. Untuk mengetahui rotasi mana yang sesuai digunakan 2min yang dihasilkan dari
analisis procrustes.
Analisis procrustes adalah suatu teknik analisis yang digunakan untuk membandingkan dua konfigurasi.
Dalam hal ini konfigurasi data hasil analisis factor yang sudah dirotasi dibandingkan dengan data asal.
Sebelum kedua data dibandingkan terlebih dahulu kedua data diproses berdasarkan penetapan dan
penyesuaian posisi. Penetapan dan penyesuaian dengan posisi dilakukan dengan transformasi yaitu
transformasi translasi, rotasi maupun dilasi yang dibuat sedemikian sehingga diperoleh jarak yang sedekat
mungkin. Setelah proses tersebut dilakukan dapat diketahui sejauh mana konfigurasi data analisis faktor
dapat menggambarkan data asal.
1. Untuk mereduksi sejumlah variabel asal yang jumlahnya banyak menjadi sejumlah variabel baru
yang jumlahnya lebih sedikit dari variabel asal, dan variabel baru tersebut dinamakan faktor atau
variabel laten atau konstruk atau variabel bentukan.
2. Untuk mengidentifikasi adanya hubungan antarvariabel penyusun faktor atau dimensi dengan
faktor yang terbentuk, dengan menggunakan pengujian koefisien korelasi antar faktor dengan
komponen pembentuknya. Analisis faktor ini disebut analisis faktor konfirmatori.
3. Untuk menguji valisitas dan reliabilitas instrumen dengan analisis faktor konfirmatori.
4. Validasi data untuk mengetahui apakah hasil analisis faktor tersebut dapat digeneralisasi ke dalam
populasinya, sehingga setelah terbentuk faktor, maka peneliti sudah mempunyai suatu hipotesis
baru berdasarkan hasil analisis tersebut.
Perbedaan Analisis Komponen Utama (PCA) dan Analisis Faktor Konfirmatori (CFA)
Analisis faktor pada dasarnya dapat dibedakan secara nyata menjadi dua macam yaitu:
Pada prinsipnya analisis faktor eksploratori di mana terbentuknya faktor-faktor atau variabel laten baru
adalah bersifat acak, yang selanjutnya dapat diinterprestasi sesuai dengan faktor atau komponen atau
konstruk yang terbentuk. Analisis faktor eksploratori persis sama dengan anlisis komponen utama (PCA).
Dalam analisis faktor eksploratori di mana peneliti tidak atau belum mempunyai pengetahuan atau teori
atau suatu hipotesis yang menyusun struktur faktor-faktornya yang akan dibentuk atau yang terbentuk,
sehingga dengan demikian pada analisis faktor eksploratori merupakan teknik untuk membantu
membangun teori baru.
Analisis faktor eksploratori merupakan suatu teknik untuk mereduksi data dari variabel asal atau variabel
awal menjadi variabel baru atau faktor yang jumlahnya lebih kecil dari pada variabel awal. Proses analisis
tersebut mencoba untuk menemukan hubungan antarvariabel baru atau faktor yang terbentuk yang saling
independen sesamanya, sehingga bisa dibuat satu atau beberapa kumpulan variabel laten atau faktor yang
lebih sedikit dari jumlah variabel awal yang bebas atau tidak berkorelasi sesamanya. Jadi antar faktor
yang terbentuk tidak berkorelasi sesamanya.
Pada dasarnya tujuan analisis faktor konfirmatori adalah: pertama untuk mengidentifikasi adanya
hubungan antar variabel dengan melakukan uji korelasi. Tujuan kedua untuk menguji validitas dan
reliabilitas instrumen. Dalam pengujian terhadap validitas dan reliabilitas instrumen atau kuesioner untuk
mendapatkan data penelitian yang valid dan reliabel dengan analisis faktor konfirmatori.
1. Merumuskan masalah.
2. Menyusun matriks korelasi.
3. Ekstraksi faktor.
4. Merotasi factor.
5. Interpretasikan Faktor.
6. Pembuatan factor scores.
7. Pilih variabel surrogate atau tentukan summated scale.
Berikut penjelasan langkah-langkah di atas:
Merumuskan masalah
Merumuskan masalah meliputi beberapa hal:
1. Korelasi matriks antar indikator: Metode yang pertama adalah memeriksa korelasi matriks.
Tingginya korelasi antara indikator mengindikasikan bahwa indikator-indikator tersebut dapat
dikelompokkan ke dalam sebuah indikator yang bersifat homogen sehingga setiap indikator
mampu membentuk faktor umum atau faktor konstruk. Sebaliknya korelasi yang rendah antara
indikator megindikasikan bahwa indikator-indikator tersebut tidak homogen sehingga tidak
mampu membentuk faktor konstruk.
2. Korelasi parsial: Metode kedua adalah memeriksa korelasi parsial yaitu mencari korelasi satu
indikator dengan indikator lain dengan mengontrol indikator lain. Korelasi parsial ini disebut
dengan negative anti-image correlations.
3. Kaiser-Meyer Olkin (KMO) : Metode ini paling banyak digunakan untuk melihat syarat
kecukupan data untuk analisis faktor. Metode KMO ini mengukur kecukupan sampling secara
menyeluruh dan mengukur kecukupan sampling untuk setiap indikator.
Ekstraksi faktor
Ekstraksi Faktor adalah suatu metode yang digunakan untuk mereduksi data dari beberapa indikator untuk
menghasilkan faktor yang lebih sedikit yang mampu menjelaskan korelasi antara indikator yang
diobservasi. Ada beberapa metode yang bisa digunakan untuk melakukan ekstraksi faktor yaitu:
1. Varimax Method: Adalah metode rotasi orthogonal untuk meminimalisasi jumlah indikator yang
mempunyai factor loading tinggi pada tiap faktor.
2. Quartimax Method: Merupakan metode rotasi untuk meminimalisasi jumlah faktor yang
digunakan untuk menjelaskan indikator.
3. Equamax Method: Merupakan metode gabungan antara varimax method yang meminimalkan
indikator dan quartimax method yang meminimalkan faktor.
Interpretasikan Faktor
Setelah diperoleh sejumlah factor yang valid, selanjutnya kita perlu menginterprestasikan nama-nama
factor, mengingat factor merupakan sebuah konstruk dan sebuah konstruk menjadi berarti kalau dapat
diartikan. Interprestasi factor dapat dilakukan dengan mengetahui variable-variabel yang membentuknya.
Interprestasi dilakukan dengan judgment. Karena sifatnya subjektif, hasil bisa berbeda jika dilakukan oleh
orang lain.
1. Variabel surrogate adalah satu variable yang paling dapat mewakili satu factor. Misak factor 1
terdiri dari variable X1, X2 dan X3. Maka yang paling mewakili factor 1 adalah variable yang
memiliki factor loading terbesar. Apabila factor loading tertinggi dalam satu factor ada yang
hampir sama, missal X1 = 0,905 dan X2 = 0,904 maka sebaiknya pemilihan surrogate variable
ditentukan berdasarkan teori, yaitu variable mana secara teori yang paling dapat mewakili factor.
Atau cara lain adalah dengan menggunakan Summated Scale.
2. Summated Scale adalah gabungan dari beberapa variable dalam satu factor, bisa berupa nilai rata-
rata dari semua factor tersebut atau nilai penjumlahan dari semua variable dalam satu factor.
Tahapan secara grafik dapat anda lihat pada gambar Framework Analisis Faktor di atas!
Regresi Logistik
Regresi logistik adalah sebuah pendekatan untuk membuat model prediksi seperti halnya regresi linear
atau yang biasa disebut dengan istilah Ordinary Least Squares (OLS) regression. Perbedaannya adalah
pada regresi logistik, peneliti memprediksi variabel terikat yang berskala dikotomi. Skala dikotomi yang
dimaksud adalah skala data nominal dengan dua kategori, misalnya: Ya dan Tidak, Baik dan Buruk atau
Tinggi dan Rendah.
Apabila pada OLS mewajibkan syarat atau asumsi bahwa error varians (residual) terdistribusi secara
normal. Sebaliknya, pada regresi ini tidak dibutuhkan asumsi tersebut sebab pada regresi jenis logistik
ini mengikuti distribusi logistik.
1. Regresi logistik tidak membutuhkan hubungan linier antara variabel independen dengan
variabel dependen.
2. Variabel independen tidak memerlukan asumsi multivariate normality.
3. Asumsi homokedastisitas tidak diperlukan
4. Variabel bebas tidak perlu diubah ke dalam bentuk metrik (interval atau skala ratio).
5. Variabel dependen harus bersifat dikotomi (2 kategori, misal: tinggi dan rendah atau baik dan
buruk)
6. Variabel independen tidak harus memiliki keragaman yang sama antar kelompok variabel
7. Kategori dalam variabel independen harus terpisah satu sama lain atau bersifat eksklusif
8. Sampel yang diperlukan dalam jumlah relatif besar, minimum dibutuhkan hingga 50 sampel data
untuk sebuah variabel prediktor (independen).
9. Dapat menyeleksi hubungan karena menggunakan pendekatan non linier log transformasi untuk
memprediksi odds ratio. Odd dalam regresi logistik sering dinyatakan sebagai probabilitas.
Model Persamaan Regresi Logistik
Model persamaan aljabar layaknya OLS yang biasa kita gunakan adalah berikut: Y = B0 + B1X + e. Dimana
e adalah error varians atau residual. Dengan model regresi ini, tidak menggunakan interpretasi yang
sama seperti halnya persamaan regresi OLS. Model Persamaan yang terbentuk berbeda dengan
persamaan OLS.
Berikut persamaannya:
Sedangkan P Aksen adalah probabilitas logistik yang didapat rumus sebagai berikut:
Probabilitas Regresi Logistik
Di mana:
(Perlu diingat bahwa exponen merupakan kebalikan dari logaritma natural. Sedangkan logaritma natural
adalah bentuk logaritma namun dengan nilai konstanta 2,71828182845904 atau biasa dibulatkan
menjadi 2,72).
Dengan model persamaan di atas, tentunya akan sangat sulit untuk menginterprestasikan koefisien
regresinya. Oleh karena itu maka diperkenalkanlah istilah Odds Ratio atau yang biasa disingkat Exp(B)
atau OR. Exp(B) merupakan exponen dari koefisien regresi. Jadi misalkan nilai slope dari regresi adalah
sebesar 0,80, maka Exp(B) dapat diperkirakan sebagai berikut:
Misalnya nilai Exp (B) pengaruh rokok terhadap terhadap kanker paru adalah sebesar 2,23, maka
disimpulkan bahwa orang yang merokok lebih beresiko untuk mengalami kanker paru dibadningkan
dengan orang yang tidak merokok. Interprestasi ini diartikan apabila pengkodean kategori pada tiap
variabel sebagai berikut:
1. Variabel bebas adalah Rokok: Kode 0 untuk tidak merokok, kode 1 untuk merokok.
2. Variabel terikat adalah kanker Paru: Kode 0 untuk tidak mengalami kanker paru, kode 1 untuk
mengalami kanker paru.
Pseudo R Square
Perbedaan lainnya yaitu pada regresi ini tidak ada nilai R Square untuk mengukur besarnya pengaruh
simultan beberapa variabel bebas terhadap variabel terikat. Dalam regresi logistik dikenal istilah Pseudo
R Square, yaitu nilai R Square Semu yang maksudnya sama atau identik dengan R Square pada OLS.
Jika pada OLS menggunakan uji F Anova untuk mengukur tingkat signifikansi dan seberapa baik model
persamaan yang terbentuk, maka pada regresi ini menggunakan Nilai Chi-Square. Perhitungan nilai Chi-
Square ini berdasarkan perhitungan Maximum Likelihood.
Demikian penjelasan singkat tentang regresi logistik. Agar anda lebih mudah memahaminya, silahkan
baca artikel kami tentang Regresi Logistik dengan SPSS.
.
Maka akan keluar output sebagai berikut:
Dependent Variable: Y
Method: ML - Binary Logit (Quadratic hill climbing)
Date: 02/07/14 Time: 08:50
Sample: 1 35
Included observations: 35
Convergence achieved after 5 iterations
Covariance matrix computed using second derivatives
Untuk model logit tidak menggunakan t hitung (t stat) lagi, tapi menggunakan z hitung (z
Stat) untuk melihat tingkat signifikannya.
untuk melihat keseuaian model digunkan likelihood ratio dan untuk intepretasi hasilnya
kita tidak boleh langsung mengintepretasikan dengan koefisien betha, tapi harus menggunakan
odd ratio.. nilai odd ratio dapat di cari dengan menggunakan excel dengan rumus =2,72^nilai
koefisien. itu artinya nilai e=2,72 dipangkatkan dengan masing-masing nilai koefisien betha
Hasilperhitungan dengan menggunakan Excel
Analisis diskriminan bermanfaat pada situasi di mana sampel total dapat dibagi menjadi
group-group berdasarkan karateristik variabel yang diketahui dari beberapa kasus.
Tujuan utama dari analisis multipel diskriminan adalah untuk mengetahui perbedaan
antar group,(Hair, Anderson, Tatham, Black, 1995).
Analisis diskriminan merupakan salah satu dari analisis multivariat dengan metode
dependensi. Di mana kita mengenal ada dua metode dalam analisis multivariat, yaitu
metode dependensi dan metode interdependensi. Yang dimaksud dengan metode
dependensi yaitu variabel-variabelnya tidak saling bergantung satu dengan yang lain,
sedangkan metode interdenpendensi adalah antarvariabelnya ada saling
ketergantungan.
Persamaan Diskriminan
Persamaan Fungsi Diskriminan yang dihasilkan untuk memberikan peramalan yang
paling tepat untuk mengklasifikasi individu kedalam kelompok berdasarkan skor
variabel bebas.
Jika kita bandingkan dengan regresi linier, maka analisis ini merupakan kebalikannya.
Pada regresi linier, variabel respon yang harus mengikuti distribusi normal dan
homoskedastis, sedangkan variabel penjelas diasumsikan fixed, artinya variabel
penjelas tidak disyaratkan mengikuti sebaran tertentu. Untuk analisis diskriminan,
variabel penjelasnya seperti sudah disebutkan di atas harus mengikuti distribusi normal
dan homoskedastis, sedangkan variabel responnya fixed.
Pada variabel X1 nilai rata-rata X1 pada kelompok 1 : 63.20, sedangkan kelompok 0: 35.92.
Artinya rata-rata X1 terhadap Keputusan pada kelompok pertama (1) lebih tinggi dibandingkan
dengan kelompok kedua (0).
Jika signifikansi > 0,05 maka tidak ada perbedaan dalam kelompok
Jika signifikansi < 0,05 maka ada perbedaan dalam kelompok
Semua variabel di atas nilai sig < 0,05, maka ketiga variabel memberikan perbedaan pada
pengambilan keputusan (Y).
Hipotesis:
NB: jika tidak terpenuhinya asumsi ini dapat dilakukan eksplorasi data untuk melihat
kemungkinan ada tidaknya outlier data.
Tahapan pemasukan variabel ditentukan oleh besar kecilnya angka sig of F to Remove dimana
angka terkecil akan di dahulukan.
Angka signifikansi untuk 3 variabel sebesar 0,000 dengan nilai F 235,829 pada tahap satu dan
pada tahap 3 signifikansi sebesar 0,000 dengan nilai F 175.397. Karena nilai signifikansi 0,000
(< 0,05) maka variabel masing-masing kelompok mempunyai perbedaan yang signifikan.
Canonical Correlation
Dari tabel di atas, diperoleh nilai canonical correlation sebesar 0,854 bila di kuadratkan (0,854
x 0,854) = 0.7293, artinya 72,93% varians dari variabel independen (kelompok) dapat dijelaskan
dari model diskriminan yang terbentuk.
Nilai korelasi kanonikal menunjukan hubungan antara nilai diskriminan dengan kelompok. Nilai
sebesar 0,854 berarti hubungannya sangat tinggi karena mendekati angka 1 (besarnya korelasi
antara 0-1).
Pada tabel Wilks Lambda diketahui nilai signifikansi statistics Chi-square sebesar 0,000 (<
0,05) yang berarti ada perbedaan yang signifikan antara kedua kelompok responden yang
didasarkan pada ketiga variabel bebas.
Tabel Structure Matrix menunjukan urutan karakteristik yang paling membedakan keputusan
(Y). Variabel X3 adalah yang paling membedakan, kemudian jumlah X2 dan selanjutnya X1.
Tabel di atas menunjukan adanya korelasi antara variabel-variabel bebas dengan fungsi
diskriminan yang terbentuk. Variabel X3 mempunyai korelasi yang paling tinggi dengan
nilai korelasi sebesar 0,666. Jika ada var dengan tanda a, maka variabel tersebut tidak
dimasukan dalam proses analisis diskriminan.
Uji Diskriminan
Berdasarkan angka tabel di atas, terdapat dua kelompok yang berbeda yaitu kelompok dengan
keputusan 0 dengan centroid (rata-rata kelompok) negatif dan kelompok yang keputusan 1
dengan centroid (rata-rata kelompok) positif.
Pada Tabel Prior Probabilities for Groups menunjukkan kelompok dengan keputusan 0
sebanyak 92 sample sedangkan kelompok dengan keputusan sebanyak 1 sebanyak 108
sample.
Pada Tabel Classification Function Coefficients menunjukkan hal yang sama dengan bagian
Canonical Discriminant Function Coefficients di atas yang sebelumnya sudah dibahas.
Persamaannya sebagai berikut:
Tabel di atas pada kolom Original baris Kelompok Keputusan 0 sebanyak 86 responden atau
93,5%, sedangkan 6 responden (6,5%) berpindah ke kelompok keputusan 1.
Sementara itu, 105 responden (97,2%) yang berada dikelompok keputusan 1 dan ada 3
responden (2,8%) berpindah ke kelompok keputusan 0.
Maka Ketepatan fungsi diskriminan dapat dihitung dengan cara: 86 + 105/200 = 0.955 atau 95,5
%.
Analisis cluster adalah teknik multivariat yang mempunyai tujuan utama untuk mengelompokkan objek-
objek/cases berdasarkan karakteristik yang dimilikinya. Analisis cluster mengklasifikasi objek sehingga
setiap objek yang memiliki sifat yang mirip (paling dekat kesamaannya) akan mengelompok kedalam
satu cluster (kelompok) yang sama.
1. Homogenitas (kesamaan) yang tinggi antar anggota dalam satu cluster (within-cluster).
2. Heterogenitas (perbedaan) yang tinggi antar cluster yang satu dengan cluster yang lainnya
(between-cluster).
Beberapa manfaat dari analisis cluster adalah: eksplorasi data peubah ganda, reduksi data, stratifikasi
sampling, prediksi keadaan obyek. Hasil dari analisis cluster dipengaruhi oleh: obyek yang diclusterkan,
peubah yang diamati, ukuran kemiripan (jarak) yang dipakai, skala ukuran yang dipakai, serta metode
pengclusteran yang digunakan.
Tahap 1:
Mengukur kesamaan antar objek (similarity). Sesuai prinsip analisis cluster yang mengelompokkan
objek yang mempunyai kemiripan, proses pertama adalah mengukur seberapa jauh ada kesamaan antar
objek. Metode yang digunakan:
Membuat cluster. Metode dalam membuat cluster ada banyak sekali, seperti yang digambarkan dalam
diagram di bawah ini:
Diagram Analisis Cluster
Hirarchial Methode
Metode ini memulai pengelompokan dengan dengan dua atau lebih objek yang mempunyai
kesamaan paling dekat. Kemudian proses diteruskan ke objek lain yang mempunyai
kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk semacam
pohon, di mana ada hirarki (tingkatan) yang jelas antar objek, dari yang paling mirip sampai
paling tidak mirip. Secara logika semua objek pada akhirnya akan membentuk sebuah
cluster. Dendogram biasanya digunakan untuk membantu memperjelas proses hirarki
tersebut.
Kluster Hirarki
Dalam metode hirarki cluster terdapat dua tipe dasar yaitu agglomerative
(pemusatan) dan divisive (penyebaran). Dalam metode agglomerative, setiap obyek atau
observasi dianggap sebagai sebuah cluster tersendiri. Dalam tahap selanjutnya, dua cluster
yang mempunyai kemiripan digabungkan menjadi sebuah cluster baru demikian seterusnya.
Sebaliknya, dalam metode divisive kita beranjak dari sebuah cluster besar yang terdiri dari
semua obyek atau observasi. Selanjutnya, obyek atau observasi yang paling tinggi nilai
ketidakmiripannya kita pisahkan demikian seterusnya.
Agglomerative
Dalam agglomerative ada lima metode yang cukup terkenal, yaitu: Single Linkage, Complete
Linkage, Average Linkage, Wards Method, Centroid Method.
Single Linkage, prosedur ini didasarkan pada jarak terkecil. Jika dua obyek terpisah oleh
jarak yang pendek maka kedua obyek tersebut akan digabung menjadi satu cluster daan
demikian saterusnya.
Average Linkage, prosedure ini hampir sama dengan Single Linkage maupun Complete
Linkage, namun kriteria yang digunakan adalah rata-rata jarak seluruh individu dalam
suatu cluster dengan jarak seluruh individu dalam cluster yang lain.
Wards Method, jarak antara dua cluster dalam metode ini berdasarkan total sum of
square dua cluster pada masing-masing variabel.
Centroid Method, jarak antara dua cluster dalam metode ini berdasarkan
jarak centroid dua cluster yang bersangkutan.
Non-Hirarchial Methode
Berbeda dengan metode hirarki, metode ini justru dimulai dengan terlebih dahulu jumlah
cluster yang diinginkan (dua cluster, tiga cluster atau yang lain). Setelah jumlah cluster
diketahui, baru proses cluster dilakukan tanpa mengikuti proses hirarki. Metode ini biasa
disebut dengan K-Means Cluster.
Optimization
Optimization, Metode ketiga adalah serupa dengan kedua metode sebelumnya kecuali
bahwa metode ini memungkinkan untuk menempatkan kembali objek-objek ke dalam
cluster yang lebih dekat.
Interprestasi Analisis Cluster
Setelah cluster terbentuk, entah dengan metode hirarki atau non-hirarki, langkah selanjutnya
adalah melakukan interprestasi terhadap cluster yang terbentuk, yang pada intinya memberi
nama spesifik untuk menggambarkan isi cluster. Misalnya, kelompok konsumen yang
memperhatikan lingkungan sekitar sebelum membeli sebuah rumah bisa dinamai cluster
lingkungan.