Você está na página 1de 44

ANALISIS DISKRIMINAN

APAKAH ANALISIS DISKRIMINAN?

analisis diskriminan adalah teknik statistik yang tepat ketika variabel dependen adalah
kategoris ( nominal atau nonmetric) variabel dan variabel independen adalah metrik
variabel.
 Dalam banyak kasus, variabel dependen terdiri dari dua kelompok atau klasifikasi,
misalnya, laki-laki dibandingkan perempuan atau tinggi dibandingkan rendah. Dalam kasus lain,
lebih dari dua kelompok yang terlibat, seperti rendah, sedang, dan klasifikasi yang tinggi. analisis
diskriminan mampu menangani baik dua kelompok atau beberapa (tiga atau lebih) kelompok.
Ketika dua klasifikasi yang terlibat, teknik ini disebut sebagai dua kelompok analisis diskriminan.
Ketika tiga atau lebih klasifikasi diidentifikasi, teknik ini disebut sebagai beberapa analisis
diskriminan (MDA). Regresi logistik terbatas dalam bentuk dasarnya untuk dua kelompok,
meskipun formulasi lain dapat menangani kelompok lagi.

Analisis diskriminan

analisis diskriminan melibatkan berasal sebuah variate. The variate diskriminan adalah
kombinasi linear dari dua (atau lebih) variabel independen yang akan melakukan diskriminasi
terbaik antara objek (orang, perusahaan, dll) di kelompok didefinisikan a priori. Diskriminasi
dicapai dengan menghitung bobot variate untuk masing-masing variabel independen untuk
memaksimalkan perbedaan antara kelompok (yaitu, antara kelompok varians relatif terhadap
varians dalam kelompok). The variate untuk analisis diskriminan, juga dikenal sebagai fungsi
diskriminan, berasal dari persamaan seperti yang terlihat pada regresi berganda. Ini mengambil
bentuk sebagai berikut:

Zjk =a+W1X1k +W2X2k + Á +WnXnk

dimana

Zjk = discriminant Z score of discriminant function j for object k

a = intercept

Wi = discriminant weight for independent variable i

Xik = independent variable i for object k

Seperti dengan variate dalam regresi atau teknik multivariat lainnya kita melihat skor
diskriminan untuk setiap objek dalam analisis (orang, perusahaan, dll) menjadi penjumlahan dari
nilai yang diperoleh dengan mengalikan masing-masing variabel independen berat diskriminan
nya. Apa yang unik tentang analisis diskriminan adalah bahwa lebih dari satu fungsi diskriminan
dapat hadir, sehingga setiap objek mungkin memiliki lebih dari satu skor diskriminan. Kita akan
membahas apa yang menentukan jumlah fungsi diskriminan kemudian, tetapi di sini kita melihat
bahwa analisis diskriminan memiliki kesamaan dan unsur-unsur yang unik jika dibandingkan
dengan teknik multivariat lainnya.

Analisis diskriminan adalah teknik statistik yang sesuai untuk menguji hipotesis bahwa
kelompok berarti dari satu set variabel independen untuk dua atau lebih kelompok adalah sama.
Dengan rata-rata skor diskriminan untuk semua individu dalam kelompok tertentu, kita sampai
pada rata-rata kelompok. berarti kelompok ini disebut sebagai centroid. Ketika analisis melibatkan
dua kelompok, ada dua centroid; dengan tiga kelompok, ada tiga centroid; Dan seterusnya.
Centroids menunjukkan paling Lokasi khas dari setiap anggota dari kelompok tertentu, dan
perbandingan centroid kelompok menunjukkan seberapa jauh kelompok-kelompok yang dalam
hal fungsi diskriminan.

Tes untuk signifikansi statistik dari fungsi diskriminan adalah ukuran umum dari jarak
antara centroid kelompok. Hal ini dihitung dengan membandingkan distribusi skor diskriminan
untuk kelompok. Jika tumpang tindih dalam distribusi kecil, fungsi diskriminan memisahkan
kelompok dengan baik. Jika tumpang tindih yang besar, fungsi ini diskriminator miskin antara
kelompok. Dua distribusi skor diskriminan yang ditunjukkan pada Gambar 1 lebih lanjut
menggambarkan konsep ini. Diagram atas mewakili distribusi skor diskriminan untuk fungsi yang
memisahkan kelompok dengan baik, menunjukkan tumpang tindih minimal (daerah yang diarsir)
antara kelompok. Diagram yang lebih rendah menunjukkan distribusi skor diskriminan pada fungsi
diskriminan yang merupakan discriminator relatif miskin antara kelompok A dan B.
Analisis diskriminan beberapa unik di salah satu ciri khas antara hubungan ketergantungan.
Jika variabel dependen terdiri dari lebih dari dua kelompok, analisis diskriminan akan menghitung
lebih dari satu fungsi diskriminan. Sebagai soal fakta, itu akan menghitung NG - 1 fungsi, di
mana
 NG adalah jumlah kelompok. Setiap fungsi diskriminan akan menghitung diskriminan
terpisah
 Z skor. Dalam kasus variabel dependen tiga kelompok, masing-masing objek
(responden, perusahaan, dll) akan memiliki skor yang terpisah untuk fungsi diskriminan satu dan
dua, yang memungkinkan objek yang akan diplot dalam dua dimensi, dengan masing-masing
dimensi yang mewakili diskriminan sebuah fungsi. Dengan demikian, analisis diskriminan tidak
terbatas pada variate tunggal, seperti regresi berganda, tapi menciptakan beberapa variates
mewakili dimensi diskriminasi antara kelompok-kelompok.

ANALOGI DENGAN REGRESI DAN MANOVA

Aplikasi dan interpretasi dari analisis diskriminan adalah sama seperti dalam analisis
regresi. Artinya, fungsi diskriminan adalah kombinasi linear (variate) dari metrik pengukuran
untuk dua atau lebih variabel independen dan digunakan untuk menggambarkan atau memprediksi
variabel dependen tunggal. Perbedaan utama adalah bahwa analisis diskriminan sesuai untuk
masalah penelitian dimana variabel dependen adalah kategorikal (nominal atau nonmetric),
sedangkan regresi digunakan ketika variabel dependen adalah metrik. Seperti dibahas sebelumnya,
regresi logistik adalah varian dari regresi dengan banyak kesamaan kecuali untuk jenis variabel
dependen.

Analisis diskriminan juga sebanding dengan “membalikkan” analisis multivariat varians


(MANOVA). Dalam analisis diskriminan, variabel dependen tunggal kategoris, dan variabel
independen adalah metrik. sebaliknya adalah benar dari MANOVA, yang melibatkan variabel
dependen metrik dan variabel independen kategorikal (s). Dua teknik kedua menggunakan ukuran
statistik yang sama dari keseluruhan model fit seperti yang akan terlihat nanti dalam bab ini.

CONTOH hipotetis ANALISIS DISKRIMINAN

Analisis diskriminan berlaku untuk setiap pertanyaan penelitian dengan tujuan


keanggotaan pemahaman kelompok, apakah kelompok terdiri dari individu (misalnya, pelanggan
dibandingkan nonkonsumen), perusahaan (misalnya, menguntungkan dibandingkan
menguntungkan), produk (misalnya, sukses dibandingkan tidak berhasil), atau lainnya objek yang
dapat dievaluasi pada serangkaian variabel independen. Untuk menggambarkan tempat dasar
analisis diskriminan, kita memeriksa dua pengaturan penelitian, yang melibatkan dua kelompok
(pembeli vs nonpurchasers) dan tiga kelompok lainnya (tingkat perilaku switching).

Sebuah Analisis diskriminan Dua Kelompok: Pembeli Versus Nonpurchasers

Misalkan KitchenAid ingin menentukan apakah salah satu dari baru produk-makanan baru
dan ditingkatkan mixer-akan sukses secara komersial. Dalam melaksanakan penyelidikan,
KitchenAid terutama tertarik dalam mengidentifikasi (jika mungkin) konsumen yang akan
membeli produk baru dibandingkan dengan mereka yang tidak. Dalam terminologi statistik,
KitchenAid ingin meminimalkan jumlah kesalahan itu akan membuat dalam memprediksi
konsumen akan membeli mixer makanan baru dan mana yang tidak. Untuk membantu dalam
mengidentifikasi potensi pembeli, KitchenAid dirancang skala penilaian pada tiga karakteristik-
daya tahan, kinerja, dan gaya-yang akan digunakan oleh konsumen dalam mengevaluasi produk
baru. Daripada mengandalkan pada setiap skala sebagai ukuran terpisah, KitchenAid berharap
bahwa kombinasi tertimbang dari ketiga akan lebih baik memprediksi kemungkinan pembelian
konsumen.

Tujuan utama dari analisis diskriminan adalah untuk mengembangkan kombinasi


tertimbang dari tiga skala untuk memprediksi kemungkinan bahwa konsumen akan membeli
produk. Selain menentukan apakah konsumen yang cenderung untuk membeli produk baru dapat
dibedakan dari mereka yang tidak, KitchenAid juga ingin tahu mana karakteristik produk barunya
berguna dalam membedakan pembeli mungkin dari nonpurchasers. Artinya, evaluasi yang dari
tiga karakteristik dari produk baru terbaik pembeli terpisah dari nonpurchasers?

Sebagai contoh, jika respon “akan membeli” selalu dikaitkan dengan rating daya tahan
tinggi dan respon “tidak akan membeli” selalu dikaitkan dengan rating daya tahan rendah,
KitchenAid bisa menyimpulkan bahwa karakteristik daya tahan membedakan pembeli dari
nonpurchasers. Sebaliknya, jika KitchenAid menemukan bahwa sekitar banyak orang dengan
rating tinggi pada gaya mengatakan mereka akan membeli mixer makanan sebagai orang-orang
yang mengatakan mereka tidak akan, maka gaya adalah karakteristik yang membedakan buruk
antara pembeli dan nonpurchasers.

MENGIDENTIFIKASI VARIABEL DISKRIMINATIF Untuk mengidentifikasi variabel yang


mungkin berguna dalam membedakan antara kelompok (yaitu, pembeli dibandingkan
nonpurchasers), penekanan ditempatkan pada perbedaan kelompok daripada ukuran korelasi yang
digunakan dalam regresi berganda.

Tabel 1 berisi daftar peringkat dari mixer baru pada tiga karakteristik ini (pada harga
tertentu) oleh panel 10 calon pembeli. Dalam rating mixer makanan, masing-masing anggota panel
secara implisit membandingkannya dengan produk yang sudah ada di pasaran. Setelah produk
tersebut dievaluasi, evaluator diminta untuk menyatakan niat mereka membeli ( “akan membeli”
atau “tidak akan membeli”). Lima menyatakan bahwa mereka akan membeli mixer baru dan lima
mengatakan mereka tidak akan.
Memeriksa Tabel 1 mengidentifikasi beberapa variabel diskriminatif potensial. Pertama,
perbedaan substansial memisahkan peringkat rata-rata X 1 ( daya tahan) untuk kelompok “akan
membeli” dan “tidak akan membeli” (7,4 vs 3,2). Dengan demikian, daya tahan muncul untuk
membedakan dengan baik antara kedua kelompok dan cenderung menjadi karakteristik penting
untuk calon pembeli. Sebaliknya, karakteristik gaya ( X 3) memiliki perbedaan yang jauh lebih
kecil dari 0,2 antara peringkat rata-rata (4.0 - 3.8 = 0,2) untuk kelompok “akan membeli” dan
“tidak akan membeli”. Oleh karena itu, kita akan mengharapkan karakteristik ini menjadi kurang
diskriminatif dalam hal keputusan pembelian. Namun, sebelum kita dapat membuat pernyataan
seperti itu meyakinkan, kita harus memeriksa distribusi skor untuk setiap kelompok. standar
deviasi besar dalam satu atau kedua kelompok mungkin membuat
 perbedaan antara berarti tidak
signifikan dan tidak penting dalam membedakan antara kelompok.

Karena kita hanya memiliki 10 responden dalam dua kelompok dan tiga variabel
independen, kami juga dapat melihat data grafis untuk menentukan apa analisis diskriminan
mencoba mencapai. Gambar 2 menunjukkan 10 responden pada masing-masing tiga variabel. The
“akan membeli” kelompok diwakili oleh lingkaran dan “tidak akan membeli” kelompok oleh
kotak. nomor identifikasi responden berada di dalam bentuk.

• X 1 ( Daya tahan) memiliki perbedaan yang substansial dalam nilai rata-rata,


memungkinkan kita untuk hampir sempurna membedakan antara kelompok yang
menggunakan hanya variabel ini. Jika kita mendirikan nilai 5,5 sebagai titik cutoff kami
untuk membedakan antara dua kelompok, maka kita akan misclassify hanya responden 5,
salah satu “akan membeli” anggota kelompok. Variabel ini menggambarkan kekuatan
diskriminatif dalam memiliki perbedaan besar dalam cara untuk dua kelompok dan
kurangnya tumpang tindih antara distribusi dari dua kelompok. 

• X 2 ( Kinerja) menyediakan kurang jelas perbedaan antara dua kelompok. Namun, variabel
ini tidak memberikan diskriminasi tinggi untuk responden 5, yang kesalahan klasifikasi
jika kita 
 digunakan hanya X 1. Selain itu, responden yang akan kesalahan klasifikasi
menggunakan X 2 baik dipisahkan pada X 1. Demikian, X 1 dan X 2 mungkin digunakan
cukup efektif dalam kombinasi untuk memprediksi keanggotaan kelompok.
• X 3 ( Gaya) menunjukkan sedikit perbedaan antara kelompok. Dengan demikian, dengan
membentuk variate hanya X 1 dan X 2, dan menghilangkan X 3, fungsi diskriminan dapat
dibentuk yang memaksimalkan pemisahan kelompok pada skor diskriminan.
MENGHITUNG FUNGSI DISKRIMINAN Dengan tiga variabel diskriminatif potensial
diidentifikasi, perhatian bergeser menuju penyelidikan kemungkinan menggunakan variabel
diskriminatif dalam kombinasi untuk memperbaiki kekuatan membedakan dari setiap variabel
individu. Untuk tujuan ini, variate dapat dibentuk dengan dua atau lebih diskriminatif variabel
untuk bertindak bersama-sama dalam membedakan antara kelompok.

Tabel 2 berisi hasil untuk tiga formulasi yang berbeda dari fungsi diskriminan, masing-
masing mewakili kombinasi yang berbeda dari tiga variabel independen.

• Fungsi diskriminan pertama berisi hanya X 1, menyamakan nilai X 1 untuk diskriminan
 Z


skor (juga menyiratkan berat 1.0 untuk X 1 dan bobot dari nol untuk semua variabel lain).
Seperti yang ditunjukkan sebelumnya, penggunaan hanya X 1, diskriminator terbaik, hasil
dalam kesalahan klasifikasi subjek 5 seperti yang ditunjukkan pada Tabel 2, di mana empat
dari lima mata pelajaran pada kelompok 1 (semua tapi subjek 5) dan lima dari lima mata
pelajaran di kelompok 2 diklasifikasikan dengan benar (yaitu, berbaring di diagonal dari
matriks klasifikasi). Persentase diklasifikasikan dengan benar demikian 90 persen (9 dari
10 mata pelajaran).
• Karena X 2 menyediakan diskriminasi untuk subjek 5, kita dapat membentuk fungsi
diskriminan kedua dengan sama menggabungkan X 1 dan X 2 ( yaitu, menyiratkan bobot
1.0 untuk X 1 dan X 2 dan berat 0,0 untuk X 3) untuk memanfaatkan kekuatan unik masing-
masing variabel diskriminatif. Menggunakan skor pemotongan 11 dengan fungsi
diskriminan baru ini (lihat Tabel 2) mencapai klasifikasi sempurna dari dua kelompok
(100% benar diklasifikasikan). Demikian, X 1 dan X 2 dalam kombinasi mampu membuat
prediksi yang lebih baik dari keanggotaan kelompok daripada baik variabel secara terpisah.
• Fungsi diskriminan ketiga pada Tabel 2 menunjukkan taksiran fungsi diskriminan yang
sebenarnya ( Z = -4,53 + 0,476 X 1 + . 359 X 2). Berdasarkan skor pemotongan 0, fungsi
ketiga ini juga mencapai tingkat klasifikasi yang benar 100 persen dengan pemisahan
maksimal antara kelompok-kelompok.

Seperti yang terlihat dalam contoh sederhana ini, analisis diskriminan mengidentifikasi
variabel dengan perbedaan terbesar antara kelompok dan berasal koefisien diskriminan yang bobot
masing-masing variabel untuk mencerminkan perbedaan-perbedaan ini. Hasilnya adalah fungsi
diskriminan yang mendiskriminasikan terbaik antara kelompok didasarkan pada kombinasi dari
variabel independen.

Sebuah Representasi geometris Fungsi Dua Kelompok diskriminan

Sebuah ilustrasi grafis dari analisis dua kelompok lain akan membantu untuk lebih menjelaskan
sifat dari analisis diskriminan [6]. Gambar 3 menunjukkan apa yang terjadi ketika fungsi
diskriminan dua kelompok dihitung. Asumsikan kita memiliki dua kelompok, A dan B, dan dua
pengukuran, V 1 dan V 2,
 pada masing-masing anggota dari dua kelompok. Kita bisa plot dalam
diagram pencar dari asosiasi variabel V 1 dengan variabel V 2 untuk masing-masing anggota dari
dua kelompok. Pada Gambar 3 titik-titik kecil mewakili pengukuran variabel untuk anggota
kelompok B dan titik-titik besar orang untuk kelompok A. elips diambil sekitar titik-titik besar dan
kecil akan lampirkan beberapa proporsi prespecified poin, biasanya 95 persen atau lebih di setiap
kelompok. Jika kita menarik garis lurus melalui dua titik di mana elips berpotongan dan kemudian
memproyeksikan garis ke yang baru Z sumbu, kita dapat mengatakan bahwa tumpang tindih antara
distribusi univariat A dan B (diwakili oleh daerah yang diarsir) lebih kecil dari yang diperoleh oleh
jalur lain yang ditarik melalui elips yang dibentuk oleh [6] scatterplots.
Hal yang penting untuk dicatat tentang Gambar 3 adalah bahwa Z sumbu mengungkapkan
profil dua variabel kelompok A dan B sebagai nomor tunggal (skor diskriminan). Dengan
menemukan kombinasi linear dari variabel asli V 1 dan V 2, kita dapat memproyeksikan hasil
sebagai fungsi diskriminan. Sebagai contoh, jika titik-titik besar dan kecil diproyeksikan ke baru
Z sumbu sebagai diskriminan Z skor, hasilnya mengembun informasi tentang perbedaan kelompok
(ditampilkan dalam V 1 V 2 Plot) menjadi satu set poin ( Z skor) pada sumbu tunggal, yang
ditunjukkan oleh distribusi A dan B .

Untuk meringkas, untuk masalah analisis diskriminan diberikan, kombinasi linear dari
variabel independen berasal, menghasilkan serangkaian skor diskriminan untuk setiap objek dalam
setiap kelompok. Skor diskriminan dihitung sesuai dengan aturan statistik memaksimalkan varians
antara kelompok dan meminimalkan varians dalam diri mereka. Jika varians antara kelompok
besar relatif terhadap varians dalam kelompok, kita mengatakan bahwa fungsi diskriminan
memisahkan kelompok dengan baik.

Sebuah Tiga Kelompok Contoh Analisis Diskriminan: Switching Intentions

Dua kelompok Contohnya saja diperiksa menunjukkan alasan dan manfaat dari
menggabungkan variabel independen dalam variate untuk tujuan membedakan antara kelompok.
analisis diskriminan juga memiliki cara lain diskriminasi-estimasi dan penggunaan beberapa
variates-dalam kasus tiga atau lebih kelompok. Fungsi-fungsi diskriminan sekarang menjadi
dimensi diskriminasi, setiap dimensi terpisah dan berbeda dari yang lain. Dengan demikian, selain
meningkatkan penjelasan dari keanggotaan kelompok, fungsi-fungsi diskriminan tambahan
menambah wawasan ke dalam berbagai kombinasi variabel independen yang membedakan antara
kelompok-kelompok.

Sebagai ilustrasi dari aplikasi tiga kelompok analisis diskriminan, kita meneliti penelitian
yang dilakukan oleh HBAT mengenai kemungkinan pelanggan pesaing beralih pemasok. Sebuah
pretest skala kecil melibatkan wawancara dari 15 pelanggan dari pesaing utama. Dalam perjalanan
dari wawancara, pelanggan diminta probabilitas mereka beralih pemasok pada skala tiga kategori.
Tiga kemungkinan tanggapan yang “pasti beralih,” “ragu-ragu,” dan “pasti tidak beralih.”
Pelanggan ditugaskan untuk kelompok 1, 2, atau 3, masing-masing, sesuai dengan tanggapan
mereka. Para pelanggan juga dinilai pesaing pada dua karakteristik: daya saing harga ( X 1) dan
tingkat layanan ( X 2). Masalah penelitian sekarang untuk menentukan apakah peringkat
pelanggan dari pesaing dapat memprediksi probabilitas mereka beralih pemasok. Karena variabel
dependen pemasok beralih diukur sebagai variabel kategoris (nonmetric) dan peringkat dari harga
dan layanan yang metrik, analisis diskriminan adalah tepat.

MENGIDENTIFIKASI VARIABEL DISKRIMINATIF Dengan tiga kategori dari variabel


dependen, analisis diskriminan dapat memperkirakan dua fungsi diskriminan, masing-masing
mewakili dimensi yang berbeda dari diskriminasi.

Tabel 3 berisi hasil survei untuk 15 pelanggan, 5 di setiap kategori variabel dependen.
Seperti yang kita lakukan pada contoh dua kelompok, kita dapat melihat nilai rata-rata untuk setiap
kelompok untuk melihat apakah salah satu variabel mendiskriminasikan baik di antara semua
kelompok. Untuk X 1, daya saing harga, kita melihat perbedaan berarti agak besar antara kelompok
1 dan kelompok 2 atau 3 (2,0 vs 4,6 atau 3,8).
 X 1 mungkin membedakan dengan baik antara
kelompok 1 dan kelompok 2 atau 3, tetapi jauh kurang efektif dalam membedakan antara
kelompok 2 dan 3. Untuk X 2, tingkat layanan, kita melihat bahwa perbedaan antara kelompok 1
dan 2 sangat kecil (2,0 vs 2,2), sedangkan perbedaan besar antara kelompok 3 dan kelompok 1
atau 2 (6.2 vs 2.0 atau 2.2). Demikian, X 1 membedakan kelompok 1 dari kelompok 2 dan 3, dan
X 2 membedakan kelompok 3 dari kelompok 1 dan 2. Sebagai hasilnya, kami melihat bahwa X 1
dan X 2 memberikan yang berbeda ukuran diskriminasi antara kelompok.

MENGHITUNG DUA FUNGSI DISKRIMINAN Dengan variabel diskriminatif potensial


diidentifikasi, langkah berikutnya adalah untuk menggabungkan mereka ke dalam fungsi
diskriminan yang akan memanfaatkan kekuatan diskriminatif gabungan mereka untuk
membedakan antara kelompok.

Untuk menggambarkan dimensi ini secara grafis, Gambar 4 menggambarkan tiga


kelompok pada masing-masing variabel independen secara terpisah. Melihat anggota kelompok
pada setiap variabel satu, kita dapat melihat bahwa tidak ada variabel diskriminasi baik di antara
semua kelompok. Namun, jika kita membangun dua fungsi diskriminan sederhana, hanya
menggunakan bobot sederhana dari 0,0 atau 1,0, hasil menjadi jauh lebih jelas. fungsi diskriminan
1 memberikan X 1 berat 1,0, dan X 2 berat 0,0. Demikian juga, diskriminan fungsi 2 memberikan
X 2 berat 1,0, dan X 1 berat 0,0. Fungsi dapat dinyatakan secara matematis sebagai

fungsi diskriminan 1 = 1.0 ( X 1) + 0.0 ( X 2)

Diskriminan fungsi 2 = 0.0 ( X 1) + 1.0 ( X 2)

persamaan ini menunjukkan secara sederhana bagaimana prosedur analisis diskriminan


memperkirakan bobot untuk memaksimalkan diskriminasi.
Dengan dua fungsi, kita sekarang dapat menghitung dua nilai diskriminan untuk setiap
responden. Selain itu, dua fungsi diskriminan memberikan dimensi diskriminasi.

Gambar 4 juga berisi plot masing-masing responden dalam representasi dua dimensi.
Pemisahan antara kelompok sekarang menjadi cukup jelas, dan masing-masing kelompok dapat
dengan mudah dibedakan. Kita dapat membangun nilai-nilai pada setiap dimensi yang akan
menentukan daerah yang berisi masing-masing kelompok (misalnya, semua anggota kelompok 1
adalah di wilayah tersebut kurang dari 3,5 pada dimensi 1 dan kurang dari 4,5 pada dimensi 2).
Masing-masing dari kelompok lain dapat didefinisikan sama dalam hal rentang skor fungsi
diskriminan mereka.

Dari segi dimensi diskriminasi, fungsi diskriminan pertama, daya saing harga,
membedakan antara pelanggan ragu-ragu (ditunjukkan dengan persegi) dan para pelanggan yang
telah memutuskan untuk beralih (lingkaran). Tapi daya saing harga tidak membedakan orang-
orang yang telah memutuskan untuk tidak beralih (berlian). Sebaliknya, persepsi tingkat layanan,
mendefinisikan fungsi diskriminan kedua, memprediksi apakah pelanggan akan memutuskan
untuk tidak beralih dibandingkan apakah pelanggan ragu-ragu atau bertekad untuk beralih
pemasok. peneliti dapat hadir untuk manajemen dampak yang terpisah dari kedua daya saing harga
dan tingkat layanan dalam membuat keputusan ini.

Estimasi lebih dari satu fungsi diskriminan, bila mungkin, menyediakan peneliti dengan
kedua ditingkatkan diskriminasi dan perspektif tambahan pada fitur dan kombinasi yang terbaik
membedakan antara kelompok-kelompok. Bagian berikut detail langkah-langkah yang diperlukan
untuk melakukan analisis diskriminan, menilai tingkat dari prediksi fit, dan kemudian menafsirkan
pengaruh variabel independen dalam membuat prediksi itu.
KEPUTUSAN PROSES UNTUK ANALISIS DISKRIMINAN

Penerapan analisis diskriminan dapat dilihat dari enam tahap perspektif model bangunan
digambarkan pada Gambar 5 (tahap 1-3) dan Gambar 6 (tahap 4-6). Seperti dengan semua aplikasi
multivariat, menetapkan tujuan adalah langkah pertama dalam analisis. Maka peneliti harus
mengatasi masalah desain yang spesifik dan pastikan asumsi yang mendasari terpenuhi. Hasil
analisis dengan derivasi dari fungsi diskriminan dan penentuan apakah fungsi signifikan secara
statistik dapat diturunkan untuk memisahkan dua (atau lebih) kelompok. Hasil diskriminan
kemudian dinilai untuk akurasi prediksi dengan mengembangkan matriks klasifikasi. Berikutnya,
interpretasi dari fungsi diskriminan menentukan variabel independen memberikan kontribusi
paling untuk membedakan antara kelompok. Akhirnya, fungsi diskriminan harus divalidasi dengan
sampel ketidaksepakatan. Masing-masing tahap ini dibahas dalam bagian berikut.

TAHAP 1: TUJUAN ANALISIS DISKRIMINAN

Sebuah tinjauan dari tujuan untuk menerapkan analisis diskriminan harus lebih memperjelas
sifatnya. analisis diskriminan dapat mengatasi salah satu tujuan penelitian sebagai berikut:

1. Menentukan apakah perbedaan yang signifikan secara statistik ada antara skor rata-rata
profil di satu set variabel untuk dua (atau lebih) a priori kelompok didefinisikan
2. Menentukan variabel independen yang paling account untuk perbedaan dalam profil skor
rata-rata dari dua atau lebih kelompok
3. Menetapkan jumlah dan komposisi dimensi diskriminasi antara kelompok dibentuk dari
set variabel independen
4. Menetapkan prosedur untuk mengklasifikasikan obyek (individu, perusahaan, produk, dll)
ke dalam kelompok atas dasar nilai mereka pada satu set variabel independen
Seperti tercantum dalam tujuan-tujuan ini, analisis diskriminan berguna ketika peneliti tertarik
baik dalam memahami perbedaan kelompok atau benar mengklasifikasikan objek ke dalam
kelompok atau kelas. analisis diskriminan, oleh karena itu, dapat dianggap baik jenis analisis profil
atau teknik prediksi analitis. Dalam kedua kasus, teknik yang paling tepat dalam situasi dengan
variabel dependen kategori tunggal dan beberapa variabel independen secara metrik skala.

• Sebagai analisis profil, analisis diskriminan memberikan penilaian obyektif dari perbedaan
antara kelompok pada seperangkat variabel independen. Dalam situasi ini, analisis
diskriminan sangat mirip dengan analisis multivariat varians. Untuk memahami perbedaan
kelompok, analisis diskriminan meminjamkan wawasan peran variabel individu serta
mendefinisikan kombinasi dari variabel-variabel ini yang mewakili dimensi diskriminasi
antara kelompok-kelompok. Dimensi ini adalah efek kolektif dari beberapa variabel yang
bekerja bersama-sama untuk membedakan antara kelompok. Penggunaan metode estimasi
sekuensial juga memungkinkan untuk mengidentifikasi subset variabel dengan kekuatan
diskriminatif terbesar.
• Untuk tujuan klasifikasi, analisis diskriminan memberikan dasar untuk mengklasifikasikan
tidak hanya sampel yang digunakan untuk memperkirakan fungsi diskriminan tetapi juga
setiap pengamatan lain yang dapat memiliki nilai-nilai untuk semua variabel independen.
Dengan cara ini, analisis diskriminan dapat digunakan untuk mengklasifikasikan
pengamatan lainnya ke dalam kelompok didefinisikan.

TAHAP 2: PENELITIAN DESAIN UNTUK ANALISIS DISKRIMINAN

Keberhasilan penerapan analisis diskriminan memerlukan pertimbangan dari beberapa masalah.


Isu-isu ini meliputi pemilihan kedua variabel dependen dan independen, ukuran sampel yang
dibutuhkan untuk estimasi fungsi diskriminan, dan pembagian sampel untuk keperluan validasi.

Memilih Variabel Dependent dan Independen

Untuk menerapkan analisis diskriminan, peneliti harus terlebih dahulu menentukan variabel yang
menjadi tindakan independen dan variabel mana adalah menjadi ukuran tergantung. Ingat bahwa
variabel dependen adalah nonmetric dan variabel independen adalah metrik.

Variabel dependen Peneliti harus fokus pada variabel dependen pertama. Jumlah
kelompok variabel dependen (kategori) bisa dua atau lebih, tetapi kelompok-kelompok ini harus
saling eksklusif dan lengkap. Dengan kata lain, setiap pengamatan dapat ditempatkan ke dalam
hanya satu kelompok. Dalam beberapa kasus, variabel dependen mungkin melibatkan dua
kelompok (dikotomis), seperti baik versus buruk. Dalam kasus lain, variabel dependen mungkin
melibatkan beberapa kelompok (multichotomous), seperti pekerjaan dokter, pengacara, atau
profesor.

Berapa Banyak Kategori di Variable Dependent? Secara teoritis, analisis diskriminan


dapat menangani jumlah yang tidak terbatas kategori dalam variabel dependen. Sebagai masalah
praktis, bagaimanapun, peneliti harus memilih variabel dependen dan jumlah kategori berdasarkan
beberapa pertimbangan:

1. Selain menjadi saling eksklusif dan lengkap, kategori variabel dependen
 harus berbeda
dan unik pada set variabel independen yang dipilih. Analisis diskriminan mengasumsikan
bahwa masing-masing kelompok harus memiliki profil yang unik pada variabel
independen yang digunakan dan dengan demikian mengembangkan fungsi diskriminan
untuk maksimal memisahkan kelompok berdasarkan ini variabel. analisis diskriminan
tidak, bagaimanapun, memiliki sarana menampung atau menggabungkan kategori yang
tidak berbeda pada variabel independen. Jika dua atau lebih kelompok memiliki profil
cukup mirip, analisis diskriminan tidak akan dapat unik profil masing-masing kelompok,
sehingga penjelasan lebih miskin dan klasifikasi kelompok secara keseluruhan. Dengan
demikian, peneliti harus memilih variabel dependen dan kategori untuk mencerminkan
perbedaan dalam variabel independen. Sebuah contoh akan membantu menggambarkan
masalah ini.
Asumsikan peneliti ingin mengidentifikasi perbedaan antara kategori pekerjaan
berdasarkan pada sejumlah karakteristik demografis (misalnya, karakteristik pendapatan,
pendidikan, rumah tangga). Jika pekerjaan yang diwakili oleh sejumlah kecil kategori
(misalnya, kerah biru, kerah putih, ulama / staf, dan profesional / atas manajemen), maka
kita akan mengharapkan perbedaan yang unik antara kelompok dan analisis diskriminan
yang terbaik dapat mengembangkan fungsi diskriminan yang akan menjelaskan
perbedaan kelompok dan berhasil mengklasifikasikan individu ke dalam kategori yang
benar mereka.

Namun, jika jumlah kategori pekerjaan diperluas, analisis diskriminan mungkin


memiliki waktu sulit mengidentifikasi perbedaan. Sebagai contoh, asumsikan kategori
manajemen yang profesional / atas diperluas untuk kategori dokter, pengacara,
manajemen atas, dosen, dan sebagainya. Meskipun ekspansi ini memberikan klasifikasi
pekerjaan yang lebih halus, akan jauh lebih sulit untuk membedakan antara masing-
masing kategori pada variabel demografis. Hasilnya akan kinerja yang lebih miskin
dengan analisis diskriminan baik penjelasan dan klasifikasi.

2. Peneliti juga harus berusaha, semua hal lain sama, untuk yang lebih kecil daripada yang
lebih besar
 jumlah kategori dalam ukuran tergantung. Ini mungkin tampak lebih logis
untuk memperluas jumlah kategori mencari kelompok yang lebih unik, tetapi memperluas
jumlah kategori menyajikan lebih kompleksitas dalam profil dan klasifikasi tugas analisis
diskriminan. Jika analisis diskriminan dapat memperkirakan hingga NG - 1 (jumlah
kelompok minus satu) fungsi diskriminan, maka peningkatan jumlah kelompok
memperluas jumlah kemungkinan fungsi diskriminan, meningkatkan kompleksitas dalam
mengidentifikasi dimensi yang mendasari diskriminasi tercermin oleh masing-masing
fungsi diskriminan serta mewakili efek keseluruhan dari masing-masing variabel bebas.

Sebagai dua masalah ini menyarankan, peneliti harus selalu menyeimbangkan keinginan untuk
memperluas kategori untuk meningkatkan keunikan versus peningkatan efektivitas dalam
sejumlah kecil kategori. peneliti harus mencoba dan memilih variabel dependen dengan kategori
yang memiliki perbedaan maksimum antara semua kelompok tetap menjaga baik dukungan
konseptual dan relevansi manajerial.

Konversi Variabel Metric. Contoh sebelumnya dari variabel kategori yang dikotomi
benar (atau multichotomies). Dalam beberapa situasi, bagaimanapun, analisis diskriminan sesuai
bahkan jika variabel dependen bukan nonmetric (kategoris) variabel yang benar. Kita mungkin
memiliki variabel dependen yang merupakan ordinal atau pengukuran selang yang ingin kita
gunakan sebagai variabel dependen kategoris. Dalam kasus tersebut, kita harus membuat variabel
kategoris, dan dua pendekatan yang paling umum digunakan:

• Pendekatan yang paling umum adalah untuk menetapkan kategori menggunakan skala
metrik. Sebagai contoh, jika kita memiliki variabel yang diukur rata-rata jumlah minuman
cola yang dikonsumsi per hari, dan individu merespon pada skala dari nol sampai delapan
atau lebih per hari, kita bisa membuat trikotomi buatan (tiga kelompok) dengan hanya
menunjuk orang-orang individu yang mengkonsumsi tidak ada, satu, atau dua minuman
cola per hari sebagai pengguna ringan, mereka yang mengonsumsi tiga, empat, atau lima
per hari sebagai pengguna media, dan mereka yang mengkonsumsi enam, tujuh, delapan,
atau lebih sebagai pengguna berat. Prosedur tersebut akan membuat tiga kelompok
kategoris variabel di mana tujuannya adalah untuk membedakan antara ringan, menengah,
dan pengguna berat cola. Sejumlah kelompok kategorial dapat dikembangkan. Paling
sering, pendekatan akan melibatkan menciptakan dua, tiga, atau empat kategori.
• Ketika tiga atau lebih kategori yang dibuat, kemungkinan timbul dari memeriksa hanya
kelompok ekstrim dalam analisis diskriminan dua kelompok. Itu ekstrem kutub pendekatan
melibatkan membandingkan hanya ekstrim dua kelompok dan tidak termasuk kelompok
menengah dari analisis diskriminan. Misalnya, peneliti bisa memeriksa ringan dan
pengguna berat minuman cola dan belum termasuk pengguna menengah. Pendekatan ini
dapat digunakan setiap saat peneliti ingin meneliti hanya kelompok ekstrim. Namun,
peneliti juga mungkin ingin mencoba pendekatan ini ketika hasil dari analisis regresi yang
tidak sebagus diantisipasi. prosedur tersebut dapat membantu karena ada kemungkinan
bahwa perbedaan kelompok mungkin muncul meskipun hasil regresi miskin. Artinya,
ekstrem kutub pendekatan dengan analisis diskriminan dapat mengungkapkan perbedaan
yang tidak menonjol dalam analisis regresi dari kumpulan data lengkap [6]. manipulasi
seperti data secara alami akan memerlukan hati-hati dalam menafsirkan temuan seseorang.

Variabel independen Setelah keputusan telah dibuat pada variabel dependen, peneliti harus
menentukan variabel independen untuk memasukkan dalam analisis. variabel independen biasanya
dipilih dalam dua cara. Pendekatan pertama melibatkan mengidentifikasi variabel baik dari
penelitian sebelumnya atau dari model teoritis yang merupakan dasar yang mendasari pertanyaan
penelitian. Pendekatan kedua adalah intuisi-memanfaatkan pengetahuan peneliti dan intuitif
memilih variabel yang tidak ada penelitian sebelumnya atau teori ada tapi itu secara logis mungkin
terkait dengan memprediksi kelompok untuk variabel dependen.

Dalam kedua kasus, variabel independen yang paling tepat adalah mereka yang berbeda di
setidaknya dua dari kelompok variabel dependen. Ingat bahwa tujuan dari setiap variabel
independen adalah untuk menyajikan profil unik dari setidaknya satu kelompok dibandingkan
dengan orang lain. Variabel yang tidak berbeda di seluruh kelompok yang jarang digunakan dalam
analisis diskriminan.

Ukuran sampel

Analisis diskriminan, seperti teknik multivariat lainnya, dipengaruhi oleh ukuran sampel yang
dianalisis. Sangat sampel kecil memiliki begitu banyak sampling error bahwa identifikasi dari
semua tapi perbedaan terbesar adalah mustahil. Selain itu, ukuran sampel yang sangat besar akan
membuat semua perbedaan signifikan secara statistik, meskipun perbedaan-perbedaan yang sama
mungkin memiliki sedikit atau tidak ada relevansi manajerial. Dalam antara ekstrem, peneliti harus
mempertimbangkan dampak dari ukuran sampel pada analisis diskriminan, baik di tingkat
keseluruhan dan secara kelompok-by-kelompok.

KESELURUHAN SAMPLE SIZE Pertimbangan pertama melibatkan ukuran sampel


keseluruhan. analisis diskriminan cukup sensitif terhadap rasio ukuran sampel untuk jumlah
variabel prediktor. Akibatnya, banyak studi menunjukkan rasio 20 pengamatan untuk masing-
masing variabel prediktor. Meskipun rasio ini mungkin sulit untuk mempertahankan dalam
praktek, peneliti harus dicatat bahwa hasil menjadi tidak stabil sebagai ukuran sampel menurun
relatif terhadap jumlah variabel independen. Ukuran minimum yang disarankan adalah lima
pengamatan per variabel independen. Perhatikan bahwa rasio ini berlaku untuk semua variabel
dipertimbangkan dalam analisis, bahkan jika semua variabel dianggap tidak masuk ke dalam
fungsi diskriminan (seperti dalam estimasi bertahap).

CONTOH UKURAN PER KATEGORI Selain ukuran sampel keseluruhan, peneliti juga harus
mempertimbangkan ukuran sampel dari masing-masing kategori. Minimal, ukuran kelompok
terkecil dari kategori harus melebihi jumlah variabel independen. Sebagai pedoman praktis, setiap
kategori harus memiliki setidaknya 20 observasi. Bahkan ketika semua kategori melebihi 20
pengamatan, bagaimanapun, peneliti harus juga mempertimbangkan ukuran relatif dari kategori.
variasi luas dalam ukuran kelompok akan berdampak pada estimasi fungsi diskriminan dan
klasifikasi observasi. Pada tahap klasifikasi, kelompok yang lebih besar memiliki kesempatan
proporsional lebih tinggi dari klasifikasi. Jika ukuran kelompok yang sangat bervariasi, peneliti
mungkin ingin secara acak sampel dari kelompok yang lebih besar (s), sehingga mengurangi
ukuran mereka ke tingkat yang sebanding dengan kelompok yang lebih kecil (s). Selalu ingat,
namun, untuk mempertahankan ukuran sampel yang memadai baik secara keseluruhan dan untuk
setiap kelompok.

Divisi Sampel

Satu catatan terakhir tentang dampak ukuran sampel dalam analisis diskriminan. Seperti yang akan
dibahas kemudian dalam tahap 6, sarana disukai memvalidasi analisis diskriminan adalah untuk
membagi sampel menjadi dua subsampel, yang digunakan untuk estimasi fungsi diskriminan dan
lain untuk tujuan validasi. Dalam hal pertimbangan ukuran sampel, adalah penting bahwa setiap
sub-sampel menjadi ukuran yang memadai untuk mendukung kesimpulan dari hasil. Dengan
demikian, semua pertimbangan yang dibahas dalam bagian sebelumnya berlaku tidak hanya untuk
total sampel, tetapi juga untuk masing-masing dua subsampel (terutama subsampel digunakan
untuk estimasi). Tidak ada aturan keras-dan-cepat telah ditetapkan, tetapi tampaknya logis bahwa
peneliti akan ingin setidaknya 100 dalam total sampel untuk membenarkan membaginya ke dalam
dua kelompok.

MENCIPTAKAN SUBSAMPLES Sejumlah prosedur telah diusulkan untuk membagi sampel


ke dalam subsampel. Prosedur yang biasa adalah dengan membagi total sampel responden secara
acak menjadi dua subsamples. Salah satu Subsamples ini, analisis sampel, digunakan untuk
mengembangkan fungsi diskriminan. The kedua, ketidaksepakatan sampel, digunakan untuk
menguji fungsi diskriminan. Metode ini memvalidasi fungsi ini disebut sebagai split-sampel
validasi atau validasi silang [ 1, 4, 8, 14]. Tidak ada pedoman yang pasti telah dibentuk untuk
menentukan ukuran relatif dari analisis dan ketidaksepakatan (atau validasi) subsamples.
Pendekatan yang paling populer adalah untuk membagi total sampel sehingga satu-setengah dari
responden ditempatkan dalam sampel analisis dan setengah lainnya ditempatkan dalam sampel
ketidaksepakatan. Namun, tidak ada aturan keras-dan-cepat telah dibentuk, dan beberapa peneliti
lebih memilih 60-40 atau bahkan 75-25 perpecahan antara analisis dan kelompok
ketidaksepakatan, tergantung pada ukuran sampel keseluruhan.

Ketika memilih analisis dan ketidaksepakatan sampel, satu biasanya mengikuti prosedur
pengambilan sampel secara proporsional stratified. Asumsikan pertama bahwa peneliti yang
diinginkan 50-50 split. Jika kelompok-kelompok kategorial untuk analisis diskriminan sama-sama
diwakili dalam total sampel, maka estimasi dan ketidaksepakatan sampel harus dari ukuran kira-
kira sama. Jika kelompok-kelompok asli tidak sama, ukuran estimasi dan ketidaksepakatan sampel
harus proporsional dengan total distribusi sampel. Misalnya, jika sampel terdiri dari 50 laki-laki
dan 50 perempuan, estimasi dan ketidaksepakatan sampel akan memiliki 25 laki-laki dan 25
perempuan. Jika sampel mengandung 70 perempuan dan 30 laki-laki, maka estimasi dan
ketidaksepakatan sampel akan terdiri dari 35 perempuan dan 15 laki-laki masing-masing.

BAGAIMANA JIKA CONTOH KESELURUHAN TERLALU KECIL? Jika ukuran sampel


terlalu kecil untuk membenarkan pembagian dalam analisis dan ketidaksepakatan kelompok,
peneliti memiliki dua pilihan. Pertama, mengembangkan fungsi pada seluruh sampel dan
kemudian menggunakan fungsi untuk mengklasifikasikan kelompok yang sama yang digunakan
untuk mengembangkan fungsi. Prosedur ini menghasilkan bias ke atas dalam akurasi prediksi
fungsi, tapi pasti lebih baik daripada tidak menguji fungsi sama sekali. Kedua, beberapa teknik
yang dibahas dalam tahap 6 dapat melakukan jenis prosedur ketidaksepakatan di mana fungsi
diskriminan berulang kali diperkirakan pada sampel, setiap kali “memegang” pengamatan yang
berbeda. Dalam pendekatan ini, sampel jauh lebih kecil ukuran dapat digunakan karena sampel
keseluruhan tidak perlu dibagi menjadi subsamples.

TAHAP 3: ASUMSI ANALISIS DISKRIMINAN

Seperti semua teknik multivariat, analisis diskriminan didasarkan pada sejumlah asumsi. Asumsi
ini berhubungan dengan kedua proses statistik yang terlibat dalam estimasi dan klasifikasi
prosedur dan isu-isu yang mempengaruhi interpretasi hasil. Bagian berikut membahas setiap
jenis asumsi dan dampak pada aplikasi yang tepat dari analisis diskriminan.

Dampak terhadap Estimasi dan Klasifikasi

Asumsi utama untuk menurunkan fungsi diskriminan adalah normalitas multivariat variabel
independen dan tidak diketahui (tapi sama) dispersi dan kovarians struktur (matriks) untuk
kelompok seperti yang didefinisikan oleh variabel dependen [7, 9]. Meskipun bukti dicampur
mengenai sensitivitas analisis diskriminan pelanggaran asumsi ini, peneliti harus selalu memahami
dampak pada hasil yang bisa diharapkan. Apalagi jika asumsi dilanggar dan obat potensial yang
tidak dapat diterima atau tidak mengatasi keparahan masalah, peneliti harus mempertimbangkan
metode alternatif (misalnya, regresi logistik).

MENGIDENTIFIKASI PELANGGARAN ASUMSI Mencapai normalitas univariat dari


variabel individu akan banyak kali sudah cukup untuk mencapai normalitas multivariat. Sejumlah
tes normalitas yang tersedia untuk peneliti, bersama dengan solusi yang tepat, mereka yang paling
sering menjadi transformasi dari variabel.
Isu dispersi sama dari variabel independen (yaitu, setara matriks kovarians) mirip dengan
homoscedasticity antara variabel individu. Tes yang paling umum adalah Box M Tes menilai
signifikansi dari perbedaan dalam matriks antara kelompok. Berikut peneliti mencari tidak
bermakna tingkat probabilitas yang akan menunjukkan bahwa tidak ada perbedaan antara matriks
kovarians kelompok. Mengingat sensitivitas uji M Box, bagaimanapun, dengan ukuran matriks
kovarians dan jumlah kelompok dalam analisis, peneliti harus menggunakan tingkat yang sangat
konservatif perbedaan yang signifikan (misalnya, 0,01 bukan 0,05) ketika menilai apakah
perbedaan yang hadir. Desain penelitian peningkatan ukuran sampel atau istilah kelompok atau
jumlah variabel independen, bahkan tingkat lebih konservatif signifikansi dapat dianggap diterima.

DAMPAK TERHADAP ESTIMASI Data tidak memenuhi asumsi normalitas multivariat dapat
menyebabkan masalah dalam estimasi fungsi diskriminan. Remedies dimungkinkan melalui
transformasi data untuk mengurangi kesenjangan antara matriks kovarians. Namun, dalam banyak
kasus obat ini tidak efektif. Dalam situasi ini, model harus benar-benar divalidasi akan. Jika ukuran
tergantung adalah biner, regresi logistik harus digunakan jika mungkin.

DAMPAK KLASIFIKASI Matriks kovarians yang tidak sama juga negatif mempengaruhi proses
klasifikasi. Jika ukuran sampel kecil dan matriks kovarians tidak sama, maka signifikansi statistik
dari proses estimasi terpengaruh. Semakin besar kemungkinan kasus adalah bahwa dari
covariances yang tidak sama antara kelompok ukuran sampel yang memadai, dimana pengamatan
overclassified ke dalam kelompok-kelompok dengan matriks kovarians yang lebih besar. Efek ini
dapat diminimalkan dengan meningkatkan ukuran sampel dan juga dengan menggunakan matriks
kovarians kelompok tertentu untuk tujuan klasifikasi, tetapi pendekatan ini mandat cross-validasi
dari hasil diskriminan. Akhirnya, teknik klasifikasi kuadrat tersedia dalam berbagai program
statistik jika perbedaan besar ada antara matriks kovarians dari kelompok dan obat tidak
meminimalkan efek [5, 10, 12].

Dampak terhadap Interpretasi

Karakteristik lain dari data yang mempengaruhi hasil adalah multikolinieritas di antara variabel
independen. Multikolinearitas, diukur dari segi toleransi, menunjukkan bahwa dua atau lebih
variabel independen sangat berkorelasi, sehingga satu variabel dapat sangat dijelaskan atau
diprediksi oleh variabel lain (s) dan dengan demikian itu menambah sedikit kekuatan penjelas dari
seluruh set. Pertimbangan ini menjadi sangat penting ketika prosedur bertahap bekerja. peneliti,
dalam menafsirkan fungsi diskriminan, harus menyadari tingkat multikolinearitas dan yang
dampak pada menentukan variabel memasuki solusi bertahap.

Seperti halnya teknik multivariat menggunakan variate sebuah, asumsi implisit adalah
bahwa semua hubungan yang linear. hubungan nonlinier tidak tercermin dalam fungsi diskriminan
kecuali transformasi variabel tertentu yang dibuat untuk mewakili efek nonlinear. Akhirnya,
outlier dapat memiliki dampak besar pada keakuratan klasifikasi dari setiap hasil analisis
diskriminan. Peneliti didorong untuk memeriksa semua hasil untuk kehadiran outlier dan untuk
menghilangkan outlier benar jika diperlukan.

TAHAP 4: ESTIMASI MODEL DISKRIMINAN DAN MENILAI FIT KESELURUHAN

Untuk menurunkan fungsi diskriminan, peneliti harus menentukan metode estimasi dan kemudian
menentukan jumlah fungsi yang harus dipertahankan (lihat Gambar 6). Dengan fungsi perkiraan,
secara keseluruhan model fit dapat dinilai dalam beberapa cara. Pertama, diskriminan Z skor, juga
dikenal sebagai Z skor, dapat dihitung untuk setiap objek. Perbandingan kelompok berarti
(centroid) di Z Skor menyediakan satu ukuran diskriminasi antara kelompok-kelompok. akurasi
prediksi dapat diukur sebagai jumlah observasi diklasifikasikan ke dalam kelompok-kelompok
yang benar, dengan sejumlah kriteria yang tersedia untuk menilai apakah proses klasifikasi
mencapai praktis atau signifikansi statistik. Akhirnya, diagnostik casewise dapat mengidentifikasi
ketepatan klasifikasi masing-masing kasus dan dampak relatif terhadap keseluruhan estimasi
model.

Memilih Metode Estimasi

Tugas pertama dalam menurunkan fungsi diskriminan (s) adalah untuk memilih metode estimasi.
Dalam membuat pilihan ini, peneliti harus menyeimbangkan kebutuhan untuk kontrol atas proses
estimasi versus keinginan untuk kekikiran dalam fungsi diskriminan. Dua metode yang tersedia
adalah metode simultan (langsung) dan metode stepwise, masing-masing dibahas berikutnya.
ESTIMASI SIMULTAN estimasi simultan melibatkan komputasi fungsi diskriminan sehingga
semua variabel independen dianggap secara bersamaan. Dengan demikian, fungsi diskriminan
dihitung berdasarkan seluruh himpunan variabel independen, terlepas dari kekuatan diskriminatif
dari masing-masing variabel independen. Metode simultan sesuai ketika, karena alasan teoritis,
peneliti ingin untuk memasukkan semua variabel independen dalam analisis dan tidak tertarik
melihat hasil antara hanya berdasarkan variabel paling diskriminatif.

ESTIMASI STEPWISE Estimasi stepwise adalah sebuah alternatif untuk pendekatan simultan.
Ini melibatkan memasukkan variabel independen ke dalam fungsi diskriminan satu per satu atas
dasar kekuatan diskriminatif mereka. Pendekatan bertahap mengikuti proses berurutan
menambahkan atau menghapus variabel dengan cara sebagai berikut:

1. Pilih variabel diskriminatif tunggal terbaik.


2. Memasangkan variabel awal dengan masing-masing variabel independen lain, satu per
satu, dan pilih variabel yang paling mampu meningkatkan daya diskriminasi fungsi dalam
kombinasi dengan variabel pertama.

3. Pilih variabel tambahan dengan cara seperti. Perhatikan bahwa sebagai variabel tambahan
yang disertakan, beberapa sebelumnya variabel yang dipilih dapat dihapus jika informasi
yang mereka mengandung sekitar perbedaan kelompok tersedia dalam beberapa kombinasi
dari variabel lain termasuk di tahap-tahap selanjutnya.

4. Mempertimbangkan proses selesai ketika baik semua variabel independen termasuk dalam
fungsi atau variabel dikecualikan dihakimi sebagai tidak memberikan kontribusi signifikan
terhadap diskriminasi lebih lanjut.

Metode stepwise berguna ketika peneliti ingin untuk mempertimbangkan jumlah yang
relatif besar variabel independen untuk dimasukkan dalam fungsi. Dengan berurutan memilih
variabel terbaik diskriminatif berikutnya di setiap langkah, variabel yang tidak berguna dalam
membedakan antara kelompok dieliminasi dan satu set mengurangi variabel diidentifikasi. set
berkurang biasanya adalah hampir sama baiknya-dan kadang-kadang lebih baik dari-set lengkap
variabel.

Peneliti harus mencatat bahwa estimasi bertahap menjadi kurang stabil dan
digeneralisasikan sebagai rasio ukuran sampel untuk penurunan variabel independen di bawah
tingkat yang direkomendasikan dari 20 pengamatan per variabel independen. Hal ini sangat
penting dalam hal ini untuk memvalidasi hasil dalam berbagai cara yang mungkin.

Signifikansi statistik

Setelah estimasi fungsi diskriminan (s), peneliti harus menilai tingkat signifikansi untuk kekuatan
diskriminatif kolektif dari fungsi diskriminan (s) serta signifikansi masing-masing fungsi
diskriminan yang terpisah. Mengevaluasi signifikansi keseluruhan menyediakan peneliti dengan
informasi yang diperlukan untuk memutuskan apakah akan melanjutkan ke interpretasi analisis
atau jika respecification diperlukan. Jika model keseluruhan yang signifikan, maka mengevaluasi
fungsi individu mengidentifikasi fungsi (s) yang harus dipertahankan dan diinterpretasikan.
SIGNIFIKANSI KESELURUHAN Dalam menilai signifikansi statistik dari model keseluruhan,
kriteria statistik yang berbeda berlaku untuk simultan terhadap prosedur estimasi bertahap. Dalam
kedua situasi, uji statistik berhubungan dengan kemampuan fungsi diskriminan (s) untuk
memperoleh diskriminan Z skor yang secara signifikan berbeda antara kelompok.

Estimasi Simultan. Ketika pendekatan simultan digunakan, langkah-langkah dari Wilks'


lambda, jejak Hotelling, dan kriteria Pillai semua mengevaluasi signifikansi statistik dari kekuatan
diskriminatif dari fungsi diskriminan (s). karakteristik akar terbesar Roy mengevaluasi hanya
fungsi diskriminan pertama.

Estimasi Stepwise. Jika metode stepwise digunakan untuk memperkirakan fungsi


diskriminan, yang Mahalanobis D 2 dan Rao V langkah-langkah yang paling tepat. Kedua adalah
ukuran umum jarak. The Mahalanobis D 2 Prosedur ini didasarkan pada umum jarak Euclidean
squared yang menyesuaikan untuk varians yang tidak sama. Keuntungan utama dari prosedur ini
adalah bahwa hal itu dihitung dalam ruang asli dari variabel prediktor bukan sebagai versi runtuh
digunakan dalam langkah-langkah lainnya. The Mahalanobis D 2 Prosedur menjadi sangat kritis
karena jumlah variabel prediktor meningkat, karena tidak menghasilkan apapun pengurangan
dimensi. Sebuah kerugian dalam dimensi akan menyebabkan hilangnya informasi karena
mengurangi variabilitas dari variabel independen. Secara umum, Mahalanobis D 2 adalah prosedur
yang lebih disukai ketika peneliti tertarik dalam penggunaan maksimal dari informasi yang
tersedia dalam proses bertahap.

PENTINGNYA FUNGSI DISKRIMINAN INDIVIDU Jika jumlah kelompok tiga atau lebih,
maka peneliti harus memutuskan tidak hanya apakah diskriminasi antara kelompok keseluruhan
signifikan secara statistik tetapi juga apakah masing-masing fungsi diskriminan yang diperkirakan
adalah signifikan secara statistik. Seperti dibahas sebelumnya, analisis diskriminan
memperkirakan fungsi satu kurang diskriminan dari ada kelompok-kelompok. Jika tiga kelompok
dianalisis, maka dua fungsi diskriminan akan diestimasi; untuk empat kelompok, tiga fungsi akan
diperkirakan; dan seterusnya. Program komputer semua memberikan peneliti informasi yang
diperlukan untuk memastikan jumlah fungsi yang dibutuhkan untuk mendapatkan signifikansi
statistik, tanpa termasuk fungsi diskriminan yang tidak meningkatkan daya diskriminatif secara
signifikan.

Kriteria penting konvensional 0,05 atau di luar sering digunakan, namun beberapa peneliti
memperpanjang tingkat signifikansi yang diperlukan (misalnya, 0,10 atau lebih) berdasarkan
trade-off biaya versus nilai informasi. Jika tingkat yang lebih tinggi dari risiko termasuk hasil yang
tidak signifikan (misalnya, tingkat signifikansi> 0,05) dapat diterima, fungsi diskriminan dapat
dipertahankan yang signifikan pada 0,2 atau bahkan tingkat 0,3.

Jika satu atau lebih fungsi dianggap tidak signifikan secara statistik, model diskriminan
harus reestimated dengan sejumlah fungsi untuk diturunkan terbatas pada sejumlah fungsi yang
signifikan. Dengan cara ini, penilaian akurasi prediksi dan interpretasi dari fungsi diskriminan
akan didasarkan hanya pada fungsi signifikan.
Menilai keseluruhan Model Fit

Setelah fungsi diskriminan signifikan telah diidentifikasi, perhatian bergeser ke memastikan fit
keseluruhan fungsi diskriminan dipertahankan (s). Penilaian ini melibatkan tiga tugas:

1. Menghitung diskriminan Z skor untuk setiap pengamatan.


2. Mengevaluasi perbedaan kelompok di diskriminan Z skor.
3. Menilai akurasi kelompok keanggotaan prediksi diskriminan The Z skor dihitung untuk
setiap fungsi diskriminan.

Untuk setiap observasi dalam sampel. Skor diskriminan bertindak sebagai representasi ringkas dan
sederhana dari masing-masing fungsi diskriminan, menyederhanakan proses interpretasi dan
penilaian dari kontribusi independen variabel. Kelompok dapat dibedakan dengan skor
diskriminan mereka dan, seperti yang akan kita lihat, skor diskriminan dapat memainkan peran
penting dalam memprediksi keanggotaan kelompok.

MENGHITUNG DISKRIMINAN Z SKOR Dengan fungsi diskriminan yang dipertahankan


didefinisikan, dasar untuk menghitung diskriminan Z Skor telah ditetapkan. Seperti dibahas
sebelumnya, diskriminan Z skor dari setiap fungsi diskriminan dapat dihitung untuk setiap
observasi dengan rumus berikut:

Zjk =a+W1X1k +W2X2k + … +WnXnk

where

Zjk = discriminant Z score of discriminant function j for object k

a = intercept

Wi = discriminant coefficient for independent variable i

Xik = independent variable i for object k

Diskriminan Z skor, variabel metrik, menyediakan sarana langsung membandingkan pengamatan


pada masing-masing fungsi. Pengamatan dengan sejenis Z Skor diasumsikan lebih sama pada
variabel merupakan fungsi ini dibandingkan dengan skor yang berbeda. Fungsi diskriminan dapat
dinyatakan dengan baik bobot dan nilai-nilai standar atau unstandardized. Versi standar lebih
berguna untuk tujuan interpretasi, tapi versi unstandardixed lebih mudah digunakan dalam
menghitung diskriminan Z skor.

MENGEVALUASI PERBEDAAN GROUP Setelah diskriminan Z Skor dihitung, penilaian


pertama dari keseluruhan model fit adalah untuk menentukan besarnya perbedaan antara anggota
setiap kelompok dalam hal diskriminan Z skor. Ukuran ringkasan dari
 perbedaan kelompok
adalah perbandingan dari centroid kelompok, diskriminan rata-rata Z skor untuk semua anggota
kelompok.
 Sebuah ukuran keberhasilan dari analisis diskriminan adalah kemampuannya untuk
menentukan fungsi diskriminan (s) yang menghasilkan centroid kelompok yang berbeda secara
signifikan. Perbedaan antara centroid diukur dalam hal Mahalanobis D 2 mengukur, yang tes yang
tersedia untuk menentukan apakah perbedaan yang signifikan secara statistik. peneliti harus
memastikan bahwa bahkan dengan fungsi diskriminan signifikan, perbedaan yang signifikan
terjadi antara masing-masing kelompok.

Centroid kelompok pada setiap fungsi diskriminan juga dapat diplot untuk menunjukkan
hasil dari perspektif grafis. Plot biasanya disiapkan untuk dua atau tiga fungsi diskriminan pertama
(dengan asumsi mereka adalah fungsi signifikan secara statistik). Nilai-nilai untuk setiap
kelompok menunjukkan posisinya dalam mengurangi ruang diskriminan (disebut demikian karena
tidak semua fungsi dan dengan demikian tidak semua dari varian diplot). peneliti dapat melihat
perbedaan antara kelompok pada masing-masing fungsi; Namun, inspeksi visual tidak benar-benar
menjelaskan apa perbedaan ini. Lingkaran dapat ditarik melampirkan distribusi pengamatan di
sekitar centroid masing-masing untuk memperjelas perbedaan kelompok lebih lanjut, tetapi
prosedur ini adalah di luar lingkup teks ini (lihat Dillon dan Goldstein [3]).

MENILAI GROUP KEANGGOTAAN PREDIKSI AKURASI Mengingat bahwa variabel


dependen adalah nonmetric, tidak mungkin untuk menggunakan ukuran seperti R 2, seperti yang
dilakukan di regresi berganda, untuk menilai akurasi prediksi. Sebaliknya, setiap pengamatan
harus dinilai apakah itu benar diklasifikasikan. Dalam melakukannya, beberapa pertimbangan
utama harus dilakukan adalah:

• Statistik dan praktis pemikiran untuk mengembangkan matriks klasifikasi 


• Mengklasifikasikan kasus-kasus individu 


• Pembangunan matriks klasifikasi 


• Standar untuk menilai akurasi klasifikasi 


Mengapa Matriks Klasifikasi Apakah Dikembangkan. Uji statistik untuk menilai


signifikansi dari fungsi diskriminan (s) hanya menilai tingkat perbedaan antara kelompok
berdasarkan diskriminan Z skor, tapi tidak menunjukkan seberapa baik fungsi (s) memprediksi.
Ini uji statistik menderita kelemahan yang sama sebagai tes klasik hipotesis. Misalnya, dua
kelompok dianggap berbeda secara signifikan melampaui tingkat 0,01. Namun dengan ukuran
sampel cukup besar, sarana kelompok (centroid) bisa menjadi hampir identik dan masih memiliki
signifikansi statistik. Untuk menentukan kemampuan prediktif dari fungsi diskriminan, peneliti
harus membangun matriks klasifikasi.

Itu matriks klasifikasi Prosedur memberikan perspektif tentang signifikansi praktis


daripada signifikansi statistik. Dengan analisis diskriminan berganda, Persentase benar
diklasifikasikan, juga disebut rasio hit, mengungkapkan seberapa baik fungsi diskriminan
mengklasifikasikan obyek. Dengan ukuran sampel yang cukup besar dalam analisis diskriminan,
kita bisa memiliki perbedaan yang signifikan antara dua (atau lebih) kelompok dan belum benar
mengklasifikasikan hanya 53 persen (ketika kesempatan adalah 50%, dengan ukuran kelompok
yang sama) [13]. Dalam hal demikian, uji statistik akan menunjukkan signifikansi statistik, namun
rasio hit akan memungkinkan untuk penilaian yang terpisah harus dibuat dalam hal signifikansi
praktis. Dengan demikian, kita harus menggunakan prosedur matriks klasifikasi untuk menilai
akurasi prediksi melampaui signifikansi hanya statistik.

Mengklasifikasikan Pengamatan individu. Perkembangan matriks klasifikasi


mensyaratkan bahwa setiap pengamatan diklasifikasikan ke dalam salah satu kelompok dari
variabel dependen berdasarkan pada fungsi diskriminan (s). Tujuannya adalah untuk
mengkarakterisasi setiap pengamatan pada fungsi diskriminan (s) dan kemudian menentukan
sejauh mana pengamatan di masing-masing kelompok dapat secara konsisten dijelaskan oleh
fungsi diskriminan. Ada dua pendekatan untuk pengamatan mengklasifikasi, satu menggunakan
skor diskriminan langsung dan lain mengembangkan fungsi spesifik untuk klasifikasi. Masing-
masing pendekatan akan dibahas dalam bagian berikut serta pentingnya menentukan peran bahwa
ukuran sampel untuk setiap kelompok memainkan dalam proses klasifikasi.

• Cutting Skor Perhitungan Menggunakan fungsi diskriminan dianggap signifikan, kita dapat
mengembangkan matriks klasifikasi dengan menghitung skor cutting ( juga disebut kritis nilai
Z) untuk setiap fungsi diskriminan. Skor pemotongan adalah kriteria terhadap yang skor
diskriminan setiap objek dibandingkan untuk menentukan ke dalam kelompok yang objek harus
diklasifikasikan. Skor pemotongan merupakan titik pemisah yang digunakan untuk
mengklasifikasikan pengamatan ke kelompok berdasarkan diskriminan skor fungsi mereka.
Perhitungan nilai pemotongan antara dua kelompok didasarkan pada dua centroid kelompok
(group rata skor diskriminan) dan ukuran relatif dari kedua kelompok. Centroid kelompok
mudah dihitung dan diberikan pada setiap tahap proses bertahap. 


• Mengembangkan Fungsi Klasifikasi Seperti disebutkan sebelumnya, menggunakan fungsi


diskriminan hanya satu dari dua pendekatan yang mungkin untuk klasifikasi. Pendekatan kedua
mempekerjakan
 fungsi klasifikasi, juga dikenal sebagai fungsi diskriminan linier Fisher.
Fungsi klasifikasi, satu untuk masing-masing kelompok, digunakan secara ketat untuk
mengklasifikasikan pengamatan. Dalam metode ini klasifikasi, nilai-nilai pengamatan untuk
variabel independen dimasukkan dalam fungsi klasifikasi dan nilai klasifikasi untuk masing-
masing kelompok dihitung untuk observasi itu. Pengamatan ini kemudian diklasifikasikan ke
dalam kelompok dengan skor klasifikasi tertinggi. 


Mendefinisikan Probabilitas Sebelum. Dampak dan pentingnya ukuran sampel masing-


masing kelompok dalam proses klasifikasi berkali-kali diabaikan, namun sangat penting dalam
membuat asumsi yang tepat dalam proses klasifikasi. Apakah ukuran kelompok relatif
memberitahu kita sesuatu tentang terjadinya diharapkan dari masing-masing kelompok dalam
populasi atau mereka hanya sebuah artefak dari proses pengumpulan data? Di sini kita prihatin
tentang keterwakilan sampel yang berkaitan dengan representasi dari ukuran relatif dari kelompok
yang sebenarnya dalam populasi yang sebenarnya, yang dapat dinyatakan sebagai probabilitas
sebelumnya (yaitu, proporsi relatif dari masing-masing kelompok dengan total sampel ). 

Pertanyaan mendasar adalah: Apakah relatif ukuran kelompok perwakilan dari ukuran
kelompok dalam populasi? Asumsi default untuk program statistik yang paling adalah probabilitas
sebelum sama; di 


Dengan kata lain, masing-masing kelompok diasumsikan memiliki kesempatan yang sama
terjadi bahkan jika ukuran kelompok dalam sampel tidak sama. Jika peneliti tidak yakin tentang
apakah proporsi yang diamati dalam sampel adalah wakil dari proporsi populasi, pendekatan
konservatif untuk menggunakan probabilitas yang sama. Dalam beberapa kasus estimasi
probabilitas sebelumnya mungkin tersedia, seperti dari penelitian sebelumnya. Berikut asumsi
default probabilitas sebelum sama diganti dengan nilai yang ditetapkan oleh peneliti. Dalam kedua
contoh, ukuran kelompok yang sebenarnya diganti berdasarkan probabilitas sebelum yang
ditentukan.

Namun, jika sampel dilakukan secara acak dan peneliti merasa bahwa ukuran kelompok
mewakili populasi, maka peneliti dapat menentukan probabilitas sebelum didasarkan pada sampel
estimasi. Dengan demikian, ukuran kelompok yang sebenarnya diasumsikan perwakilan dan
digunakan secara langsung dalam perhitungan skor pemotongan (lihat pembahasan berikut).
Dalam semua kasus, bagaimanapun, peneliti harus menentukan bagaimana probabilitas sebelum
harus dihitung, yang mempengaruhi ukuran kelompok yang digunakan dalam perhitungan seperti
yang diilustrasikan.

Sebagai contoh, mempertimbangkan sampel ketidaksepakatan yang terdiri dari 200


observasi, dengan ukuran kelompok 60 dan 140 yang berhubungan dengan probabilitas
sebelumnya dari 30 persen dan 70 persen, masing-masing. Jika sampel diasumsikan perwakilan,
maka ukuran sampel 60 dan 140 yang digunakan dalam menghitung skor pemotongan. Namun,
jika sampel dianggap tidak representatif, peneliti harus menentukan probabilitas sebelumnya. Jika
mereka ditetapkan sebagai sama (50% dan 50%), ukuran sampel 100 dan 100 akan digunakan
dalam perhitungan skor pemotongan daripada ukuran sampel yang sebenarnya. Menentukan nilai-
nilai lain untuk probabilitas sebelum akan menghasilkan ukuran yang berbeda sampel untuk kedua
kelompok.

• Menghitung Cutting Skor Optimal Pentingnya probabilitas sebelum dapat diilustrasikan


dalam perhitungan “optimal” skor pemotongan, yang memperhitungkan probabilitas
sebelum melalui penggunaan ukuran kelompok. Rumus dasar untuk menghitung skor
pemotongan optimal antara dua kelompok adalah:

𝑁𝐴 𝑍𝐵 + 𝑁𝐵 𝑍𝐴
𝑍𝐶𝑆 =
𝑁𝐴 +𝑁𝐵

dimana

Z = CS skor pemotongan optimal antara kelompok A dan B

NA = jumlah observasi pada kelompok A


NB = jumlah observasi dalam kelompok B

ZA = centroid untuk kelompok A


ZB = centroid untuk kelompok B

Dengan ukuran kelompok yang tidak sama, skor pemotongan yang optimal untuk fungsi
diskriminan sekarang rata-rata tertimbang dari centroid kelompok. Skor pemotongan tertimbang
terhadap kelompok yang lebih kecil, mudah-mudahan membuat untuk klasifikasi yang lebih baik
dari kelompok yang lebih besar.

Jika kelompok-kelompok yang ditentukan untuk menjadi ukuran yang sama (probabilitas
sebelum didefinisikan sebagai sama), maka skor pemotongan optimum akan setengah jalan antara
dua centroid kelompok dan menjadi hanya rata-rata dari dua centroid:

𝑍𝐴 + 𝑍𝐵
𝑍𝐶𝐸 =
2
Dimana

Z CE = Nilai skor pemotongan penting untuk ukuran kelompok yang sama

ZA = centroid untuk kelompok A


ZB = centroid untuk kelompok B

Kedua rumus untuk menghitung skor pemotongan optimal berasumsi bahwa distribusi adalah
normal dan struktur dispersi kelompok yang dikenal.
Konsep skor pemotongan optimal untuk kelompok yang sama dan tidak sama
diilustrasikan dalam Gambar 7 dan 8, masing-masing. Baik tertimbang dan skor pemotongan
tertimbang yang akan ditampilkan. Hal ini jelas bahwa jika kelompok A jauh lebih kecil dari
kelompok B, skor pemotongan yang optimal akan lebih dekat dengan pusat massa dari kelompok
A daripada ke pusat massa dari kelompok B. Juga, jika skor pemotongan tertimbang digunakan,
tidak satupun dari benda-benda di grup A akan kesalahan klasifikasi, tetapi sebagian besar dari
mereka dalam kelompok B akan kesalahan klasifikasi.

Biaya Kesalahan klasifikasi. Skor pemotongan yang optimal juga harus


mempertimbangkan biaya misclassifying benda lainnya ke dalam kelompok yang salah. Jika biaya
misclassifying kira-kira sama untuk semua kelompok, skor pemotongan yang optimal akan
menjadi salah satu yang akan misclassify jumlah paling sedikit benda-benda di semua kelompok.
Jika biaya kesalahan klasifikasi tidak sama, skor pemotongan optimum akan menjadi salah satu
yang meminimalkan biaya kesalahan klasifikasi. pendekatan yang lebih canggih untuk
menentukan pemotongan skor dibahas di Dillon dan Goldstein [3] dan Huberty et al. [11].
Pendekatan ini didasarkan pada model statistik Bayesian dan tepat ketika biaya kesalahan
klasifikasi dalam kelompok-kelompok tertentu yang tinggi, ketika kelompok yang dari terlalu
ukuran yang berbeda, atau ketika seseorang ingin mengambil keuntungan dari a priori pengetahuan
tentang probabilitas keanggotaan kelompok.

Dalam prakteknya, ketika menghitung skor pemotongan, tidak perlu untuk memasukkan
pengukuran variabel baku untuk
 setiap individu ke dalam fungsi diskriminan dan untuk
mendapatkan skor diskriminan untuk setiap orang untuk digunakan dalam menghitung Z
SEBUAH dan Z B ( kelompok A dan centroid B). Program komputer akan memberikan skor
diskriminan serta Z SEBUAH dan Z B sebagai output biasa. Ketika peneliti memiliki centroid
kelompok dan ukuran sampel, skor pemotongan yang optimal dapat
 diperoleh hanya dengan
mengganti nilai-nilai ke dalam rumus yang tepat.

Membangun Klasifikasi Matriks. Untuk memvalidasi fungsi diskriminan melalui


penggunaan matriks klasifikasi, sampel harus secara acak dibagi menjadi dua kelompok akan.
Salah satu kelompok (sampel analisis) digunakan untuk menghitung fungsi diskriminan.
Kelompok lain (ketidaksepakatan atau sampel validasi) dipertahankan untuk digunakan dalam
mengembangkan matriks klasifikasi.

Klasifikasi dari setiap pengamatan dapat dicapai melalui salah satu dari pendekatan
klasifikasi dibahas sebelumnya. Untuk pendekatan Fisher, observasi diklasifikasikan ke dalam
kelompok dengan terbesar skor fungsi klasifikasi. Bila menggunakan skor diskriminan dan skor
pemotongan optimal, prosedur adalah sebagai berikut:

Mengklasifikasikan individu ke dalam kelompok A jika Z n < Z ct

atau

Mengklasifikasikan individu ke dalam kelompok B jika Z n> Z ct

dimana

Zn = diskriminan Z mencetak gol untuk n th individu

Z ct = kritis nilai skor pemotongan

Hasil dari prosedur klasifikasi disajikan dalam bentuk matriks, seperti yang ditunjukkan
pada Tabel 4. entri pada diagonal matriks tersebut merupakan jumlah individu diklasifikasikan
dengan benar. Nomor off diagonal mewakili klasifikasi yang salah. Entri di bawah kolom berlabel
“Sebenarnya Grup Size” merupakan jumlah individu sebenarnya di masing-masing dua kelompok.
Entri di bagian bawah kolom merupakan jumlah individu ditugaskan untuk kelompok dengan
fungsi diskriminan. Persentase diklasifikasikan dengan benar untuk setiap kelompok ditampilkan
di sisi kanan dari matriks, dan persentase keseluruhan diklasifikasikan dengan benar, juga dikenal
sebagai rasio hit, ditampilkan di bagian bawah.

Dalam contoh kita, jumlah orang benar ditugaskan untuk kelompok 1 adalah 22, sedangkan
3 anggota kelompok 1 yang tidak benar ditugaskan untuk kelompok 2. Demikian pula, jumlah
klasifikasi yang benar untuk
Kelompok 2 adalah 20, dan jumlah tugas yang tidak benar untuk kelompok 1 adalah 5. Dengan
demikian, persentase akurasi klasifikasi fungsi diskriminan untuk kelompok yang sebenarnya 1
dan 2 adalah 88 dan 80 persen, masing-masing. Akurasi klasifikasi keseluruhan (rasio hit) adalah
84 persen.

Salah satu topik akhir mengenai prosedur klasifikasi adalah t Tes yang tersedia untuk menentukan
tingkat signifikansi untuk akurasi klasifikasi. Rumus untuk analisis dua kelompok (ukuran sampel
yang sama) adalah

Dimana

p = proporsi benar diklasifikasikan

N = ukuran sampel

Formula ini dapat diadaptasi untuk digunakan dengan lebih kelompok dan ukuran sampel yang
tidak sama.

Menetapkan Standar Perbandingan untuk Ratio Hit. Seperti disebutkan sebelumnya,


akurasi prediksi fungsi diskriminan diukur dengan rasio hit, yang diperoleh dari matriks
klasifikasi. Peneliti mungkin bertanya, Apa yang dianggap tingkat yang dapat diterima akurasi
prediktif untuk fungsi diskriminan? Sebagai contoh, adalah 60 persen tingkat yang dapat diterima,
atau harus satu berharap untuk mendapatkan 80 sampai 90 persen akurasi prediksi? Untuk
menjawab pertanyaan ini, peneliti harus terlebih dahulu menentukan persentase yang dapat
diklasifikasikan dengan benar oleh kesempatan (tanpa bantuan fungsi diskriminan).

• Standar Perbandingan untuk Ratio Hit untuk Equal Grup Ukuran Ketika ukuran sampel dari
kelompok yang sama, penentuan klasifikasi kesempatan agak sederhana; diperoleh dengan
membagi 1 dengan jumlah kelompok. Rumusnya adalah: 


CEQUAL = 1 ÷ Jumlah Kelompok

Misalnya, untuk fungsi dua kelompok probabilitas kesempatan akan 0,50; untuk fungsi tiga kelompok probabilitas


 kesempatan akan 0,33; Dan seterusnya. 


• Standar Perbandingan untuk Ratio Hit untuk tidak merata Grup Ukuran Penentuan
klasifikasi kesempatan untuk situasi 
 di mana ukuran kelompok tidak sama agak lebih terlibat.
Haruskah kita menganggap hanya kelompok terbesar, probabilitas gabungan dari semua
kelompok ukuran yang berbeda, atau standar lainnya? Mari kita asumsikan bahwa kita memiliki
sampel total 200 observasi dibagi menjadi ketidaksepakatan dan analisis sampel dari 100
observasi masing-masing. Dalam sampel ketidaksepakatan, 75 mata pelajaran milik satu
kelompok dan 25 yang lain. Kami akan memeriksa cara yang mungkin di mana kita dapat
membangun standar untuk perbandingan dan apa masing-masing mewakili. 


• Disebut sebagai kriteria kesempatan maksimum, kita sewenang-wenang dapat menetapkan


semua mata pelajaran untuk kelompok terbesar. Kriteria kesempatan maksimum harus
digunakan ketika satu-satunya tujuan dari analisis diskriminan adalah untuk
memaksimalkan persentase diklasifikasikan dengan benar. Itu juga merupakan standar
paling konservatif karena akan menghasilkan standar tertinggi perbandingan. Namun,
situasi di mana kita prihatin hanya sekitar memaksimalkan persentase diklasifikasikan
dengan benar jarang terjadi. Biasanya peneliti menggunakan analisis diskriminan dengan
benar mengidentifikasi anggota dari semua kelompok. Dalam kasus di mana ukuran sampel
tidak sama dan peneliti ingin mengklasifikasikan anggota dari semua kelompok, fungsi
diskriminan menentang peluang dengan mengelompokkan subjek dalam kelompok kecil
(s). Kriteria kesempatan maksimum tidak mengambil fakta ini ke account. 


Dalam contoh sederhana kami sampel dengan dua kelompok (75 dan 25 orang masing-
masing), menggunakan metode ini akan menetapkan 75 persen akurasi klasifikasi, apa yang akan
dicapai dengan mengelompokkan orang ke dalam kelompok terbesar tanpa bantuan fungsi
diskriminan. Dapat disimpulkan bahwa kecuali fungsi diskriminan mencapai akurasi klasifikasi
yang lebih tinggi dari 75 persen, itu harus diabaikan karena belum membantu kami meningkatkan
akurasi prediksi kita bisa mencapai tanpa menggunakan analisis diskriminan sama sekali.

• Ketika ukuran kelompok yang tidak sama dan peneliti ingin benar mengidentifikasi anggota semua
kelompok, bukan hanya kelompok terbesar, kriteria kesempatan proporsional dianggap oleh
banyak untuk menjadi yang paling tepat. Rumus untuk kriteria ini adalah

CPRO = p2 + (1 – p)2

Dimana

p = proporsi individu dalam kelompok 1


1 – p = proporsi individu dalam kelompok 2

Menggunakan ukuran kelompok dari contoh sebelumnya kami (75 dan 25), kita melihat bahwa
kriteria kesempatan proporsional akan 62,5 persen [0,75 2 + ( 1,0-0,75) 2 = . 625] dibandingkan
dengan 75 persen. Oleh karena itu, dalam hal ini, ketepatan prediksi yang sebenarnya dari 75
persen mungkin dapat diterima karena berada di atas kriteria kesempatan proporsional 62,5 persen.

• Masalah dengan baik kesempatan maksimum atau kriteria kesempatan proporsional adalah ukuran
sampel yang digunakan untuk menghitung standar. Apakah Anda menggunakan ukuran kelompok
dari keseluruhan sampel, sampel analisis / estimasi, atau validasi / sampel ketidaksepakatan?
Beberapa saran:

• Jika ukuran sampel analisis dan estimasi sampel masing-masing dianggap cukup besar (yaitu,
jumlah sampel sebanyak 100 dengan 
 masing-masing kelompok memiliki setidaknya 20
kasus), berasal standar terpisah untuk masing-masing sampel. 


• Jika sampel terpisah tidak dianggap cukup besar, gunakan ukuran kelompok dari total sampel
dalam menghitung standar. 


• Menyadari ukuran kelompok berbeda antara sampel bila menggunakan kriteria kesempatan
maksimal, karena tergantung pada ukuran kelompok terbesar. pedoman ini sangat penting
ketika ukuran sampel kecil atau ketika kelompok ukuran proporsi variatif dari sampel ke
sampel. Ini adalah alasan lain untuk berhati-hati dalam penggunaan kriteria kesempatan
maksimal. 


• Kriteria Model kesempatan ini berguna hanya jika dihitung dengan sampel ketidaksepakatan
(pendekatan split-sampel). Jika individu yang digunakan dalam menghitung fungsi diskriminan
adalah orang-orang yang diklasifikasikan, hasilnya akan bias ke atas dalam akurasi prediksi.
Dalam kasus tersebut, kedua kriteria ini harus disesuaikan ke atas untuk memperhitungkan bias
ini.

Membandingkan Ratio Hit ke Standard. Pertanyaan tentang “Seberapa tinggi tidak


akurasi klasifikasi harus?” Sangat penting. Jika persentase klasifikasi yang benar secara signifikan
lebih besar dari yang diharapkan secara kebetulan, peneliti dapat melanjutkan dalam menafsirkan
fungsi diskriminan dan profil kelompok. Namun, jika akurasi klasifikasi tidak lebih besar daripada
yang bisa diharapkan secara kebetulan, perbedaan apa pun muncul ada benar-benar pantas sedikit
atau tidak ada interpretasi; yaitu, perbedaan profil skor tidak akan memberikan informasi yang
berarti untuk mengidentifikasi keanggotaan grup.

Pertanyaannya, kemudian, adalah seberapa tinggi harus akurasi klasifikasi relatif


kebetulan? Sebagai contoh, jika kebetulan adalah 50 persen (dua kelompok, ukuran sampel yang
sama), melakukan klasifikasi (prediksi) akurasi 60 persen membenarkan bergerak ke tahap
interpretasi? Pada akhirnya, keputusan tergantung pada biaya relatif terhadap nilai informasi.
Biaya-versus-nilai argumen menawarkan bantuan sedikit peneliti data yang orang baru, tetapi
kriteria berikut ini disarankan: Akurasi klasifikasi harus setidaknya seperempat lebih besar dari
yang dicapai secara kebetulan.

Misalnya, jika akurasi kesempatan adalah 50 persen, akurasi klasifikasi harus 62,5 persen
(62,5% = 1,25 × 50%). Jika akurasi kesempatan adalah 30 persen, akurasi klasifikasi harus
 37,5
persen (37,5% = 1,25 × 30%).

Kriteria ini hanya menyediakan perkiraan kasar dari tingkat akurasi prediksi. Kriteria ini
mudah untuk menerapkan dengan kelompok-kelompok dengan ukuran yang sama. Dengan
kelompok ukuran yang tidak sama, batas atas tercapai ketika model kesempatan maksimum
digunakan untuk menentukan akurasi kesempatan. Ini tidak hadir terlalu besar masalah, namun,
karena dalam berbagai situasi, model kesempatan maksimum tidak akan digunakan dengan ukuran
kelompok yang tidak sama.

Secara keseluruhan Versus Rasio Hit Group-Spesifik. Untuk saat ini, kami fokus pada
evaluasi rasio hit keseluruhan di semua kelompok dalam menilai akurasi prediksi dari analisis
diskriminan. Peneliti juga harus peduli dengan rasio hit (persen diklasifikasikan dengan benar)
untuk setiap kelompok yang terpisah. Jika Anda fokus hanya pada rasio hit keseluruhan, adalah
mungkin bahwa satu atau lebih kelompok, terutama kelompok-kelompok kecil, mungkin memiliki
rasio hit tidak dapat diterima sedangkan rasio hit keseluruhan dapat diterima. peneliti harus
mengevaluasi rasio hit masing-masing kelompok dan menilai apakah analisis diskriminan
menyediakan tingkat yang memadai akurasi prediksi baik di tingkat keseluruhan serta untuk setiap
kelompok.

Statistik Berdasarkan Ukuran Klasifikasi Akurasi Relatif untuk Chance. Sebuah uji
statistik untuk kekuatan diskriminatif dari matriks klasifikasi bila dibandingkan dengan model
kesempatan adalah
 press Q statistik. ukuran sederhana ini membandingkan jumlah klasifikasi
yang benar dengan total ukuran sampel dan jumlah kelompok. nilai dihitung kemudian
dibandingkan dengan nilai kritis (nilai chi-square untuk 1 derajat kebebasan pada tingkat
kepercayaan yang diinginkan). Jika melebihi nilai kritis ini, maka matriks klasifikasi dapat
dianggap statistik lebih baik dari kesempatan. Itu
 Q statistik dihitung dengan rumus berikut:

Dimana

N = Ukuran total sampel


n = Jumlah observasi dengan benar diklasifikasikan
K = Jumlah kelompok

Diagnostik Casewise

Sarana final menilai model fit adalah untuk menguji hasil prediksi atas dasar kasus per
kasus. Serupa dengan analisis residual regresi ganda, tujuannya adalah untuk memahami yang
pengamatan (1) telah kesalahan klasifikasi dan (2) tidak mewakili anggota kelompok yang tersisa.
Meskipun matriks klasifikasi memberikan akurasi klasifikasi secara keseluruhan, itu tidak detail
hasil kasus individu. Juga, bahkan jika kita dapat menunjukkan kasus-kasus yang benar atau salah
diklasifikasikan, kita masih membutuhkan ukuran kesamaan pengamatan terhadap sisa kelompok.

Kesalahan klasifikasi KASUS INDIVIDU Ketika menganalisis residual dari analisis


regresi berganda, sebuah keputusan penting melibatkan pengaturan tingkat residu dianggap
substantif dan layak perhatian. Dalam analisis diskriminan, masalah ini agak sederhana karena
observasi adalah baik benar atau salah diklasifikasikan. Semua program komputer memberikan
informasi yang mengidentifikasi kasus-kasus yang kesalahan klasifikasi dan kelompok yang
mereka kesalahan klasifikasi. peneliti dapat mengidentifikasi tidak hanya kasus-kasus dengan
kesalahan klasifikasi, tetapi representasi langsung dari jenis kesalahan kesalahan klasifikasi.

ANALISIS KASUS kesalahan klasifikasi Tujuan mengidentifikasi dan menganalisis


pengamatan yang salah diklasifikasikan adalah untuk mengidentifikasi karakteristik pengamatan
ini yang dapat dimasukkan ke dalam analisis diskriminan untuk meningkatkan akurasi prediksi.
Analisis ini dapat mengambil bentuk profil kasus kesalahan klasifikasi baik pada variabel
independen atau variabel lain yang tidak dimasukkan dalam model.

Profil pada Variabel Independen. Memeriksa kasus ini pada variabel independen dapat
mengidentifikasi tren nonlinear atau hubungan atau atribut lain yang menyebabkan kesalahan
klasifikasi tersebut. Beberapa teknik yang sangat tepat dalam analisis diskriminan:

• Sebuah representasi grafis dari pengamatan mungkin yang paling sederhana namun efektif
pendekatan untuk meneliti karakteristik pengamatan, terutama pengamatan kesalahan
klasifikasi. Pendekatan yang paling umum adalah untuk merencanakan pengamatan
berdasarkan diskriminan mereka Z skor dan menggambarkan tumpang tindih antara
kelompok-kelompok dan kasus-kasus kesalahan klasifikasi. Jika dua atau lebih fungsi
dipertahankan, titik-titik pemotongan yang optimal juga dapat digambarkan untuk
memberikan apa yang dikenal sebagai 
 peta wilayah menggambarkan daerah yang sesuai
dengan masing-masing kelompok. 

• Merencanakan pengamatan individu bersama dengan centroid kelompok, seperti yang
dibahas sebelumnya, menunjukkan tidak 
 hanya karakteristik kelompok umum
digambarkan dalam centroid, tetapi juga variasi dalam anggota kelompok. Hal ini analog
dengan daerah yang sudah ditentukan pada contoh tiga kelompok di awal bab ini, di mana
pemotongan skor pada kedua fungsi daerah yang sudah ditentukan sesuai dengan prediksi
klasifikasi untuk masing-masing kelompok. 

• Sebuah penilaian empiris langsung dari kesamaan pengamatan terhadap anggota kelompok
yang lain dapat dilakukan dengan mengevaluasi Mahalanobis D 2 jarak pengamatan ke
centroid kelompok. Berdasarkan set variabel independen, pengamatan lebih dekat ke pusat
massa memiliki Mahalanobis yang lebih kecil D 2 dan diasumsikan lebih mewakili
kelompok daripada mereka lebih jauh. 

• Ukuran empiris harus dikombinasikan dengan analisis grafis, namun, karena meskipun
Mahalanobis besar D 2 nilai tidak menunjukkan pengamatan yang cukup berbeda dari
centroid kelompok, itu tidak selalu menunjukkan kesalahan klasifikasi. Misalnya, dalam
situasi dua kelompok, anggota kelompok A mungkin memiliki Mahalanobis besar D 2
jarak, menunjukkan kurang perwakilan kelompok. Namun, jika jarak yang jauh dari pusat
massa kelompok B, maka akan benar-benar meningkatkan kesempatan klasifikasi yang
benar, meskipun kurang perwakilan kelompok. Sebuah jarak yang lebih kecil yang
menempatkan sebuah pengamatan antara dua centroid mungkin akan memiliki
kemungkinan lebih rendah dari klasifikasi yang benar, meskipun lebih dekat dengan pusat
massa kelompoknya daripada situasi sebelumnya. 


Meskipun tidak ada analisis prespecified ditetapkan, seperti ditemukan dalam regresi
berganda, peneliti didorong untuk mengevaluasi kasus-kasus kesalahan klasifikasi dari beberapa
perspektif dalam upaya untuk mengungkap fitur unik yang mereka pegang dibandingkan dengan
anggota kelompok mereka yang lain.

TAHAP 5: INTERPRETASI HASIL

Jika fungsi diskriminan signifikan secara statistik dan akurasi klasifikasi diterima, peneliti harus
fokus pada pembuatan penafsiran substantif temuan. Proses ini melibatkan memeriksa fungsi
diskriminan untuk menentukan kepentingan relatif dari masing-masing variabel independen dalam
membedakan antara kelompok. Tiga metode penentuan kepentingan relatif telah diusulkan:

1. Bobot diskriminan standar



2. Beban diskriminan (struktur korelasi)
3. Sebagian F nilai-nilai

Berat diskriminan
Pendekatan tradisional untuk menafsirkan fungsi diskriminan meneliti tanda dan besarnya standar
berat diskriminan ( juga disebut sebagai koefisien diskriminan) ditugaskan untuk setiap variabel
dalam menghitung fungsi diskriminan. Ketika tanda diabaikan, masing-masing berat badan
merupakan kontribusi relatif dari variabel yang terkait dengan fungsi itu. variabel bebas dengan
bobot yang relatif lebih besar kontribusi lebih kepada kekuatan diskriminatif dari fungsi daripada
variabel dengan bobot yang lebih kecil. tanda menunjukkan hanya itu variabel membuat baik
positif atau kontribusi negatif.

Penafsiran bobot diskriminan adalah analog dengan interpretasi bobot beta dalam analisis
regresi dan karena itu tunduk pada kritik yang sama. Misalnya, berat badan kecil mungkin
menunjukkan baik bahwa variabel yang sesuai adalah tidak relevan dalam menentukan hubungan
atau yang telah partialed dari hubungan karena tingkat tinggi multikolinearitas. Masalah lain
dengan penggunaan bobot diskriminan adalah bahwa mereka tunduk pada ketidakstabilan yang
cukup. Masalah-masalah ini menyarankan hati-hati dalam menggunakan bobot untuk menafsirkan
hasil analisis diskriminan.

Muat diskriminan

Beban diskriminan, disebut kadang-kadang sebagai korelasi struktur, semakin digunakan


sebagai dasar untuk interpretasi karena kekurangan dalam memanfaatkan bobot. Mengukur
korelasi linear sederhana antara masing-masing variabel independen dan fungsi diskriminan,
loadings diskriminan mencerminkan varians bahwa variabel independen berbagi
 dengan fungsi
diskriminan. Dalam hal bahwa mereka dapat ditafsirkan seperti faktor loadings dalam menilai
kontribusi relatif dari masing-masing variabel independen untuk fungsi diskriminan.

Salah satu karakteristik unik dari beban adalah bahwa beban dapat dihitung untuk semua
variabel, apakah mereka digunakan dalam estimasi fungsi diskriminan atau tidak. Aspek ini sangat
berguna ketika prosedur estimasi bertahap digunakan dan beberapa variabel yang tidak termasuk
dalam fungsi diskriminan. Daripada harus ada cara untuk memahami dampaknya relatif mereka,
beban memberikan efek relatif dari setiap variabel pada ukuran umum.

Dengan beban, pertanyaan utama adalah: Apa nilai harus beban mencapai dipertimbangkan
diskriminator substantif patut dicatat? Dalam kedua analisis diskriminan simultan atau bertahap,
variabel yang menunjukkan pemuatan; 0,40 atau lebih tinggi dianggap substantif. Dengan prosedur
bertahap, tekad ini dilengkapi karena teknik mencegah variabel tidak signifikan memasuki fungsi.
Namun, multikolinearitas dan faktor lainnya mungkin menghalangi variabel memasuki
persamaan, yang tidak selalu berarti bahwa itu tidak memiliki efek yang cukup besar.

Beban diskriminan (seperti bobot) dapat dikenakan ketidakstabilan. Beban dianggap relatif
lebih valid dari bobot sebagai sarana menafsirkan kekuatan diskriminatif variabel independen
karena sifat korelasional mereka. Peneliti masih harus berhati-hati ketika menggunakan beban
untuk menafsirkan fungsi diskriminan.

Sebagian F nilai-nilai
Seperti yang dibahas sebelumnya, dua komputasi pendekatan-simultan dan bertahap-dapat
dimanfaatkan dalam menurunkan fungsi diskriminan. Ketika metode stepwise dipilih, sarana
tambahan menafsirkan kekuatan diskriminatif relatif dari variabel independen tersedia melalui
penggunaan parsial F nilai-nilai. Hal ini dilakukan dengan memeriksa ukuran absolut dari
signifikan F nilai-nilai dan peringkat mereka. Besar F nilai-nilai menunjukkan kekuatan
diskriminatif yang lebih besar. Dalam prakteknya, peringkat menggunakan F Pendekatan nilai-
nilai yang sama dengan peringkat yang diperoleh dari menggunakan bobot diskriminan, tetapi F
nilai-nilai menunjukkan tingkat terkait signifikansi untuk masing-masing variabel.

Interpretasi Dua atau Lebih Fungsi

Dalam kasus dua atau lebih fungsi diskriminan signifikan, kita dihadapkan dengan masalah
tambahan penafsiran. Pertama, bisa kita menyederhanakan bobot diskriminan atau beban untuk
memfasilitasi profiling masing-masing fungsi? Kedua, bagaimana kita mewakili dampak dari
setiap variabel di semua fungsi? Masalah-masalah ini ditemukan baik dalam mengukur efek
diskriminatif Total di seluruh fungsi dan dalam menilai peran masing-masing variabel dalam profil
masing-masing fungsi secara terpisah. Kami membahas dua pertanyaan ini dengan
memperkenalkan konsep rotasi fungsi, indeks potensi, dan membentang vektor representasi.

ROTASI DARI FUNGSI DISKRIMINAN Setelah fungsi diskriminan dikembangkan,


mereka dapat diputar untuk mendistribusikan varians. Pada dasarnya, rotasi mempertahankan
struktur asli dan keandalan solusi diskriminan sementara membuat fungsi lebih mudah untuk
menafsirkan secara substantif. Dalam kebanyakan kasus, rotasi digunakan sebagai dasar untuk
rotasi.

POTENSI INDEX Sebelumnya, kita bahas dengan menggunakan bobot standar atau
beban diskriminan sebagai ukuran kontribusi variabel untuk fungsi diskriminan. Ketika dua atau
lebih fungsi yang berasal Namun, suatu ukuran gabungan atau ringkasan berguna dalam
menggambarkan kontribusi dari variabel di semua fungsi yang signifikan. Itu indeks potensi adalah
ukuran relatif antara semua variabel dan merupakan indikasi dari kekuatan diskriminatif masing-
masing variabel ini [14]. Ini mencakup kontribusi variabel ke fungsi diskriminan (memuat
diskriminan) dan kontribusi relatif dari fungsi untuk solusi
 secara keseluruhan (ukuran relatif
antara fungsi berdasarkan nilai eigen). komposit hanyalah jumlah dari indeks potensi individu di
semua fungsi diskriminan signifikan. Interpretasi dari ukuran gabungan terbatas, namun, oleh fakta
bahwa itu hanya berguna dalam menggambarkan posisi relatif (seperti urutan peringkat) dari
masing-masing variabel, dan nilai
 absolut tidak memiliki arti sebenarnya. Indeks potensi
dihitung dengan proses dua langkah:

Langkah 1 : Menghitung nilai potensi masing-masing variabel untuk setiap fungsi yang
signifikan. Pada langkah pertama,
 kekuatan diskriminasi dari variabel, yang
diwakili oleh nilai kuadrat dari pemuatan diskriminan unrotated, adalah
“tertimbang” oleh kontribusi relatif dari fungsi diskriminan untuk solusi secara
keseluruhan. Pertama, ukuran eigen relatif untuk masing-masing fungsi
diskriminan signifikan dihitung hanya sebagai:
Eigen Relatif
Nilai Eigen dari Fungsi Diskriminan j
dari Fungsi = Jumlah dari Nilai Eigen di Semua Fungsi yang Signifikan
Diskriminan j

Nilai potensi masing-masing variabel pada fungsi diskriminan, maka :

Nilai potensi variabel i pada fungsi j = (Diskriminan Loadingij)2 x Nilai Eigen Relatif Fungsi j

Langkah 2 : Hitung indeks potensi komposit di semua fungsi yang signifikan. Setelah nilai
potensi
 telah dihitung untuk setiap fungsi, indeks potensi komposit untuk
masing-masing variabel dihitung sebagai:

Potensi komposit Jumlah nilai potensi vairabel i di semua


dari variabel i = fungsi diskriminan signifikan
Indeks potensi sekarang merupakan efek diskriminatif total variabel di semua fungsi
diskriminan signifikan. Hal ini hanya ukuran relatif, bagaimanapun, dan nilai mutlak tidak
memiliki makna substantif. Contoh menghitung indeks potensi disediakan dalam contoh
threegroup untuk analisis diskriminan.

DISPLAY GRAFIS DARI DISKRIMINAN SKOR DAN BEBAN Untuk


menggambarkan perbedaan kelompok pada variabel prediktor, peneliti dapat menggunakan dua
pendekatan yang berbeda untuk tampilan grafis. Plot peta teritorial kasus-kasus individu pada
fungsi diskriminan signifikan untuk memungkinkan peneliti untuk menilai posisi relatif setiap
pengamatan berdasarkan skor fungsi diskriminan. Pendekatan kedua adalah untuk merencanakan
beban diskriminan untuk memahami pengelompokan relatif dan besarnya masing-masing memuat
tentang fungsi masing-masing. Masing-masing pendekatan akan dibahas secara lebih rinci dalam
bagian berikut.

Teritorial Peta. Metode grafis yang paling umum adalah peta wilayah, di mana setiap
pengamatan diplot dalam tampilan grafis berdasarkan fungsi diskriminan Z Skor dari pengamatan.
Sebagai contoh, asumsikan bahwa analisis diskriminan tiga kelompok memiliki dua signifikan
fungsi diskriminan. Sebuah peta wilayah dibuat dengan memplot diskriminan setiap pengamatan
ini Z
 skor untuk fungsi diskriminan pertama pada sumbu X dan skor untuk fungsi diskriminan
kedua pada sumbu Y. Dengan demikian, ia menyediakan beberapa perspektif tentang analisis:

• Plotting anggota masing-masing kelompok dengan simbol-simbol yang berbeda


memungkinkan untuk penggambaran mudah kekhasan masing-masing kelompok serta
tumpang tindih dengan masing-masing kelompok lain. 

• Merencanakan centroid masing-masing kelompok menyediakan sarana untuk menilai setiap
anggota kelompok relatif terhadap pusat massa kelompoknya. Prosedur ini sangat berguna
ketika menilai apakah Mahalanobis besar D 2 langkah-langkah menyebabkan kesalahan
klasifikasi. 

• Garis mewakili nilai pemotongan juga bisa diplot, yang menunjukkan batas-batas yang
menggambarkan rentang skor diskriminan diprediksi menjadi masing-masing kelompok.
anggota setiap kelompok yang berada di luar batas-batas ini kesalahan klasifikasi. Yang
menunjukkan kasus kesalahan klasifikasi memungkinkan untuk menilai mana fungsi
diskriminan paling bertanggung jawab atas kesalahan klasifikasi serta sejauh mana sebuah
kasus kesalahan klasifikasi.

Vektor Plot diskriminan Muat. Pendekatan grafis sederhana untuk menggambarkan beban
diskriminan adalah untuk merencanakan beban diputar atau unrotated sebenarnya pada grafik.
Pendekatan ini lebih suka akan merencanakan beban diputar. Mirip dengan penggambaran grafis
dari faktor loadings, metode ini menggambarkan sejauh mana masing-masing variabel
berhubungan dengan masing-masing fungsi diskriminan. 
 Bahkan lebih akurat pendekatan,
bagaimanapun, melibatkan merencanakan beban serta vektor Menggambarkan untuk setiap
bongkar kelompok massa. SEBUAH vektor hanyalah garis lurus yang ditarik dari titik asal (pusat)
dari grafik untuk koordinat beban diskriminan variabel tertentu atau centroid kelompok. Dengan
vektor membentang representasi, panjang setiap vektor menjadi indikasi kepentingan relatif dari
setiap variabel dalam membedakan antara kelompok-kelompok. Prosedur merencanakan hasil
dalam tiga langkah:

1. Memilih variabel: Semua variabel, baik yang termasuk dalam model signifikan atau tidak,
mungkin
 diplot sebagai vektor. Dengan cara ini, pentingnya variabel collinear yang tidak
disertakan, seperti dalam larutan bertahap, masih bisa digambarkan. 

2. Peregangan vektor: beban diskriminan masing-masing variabel yang membentang dengan
mengalikan
 diskriminan pemuatan (sebaiknya setelah rotasi) oleh univariat masing-
masing F nilai. Kami mencatat bahwa vektor menunjuk ke arah kelompok memiliki rata-
rata tertinggi pada prediktor masing-masing dan jauh dari kelompok-kelompok yang
memiliki skor terendah rata-rata. 

3. Memplot centroid kelompok: Centroid kelompok juga membentang dalam prosedur ini
dengan multitafsir
 mengalikan mereka dengan perkiraan F nilai yang terkait dengan
masing-masing fungsi diskriminan. Jika beban yang membentang, centroid harus
meregang juga untuk plot mereka secara akurat pada grafik yang sama. perkiraan F nilai-
nilai untuk setiap fungsi diskriminan diperoleh dengan rumus berikut: 


𝑁Estimation Sample − NG
𝐹 valueFunction 𝑖 = Eigen valueFunction𝑖 ( )
𝑁𝐺 − 1
Dimana
Estimation Sample = Ukuran sampel atas sampel estimasi

Yang Cara Interpretive Menggunakan?

Beberapa metode untuk menafsirkan sifat fungsi diskriminan telah dibahas, baik untuk
single dan multiple-fungsi solusi. Metode yang harus digunakan? Loadings pendekatan lebih valid
dari penggunaan bobot dan harus dimanfaatkan bila memungkinkan. Penggunaan univariat dan
parsial F nilai-nilai memungkinkan peneliti untuk menggunakan beberapa langkah-langkah dan
mencari beberapa konsistensi dalam evaluasi dari variabel. Jika dua atau lebih fungsi diperkirakan,
maka peneliti dapat menggunakan beberapa teknik grafis dan indeks potensi, yang membantu
dalam menafsirkan solusi multidimensi. Hal yang paling mendasar adalah bahwa peneliti harus
menggunakan semua metode yang tersedia untuk sampai pada penafsiran yang paling akurat.

TAHAP 6: VALIDASI HASIL

Tahap akhir dari analisis diskriminan melibatkan memvalidasi hasil diskriminan untuk
memberikan jaminan bahwa hasil memiliki validitas eksternal maupun internal. Dengan
kecenderungan analisis diskriminan untuk mengembang rasio hit jika dievaluasi hanya pada
sampel analisis, validasi merupakan langkah penting. Selain memvalidasi rasio hit, peneliti harus
menggunakan grup profiling untuk memastikan bahwa cara kelompok merupakan indikator yang
valid dari model konseptual yang digunakan dalam memilih variabel independen.

Prosedur validasi

Validasi merupakan langkah penting dalam setiap analisis diskriminan karena berkali-kali,
terutama dengan sampel yang lebih kecil, hasilnya bisa kurang generalisasi (validitas eksternal).
Pendekatan yang paling umum untuk mendirikan validitas eksternal adalah penilaian dari rasio hit.
Validasi dapat terjadi baik dengan sampel terpisah (ketidaksepakatan sampel) atau memanfaatkan
prosedur yang berulang kali memproses sampel estimasi. validitas eksternal didukung ketika rasio
hit dari pendekatan yang dipilih melebihi standar perbandingan yang mewakili akurasi prediksi
yang diharapkan secara kebetulan (lihat pembahasan sebelumnya).

MEMANFAATKAN A CONTOH ketidaksepakatan Paling sering validasi rasio hit dilakukan


dengan menciptakan sampel ketidaksepakatan, juga disebut sebagai validasi sampel. Tujuan
memanfaatkan sampel ketidaksepakatan untuk tujuan validasi adalah untuk melihat seberapa baik
fungsi diskriminan bekerja pada sampel pengamatan tidak digunakan untuk menurunkan fungsi
diskriminan. Proses ini melibatkan mengembangkan fungsi diskriminan dengan sampel analisis
dan kemudian menerapkannya pada sampel ketidaksepakatan. Pembenaran untuk membagi total
sampel menjadi dua kelompok adalah bahwa bias ke atas akan terjadi dalam akurasi prediksi fungsi
diskriminan jika individu digunakan dalam mengembangkan matriks klasifikasi yang sama dengan
yang digunakan dalam menghitung fungsi; yaitu, akurasi klasifikasi akan lebih tinggi dari berlaku
bila diterapkan pada sampel estimasi.

Peneliti lain telah menyarankan bahwa kepercayaan yang lebih besar bisa ditempatkan di
keabsahan fungsi diskriminan dengan mengikuti prosedur ini beberapa kali [14]. Alih-alih secara
acak membagi total sampel dalam analisis dan ketidaksepakatan kelompok sekali, peneliti secara
acak akan membagi total sampel dalam analisis dan ketidaksepakatan sampel beberapa kali, setiap
kali pengujian validitas fungsi diskriminan melalui pengembangan matriks klasifikasi dan rasio
hit . Kemudian beberapa rasio hit akan dirata-ratakan untuk mendapatkan ukuran tunggal.

VALIDASI SILANG Pendekatan cross-validasi untuk menilai validitas eksternal dilakukan


dengan beberapa subset dari total sampel [2, 3]. Pendekatan yang paling banyak digunakan adalah
metode berlipat. Cross-validasi didasarkan pada prinsip “meninggalkan-satu-out”. Penggunaan
paling umum dari metode ini adalah untuk memperkirakan k - 1 Subsamples, menghilangkan satu
pengamatan pada suatu waktu dari sampel k kasus. Sebuah fungsi diskriminan dihitung untuk
setiap sub-sampel dan kemudian kelompok keanggotaan prediksi pengamatan dihilangkan dibuat
dengan fungsi diskriminan diperkirakan pada kasus yang tersisa. Setelah semua prediksi
keanggotaan kelompok telah dibuat, satu per satu, matriks klasifikasi dibangun dan rasio hit
dihitung.

Cross-validasi cukup sensitif terhadap ukuran sampel yang kecil. Pedoman menyarankan
bahwa itu digunakan hanya ketika ukuran kelompok terkecil adalah setidaknya tiga kali jumlah
variabel prediktor, dan sebagian besar peneliti menyarankan rasio 5: 1 [11]. Namun, cross-validasi
mungkin merupakan satu-satunya pendekatan validasi mungkin dalam kasus di mana sampel asli
terlalu kecil untuk membagi ke dalam analisis dan ketidaksepakatan sampel tapi masih melebihi
pedoman sudah dibahas. Cross-validasi juga menjadi lebih banyak digunakan sebagai program
komputer utama menyediakan sebagai program pilihan.

Perbedaan profil Grup

Teknik validasi lain adalah dengan profil kelompok pada variabel independen untuk memastikan
korespondensi mereka dengan basis konseptual yang digunakan dalam formulasi model asli.
Setelah peneliti mengidentifikasi variabel independen yang membuat kontribusi terbesar dalam
membedakan antara kelompok, langkah berikutnya adalah untuk membuat karakteristik kelompok
berdasarkan kelompok berarti. Profil ini memungkinkan peneliti untuk memahami karakter
masing-masing kelompok sesuai dengan variabel prediktor.

Pendekatan lain adalah untuk profil kelompok pada satu set terpisah dari variabel yang harus
mencerminkan perbedaan kelompok yang diamati. profil yang terpisah ini memberikan penilaian
terhadap validitas eksternal dalam kelompok bervariasi pada kedua variabel independen (s) dan
set variabel terkait.

Você também pode gostar