Você está na página 1de 11

PRINCIPAL COMPONENT ANALYSIS

(ANALISIS KOMPONEN UTAMA)

Disusun Untuk Memenuhi Tugas Mata Kuliah Teknik Analisis Data


Dosen Pengampu: Drs. Isnandar Slamet, M.Si, Phd

Disusun oleh:
ANGGIK YULIANTO
NIM: S851608002
Kelas: 1B

PROGRAM STUDI MAGESTER PENDIDIKAN MATEMATIKA


FAKULTAS KEGURUAN DAN ILMU PENDIDIKAN
UNIVERSITAS SEBELAS MARET
SURAKARTA
2016
Analisis Komponen Utama
(Principal Component Analysis)

A. LANDASAN TEORI
Analisis Komponen Utama (Principal Component Analysis) adalah
analisis multivariate yang mentransformasi variabel-variabel asal yang saling
berkorelasi menjadi variabel-variabel baru yang tidak saling berkorelasi dengan
mereduksi sejumlah variabel tersebut sehingga mempunyai dimensi yang lebih
kecil namun dapat menerangkan sebagian besar keragaman variabel aslinya.
Banyaknya komponen utama yang terbentuk sama dengan banyaknya
variabel asli. Pereduksian (penyederhanaan) dimensi dilakukan dengan kriteria
persentase keragaman data yang diterangkan oleh beberapa komponen utama
pertama. Apabila beberapa komponen utama pertama telah menerangkan lebih
dari 75% keragaman data asli, maka analisis cukup dilakukan sampai dengan
komponen utama tersebut
Prosedur PCA pada dasarnya adalah bertujuan untuk menyederhanakan
variabel yang diamati dengan cara menyusutkan (mereduksi) dimensinya. Hal
ini dilakukan dengan cara menghilangkan korelasi diantara variabel bebas
melalui transformasi variabel bebas asal ke variabel baru yang tidak berkorelasi
sama sekali atau yang biasa disebut dengan principal component.
Misalkan merupakan matriks berukuran , dengan baris-baris yang
berisi observasi sebanyak dari -variat variabel acak . Analisis komponen
utama merupakan salah satu metode untuk mereduksi dimensi dari variabel
acak . Reduksi dimensi dilakukan dengan mendefinisikan p-variat variabel
acak baru dimana masing masing ,=1,, merupakan kombinasi linear
dari p-variat variabel acak , sehingga informasi yang dimiliki oleh p-variat
variabel acak tetap termuat pada masing-masing anggota dari p-variat
variabel acak baru . Dengan demikian, dapat kita pilih beberapa anggota dari
p-variat variabel acak sebagai bentuk reduksi dari p-variat variabel acak
tanpa menghilangkan terlalu banyak informasi. Proses pendefinisian p-varait
variabel acak sering disebut juga pembobotan, dimana:
p p
Y i= T X = j X j , i=1, , p sehingga j2 =1
j=1 j=1

Dengan = (1, 2, , ) dan = (1, 2, , ) . ( disebut dengan


vektor pembobotan).
Agar variabel acak baru mampu mewakili variasi dari -variat variabel acak
, akan dipilih arah-arah sehingga memiliki variansi yang besar:

Dapat dilihat dari persamaan diatas bahwa memaksimumkan variansi


dari sama saja dengan memaksimumkan jumlahan dari kuadrat panjang
proyeksi ( ) pada .
Dari ilustrasi gambar di samping,
karena jarak ke pusat ordinat selalu
konstan, dapat disimpulkan bahwa
memaksimumkan jumlahan kuadrat
panjang proyeksi sama saja dengan
meminimumkan jarak antara titik yang
akan diproyeksikan ( ) dengan vektor . Hal ini lah yang membedakan
konsep dari Principal Component analisis dengan regresi. Untuk lebih jelasnya
dapat dilihat pada gambar berikut.
Dari persamaan yang telah dipaparkan sebelumnya, memaksimumkan
variansi dari proyeksi, yaitu () sama saja dengan memaksimumkan
nilai dari (). Untuk memaksimumkan nilai dari (), kita
gunakan teorema berikut:

Teorema
Jika dan merupakan matriks simetri, dan > 0, maka nilai maksimum
T
x Ax
dari x T Bx diberikan oleh nilai eigen terbesar dari 1. Secara umum,

x T Ax xT Ax
max T
= 1 2 p =min T
x Bx x Bx

Dimana 1, 2, , menotasikan nilai eigen dari 1. Vektor yang


x T Ax
meminimumkan (memaksimumkan) x T Bx merupakan vektor eigen
Berdasarkan teorema diatas, karena () merupakan matriks simetri,
maka nilai dari () yang terbesar sama dengan nilai eigen value
terbesar dari matriks kovariansi = () . Secara umum:
,sehingga arah yang memberikan nilai () terbesar ialah vektor eigen
dari () dengan nilai eigen terbesar dimana vektor eigen tersebut
merupakan vektor kolom dari . Matriks () bersifat semi definit positif
sehingga nilai eigennya tidak mungkin negatif. Pada bidang aljabar, proses
diatas serupa dengan mengubah basis baku menjadi basis vektor eigen dengan
vektor eigen sebagai matriks perubahan basis. Jika nilai lambda tidak ada yang
sama, maka vektor eigen yang terbentuk merupakan basis orthonormal, yaitu
vektor-vektor yang saling tegak lurus dengan masing-masing vektor memiliki
panjang 1 unit.
Catatan: Principal component analysis dihitung melalui matriks kovariansinya,
maka seperti halnya matriks kovariansi, nilainya akan bergantung pada satuan
yang digunakan.

B. Aplikasi Analisis Komponen Utama pada Data Nilai Mahasiswa


Berikut ialah contoh aplikasi analisis komponen utama pada data nilai
wisudawan matematika angkatan 2007 (Data dapat dilihat pada bagian
lampiran). merupakan matriks berukuran , dengan merupakan jumlah
mahasiswa (101 mahasiswa) dan merupakan jumlah mata kuliah (14 mata
kuliah). Baris-baris matriks berisi nilai masing-masing mahasiswa untuk ke
14 mata kuliah. Kita Definisikan 14-variat variabel acak sebagai berikut:
1 = nilai Fisika I A 8 = nilai Kalkulus Peubah Banyak
2 = nilai Kalkulus IA 9 = nilai Komputasi Matematika
3 = nila Fisika II A 10 = nilai Metode Matematika
4 = nilai Kalkulus II A 11 = nilai Pengantar Analisis Kompleks
5 = nilai Aljabar Linier Elementer A 12 = nilai Matematika Numerik
6 = nilai Matematika Diskrit 13 = nilai Teori Peluang
7 = nilai Analisis Data 14 = nilai Pengantar Analisis Real
Langkah-langkah yang harus dilakukan untuk mencari reduksi variabel
menggunakan analisis komponen utama ialah sebagai berikut:
1. Mencari matriks kovariansi empirik dari 14-variat variabel acak yaitu =
().
Matriks Kovariansi empirik ialah matriks yang nilai-nilai kovariansi
pada tiap cell-nya diperoleh dari sampel. Misalkan Y dan Z ialah variabel
acak, maka:

2. Mencari nilai eigen dan vektor eigen dari matriks kovariansi empirik yang
telah diperoleh.
Nilai eigen dan vektor eigen dapat dihitung menggunakan program
matlab. Nilai eigen diurutkan mulai dari nilai yang terbesar hingga terkecil.
Matriks yang kolom-kolomnya berisi vektor eigen dari nilai eigen terkait
disesuaikan urutannya berdasarkan nilai eigen yang telah urut. Dengan
menggunakan algoritmat matlab , diperoleh 14 nilai-nilai eigen yang telah
diurutkan,yaitu :
= (3.4970, 0.6452, 0.5314, 0.4311, 0.3915, 0.3630, 0.3450, 0.2437,
0.2171, 0.2046, 0.1771, 0.1380, 0.1213, 0.0936)

Masing-masing variabel baru yang terbentuk memiliki variansi


yang besarnya sama dengan nilai eigen yang terkait dengan vektor eigen
pembentuknya. Grafik diatas ditampilkan untuk memperjelas penurunan
variansi (nilai eigen) yang terjadi.
3. Menghitung proporsi variansi masing-masing PC beserta nilai akumulasi
untuk q-PC pertama.
Ukuran seberapa baik q -PC pertama mampu menjelaskan variansi

1 j

j
diberikan melalui proporsi relatif = p . Tabel dibawah ini
1 j

memperlihatkan proporsi variansi dari masing-masing PC serta nilai


akumulasinya jika kita menggunakan q-PC pertama.

Pemilihan banyak PC yang akan digunakan tergantung dari


kebutuhan. Dapat kita lihat bahwa 2 PC saja mampu menyerap variansi
sebesar 56%, apabila persentasi ini dirasa cukup, dapat kita gunakan 2 PC
yang ada. Pemilihan 2 hingga 3 PC lebih sering dilakukan untuk
mempermudah visualisasi. Apabila kita menginginkan jumlah PC yang lebih
dari 50 persen dan memberikan akumulasi variansi yang cukup
signifikan,maka dapat kita lihat melalui kecuraman (gradien) dari grafik
akumulasi variansi q-PC. Digunakan garis-garis linier untuk mempermudah
visualisasi perubahan gradien yang terjadi. Semakin landai gradien antara 2
titik yang ada, maka semakin kecil perubahan akumulasi variansi yang
dijelaskan.
Dari plot diatas, dapat dilihat bahwa pemilihan 3 PC dapat dibilang
cukup baik karena viualisasi yang mudah serta nilai pertambahan akumulasi
PC yang signifikan. Pemilihan 3 PC mampu menjelaskan 63% variansi
dibandingkan dengan apabila kita menggunakan 14 PC yang ada.

4. Interpretasi Hasil dari Analisis Komponen Utama


Untuk mempermudah visualisasi dan interpretasi, maka kita pilih 2-
PC dengan nilai eigen terbesar. Berikut disajikan hasil PC pertama (1) dan
kedua (2) dari data nilai yang telah dipaparkan diatas:
1 = 0.0675 nilai Fisika I A + 0.1866 nilai Kalkulus IA + 0.0735 nilai Fisika
II A + 0.1595 nilai Kalkulus II A + 0.2872 nilai Aljabar Linier Elementer A
+ 0.3110 nilai Matematika Diskrit + 0.2396 nilai Analisis Data + .
+ 0.1915 nilai Komputasi Matematika +
0.3303 nilai Metode Matematika + .
+ 0.3215 nilai Matematika Numerik + .
+ 0.1908 nilai Pengantar Analisis Real
Nilai dari 1 lebih banyak dijelaskan oleh variabel nilai Kalkulus
Peubah Banyak, nilai Pengantar analisis Kompleks, dan nilai Teori Peluang.
Hal ini dapat dilihat dari koefisien yang cukup besar dibanding variabel
lainnya.
Apabila sebuah variabel memiliki koefisien yan besar dan positif (negatif)
pada kombinasi linear yang mendefiniskan sebuah PC, maka dapat
dikatakan bahwa terdapat korelasi yang kuat dan positif (negatif) antara
variabel tersebut dengan PC yang didefinisikan.
Dapat disimpulkan bahwa apabila nilai 1 besar, maka nilai dari
Kalkulus Peubah Banyak, Pengantar analisis Kompleks, dan nilai Teori
Peluang juga besar. Namun, apabila kita melihat koefisien-koefisien yang
ada pada kombinasi linier diatas, dapat dikatakan bahwa koefisien yang ada
tidak terlalu berbeda jauh. Tidak ada nilai koefisien yang sangat besar baik
koefisien yang bernilai positif maupun negatif. Hal ini sebenarnya juga
memengaruhi seberapa bermanfaat penggunaan metode analisis komponen
utama pada data.
Analisis Komponen utama sebaiknya digunakan apabila nilai korelasi
antara q-PC yang digunakan dengan variabel-variabel awal (dalam hal ini
p-variat variabel acak X) memiliki nilai yang besar.
2 = 0.2355 nilai Fisika I A . 0.1441 nilai
Fisika II A 0.0497 nilai Kalkulus II A 0.1946 nilai Aljabar Linier
Elementer A . 0.1049 nilai Analisis Data
+ 0.1509 nilai Kalkulus Peubah Banyak + 0.2211 nilai Komputasi
Matematika + 0.3993 nilai Metode Matematika + 0.0267 nilai Pengantar
Analisis Kompleks + 0.1430 nilai Matematika Numerik + 0.3296 nilai Teori
Peluang 0.3438 nilai Pengantar Analisis Real
Nilai dari 2 dapat dijelaskan cukup baik oleh variabel nilai Kalkulus
IA dan nilai Matematika Diskrit. Koefisien pada kedua variabel bertanda
negatif. Hal ini mengindikasikan bahwa korelasi antara 2 dengan jumlahan
dari nilai Kalkulus IA dan nilai Metematika Diskrit negatif. Artinya, apabila
nilai dari variabel 2 dari seorang mahasiswa kecil, maka dapat disimpulkan
bahwa nilai Kalkulus dan nilai Matematika Diskrit dari mahasiswa tersebut
besar. Sehingga dengan melihat nilai dari 2 , kita dapat menarik kesimpulan
mengenai nilai Kalkulus IA dan nilai Matematika Diskrit. Berikut disajikan
Plot dari PC pertama terhadap PC kedua dari data yang ada.
Dari gambar scatterplot diatas, dapat disimpulkan bahwa:
1) Interval dari 1 lebih besar dari interval dari 2. Hal ini memperkuat bukti
bahwa 1 memiliki variansi yang lebih besar. Sehingga dapat dikatakan
bahwa jumlahan dari nilai Kalkulus Peubah Banyak, nilai Pengantar analisis
Kompleks, dan nilai Teori Peluang menghasilkan variansi yang besar.
2) Sebagian besar titik berada pada daerah yang dilingkupi oleh garis oval
berwarna biru. Pola ini menunjukkan kecenderungan dari mahasiswa
matematika angkatan 2007.
3) Beberapa titik berada di bagian pojok kiri bawah dari grafik. Titik-titik yang
berada pada bagian pojok kiri bawah dari grafik dapat dikatakan sebagai
pencilan karena tidak mengikuti kecenderungan yang dijelaskan pada poin 2
dan berada jauh dari garis oval berwarna biru. Titik-titik tersebut memiliki
nilai 1 dan 2 yang tergolong kecil, sehingga dapat disimpulkan bahwa
sebagian kecil mahasiswa memiliki jumlahan nilai Kalkulus Peubah
Banyak, Pengantar analisis Kompleks,dan nilai Teori Peluang yang kecil,
sedangkan jumlahan nilai Kalkulus IA dan nilai Matematika Diskrit besar .
4) Mahasiswa yang memiliki jumlahan nilai Kalkulus IA dan nilai Matematika
Diskrit paling besar memilki jumlahan nilai Kalkulus Peubah Banyak, nilai
Pengantar analisis Kompleks, dan nilai Teori Peluang yang tergolong tidak
besar. (lihat titik yang dilingkupi segitiga berwarna hijau)
Plot diatas sangat berguna apabila kita memberikan pendefinisian kategori
yang memasukkan masing-masing individu ke dalam sebuah kategori.
Pemberian warna pada scatterplot diatas dapat membantu visualisasi dari
kategori yang ada. Dengan melihat pola dari scatterplot dari tiap-tiap
kategori, maka kita dapat menyimpulkan karakteristik dari tiap- tiap
kategori.

Você também pode gostar