Escolar Documentos
Profissional Documentos
Cultura Documentos
Yoga Religia
Magister Teknik Informatika
Universitas Dian Nuswantoro Semarang
religia19@gmail.com
Abstrak
Klasifikasi merupakan salah satu teknik yang terdapat pada data mining. Dalam teknik
klasifikasi terdapat beberapa algoritma yang dapat digunakan, dua diantaranya yaitu K-NN
dan Nave Bayes. Isi dari paper adalah tentang analisis perbandingan penggunaan algoritma
K-NN dan Nave Bayes untuk klasifikasi pembelian mobil. Dataset yang digunakan merupakan
dataset global yang terdiri dari enam atribut dependent dan satu atribut independent. Akurasi
yang dihasilkan menunjukkan untuk k-NN 87.81% sedangkan untuk Nave Bayes menunjukkan
presentase 93.99%.
1
Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang
II. LANDASAN TEORI 2.2. Nave Bayes
2.1. K-NN / K-Nearest Neighbor Teorema bayes yang dikenal juga
Algoritma K-Nearest Network (K-NN) sebagai Nave Bayes dikemukakan oleh
merupakan algoritma klasifikasi seorang pendeta presbyterian Inggris pada
berdasarkan K instances paling dekat tahun 1763 yang bernama Thomas Bayes .
denagn query instances yang diberikan dan Nave Bayes ini kemudian disepurnakan
kemudian melakukan pemilihan antara K oleh Laplace. Nave Bayes merupakan
tetangga yang terdekat untuk menghasilkan sebuah algoritma yang memanfaatkan
keluaran label dari query instances [7]. metode probabilitas dan statistik dengan
Algoritma K-NN mengansumsikan bahwa memprediksi probabilitas dimasa depan
semua instances disimpan pada tempat berdasarkan pada masa sebelumnya. Pada
yang sama dimana n merupakn fitur dasarnya teorema bayes dapat dirumuskan
instances yang telah didefinisikan. Matrik sebagai berikut :
distances yang digunakan adalah untuk
mengukur jaran antara instances. Pada P(B|A) P(A)
(|) =
pengukuran jarak dapat menggunakan P(B)
Manhattan distance dan Euclidean
distance. Misalkan x dan y merupakan 2 Pada rumus diatas dapat dilihat bahwa
instances yang didefinisikan sebagai <f1, peluang kejadian A sebagai B ditentukan
f2,,fn > maka menggunakan Manhattan dari peluang B saat A, peluang A dan
dan Euclidean jaraknya didefinisikan peluang B. pada pengaplikasiannya rumus
sebagai d1(x,y) dan d2(x,y), sehingga dapat tersebut akan dirubah menjadi [6] :
ditulis :
P(D| ) P( )
P( |D) =
1(, ) = | () () | P(D)
=1
Jika Xt sebagai sample pengujian dan
P(k|Xt) merupakan probabilitas dari Xt
2(, ) = | () () |2 yang ditugaskan kedalam kelas k, maka
=1
dalam model Nave bayes dapat dihitung
dengan:
Bagian yang paling berpengaruh pada
()
( |)
algoritma ini adalah nilai K. Nilai K yang P(k | ) =
( )
terbaik pada algoritma ini dipengaruhi oleh
data yang digunakan. Dengan mengguna-
Proses klasifikasi biasanya dibagi
kan optimasi parameter dapat diperoleh
kedalah 2 tahap yaitu training dan testing.
nilai K yang sesuai. Pada tahapan training
Pada tahap training sebagian dari data
algoritma ini hanya melakukan
yang sudah diketahui kelas datanya
penyimpanan vector-vektor fitur dan
digunakan untuk membentuk model
klasifikasi dari data training. Algoritma ini
prediksi. Sedangkan pada tahap testing,
dapat menghasilkan data yang kuat (jelas)
model yang sudah terbentuk diuji dengan
dan efektif apabila digunakan pada data
sebagian data yang lain untuk mengetahui
yang berukuran besar.
akurasi dari model tersebut.
2
Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang
III. DATASET Bayes akan menggunakan teknik split
Dataset yang digunakan dalam validation dan pengujian akan dilakukan
penelitian ini merupakan dataset global sebanyak 5 kali dengan setiap pengujian
yang diambil dari situs Knowledge dibagi menjadi data training dan data
Extractionbased on Evolutionary Learning testing yaitu 90% & 10%, 80% &20%,
(Keel-Dataset). Data yang diambil 70% & 30%, 60% & 40%, 50% & 50%.
merupakan data Car yang mana dari data 5. Analisis pengujian, yang akan dianalisis
Car tersebut memiliki 1.728 data yang pada penelitian ini adalah accuracy,
terdiri dari 6 atribut dependent dan satu precision, recall dan AUC dari masing-
atribut independent. masing algoritma.
Adapun atribut dependent yang 6. Hasil pengujian, dalam penelitian ini
dimiliki yaitu: akan dapat diketahui algoritma mana
1. Buying dengan value: vhigh, high, yang memiliki akurasi paling tinggi
medium, low. untuk dataset Car.
2. Maint dengan value: vhigh, high,
medium, low. Adapun tahapan pada penelitian ini
3. Doors dengan value: 2, 3, 4, 5more dapat dilihat pada gambar 3.1 :
4. Persons dengan value: 2, 4, more.
5. Lug_boot dengan value: small,
medium, big.
6. Safety dengan value: low, medium,
high.
Sedangkan untuk atribut independent yaitu
Acceptability dengan value unacc, acc.
3
Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang
diperoleh accuracy, precision, dan recall
k-NN sebagai berikut :
Tabel 5.1 Hasil Pengujian k-NN
Nilai K Akurasi Precision Recall AUC
1 81.66 98.60 40.30 0.500
3 86.75 99.01 57.03 0.923
5 89.12 99.13 64.83 0.977
7 89.47 99.14 65.97 0.990
9 92.07 98.99 74.71 0.996
Gambar 5.1 Diagram Accuracy, Precision, Apabila hasil yang diperoleh diambil rata-
Recall k-NN rata maka diperoleh accuracy sebesar
87.814%, precision sebesar 98.974%,
Pada gambar 5.1 menunjukkan hasil recall sebesar 60.568%, dan AUC sebesar
accuracy untuk k=1 sebesar 81.66%, k=3 0.8772.
sebesar 86.75%, k=5 sebesar 89.12%, k=7
sebesar 89.47%, dan k=9 sebesar 92.07%. 5.2. Hasil Pengujian Nave Bayes
Hasil untuk precision diperoleh k=1 Berdasarkan hasil pengujian
sebesar 98.60%, k=3 sebesar 99.01%, k=5 menggunakan RapidMiner 5.3, maka
sebesar 99.13%, k=7 sebesar 99.14%, dan diperoleh accuracy, precision, dan recall
k=9 sebesar 98.99%. Hasil untuk recall Nave Bayes sebagai berikut :
diperoleh k=1 sebesar 40.30%, k=3 sebesar
57.03%, k=5 sebesar 64.83%, k=7 sebesar
65.97%, dan k=9 sebesar 74.71%.
Sedangkan untuk AUC k-NN hasilnya
adalah sebagai berikut:
5
Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang
perbandingan 0.877 (k-NN) dan 0.988
(Nave Bayes).
VII. SARAN
Dalam penelitian analisis algoritma k-
NN dan Nave Bayes untuk klasifikasi
pembelian mobil ini terdapat beberapa hal
yang perlu diperhatikan supaya menjadi
lebih baik kedepannya, diantaranya yaitu
untuk dataset dan atribut didalamnya dapat
menggunakan jumlah data dan atribut yang
lebih banyak dan komplek.
DAFTAR PUSTAKA
[1] T. D. Bei, "An Information Theoretic
Framework for Data Mining," pp. 564-
572, 24 Agustus 2011.
[2] G. Kesavaraj and S. Sukumaran, "A
Study On Classification Techniques in
Data Mining," 6 July 2013.
[3] H. Qureshi, M. Khan, S. M. Aser and
R. Hafiz, "Association of Pre-
pregnancy Weight and Weight Gain
with Perinatal Mortality," 23 Desember
2010.
[4] S. Wang and L. Chen, "Automated
Feature Weighting in Naive Bayes for
High-dimensional Data Classification,"
ACM 978-1-4503-1156-4/12/10, pp.
1243-1252, 2012.
[5] Keel-Dataset, http://sci2s.ugr.es/keel/
dataset/data/classification/car.zip,2015.
[6] A. Rane, N. Naik and J.
Laxminarayana, "Performance
Enhancement of K Nearest Neighbor
Classification Algorithm Using 8-Bin
Hashing and Feature Weighting," ACM
978-1-4503-2908-8/14/08, 2014.
[7] S. Mukherjee and N. Sharma, "Layered
Approach for Intrusion Detection
Using Nave Bayes Classifier," ACM
978-1-4503-1196-0/12/08, pp. 639-
644, 2012.
6
Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang