Você está na página 1de 6

ANALISIS ALGORITMA K-NN DAN NAVE BAYES UNTUK

KLASIFIKASI PEMBELIAN MOBIL

Yoga Religia
Magister Teknik Informatika
Universitas Dian Nuswantoro Semarang
religia19@gmail.com

Abstrak
Klasifikasi merupakan salah satu teknik yang terdapat pada data mining. Dalam teknik
klasifikasi terdapat beberapa algoritma yang dapat digunakan, dua diantaranya yaitu K-NN
dan Nave Bayes. Isi dari paper adalah tentang analisis perbandingan penggunaan algoritma
K-NN dan Nave Bayes untuk klasifikasi pembelian mobil. Dataset yang digunakan merupakan
dataset global yang terdiri dari enam atribut dependent dan satu atribut independent. Akurasi
yang dihasilkan menunjukkan untuk k-NN 87.81% sedangkan untuk Nave Bayes menunjukkan
presentase 93.99%.

Kata kunci : K-NN, Nave Bayes, Klasifikasi, Pembelian Mobil

I. PENDAHULUAN mana kehamilan yang baik dan mana yang


Data mining merupakan proses akan mengalami keguguran. Hasil dari
pengiriman informasi dari suatu algoritma penelitian tersebut memperoleh akurasi
(algoritma data mining) yang memiliki sekitar 95% [3].
akses ke dalam data [1]. Dalam data mining Nave Bayes merupakan algoritma
terdapat beberapa teknik yaitu klasifikasi data mining yang dapat digunakan untuk
dan regresi. Klasifikasi merupakan teknik melakukan klasifikasi. Nave Bayes pernah
data mining yang digunakan untuk diterapakan untuk mengklasifikasikan data
menentukan item dari dataset kedalam berdimensi tinggi. Data berdimensi tinggi
suatu kategori atau kelas. Tujuan dari yang dimaksud adalah data yang memiliki
klasifikasi adalah untuk memprediksi kelas proporsi atribut yang tidak relevan.
target secara akurat pada setiap kasus dalam Percobaan dilakukan dengan menggunakan
data [2]. K-NN dan Nave Bayes adalah document corpora dan gene micro-array
algoritma data mining yang dapat datasets yang menunjukkan efisiensi yang
digunakan untuk melakukan klasifikasi. sangat memuaskan dengan presentase
K-NN adalah algoritma data mining sekitar 98% [4].
yang dapat digunakan untuk melakukan Berdasarkan penelitian dari kasus-
regresi dan juga klasifikasi. K-NN pernah kasus sebelumnya, penelitian ini akan
digunakan untuk menguji hubungan antara menggunakan algoritma K-NN dan Nave
berat badan sebelum kehamilan, berat Bayes untuk melakukan klasifikasi
badan selama kehamilan dan dan juga indek pembelian mobil. Dataset yang digunakan
massa tubuh (IBM) yang kaitannya dengan merupakan dataset global yang memiliki
keguguran kehamilan. Dengan enam atribut dependent dan satu atribut
menggunakan K-NN dapat ditentukan independent [5].

1
Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang
II. LANDASAN TEORI 2.2. Nave Bayes
2.1. K-NN / K-Nearest Neighbor Teorema bayes yang dikenal juga
Algoritma K-Nearest Network (K-NN) sebagai Nave Bayes dikemukakan oleh
merupakan algoritma klasifikasi seorang pendeta presbyterian Inggris pada
berdasarkan K instances paling dekat tahun 1763 yang bernama Thomas Bayes .
denagn query instances yang diberikan dan Nave Bayes ini kemudian disepurnakan
kemudian melakukan pemilihan antara K oleh Laplace. Nave Bayes merupakan
tetangga yang terdekat untuk menghasilkan sebuah algoritma yang memanfaatkan
keluaran label dari query instances [7]. metode probabilitas dan statistik dengan
Algoritma K-NN mengansumsikan bahwa memprediksi probabilitas dimasa depan
semua instances disimpan pada tempat berdasarkan pada masa sebelumnya. Pada
yang sama dimana n merupakn fitur dasarnya teorema bayes dapat dirumuskan
instances yang telah didefinisikan. Matrik sebagai berikut :
distances yang digunakan adalah untuk
mengukur jaran antara instances. Pada P(B|A) P(A)
(|) =
pengukuran jarak dapat menggunakan P(B)
Manhattan distance dan Euclidean
distance. Misalkan x dan y merupakan 2 Pada rumus diatas dapat dilihat bahwa
instances yang didefinisikan sebagai <f1, peluang kejadian A sebagai B ditentukan
f2,,fn > maka menggunakan Manhattan dari peluang B saat A, peluang A dan
dan Euclidean jaraknya didefinisikan peluang B. pada pengaplikasiannya rumus
sebagai d1(x,y) dan d2(x,y), sehingga dapat tersebut akan dirubah menjadi [6] :
ditulis :
P(D| ) P( )
P( |D) =
1(, ) = | () () | P(D)
=1
Jika Xt sebagai sample pengujian dan
P(k|Xt) merupakan probabilitas dari Xt
2(, ) = | () () |2 yang ditugaskan kedalam kelas k, maka
=1
dalam model Nave bayes dapat dihitung
dengan:
Bagian yang paling berpengaruh pada
()
( |)
algoritma ini adalah nilai K. Nilai K yang P(k | ) =
( )
terbaik pada algoritma ini dipengaruhi oleh
data yang digunakan. Dengan mengguna-
Proses klasifikasi biasanya dibagi
kan optimasi parameter dapat diperoleh
kedalah 2 tahap yaitu training dan testing.
nilai K yang sesuai. Pada tahapan training
Pada tahap training sebagian dari data
algoritma ini hanya melakukan
yang sudah diketahui kelas datanya
penyimpanan vector-vektor fitur dan
digunakan untuk membentuk model
klasifikasi dari data training. Algoritma ini
prediksi. Sedangkan pada tahap testing,
dapat menghasilkan data yang kuat (jelas)
model yang sudah terbentuk diuji dengan
dan efektif apabila digunakan pada data
sebagian data yang lain untuk mengetahui
yang berukuran besar.
akurasi dari model tersebut.

2
Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang
III. DATASET Bayes akan menggunakan teknik split
Dataset yang digunakan dalam validation dan pengujian akan dilakukan
penelitian ini merupakan dataset global sebanyak 5 kali dengan setiap pengujian
yang diambil dari situs Knowledge dibagi menjadi data training dan data
Extractionbased on Evolutionary Learning testing yaitu 90% & 10%, 80% &20%,
(Keel-Dataset). Data yang diambil 70% & 30%, 60% & 40%, 50% & 50%.
merupakan data Car yang mana dari data 5. Analisis pengujian, yang akan dianalisis
Car tersebut memiliki 1.728 data yang pada penelitian ini adalah accuracy,
terdiri dari 6 atribut dependent dan satu precision, recall dan AUC dari masing-
atribut independent. masing algoritma.
Adapun atribut dependent yang 6. Hasil pengujian, dalam penelitian ini
dimiliki yaitu: akan dapat diketahui algoritma mana
1. Buying dengan value: vhigh, high, yang memiliki akurasi paling tinggi
medium, low. untuk dataset Car.
2. Maint dengan value: vhigh, high,
medium, low. Adapun tahapan pada penelitian ini
3. Doors dengan value: 2, 3, 4, 5more dapat dilihat pada gambar 3.1 :
4. Persons dengan value: 2, 4, more.
5. Lug_boot dengan value: small,
medium, big.
6. Safety dengan value: low, medium,
high.
Sedangkan untuk atribut independent yaitu
Acceptability dengan value unacc, acc.

IV. METODE PENELITIAN


Pada penelitian ini akan dilakukan
tahapan-tahapan yang meliputi:
1. Penggunaan dataset yang mana dataset
tersebut berasal dari Keel-Dataset,
berupa dataset Car.
2. Penentuan algoritma yang digunakan.
Adapun algoritma yang akan digunakan
dalam penelitian ini yaitu algoritma
K-NN dan Nave Bayes.
3. Implementasi, implementasi pada
penelitian ini akan menggunakan
software RapidMiner 5.3. Gambar 3.1 Tahapan Penelitian
4. Pengujian, untuk pengujian pada
algoritma K-NN akan dilakukan 5 kali V. HASIL PENGUJIAN
dengan memberikan nilai K yang 5.1. Hasil Pengujian K-NN
berbeda pada setiap pengujian yaitu 1, 3, Berdasarkan hasil pengujian
5, 7 dan 9. Sedangkan untuk Nave menggunakan RapidMiner 5.3, maka

3
Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang
diperoleh accuracy, precision, dan recall
k-NN sebagai berikut :
Tabel 5.1 Hasil Pengujian k-NN
Nilai K Akurasi Precision Recall AUC
1 81.66 98.60 40.30 0.500
3 86.75 99.01 57.03 0.923
5 89.12 99.13 64.83 0.977
7 89.47 99.14 65.97 0.990
9 92.07 98.99 74.71 0.996

Gambar 5.1 Diagram Accuracy, Precision, Apabila hasil yang diperoleh diambil rata-
Recall k-NN rata maka diperoleh accuracy sebesar
87.814%, precision sebesar 98.974%,
Pada gambar 5.1 menunjukkan hasil recall sebesar 60.568%, dan AUC sebesar
accuracy untuk k=1 sebesar 81.66%, k=3 0.8772.
sebesar 86.75%, k=5 sebesar 89.12%, k=7
sebesar 89.47%, dan k=9 sebesar 92.07%. 5.2. Hasil Pengujian Nave Bayes
Hasil untuk precision diperoleh k=1 Berdasarkan hasil pengujian
sebesar 98.60%, k=3 sebesar 99.01%, k=5 menggunakan RapidMiner 5.3, maka
sebesar 99.13%, k=7 sebesar 99.14%, dan diperoleh accuracy, precision, dan recall
k=9 sebesar 98.99%. Hasil untuk recall Nave Bayes sebagai berikut :
diperoleh k=1 sebesar 40.30%, k=3 sebesar
57.03%, k=5 sebesar 64.83%, k=7 sebesar
65.97%, dan k=9 sebesar 74.71%.
Sedangkan untuk AUC k-NN hasilnya
adalah sebagai berikut:

Gambar 5.3 Diagram Accuracy, Precision,


Recall Nave Bayes

Pada gambar 5.1 menunjukkan hasil


accuracy untuk training = 90% dan testing
Gambar 5.2 Diagram AUC k-NN = 10% sebesar 93.06%, training = 80% dan
testing = 20% sebesar 94.51%, training =
Pada gambar 5.2 menunjukkan hasil 70% dan testing = 30% sebesar 94.21%,
AUC untuk k=1 sebesar 0.500, k=3 sebesar training = 60% dan testing = 40% sebesar
0.923, k=5 sebesar 0.977, k=7 sebesar 93.63%, dan training = 50% dan testing =
0.990, dan k=9 sebesar 0.996. Adapun 50% sebesar 94.56%. Hasil precision untuk
secara keseluruhan hasil pengujian k-NN training = 90% dan testing = 10% sebesar
dapat dilihat pada tabel 5.1. 86.96%, training = 80% dan testing = 20%
4
Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang
sebesar 88.54%, training = 70% dan testing Apabila hasil yang diperoleh diambil rata-
= 30% sebesar 90.26%, training = 60% dan rata maka diperoleh accuracy sebesar
testing = 40% sebesar 90%, dan training = 93.994%, precision sebesar 89.236%,
50% dan testing = 50% sebesar 90.42%. recall sebesar 90.698%, dan AUC sebesar
Hasil recall untuk training = 90% dan 0.9886.
testing = 10% sebesar 86.96%, training =
80% dan testing = 20% sebesar 95.65%, 5.3. Analisi Pengujian
training = 70% dan testing = 30% sebesar Dari pengujian pada algoritma k-NN
90.26%, training = 60% dan testing = 40% dan Nave Bayes menggunakan dataset Car
sebesar 89.15%, dan training = 50% dan yang sudah dilakukan maka diperoleh
testing = 50% sebesar 91.47%. Sedangkan perbandingan antara algoritma k-NN dan
untuk AUC Nave Bayes hasilnya adalah Nave Bayes (NB) yang dapat dilihat pada
sebagai berikut: tabel 5.3.
Tabel 5.3 Analisis Pengujian k-NN dan
Nave Bayes
k-NN NB Unggul
Accuracy 87.81% 93.99% NB
Precision 98.97% 89.24% k-NN
Recall 60.56% 90.70% NB
AUC 0.877 0.988 NB

Dari tabel 5.3 dapat dilihat bahwa algoritma


k-NN hanya unggul pada bagian precision
Gambar 5.4 Diagram AUC Nave Bayes
saja. Sedangkan untuk Nave Bayes unggul
pada bagian accuracy, recall, dan AUC.
Pada gambar 5.4 menunjukkan hasil
AUC pada training = 90% dan testing =
VI. KESIMPULAN
10% sebesar 0.986, training = 80% dan
Hasil pengujian menunjukkan bahwa
testing = 20% sebesar 0.989, training =
pada penelitian ini diperoleh accuracy
70% dan testing = 30% sebesar 0.989,
Nave Bayes lebih tinggi dari pada
training = 60% dan testing = 40% sebesar
accuracy k-NN dengan perbandingan
0.989, dan training = 50% dan testing =
87.81% (k-NN) dan 93.99% (Nave Bayes).
50% sebesar 0.990. Adapun secara
Sedangkan pada bagian precision
keseluruhan hasil pengujian Nave Bayes
menunjukkan hasil k-NN yang lebih tinggi
dapat dilihat pada tabel 5.2.
dari pada Nave Bayes dengan
Tabel 5.2 Hasil Pengujian Nave Bayes
Training Akurasi Precision Recall AUC
perbandingan 98.97% (k-NN) dan 89.24%
& Testing (Nave Bayes). Pada bagian recall, Nave
90%&10 % 93.06 86.96 86.96 0.986 Bayes kembali memperoleh hasil yang
80%&20 % 94.51 88.54 95.65 0.989 lebih tinggi dari pada k-NN dengan
70%&30 % 94.21 90.26 90.26 0.989 perbandingan 60.56% (k-NN) dan 90.70%
60%&40 % 93.63 90 89.15 0.989 (Nave Bayes). Terakhir pada bagian AUC
50%&50 % 94.56 90.42 91.47 0.990 Nave Bayes juga memperoleh hasil yang
lebih tinggi dari pada k-NN dengan

5
Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang
perbandingan 0.877 (k-NN) dan 0.988
(Nave Bayes).

VII. SARAN
Dalam penelitian analisis algoritma k-
NN dan Nave Bayes untuk klasifikasi
pembelian mobil ini terdapat beberapa hal
yang perlu diperhatikan supaya menjadi
lebih baik kedepannya, diantaranya yaitu
untuk dataset dan atribut didalamnya dapat
menggunakan jumlah data dan atribut yang
lebih banyak dan komplek.

DAFTAR PUSTAKA
[1] T. D. Bei, "An Information Theoretic
Framework for Data Mining," pp. 564-
572, 24 Agustus 2011.
[2] G. Kesavaraj and S. Sukumaran, "A
Study On Classification Techniques in
Data Mining," 6 July 2013.
[3] H. Qureshi, M. Khan, S. M. Aser and
R. Hafiz, "Association of Pre-
pregnancy Weight and Weight Gain
with Perinatal Mortality," 23 Desember
2010.
[4] S. Wang and L. Chen, "Automated
Feature Weighting in Naive Bayes for
High-dimensional Data Classification,"
ACM 978-1-4503-1156-4/12/10, pp.
1243-1252, 2012.
[5] Keel-Dataset, http://sci2s.ugr.es/keel/
dataset/data/classification/car.zip,2015.
[6] A. Rane, N. Naik and J.
Laxminarayana, "Performance
Enhancement of K Nearest Neighbor
Classification Algorithm Using 8-Bin
Hashing and Feature Weighting," ACM
978-1-4503-2908-8/14/08, 2014.
[7] S. Mukherjee and N. Sharma, "Layered
Approach for Intrusion Detection
Using Nave Bayes Classifier," ACM
978-1-4503-1196-0/12/08, pp. 639-
644, 2012.
6
Artikel Ilmiah Data mining 27/09/2015
Universitas Dian Nuswantoro Semarang

Você também pode gostar