Você está na página 1de 8

ANALISA PERBANDINGAN KLASIFIKASI DENGANMETODE DECISION TREE, K-NEAREST NEIGHBOR,NAIVE BAYES, RULE BASED, DAN SIMPLE LOGISTICPADA DATA

JENIS BAHAN DASAR KACA GELAS Achmad Fuad Jurusan Sistem Informasi, Fakultas Teknologi Informasi Jl. Raya ITS - Gedung Teknik Informatika Institut Teknologi Sepuluh Nopember SurabayaSurabaya, IndonesiaTelp : (031) 5922949, Fax : (031) 5964965 E-mail : fuad@is.it.ac.id Abstraks Penelitian untuk penulisan artikel ini adalah untuk menyelidiki perbandingan dari berbagai macamklasifikasi data mining terhadap suatu data set. Perbandingan diukur dalam ketepatan dalam prediksiklasifikasi dan kecepatan waktu dalam memilih model. Data yang dijadikan data set adalah data bahan dasar dari kaca gelas yang terdapat persentase beberapa macam logam kandungan kaca gelas tersebut.Perbandingan algoritma akan dilihat berdasarkan nilai average precision dan recall (ketepatan dalammemprediksi) serta time taken to build (kecepatan waktu dalam memilih model). Dalam penelitian ini,algoritma yang dibandingkan adalah decision tree, naive bayes, KNN, rule based, dan simple logistic. Denganmenggunakan alat bantu WEKA (Waikato Environment for Knowledge Analysis) versi 3.6, dapat disimpulkanalgoritma yang memiliki kinerja yang lebih unggul adalah KNN. 1. LATAR BELAKANG MASALAH Kaca gelas adalah benda yang sangat umumdigunakan dalam kehidupan sehari-hari. Kaca gelasbisa menjadi bahan penting untuk barang tertentuatau hanya sebagai pelengkap maupun hiasan daribarang tersebut. Seiring berkembangnya jamankaca gelas dipakai di dalam berbagai bentuk danwarna. Sehingga bahan dasar pembuat kaca yangawalnya hanya beberapa kandungan logam,sekarang juga semakin bervariasi. Dengan alasanuntuk dapat mencapai kualitas kaca gelas yang baik dan sesuai kebutuhan.Karena sifat dari kaca gelas ini yang rapuh ataukurang bisa melindungi terhadap tekanan atautabrakan sehingga kaca gelas ini bisa dikategorikansebagai benda yang berbahaya. Dari faktor tersebutkaca gelas sering digunakan sebagai alat untuk melukai ataupun bisa menjadi barang bukti darisuatu kendaraan ataupun barang yang terbuat darikaca gelas yang megidentifikasikan penggunanyaatau pemiliknya. Sehingga dari bahan dasar kacagelas tersebut bisa kita ketahui jenis kaca gelas apayang ditemukan. Sehingga bisa membantu dalampelacakan kasus pembunuhan, kasus tabrakan ataukecelakaan.Oleh sebab itu jika kita ingin mengindentifikasibahan dasar kaca gelas sebagai barang bukti yangbisa membantu pelacakan harus mengetahuikarakteristik dari kaca gelas yang kandunganlogamnya berbeda satu dengan yang lain. Makapenulis akan melakukan analisa klasifikasi databerdasarkan seluruh jenis bahan dasar kaca gelasyang ada dengan 5 metode klasifikasi yaituDecision tree, Rules Base, K-Nearest Neighbor,Naive Bayes dan Simple Logistic. Analisadilakukan dengan aplikasi Weka 3.6. AplikasiWeka 3.6 digunakan untuk menjamin keakuratanformulasi dari data.Penggunaan 5 metode klasifikasi tersebutbertujuan untuk menganalisa dan membandingkantime taken to build (kecepatan waktu dalammemilih model) dan average precision and recall(ketepatan dalam memprediksi) yang terbaik darisetiap metode klasifikasi yang digunakan. Dandiharapkan dengan adanya analisa ini dapatmemudahkan dalam klasifikasi jenis kaca gelasberdasar kandungan logam yang terdapat didalamnya.

2.TEORI PENUNJANG2.1. Metode Decision Tree (J48) Decision tree adalah algoritma yang palingbanyak digunakan untuk masalahpengklasifikasian. Algoritma yang digunakan padaDecision tree adalah J48 yang merupakan variandari C45 yang dikembangkan dalam bahasapemrograman java. J48 berfungsi utnuk memeriksainformation gain yang telah dinormalisasi yang menghasilkan atribut yang dipilih untuk memilahdata.Decision tree juga merupakan salah satu metodeklasifikasi yang menggunakan representasi strukturpohon (tree) dimana setiap node merepresentasikanatribut, cabangnya merepresentasikan nilai dariatribut, dan daun merepresentasikan kelas. Nodeyang paling atas dari decision tree disebut sebagairoot. Gambar 1 Decision Tree Pada decision tree terdapat 3 jenis node, yaitu:a. Root Node, merupakan node paling atas,pada node ini tidak ada input dan bisatidak mempunyai output atau mempunyaioutput lebih dari satu.b. Internal Node, merupakan nodepercabangan, pada node ini hanya terdapatsatu input dan mempunyai output minimaldua.c. Leaf node atau terminal node, merupakannode akhir, pada node ini hanya terdapatsatu input dan tidak mempunyai output.Tujuan dari penggunaan Decision tree adalahuntuk melakukan prediksi atau menjelaskanpembagian klasifikasi class pada setiap atribut. 2.2. Metode K-Nearest Neighbor ( IBk ) Metode K-Nearest Neighbor adalah sebuahmetode untuk melakukan klasifikasi terhadapobjek, berdasarkan data pembelajaran yang jaraknya dekat dengan objek tersebut, sesuai jumlah tetangga terdekatnya atau nilai k.Klasifikasi K-Nearest Neighbor dilakukandengan mencari k buah tetangga terdekat dari datauji dan memilih kelas dengan anggota terbanyak.Dekat atau jauhnya tetangga tersebut biasanyadihitung berdasarkan jarak euclidean. 2.3. Metode Naive Bayes Klasifikasi Bayesian adalah klasifikasi statistik yang bisa memprediksi probabilitas sebuah class.Klasifikasi Bayesian ini dihitung berdasarkanTeorema Bayes berikut ini : | = | Berdasarkan rumus di atas kejadian H merepresentasikan sebuah kelas dan X merepresentasikan sebuah atribut. P(H)

disebut prior probability H , contoh dalam kasus ini adalahprobabilitas kelas yang mendeklarasikan normal. P(X ) merupakan prior probability X , contoh untuk probabilitas sebuah atribut protocol _type. P(H|X) adalah posterior probability yang merefleksikanprobabilitas munculnya kelas normal terhadap dataatribut protocol _type . P(X|H) menunjukkankemungkinan munculnya prediktor X ( protocol_type ) pada kelas normal . Dan begitu jugaseterusnya untuk proses menghitung probabilitaske-empat kelas lainnya. 2.4. Metode Rule Based Klasifikasi Rule Base adalah teknik klasifikasidata menggunakan kaidah jika maka. Klasifikasi ini juga menggunakan metode dalam data mining danbisa diperoleh dari tree decision. Rule yangdiperoleh dari tree decision bisa dikategorikanberdasarkan jumlah data benar yang di cakup yaitusmall disjunct dan large disjunct. Large disjunctadalah rule yang mencakup data benar dalam jumlah yang relatif besar. Sedangkan Smalldisjunct adalah rule yang mencakup data benardalam jumlah yang sedikit, sehingga seringmenyebabkan kesalahan klasifikasi pada datatesting. Walaupun sebuah small disjunct mencakupdata yang relatif kecil, sekumpulan small disjunctbisa mencakup data dalam jumlah yang besar.Bagaimanapun diperlukan pendekatan yang tepatuntuk menangani small disjunct ini. 2.5. Metode Simple Logistic Model klasifikasi untuk membangun modellinier regresi logistik. Dengan fungsi regresisederhana sebagai pembelajaran dasar yangdigunakan untuk menyesuaikan model logistik.untuk melakukan iterasi Simple Logistic denganoptimal adalah dengan menggunakan cross-validated, yang mengarah ke pemilihan atributotomatis.Model ini telah terbukti sangat akurat dansesuai dalam proses klasifikasi. Masalah utama darimodel ini adalah kompleksitas dalam komputasiuntuk merancang model regresi logistik pada tree.Dapat diatasi dengan menggunakan kriteria AIC untuk mencegah overfitting model tersebut. Selainitu, pemotogan berat heuristik yang digunakanuntuk menghasilkan percepatan yang signifikan. 2.6.

Precision & Recall Precision menunjukkan perbandingan antara jumlah data yang relevan yang di dapat dari sistemdengan jumlah keseluruhan data yang dilakukansistem. Recall menunjukkan perbandingan antara jumlah data yang relevan yang didapat dari sistemdengan jumlah keseluruhan data yang seharusnyarelevan. Secara matematis precision dan recall dapat dihitung dengan rumusan sebagai berikut: =| || | =| 2.7. Weka ( Waikato Environment for Knowledge Analysis) Weka adalah aplikasi data mining open sourceberbasis Java. Aplikasi ini dikembangkan pertamakali oleh Universitas Waikato di Selandia Barusebelum menjadi bagian dari Pentaho.Weka terdiri dari koleksi algoritma machinelearning yang dapat digunakan untuk melakukangeneralisasi / formulasi dari sekumpulan datasampling .Walaupun kekuatan Weka terletak pada algoritmayang makin lengkap dan canggih, kesuksesan datamining tetap terletak pada faktor pengetahuanmanusia implementornya. Tugas pengumpulan datayang berkualitas tinggi dan pengetahuanpemodelan dan penggunaan algoritma yang tepatdiperlukan untuk menjamin keakuratan formulasiyang diharapkan. 3. DATA YANG DIGUNAKAN Data training set yang digunakan adalah data setklasifikasi jenis bahan dasar kaca gelas yang tepatuntuk membedakan kaca gelas tersebut termasuk dalam kategori tertentu berdasarkan atribut kacagelas, dimana atribut nya terdiri dari indeks bias(perbandingan antara kecepatan cahaya dalamruang hampa udara dengan cepat rambat cahayapada suatu media), dan persen dari kandunganlogam bahan dasar kaca gelas seperti Sodium,Magnesium, Aluminium, Silikon, Potassium,Kalsium, Barium dan Besi (satuan pengukuran).Dan kelas yang ada pada dataset terdiri dari 7 kelasyaitu building windows float processed (kaca gelas jenis jendela bangunan yang bisa meng pung dalamair), building windows non float processed (kacagelas jenis jendela bangunan yang tidak bisamengapung dalam air), vehicle windows floatprocessed (kaca gelas jenis jendela kendaraan yangbisa mengapung dalam air), vehicle windows nonfloat processed (kaca gelas jenis jendela kendaraanyang tidak bisa mengapung dalam air), containers(kaca gelas jenis wadah), tableware (kaca gelas jenis barang pecah belah), headlamps (kaca gelas jenis lampu depan kendaraan). || |

Tabel 1 Nama Atribut, Keterangan dan Value No NamaAtributKeterangan Value1 Indeks Bias Perbandinganantarakecepatancahaya dalamruang hampaudara dengancepat rambatcahaya padasuatu mediainteger2 KandunganSodium(Na)SatuanpengukuranSodium,persen dari jumlahkandungantotal beratbenda.Integer (4-10)3 KandunganMagnesium(Mg)SatuanpengukuranMagnesium,persen dari jumlahkandungantotal beratbenda.Integer (4-10)4 KandunganAluminium(Al)SatuanpengukuranAluminium,persen dari jumlahkandungantotal beratbenda.Integer (4-10)5 KandunganSilicon (Si)SatuanpengukuranSilicon,persen dari jumlahkandungantotal beratbenda.Integer (4-10)6 KandunganPotassium(K)SatuanpengukuranPotassium,persen dari jumlahkandungantotal beratInteger (4-10)

benda.7 KandunganCalsium(Ca)SatuanpengukuranCalsium,persen dari jumlahkandungantotal beratbenda.8 KandunganBarium(Ba)SatuanpengukuranBarium,persen dari jumlahkandungantotal beratbenda.9 KandunganBesi (Fe)SatuanpengukuranBesi, persendari jumlahkandungantotal beratbenda. 4. METODE PENELITIAN Penelitian dilakukan terhadapdiperolehhttp://archive.ics.uci.edu/ml/datasetcationsebanyak 214 record danmenjadi 9 atribut. Klasifikasi dilmenerapkan metode Decision Treeteknik J48), K-Nearest Neighborteknik Lazy IBK), Naive Bayesteknik Naive Bayes), Rule Basedteknik ZeroR), Dan Simple Logistiteknik Simple Logistic) yang tela tools data mining yakni WEKA 3.6. Integer (4-10)Integer (4-10)Integer (4-10) ata set yangdaris /Glass+Identifidikelompokkanakukan dengan(menggunakan(menggunakan(menggunakan(menggunakan(menggunakantersedia pada2. Gambar 2 Flowchart PKlasifik 5. HASIL DAN PEMBA Sebelum dapat digunak pengujian, dataset tersebutmenjadi format yang sesuaiWEKA yaitu ARFF.penghapusan missing valuedataset. Gambar 3 Tab MulaiMempersiapka data yandalam 10 variaDataset disimpamformat arff Menggunakan data dengpada WEKA untukMenggunakan modul clalgoritma decision tree,naive bayes, KNN, simMenggunakan hasiluntuk perbandingaalgoritmaSelesai nggunaan Weka utksi ASAN n sebagai input dalamharus dikonversikanengan format file dariKemudian dilakukans yang terdapat pada l data ARFF d iekstrasi kebeldalaman format arff ianalisisssify denganrule based,le logistics.l outputn ketiga

Você também pode gostar