Você está na página 1de 7

PENGELOMPOKAN MAHASISWA

BERDASARKAN DATA AKADEMIK


MENGGUNAKAN ALGORITAM KMEANS
Kelompok 6 :
Arif Saripuddin
NurHidayat
Muhammad Luthfi S
Setiadi Jaka P

Data mining merupakan proses pengekstrakan informasi dari jumlah kumpulan data yang besar dengan

menggunakan algoritma dan tehnik gambar dari statistik, mesin pembelajaran dan sistem manajemen
database [2]. Data mining yang disebut juga dengan KnowledgeDiscovery in Database (KDD) adalah
sebuah proses secara otomatis atas pencarian data di dalam sebuah memori yang amat besar dari data
untuk mengetahui pola dengan menggunakan alat seperti klasifikasi, hubungan (association) atau
pengelompokan (clustering).
Secara sederhana, data mining dapat diartikan sebagai proses mengekstrak atau menggali
pengetahuan yang ada pada sekumpulan data. Banyak orang yang setuju bahwa data mining adalah
sinonim dari KnowledgeDiscovery in Database atau yang biasa disebut KDD. Dari sudut pandang yang
lain, data mining dianggap sebagai satu langkah yang penting didalam proses KDD. Menurut Han, J. and
Kamber, M, 2001, proses KDD ini terdiri dari langkah-langkah sebagai berikut :
1. Data Cleaning, proses menghapus data yang tidak konsisten dan kotor
2. Data Integration, penggabungan beberapa sumber data
3. Data Selection, pengambilan data yang akan dipakai dari sumber data
4. Data Transformation, proses dimana data ditransformasikan menjadi bentuk yang sesuai untuk diproses
dalam data mining
5. Data Mining, suatu proses yang penting dengan melibatkan metode untuk menghasilkan suatu pola data
6. Pattern Evaluation, proses untuk menguji kebenaran dari pola data yang mewakili knowledge yang ada
didalam data itu sendiri
7. Knowledge Presentation, proses visualisasi dan teknik menyajikan knowledge digunakan untuk
menampilkan knowledge hasil mining kepada user

Algoritma K-Means
Algoritman K-Means merupakan algoritma yang membutuhkan

parameter input sebanyak K dan membagi sekumpulan objek ke


dalam K Cluster sehingga tingkat kemiripan antar anggota dalam
satu cluster sangat tinggi dan kemiripan pada cluster lain sangat
rendah.
Kemiripan cluster di ukur dengan kedekatan objek terhadap nilai
mean pada cluster atau di sebut dengan Centroid Cluster Pusat
Massa
Posisi centroid akan dihitung kembali sampai semua komponen data
dikelompokkan ke setiap centroid dan terakhir akan terbentuk posisi
centroid baru. Iterasi ini akan terus dilakukan sampai tercipta kondisi
konvergen

K-Means Clustering
K-Means Clustering merupakan metode untuk mengklasifikasikan atau

mengelompokkan objek-objek (data) ke dalam K-group (cluster)


berdasarkan atribut tertentu. Pengelompokkan data dilakukan dengan
memperhitungkan jarak terdekat antara data-data (objek observasi)
dengan pusat cluster (centroid).
Prinsip utama dari metode ini adalah menyusun K buah centroid atau
rata-rata (mean) dari sekumpulan data berdimensi N, dimana metode ini
mensyaratkan nilai K sudah diketahui sebelumnya (apriori). Algoritma Kmeans dimulai dengan pembentukan prototipe cluster diawal kemudian
secara iteratif prototipe cluster tersebut diperbaiki sehingga tercapai
kondisi konvergen, yaitu kondisi dimana tidak terjadi perubahan yang
signifikan pada prototipe cluster.
Perubahan ini diukur dengan menggunakan fungsi objektif D yang
umumnya didefinisikan sebagai jumlah atau rata-rata jarak tiap item data
dengan centroid groupnya.

Algoritma K-means Clustering


1. Definisikan jumlah K cluster.
2. Inisialisasi K pusat cluster (centroid) sebagai seed points (prototipe cluster

awal). Centroid ini dapat diperoleh secara acak atau dipilih dari K objek data
pertama.
3. Untuk setiap komponen data, hitung dan tandai jarak (distance) ke centroid
awal kemudian masukkan data tersebut ke centroid yang paling dekat
jaraknya
4. Hitung dan ubah kembali centroid tiap cluster sebagai rata-rata dari seluruh
anggota kelompok (group) cluster tersebut.
5. Cek semua data kembali dan taruh setiap data yang terdekat dengan
centroid baru. Jika anggota tiap cluster tidak berubah (konvergen), maka
langkah berhenti dan jika masih kembali ke langkah 2

STUDI KASUS K-MEANS CLUSTERING

Berdasarkan proses data mining dengan teknik klustering menggunakan algoritma K-Means
yang diterapkan pada data akademik mahasiswa, diperoleh informasi dari pengelompokan atau
pengklusteran nilaiTes mahasiswa saat masuk dari sejumlah 936 mahasiswa adalah sejumlah
116 mahasiswa atau sebesar 12,393% masuk kluster 1, 363 (38,782%) mahasiswa masuk
kluster 2 dan 457 (48,825%) mahasiswa masuk kluster 3. Hal ini berarti hampir sebagian besar
kemampuan mahasiswa saat masuk kuliah adalah masuk kluster 3, atau berada pada
kemampuan paling atas. Dari sejumlah 116 masiswa yang masuk kluster 1, sebagian besar
yaitu sebanyak 100 mahasiswa masuk program studi SI dan sisanya masuk TI 10 mahasiswa,
KA dan Tek-Kom 4 dan 2 mahasiswa. Jenis SMA sebanyak 89 mahasiswa dari Umum dan 27
mahasiswa dari Kejuruan. Untuk Asal Kota dari Semarang sebanyak 65 mahasiswa, dari jawa
tengah 41 mahasiswa dan dari luar jawa tengah 10 mahasiswa.
Namun apabila dilihat dari prosentase jumlah mahasiswa setiap program studinya, maka yang
menduduki tempat tertinggi adalah MI sebanyak 96 dari 146 mahasiswa di program studi ini
berada di kluster 3 dengan prosentase 65%. Dilihat dari Jenis SMA secara keseluruhan jenis
SMA Umum yang menempati tempat tertinggi dibanding SMA kejuruan yang masuk cluster ini
yaitu sebesar 56,7%. Sedangkan apabila dilihat dari Asal SMA, prosentase rata-rata hampir
sama dari setiap wilayah ada di kluster tiga. Untuk lebih jelas dapat dilihat pada tabel 1.
Atribut

Program
Studi
Jenis
SMA
Jenis Kota

Kluster1 (C1)

Kluster2 (C2)

Kluster3 (C3)

Total
Unit dari
Atribut

KA
MI
SI
Tek-Kom
TI
Umum
Kejuruan
Jawa Tengah
Luar Jawa Tengah (LJ)

4
2
100
0
10
89
27
41
10

27
48
146
26
130
265
98
131
24

47
96
126
18
170
351
106
158
31

78
146
372
30
310
705
231
330
65

Semarang

65

208

268

541

Unit Dari Atribut

Kesimpulan
Setelah banyak tahapan dalam pengembangan perangkat lunak dimulai dari
analisis kebutuhan sampai dengan implementasi dan pengujian maka ada
beberapa kesimpulan yang didapat setelah skripsi ini yaitu sebagai berikut :
Algoritma K-Means dapat melakukan pengelompokan dokumen dalam jumlah

yang banyak akan tetapi belum efisien dalam mengelompokan dokumen


secara tepat.
Penentuan centroid (titik pusat) pada tahap awal Algoritma K-Means sangat
berpengaruh pada hasil cluster seperti pada hasil pengujian yang dilakukan
dengan menggunakan 300 dataset dengan centroid yang berbeda
menghasilkan hasil cluster yang berbeda juga.
Proses clustering menggunakan stemming akan menghabiskan waktu lebih
lama dibandingkan dengan non-stemming, hal ini dapat dilihat pada hasil uji
coba 2.
Semakin sedikit dokumen yang dipakai, maka semakin sulit untuk
membedakan cluster antara stemming dan non-stemming.

Você também pode gostar