Analisis Algoritma K-Means Clustering

PENGELOMPOKAN MAHASISWA
BERDASARKAN DATA AKADEMIK

MENGGUNAKAN ALGORITAM KMEANS
Kelompok 6 :
Arif Saripuddin
NurHidayat
Muhammad Luthfi S
Setiadi Jaka P
Data mining merupakan proses pengekstrakan informasi dari jumlah kumpulan data yang besar dengan
menggunakan algoritma dan tehnik gambar dari statistik, mesin pembelajaran dan sistem manajemen
database [2]. Data mining yang disebut juga dengan KnowledgeDiscovery in Database (KDD) adalah
sebuah proses secara otomatis atas pencarian data di dalam sebuah memori yang amat besar dari data
untuk mengetahui pola dengan menggunakan alat seperti klasifikasi, hubungan (association) atau
pengelompokan (clustering).
Secara sederhana, data mining dapat diartikan sebagai proses mengekstrak atau menggali
pengetahuan yang ada pada sekumpulan data. Banyak orang yang setuju bahwa data mining adalah
sinonim dari KnowledgeDiscovery in Database atau yang biasa disebut KDD. Dari sudut pandang yang
lain, data mining dianggap sebagai satu langkah yang penting didalam proses KDD. Menurut Han, J. and
Kamber, M, 2001, proses KDD ini terdiri dari langkah-langkah sebagai berikut :
1. Data Cleaning, proses menghapus data yang tidak konsisten dan kotor
2. Data Integration, penggabungan beberapa sumber data
3. Data Selection, pengambilan data yang akan dipakai dari sumber data
4. Data Transformation, proses dimana data ditransformasikan menjadi bentuk yang sesuai untuk diproses
dalam data mining
5. Data Mining, suatu proses yang penting dengan melibatkan metode untuk menghasilkan suatu pola data
6. Pattern Evaluation, proses untuk menguji kebenaran dari pola data yang mewakili knowledge yang ada
didalam data itu sendiri
7. Knowledge Presentation, proses visualisasi dan teknik menyajikan knowledge digunakan untuk
menampilkan knowledge hasil mining kepada user
Algoritma K-Means
Algoritman K-Means merupakan algoritma yang membutuhkan
parameter input sebanyak K dan membagi sekumpulan objek ke

dalam K Cluster sehingga tingkat kemiripan antar anggota dalam
satu cluster sangat tinggi dan kemiripan pada cluster lain sangat
rendah.
Kemiripan cluster di ukur dengan kedekatan objek terhadap nilai
mean pada cluster atau di sebut dengan Centroid Cluster Pusat
Massa
Posisi centroid akan dihitung kembali sampai semua komponen data
dikelompokkan ke setiap centroid dan terakhir akan terbentuk posisi
centroid baru. Iterasi ini akan terus dilakukan sampai tercipta kondisi
konvergen
K-Means Clustering
K-Means Clustering merupakan metode untuk mengklasifikasikan atau
mengelompokkan objek-objek (data) ke dalam K-group (cluster)

berdasarkan atribut tertentu. Pengelompokkan data dilakukan dengan
memperhitungkan jarak terdekat antara data-data (objek observasi)
dengan pusat cluster (centroid).
Prinsip utama dari metode ini adalah menyusun K buah centroid atau
rata-rata (mean) dari sekumpulan data berdimensi N, dimana metode ini
mensyaratkan nilai K sudah diketahui sebelumnya (apriori). Algoritma Kmeans dimulai dengan pembentukan prototipe cluster diawal kemudian
secara iteratif prototipe cluster tersebut diperbaiki sehingga tercapai
kondisi konvergen, yaitu kondisi dimana tidak terjadi perubahan yang
signifikan pada prototipe cluster.
Perubahan ini diukur dengan menggunakan fungsi objektif D yang
umumnya didefinisikan sebagai jumlah atau rata-rata jarak tiap item data
dengan centroid groupnya.
Algoritma K-means Clustering

1. Definisikan jumlah K cluster.
2. Inisialisasi K pusat cluster (centroid) sebagai seed points (prototipe cluster
awal). Centroid ini dapat diperoleh secara acak atau dipilih dari K objek data
pertama.
3. Untuk setiap komponen data, hitung dan tandai jarak (distance) ke centroid
awal kemudian masukkan data tersebut ke centroid yang paling dekat
jaraknya
4. Hitung dan ubah kembali centroid tiap cluster sebagai rata-rata dari seluruh
anggota kelompok (group) cluster tersebut.
5. Cek semua data kembali dan taruh setiap data yang terdekat dengan
centroid baru. Jika anggota tiap cluster tidak berubah (konvergen), maka
langkah berhenti dan jika masih kembali ke langkah 2
STUDI KASUS K-MEANS CLUSTERING
Berdasarkan proses data mining dengan teknik klustering menggunakan algoritma K-Means
yang diterapkan pada data akademik mahasiswa, diperoleh informasi dari pengelompokan atau
pengklusteran nilaiTes mahasiswa saat masuk dari sejumlah 936 mahasiswa adalah sejumlah
116 mahasiswa atau sebesar 12,393% masuk kluster 1, 363 (38,782%) mahasiswa masuk
kluster 2 dan 457 (48,825%) mahasiswa masuk kluster 3. Hal ini berarti hampir sebagian besar
kemampuan mahasiswa saat masuk kuliah adalah masuk kluster 3, atau berada pada
kemampuan paling atas. Dari sejumlah 116 masiswa yang masuk kluster 1, sebagian besar
yaitu sebanyak 100 mahasiswa masuk program studi SI dan sisanya masuk TI 10 mahasiswa,
KA dan Tek-Kom 4 dan 2 mahasiswa. Jenis SMA sebanyak 89 mahasiswa dari Umum dan 27
mahasiswa dari Kejuruan. Untuk Asal Kota dari Semarang sebanyak 65 mahasiswa, dari jawa
tengah 41 mahasiswa dan dari luar jawa tengah 10 mahasiswa.
Namun apabila dilihat dari prosentase jumlah mahasiswa setiap program studinya, maka yang
menduduki tempat tertinggi adalah MI sebanyak 96 dari 146 mahasiswa di program studi ini
berada di kluster 3 dengan prosentase 65%. Dilihat dari Jenis SMA secara keseluruhan jenis
SMA Umum yang menempati tempat tertinggi dibanding SMA kejuruan yang masuk cluster ini
yaitu sebesar 56,7%. Sedangkan apabila dilihat dari Asal SMA, prosentase rata-rata hampir
sama dari setiap wilayah ada di kluster tiga. Untuk lebih jelas dapat dilihat pada tabel 1.
Atribut
Program
Studi
Jenis
SMA
Jenis Kota
Kluster1 (C1)
Kluster2 (C2)
Kluster3 (C3)
Total
Unit dari
Atribut
KA
MI
SI
Tek-Kom
TI
Umum
Kejuruan
Jawa Tengah
Luar Jawa Tengah (LJ)
4
2
100
0
10
89
27
41
10
27
48
146
26
130
265
98
131
24
47
96
126
18
170
351
106
158
31
78
146
372
30
310
705
231
330
65
Semarang
65
208
268
541
Unit Dari Atribut
Kesimpulan
Setelah banyak tahapan dalam pengembangan perangkat lunak dimulai dari
analisis kebutuhan sampai dengan implementasi dan pengujian maka ada
beberapa kesimpulan yang didapat setelah skripsi ini yaitu sebagai berikut :
Algoritma K-Means dapat melakukan pengelompokan dokumen dalam jumlah
yang banyak akan tetapi belum efisien dalam mengelompokan dokumen

secara tepat.
Penentuan centroid (titik pusat) pada tahap awal Algoritma K-Means sangat
berpengaruh pada hasil cluster seperti pada hasil pengujian yang dilakukan
dengan menggunakan 300 dataset dengan centroid yang berbeda
menghasilkan hasil cluster yang berbeda juga.
Proses clustering menggunakan stemming akan menghabiskan waktu lebih
lama dibandingkan dengan non-stemming, hal ini dapat dilihat pada hasil uji
coba 2.
Semakin sedikit dokumen yang dipakai, maka semakin sulit untuk
membedakan cluster antara stemming dan non-stemming.

Analisis Algoritma K-Means Clustering

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analisis Algoritma K-Means Clustering

Enviado por

Direitos autorais:

Formatos disponíveis

PENGELOMPOKAN MAHASISWA

BERDASARKAN DATA AKADEMIK

parameter input sebanyak K dan membagi sekumpulan objek ke

mengelompokkan objek-objek (data) ke dalam K-group (cluster)

Algoritma K-means Clustering

STUDI KASUS K-MEANS CLUSTERING

Unit Dari Atribut

yang banyak akan tetapi belum efisien dalam mengelompokan dokumen

Você também pode gostar