Analisis Clustering - Contoh Kmeans Dan Nested

Analisis Cluster
Sumber :
http://www.bandmservices.com/ClusteringExample/ClusteringExample.htm
Tujuan Instruksional Khusus

Mahasiswa dapat ;
menyebutkan dan menerangkan pengertian dan
aplikasi dari analisis cluster
Memahami dan menyebutkan tipe-tipe cluster dan
teknik clustering
Mengetahui dan memahami algoritma-algoritma
clustering
Contoh : data 1 dimensi

1. Misalkan data X = {2, 3, 4, 10, 11, 12, 20, 25, 35},
akan dibagi dalam 2 klaster (k=2)
Dipilih dua centroid, 1 = 2 dan 2 = 4
Hitung distance tiap titik x
Tugas untuk dikumpulkan

2. Dipilih dua centroid, 1 = 4 dan 2 = 20
Tentukan klaster untuk data no 1
Iterasi 1
X
10
11
12
20
25
35
d(x,1 = 2)
10
18
23
33
d(x,2 = 4)
16
21
31
Min [d(x,1),
d(x,2)
C1
C1
C2
C2
C2
C2
C2
C2
C2
Diperoleh klaster 1 (C1) : {2, 3}
klaster 2 (C2) : {4,10,11,12,20,25,35}

Hitung centroid dari klaster baru : 1 = 2.5 dan 2 = 16.71
Hitung distance tiap titik data dengan centroid baru
Iterasi 2
X
10
11
12
20
25
35
d(x,1 = 2.5)
0.5
0.5
1.5
7.5
8.5
9.5
17.
5
22.
5
32.5
d(x,2=16.71)
14.7
1
13.71 12.7
1
6.7
1
5.7
1
4.7
1
3.2
9
8.2
9
18.2
9
Min [d(x,1),
d(x,2)
C1
C1
C2
C2
C2
C2
C2
C2
C1
Diperoleh klaster 1 (C1) : {2, 3, 4}
klaster 2 (C2) : {10,11,12,20,25,35}

Hitung centroid dari klaster baru : 1 = 3 dan 2 = 18.83
Iterasi 3
X
10
11
12
20
25
35
d(x,1 = 3)
17
22
32
d(x,2 = 18.83)
16.8
3
15.83 14.8
3
8.8
3
7.8
3
6.8
3
1.1
7
6.1
7
16.1
7
Min [d(x,1),
d(x,2)
C1
C1
C1
C2
C2
C2
C2
C2
C1
Diperoleh klaster 1 (C1) : {2, 3, 4, 10}

klaster 2 (C2) : {11,12,20,25,35}
Hitung centroid dari klaster baru : 1 = 4.75 dan 2 = 20.6
..
Proses iterasi akan berhenti jika nilai baru = nilai
sebelumnya, atau dengan perkataan lain, elemen dalam klaster
tidak berubah
Contoh : data 2 dimensi

Instance
1.0
1.5
1.0
4.5
2.0
1.5
2.0
3.5
3.0
2.5
5.0
6.0
7

Tentukan klaster untuk data 2 dimensi dengan
instance 2 (1.0, 4.5) sbg centroid awal klaster 1
and instance 5 (3.0,2.5) sbg centroid awal
klaster 2
Contoh (cont)
Pilih K=2
Pilih instance 1(1.0,1.5)
sbg centroid awal klaster
1 and instance 3
(2.0,1.5) sbg centroid
awal klaster 2
Hitung jarak masingmasing titik terhadap
centroid yg dipilih
(euclidian distance)
C1
C2
3.16
2.24
2.24
1.41
6.02
5.41
9
Iterasi ke-1
instance
1.0
1.0
2.0
2.0
3.0
5.0
1.5
4.5
1.5
3.5
2.5
6.0
d[(x,y), (1.0,1.5)] C1 0
2.24
2.24
6.02
d[(x,y), (2.0,1.5)] C2 1
3.16
1.41
5.41
C1
C2
C2
C2
C2
Min(C1,C2)
C1
Klaster 1 berisi : 1,2 (dr nilai terkecil C1 dan C2)

Klaster 2 berisi : 3,4,5,6
Hitung ulang centroid masing-masing klaster mean dari tiap klaster baru
C1 : (1,3) and C2 : (3,3.375)
Hitung juga jarak masing-masing instance terhadap centroid baru
Iterasi ke-2
instance
1.0
1.0
2.0
2.0
3.0
5.0
1.5
4.5
1.5
3.5
2.5
6.0
d[(x,y), (1.0,3.0)] C1 1.5
1.5
1.8
1.12
2.06
2.74
2.29
2.125 1.01
0.875
3.3
C1
C1
C1
C2
C2
d[(x,y), (3.3, 3.75)]

C2
Min(C1,C2)
C2
Klaster 1 berisi : 1,2,3

Klaster 2 berisi :4,5,6
Hitung lagi centroid C1 : (1.33,2.5) C2 : (3.33,4) mean dari klaster baru
Iterasi ke-3
instance
1.0
1.0
2.0
2.0
3.0
5.0
1.5
4.5
1.5
3.5
2.5
6.0
1.05
2.02
1.2
1.2
1.67
5.07
d[(x,y), (3.33, 4)] C2 3.41
2.38
2.83
1.42
1.53
2.6
C1
C1
C1
C2
C2
d[(x,y), (1.33,2.5)]
C1
Min(C1,C2)
C1
Klaster 1 berisi : 1,2,3,4

Klaster 2 berisi : 5,6
Hitung lagi centroid C1 : (1.5,2.75) C2 : (4,4.25) mean dari klaster baru
Algoritma Dasar Agglomerative

Hierarchical Clustering
1.
2.
3.
4.
Compute the proximity matrix, if necessary

Repeat
Merge the closest two cluster
Update the proximity matrix to reflect the
proximity between the new cluster and the
original clusters
5. Until Only one cluster remains
* Cara menghitung jarak antara 2 cluster
CS 4333 Data Mining - IMD
13
Contoh
Diketahui tabel data dan jarak antar klaster sbb :
Titik
0.4
0.53
0.00
0.24
0.22
0.37
0.34
0.23
0.22
0.38
0.24
0.00
0.15
0.20
0.14
0.25
0.35
0.32
0.22
0.15
0.00
0.15
0.28
0.11
0.26
0.19
0.37
0.20
0.15
0.00
0.29
0.22
0.08
0.41
0.34
0.14
0.28
0.29
0.00
0.39
0.45
0.30
0.23
0.25
0.11
0.22
0.39
0.00
14
Contoh :
1
0.00
0.24
0.22
0.37
0.34
0.23
0.24
0.00
0.15
0.20
0.14
0.25
0.22
0.15
0.00
0.15
0.28
0.11
0.37
0.20
0.15
0.00
0.29
0.22
0.34
0.14
0.28
0.29
0.00
0.39
0.23
0.25
0.11
0.22
0.39
0.00
Dari matriks jarak di atas terlihat bahwa titik 3 dengan 6 paling

dekat (mempunyai jarak yang paling kecil), sehingga bisa
digabung, menjadi :
15
Contoh :
1
3,6
0.00
0.24
0.22
0.37
0.34
d[1,
(3,6)=min(d(1,3),d(1,6)]=min(0.22,0.2
3)=0.22
0.24
0.00
0.15
0.20
0.14
d[2,
(3,6)=min(d(2,3),d(2,6)]=min(0.15,0.2
5)=0.15
3,6 0.22
0.15
0.00
0.15
0.28
0.20
0.15
0.00
0.29
0.37
d[4,
(3,6)=min(d(4,3),d(4,6)]=min(0.15,0.2
2)=0.15
Dari
5 matriks
0.34 jarak
0.14di atas
0.28
terlihat
0.29
bahwa
0.00
titik 5d[5,
dengan 2 paling dekat (mempunyai
(3,6)=min(d(5,3),d(5,6)]=min(0.28,0.3
jarak yang paling kecil), sehingga bisa digabung,
menjadi :
9)=0.28
16
Contoh :
1
2,5
3,6
0.00
0.24
0.22
0.37
d[1,
(2,5)=min(d(1,2),d(1,5)]=min(0.24,0.3
4)=0.24
2,5 0.24
0.00
0.15
0.20
d[(2,5),
(3,6)=min(d(2,3),d(2,6),d(5,3),d(5,6)]=
min (0.15,0.25, 0.28,0.39) =0.15
3,6 0.22
0.15
0.00
0.15
0.20
0.15
0.00
0.37
d[4,
(2,5)=min(d(4,2),d(4,5)]=min(0.20,0.2
9)=0.20
Dari matriks jarak di atas terlihat bahwa gabungan titik (2 dan 5) dengan
gabungan titik (3 dan 6) paling dekat (mempunyai jarak yang paling kecil),
sehingga bisa digabung, menjadi :
17
Contoh :
1
(2,5),(3,6) 4
0.00
0.22
0.37
d[1,(2,5)
(3,6)]=min(d(1,2),d(1,5),d(1,3),d(1,6)]=mi
n(0.24, 0.34, 0.22, 0.23 )=0.22
(2,5),(3,6) 0.22
0.00
0.15
d[4,(2,5)
(3,6)]=min(d(4,2),d(4,5),d(4,3),d(4,6)]=mi
n(0.20, 0.29, 0.15, 0.22 )=0.15
0.15
0.00
d[4,
(2,5)=min(d(4,2),d(4,5)]=min(0.20,0.29)=0
.20
0.37
Dari matriks jarak di atas terlihat bahwa 4 dengan [(2,5), (3,6)] paling dekat
(mempunyai jarak yang paling kecil), sehingga bisa digabung, menjadi :
18
Hierarchical Clustering: MIN
3
5
0.2
0.15
0.1
0.05
0
Nested Clusters
Dendrogram
19

Diketahui tabel data dan matriks proximity sbb :
Titik
0.00
19
22
33
12
0.00
12
15
36
18
10
19
12
0.00
14
20
11
22
15
0.00
11
30
12
33
36
14
11
0.00
Bentuk dendogram dengan menggunakan metode

agglomerative MIN
20

Analisis Clustering - Contoh Kmeans Dan Nested

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analisis Clustering - Contoh Kmeans Dan Nested

Enviado por

Direitos autorais:

Formatos disponíveis

Analisis Cluster

Tujuan Instruksional Khusus

Contoh : data 1 dimensi

Tugas untuk dikumpulkan

Diperoleh klaster 1 (C1) : {2, 3}

klaster 2 (C2) : {4,10,11,12,20,25,35}

Diperoleh klaster 1 (C1) : {2, 3, 4}

klaster 2 (C2) : {10,11,12,20,25,35}

Diperoleh klaster 1 (C1) : {2, 3, 4, 10}

Contoh : data 2 dimensi

Tugas untuk dikumpulkan

Klaster 1 berisi : 1,2 (dr nilai terkecil C1 dan C2)

d[(x,y), (1.0,3.0)] C1 1.5

d[(x,y), (3.3, 3.75)]

Klaster 1 berisi : 1,2,3

Hitung juga jarak masing-masing instance terhadap centroid baru

d[(x,y), (3.33, 4)] C2 3.41

Klaster 1 berisi : 1,2,3,4

Hitung juga jarak masing-masing instance terhadap centroid baru

Algoritma Dasar Agglomerative

Compute the proximity matrix, if necessary

CS 4333 Data Mining - IMD

CS 4333 Data Mining - IMD

Dari matriks jarak di atas terlihat bahwa titik 3 dengan 6 paling

Hierarchical Clustering: MIN

Tugas untuk dikumpulkan

Bentuk dendogram dengan menggunakan metode

Você também pode gostar