Você está na página 1de 20

Analisis Cluster

Sumber :
http://www.bandmservices.com/ClusteringExample/ClusteringExample.htm

Tujuan Instruksional Khusus


Mahasiswa dapat ;
menyebutkan dan menerangkan pengertian dan
aplikasi dari analisis cluster
Memahami dan menyebutkan tipe-tipe cluster dan
teknik clustering
Mengetahui dan memahami algoritma-algoritma
clustering

Contoh : data 1 dimensi


1. Misalkan data X = {2, 3, 4, 10, 11, 12, 20, 25, 35},
akan dibagi dalam 2 klaster (k=2)
Dipilih dua centroid, 1 = 2 dan 2 = 4
Hitung distance tiap titik x

Tugas untuk dikumpulkan


2. Dipilih dua centroid, 1 = 4 dan 2 = 20
Tentukan klaster untuk data no 1

Iterasi 1
X

10

11

12

20

25

35

d(x,1 = 2)

10

18

23

33

d(x,2 = 4)

16

21

31

Min [d(x,1),
d(x,2)

C1

C1

C2

C2

C2

C2

C2

C2

C2

Diperoleh klaster 1 (C1) : {2, 3}

klaster 2 (C2) : {4,10,11,12,20,25,35}


Hitung centroid dari klaster baru : 1 = 2.5 dan 2 = 16.71
Hitung distance tiap titik data dengan centroid baru

Iterasi 2
X

10

11

12

20

25

35

d(x,1 = 2.5)

0.5

0.5

1.5

7.5

8.5

9.5

17.
5

22.
5

32.5

d(x,2=16.71)

14.7
1

13.71 12.7
1

6.7
1

5.7
1

4.7
1

3.2
9

8.2
9

18.2
9

Min [d(x,1),
d(x,2)

C1

C1

C2

C2

C2

C2

C2

C2

C1

Diperoleh klaster 1 (C1) : {2, 3, 4}

klaster 2 (C2) : {10,11,12,20,25,35}


Hitung centroid dari klaster baru : 1 = 3 dan 2 = 18.83
Hitung distance tiap titik data dengan centroid baru

Iterasi 3
X

10

11

12

20

25

35

d(x,1 = 3)

17

22

32

d(x,2 = 18.83)

16.8
3

15.83 14.8
3

8.8
3

7.8
3

6.8
3

1.1
7

6.1
7

16.1
7

Min [d(x,1),
d(x,2)

C1

C1

C1

C2

C2

C2

C2

C2

C1

Diperoleh klaster 1 (C1) : {2, 3, 4, 10}


klaster 2 (C2) : {11,12,20,25,35}
Hitung centroid dari klaster baru : 1 = 4.75 dan 2 = 20.6
Hitung distance tiap titik data dengan centroid baru
..
Proses iterasi akan berhenti jika nilai baru = nilai
sebelumnya, atau dengan perkataan lain, elemen dalam klaster
tidak berubah

Contoh : data 2 dimensi


Instance

1.0

1.5

1.0

4.5

2.0

1.5

2.0

3.5

3.0

2.5

5.0

6.0
7

Tugas untuk dikumpulkan


Tentukan klaster untuk data 2 dimensi dengan
instance 2 (1.0, 4.5) sbg centroid awal klaster 1
and instance 5 (3.0,2.5) sbg centroid awal
klaster 2

Contoh (cont)
Pilih K=2
Pilih instance 1(1.0,1.5)
sbg centroid awal klaster
1 and instance 3
(2.0,1.5) sbg centroid
awal klaster 2
Hitung jarak masingmasing titik terhadap
centroid yg dipilih
(euclidian distance)

C1

C2

3.16

2.24

2.24

1.41

6.02

5.41
9

Iterasi ke-1
instance

1.0

1.0

2.0

2.0

3.0

5.0

1.5

4.5

1.5

3.5

2.5

6.0

d[(x,y), (1.0,1.5)] C1 0

2.24

2.24

6.02

d[(x,y), (2.0,1.5)] C2 1

3.16

1.41

5.41

C1

C2

C2

C2

C2

Min(C1,C2)

C1

Klaster 1 berisi : 1,2 (dr nilai terkecil C1 dan C2)


Klaster 2 berisi : 3,4,5,6
Hitung ulang centroid masing-masing klaster mean dari tiap klaster baru
C1 : (1,3) and C2 : (3,3.375)
Hitung juga jarak masing-masing instance terhadap centroid baru

Iterasi ke-2
instance

1.0

1.0

2.0

2.0

3.0

5.0

1.5

4.5

1.5

3.5

2.5

6.0

d[(x,y), (1.0,3.0)] C1 1.5

1.5

1.8

1.12

2.06

2.74

2.29

2.125 1.01

0.875

3.3

C1

C1

C1

C2

C2

d[(x,y), (3.3, 3.75)]


C2
Min(C1,C2)

C2

Klaster 1 berisi : 1,2,3


Klaster 2 berisi :4,5,6
Hitung lagi centroid C1 : (1.33,2.5) C2 : (3.33,4) mean dari klaster baru

Hitung juga jarak masing-masing instance terhadap centroid baru

Iterasi ke-3
instance

1.0

1.0

2.0

2.0

3.0

5.0

1.5

4.5

1.5

3.5

2.5

6.0

1.05

2.02

1.2

1.2

1.67

5.07

d[(x,y), (3.33, 4)] C2 3.41

2.38

2.83

1.42

1.53

2.6

C1

C1

C1

C2

C2

d[(x,y), (1.33,2.5)]
C1

Min(C1,C2)

C1

Klaster 1 berisi : 1,2,3,4


Klaster 2 berisi : 5,6
Hitung lagi centroid C1 : (1.5,2.75) C2 : (4,4.25) mean dari klaster baru

Hitung juga jarak masing-masing instance terhadap centroid baru

Algoritma Dasar Agglomerative


Hierarchical Clustering
1.
2.
3.
4.

Compute the proximity matrix, if necessary


Repeat
Merge the closest two cluster
Update the proximity matrix to reflect the
proximity between the new cluster and the
original clusters
5. Until Only one cluster remains
* Cara menghitung jarak antara 2 cluster

CS 4333 Data Mining - IMD

13

Contoh
Diketahui tabel data dan jarak antar klaster sbb :

Titik

0.4

0.53

0.00

0.24

0.22

0.37

0.34

0.23

0.22

0.38

0.24

0.00

0.15

0.20

0.14

0.25

0.35

0.32

0.22

0.15

0.00

0.15

0.28

0.11

0.26

0.19

0.37

0.20

0.15

0.00

0.29

0.22

0.08

0.41

0.34

0.14

0.28

0.29

0.00

0.39

0.45

0.30

0.23

0.25

0.11

0.22

0.39

0.00

CS 4333 Data Mining - IMD

14

Contoh :
Diketahui tabel data dan jarak antar klaster sbb :
1

0.00

0.24

0.22

0.37

0.34

0.23

0.24

0.00

0.15

0.20

0.14

0.25

0.22

0.15

0.00

0.15

0.28

0.11

0.37

0.20

0.15

0.00

0.29

0.22

0.34

0.14

0.28

0.29

0.00

0.39

0.23

0.25

0.11

0.22

0.39

0.00

Dari matriks jarak di atas terlihat bahwa titik 3 dengan 6 paling


dekat (mempunyai jarak yang paling kecil), sehingga bisa
digabung, menjadi :
15

Contoh :
Diketahui tabel data dan jarak antar klaster sbb :
1

3,6

0.00

0.24

0.22

0.37

0.34

d[1,
(3,6)=min(d(1,3),d(1,6)]=min(0.22,0.2
3)=0.22

0.24

0.00

0.15

0.20

0.14

d[2,
(3,6)=min(d(2,3),d(2,6)]=min(0.15,0.2
5)=0.15

3,6 0.22

0.15

0.00

0.15

0.28

0.20

0.15

0.00

0.29

0.37

d[4,
(3,6)=min(d(4,3),d(4,6)]=min(0.15,0.2
2)=0.15

Dari
5 matriks
0.34 jarak
0.14di atas
0.28
terlihat
0.29
bahwa
0.00
titik 5d[5,
dengan 2 paling dekat (mempunyai
(3,6)=min(d(5,3),d(5,6)]=min(0.28,0.3
jarak yang paling kecil), sehingga bisa digabung,
menjadi :
9)=0.28

16

Contoh :
Diketahui tabel data dan jarak antar klaster sbb :
1

2,5

3,6

0.00

0.24

0.22

0.37

d[1,
(2,5)=min(d(1,2),d(1,5)]=min(0.24,0.3
4)=0.24

2,5 0.24

0.00

0.15

0.20

d[(2,5),
(3,6)=min(d(2,3),d(2,6),d(5,3),d(5,6)]=
min (0.15,0.25, 0.28,0.39) =0.15

3,6 0.22

0.15

0.00

0.15

0.20

0.15

0.00

0.37

d[4,
(2,5)=min(d(4,2),d(4,5)]=min(0.20,0.2
9)=0.20

Dari matriks jarak di atas terlihat bahwa gabungan titik (2 dan 5) dengan
gabungan titik (3 dan 6) paling dekat (mempunyai jarak yang paling kecil),
sehingga bisa digabung, menjadi :
17

Contoh :
Diketahui tabel data dan jarak antar klaster sbb :
1

(2,5),(3,6) 4

0.00

0.22

0.37

d[1,(2,5)
(3,6)]=min(d(1,2),d(1,5),d(1,3),d(1,6)]=mi
n(0.24, 0.34, 0.22, 0.23 )=0.22

(2,5),(3,6) 0.22

0.00

0.15

d[4,(2,5)
(3,6)]=min(d(4,2),d(4,5),d(4,3),d(4,6)]=mi
n(0.20, 0.29, 0.15, 0.22 )=0.15

0.15

0.00

d[4,
(2,5)=min(d(4,2),d(4,5)]=min(0.20,0.29)=0
.20

0.37

Dari matriks jarak di atas terlihat bahwa 4 dengan [(2,5), (3,6)] paling dekat
(mempunyai jarak yang paling kecil), sehingga bisa digabung, menjadi :

18

Hierarchical Clustering: MIN

3
5

0.2

0.15

0.1
0.05
0

Nested Clusters

Dendrogram
CS 4333 Data Mining - IMD

19

Tugas untuk dikumpulkan


Diketahui tabel data dan matriks proximity sbb :
Titik

0.00

19

22

33

12

0.00

12

15

36

18

10

19

12

0.00

14

20

11

22

15

0.00

11

30

12

33

36

14

11

0.00

Bentuk dendogram dengan menggunakan metode


agglomerative MIN
CS 4333 Data Mining - IMD

20

Você também pode gostar