Você está na página 1de 9

ANALISIS KELOMPOK

(CLUSTER ANALYSIS)

Teori Singkat
Analisis kelompok adalah analisis statistika yang bertujuan untuk mengelompokkan
data sedemikian hingga data yang berada dalam kelompok yang sama mempunyai sifat
yang relatif homogen daripada data yang berada dalam kelompok yang berbeda.
Dilihat dari apa yang dikelompokkan, maka analisis kelompok dibagi menjadi dua
yaitu :
a. Pengelompokan observasi
b. Pengelompokan variabel.
Secara umum ada dua metode di dalam analisis kelompok yaitu :
a. Metode hirarki, hasil pengelompokkannya disajikan secara hirarki atau
berjenjang dari n, (n-1) sampai 1 kelompok. yang termasuk dalam metode ini
adalah single linkage, complete linkage, average linkage, median linkage, dan
centroid linkage
b. Metode tak hirarki. Metode ini dipakai jika banyaknya kelompok sudah
diketahui dan biasanya metode ini dipakai untuk mengelompokkan data yang
berukuran besar, yang termasuk dalam metode ini adalah metode Kmeans
Untuk menyatakan suatu observasi atau variabel menpunyai sifat yang lebih dekat
dengan observasi tertentu daripada dengan observasi yang lain digunakan fungsi yang
disebut jarak (distance). Suatu fungsi disebut jarak jika mempunyai sifat :
a. Tak negatif d ij 0 dan d ij 0 jika i=j
b. Simetri d ij d ji
c. d ij d ik d jk panjang salah satu sisi segitiga selalu lebih kecil atau samadengan jumlah dua sisi yang lain
Beberapa macam jarak yang biasa dipakai di dalam analisis kelompok :
Nomor Jarak
1
Euclidean
2

Manhattan

Formula
d ij

x
k 1

Pearson
Korelasi
mutlak
korelasi

d ij xik x jk

d ij

4
5

ik

k 1

x jk

k 1

d ij 1 rij
d ij 1 rij

ik

x jk

var x k

Metode-metode pengelompokan hirarki dibedakan berdasarkan konsep jarak antar


kelompok, penentuan jarak antar kelompok untuk metode-metode tersebut adalah :
Nomor
1
2
3
4

Metode
Single linkage
Complete linkage
Average linkage
Median linkage

Jarak antara kelompok (i,j) dengan k


d ( i , j ) k min(d ik , d jk )
d ( i , j ) k max(d ik , d jk )
d (i , j ) k average( d ik , d jk )
d ( i , j ) k median(d ik , d jk )

Tahap-tahap pengelompokan data dengan menggunakan metode hirarki adalah :


1. Tentukan matriks jarak antar data yang dikelompokkan
2. Tentukan dua data yang mempunyai jarak terkecil kemudian gabungkan
dua data ini ke dalam satu kelompok
3. Modifikasi matriks jarak sesuai aturan jarak antar kelompok yang sesuai
dengan metode pengelompokan yang dipakai
4. Lakukan langkah 2 dan 3 sampai matriks jarak berukuran 1x1
Sedangkan tahap-tahap pengelompokan data dengan menggunakan metode takhirarki Kmeans adalah :
1. Mulai
2. Tentukan k buah pusat awal
3. Tentukan jarak setiap data ke tiap pusat
4. lakukan pengelompokan setiap data ke pusat terdekat
5. Tentukan nilai pusat baru sebagai rata-rata data dalam kelompok
6. Lakukan langkah 3-5 sampai nilai pusat kelompok tak berubah lagi
7. Selesai
Sebagai ilustrasi dari analisis kelompok digunakan data harapan hidup perempuan
dan harapan hidup laki-laki negara-negara pendiri ASEAN berikut :
COUNTRY
Indonesia
Malaysia
Philippines
Singapore
Thailand

LIFEEXPF LIFEEXPM
65
61
72
66
68
63
79
73
72
65

Analisis Kelompok

Scatter-plot negara-negara ASEAN tersebut adalah :

Langkah awal analisis kelompok metode hirarki adalah membentuk matriks jarak
antar observasi :
Indonesia
Malaysia
Philippines
Singapore

Malaysia
74

Philippines
13
25

Singapore
340
98
221

Thailand
65
1
20
113

Matriks jarak di atas digitung berdasarkan kuadrat jarak Euclidean, misalkan


d(Indonesia, Malaysia)= (65-72)2 + (61-66)2 = 49 + 25 = 74. Setelah matriks jarak sudah
terbentuk maka langkah berikutnya adalah menentukan dua observasi yang mempunyai
jarak terdekat dan kemudian digabung dalam satu kelompok.
Indonesia
(Mal,Tha)
Philippines

(Mal,Tha)

Philippines
13

Singapore
340

221

Jarak antara Indonesia dengan (Malaysia, Thailand) untuk berbagai metode adalah :
Nomor Metode
Jarak antara kelompok (Mal,Tha) dengan Indonesia
1
Single linkage
min(dina mal, dina tha)=min(74, 65)=65
2
Complete linkage max(dina mal, dina tha)=max(74, 65)=74
3
Average linkage
Average(dina mal, dina tha)=average(74, 65)=69.5
4
Median linkage
Median(dina mal, dina tha)=min(74, 65)=69.5

Analisis Kelompok

Jika digunakan metode single linkage maka matriks jaraknya adalah :


(Mal,Tha)
65

Indonesia
(Mal,Tha)
Philippines

Philippines
13
20

Singapore
340
98
221

Setelah tahap ini, maka observasi yang mempunyai jarak terdekat adalah Indonesia
dengan Philippines, sehingga dua negara ini digabung :
(Mal,Tha)
20

(Ina, Phi)
(Mal,Tha)

Singapore
221
98

Jaral terdekat adalah 20 sehingga kelompok (Ina Phi) bergabung dengan (Mal Tha)
sehingga matriks jarak berubah menjadi
Singapore
(Ina, Phi,
Mal, Tha)

98

Penggabungan terakhir adalah Singapore dengan (Ina Phi Mal Tha) pada jarak
penggabungan 98, secara ringkas pengekompokan negara-negara di ASEAN dengan
menggunakan metode single linkage adalah :
Tahap

Jarak
Penggabungan

Yang digabung
cluster 1 cluster 2

Banyak
Kelompok

1
2
3
4

1
13
20
98

Mal
Ina
(Mal Tha)
(Ina..Tha)

Tha
Phi
(Ina Phi)
Sin

4
3
2
1

Kelompok
(Ina) (Mal) (Phi) (Sin)
(Tha)
(Ina) (Mal Tha) (Phi)
(Sin)
(Ina Phi) (Mal Tha) (Sin)
(Ina Phi Mal Tha) (Sin)
(Ina Phi Mal Tha Sin)

Secara visual hasil pengelompokan dapat digambarkan dalam dendogram :


Jarak
Malaysia
Thailand
Indonesi
Philippi
Singapor

2
5
1
3
4

0
20
40
60
80
100
+---------+---------+---------+---------+---------+

Berdasarakan kriteria loncatan jarak penggabungan terbesar (dari 20 ke 98) maka


banyaknya kelompok adalah 2 yaitu (Ina Phi Mal Tha) (Sin).

Analisis Kelompok

Selain loncatan jarak penggabungan terbesar, banyaknya kelompok dapat


ditentukan dengan kriteria :
a.
Maksimum nisbah (ratio) keragaman data antar kelompok dengan
keragaman data di dalam kelompok. Statistik uji ini dapat dihitung melalui
statistik uji F dalam oneway anova atau statistik uji Wilk dalam oneway
Manova.
b.

W (k )
1 / n k 1
W (k 1)

Maksimum statistik Hartigan (1975) : H (k )

c.

Maksimum rata-rata statistik silhoutte yang diajukan oleh Kaufman dan


b(i ) a (i )
Rousseuw (1990) s (i )
dan a(i) adalah rata-jarak
max a (i ), b(i )
observasi ke-i dengan observasi yang lain dalam cluster yang sama, b(i)
adalah rata-rata jarak observasi ke-i dengan cluster terdekat. Statistik ini
disajikan oleh program SPLUS
Untuk pengelompokan variabel, banyaknya kelompok dapar ditentukan dengan
menggunakan kriteria banyaknya eigen value yang lebih besar dari satu dari matriks
korelasi.

Analisis Kelompok

Kegiatan Praktikum
COUNTRY
Afghanistan
Bangladesh
Cambodia
China
Hong Kong
India
Indonesia
Japan
Malaysia
N. Korea
Pakistan
Philippines
S. Korea
Singapore
Taiwan
Thailand
Vietnam

DENSITY
25
800
55
124
5494
283
102
330
58
189
143
221
447
4456
582
115
218

URBAN
18
16
12
26
94
26
29
77
43
60
32
43
72
100
71
22
20

LIFEEXPF
44
53
52
69
80
59
65
82
72
73
58
68
74
79
78
72
68

LIFEEXPM
45
53
50
67
75
58
61
76
66
67
57
63
68
73
72
65
63

LITERACY
29
35
35
78
77
52
77
99
78
99
35
90
96
88
91
93
88

BABYMORT
168
106
112
52
5.8
79
68
4.4
25.6
27.7
101
51
21.7
5.7
5.1
37
46

GDP_CAP
205
202
260
377
14641
275
681
19860
2995
1000
406
867
6627
14990
7055
1800
230

Ketrangan variabel :
Variabel
Penjelasan
Density
Banyaknya penduduk per km persegi
Urban
Persentase penduduk yang tinggal di perkotaan
Lifeexpf
Harapan hidup penduduk perempuan (tahun)
Ligeexpm
Harapan hidup penduduk laki-laki (tahun)
Literacy
Persentase penduduk yang bisa baca-tulis
Babymort
Banyaknya kematian bayi per 1000 kelahiran
Gdp_cap
Penghasilan penduduk per kapita pertahun (US$)
1.

2.

Tentukan banyaknya kelompok yang terbaik berdasarkan kriteria


maksimum nisbah keragaman data antar kelompok dengan dalam kelompok untuk
data kependudukan negara-negara di Asia dengan variabel yang sudah dibakukan,
metode yang digunakan complete linkage dan average linkage
Bangkitkan 2 kelompok data berdistrbusi normal baku masingmasing sebanyak 50 dengan pusat (1,1) dan(3,3). Kelompokkan data ini dengan
menggunakan metode single linkage, complete linkage, average linkage dan
kmeans serta tentukan metode terbaik berdasarkan misclassification terkecil.

Analisis Kelompok

Penyelesaian 1

Berdasarkan scatter plot dengan menggunakan analisis faktor, diperoleh informasi


banyaknya kelompok adalah 4. Banyaknya kelompok = 4 ini akan dievaluasi dengan
menggunakan statistik uji F (hasil transformasi dari Wilk) dan dibandingkan dengan
banyaknya kelompok 3, dan 5.
Penentuan statistik uji F hasil pengelompokan dengan metode single linkage dapat
dilakukan dengan perintah :
Cluo 'DENSITY'-'GDP_CAP';
Complete;
Standardize;
Number 3;
Member c14.
Name c14 'Com3'
GLM 'DENSITY'-'GDP_CAP' = 'com3';
MANOVA;
NoUnivariate.
Hasil dari perintah di atas adalah :
MANOVA for Com3

s =

Criterion
Test Statistic
Wilk's
0.00278
Lawley-Hotelling
43.01375
Pillai's
1.87499
Roy's
33.61024

m =

F
20.543
21.507
19.283

2.0
( 14,
( 14,
( 14,

Analisis Kelompok

n =
DF
16)
14)
18)

3.0
P
0.000
0.000
0.000

Nilai statistic uji F yang menggambarkan nisbah keragaman data antar kelompok
dengan dalam kelompok untuk metode complete linkage dan average linkage adalah :
Banyak
kelompok
3
4
5

Complete
linkage
20.543
21.963
14.167

Average
linkage
20.543
21.963
14.167

Nilai F mencapai maksimum pada banyaknya kelompok=4 untuk metode complete


linkage dan average linkage. Sehingga banyaknya kelompok terbaik yang dihasilkan
dengan menggunakan scatter plot skor faktor sama dengan kalau menggunakan kriteria
maksimum keragaman data antar kelompok dengan dalam kelompok.
Penyelesaian 2.
Pembangkitan Data
MTB >
SUBC>
MTB >
SUBC>
MTB >
MTB >
MTB >
SUBC>
MTB >
SUBC>
MTB >
MTB >
MTB >
MTB >
MTB >
DATA>
DATA>
DATA>
MTB >

normal 50 c1;
normal 0 1.
normal 50 c2;
normal 0 1.
let c1=c1+1
let c2=c1+1
normal 50 c3;
normal 0 1.
normal 50 c4;
normal 0 1.
let c3=c3+4
let c4=c4+4
stack c1 c3 c5
stack c2 c4 c6
set c7
50(1)
50(2)
end
name c5 x c6 y c7 group

Pengelompokan
MTB > Cluo 'x' 'y';
SUBC>
Complete;
SUBC>
Number 2;
SUBC>
Member c9.
MTB > name c9 complete

Analisis Kelompok

Penentuan frekuensi observasi yang salah klasifikasi


MTB > Table 'group' C9;
SUBC>
Counts.
dan hasilnya adalah :
Rows: group

1
2
All

Columns: complete

All

48
2
50

2
48
50

50
50
100

Ada 2 observasi yang berasal dari group 1 dimasukkan ke kelompok 2 dan ada 2
observasi yang berasal dari group 2 dimasukkan ke dalam kelompok 1 oleh metode
complete linkage, sehingga secara keseluruhan ada 4 observasi yang salah klasifikasi.
Frekuensi relatif observasi yang salah klasifikasi (misclassification error) untuk seluruh
metode adalah :
Metode
Single linkage
Complete linkage
Average linkage
Kmeans

misclassification error
0.50
0.04
0.03
0.02

Analisis Kelompok