Escolar Documentos
Profissional Documentos
Cultura Documentos
Advanced Cluster
Analysis
Chapter 11
By : Nurhayati, Rifky Novrian K
Summary
Fuzzy Clustering
C2: computer
Fuzzy clustering
P1: utk setiap objek oi and cluster Cj, 0 wij 1 (fuzzy set)
Untuk objek oi, sum of the squared error (SSE), p adalah parameter:
Mixture model mengasumsikan bahwa satu set objek yang diamati adalah
campuran contoh dari beberapa probabilistic clusters, dan secara konsep tiap
objek yang diamati dihasilkan secara independen
Out task: Diambil kesimpulan satu set dari k probabilistic clusters yang
sebagian besar cenderung menghasilkan D menggunakan data generation
process di atas
7
Model-Based Clustering
Set C dari k probabilistic clusters C1, ,Ck dgn probability fungsi kepadatan
f1, , fk, masing-masing, dan probabilitasnya 1, , k.
Expectation Step (E-step): Dilihat dari aliran dari pusat cluster, setiap
objek ditetaplam kepada cluster yang pusatnya paling dekat dengan
objek: Sebuah objek yang diharapkan termasuk dari kluster terdekat
10
1st M-step: hitung ulang centroid sesuai dengan matriks partisi, minimalkan
sum of squared error (SSE)
12
Diberikan objek n O = {o1, , on}, kita ingin menambang sebuah set pada
parameter = {1, , k} s.t.,P(O|) dimaksimalkan, dimana j = (j, j) adalah
titik tengah dan standar deviasi dari j-th univariat distribusi Gaussian
Kita awalnya menetapkan nilai acak pada parameter j, kemudian secara iterasi
melakukan E- dan M-step sampai converge atau terdapat perubahan kecil
Pada E-step, untuk setiap objek oi, hitung probabilitas yang oi termasuk
kedalam setiap distribusi
13
Kekuatan
Kelemahan
14
Summary
15
Tantangan utama:
Banyak dimensi tidak relevan dapat menutupi cluster
Pengukuran jarak menjadi tidak berartikarena jarak equi
Cluster mungkin hanya ada di subspace
Metode
16
17
19
Bottom-up Approaches
Top-down Approaches
Bi-clustering methods
Optimization-based methods
Enumeration methods
Bottom-up approaches
Berbagai teknik pemangkasan untuk mengurangi jumlah dari higherD subspace yang harus dicari
Top-down approaches
Dimulai dari space yang penuh dan mencari subspace yang lebih
kecil secara rekursif
Hough transform
Fractal dimensions
22
23
Types of Bi-clusters
Buat A = {a1, ..., an} adalah set gen, B = {b1, , bn} adalah set kondisi
yaitu, hanya tertarik pada naik- atau turun- perubahan diatur melintasi
gen atau kondisi tanpa membatasi pada nilai-nilai yang tepat
24
Bi-Clustering Methods
Data dari dunia nyata noisy: cobalah untuk menemukan perkiraan biclusters
Metode: Optimization-based methods vs. enumeration methods
Optimization-based methods
Cobalah untuk menemukan sebuah submatrik pada waktu yang
mencapai signifikansi terbaik sebagai bi-cluster
dikarenakan biaya di dalam penghitungan, greedy search
digunakan untuk mencari local optimal bi-clusters
Cth. -Cluster Algorithm (Cheng and Church, ISMB2000)
Enumeration methods
Gunakan ambang batas toleransi untuk menentukan tingkat noise
yang diperbolehkan dalam bi-cluster untuk ditambang
Kemudian cobalah untuk menghitung semua submatriks sebagai
bi-cluster yang memenuhi persyaratan
Cth. -pCluster Algorithm (H. Wang et al. SIGMOD2002, MaPle:
Pei et al., ICDM2003)
25
26
Kualitas dari submatriks sebagai bi-cluster bisa diukur dengan nilai mean
squared residue
Hapus baris atau kolom dari mean squared residue yang paling besar
Addition phase:
Kolom/baris dari mean squared residue yang terkecil ditambahkan kedalam aliran bi-cluster
Hanya ditemukan satu -bi-cluster, yang perlu dijalankan beberapa kali: mengganti
elemen dalam output bi-cluster dengan nomor acak
28
Sejak submatriks I x J adalah bi-cluster dengan nilai koheren (sempurna) iff ei1j1 ei2j1
= ei1j2 ei2j2. Untuk setiap submatriks 2 x 2 dari I x J, tentukan p-score
p-score mengontrol noise pada setiap elemen di bi-cluster, sementara mean squared
residue menangkap noise sedang
Monotonicity: Jika I x J adalah -pClusters, setiap x x y (x,y 2) submatriks dari I x
J adalah juga -pClusters.
-pCluster maksimal jika tidak ada baris atau colom yang bisa ditambahkan lagi
kedalam cluster dan menahan -pCluster: kita hanya perlu untuk menghitung semua
-pClusters maksimal
29
d xa / d ya
d xb / d yb
Dimensionality-Reduction Methods
Cth. Pada cluster poin di gambar sebelah kanan, setiap subspace dari yang
asli, X dan Y, tidak bisa membantu, disebabkan ketiga cluster akan
diproyeksikan ke daerah yang tumpang tindih di sumbu X dan Y
Buat dimensi baru dibagian yang putus-putus, tiga cluster menjadi jelas
ketika poin diproyeksikan ke dalam dimensi baru
Dimensionality reduction methods
Seleksi dan ekstraksi fitur: Tapi kemungkinan tidak fokus pada
penemuan struktur cluster
Spectral clustering: menggabungkan fitur ekstraksi dan clustering (yaitu
menggunakan spectrum dari matriks yang sama untuk melakukan
pengurangan dimensi untuk clustering dalam dimensi yang lebih sedikit)
Normalized Cuts (Shi and Malik, CVPR97 or PAMI2000)
The Ng-Jordan-Weiss algorithm (NIPS01)
31
Spectral Clustering:
The Ng-Jordan-Weiss (NJW) Algorithm
Buat set objek o1, , on, dan jarak antara setiap pasangan objek, dist(oi, oj),
temukan nomor k yang diinginkan pada clusters
Hitung matriks persamaan W, dimana adalah parameter skala yang
mengontrol seberapa cepat persamaan Wij menurun seiring dist(oi, oj)
meningkat. Pada NJW, atur Wij = 0
Dapatkan matriks A = f(W). NJW menetapkan matriks D menjadi matriks
diagonal s.t. Dii adalah jumlah baris i-th dari W, yaitu,
Lalu, A diatur menjadi
Spectral clustering method menemukan k leading eigenvectors dari A
33
Summary
34
Aplikasi
Bi-partite graphs, misalnya, kustomer dan produk,
author dan conference
Web search engines, misalnya, click through graphs
dan Web graphs
Social networks, friendship/coauthor graphs
Similarity measures/pengukuran kesamaan
Geodesic distances
Distance based on random walk (SimRank)
Graph clustering methods
Minimum cuts: FastModularity (Clauset, Newman &
Moore, 2004)
Density-based clustering: SCAN (Xu et al., KDD2007)
35
Geodesic distance (A, B): panjang (i.e., # of edges) dari jalur terpendek
antara A dan B (jika tidak terhubung, definisikan sebagai tak terbatas)
Eccentricity of v, eccen(v): Jarak geodesic terbesar antara v dan setiap
vertex (simpul) lainnya u V {v}.
Misal, eccen(a) = eccen(b) = 2; eccen(c) = eccen(d) = eccen(e) = 3
Radius of graph G: Eksentrisitas minimum semua simpul, yaitu, jarak
antara most central point dan farthest border
r = min
vV eccen(v)
Misal, radius (g) = 2
Diameter of graph G: Eksentrisitas maksimum pada semua simpul, yaitu,
jarak terbesar antara setiap pasangan simpul didalam G
d = max
vV eccen(v)
36
Inisialisasi:
Expected distance:
tour
37
Modularitas dari grafik klustering adalah perbedaan antara fraksi semua tepi
yang jatuh kedalam kluster individu dan fraksi yang akan melakukannya jika
simpul grafik terhubung secara acak
Clustering grafik optimal memaksimalkan modularitas
38
Seberapakah ukuran
seharusnya?
An Example Network
Individu dalam kelompok sosial yang ketat, atau geng, tahu banyak
tentang orang yang sama, terlepas dari ukuran kelompok
42
Structure Similarity
| (v) ( w) |
(v, w)
| (v) || ( w) |
43
-Neighborhood:
Core:
Structure connected:
CONNECT , (v, w) u V : RECH , (u, v) RECH , (u, w)
Structure-Connected Clusters
Structure-connected cluster C
Connectivity:
Maximality:
v, w C : CONNECT , (v, w)
v, w V : v C REACH , (v, w) w C
Hubs:
Outliers:
hub
45
Running Time
[2] A. Clauset, M. E. J. Newman, & C. Moore, Phys. Rev. E 70, 066111 (2004).
46
Summary
47
Membutuhkan umpan balik dari user: user tahu dengan baik aplikasi
mereka
Lebih sedikit parameter tetapi kendalanya lebih diinginkan, misalnya,
masalah alokasi ATM & cluster yang diinginkan
48
Categorization of Constraints
52
Mengambil obstacle
(hambatan) kedalam akun
53
name
course
course-id
group
office
semester
name
position
instructor
area
Advise
professor
name
student
area
degree
User hint
Target of
clustering
Course
Professor
Group
Open-course
Work-In
Publish
Publication
author
title
title
year
conf
Register
student
Student
course
name
office
semester
position
unit
grade
54
Summary
55
Summary
Terima Kasih
57