Escolar Documentos
Profissional Documentos
Cultura Documentos
k-means
Patrice Bertrand1
1 Université Paris-Dauphine
1 Introduction
2 Structures classificatoires
3 Les données
1 Introduction
2 Structures classificatoires
3 Les données
1 Introduction
2 Structures classificatoires
3 Les données
1 Introduction
2 Structures classificatoires
3 Les données
• Plusieurs explications :
Recouvrement
Un ensemble R = {E1 , . . . , Ekm } de parties Ek de E non vides,
est appelé recouvrement de E si la réunion des éléments de R
est égale à E, et si aucune partie Ek n’est incluse dans une
autre partie Ek 0 :
km
[
Ek = E et Ek 6⊆ Ek 0 si k 6= k 0 .
k=1
Partition
Un ensemble P = {E1 , . . . , Ekm } de parties Ek non vides de E,
est appelé partition de E si la réunion des éléments de P est
égale à E, et si aucun élément de P n’intersecte un autre
élément de P :
km
[
Ek = E et Ek ∩ Ek 0 = ∅ si k 6= k 0 .
k=1
Hiérarchie
Un ensemble H = {E1 , . . . , Ekm } de parties Ek non vides de E,
est appelé hiérarchie sur E si H contient E et ses singletons, et
si deux parties sont dans H, alors soit elles sont disjointes, soit
elles sont incluses l’une dans l’autre :
1) E ∈ H ;
2) Pour tout x ∈ E, {x} ∈ H ;
3) Pour tout Ek , Ek 0 ∈ H,
Ek ∩ Ek 0 = ∅ ou Ek ⊆ Ek 0 ou Ek 0 ⊆ Ek .
distances A B C D E
A 0
B 7.40 0
C 7.56 8.62 0
D 5.01 6.03 12.47 0
E 12.43 6.55 4.66 9.28 0
Notons :
(1) d(x, x) = 0 pour tout x ∈ E
(2) d(x, y ) = 0 ⇐⇒ x = y
(3) d(x, y ) = d(y , x) pour tout x, y ∈ E
(4) d(x, z) ≤ d(x, y ) + d(y, z) pour tout x, y, z ∈ E (inégalité
triangulaire)
(5) d(x, z) ≤ max{d(x, y ), d(y , z)} pour tout x, y , z ∈ E
(inégalité ultramétrique)
d : (x, y) ∈ E × E 7→ d(x, y ) ∈ R+
p
X
• Distance l1 : d1 (x, y) = | xi − yi |.
i=1
- dP (x, y ) = 0 si x = y,
Ej ∩ Ej 0 = ∅ si j 6= j 0 .
• Critère : on recherche des classes les mieux séparées et
les plus homogènes possibles.
• Complexité combinatoire : la taille de l’ensemble des
partitions en k classes est de l’ordre de k n /k ! :
N(5, 2) = 15 ; N(10, 3) = 9330 ;
N(50, 4) = 5.3 × 1028 ; N(100, 5) = 6.6 × 1067 .
Méthodes de type k -means
• Traitement rapide d’ensembles de taille élevée ;
X p(x)
Inertie de la j ème classe : Ij = d 2 (x, gj ).
pj
x∈Ej
Décomposition de l’inertie totale
Inertie intra-classe :
X X X p(x)
IW = p j Ij = pj d 2 (x, gj )
pj
j j x∈Ej
XX
IW = p(x)d 2 (x, gj )
j x∈Ej
X
Inertie inter-classe : IB = pj d 2 (gj , g)
j
Décomposition :
IT = IB + IW ,
X
où IT est l’inertie totale : IT = p(x)d 2 (x, g).
x∈E
Algorithme des centres mobiles
c1 , . . . , ck
Donc,
v (m) ≥ IW (m)
Convergence des k-means (2)
Étape m + 1 : on affecte les points aux centres les plus proches.
X X
v (m + 1) = p(x)d 2 (x, cj (m + 1))
j x∈Ej (m+1)
avec cj (m + 1) = gj (m).
inertie intra-classe à l’itération m (rappel) :
X X
IW (m) = p(x)d 2 (x, gj (m))
j x∈Ej (m)
P1
1 2 3
1 18 25 12 55
P2 2 6 30 0 36
3 2 1 35 38
26 56 47 129
Effectifs des groupements stables
Exemple #2 de groupements stables :
1 2 3 4 5 6
Partition 1 127 188 229 245 151 60
Partition 2 232 182 213 149 114 110
Partition 3 44 198 325 99 130 204
x ← c(-2,-2,0,2,-2,3)
y ← c(2, -1,-1,2,3,0)
don ← matrix(data=c(x,y), nr=6, nc=2)
ctre ← c(-1,2,-1,3)
ctre1 ← matrix(data=ctre, nr=2, nc=2)
cl1 ← kmeans(don,ctre1,algorithm=”Lloyd”)
plot(don, col = cl1$cluster)
points(cl1$centers, col = 1 : 2, pch = 8, cex=2)
Exercice
Soit un ensemble E de 5 objets caractérisés par des scores
réels : E = {1, 2, 18, 20, 31}. On suppose que chacun des
objets est muni du poids 1/5, et que les distances entre ces
objets sont mesurés par la distance euclidienne usuelle. On
cherche une partition en 3 classes de cet ensemble E. On va
appliquer la méthode des k-means en prenant comme centres
des classes les centres de gravité.
1) Partition déterminée par la méthode des k -means si l’on
prend pour centres initiaux les objets 1, 2, 18.
2) Partition déterminée par la méthode des k -means si les
centres initiaux sont 18, 20, 31.
3) Partition déterminée par la méthode des k -means si la
partition initiale est {{1}, {2, 18}, {20, 31}}.
4) Liste des formes fortes.
5) Inerties intra-classe des partitions obtenues en 1) et 2) et
détermination de la meilleure partition.