Você está na página 1de 7

K-médias

O algoritmo de K-médias (K-means) particiona dados


p-dimensionais em K grupos (clusters) sem sobreposição.

Para esse algoritmo, precisamos definir, de antemão, a


quantidade K de grupos.

C1, ... , CK – conjuntos contendo os índices das observações em


cada grupo:
 e
 .
K-médias
Objetivo: clusters com baixa variação intragrupo .

Queremos encontrar os conjuntos:

Possível variação intragrupo (distância Euclidiana


quadrática):
K-médias
O algoritmo de Lloyd converge para um mínimo local:
1. escolha, aleatoriamente, um número de 1 a K para cada
observação (esses serão os clusters para as observações) e
2. itere os passos a seguir até que os clusters não se
alterem mais:
a) para cada um dos K clusters, encontre o centroide do
cluster, definido como o vetor p-dimensional de médias
dos elementos cluster k e
b) atribua cada observação ao cluster cujo centroide está
mais próximo (no sentido da distância Euclidiana).
K-médias
O algoritmo de Lloyd garante que a função objetivo decresça a
cada iteração.

Para entender o porquê, vamos analisar:

Notação:
 – média da j-ésima feature no cluster 𝐶𝑘 .
K-médias
 no passo 2, letra a, do algoritmo (atualização), as médias em
cada cluster, para cada uma das features, são as constantes
que minimizam a soma dos desvios ao quadrado e
 no passo 2, letra b, ao mudarmos uma observação de cluster,
estaremos, necessariamente, melhorando (diminuindo) os
termos acima.

O algoritmo roda até que as observações não mudem mais de


cluster, significando que um mínimo local foi alcançado.
K-médias

 Exemplo no R.
TODOS OS DIREITOS RESERVADOS.

Você também pode gostar