Você está na página 1de 18

Técnicas de agrupamento

Técnicas de agrupamento (clustering) buscam encontrar grupos


de objetos similares em um conjunto de dados.

Uma questão natural nesse contexto é como definir similaridade


entre objetos.

Não existe uma resposta imediata para tal questão, pois


similaridade depende tanto do problema como da natureza dos
dados.
Técnicas de agrupamento
Por exemplo, suponha que a distância entre pontos seja a
medida de similaridade: Neste caso, a distância entre pontos
foi uma medida de similaridade
adequada para identificar os grupos.

Definindo grupos de modo que a


soma das distâncias entre os
elementos de um mesmo grupo
seja a menor possível entre todos
os possíveis grupos, obtemos:

dados originais

Neste caso, a distância


entre pontos não foi capaz
de identificar os grupos.
Técnicas de agrupamento
Medidas de similaridade também dependem dos dados:
dados multivariados

séries temporais
euclideana

DTW

sequências de caracteres

Introdução a Ciencia de Dados


Levenshtein

Introdução 2 CienTia DOS Dados


Técnicas de agrupamento

Existem muitas técnicas de


agrupamento:
 Kmeans;
 agrupamento hierárquico;
 DBSCAN;
 agrupamento spectral;
 ...
Kmeans
O método Kmeans parte de uma ideia muito simples.

Suponha que o número de grupos a ser calculado seja conhecido


e que o centroide de cada grupo também seja conhecido.
OBS.: o centroide de um conjunto de pontos é o ponto cujas
coordenadas são dadas pela média de cada coordenada dos
pontos do conjunto.
A partir dos centroides, os elementos de cada grupo podem ser
definidos como os que estão mais perto do centroide do grupo.
Kmeans

pontos mais próximos


centroides grupos
do centroides
Kmeans
Por outro lado, conhecidos os grupos, os centroides podem ser
facilmente calculados como a média das coordenadas dos pontos
em cada grupo.
O problema é que, na prática, não se conhecem nem os centroides
nem os grupos.
A ideia do método Kmeans é repetir os seguintes passos
iterativamente:
1. assuma que os centroides são conhecidos e calcule os grupos e
2. assuma que os grupos são conhecidos e calcule os centroides.
Começando com os centroides em qualquer posição, os passos 1 e 2
são repetidos até que a posição dos centroides não varie mais entre
iterações.
Kmeans
1 2 3

4 5 6
Kmeans: propriedades
1. Kmeans é muito eficiente, encontrando os grupos
rapidamente;
2. o número de grupos deve ser fixado no início do processo;
3. tende a encontrar grupos contidos em regiões ”convexas”
do espaço e
4. realiza operações no espaço cartesiano para calcular os
centroides, sendo difícil de ser adaptado para dados não
cartesianos, como séries temporais, por exemplo (embora
existam versões que utilizam somente a função de
similaridade, evitando operações no espaço cartesiano).
Agrupamento hierárquico
O agrupamento hierárquico busca identificar grupos de objetos
semelhantes, utilizando uma das seguintes estratégias:
1. dividir, sucessivamente, o conjunto de dados original até que
algum critério aponte o momento de cessar a divisão
(método de particionamento) e
2. agrupar, sucessivamente, os objetos até que um critério
aponte o momento de cessar o agrupamento (agrupamento
aglomerativo).
O critério de parada, em ambos os casos, pode ser o número de
grupos desejado (embora muitos outros critérios possam ser
adotados).
Técnicas de agrupamento
Agrupamentos hierárquicos podem operar diretamente nas
informações de similaridade, evitando cálculos em espaços
cartesianos.
Tais métodos assumem como entrada a matriz de ”distâncias”
entre os objetos.
matriz de dados matriz de distâncias
Agrupamento hierárquico aglomerativo
Métodos aglomerativos operam em duas etapas:
1. identificação dos elementos mais similares e
2. união dos elementos mais similares e novo cálculo de
distâncias.
Os passos 1 e 2 são executados até que o número de grupos
desejado seja atingido ou até que a distância entre os elementos
a serem unidos seja maior que um limiar desejado.
Um dos problemas é como definir a ”distância” (similaridade)
entre grupos de objetos, uma vez que as métricas operam em
pares de objetos, não em grupos.
Agrupamento hierárquico aglomerativo
Exemplo: Várias alternativas:
Como calcular a similaridade
entre os grupos  menor distância entre
? os elementos de cada
conjunto;
 maior distância entre
os elementos de cada
conjunto e
 distância média entre
pares de elementos
dos conjuntos.
Agrupamento hierárquico aglomerativo
Agrupamento hierárquico aglomerativo
A ordem em que os grupos são
unidos dá origem a uma estrutura
chamada dendograma.
1 grupo

2 grupos

4 grupos
Agrupamento hierárquico aglomerativo:
propriedades
1. permite interpretar visualmente como os grupos foram
gerados;
2. possibilita identificar facilmente outliers;
3. a visualização fica bastante confusa no caso de grandes
conjuntos de dados e
4. tem um custo computacional maior que o Kmeans (pode levar
algum tempo para se calcularem os grupos).
Técnicas de agrupamento
Como avaliar a qualidade de um agrupamento?
Existem diversas abordagens:
 comparar os clusters obtidos com aqueles adquiridos a partir
de dados randômicos;
 verificar o quão coesos os clusters obtidos são, quando
comparados a dados supervisionados (os grupos são
previamente conhecidos), e
 comparar clusters obtidos a partir de diferentes técnicas e
utilizar alguma métrica de ”coesão de grupos” para identificar
que grupos são os mais coesos.
TODOS OS DIREITOS RESERVADOS.

Você também pode gostar