Escolar Documentos
Profissional Documentos
Cultura Documentos
dados originais
séries temporais
euclideana
DTW
sequências de caracteres
4 5 6
Kmeans: propriedades
1. Kmeans é muito eficiente, encontrando os grupos
rapidamente;
2. o número de grupos deve ser fixado no início do processo;
3. tende a encontrar grupos contidos em regiões ”convexas”
do espaço e
4. realiza operações no espaço cartesiano para calcular os
centroides, sendo difícil de ser adaptado para dados não
cartesianos, como séries temporais, por exemplo (embora
existam versões que utilizam somente a função de
similaridade, evitando operações no espaço cartesiano).
Agrupamento hierárquico
O agrupamento hierárquico busca identificar grupos de objetos
semelhantes, utilizando uma das seguintes estratégias:
1. dividir, sucessivamente, o conjunto de dados original até que
algum critério aponte o momento de cessar a divisão
(método de particionamento) e
2. agrupar, sucessivamente, os objetos até que um critério
aponte o momento de cessar o agrupamento (agrupamento
aglomerativo).
O critério de parada, em ambos os casos, pode ser o número de
grupos desejado (embora muitos outros critérios possam ser
adotados).
Técnicas de agrupamento
Agrupamentos hierárquicos podem operar diretamente nas
informações de similaridade, evitando cálculos em espaços
cartesianos.
Tais métodos assumem como entrada a matriz de ”distâncias”
entre os objetos.
matriz de dados matriz de distâncias
Agrupamento hierárquico aglomerativo
Métodos aglomerativos operam em duas etapas:
1. identificação dos elementos mais similares e
2. união dos elementos mais similares e novo cálculo de
distâncias.
Os passos 1 e 2 são executados até que o número de grupos
desejado seja atingido ou até que a distância entre os elementos
a serem unidos seja maior que um limiar desejado.
Um dos problemas é como definir a ”distância” (similaridade)
entre grupos de objetos, uma vez que as métricas operam em
pares de objetos, não em grupos.
Agrupamento hierárquico aglomerativo
Exemplo: Várias alternativas:
Como calcular a similaridade
entre os grupos menor distância entre
? os elementos de cada
conjunto;
maior distância entre
os elementos de cada
conjunto e
distância média entre
pares de elementos
dos conjuntos.
Agrupamento hierárquico aglomerativo
Agrupamento hierárquico aglomerativo
A ordem em que os grupos são
unidos dá origem a uma estrutura
chamada dendograma.
1 grupo
2 grupos
4 grupos
Agrupamento hierárquico aglomerativo:
propriedades
1. permite interpretar visualmente como os grupos foram
gerados;
2. possibilita identificar facilmente outliers;
3. a visualização fica bastante confusa no caso de grandes
conjuntos de dados e
4. tem um custo computacional maior que o Kmeans (pode levar
algum tempo para se calcularem os grupos).
Técnicas de agrupamento
Como avaliar a qualidade de um agrupamento?
Existem diversas abordagens:
comparar os clusters obtidos com aqueles adquiridos a partir
de dados randômicos;
verificar o quão coesos os clusters obtidos são, quando
comparados a dados supervisionados (os grupos são
previamente conhecidos), e
comparar clusters obtidos a partir de diferentes técnicas e
utilizar alguma métrica de ”coesão de grupos” para identificar
que grupos são os mais coesos.
TODOS OS DIREITOS RESERVADOS.