Você está na página 1de 40

Técnicas de Agrupamento Prof.

Genaro Dueire Lins


Objetivos
• Entender a motivação
• Tipos de métodos
• Métodos hierárquicos
• K-means
• Visualização
Objetivos
• Entender a motivação
• Tipos de métodos
• Métodos hierárquicos
• K-means
• Visualização
Quais técnicas supervisionadas vimos até aqui?

Supervisionada
• Regressão
• Logit / Softmax
• SVM
• Árvore de Decisão
• Random Forest
Agora vamos ver algumas técnicas não
supervisionadas…
Música: erudita, popular, religiosa, etc. Filmes: animação, comédia, drama, etc. Grupos de mensagem

Categorizações Comuns
Qual seria a
forma natural
de agrupar?
Com base em quais atributos definimos similaridades?
Clusterização está
entre as técnicas
mais usadas em
ciência de dados!
https://www.kdnuggets.com/poll
s/2011/algorithms-analytics-
data-mining.html
Problema:
Mas, por quê estas Presumindo que k seja conhecido, o número de
técnicas são tão usadas? possíveis formas de agrupar N objetos em k
clusters quantas seriam as formas de agrupá-los?
Solução
$
1 𝑘
𝑁𝑀 𝑁, 𝐾 = ∗ * ∗ 𝑘−𝑖
𝑘! 𝑖
!"#

Por exemplo, 𝑁 100,5 ≈ 𝟓𝟔. 𝟔 ∗ 𝟏𝟎𝟔𝟕


Em um computador com capacidade de Como k é, em geral, Em problemas NP-Hard,
avaliar 109 partições/s, levaria cerca de desconhecido, problema é ainda precisamos de formulações
maior. alternativas.
1.8 x 𝟏𝟎𝟓𝟎 séculos para processar todas as
avaliações.
Objetivos
• Entender a motivação
• Tipos de métodos
• Métodos hierárquicos
• K-means
• Visualização
Hierárquicos Particionais

Tipos mais comuns de algoritmos de


agrupamento
Objetivos
• Entender a motivação
• Tipos de métodos
• Métodos hierárquicos
• K-means
• Visualização
Conceitos
Básicos de
Hierarquia
Hierarquia é comumente usado
para organizar informação.
Exemplo: Árvores Filogenéticas em Biologia
Métodos para
agrupamentos
hierárquicos
Como medimos distância?
Mínimo Máximo Média

Existem várias formas de cálculo de similaridade ou (dis)similaridade


Dendograma = Hierarquia +
Dissimilaridade entre Clusters
A dissimilaridade entre dois clusters (possivelmente singletons) é
representada como a altura do nó interno mais baixo
compartilhado
Dendograma
• Partições são obtidas via cortes no dendograma
Dentogramas • cortes horizontais
• no. de grupos da partição = no. de interseções
Objetivos
• Entender a motivação
• Tipos de métodos
• Métodos hierárquicos
• K-means
Objetiva particionar 𝑁
observações dentre 𝑘 grupos
em que cada observação
pertence ao grupo mais
próximo da média. Isso resulta
em uma divisão do espaço de
dados em um Diagrama de
Voronoi.

K-Means
Utilização em computação Gráfica
Triangularização de Delaunay
Atribuir cada objeto Atualiza posição do
Escolher K para o cluster do centroide como
centroides centroide mais média dos
próximo elementos do grupo


o

Pare SIM Convergência?

K-means Algoritmo Básico


Suponha que você está
organizando uma conferência
em Data Science e que você
pretende alocar os
pesquisadores em grupos:
Ciência da Computação,
Matemática e Estatística.

Publicação em revistas Cientificas de Computação ou Matemática/ Estatística


Sugestão de
Clusterização
k-means

Objetivo: “Finding groups of objects such that the objects in a group are
similar (or related) to one another and different from (or unrelated to) the
objects in other groups.” (Tan et al., 2006)
Força

• Usa princípios simples que pode


ser explicado em termos não
estatísticos
• Altamente flexível e pode adaptado
com ajustes simples para resolver
alguma deficiência
• Trabalha bem o suficiente em
muitos casos de uso do mundo real
Suponha que
aleatoriamente
escolhemos
k=3
Os primeiros pontos podem ser
arbitrariamente colocados
Calcula-se
com base
nestes
pontos os
primeiros
Cluteres
E com base
nele, o novo
centróide, e os
novos clusteres
Na nova iteração,
reavaliamos os
centroids, clusteres,
e os pontos
pertencentes.
Até que o
algoritmo
converge...
Visualizando…

https://www.naftaliharris.com
/blog/visualizing-k-means-
clustering/
Regra do Cotovelo

Optimal number of clusters


Para encontrar o número ótimo de centroides, o método mais utilizado é
o de Elbow.

O método consiste em maximizar a relação entre usar o menor número


de clusters e ainda assim conseguir a menor soma de quadrados da
distância.

No exemplo ao lado, conseguimos estabelecer que o número ótimo de


clusters é 4, pois na medida que adicionamos mais, a soma dos erros não
sofre grande queda, sendo assim adotamos esse como o número ótimo.

Exemplo: Aplicação do Método de Elbow.


Fragilidades
• Não é tão sofisticado quanto os algoritmos de cluster mais
modernos
• Por usar um elemento de chance aleatória, não é garantido
que encontre o conjunto ideal de clusters
• Requer um palpite razoável sobre quantos clusters existem
naturalmente nos dados
• Não é ideal para aglomerados não esféricos ou aglomerados
de densidade variável
Exemplo
onde o K-
means não
funciona
bem
Objetivos
• Entender a motivação
• Tipos de métodos
• Métodos hierárquicos
• K-means

Você também pode gostar