Aula 12

Mineração de Dados
Aula 12: Clustering: análise de

agrupamento/segmentação
Rafael Izbicki
1 / 18
Aprendizado não supervisionado
2 / 18
O Problema
Como dividir sua amostra em grupos de indivı́duos que são
parecidos entre si? Isto é, grupos diferentes uns dos outros, mas
homogêneos entre si.
Formalmente: queremos criar uma partição da nossa amostra

C1 , . . . , CK . Isto é, devemos ter:
[ [ [
C1 C2 . . . CK = {1, 2 . . . , n}
e \
Ci Cj = ∀i 6= j
Ex: K = 2, C1 = {3, 4, 6}, C2 = {1, 2, 5, 7}
3 / 18
O Problema

[ [ [
C1 C2 . . . CK = {1, 2 . . . , n}
e \
Ci Cj = ∀i 6= j
Ex: K = 2, C1 = {3, 4, 6}, C2 = {1, 2, 5, 7}
3 / 18
O Problema

[ [ [
C1 C2 . . . CK = {1, 2 . . . , n}
e \
Ci Cj = ∀i 6= j
Ex: K = 2, C1 = {3, 4, 6}, C2 = {1, 2, 5, 7}
3 / 18
Conceito essencial: como medir dissimilaridade (ou similaridade)
entre dois indivı́duos.
Várias possı́veis medidas.

Ex: Distância Euclidiana
p
X
d 2 (xi , xj ) = (xi,k − xj,k )2
k=1
Para variáveis discretas: criar variáveis “dummies”
4 / 18
Conceito essencial: como medir dissimilaridade (ou similaridade)
entre dois indivı́duos.
Várias possı́veis medidas.

Ex: Distância Euclidiana
p
X
d 2 (xi , xj ) = (xi,k − xj,k )2
k=1
Para variáveis discretas: criar variáveis “dummies”
4 / 18
K -Médias
O K -Médias supõe que a medida de dissimilaridade usada é a
distância Euclidiana. Para usá-lo, é necessário especificar de
antemão K , quantos clusters se deseja.
Para o K-médias, buscar o melhor clustering significa buscar a uma
partição C1 , . . . , CK da nossa amostra tal que
K
X 1 X 2
d (xi , xj )
|Ck |
k=1 i,j∈Ck
seja baixo. Este quantidade é a soma de quadrados dentro de cada

cluster.
O método para encontrar o resposta para esse problema é um
algoritmo iterativo. (vocês devem estudar isso mais a fundo em
multivariada).
5 / 18
K -Médias
K
X 1 X 2
d (xi , xj )
|Ck |
k=1 i,j∈Ck

cluster.
multivariada).
5 / 18
K -Médias
K
X 1 X 2
d (xi , xj )
|Ck |
k=1 i,j∈Ck

cluster.
multivariada).
5 / 18
K -Médias
K
X 1 X 2
d (xi , xj )
|Ck |
k=1 i,j∈Ck

cluster.
multivariada).
5 / 18
Algoritmo de Lloyd
1. Escolha aleatoriamente k centróides c1 , . . . , ck .
Itere:
2. Atribuição: Defina o cluster Cj (j = 1, . . . , k) como sendo
Cj = {xi : arg min d(xi , cr ) = r }

r
3. Atualização: Calcule os novos centróides usando os grupos que

foram criados:
1 X
cj ←− xj
|Cj |
j:xj ∈Cj
https://www.youtube.com/watch?v=ZMfwPUrOFsE
6 / 18
Algoritmo de Lloyd
Itere:

r

foram criados:
1 X
cj ←− xj
|Cj |
j:xj ∈Cj
6 / 18
Algoritmo de Lloyd
Itere:

r

foram criados:
1 X
cj ←− xj
|Cj |
j:xj ∈Cj
6 / 18
Algoritmo de Lloyd
Itere:

r

foram criados:
1 X
cj ←− xj
|Cj |
j:xj ∈Cj
6 / 18
O algoritmo depende de escolhas iniciais, e portanto o resultado
pode ser um mı́nimo local dependendo da inicialização.
7 / 18
O algoritmo depende de escolhas iniciais, e portanto o resultado
pode ser um mı́nimo local dependendo da inicialização.
7 / 18
Uma melhoria: k-médias++
1. Escolha c1 aleatoriamente entre {x1 , . . . , xn } e defina
C = {c1 }.
2. Para j = 2, . . . , k :
2.1 Calcule D(xi ) = min ||xi − c|| para cada xi
c∈C
2.2 Escolha uma amostra xi aleatoriamente entre todas as
amostras observadas com probabilidade
D 2 (xi )
pi = P n 2
j=1 D (xj )
2.3 Defina cj como sendo o ponto escolhido. Atualize
C ← C ∪ {cj }
8 / 18
Métodos Hierárquicos
Um problema do K -médias é que K deve ser especificado de
antemão. Métodos Hierárquicos são uma forma de evitar isso.
(1) Atribua
cada
observação a um cluster diferente. Calcule cada
n
uma das distâncias entre esses clusters.
2
(2) Para i = n, n − 1, . . . , 2:
(a) Procure entre todos os pares formados por dois dos i clusters
aqueles mais parecidos. Junte esses dois clusters em um só. A
dissimilaridade entre esses dois clusters indica a altura do
dendrograma em que a junção será feita.
(b) Calcule cada uma das distâncias entre os novos i-1 clusters.
9 / 18
(1) Atribua
cada
n
2
(2) Para i = n, n − 1, . . . , 2:
9 / 18
(1) Atribua
cada
n
2
(2) Para i = n, n − 1, . . . , 2:
9 / 18
(1) Atribua
cada
n
2
(2) Para i = n, n − 1, . . . , 2:
9 / 18
10 / 18
11 / 18
12 / 18
13 / 18
14 / 18
Há várias formas de se definir a distância entre dois clusters:
15 / 18
Na prática, é comum tentarmos vários métodos de clustering
(diferentes distâncias, linkages etc), e buscarmos a solução mais
interpretável.
16 / 18
Clustering Espectral
Redução de dimensionalidade (Kernel PCA ou variações) +

Técnicas tradicionais de clustering
17 / 18
Clustering Espectral
Redução de dimensionalidade (Kernel PCA ou variações) +

Técnicas tradicionais de clustering nas variáveis reduzidas
18 / 18

Aula 12

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula 12

Enviado por

Direitos autorais:

Formatos disponíveis

Mineração de Dados

Aula 12: Clustering: análise de

Formalmente: queremos criar uma partição da nossa amostra

Ex: K = 2, C1 = {3, 4, 6}, C2 = {1, 2, 5, 7}

Formalmente: queremos criar uma partição da nossa amostra

Ex: K = 2, C1 = {3, 4, 6}, C2 = {1, 2, 5, 7}

Formalmente: queremos criar uma partição da nossa amostra

Ex: K = 2, C1 = {3, 4, 6}, C2 = {1, 2, 5, 7}

Várias possı́veis medidas.

Para variáveis discretas: criar variáveis “dummies”

Várias possı́veis medidas.

Para variáveis discretas: criar variáveis “dummies”

seja baixo. Este quantidade é a soma de quadrados dentro de cada

seja baixo. Este quantidade é a soma de quadrados dentro de cada

seja baixo. Este quantidade é a soma de quadrados dentro de cada

seja baixo. Este quantidade é a soma de quadrados dentro de cada

2. Atribuição: Defina o cluster Cj (j = 1, . . . , k) como sendo

Cj = {xi : arg min d(xi , cr ) = r }

3. Atualização: Calcule os novos centróides usando os grupos que

2. Atribuição: Defina o cluster Cj (j = 1, . . . , k) como sendo

Cj = {xi : arg min d(xi , cr ) = r }

3. Atualização: Calcule os novos centróides usando os grupos que

2. Atribuição: Defina o cluster Cj (j = 1, . . . , k) como sendo

Cj = {xi : arg min d(xi , cr ) = r }

3. Atualização: Calcule os novos centróides usando os grupos que

2. Atribuição: Defina o cluster Cj (j = 1, . . . , k) como sendo

Cj = {xi : arg min d(xi , cr ) = r }

3. Atualização: Calcule os novos centróides usando os grupos que

2.3 Defina cj como sendo o ponto escolhido. Atualize

Redução de dimensionalidade (Kernel PCA ou variações) +

Redução de dimensionalidade (Kernel PCA ou variações) +

Você também pode gostar