Você está na página 1de 14

Agrupamento – K-Means

Algoritmo:

•      Passo 1: Os primeiros k centros dos aglomerados / agrupamentos são escolhidos aleatoriamen

•      Passo 2: Cada objeto é atribuído ao grupo associado com o centro mais próximo (rotulação)

•      Passo 3: Calcule um novo centro para cada grupo (média dos valores de todos os objetos - cen

•      Passo 4: Repita Passo2 (com os novos centros) e Passo3 até que não haja mudança nos centr
eans
os aleatoriamente

mo (rotulação)

os objetos - centróide)

dança nos centros (ou outro critério de parada seja atingido)


Pontos x y
1 1 1
2 1.5 2
3 3 4 8

4 5 7
7
5 3.5 5
6 4.5 5 6
7 3.5 4.5
5

Queremos encontrar dois grupos por meio do K-Means! 4


Utilizar distância euclidiana quadrática!
3

2 2;

1 1; 1

0
0.5 1 1.5

Calcular a DISTÂNCIA dos pontos aos centróides G1 G2


2.1 1.25 1 4 8
2.4 37.25 2 5
3 6 7

3.1 13 7
3.4 13 6

5
5.1 22.25
5.4 6.25
4

6.1 28.25
6.4 4.25 3

7.1 18.5
2 2

1 1; 1
3

2 2
7.4 8.5

Calcular novo centróide 1 1; 1


x y
G1 1.83 2.33 0
0.5 1 1.5
G2 4.13 5.38

x y
8
1 1 1
2 1.5 2 7
3 3 4
4 5 7 6
5 3.5 5
6 4.5 5 5

7 3.5 4.5
G1 1.83 2.33 4

G2 4.13 5.38
3

Calcular a DISTÂNCIA dos pontos aos centróides 2

1, G1 2.47 G1 G2
1, G2 28.91 1 3 1 1; 1
2 4
0
2,G1 0.22 5 0.5 1 1.

2,G2 18.28 6
7
3,G1 4.14
3,G2 3.16

4, G1 31.81
4, G2 3.41

5,G1 22.25 8

5,G2 13
7

6
8

6,G1 28.25
6,G2 18 6

7,G1 18.5 5

7,G2 10.25
4
Calcular novo centróide
G1 1.25 1.50 3

G2 3.90 5.10
2 2; 2
x y 8; 1.5
1 1 1
1 1; 1
2 1.5 2 0
3 3 4 0.5 1 1.5

4 5 7
5 3.5 5
6 4.5 5
7 3.5 4.5
G1 1.25 1.50
G2 3.90 5.10

Calcular a DISTÂNCIA dos pontos aos centróides


1, G1 0.31 G1 G2
1, G2 25.22 1 3 Os grupo
2 4 Portanto.
2,G1 0.31 5
distribuiç
2,G2 15.37 6
7
3,G1 9.31
3,G2 2.02

4, G1 44.31
4, G2 4.82
5,G1 17.31
5,G2 0.17

6,G1 22.81
6,G2 0.37

7,G1 14.06
7,G2 0.52
Primeira distribuição

4; 7

5; 5 6; 5
7; 4.5
3; 4

2; 2

1; 1

5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5

Primeira iteração

4; 7

5; 5 6; 5
7; 4.5
3; 4

2; 2

1; 1
2; 2

1; 1

.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5

Após primeira iteração


8

7 4; 7

9; 5.375
5 5; 5 6; 5
7; 4.5
4 3; 4

3
8;
2.3333333333333
2 2; 2 3

1 1; 1

0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5

Após segunda iteração

4; 7

5; 5 9; 5.1
4; 7

5; 5 9; 5.1

7; 4.5
6; 5

3; 4

2; 2
8; 1.5
1; 1

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5

Os grupos permaneceram os mesmos!


Portanto... paramos aqui e esta é a melhor
distribuição encontrada.
O risco de câncer de pulmão está relacionado a alguns fatores, dentre eles destacamos
física (sim ou não), obesidade (sim ou não), fumante passivo (sim ou não), talco (%ex

Indivíduo Fumante Atividade física Obesidade Fumante passivo Talco Poluição


1 0 1 1 0 5 15
2 1 0 0 1 10 4
3 1 1 1 0 15 10
4 1 1 0 0 25 36
5 0 0 1 1 31 57
6 1 0 0 0 23 34

Utilizando os indíviduos 1 e 4 como centróides iniciais, execute uma iteração do K-Me


quadrática para gerar dois grupos e determinar quais os grupos dos indivíd

Primeira etapa: normalização dos atributos


Indivíduo Fumante Atividade física Obesidade Fumante passivo Talco Poluição
1 0 1 1 0 0.05 0.15
2 1 0 0 1 0.1 0.04
3 1 1 1 0 0.15 0.1
4 1 1 0 0 0.25 0.36
5 0 0 1 1 0.31 0.57
6 1 0 0 0 0.23 0.34

Segunda etapa: primeira iteração


Centróides
G1 0 1 1 0 0.05 0.15
G2 1 1 0 0 0.25 0.36

Distâncias
G1 1 0 Grupos finais NÃO SIM
G2 1 2.0841 1 2
3 4
G1 2 4.0146 5 6
G2 2 2.1249

G1 3 1.0125
G2 3 1.0776

G1 4 2.0841
G2 4 0

G1 5 2.244
G2 5 4.0477

G1 6 3.0685
G2 6 1.0008
s destacamos: tabagismo (sim ou não), atividade
o), talco (%exposição) e poluição (%exposição).

Risco
NÃO
?
?
SIM
?
?

ção do K-Means utilizando distância euclidiana


os dos indivíduos não categorizados.

Risco
NÃO
?
?
SIM
?
?

NÃO
SIM
ID Estilo E1 Preço P1 Nota Tamanho T1 Estação ES1
1 Casual 0 Baixo 0 0 L 1 Verão 0
2 Festa 1 Baixo 0 1 L 1 Verão 0
3 Festa 1 Médio 0.5 0 M 0.5 Primavera 1
4 Festa 1 Baixo 0 1 M 0.5 Verão 0
5 Casual 0 Médio 0.5 0 S 0 Verão 0
6 Festa 1 Alto 1 0 M Primavera
7 Casual 0 Baixo 0 1 M Primavera
8 Casual 0 Médio 0.5 0 M Primavera
9 Casual 0 Médio 0.5 0 L Primavera
10 Festa 1 Baixo 0 0 M Primavera
11 Casual 0 Médio 0.5 0 M Verão
12 Casual 0 Alto 1 0 L Primavera
13 Festa 1 Médio 0.5 1 L Primavera
14 Casual 0 Alto 1 1 L Primavera
15 Casual 0 Médio 0.5 1 M Verão
16 Festa 1 Médio 0.5 0 M Primavera
17 Festa 1 Alto 1 0 M Verão
18 Festa 1 Alto 1 1 M Primavera

X1 Casual Médio 0 L Verão Sintético Sólido 1


X2 Casual Baixo 1 M Primavera Algodão Estampado 1
X3 Festa Alto 1 M Verão Sintético Estampado 2
X4 Festa Médio 0 L Primavera Algodão Sólido 2
X5 Casual Alto 0 L Verão Sintético Sólido 4

ID Estilo E1 Preço P1 Nota Tamanho T1 Estação ES1


1 Casual 0 Baixo 0 0 L 1 Verão 0
2 Festa 1 Baixo 0 1 L 1 Verão 0
3 Festa 1 Médio 0.5 0 M 0.5 Primavera 1
4 Festa 1 Baixo 0 1 M 0.5 Verão 0
5 Casual 0 Médio 0.5 0 S 0 Verão 0

G1 0.6 0.2 0.4 0.6 0.2


X1 0 0.5 0 1 0
0.6 0.3 0.4 0.4 0.2
Material M1 Padrão PA1 Tipo do Vestido
Algodão 1 Estampado 1 1
Algodão 1 Sólido 0 1
Sintético 0 Estampado 1 1
Sintético 0 Estampado 1 1
Algodão 1 Sólido 0 1
Algodão Sólido 2
Algodão Estampado 2
Algodão Estampado 2
Sintético Sólido 2
Algodão Estampado 2
Algodão Estampado 3
Algodão Sólido 3
Sintético Sólido 3
Sintético Sólido 3
Sintético Estampado 4
Sintético Sólido 4
Algodão Estampado 4
Algodão Sólido 4

Material M1 Padrão PA1 Tipo do Vestido


Algodão 1 Estampado 1 1
Algodão 1 Sólido 0 1
Sintético 0 Estampado 1 1
Sintético 0 Estampado 1 1
Algodão 1 Sólido 0 1

0.6 0.6
0 0
0.6 0.6 3.1

Você também pode gostar