Escolar Documentos
Profissional Documentos
Cultura Documentos
(Agrupamento de Dados)
22 de janeiro de 2019
Biologia:
Reino: Animalia
Ramo: Chordata
Classe: Mammalia
Ordem: Primatas
Famı́lia: Hominidae
Gênero: Homo
(homem moderno e
parentes)
Espécie: Homo Figura: Profo Eduardo R.
sapiens Hruschka.
Profo : Joelson A. dos Santos e Felipe P. Coutinho (UFV)
SIN 460 - Mineração de Dados 22 de janeiro de 2019 4 / 55
Aprendizado Sup. vs. Aprendizado Não
Sup.
...
Classificação supervisionada;
Esta contém informações de rótulos dos objetos;
Simples segmentação;
Ex: dividir um conjunto de objetos em diferentes grupos
pela ordem alfabética ou pelo último nome;
Escala Quantitativa:
Intervalar: Interpretação dos números depende de uma
unidade de medida, cujo zero é arbitrário;
Exemplo: Temperatura 26o C = 78F não é 2 vezes mais
quente que 13o C (55F ) e 39F (4o C );
2
Gan, G., Ma, C., Wu, J., Data Clustering: Theory, Algorithms, and
Applications, SIAM Series on Statistics and Applied Probability, 2007
Profo : Joelson A. dos Santos e Felipe P. Coutinho (UFV)
SIN 460 - Mineração de Dados 22 de janeiro de 2019 27 / 55
Notação
Matriz de Dados X:
N linhas (objetos) e n colunas (atributos):
x11 x12 x13 ··· x1n
x21
x22 x23 ··· x2n
X = x31
x32 x33 ··· x3n
(1)
.. .. .. ..
. . . ··· .
xN1 xN2 xN3 ··· xNn
Similaridade
Mede o quanto duas instâncias são parecidas
quanto mais parecidos, maior o valor;
Geralmente valor ∈ [0, 1]
Dissimilaridade
Mede o quanto duas instâncias são diferentes
quanto mais diferentes, maior o valor;
Geralmente valor ∈ [0, dmax ] ou [0, ∞]
Atributos contı́nuos
Atributos mistos
Métrica.
Induz clusters hiper-esféricos
Clusters invariantes com rel. a translação e rotação
no espaço dos atributos.
Atributos com maiores valores (e variâncias) tendem
a “dominar” os demais...
Profo : Joelson A. dos Santos e Felipe P. Coutinho (UFV)
SIN 460 - Mineração de Dados 22 de janeiro de 2019 37 / 55
Medidas de (Dis)similaridade:
objetos a1 a2 a3 a4
x1 1 2 5 803
x2 1 1 5 712
x3 1 3 5 792
Variância 0 1 0 2467
Pn 1/p
δijk |xik − xjk |p
d p (xi , xj ) =k xi −xj kp = k=1P
n
k=1 δijk
(7)
(
δijk = 0 se xi ou xj ausentes
(8)
δijk = 1 caso contrário
Interessante para atributos faltantes;
Alternativa a “imputação”.
Profo : Joelson A. dos Santos e Felipe P. Coutinho (UFV)
SIN 460 - Mineração de Dados 22 de janeiro de 2019 42 / 55
Distância com valores Ausentes
objetos a1 a2 a3 a4
x1 2 -1 ??? 0
x2 7 0 -4 8
x3 ??? 3 5 2
d1 · d2
cos(d1 , d2 ) = (9)
k d1 kk d2 k
Em que · é o produto interno entre vetores.
d1 = [3 2 0 5 0 0 0 2 0 0] e
d2 = [1 0 0 0 0 0 0 1 0 2]
Solução no quadro.