Você está na página 1de 8

27/09/2012

Mineração de Dados em
Biologia Molecular Principais tópicos
Métodos baseados em Aprendizado baseado em instâncias
distância Conceitos básicos
KNN
Raciocínio Baseado em Casos
André C. P. L. F. de Carvalho Conclusão
Monitor: Valéria Carvalho

27/09/2012 André de Carvalho - ICMC/USP 2

Métodos baseados em distância Métodos baseados em distância


Consideram proximidade entre dados Principio básico
Considera que dados similares tendem a estar em Se anda como um cachorro e late como um
uma mesma região no espaço de entrada cachorro, então provavelmente é um ...
Aprendizado preguiçoso Exemplo
Dados de
Só olha os dados de treinamento quando precisa treinamento de teste
classificar novo objeto distância

Exemplos:
Algoritmo k-vizinhos mais próximos
Raciocínio Baseado em Casos

27/09/2012 André de Carvalho - ICMC/USP 3 27/09/2012 André de Carvalho - ICMC/USP 4

Similaridade x Dissimilaridade Medida de proximidade


Similaridade Várias
Mede o quanto dois objetos são parecidos
Quanto mais parecidos, maior o valor Euclidiana
Geralmente valor ∈ [0, 1] Quadrática
Dissimilaridade
Bloco-cidade
Mede o quanto dois objetos são diferentes
Quanto mais diferentes, maior o valor
Geralmente valor ∈ [0, X]
Medida de proximidade pode ser usada nos
dois casos

André de Carvalho - ICMC/USP 5 27/09/2012 André de Carvalho - ICMC/USP 6

1
27/09/2012

Distância Euclidiana Distância de Minkowski


Pode medir dissimilaridade de objetos Generalização da distância Euclidiana
com mais de um atributo m 1
Para atributos com escalas de valores dist = (∑ | pk − qk | ) r r
diferentes, pode ser necessário normalizar
k =1

m
Valor de r leva a diferentes distâncias
dist = ∑(p
k =1
k − qk ) 2 1 (L1): Distância bloco cidade (Manhattan)
Hamming (valores binários)
2 (L2): Distância Euclidiana
∞ (L∞): Distância suprema

André de Carvalho - ICMC/USP 7 André de Carvalho - ICMC/USP 8

Distância quadrada Relação entre distâncias


Qualquer ponto que cair na fronteira, dará o
Simplificação da distância X mesmo valor de distância do centro
Menor complexidade
Distância Euclidiana
Menor exatidão
Centro

Distância quadrada
dist = MAX (| pk − qk |)
Distância Manhattan

André de Carvalho - ICMC/USP 9 27/09/2012 André de Carvalho - ICMC/USP 10

Exercício Exercício
Calcular a distância entre os exemplos Encontrar a distância entre os exemplos
abaixo usando as distâncias abaixo utilizando a distância Manhattan
Manhattan 110000, 111001, 000111, 001011, 100111,
101001
Eucilidiana
Quadrada Ex1 = (3, 1, 10, 2)

Ex2 = (2, 5, 3, 2)

27/09/2012 André de Carvalho - ICMC/USP 11 27/09/2012 André de Carvalho - ICMC/USP 12

2
27/09/2012

Medidas de distâncias Medidas de similaridade


Têm, em geral, têm as propriedades: Também têm propriedades bem
Seja d(p, q) a distância (dissimilaridade) definidas:
entre dois objetos p e q Seja s(p, q) a similaridade entre dois
d(p, q) ≥ 0 ∀ p e q e d(p, q) = 0 see p = q objetos p e q
(definida positiva) s(p, q) = 1 (similaridade máxima) apenas se p
d(p, q) = d(q, p) ∀ p e q (simetria) =q
d(p, r) ≤ d(p, q) + d(q, r) ∀ p, q e r s(p, q) = s(q, p) ∀ p e q (simetria)
(desigualdade triangular)
Medidas que satisfazem essas
propriedades são denominadas métricas
André de Carvalho - ICMC/USP 13 André de Carvalho - ICMC/USP 14

Dissimilaridade entre valores Exercício


Sejam a e b dois valores de um atributo Qual a distância entre os exemplos da
Nominal 1, se a ≠ b tabela abaixo
d ( a, b) = 
s=1-d 0, se a = b Usar distâncias
Euclidiana
Ordinal a −b Bloco cidade
d ( a, b) =
s=1-d n −1 Máxima
Estado Escolaridade Altura Salário Classe
Intervalar ou racional d ( a, b) = a − b SP Médio 180 3000 A
RJ Superior 174 7000 B
s = - d ou s = 1/(1+d) RJ Superior 100 2000 A

27/09/2012 André de Carvalho - ICMC/USP 15 27/09/2012 André de Carvalho - ICMC/USP 16

Similaridade entre vetores binários Similaridade entre vetores binários


Frequentemente, objetos p e q têm apenas Coeficiente de Casamento Simples
valores binários
Similaridades podem ser computadas CCS = num. de coinc. / num. de atributos
usando: = (M11 + M00) / (M01 + M10 + M11 + M00)
M01 = número de atributos em que p = 0 e q = 1
M10 = número de atributos em que p = 1 e q = 0 Coeficiente Jaccard
M00 = número de atributos em que p = 0 e q = 0
M11 = número de atributos em que p = 1 e q = 1 J = num. coinc. 11 / num. Pelo menos.um ≠ 0
= (M11) / (M01 + M10 + M11)

André de Carvalho - ICMC/USP 17 André de Carvalho - ICMC/USP 18

3
27/09/2012

Exercício Similaridade cosseno


Calcular disssimilaridade entre p e q Muito usado para dados de textos
usando coeficientes: Grande número de atributos
Casamento Simples Esparsos
Jaccard
Sejam p e q vetores representando
p =100110101110 documentos
q =010011001011
cos( p, q) = (p • q) / ||p|| ||q||
•: vector produto interno entre vetores
|| p ||: é o tamanho (norma) do vetor p

André de Carvalho - ICMC/USP 19 André de Carvalho - ICMC/USP 20

Classificação 1-vizinho mais próximo


Medidas de distância podem ser usadas Algoritmos lazy (preguiçoso)
para classificação de novos dados Olha apenas os dados de treinamento
quando precisa classificar novo objeto
Classificadores mais simples
K-NN
Não constroem um modelo explicitamente
Diferente de classificadores eager, como
Dissimilaridade entre valores SVMs e DTs
Desempenho depende da medida de Baseados em informações locais
distância utilizada ADs, RNs e SVMs são baseados em
informações globais

27/09/2012 André de Carvalho - ICMC/USP 21 27/09/2012 André de Carvalho - ICMC/USP 22

1-vizinho mais próximo Quantos vizinhos?


K muito grande
Vizinhos podem ser muito diferentes
Classe
saudável
Predição tendenciosa para classe
1-NN majoritária
Classe Custo computacional mais elevado
doente
? K muito pequeno
Não usa informação suficiente
Previsão pode ser instável
Exame 1 Ruído
27/09/2012 André de Carvalho - ICMC/USP 23 27/09/2012 André de Carvalho - ICMC/USP 24

4
27/09/2012

Quantos vizinhos? Quantos vizinhos?

Classe Classe
saudável saudável
3-NN 3-NN
Classe Classe
5-NN
doente doente
? ?

Exame 1 Exame 1

27/09/2012 AndréAndré
PoncededeCarvalho
Leon F de
- ICMC/USP
Carvalho 25 27/09/2012 André de Carvalho - ICMC/USP 26

K-Vizinhos mais próximos K-vizinhos mais próximos


Lento para classificar novos objetos
Seja k o número de vizinhos mais Seleção de atributos
próximos a ser considerado Eliminação de objetos
Para cada novo exemplo x Armazenar apenas protótipos das classes na
Definir a classe dos k exemplos memória
mais próximos Algoritmos iterativos
Classificar x na classe majoritária Eliminação sequencial
entre seus vizinhos Inserção sequencial

27/09/2012 André de Carvalho - ICMC/USP 27 27/09/2012 André de Carvalho - ICMC/USP 28

K-vizinhos mais próximos K-vizinhos mais próximos


Seleção de protótipos Normalizar atributos
Definir um protótipo por classe Ponderar atributos
Eliminação sequencial
Começa com todos os objetos
Ponderar voto por distância entre
Descarta objetos corretamente classificados pelos exemplos
protótipos
Regressão
Inserção sequencial
Conjunto inicial vazio
Naturalmente incremental
Acrescenta objetos incorretamente classificados
pelos protótipos
27/09/2012 André de Carvalho - ICMC/USP 29 27/09/2012 André de Carvalho - ICMC/USP 30

5
27/09/2012

Exercício Exercício
Seja o seguinte cadastro de pacientes: Usar K-NN e os exemplos anteriores
para definir as classes dos exemplos de
Nome Febre Enjôo Manchas Dores Diagnóstico teste
Usar k = 1, 3 e 5
João sim sim pequenas sim doente
Pedro não não grandes não saudável Exemplos de teste
Maria sim sim pequenas não saudável (Luis, não, não, pequenas, sim)
José sim não grandes sim doente
Ana sim não pequenas sim saudável (Laura, sim, sim, grandes, sim)
Leila não não grandes sim doente

27/09/2012 André de Carvalho - ICMC/USP 31 27/09/2012 André de Carvalho - ICMC/USP 32

Exercício Raciocínio baseado em casos


Data a tabela abaixo, com k =1 e 3, Moda no passado: Sistemas Baseados em
definir a classe dos exemplos: Regras
(RJ, Médio, 178, 2000) Dificuldade de especialistas em transformar
experiência em regras
(SP, Superior, 200, 800)
Estado Escolaridade Altura Salário Classe
SP Médio 180 3000 A If ....
RJ Superior 174 7000 B Then ...
RS Médio 180 600 B Else...
RJ Superior 100 2000 A
SP Fundam. 178 5000 A
RJ Fundam. 188 1800 A
EXPERIÊNCIA REGRAS
27/09/2012 André de Carvalho - ICMC/USP 33 27/09/2012 André de Carvalho - ICMC/USP 34

Raciocínio baseado em casos Como funciona RBC?


Resolve novos problemas adaptando soluções
de problemas anteriores semelhantes

Solução 2 Nova solução


EXPERIÊNCIA BASE DE
EXPERIÊNCIAS
Problema Novo problema
Mas não uma BD! 1

27/09/2012 André de Carvalho - ICMC/USP 35 27/09/2012 André de Carvalho - ICMC/USP 36

6
27/09/2012

Passos O que é um caso?


Apresentar situação atual Existem dois tipos de casos
Recuperar casos semelhantes da biblioteca Casos de entrada:
Adaptar solução Descrição de características de problemas
específicos
Casos armazenados:
Casos anteriores
descrição, solução e resultados

Que pacote de Casos semelhantes Adaptação


viagem comprar?
27/09/2012 André de Carvalho - ICMC/USP 37 27/09/2012 André de Carvalho - ICMC/USP 38

O que é um caso? Raciocínio baseado em casos


Um caso armazenado geralmente tem: Caso 1

Uma parte caso Descrição do problema:


Ambiente: praia
Novo Caso
Sintomas Duração: 7 dias
Região: SE
Usada para identificar o caso Descrição do problema:
Custo máximo: 1000
Indexação e recuperação Ambiente: praia
Duração: 5 dias
Solução: do problema
Uma parte solução Região: NE
Custo máximo: 2000
Local: Ubatuba
Transporte: Ônibus
Explica como este caso foi resolvido Acomodação: Hotel Uau
anteriormente de forma bem (mal) sucedida Solução do problema:
Refeição: Bar do Zé
Local: ???
Adaptada quando o caso é recuperado Transporte: ???
Acomodação: ???
Refeição: ???

27/09/2012 André de Carvalho - ICMC/USP 39 27/09/2012 André de Carvalho - ICMC/USP 40

Ciclo de um sistema de RBC Conclusão


Problema Novo Caso Aprendizado baseado em distância
Recuperação Conceitos básicos
Caso recuperado Caso novo
Casos prévios
KNN
Reutilização
Raciocínio Baseado em Casos
Caso resolvido
Conhcimento
geral Revisão
Exemplos
Caso testado/reparado
Retenção

Caso aprendido

27/09/2012 AndréAndré
PoncededeCarvalho
Leon F de
- ICMC/USP
Carvalho 41 27/09/2012 André de Carvalho - ICMC/USP 42

7
27/09/2012

Perguntas

27/09/2012 André de Carvalho - ICMC/USP 43

Você também pode gostar