Escolar Documentos
Profissional Documentos
Cultura Documentos
Aula02 KDD
Aula02 KDD
Mineração de Dados em
Biologia Molecular Tópicos do Módulo
KDD Introdução
Descoberta de Conhecimento em Bases
de Dados
Etapas de KDD
André C. P. L. F. de Carvalho Mineração de Dados
Monitor: Valéria Carvalho Aplicações
Introdução Introdução
Avanços recentes nas tecnologias de Estima-se que a quantidade de dados em
aquisição, transmissão e Bases de Dados mundiais dobra a cada 20
armazenamento de dados meses
Transações bancárias
Utilização de cartões de crédito
Dados governamentais
Medições ambientais
Dados clínicos
Bases de dados cada vez maiores Informações disponíveis na web
Dados de biologia molecular
André Ponce de Leon F de Carvalho 3 André Ponce de Leon F de Carvalho 4
1
03/08/2012
2
03/08/2012
GenBank GenBank
Crescimento do GenBank Crescimento do GenBank
Seqüências (milhões)
Junho de 2012
>141 bilhões de pares de bases
>154 milhões de sequences
3
03/08/2012
Introdução KDD
Técnicas tradicionais de análise de dados Descoberta de conhecimento em BD
permitem apenas consultas simples Knowledge Discovery in Databases
Quantos itens de um produto em particular foram
Área de pesquisa em expansão
vendidos em um dado dia?
Não conseguem responder consultas do tipo: Teorias e ferramentas computacionais
Dadas características de um carro, ele é bom? capazes de extrair informação útil de
Que tecidos podem estar com tumor? grandes BD
Qual a estrutura terciária de uma nova proteína
Informação útil = conhecimento
Técnicas mais sofisticadas, capazes de extrair
conhecimento de grandes BD são necessárias
André Ponce de Leon F de Carvalho 21 André Ponce de Leon F de Carvalho 22
KDD KDD
Avaliação
Processo de encontrar em dados padrões Mineração
Úteis de Dados
Conhecimento
Válidos
Padrões
Novos Transformação
Dados
Potencialmente compreensíveis Pré-processamento transformados
Processo interativo e iterativo e Limpeza
Dados
Várias etapas Seleção Pré-processados
Uma delas é Mineração de Dados
Dados
alvo
Dados Fayyad et al 1997
André Ponce de Leon F de Carvalho 23 originais André Ponce de Leon F de Carvalho 24
4
03/08/2012
Seleção Exemplo
BD com registros
Entender o domínio de aplicação BD de um hospital de pacientes
Determinar o que já é conhecido sobre o Composto por conjunto 1000000
problema de registros de código interno, nome,
2
Identificar claramente os objetivos do pacientes profissão, peso, altura,
1 código interno, nome,
sexo, estado civil, renda,
usuário Cada registro é código interno,
profissão, nome,
peso,
escolaridade,altura,
sangue,
composto de atributos profissão, peso,civil,
sexo, estado altura,
renda,
Exemplo sexo,
data nasc.,
estado civil,
endereço,
renda,
Informações pessoais escolaridade, sangue,
fone, email, hist. visitas,
Diagnosticar um paciente de acordo com um escolaridade,
data nasc., sangue,
exameendereço,
1, …, exame N, ...
conjunto de sintomas Sintomas data nasc., endereço,
fone, email, hist. visitas,
fone,
exameemail, hist.
1, …, visitas,
exame N, ...
exame 1, …, exame N, ...
André Ponce de Leon F de Carvalho 25 André Ponce de Leon F de Carvalho 26
Atributo alvo
27 André Ponce de Leon F de Carvalho 28
5
03/08/2012
6
03/08/2012
7
03/08/2012
P re di c t i v e D yn am i x
QuickTime™ and a QuickTime™ and a
GIF decompressor
are needed to see this picture. GIF decompressor
are needed to see this picture.
Model 1
QuickTime™ and a
GIF decompressor PRW
are needed to see this picture.
8
03/08/2012