Você está na página 1de 9

03/08/2012

Mineração de Dados em
Biologia Molecular Tópicos do Módulo
KDD Introdução
Descoberta de Conhecimento em Bases
de Dados
Etapas de KDD
André C. P. L. F. de Carvalho Mineração de Dados
Monitor: Valéria Carvalho Aplicações

André Ponce de Leon F de Carvalho 2

Introdução Introdução
Avanços recentes nas tecnologias de Estima-se que a quantidade de dados em
aquisição, transmissão e Bases de Dados mundiais dobra a cada 20
armazenamento de dados meses
Transações bancárias
Utilização de cartões de crédito
Dados governamentais
Medições ambientais
Dados clínicos
Bases de dados cada vez maiores Informações disponíveis na web
Dados de biologia molecular
André Ponce de Leon F de Carvalho 3 André Ponce de Leon F de Carvalho 4

Introdução Tamanho Conjunto de Dados


Tamanhos de conjuntos de dados
Pequeno
Conjunto de dados pode ser gerenciado pela ferramenta de
KDD sozinha, geralmente em um único computador
Médio
Necessária a integração do ambiente de KDD com Sistemas
Gerenciadores de BDs (SGBDs), que gerenciam os dados
Grande
Número de páginas na web
Quando o volume de dados é grande demais para ser
gerenciado pelas ferramentas de um SGBD
Necessário sistemas sofisticados capazes de lidar com
dados armazenados em arquivos

André Ponce de Leon F de Carvalho 5 André Ponce de Leon F de Carvalho 6

1
03/08/2012

Tamanho Conjunto de Dados Armazenamento de Dados


Múltiplos de Bytes Computadores atuais já vêm com 1 ou
2 terabyte de memória
byte B 100
kilobyte kB 103 Cabe em 1 petabyte
megabyte MB 106 20 milhões de arquivos de 4 gavetas cheios
gigabyte GB 109
terabyte TB 1012 500 bilhões de páginas de texto
petabyte PB 1015 Metade do conteúdo de todas as bibliotecas
exabyte EB 1018 acadêmicas americanas combinadas
zettabyte ZB 1021 7 bilhões de fotos no facebook
yottabyte YB 1024
200 milhões de músicas
André Ponce de Leon F de Carvalho 7 André Ponce de Leon F de Carvalho 8

Grandes Bancos de Dados Grandes Bancos de Dados


World Data Centre for Climate (WDCC) Youtube
Max Planck Institute for Meteorology and Pelo menos 45 TBs de vídeos
German Climate Computing Centre 60% de todos os vídeos assistidos online
220 TBs de dados disponíveis na web 100 milhões de vídeos assistidos por dia
sobre pesquisas e tendências climáticas 65.000 novos vídeos adicionados por dia
110 TBs (24.500 DVDs) com dados de Crescimento esperado de 1.86 TB por mês
simulações climáticas
6 PBs de informação adicional em fitas
magnéticas

André Ponce de Leon F de Carvalho 9 André Ponce de Leon F de Carvalho 10

Grandes Bancos de Dados Grandes Bases Biologia


Amazon GenBank
Dois de seus BDs têm juntos mais de 42 Banco de dados de sequências genéticas
TBs de dados do Instituto Nacional de Saúde (NIH)
Milhões de itens vendidos por ela e por seus Todas as sequências de DNA publicamente
associados por ano disponíveis
Equivale a 37 trilhões de posts para fóruns
International Nucleotide Sequence
59 milhões de consumidores cadastrados Database Collaboration
DNA DataBank of Japan (DDBJ)
European Molecular Biology Laboratory (EMBL)
André Ponce de Leon F de Carvalho 11 André Ponce de Leon F de Carvalho 12

2
03/08/2012

GenBank GenBank
Crescimento do GenBank Crescimento do GenBank

Pares de bases de DNA (bilhões)

Pares de bases de DNA (bilhões)


1982-2009 1982-2009
Seqüências (milhões)

Seqüências (milhões)
Junho de 2012
>141 bilhões de pares de bases
>154 milhões de sequences

Pares de bases Pares de bases


seqüências seqüências
Fonte: Genbank Fonte: Genbank

André Ponce de Leon


1982F de Carvalho
1986 1990 1994 1998 2002 2006 13 André Ponce de Leon
1982F de Carvalho
1986 1990 1994 1998 2002 2006 14

Grandes Bases Biologia Introdução


Worldwide Protein Data Bank (wwPDB) Bases de Dados muito grandes podem
tem mais de 90.000 estruturas conter (esconder) dados preciosos
RCSB PDB (EUA) 2007 7263
2008 7073
Existe um interesse crescente em explorar
PDBe (Europa)
2009 7448 esses dados armazenados
PDBj (Japão) 2010 7971
Descobrir conhecimento novo e útil
BMRB (EUA) 2011 8120
Apoio a decisão
No passado, crescimento exponencial

André Ponce de Leon F de Carvalho 15 André Ponce de Leon F de Carvalho 16

Exemplo – Carros Exemplo - Carros


vhigh,vhigh,2,2,small,low,unacc
vhigh,high,3,more,big,low,unacc
Preço
vhigh,low,3,4,big,low,unacc Compra: v-high, high, med, low
med,low,4,2,small,high,unacc Manutenção: v-high, high, med, low
med,low,3,4,small,med,acc
high,high,2,4,big,med,acc Características técnicas
low,low,5more,4,small,med,acc
Conforto
low,med,4,4,small,med,acc
low,med,4,4,big,med,good # portas: 2, 3, 4, 5-more
low,low,4,more,big,med,good # pessoas: 2, 4, more
med,low,2,4,small,high,good Espaço porta malas: small, med, big
low,med,4,4,big,high,vgood
Segurança: low, med, high
med,med,2,4,big,high,vgood
low,low,5more,more,big,high,vgood Aval. do carro: unacc, acc, good, vgood
André Ponce de Leon F de Carvalho 17 André Ponce de Leon F de Carvalho 18

3
03/08/2012

Exemplo - Carros Exemplo - Promotores


vhigh,vhigh,2,2,small,low,unacc Preço
vhigh,high,3,more,big,low,unacc Compra: v-high, high, med, low +,S10, tactagcaatacgcttgcgttcggtggttaagtatgtataatgcgcgggcttgtcgt
Manutenção: v-high, high, med, low +,AMPC, tgctatcctgacagttgtcacgctgattggtgtcgttacaatctaacgcatcgccaa
vhigh,low,3,4,big,low,unacc
Características técnicas +,AROH, gtactagagaactagtgcattagcttatttttttgttatcatgctaaccacccggcg
med,low,4,2,small,high,unacc +,DEOP2, aattgtgatgtgtatcgaagtgtgttgcggagtagatgttagaatactaacaaactc
med,low,3,4,small,med,acc Conforto
# portas: 2, 3, 4, 5-more
+,LEU1_TRNA, tcgataattaactattgacgaaaagctgaaaaccactagaatgcgcctccgtggtag
high,high,2,4,big,med,acc +,MALEFG, aggggcaaggaggatggaaagaggttgccgtataaagaaactagagtccgtttaggt
# pessoas: 2, 4, more
low,low,5more,4,small,med,acc -, 296, aggcatgtaaacgtcttcgtagcgcatcagtgctttcttactgtgagtacgcaccag
Espaço porta malas: small,
low,med,4,4,small,med,acc med, big
-, 648, ccgagtagacccttagagagcatgtcagcctcgacaacttgcataaatgctttcttg
low,med,4,4,big,med,good -, 230, cgctaggactttcttgttgattttccatgcggtgttttgcgcaatgttaatcgcttt
Segurança: low, med, high
low,low,4,more,big,med,good -,1163, tatgaccgaacgagtcaatcagaccgctttgactctggtattactgtgaacattatt
Aval. do carro: unacc, acc, good, vgood
med,low,2,4,small,high,good -,1321, agagggtgtactccaagaagaggaagatgaggctagacgtctctgcatggagtatga
-, 663, gagagcatgtcagcctcgacaacttgcataaatgctttcttgtagacgtgccctacg
low,med,4,4,big,high,vgood
med,med,2,4,big,high,vgood
low,low,5more,more,big,high,vgood
André Ponce de Leon F de Carvalho 19 André Ponce de Leon F de Carvalho 20

Introdução KDD
Técnicas tradicionais de análise de dados Descoberta de conhecimento em BD
permitem apenas consultas simples Knowledge Discovery in Databases
Quantos itens de um produto em particular foram
Área de pesquisa em expansão
vendidos em um dado dia?
Não conseguem responder consultas do tipo: Teorias e ferramentas computacionais
Dadas características de um carro, ele é bom? capazes de extrair informação útil de
Que tecidos podem estar com tumor? grandes BD
Qual a estrutura terciária de uma nova proteína
Informação útil = conhecimento
Técnicas mais sofisticadas, capazes de extrair
conhecimento de grandes BD são necessárias
André Ponce de Leon F de Carvalho 21 André Ponce de Leon F de Carvalho 22

KDD KDD
Avaliação
Processo de encontrar em dados padrões Mineração
Úteis de Dados
Conhecimento
Válidos
Padrões
Novos Transformação
Dados
Potencialmente compreensíveis Pré-processamento transformados
Processo interativo e iterativo e Limpeza
Dados
Várias etapas Seleção Pré-processados
Uma delas é Mineração de Dados
Dados
alvo
Dados Fayyad et al 1997
André Ponce de Leon F de Carvalho 23 originais André Ponce de Leon F de Carvalho 24

4
03/08/2012

Seleção Exemplo
BD com registros
Entender o domínio de aplicação BD de um hospital de pacientes
Determinar o que já é conhecido sobre o Composto por conjunto 1000000
problema de registros de código interno, nome,
2
Identificar claramente os objetivos do pacientes profissão, peso, altura,
1 código interno, nome,
sexo, estado civil, renda,
usuário Cada registro é código interno,
profissão, nome,
peso,
escolaridade,altura,
sangue,
composto de atributos profissão, peso,civil,
sexo, estado altura,
renda,
Exemplo sexo,
data nasc.,
estado civil,
endereço,
renda,
Informações pessoais escolaridade, sangue,
fone, email, hist. visitas,
Diagnosticar um paciente de acordo com um escolaridade,
data nasc., sangue,
exameendereço,
1, …, exame N, ...
conjunto de sintomas Sintomas data nasc., endereço,
fone, email, hist. visitas,
fone,
exameemail, hist.
1, …, visitas,
exame N, ...
exame 1, …, exame N, ...
André Ponce de Leon F de Carvalho 25 André Ponce de Leon F de Carvalho 26

Conjunto de Dados Seleção


Atributos de entrada (preditivos) Criação de um conjunto de dados
Seleciona “manualmente” um subconjunto
Nome Temp. Idade Peso Altura dos dados disponíveis
João 37 70 94 190 Saudável Subconjunto de registros (instâncias ou
Maria 38 65 60 172 Doente
Exemplos exemplos)
José 39 19 70 185 Doente
(objetos, Sílvia 38 25 65 160 Saudável Subconjunto de atributos considerados
padrões) Pedro 37 70 90 168 Doente relevantes para o problema
Elimina atributos que sejam claramente irrelevantes

Atributo alvo
27 André Ponce de Leon F de Carvalho 28

Exemplo Pré-processamento e Limpeza


Conjunto com dados
1000000 Melhorar a qualidade dos dados e
clínicos dos pacientes
2
código interno, nome, facilitar sua posterior utilização
profissão, peso, altura, 986
1 código interno, nome, Engloba várias operações
sexo, estado civil, renda, código interno, nome,
código interno,
profissão, nome,
peso, altura, 17 profissão, peso, altura,
escolaridade, sangue, Seleção “automática” de atributos
profissão, peso,civil,
sexo, estado altura,
renda, 1 código interno, nome,
data nasc., endereço, sexo, estado civil, renda,
sexo, estado civil,
escolaridade, renda,
sangue,
fone, email, hist. visitas,
código interno,
profissão, nome,
peso, altura,
escolaridade, sangue,
Conversão de valores
escolaridade,
data nasc., sangue, profissão, peso,civil,
altura,
exameendereço,
1, …, exame N, ... sexo, estado
data nasc., renda,
endereço, Lidar com atributos ausentes
data nasc.,
fone, endereço,
email, hist. visitas, sexo, estado civil, renda,
escolaridade, sangue,
fone, email, hist. visitas,
fone,
exameemail, hist.
1, …, visitas,
exame N, ... escolaridade,
data nasc., sangue,
exameendereço,
1, …, exame N, ...
Eliminar dados duplicados
exame 1, …, exame N, ... data nasc., endereço,
fone, email, hist. visitas, Detectar ruído
fone, email, hist.
exame 1, …, exame visitas,
N, ...
exame 1, …, exame N, ...
André Ponce de Leon F de Carvalho 29 André Ponce de Leon F de Carvalho 30

5
03/08/2012

Transformação Mineração de Dados


Inclui operações que modificam valores Principal passo no processo de KDD
para um dado atributo DM e KDD são freqüentemente utilizados
Cada operação deve ser aplicada a todos como sinônimos
os valores do atributo Fronteiras da etapa de MD no processo
Todos os objetos de KDD são de difícil identificação
Ex.: normalização, valor absoluto, ... Pré-processamento e transformação de
dados são freqüentemente vistos como
uma parte de MD

André Ponce de Leon F de Carvalho 31 André Ponce de Leon F de Carvalho 32

Mineração de Dados Mineração de Dados


Outros termos utilizados para MD e Estatística
Base de Dados Biologia
KDD
Extração de conhecimento
Descoberta de informação Aprendizado
de Máquina Mineração Visualização
Extração de padrões de Dados
Análise exploratória de dados
Reconhecimento
Processamento
de Padrões
Paralelo
Algoritmos
André Ponce de Leon F de Carvalho 33 André Ponce de Leon F de Carvalho 34

Interpretação / Avaliação Mineração de Dados


Interpretação dos padrões minerados na MD X KDD
etapa de MD MD: ferramentas básicas utilizadas para
Possível retorno a qualquer uma das etapas extrair padrões de dados
anteriores para iteração adicional
KDD: processo que engloba o uso dessas
Valida padrões encontrados
ferramentas, além de:
Importante consulta a um especialista
Pré-processamento, seleção e transformação
Inclui análise estatística dos dados
Ferramentas de visualização têm um papel de Interpretação dos padrões
suporte importante Geração de conhecimento

André Ponce de Leon F de Carvalho 35 André Ponce de Leon F de Carvalho 36

6
03/08/2012

Aplicações Aplicações Reais


Número crescente de aplicações Cadeias de PUB britânicas utilizam MD
Internet: algoritmos de busca, marketing na web
para definir mudanças diárias nos
Ciência e Medicina: diagnóstico de pacientes, análise
de dados do genoma preços de algumas bebidas
Indústrias: previsão de falhas, diagnóstico de Acessa impacto das ofertas de happy hour
produtos nas vendas
Marketing: segmentação de mercado
Telecomunicações: processamento de alarmes, Se desconto para uma dada bebida aumenta
roteamento de linhas de comunicação as vendas em um dia, manter o desconto no
Finanças: análise de risco, detecção de fraudes,
dia seguinte, senão tentar outra promoção
gerenciamento de carteiras de investimento
André Ponce de Leon F de Carvalho 37 André Ponce de Leon F de Carvalho 38

Aplicações Reais Aplicações Reais


Fast Search & Transfer ASA Seimans Medical
Software de MD que pode fazer 200 Ferramenta de MD para o Tratamento
consultas por segundo de Ataques cardíacos
Utilizado pela Reuters para procurar Combina informações médicas de diversas
violações de propriedade intelectual na Web fontes
Busca por textos semelhantes aos publicados Inclusive texto
pela Reuters
Envia a Advogados textos suspeitos
Busca automática em registros combinados
de 6 milhões de pacientes

André Ponce de Leon F de Carvalho 39 André Ponce de Leon F de Carvalho 40

Aplicações Reais Aplicações Reais


Seimans Medical The Mitre Coorporation
Descobriu centenas de casos onde os Ferramenta de MD para detecção de fraudes no
imposto de renda
melhores procedimentos médicos não
Indivíduos com rendimentos elevados são uma
haviam sido seguidos
das principais fontes de estimativas não realizadas
Mas ainda havia tempo para intervir Renda anual > US$ 250.000,00
Identificou pacientes elegíveis para estudos Prejuízo (impostos que deveriam ser coletados –
impostos coletados)
médicos
Sistema de MD usa Aprendizado de Máquina e
Ganhou o 2005 ICDM Data Mining Practice Análise Estatística para descobrir sonegações
Prize
André Ponce de Leon F de Carvalho 41 André Ponce de Leon F de Carvalho 42

7
03/08/2012

Aplicações Reais Aplicações Reais


The Mitre Coorporation The Mitre Coorporation
Modelo trabalha com estimativa de risco,
Análise baseada em kernels combinando:
Utiliza formas conhecidas de burlar a receita Probabilidade de abusos
Potencial de perdas de receita
Regras de associação
Resultados
Procura por grupos de contribuintes que podem Reduz tempo de análise
estar em um esquema de sonegação 2 semanas para poucas horas (dados de 2001)
Promovido por um mesmo consultor ou analista Encontrou casos não descobertos por auditores
financeiro Segundo lugar no 2005 ICDM Data Mining Practice
Prize

André Ponce de Leon F de Carvalho 43 André Ponce de Leon F de Carvalho 44

Pesquisas KDnuggets Investimentos em MD Preditivo


Aplicações de MD 15% - coleta de dados
Em que indústrias / áreas 60% - limpeza de dados
você está atualmente
aplicando MD em 2010 15% - construção e análise de modelos
Fonte: 5% - aplicação
http://www.kdnuggets.com/polls/ 5% - melhorias contínuas
2010/analytics-data-mining-
industries-applications.html
213 votos

André Ponce de Leon F de Carvalho 45 André Ponce de Leon F de Carvalho 46

Produtos de MD Mais Produtos

P re di c t i v e D yn am i x
QuickTime™ and a QuickTime™ and a
GIF decompressor
are needed to see this picture. GIF decompressor
are needed to see this picture.

Model 1

QuickTime™ and a
GIF decompressor PRW
are needed to see this picture.

André Ponce de Leon F de Carvalho 47 André Ponce de Leon F de Carvalho 48

8
03/08/2012

Mitos (Padhraic Smith) Mitos (Padhraic Smith)


“Análise de dados pode ser completamente “Com uma quantidade massiva de
automatizada”
dados, não é necessário estatística”
Julgamento humano é crítico na maioria das
aplicações Grande volume leva a heterogeneidade
Entretanto, semi-automação é muito útil Precisa ainda mais de estatística
“Regras de associação são sempre úteis”
Regras de associação são essencialmente listas de
correlações
Nenhuma aplicação bem sucedida documentada
Comparar com árvores de decisão (várias aplicações)

André Ponce de Leon F de Carvalho 49 André Ponce de Leon F de Carvalho 50

Considerações Finais Perguntas


Expansão do volume de dados
armazenados
Necessidade de extrair conhecimento
dos dados
KDD é cada vez mais usado
Cuidado com promessas exageradas
Sistemas Especialistas

André Ponce de Leon F de Carvalho 51 André Ponce de Leon F de Carvalho 52

Você também pode gostar