Escolar Documentos
Profissional Documentos
Cultura Documentos
PPGIa
Dados coletados a enormes velocidades (GB/hora) Sensores remotos em satlites Telescpios sondando o cu Micro-arranjos gerando dados de expresso gnica Simulaes cientficas gerando terabytes de dados Tcnicas tradicionais inviveis para dados brutos Minerao de dados pode ajudar cientistas classificando e segmentando dados na Formulao de Hipteses
Motivao
Frequentemente h informao escondida nos dados que no est prontamente evidente Analistas humanos podem levar semanas para descobrir informao til Muito dos dados no analisada nunca
4,000,000 3,500,000 3,000,000 2,500,000 2,000,000 1,500,000 1,000,000 500,000 0
Nmero de analistas
1995 1996 1997 1998 1999
From: R. Grossman, C. Kamath, V. Kumar, Data Mining for Scientific and Engineering Applications
AGRUPAMENTO
Quantos grupos?
Seis Grupos
Dois Grupos
Quatro Grupos
The validation of clustering structures is the most difficult and frustrating part of cluster analysis.
Without a strong effort in this direction, cluster analysis will remain a black art accessible only to those true believers who have experience and great courage. Algorithms for Clustering Data, Jain and Dubes
Algoritmos de Agrupamento
k-mdio SOM
ndice biolgico
Identificao de fatores de transcrio: suposio que genes com expresso similar em diferentes condies podem ser regulados pelos mesmos fatores de transcrio
Classes Funcionais
Possibilidade de inferir funes biolgicas para genes com funo desconhecida, agrupados com genes com funes conhecidas: podem estar envolvidos em mesmo processo biolgico por ter expresso co-regulada no micro-array.
CLASSIFICAO
Classificao: Definio
Dado um conjunto de registros (conjunto de treinamento )
Cada registro contm um conjunto de atributos, um dos atributos a classe.
encontrar um modelo para o atributo classe como uma funo dos valores dos outros atributos. Objetivo: a registros previamente no-usados deve ser assinalada uma classe to precisamente quanto possvel.
Um conjunto de testes usado para determinar a preciso do modelo. Usualmente, o conjunto de dados dividido em conjunto de treinamento e conjunto de testes, sendo o conjunto de treinamento usado para construir o modelo e o conjunto de testes usado para valid-lo.
Classificao: Exemplo
ID
Estado Civil Solteiro Casado Solteiro Casado Divorc Casado Divorc Solteiro Casado Solteiro
Salrio bruto 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
Trap? No No No No Sim No
10
Trap? ? ? ? ? ? ?
1 2 3 4 5 6 7 8 9 10
10
No Sim No Sim
Conj. Teste
Conj. Trein.
Classif.
Modelo
Estrutura GO
GO mais que uma lista de termos biolgicos Os termos esto relacionados em uma hierarquia
CLASSIFICAO HIERRQUICA
Classificao Hierrquica
Relacionamentos do tipo -um entre classes Cada classe representada pelo seu nvel na hierarquia, seu(s) pai(s) e descendentes Dois tipos:
Estruturado em rvore: s um pai (e.g. FunCat) Estrutura DAG: permite vrios pais (e.g. GO)
Bases usadas
Predio de funo de protena: GPCR (G-Protein Coupled Receptor) e EC
Base
Exemplos
Atributos
Classes Nve 1
Classes Nvel 4
GPCRprosite
GPCRprints GPCRpfam GPCRinterpro
6260
5421 7076 7460
130
284 76 451
9
8 12 12
50
46 52 54
79
76 79 82
49
49 49 50
Resultados
Tempo de treinamento elevado Rede hierrquica produz melhores resultados Bons resultados nos primeiros nveis
Poucos exemplos em nveis mais profundos => resultados piores (tpico problema de generalizao)
SELEO DE ATRIBUTOS
O que ?
Escolher um subconjunto com M dos N atributos originais um problema de busca Objetivos Reduzir a dimensionalidade do espao Acelerar o algoritmo de aprendizagem Melhorar a preciso da previso Melhorar a compreensibilidade
Gerao de Subconjuntos
Subconjunto
Qualidade do subconjunto
Critrio de Parada
Sim
Validao do Resultado
gN-1gN
Amostra i
Amostra m
23
Bases de Dados
24
Mtodo
25
Resultados 1
N. Atributos Selecionados em cada Base de Dados Critrio de Busca Medida de Avaliao Dependncia Consistncia W(NB) W(C4.5) Sequncial W(SVM) W(1-NN) W(3-NN) W(5-NN) W(7-NN) DLBCL 33 3 3 1 3 3 2 3 4 DLDCL Tumor 64 4 5 2 5 7 4 2 3 DLBCL Outcome 35 6 5 4 9 1 8 6 6 DLBCL NIH 45 14 6 12 11 1 1 2 2 ALL/AML 51 3 4 1 4 4 7 3 3
26
Resultados 2
27
Obrigado!
PPGIa
Prof. Jlio Cesar Nievola PPGIa PUCPR E-mail: nievola@ppgia.pucpr.br Telefone: (41) 3271-1669