Você está na página 1de 28

Minerao de Dados: Seleo de Genes e Descoberta de Funo de Protenas

Prof. Jlio Cesar Nievola PPGIa - PUCPR

PPGIa

Por qu minerar dados?

Dados coletados a enormes velocidades (GB/hora) Sensores remotos em satlites Telescpios sondando o cu Micro-arranjos gerando dados de expresso gnica Simulaes cientficas gerando terabytes de dados Tcnicas tradicionais inviveis para dados brutos Minerao de dados pode ajudar cientistas classificando e segmentando dados na Formulao de Hipteses

Motivao
Frequentemente h informao escondida nos dados que no est prontamente evidente Analistas humanos podem levar semanas para descobrir informao til Muito dos dados no analisada nunca
4,000,000 3,500,000 3,000,000 2,500,000 2,000,000 1,500,000 1,000,000 500,000 0

The Data Gap


Total dados novos (TB) a partir de 1995

Nmero de analistas
1995 1996 1997 1998 1999

From: R. Grossman, C. Kamath, V. Kumar, Data Mining for Scientific and Engineering Applications

AGRUPAMENTO

O que Anlise de Agrupamentos?


Encontrar grupos de objetos tal que objetos em um grupo so similares (ou relacionados) uns aos outros e diferentes de (ou no relacionados) a objetos em outros grupos Distncia entre grupos so maximizadas

Distncia intragrupos so minimizadas

Noo de Grupo pode ser Ambgua

Quantos grupos?

Seis Grupos

Dois Grupos

Quatro Grupos

Comentrio sobre Avaliao de Grupos

The validation of clustering structures is the most difficult and frustrating part of cluster analysis.
Without a strong effort in this direction, cluster analysis will remain a black art accessible only to those true believers who have experience and great courage. Algorithms for Clustering Data, Jain and Dubes

Validao Biolgica de Grupos?

Algoritmos de Agrupamento
k-mdio SOM

ndices estatsticos (C, Davies-Bouldin etc.)


C Davies-Bouldin outros

ndice biolgico
Identificao de fatores de transcrio: suposio que genes com expresso similar em diferentes condies podem ser regulados pelos mesmos fatores de transcrio

Classes Funcionais
Possibilidade de inferir funes biolgicas para genes com funo desconhecida, agrupados com genes com funes conhecidas: podem estar envolvidos em mesmo processo biolgico por ter expresso co-regulada no micro-array.

CLASSIFICAO

Classificao: Definio
Dado um conjunto de registros (conjunto de treinamento )
Cada registro contm um conjunto de atributos, um dos atributos a classe.

encontrar um modelo para o atributo classe como uma funo dos valores dos outros atributos. Objetivo: a registros previamente no-usados deve ser assinalada uma classe to precisamente quanto possvel.
Um conjunto de testes usado para determinar a preciso do modelo. Usualmente, o conjunto de dados dividido em conjunto de treinamento e conjunto de testes, sendo o conjunto de treinamento usado para construir o modelo e o conjunto de testes usado para valid-lo.

Classificao: Exemplo

ID

Ressar cir? Sim No No Sim No No Sim No No No

Estado Civil Solteiro Casado Solteiro Casado Divorc Casado Divorc Solteiro Casado Solteiro

Salrio bruto 125K 100K 70K 120K 95K 60K 220K 85K 75K 90K

Trap? No No No No Sim No
10

Ressar cir? No Sim No Sim No No

Estado civil Solteiro Casado Casado Divorc Solteiro Casado

Salrio bruto 75K 50K 150K 90K 40K 80K

Trap? ? ? ? ? ? ?

1 2 3 4 5 6 7 8 9 10
10

No Sim No Sim

Conj. Teste

Conj. Trein.

Classif.

Modelo

Gene Ontology largamente utilizada


AgBase

Estrutura GO
GO mais que uma lista de termos biolgicos Os termos esto relacionados em uma hierarquia

CLASSIFICAO HIERRQUICA

Classificao Hierrquica

Relacionamentos do tipo -um entre classes Cada classe representada pelo seu nvel na hierarquia, seu(s) pai(s) e descendentes Dois tipos:
Estruturado em rvore: s um pai (e.g. FunCat) Estrutura DAG: permite vrios pais (e.g. GO)

Bases usadas
Predio de funo de protena: GPCR (G-Protein Coupled Receptor) e EC

Base

Exemplos

Atributos

Classes Nve 1

Classes Classes Nvel 2 Nvel 3

Classes Nvel 4

GPCRprosite
GPCRprints GPCRpfam GPCRinterpro

6260
5421 7076 7460

130
284 76 451

9
8 12 12

50
46 52 54

79
76 79 82

49
49 49 50

Resultados
Tempo de treinamento elevado Rede hierrquica produz melhores resultados Bons resultados nos primeiros nveis

Poucos exemplos em nveis mais profundos => resultados piores (tpico problema de generalizao)

SELEO DE ATRIBUTOS

O que ?
Escolher um subconjunto com M dos N atributos originais um problema de busca Objetivos Reduzir a dimensionalidade do espao Acelerar o algoritmo de aprendizagem Melhorar a preciso da previso Melhorar a compreensibilidade

Seleo de Atributos Passos Bsicos

Gerao de Subconjuntos

Subconjunto

Avaliao dos Subconjuntos

Qualidade do subconjunto

No Conjunto de Atributos Originais

Critrio de Parada

Sim

Validao do Resultado

Expresso Gnica Micro-arrays


Atributos
g1 g2
Amostra 1 Amostra 2 Amostra 2

gN-1gN

Amostra i

Amostra m

23

Bases de Dados

24

Mtodo

25

Resultados 1
N. Atributos Selecionados em cada Base de Dados Critrio de Busca Medida de Avaliao Dependncia Consistncia W(NB) W(C4.5) Sequncial W(SVM) W(1-NN) W(3-NN) W(5-NN) W(7-NN) DLBCL 33 3 3 1 3 3 2 3 4 DLDCL Tumor 64 4 5 2 5 7 4 2 3 DLBCL Outcome 35 6 5 4 9 1 8 6 6 DLBCL NIH 45 14 6 12 11 1 1 2 2 ALL/AML 51 3 4 1 4 4 7 3 3

26

Resultados 2

27

Obrigado!

PPGIa

Prof. Jlio Cesar Nievola PPGIa PUCPR E-mail: nievola@ppgia.pucpr.br Telefone: (41) 3271-1669

Você também pode gostar