Você está na página 1de 28

Building High Level Knowledge from

High Dimensionality Biological Dataset


(NCI60) Using Genetic Algorithms and
Feature Selection Strategies
UFU/FACOM - RECONHECIMENTO DE PADRES - 2014/1
RESLLEY GABRIEL; RAULCEZAR ALVES; JUAN MANUEL

Introduo
Objeto de estudo
Classificao de dados em bases biolgicas
Expresso Gnica
Microarray
Base NCI60
Bioinformtica

Introduo
Problema
Dificuldade de classificao e gerao de conhecimento
de alto nvel
Alta dimensionalidade
Classificadores tipo caixa-preta
Compreensibilidade e Interpretabilidade

Introduo
Abordagem proposta
Ambiente evolucionrio hbrido
Tcnicas de Aprendizado de Mquina
Seleo de Atributos (Weka)
Algoritmos Genticos (AGs)
Regras IF-THEN

Base de dados
NCI60 Cancer Microarray Project
2 Sistema Nervoso Central

1 - Mama

3 - Clon

4 - Leucemia

5 - Renal
8 - Ovrio

6 - Melanoma
7 - Pulmo

9 Clulas
Reprodutivas

Base de dados

Descrio do Mtodo
Definio dos parmetros
genticos
Mdulo de configurao

Descrio do Mtodo
Seleo de atributos no Weka
Gerao da populao inicial
Evoluo do AG

Descrio do Mtodo
Operaes genticas
Gerao das regras

Descrio do Mtodo
Validao
Armazenamento e
apresentao dos resultados

Algoritmo Gentico
Representao do indivduo

Algoritmo Gentico
Funo de aptido
Como avaliar um indivduo ?
True Positive (tp) Resultado = Sim x Realidade = Sim
False Positive (fp) Resultado = Sim x Realidade = No
True Negative (tn) Resultado = No x Realidade = No
False Negative (fn) Resultado = No x Realidade = Sim

Algoritmo Gentico
Funo de aptido
Sensibilidade (Acertos
positivos): quando a regra diz uma
amostra de uma dada classe, e o
dataset
confirma(Acertos
isso.
Especificidade
negativos): quando a regra diz uma
amostra no de uma dada classe,
e o dataset confirma isso.
Aptido: funo de fitness que
avalia um dado indivduo.

Seleo de Atributos
Mtodos empregados:
Chi-Squared
Information gain
Gain ratio

Seleo de Atributos
Chi-Squared
Uma medio estatstica para comparar cada valor observado com um valor
esperado:

Se toma uma amostra aleatria para provar as hipteses propostas.


Se compara o valor obtido contra o mximo valor aceito na distribuio chisquared e se avalia a hiptese.

Seleo de Atributos
Information gain
Uma medio estatstica que emprega a entropia da informao dos
dados:

Neste cenrio, se empregam os atributos.


A ideia final obter informao sobre a entropia total para cada atributo

Seleo de Atributos
Gain ratio
Pode ser obtido dividindo o IG entre a seguinte expresso:

Que se conhece como o valor intrnseco do calculo.


O ratio permite fazer um bias contra atributos que tem intervalos de valores
muito grandes. Em uma arvore aqueles que esto perto da raiz tem menos
entropia.

Anlise dos resultados


Ajuste do Ambiente Evolutivo

50 geraes
200 indivduos
50 genes
Chi-squared
Torneio Estocstico de tour 3
Crossover duplo com probabilidade de 100%
Mutao com taxa de 30%
Elitismo

Anlise dos resultados


Caractersticas das Regras geradas
Em mdia 5 genes por regra
Aptido mdia de 75%
Interpretabilidade e preciso

Anlise dos resultados


Comparao de resultados contra outros algoritmos tradicionais
em problemas de classificao:

PART
J48
Naive Bayes
Random Forest
IBK

Anlise dos resultados

Anlise dos resultados


Naive Bayes

Caixa preta

IBK

Caixa preta

J48

rvore com 25 nveis e 13 folhas

Random Forest

10 rvores

PART

10 Regras

HEE

9 Regras, com em mdia 5 genes

Concluso
O mtodo proposto apresentou resultados que
conseguiram balancear acurcia e
interpretabilidade, gerando regras e
conhecimento de alto nvel.

Obrigado!

Dvidas?

Você também pode gostar