Escolar Documentos
Profissional Documentos
Cultura Documentos
Introduo
Objeto de estudo
Classificao de dados em bases biolgicas
Expresso Gnica
Microarray
Base NCI60
Bioinformtica
Introduo
Problema
Dificuldade de classificao e gerao de conhecimento
de alto nvel
Alta dimensionalidade
Classificadores tipo caixa-preta
Compreensibilidade e Interpretabilidade
Introduo
Abordagem proposta
Ambiente evolucionrio hbrido
Tcnicas de Aprendizado de Mquina
Seleo de Atributos (Weka)
Algoritmos Genticos (AGs)
Regras IF-THEN
Base de dados
NCI60 Cancer Microarray Project
2 Sistema Nervoso Central
1 - Mama
3 - Clon
4 - Leucemia
5 - Renal
8 - Ovrio
6 - Melanoma
7 - Pulmo
9 Clulas
Reprodutivas
Base de dados
Descrio do Mtodo
Definio dos parmetros
genticos
Mdulo de configurao
Descrio do Mtodo
Seleo de atributos no Weka
Gerao da populao inicial
Evoluo do AG
Descrio do Mtodo
Operaes genticas
Gerao das regras
Descrio do Mtodo
Validao
Armazenamento e
apresentao dos resultados
Algoritmo Gentico
Representao do indivduo
Algoritmo Gentico
Funo de aptido
Como avaliar um indivduo ?
True Positive (tp) Resultado = Sim x Realidade = Sim
False Positive (fp) Resultado = Sim x Realidade = No
True Negative (tn) Resultado = No x Realidade = No
False Negative (fn) Resultado = No x Realidade = Sim
Algoritmo Gentico
Funo de aptido
Sensibilidade (Acertos
positivos): quando a regra diz uma
amostra de uma dada classe, e o
dataset
confirma(Acertos
isso.
Especificidade
negativos): quando a regra diz uma
amostra no de uma dada classe,
e o dataset confirma isso.
Aptido: funo de fitness que
avalia um dado indivduo.
Seleo de Atributos
Mtodos empregados:
Chi-Squared
Information gain
Gain ratio
Seleo de Atributos
Chi-Squared
Uma medio estatstica para comparar cada valor observado com um valor
esperado:
Seleo de Atributos
Information gain
Uma medio estatstica que emprega a entropia da informao dos
dados:
Seleo de Atributos
Gain ratio
Pode ser obtido dividindo o IG entre a seguinte expresso:
50 geraes
200 indivduos
50 genes
Chi-squared
Torneio Estocstico de tour 3
Crossover duplo com probabilidade de 100%
Mutao com taxa de 30%
Elitismo
PART
J48
Naive Bayes
Random Forest
IBK
Caixa preta
IBK
Caixa preta
J48
Random Forest
10 rvores
PART
10 Regras
HEE
Concluso
O mtodo proposto apresentou resultados que
conseguiram balancear acurcia e
interpretabilidade, gerando regras e
conhecimento de alto nvel.
Obrigado!
Dvidas?