Você está na página 1de 44

Multi-label Hierarchical Classification

using a Competitive Neural Network


(MHC-CNN)

Orientanda: Helyane B. Borges
Orientador: Prof. Jlio Cesar Nievola
Roteiro de Apresentao
Introduo
Objetivo
Classificao Hierrquica
Abordagens
Redes Neurais
Rede Neural Competitiva
Principais trabalhos da literatura (DAG e RN)
MHC-CNN
Experimentos e Resultados/Consideraes
MHC-EE
Concluso
Referncias


2
Introduo
Grande nmero de problemas cujos dados
esto dispostos em uma hierarquia.
Minerao de textos, recuperao de gneros
musicais, imagens.
Bioinformtica pouco explorada.
Funo de Predio de Protenas:
Cdigo EC (Enzyme Commission) (rvore)
Ontologia Gnica (Grafo Acclico Dirigido DAG)

3
Introduo
4
Introduo
Motivao:
Algoritmos: para estruturada em rvore.
No avaliam a estrutura hierrquica como um todo
(Abordagem: Classificador Local).
Altera o resultado preditivo das amostras.
Classificao multi-classes.
A utilizao de redes neurais motivada pela sua
capacidade em trabalhar com dados ruidosos e a
sua alta adaptabilidade, que fornecem muitos
dos requisitos necessrios na rea de
bioinformtica

5
Introduo
Objetivo Geral:
Desenvolvimento de um algoritmo para a
classificao hierrquica multi-classes
utilizando a abordagem de classificao global
usando uma rede neural competitiva.
6
Classificao Hierrquica
Difere da classificao convencional pelo fato
das classes estarem dispostas em uma
estrutura hierrquica.

1
1.1
3
qualquer
1.2
2
2.1 2.1 3.1 3.2
1
1.1
3
qualquer
1-2.1
2
2.1 2-3.1 3.1 3.2
rvore DAG
70 50
50 30
80
Quant.
instncias
+
-
7
Classificao Hierrquica
Predio das classes na hierarquia:
obrigatria em ns-folha



opcional em ns-folha


1
1.1
3
qualquer
1.2
2
2.1 2.1 3.1 3.2
1
1.1
3
qualquer
1.2
2
2.1 2.1 3.1 3.2
8
Classificao Hierrquica
Abordagens:
Classificao Hierrquica Plana
Classificao Hierrquica Local
Classificao Hierrquica Global

9
Classificao Hierrquica
Classificao Hierrquica Plana

1
1.1
3
qualquer
1.2
2
2.1 2.2 3.1 3.2
2.1.1 2.1.2
qualquer
1.1 1.2 3.1 3.2 2.1.1 2.1.2
10
Classificao Hierrquica
Classificao Hierrquica Local

1
1.1
3
qualquer
1.2
2
2.1 2.2 3.1 3.2
2.1.1 2.1.2
1
1.1
3
qualquer
1.2
2
2.1 2.2 3.1 3.2
2.1.1 2.1.2
1
1.1
3
qualquer
1.2
2
2.1 2.2 3.1 3.2
2.1.1 2.1.2
11
Classificao Hierrquica
Classificao Hierrquica Global

1
1.1
3
qualquer
1-2.1
2
2.1 2-3.1 3.1 3.2
12
Redes Neurais
Modelos matemticos
inspirados no crebro
humano que possuem a
capacidade de aprender
(HAYKIN, 2001).
Arquitetura:
1 camada
Forma de aprendizagem:
Aprendizagem Competitiva

13
Redes Neurais
Redes Competitivas:
Consiste em uma disputa (competio) entre
os neurnios da camada de sada, da qual
apenas um neurnio sair como vencedor.

Rede Neural Bsica: 1 camada de sada.

14
Redes Neurais: Redes Competitivas
Auto-organizaveis (SOM - Self-organizing
Map) Aprendizagem No Supervisionada
Quantizao do vetor de aprendizagem (LVQ
Learning Vector Quantization) Aprendizagem
Supervisionada

LVQ1

-
- +
= +
contrrio caso em t w t x t a t w
correta f or classe a se t w t x t a t w
t w
ij i ij
ij i ij
ij
)), ( ) ( ( ) ( ) (
)), ( ) ( ( ) ( ) (
) 1 (
15
Trabalhos Correlatos
Estruturas DAG:
VENS et al, 2008
Clus - HMC, Clus HSC e Clus - SC
ALEKOVSKI et al, 2009
OTERO et al ,2009
Colonia de Formigas
ALVES, 2010
MHCAIS


16
Trabalhos Correlatos
Redes Neurais:
Jensen et al. ,2002
Enzyme Commission e Esquema Riley
MLP
Weinert & Lopes, 2004
Enzyme Commission
MLP
Xiao et al., 2007
Expresso Emocional
MLP
Cerri & Carvalho, 2011
HMC-LMLP

Estrutura
em rvore
17
MHC-CNN - Treinamento
Classe Verdadeira
1 - Calcular
Distncia
2 - Encontrar
Menor Distncia
Classe Predita
Neurnio Vencedor
18
MHC-CNN - Treinamento
Se classe Predita = classe verdadeira




)) ( * ) ( * )) ( ) ( ( ( ) 1 ( t Dist t Ap t n t v n t n
ij i ijk ijk
+ = +
)) ( * ) ( * )) ( ) ( ( ( ) 1 ( t Dist t Ap t n t v n t n
ij i ijk ijk
= +
Distncia do neurnio
vencedor at o seu ancestral
Taxa de Aprendizagem
Seno

19
MHC-CNN - Treinamento
Taxa de Aprendizagem


C
t
f i
atual
e t Ap

= * ) ( ) (
Taxa de Aprendizagem Inicial
Taxa de Aprendizagem Final
Iterao Atual e C uma constante
20
MHC-CNN - Treinamento
Distncia do neurnio vencedor at o seu
ancestral

) 1 /( 1 ) ( + = k t Dist
distncia (ligaes em ns) entre o
neurnio vencedor e o neurnio que
ter seus pesos ajustados
k=0
Dist(t) = 1
21
MHC-CNN - Treinamento
Classe Verdadeira
1 - Calcular
Distncia
2 - Encontrar
Menor Distncia
Classe Predita
Neurnio Vencedor
3 - Verificar Predio
4 - Atualizar Pesos
dos Neurnios
5 - Atualizar Pesos
dos Neurnios
Ancestrais
22
MHC-CNN - Treinamento
Se classe Predita = classe verdadeira



Seno

)) ( * ) ( * )) ( ) ( ( ( ) 1 ( t Dist t Ap t n t v n t n
ij i ijk ijk
+ = +
)) ( * ) ( * )) ( ) ( ( ( ) 1 ( t Dist t Ap t n t v n t n
ij i ijk ijk
= +
23
MHC-CNN - Treinamento
Distncia do neurnio vencedor at o seu
ancestral

) 1 /( 1 ) ( + = k t Dist
distncia (ligaes em ns) entre o
neurnio vencedor e o neurnio que
ter seus pesos ajustados
k=1 Dist(t) = 0,5 Neurnio Ancestral B
k=1 Dist(t) = 0,5 Neurnio Ancestral C
24
MHC-CNN - Teste
Classe Verdadeira
1 - Calcular
Distncia
2 - Encontrar
Menor Distncia
Classe Predita
Neurnio Vencedor
3 - Verificar Predio
25
MHC-CNN - Avaliao
Medida de Distncia
Medida Baseada na Relao de Ancestralidade
e Descendncia

26
MHC-CNN - Avaliao
DISTNCIA
Predio Correta (1 Possibilidade)

1
4
3
raiz
5
2
6 7 8 9
11 12 10
13
14
15
Classe verdadeira
Classe predita
27
MHC-CNN - Avaliao
DISTNCIA
Predio Correta (2 Possibilidade)

1
4
3
raiz
5
2
6 7 8 9
11 12 10
13
14
15
Classe verdadeira
Classe predita
28
MHC-CNN - Avaliao
DISTNCIA
Predio Incorreta

1
4
3
raiz
5
2
6 7 8 9
11 12 10
13
14
15
Classe verdadeira
Classe predita
29
MHC-CNN - Avaliao
DISTNCIA
Predio Parcialmente Correta

1
4
3
raiz
5
2
6 7 8 9
11 12 10
13
14
15
Classe verdadeira
Classe predita
Caminhos
Menor Caminho
30
MHC-CNN - Avaliao
ANCESTRALIDADE E DESCENDNCIA
Preciso Hierrquica
Revocao Hierrquica



Kiritchenko et al (2004)
) (
) ( ) (
p
p v
C Anc
C Anc C Anc
P

=
) (
) ( ) (
v
p v
C Anc
C Anc C Anc
R

=
R P
R P
hF Medida
+
=
* * 2
31
Experimentos
Conjuntos de Dados (Vens et. al.,2008).
Base de Dados
Quant.
Amostras
Quant.
Atributos
Quant.
Classes

Quant. Max.
Nveis
Quant. Min/Max
Classes por
Amostras
Cellcycle (SPELLMAN et al., 1998) 3751 77 4125 12 3/28
Church (ROTH et al., 1998) 3749 27 4125 12 3/28
Derisi (DERISI et al, 1997) 3719 63 4119 12 3/28
Einsen (EISEN et al., 1998) 2418 79 3573 12 3/28
Expr (CLARE, 2003) 3773 551 4131 12 3/28
Gasch1 (GASCH et al., 2000) 3758 173 4125 12 3/28
Gasch2 (GASCH et al., 2001) 3773 52 4131 12 3/28
Pheno (CLAREE, 2003) 1586 69 3127 12 3/21
Seq (CLARE, 2003) 3900 478 4133 12 3/28
Spo (CHU et al., 1998) 3697 80 4119 12 3/28
32
Experimentos
Pr processamento
Transformao de valores categricos em
contnuos.
Imputao de valores faltantes.
Normalizao dos dados.
33
Experimentos
Base de Dados Completa
Bases de Dados Separadas por Ontologias:
Componente Celular
Funo Molecular
Processo Biolgica
34
Experimentos
Parmetros do algoritmo MHC-CNN
Aprendizagem Inicial: 0.1
Aprendizagem Final: 0.01
Quantidade de pocas:1000
Pesos da Rede Neural: Gerados Aleatrios
35
Resultados
Cinco Base de Dados Completa








Teste de Friedman e Neyemi
Clus-HMC e Clus-HSM, usando hF com limiar igual 50,
apresentam resultados estatisticamente superior.
0.0%
5.0%
10.0%
15.0%
20.0%
25.0%
30.0%
35.0%
40.0%
45.0%
Cellcycle Church Derisi Einsen Spo
MHC-CNN (Distance)
MHC-CNN (hF)
Clus-HMC (hF - 50)
Clus-HMC (hF - 100)
Clus-HSC (hF - 50)
Clus-HSC (hF - 100)
36
Resultados
Componente Celular





Teste de Friedman
No h diferena significativa entre os resultados dos
algoritmos.
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
100.0%
MHC-CNN (Distance)
MHC-CNN (hF)
Clus-HMC (hF - 50)
Clus-HMC (hF - 100)
Clus-HSC (hF - 50)
Clus-HSC (hF - 100)
37
Consideraes
Taxa de acerto leva em considerao a hierarquia
de classes.
Se uma classe predita como parcialmente
correta tem-se sua porcentagem de acerto
dividida pelo nvel em que se encontra, em
relao ao n raiz e a classe correta, o que de
certa forma justifica o baixo percentual de acerto.

38
MHC-EE
Multi-Label Hierarchical Classification using a
Evolutionary Strategy.
Em fase de experimentao.
Funcionamento:
Estratgia evolucionria para o treinamento de
rede
Experimentos:
100 geraes e 50 indivduos (RN)

39
Concluso
Difcil um classificador ser capaz de predizer
corretamente com uma taxa de acerto
aceitvel com a quantidade de classes a qual
este modelo foi submetido.

Os resultados obtidos no experimentos
mostram que o classificador MHC-CNN
apresenta resultados superiores a algoritmos
da literatura.

40
Artigos Aceitos
Borges, H.B.; Nievola, J.C. Hierarchical Classification using a
Competitive Neural Network. 8th International Conference
on Natural Computation (ICNC'12). Chongqing, China, 2012.
Borges, H.B.; Nievola, J.C. Hierarchical Classification using a
Competitive Neural Network for Protein Function Prediction.
The 2012 International Conference on Artificial Intelligence
(ICAI'12). Nevada, USA, 2012.
Borges, H.B.; Nievola, J.C. Multi-Label Hierarchical
Classification using a Competitive Neural Network for Protein
Function Prediction. 2012 International Joint Conference on
Neural Networks (IJCNN 2012). Brisbane , Austrlia, 2012.


41
Referncias
ALVES, R. T. Um Sistema Imunolgico Artificial para Classificao
Hierrquica e Multi-Label de Funes de Protenas. Curitiba, 2010. 219 p.
Tese (Doutorado) - Programa de Ps-graduao em Engenharia Eltrica e
Informtica Industrial, Curitiba, Paran, 2010.
BLOCKEEL, H. et al. Decision trees for hierarchical multilabel classification:
A case study in functional genomics. In Proc. of the 10th European Conf.
on Principles and Practice of Knowledge Discovery in Databases, 2006. p.
1829.
FREITAS, A. A.; CARVALHO, A. C. P. F. A Tutorial on Hierarchical
Classification with Applications in Bioinformatics. In: Taniar, D. Research
and Trends in Data Mining Technologies and Applications. Advances in
Data Warehousing and Mining. Hershey, PA, USA: IGI Publishing, 2007.
Cap.7, p. 179-209.
HAYKIN, S. Redes neurais: princpios e prtica. 2.ed. Traduo de, Paulo
Martins Engel. Porto Alegre: Bookman, 2001.

42
Referncias
KIRITCHENKO, S.; MATWIN, S.; FAMILI, A. F. Hierarchical Text
Categorization as a Tool of Associating Genes with Gene Ontology Codes.
In Proceedings of the 2nd European Workshop on Data Mining and Text
Mining for Bioinformatics, Pisa, Italy. p. 26-30. 2004.
KOHONEN, T. The Self-Organizing Map. Proceedings of IEEE. v.78, n.9. p-
1464-1480. 1990.
SILLA JR C. N., FREITAS, A. A. A survey of hierarchical classification across
different application domains. Data Mining and Knowledge Discovery.
Abr, 2010.
SUN, A.; LIM, E. Performance measurement framework for hierarchical
text classification. Journal of the American Society for Information
Science and Technology. v. 54, p. 1014-1028. 2003
VENS, C.; STRUYF, J.; SCHIETGAT, L.; DZEROSKIi, S.; BLOCKEEL, H. Decision
trees for hierarchical multi-label classification. Machine Learning. v. 73, n.
2, p. 185-214. 2008.

43
Obrigada pela Ateno!
44

Você também pode gostar