Aprentacao27marco2012 DCAM

Multi-label Hierarchical Classification
using a Competitive Neural Network

(MHC-CNN)

Orientanda: Helyane B. Borges
Orientador: Prof. Jlio Cesar Nievola
Roteiro de Apresentao
Introduo
Objetivo
Classificao Hierrquica
Abordagens
Redes Neurais
Rede Neural Competitiva
Principais trabalhos da literatura (DAG e RN)
MHC-CNN
Experimentos e Resultados/Consideraes
MHC-EE
Concluso
Referncias

2
Introduo
Grande nmero de problemas cujos dados
esto dispostos em uma hierarquia.
Minerao de textos, recuperao de gneros
musicais, imagens.
Bioinformtica pouco explorada.
Funo de Predio de Protenas:
Cdigo EC (Enzyme Commission) (rvore)
Ontologia Gnica (Grafo Acclico Dirigido DAG)

3
Introduo
4
Introduo
Motivao:
Algoritmos: para estruturada em rvore.
No avaliam a estrutura hierrquica como um todo
(Abordagem: Classificador Local).
Altera o resultado preditivo das amostras.
Classificao multi-classes.
A utilizao de redes neurais motivada pela sua
capacidade em trabalhar com dados ruidosos e a
sua alta adaptabilidade, que fornecem muitos
dos requisitos necessrios na rea de
bioinformtica

5
Introduo
Objetivo Geral:
Desenvolvimento de um algoritmo para a
classificao hierrquica multi-classes
utilizando a abordagem de classificao global
usando uma rede neural competitiva.
6
Difere da classificao convencional pelo fato
das classes estarem dispostas em uma
estrutura hierrquica.

1
1.1
3
qualquer
1.2
2
2.1 2.1 3.1 3.2
1
1.1
3
qualquer
1-2.1
2
2.1 2-3.1 3.1 3.2
rvore DAG
70 50
50 30
80
Quant.
instncias
+
-
7
Predio das classes na hierarquia:
obrigatria em ns-folha

opcional em ns-folha

1
1.1
3
qualquer
1.2
2
2.1 2.1 3.1 3.2
1
1.1
3
qualquer
1.2
2
2.1 2.1 3.1 3.2
8
Abordagens:
Classificao Hierrquica Plana
Classificao Hierrquica Local
Classificao Hierrquica Global

9
Classificao Hierrquica Plana

1
1.1
3
qualquer
1.2
2
2.1 2.2 3.1 3.2
2.1.1 2.1.2
qualquer
1.1 1.2 3.1 3.2 2.1.1 2.1.2
10
Classificao Hierrquica Local

1
1.1
3
qualquer
1.2
2
2.1 2.2 3.1 3.2
2.1.1 2.1.2
1
1.1
3
qualquer
1.2
2
2.1 2.2 3.1 3.2
2.1.1 2.1.2
1
1.1
3
qualquer
1.2
2
2.1 2.2 3.1 3.2
2.1.1 2.1.2
11
Classificao Hierrquica Global

1
1.1
3
qualquer
1-2.1
2
2.1 2-3.1 3.1 3.2
12
Redes Neurais
Modelos matemticos
inspirados no crebro
humano que possuem a
capacidade de aprender
(HAYKIN, 2001).
Arquitetura:
1 camada
Forma de aprendizagem:
Aprendizagem Competitiva

13
Redes Neurais
Redes Competitivas:
Consiste em uma disputa (competio) entre
os neurnios da camada de sada, da qual
apenas um neurnio sair como vencedor.

Rede Neural Bsica: 1 camada de sada.

14
Redes Neurais: Redes Competitivas
Auto-organizaveis (SOM - Self-organizing
Map) Aprendizagem No Supervisionada
Quantizao do vetor de aprendizagem (LVQ
Learning Vector Quantization) Aprendizagem
Supervisionada

LVQ1
-
- +
= +
contrrio caso em t w t x t a t w
correta f or classe a se t w t x t a t w
t w
ij i ij
ij i ij
ij
)), ( ) ( ( ) ( ) (
)), ( ) ( ( ) ( ) (
) 1 (
15
Trabalhos Correlatos
Estruturas DAG:
VENS et al, 2008
Clus - HMC, Clus HSC e Clus - SC
ALEKOVSKI et al, 2009
OTERO et al ,2009
Colonia de Formigas
ALVES, 2010
MHCAIS

16
Trabalhos Correlatos
Redes Neurais:
Jensen et al. ,2002
Enzyme Commission e Esquema Riley
MLP
Weinert & Lopes, 2004
Enzyme Commission
MLP
Xiao et al., 2007
Expresso Emocional
MLP
Cerri & Carvalho, 2011
HMC-LMLP

Estrutura
em rvore
17
MHC-CNN - Treinamento
Classe Verdadeira
1 - Calcular
Distncia
2 - Encontrar
Menor Distncia
Classe Predita
Neurnio Vencedor
18
Se classe Predita = classe verdadeira

)) ( * ) ( * )) ( ) ( ( ( ) 1 ( t Dist t Ap t n t v n t n
ij i ijk ijk
+ = +
ij i ijk ijk
= +
Distncia do neurnio
vencedor at o seu ancestral
Taxa de Aprendizagem
Seno

19
Taxa de Aprendizagem

C
t
f i
atual
e t Ap

= * ) ( ) (
Taxa de Aprendizagem Inicial
Taxa de Aprendizagem Final
Iterao Atual e C uma constante
20
Distncia do neurnio vencedor at o seu
ancestral

) 1 /( 1 ) ( + = k t Dist
distncia (ligaes em ns) entre o
neurnio vencedor e o neurnio que
ter seus pesos ajustados
k=0
Dist(t) = 1
21
Classe Verdadeira
1 - Calcular
Distncia
2 - Encontrar
Menor Distncia
Classe Predita
Neurnio Vencedor
3 - Verificar Predio
4 - Atualizar Pesos
dos Neurnios
5 - Atualizar Pesos
dos Neurnios
Ancestrais
22
Se classe Predita = classe verdadeira

Seno

ij i ijk ijk
+ = +
ij i ijk ijk
= +
23
Distncia do neurnio vencedor at o seu
ancestral

) 1 /( 1 ) ( + = k t Dist
distncia (ligaes em ns) entre o
neurnio vencedor e o neurnio que
ter seus pesos ajustados
k=1 Dist(t) = 0,5 Neurnio Ancestral B
k=1 Dist(t) = 0,5 Neurnio Ancestral C
24
MHC-CNN - Teste
Classe Verdadeira
1 - Calcular
Distncia
2 - Encontrar
Menor Distncia
Classe Predita
Neurnio Vencedor
3 - Verificar Predio
25
MHC-CNN - Avaliao
Medida de Distncia
Medida Baseada na Relao de Ancestralidade
e Descendncia

26
MHC-CNN - Avaliao
DISTNCIA
Predio Correta (1 Possibilidade)

1
4
3
raiz
5
2
6 7 8 9
11 12 10
13
14
15
Classe verdadeira
Classe predita
27
MHC-CNN - Avaliao
DISTNCIA
Predio Correta (2 Possibilidade)

1
4
3
raiz
5
2
6 7 8 9
11 12 10
13
14
15
Classe verdadeira
Classe predita
28
MHC-CNN - Avaliao
DISTNCIA
Predio Incorreta

1
4
3
raiz
5
2
6 7 8 9
11 12 10
13
14
15
Classe verdadeira
Classe predita
29
MHC-CNN - Avaliao
DISTNCIA
Predio Parcialmente Correta

1
4
3
raiz
5
2
6 7 8 9
11 12 10
13
14
15
Classe verdadeira
Classe predita
Caminhos
Menor Caminho
30
MHC-CNN - Avaliao
ANCESTRALIDADE E DESCENDNCIA
Preciso Hierrquica
Revocao Hierrquica

Kiritchenko et al (2004)
) (
) ( ) (
p
p v
C Anc
C Anc C Anc
P

=
) (
) ( ) (
v
p v
C Anc
C Anc C Anc
R

=
R P
R P
hF Medida
+
=
* * 2
31
Experimentos
Conjuntos de Dados (Vens et. al.,2008).
Base de Dados
Quant.
Amostras
Quant.
Atributos
Quant.
Classes

Quant. Max.
Nveis
Quant. Min/Max
Classes por
Amostras
Cellcycle (SPELLMAN et al., 1998) 3751 77 4125 12 3/28
Church (ROTH et al., 1998) 3749 27 4125 12 3/28
Derisi (DERISI et al, 1997) 3719 63 4119 12 3/28
Einsen (EISEN et al., 1998) 2418 79 3573 12 3/28
Expr (CLARE, 2003) 3773 551 4131 12 3/28
Gasch1 (GASCH et al., 2000) 3758 173 4125 12 3/28
Gasch2 (GASCH et al., 2001) 3773 52 4131 12 3/28
Pheno (CLAREE, 2003) 1586 69 3127 12 3/21
Seq (CLARE, 2003) 3900 478 4133 12 3/28
Spo (CHU et al., 1998) 3697 80 4119 12 3/28
32
Experimentos
Pr processamento
Transformao de valores categricos em
contnuos.
Imputao de valores faltantes.
Normalizao dos dados.
33
Experimentos
Base de Dados Completa
Bases de Dados Separadas por Ontologias:
Componente Celular
Funo Molecular
Processo Biolgica
34
Experimentos
Parmetros do algoritmo MHC-CNN
Aprendizagem Inicial: 0.1
Aprendizagem Final: 0.01
Quantidade de pocas:1000
Pesos da Rede Neural: Gerados Aleatrios
35
Resultados
Cinco Base de Dados Completa

Teste de Friedman e Neyemi
Clus-HMC e Clus-HSM, usando hF com limiar igual 50,
apresentam resultados estatisticamente superior.
0.0%
5.0%
10.0%
15.0%
20.0%
25.0%
30.0%
35.0%
40.0%
45.0%
Cellcycle Church Derisi Einsen Spo
MHC-CNN (Distance)
MHC-CNN (hF)
Clus-HMC (hF - 50)
Clus-HMC (hF - 100)
Clus-HSC (hF - 50)
Clus-HSC (hF - 100)
36
Resultados
Componente Celular

Teste de Friedman
No h diferena significativa entre os resultados dos
algoritmos.
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
100.0%
MHC-CNN (Distance)
MHC-CNN (hF)
Clus-HMC (hF - 50)
Clus-HMC (hF - 100)
Clus-HSC (hF - 50)
Clus-HSC (hF - 100)
37
Consideraes
Taxa de acerto leva em considerao a hierarquia
de classes.
Se uma classe predita como parcialmente
correta tem-se sua porcentagem de acerto
dividida pelo nvel em que se encontra, em
relao ao n raiz e a classe correta, o que de
certa forma justifica o baixo percentual de acerto.

38
MHC-EE
Multi-Label Hierarchical Classification using a
Evolutionary Strategy.
Em fase de experimentao.
Funcionamento:
Estratgia evolucionria para o treinamento de
rede
Experimentos:
100 geraes e 50 indivduos (RN)

39
Concluso
Difcil um classificador ser capaz de predizer
corretamente com uma taxa de acerto
aceitvel com a quantidade de classes a qual
este modelo foi submetido.

Os resultados obtidos no experimentos
mostram que o classificador MHC-CNN
apresenta resultados superiores a algoritmos
da literatura.

40
Artigos Aceitos
Borges, H.B.; Nievola, J.C. Hierarchical Classification using a
Competitive Neural Network. 8th International Conference
on Natural Computation (ICNC'12). Chongqing, China, 2012.
Borges, H.B.; Nievola, J.C. Hierarchical Classification using a
Competitive Neural Network for Protein Function Prediction.
The 2012 International Conference on Artificial Intelligence
(ICAI'12). Nevada, USA, 2012.
Borges, H.B.; Nievola, J.C. Multi-Label Hierarchical
Classification using a Competitive Neural Network for Protein
Function Prediction. 2012 International Joint Conference on
Neural Networks (IJCNN 2012). Brisbane , Austrlia, 2012.

41
Referncias
ALVES, R. T. Um Sistema Imunolgico Artificial para Classificao
Hierrquica e Multi-Label de Funes de Protenas. Curitiba, 2010. 219 p.
Tese (Doutorado) - Programa de Ps-graduao em Engenharia Eltrica e
Informtica Industrial, Curitiba, Paran, 2010.
BLOCKEEL, H. et al. Decision trees for hierarchical multilabel classification:
A case study in functional genomics. In Proc. of the 10th European Conf.
on Principles and Practice of Knowledge Discovery in Databases, 2006. p.
1829.
FREITAS, A. A.; CARVALHO, A. C. P. F. A Tutorial on Hierarchical
Classification with Applications in Bioinformatics. In: Taniar, D. Research
and Trends in Data Mining Technologies and Applications. Advances in
Data Warehousing and Mining. Hershey, PA, USA: IGI Publishing, 2007.
Cap.7, p. 179-209.
HAYKIN, S. Redes neurais: princpios e prtica. 2.ed. Traduo de, Paulo
Martins Engel. Porto Alegre: Bookman, 2001.

42
Referncias
KIRITCHENKO, S.; MATWIN, S.; FAMILI, A. F. Hierarchical Text
Categorization as a Tool of Associating Genes with Gene Ontology Codes.
In Proceedings of the 2nd European Workshop on Data Mining and Text
Mining for Bioinformatics, Pisa, Italy. p. 26-30. 2004.
KOHONEN, T. The Self-Organizing Map. Proceedings of IEEE. v.78, n.9. p-
1464-1480. 1990.
SILLA JR C. N., FREITAS, A. A. A survey of hierarchical classification across
different application domains. Data Mining and Knowledge Discovery.
Abr, 2010.
SUN, A.; LIM, E. Performance measurement framework for hierarchical
text classification. Journal of the American Society for Information
Science and Technology. v. 54, p. 1014-1028. 2003
VENS, C.; STRUYF, J.; SCHIETGAT, L.; DZEROSKIi, S.; BLOCKEEL, H. Decision
trees for hierarchical multi-label classification. Machine Learning. v. 73, n.
2, p. 185-214. 2008.

43
Obrigada pela Ateno!
44

Aprentacao27marco2012 DCAM

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aprentacao27marco2012 DCAM

Enviado por

Direitos autorais:

Formatos disponíveis

Multi-label Hierarchical Classification

using a Competitive Neural Network

Você também pode gostar