Escolar Documentos
Profissional Documentos
Cultura Documentos
2016v10n1p23
RESUMO ABSTRACT
O uso de ferramentas computacionais The use of computational tools to solve
para a resolução de sistemas biológicostem cha-
and study biological systems has drawn atten-
mado a atenção na área científica e proporciona
tion in the scientific area and provides an acqui-
um ganho tanto na quantidade de informações
obtidas quanto na interpretação dos dados. A sitionin amount of information obtained and in
diversidade e complexidadedos problemas bioló- the interpretation of the data. The diversity and
gicos dificulta a análise através da utilização de complexity of biological problemscomplicates
ferramentas computacionais. Essas dificuldades the analysis using computational tools. These
estão relacionadas ao processamento, forma de difficulties are associated with the processing,
representação e interpretação dos dados. Nesse representation and interpretation of data sets.
âmbito, a aprendizagem de máquina vem auxi- In this context, machine learning comes assist
liar no cruzamento de informações e relações in crossing information and relationships deri-
oriundas da análise de dados de sistemas biológi- ved from analysis of data in biological systems.
cos. Atualmente, muitas técnicas e metodologias Currently many techniques and methodologies
estão sendo utilizadas em conjunto e dessa for- are being used together and thus problems that
ma, problemas mais complexos ganham maior are more complexacquire greater potential to
potencial para serem resolvidos. Além disso, o
be solved. Moreover, the appearance of super-
surgimento de supercomputadores vem acres-
computers came add and increase operating
centar e aumentar a capacidade de exploração e
análise dos dados. Uma análise criteriosa se faz capacity and data analysis.On the other hand,
necessária toda vez que um novo problema, de a careful analysis is required every time a new
cunho biológico, é proposto. Esperamos que essa problem, of biological nature, it is proposed. We
breve revisão possa contribuir para o entendi- hope this brief review can contribute to the un-
mento e a resolução desses problemas. derstanding and resolution of these problems.
23
Revista Semioses, v 10, n.01, 2016
Maria Fernanda Ribeiro Dias
24
APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA
dos problemas, os dados a serem analisados se HALL et al., 2009)e GenePattern (REICH et al.,
originam de problemas reais. Na bioinformática 2006). Weka reúne um conjunto de algoritmos
estes dados se destinam a resolução de problemas para o pré-processamento, a mineração de dados
biológicos,análises de microarray, genomas e pro- e o pós-processamento. Muitos dos algoritmos
teomas inteiros e ou sequências de DNA, RNA que compõem o Weka estão descritos emWitten
e proteínas que necessitam ser numericamente e Frank (2000).Já a ferramenta GenePattern é um
representados para posteriormente serem inseri- software de código aberto desenvolvido para aná-
dos em um método de aprendizagem de máquina lise de dados genômicos.
(TUNG; HO, 2008). A área de aprendizagem de máquina está
Um dos maiores desafios da fase de pré- dividida em três grandes grupos, que se consti-
-processamento consiste em representar estes- tuem por características e técnicas bastante par-
dados de forma que eles mimetizem o problema ticulares. Na aprendizagem supervisionada, o
real. Os problemas encontrados nesta fase são objetivo é induzir conceitos a partir de exemplos
os dados em pequenas quantidades e muitas das que estão pré-classificados. Se as classes possuí-
vezes a má qualidade dos mesmos.Os dados em rem valores discretos, o problema é categorizado
pequena quantidade podem incorrer em resulta- como classificação. Caso as classes possuam va-
dos inconsistentes e pouco precisos (HUSSAIN et lores contínuos, o problema é categorizado como
al., 2000). Além disso, a qualidade do conjunto de regressão. Nestes casos, uma classe de exemplos
dados está diretamente relacionada ao nível de ru- rotulados é utilizada para classificar dados desco-
ído que estes apresentam. A origem do ruído pode nhecidos (ver Figura 1, item A). Na aprendizagem
ser originária da má representação, propagação de não supervisionada os dados são a princípio des-
erros nos dados experimentais, erros de digitação conhecidos e agrupados de acordo com alguma
ou na representação numérica. Nesses casos, faz- similaridade, logo existe o processo de extração de
-se necessário a utilização de técnicas estatísticas informações em dados desconhecidos (ver Figura
para detectar os ruídose minimizá-los (GUREK, 1, item B). A aprendizagem semi-supervisionada
2001). é requerida quando a quantidade de dados rotu-
A fase de aplicação também chamada de lados é baixa e utilizam-se dados não rotulados
fase de mineração de dados utiliza os métodos de para compor o conjunto de treinamento (Figura
aprendizagem supervisionada,semi-supervisiona- 1, item C). Esta metodologia constitui a integra-
da e nãosupervisionada. Fazem parte desta fase: ção entre a aprendizagem não supervisionada e a
o conjunto de dados que passou pela fase de pré- aprendizagem supervisionada (YIPet al., 2013).
-processamento, todas as ferramentas possíveis
de serem utilizadas e as formas de validação das Figura 1: Representação dos métodos de aprendizagem de máquina utilizados
na bioinformática
ferramentas e do modelo proposto (LARRAÑA-
GAet al., 2006).
A fase de Pós-processamento constitui-se
da avaliação e interpretação dos resultados obti-
dos, na qual interessantes padrões são identifica-
dos. Utiliza-se nesta fase: dados estatísticos, grá-
ficos e mapas de cores e distâncias.
Algumas ferramentas estão disponíveis
para a aplicação dos processos de mineração de
dados como no caso da ferramenta de código
aberto LIBSVM (CHANG; LIN, 2011), que im-
plementamodelos lineares e de regressão logística
para a resolução de problemas de classificação.
Existem ainda pacotes de software que unem um
conjunto de ferramentas para aplicação, como no
caso das ferramentas Weka(FRANKet al., 2004;
1 “A”– Representação da aprendizagem supervisionada; “B”– Representação da aprendizagem não supervisionada; “C”– Representação
da aprendizagem semi-supervisionada. Em vermelho e azul estão representados o conjunto de dados já rotulados. Verde e amarelo
constituem os dados que serão rotulados após aplicação da aprendizagem de máquina não supervisionada ou semi-supervisionada.
25
Maria Fernanda Ribeiro Dias
26
APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA
27
Maria Fernanda Ribeiro Dias
dados e assim atribui-se aos reads uma referên- g) LOOCV (do inglês, leave-one-out cross-
cia taxonômica. -validation), validação cruzada retirando um
dado para teste e o restante para treinamen-
6 AVALIAÇÃO DOS MODELOS to (ver Figura, item iv). Nas análises de vali-
dação cruzada feitas com as técnicas iii e iv, o
DE CLASSIFICAÇÃO procedimento é repetido diversas vezes.
O desempenho do algoritmo de aprendiza- O desempenho do classificador e os va-
gem é confirmado através dos valores estatísticos lores estatísticos são calculados após serem
dos dados de validação cruzada. A avaliação se aplica contabilizados os resultados de predição levan-
aos métodos de aprendizagem supervisionada e se- do em consideração acurácia, precisão e recall
mi-supervisionada e utiliza o conjunto de dados de obtidos (TARCAet al., 2007). Para a obtenção
treinamento para avaliar o desempenho do modelo destes valores é necessário a obtenção dos se-
(KRETSCHMANN; FLEISCHMANN;APWEILER, guintes valores:
2001). As técnicas de validação cruzada se baseiam h) verdadeiro positivo(VP): ocorre quando
no particionamento do conjunto de dados em sub- o classificador prevê uma resposta do tipo
conjuntos, utilizando posteriormente alguns destes “sim” e essa resposta está de acordo com os
subconjuntos para dados de treinamento e o restan- dados observados;
te para serem utilizados como teste (LARRAÑAGA i) verdadeiro negativo(VN): ocorre quando
et al., 2006). As técnicas mais utilizadas para ava- o classificador prevê uma resposta do tipo
liação são: “não” e essa resposta está de acordo com os
d) validação cruzada com K grupos (do inglês dados observados;
K-fold cross-validation), onde se retira um j) falso positivo(FP): ocorre quando o classi-
grupo pra teste e o restante é utilizado pra ficador prevê uma resposta do tipo ``sim’’
treinamento (ver Figura 2, item i); quando a mesma deveria ser “não”; e
e) validação cruzada com 2 grupos (do inglês k) falso negativo(FN): ocorre quando o classi-
2-fold cross-validation), onde um grupo é ficador prevê uma resposta do tipo ``não’’ e
utilizado como teste e outro como treina- ela deveria ser “sim”.
mento (ver Figura 2, item ii);
Tabela 1: Tabela de confusão utilizada para auxiliar análises estatís-
f) validação com amostras aleatórias (do inglês ticas de metodologias de aprendizagem de máquina supervisionado e
repeated random sub-sampling validation) semi-supervisionado
VP/(VP+FN) (1)
VN/(FP+VN) (2)
Fonte: Adaptado de (Sudhir Varma e Richard Simon, 2006).
28
APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA
29
Maria Fernanda Ribeiro Dias
REFERÊNCIAS BIBLIOGRÁFICAS
–– GUREK, E. L.Aquisição de conhecimento em ban-
–– ALPAYDIN, E. Introduction to machine learning. cos de dados. 2001. 98 f. Trabalho de Conclusão de
Cambrige: MIT Press, 2004. Curso(Tecnólogo em Processamento de Dados) –
Universidade Tuiuti do Paraná,Santo Inácio, 2001.
–– ARBEX, W. A.Modelos computacionais para iden-
tificação de informação genômica associada à re- –– HALL, M. et al.The WEKA data mining software:
sistência ao carrapato bovino. 2009. 200 f. Tese an update. SIGKDD Explorations, New York, v. 11,
(Doutorado em Engenharia de Sistemas e Compu- n. 1,p. 10-18, 2009.
tação)– Universidade Federal do Rio de Janeiro,Rio
de Janeiro, 2009. –– HUSSAIN, F. et al. Exception rule mining with a
relative interestingness measure. In: TERANO, T.;
–– CAPON, T.J.M.; DUNNE, P.E. Argumentation in LIU, H.; CHEN, A. L. P. Knowledge discovery and
artificial intelligence.Artificial Intelligence, Irvine, data mining. Berlin: Springer, 2000. p. 86-96.
v. 171, n. 10/15, p. 619-641, 2007.
–– RAZA, K.Application of data mining in Bioinfor-
–– CARVALHO, L. A. V. Datamining: a mineração de matics.Indian Journal of Computer Science and En-
dados no marketing, medicina, economia, engenha- gineering, New Delhi, v. 1, n. 2, p. 114-118, 2010.
ria e administração. Rio de Janeiro: Ciência Moder-
na, 2005. –– KRETSCHMANN, E.; FLEISCHMANN, W.;
–– CHANG, C.C.; LIN, C.J.LIBSVM:a library for su- APWEILER, R. Automatic rule generation for pro-
pport vector machines. Taipei: ACM Transactions tein annotation with the C4.5 data mining algo-
on Intelligent Systems and Technology,2011. rithm applied on SWISS-PROT. Bioinformatics,
Oxford, v. 17, n. 10, p. 920-926, 2001.
–– CHAPELLE, O.; ZIEN, A.; OLKOPF, B.S. Semi-
-supervised learning. London: MIT Press, 2006. –– LÄNGKVIST, M.; KARLSSON, L.; LOUTFI, A. A
review of unsupervised feature learning and deep
–– CORTES, C.; VAPNIK, V.N.Support-vector ne- learning for time-series modeling. Pattern Recogni-
tworks. Machine Learning, Boston, v. 20, p. 273- tion Letters,Uppsala, v.42, p. 11-24, 2014.
297, 1995.
–– LARRAÑAGA,P. et al. Machine learning in bioin-
–– COVER, T.M.Nearest neighbor pattern classifica-
formatics. Brief Bioinformatics, Oxford, v. 7, n. 1, p.
tion. IEEE Transactionson InformationTheory, Pis-
86-112, 2006.
cataway, v. 13, n. 1, p. 21-27, 1967.
–– LIBBRECHT, M. W.; NOBLE, W. S. Machine lear-
–– FAWCETT, TOM. An Introduction to ROC Analy-
ning applications in genetics and genomics. Nature
sis. Pattern Recognition Letters. V. 27 p. 861 – 874,
Reviews Genetics,London, v. 16,n. 6, p. 321-332,
2006.
2015.
–– FRANK, E. et al. Data mining in bioinformatics
–– LU, Z.J. et al. Prediction and characterization of
using Weka. Bioinformatics, Oxford, v. 20, n. 15, p.
2479-2481, 2004 noncoding RNAs in C. elegans by integrating con-
servation, secondary structure, and high-throughput
–– FUJISAWA, K.; FUKUDA, M.; NAKATA, sequencing and array data. Genome Research, New
K.Preprocessing sparse semidefinite programs via York, v. 21, n. 2, p. 276-285, 2011.
matrix completion.SIAM Journal on Optimization,
Philadelphia, v. 11, n. 3, p. 647-674, 2000. –– MANILLA, H. et al. Finding interesting rules from
large sets of discovered association rules.In: INTER-
–– GHAHRAMAN, I. Unsupervised learning. In: NATIONAL CONFERENCE ON INFORMATION
BOUSQUET, O.; RAETSCH, G. Luxburg, U. von. AND KNOWLEDGE MANAGEMENT, 3., 1994,
(Org.).Advanced lectures on machine learning. Ber- Maryland.Proceedings… Maryland: [s.n.], 1994. p.
lin: Springer-Verlag, 2004. p. 72-112. 401-407.
30
APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA
31
Maria Fernanda Ribeiro Dias
32
APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA
33
Maria Fernanda Ribeiro Dias
34
APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA
35
Maria Fernanda Ribeiro Dias
36
APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA
37