Aaprendizado de Máquina e Suas Aplicações em Bioinfo

http://dx.doi.org/10.15202/10.15202/1981-996X.
2016v10n1p23
APRENDIZADO DE MÁQUINA E SUAS

APLICAÇÕES EM BIOINFORMÁTICA
MACHINE LEARNING AND APPLICATIONS IN BIOINFORMATICS
Maria Fernanda Ribeiro Dias

Doutoranda em Biotecnologia pelo Instituto Nacional de Metrologia, Qualidade e Tecnologia (INMETRO),
Duque de Caxias, RJ, Brasil
marfedias@gmail.com
Pedro Geraldo Pascutti

Doutor em Física pela Universidade de São Paulo (USP), São Paulo, SP, Brasil
Professor adjunto da Universidade Federal do Rio de Janeiro (UFRJ), Rio de Janeiro, RJ, Brasil
pascutti@biof.ufrj.br
Manuela Leal da Silva

Doutora em Ciências Biológicas - Biofísica pela Universidade Federal do Rio de Janeiro (UFRJ), Rio de Janeiro, RJ, Brasil
Pesquisadora do Instituto Nacional de Metrologia, Qualidade e Tecnologia (INMETRO), Duque de Caxias, RJ, Brasil
manuela.leal@pq.cnpq.br
RESUMO ABSTRACT
O uso de ferramentas computacionais The use of computational tools to solve
para a resolução de sistemas biológicostem cha-
and study biological systems has drawn atten-
mado a atenção na área científica e proporciona
tion in the scientific area and provides an acqui-
um ganho tanto na quantidade de informações
obtidas quanto na interpretação dos dados. A sitionin amount of information obtained and in
diversidade e complexidadedos problemas bioló- the interpretation of the data. The diversity and
gicos dificulta a análise através da utilização de complexity of biological problemscomplicates
ferramentas computacionais. Essas dificuldades the analysis using computational tools. These
estão relacionadas ao processamento, forma de difficulties are associated with the processing,
representação e interpretação dos dados. Nesse representation and interpretation of data sets.
âmbito, a aprendizagem de máquina vem auxi- In this context, machine learning comes assist
liar no cruzamento de informações e relações in crossing information and relationships deri-
oriundas da análise de dados de sistemas biológi- ved from analysis of data in biological systems.
cos. Atualmente, muitas técnicas e metodologias Currently many techniques and methodologies
estão sendo utilizadas em conjunto e dessa for- are being used together and thus problems that
ma, problemas mais complexos ganham maior are more complexacquire greater potential to
potencial para serem resolvidos. Além disso, o
be solved. Moreover, the appearance of super-
surgimento de supercomputadores vem acres-
computers came add and increase operating
centar e aumentar a capacidade de exploração e
análise dos dados. Uma análise criteriosa se faz capacity and data analysis.On the other hand,
necessária toda vez que um novo problema, de a careful analysis is required every time a new
cunho biológico, é proposto. Esperamos que essa problem, of biological nature, it is proposed. We
breve revisão possa contribuir para o entendi- hope this brief review can contribute to the un-
mento e a resolução desses problemas. derstanding and resolution of these problems.
Palavras chave: Sistemas biológicos. Keywords: Biological systems. Machine

Aprendizado de máquina. Bioinformática. learning. Bioinformatics.
23
Revista Semioses, v 10, n.01, 2016
1 INTRODUÇÃO os dados de modo a permitir a descoberta de

similaridades e diferenças entre os padrões
Ao longo dos últimos anos a geração de (PEROUet al., 2000);
uma grande quantidade de dados genômicos b) métodos de aprendizagem de máquina su-
e proteômicos tem resultado em uma grande pervisionada, onde os dados são organiza-
quantidade de dados biológicos que necessitam dos por rótulos (classes) e utilizados como
ser interpretados (RAZA, 2010). Dentre as áre- exemplos de treinamento de um sistema
as da bioinformática destinadas ao processa- que, depois de treinado, será capaz de fazer
mento e análises destes dados se insere a mine- inferências quanto aos rótulos de novos da-
ração de dados, que visa desenvolver algoritmos dos (GOLUBet al., 1999); e
com potencial para analisar uma grande quan- c) métodos de aprendizagem de máquina semi
tidade de informações (ALPAYDIN, 2004; CAR- supervisionada, que utilizam dados rotula-
VALHO, 2005). Exemplos deste tipo de análise dos e não rotuladas para aumentar a capaci-
incluem a previsão de estruturas das proteínas, dade de generalização de modelos de apren-
a classificação de genes, a classificação de tipos dizagem de máquina (CHAPELLE; ZIEN;
de câncer com base em dados de microarray, o OLKOPF, 2006).
agrupamento de dados de expressão de genes e
a modelagem estatística de interação proteína- Aqui são expostas as principais catego-
-proteína (LIBBRECHT; NOBLE, 2015). rias e ferramentas de métodos de aprendizagem
O termo aprendizagem de máquina sur- de máquina e as principais aplicações e conside-
giu no final do século XX e pode ser definido rações que devem ser feitas quanto aouso destes
como a capacidade de melhorar o desempenho métodosna exploração de problemas biológicos.
na realização de alguma tarefa, por meio da ex- Não é intencional catalogar todos os métodos
periência ou da descoberta de similaridade ende aprendizagem de máquina ou todas as fer-
tre os dados (MITCHELL, 1997). Um modelo ramentas disponíveis para o uso dessa metodo-
de aprendizagem de máquina adquire e utiliza logia, mas sim discutir o potencial de aplicação
conhecimento caso seja capaz de utilizar-se de destas ferramentas junto a Bioinformática.
informações prévias para inferir novos resulta-
dos e novas informações (ARBEX, 2009). Logo, 2 APRENDIZAGEM DE MÁQUINA
a aprendizagem de máquina refere-se à área
na qual são desenvolvidos e estudados os algo- As fases que constituem os méto-
ritmos, técnicas e ferramentas que permitem dos de aprendizagem são: Pré-processa-
o aprendizado. Nesse contexto, cita-se o con- mento, Mineração de Dados e Pós-proces-
ceito de inteligência artificial, que no sentido samento (SMOLA; SCHÖLKOPF, 1998;
mais amplo se dedica as técnicas que permitem SMOLA;VISHWANATHAN; LE, 2007). As ferra-
ao computador aprender e aperfeiçoar seu de- mentas utilizadas em cada fase devem ser abran-
sempenho em alguma tarefa, mimetizando o gentes a ponto de permitir que, a partir dos dados,
funcionamento do cérebro humano(CAPON; seja obtido um método de extração ou conheci-
DUNNE, 2007). mentos de características que possa ser validado
A aplicação das técnicas de aprendizagem por meio de técnicas estatísticas.
de máquina na bioinformática vem resultando A fase de Pré-processamento compre-
em grande sucesso ao melhorar o desempenho ende a aplicação de várias técnicas para cap-
da análise de grande quantidade de dados. Além tação, organização e preparação dos dados. É
disso, esta área esta reinventando a forma como uma etapa que possui fundamental relevância
esses dados podem ser utilizados e direcionados para o processo de classificação e compreende
para fins estratégicos, como biotecnologia e quí- desde a análise dos dados até sua formatação e
mica medicinal, por exemplo. De uma forma normalização(FUJISAWA; FUKUDA; NAKATA,
metodológica e para facilitar a organização dos 2000).Em algumas situações estas fases chegam
métodos, a aprendizagem de máquina pode ser a demandar até 80% do tempo total de processa-
dividida em: mento, principalmente devido às bem conhecidas
a) métodos de aprendizagem de máquina não dificuldades de integração de bases de dadoshe-
supervisionada, que consistem em agrupar terogêneas (MANILLA et al., 1994).Na maioria
24
APRENDIZADO DE MÁQUINA E SUAS APLICAÇÕES EM BIOINFORMÁTICA
dos problemas, os dados a serem analisados se HALL et al., 2009)e GenePattern (REICH et al.,
originam de problemas reais. Na bioinformática 2006). Weka reúne um conjunto de algoritmos
estes dados se destinam a resolução de problemas para o pré-processamento, a mineração de dados
biológicos,análises de microarray, genomas e pro- e o pós-processamento. Muitos dos algoritmos
teomas inteiros e ou sequências de DNA, RNA que compõem o Weka estão descritos emWitten
e proteínas que necessitam ser numericamente e Frank (2000).Já a ferramenta GenePattern é um
representados para posteriormente serem inseri- software de código aberto desenvolvido para aná-
dos em um método de aprendizagem de máquina lise de dados genômicos.
(TUNG; HO, 2008). A área de aprendizagem de máquina está
Um dos maiores desafios da fase de pré- dividida em três grandes grupos, que se consti-
-processamento consiste em representar estes- tuem por características e técnicas bastante par-
dados de forma que eles mimetizem o problema ticulares. Na aprendizagem supervisionada, o
real. Os problemas encontrados nesta fase são objetivo é induzir conceitos a partir de exemplos
os dados em pequenas quantidades e muitas das que estão pré-classificados. Se as classes possuí-
vezes a má qualidade dos mesmos.Os dados em rem valores discretos, o problema é categorizado
pequena quantidade podem incorrer em resulta- como classificação. Caso as classes possuam va-
dos inconsistentes e pouco precisos (HUSSAIN et lores contínuos, o problema é categorizado como
al., 2000). Além disso, a qualidade do conjunto de regressão. Nestes casos, uma classe de exemplos
dados está diretamente relacionada ao nível de ru- rotulados é utilizada para classificar dados desco-
ído que estes apresentam. A origem do ruído pode nhecidos (ver Figura 1, item A). Na aprendizagem
ser originária da má representação, propagação de não supervisionada os dados são a princípio des-
erros nos dados experimentais, erros de digitação conhecidos e agrupados de acordo com alguma
ou na representação numérica. Nesses casos, faz- similaridade, logo existe o processo de extração de
-se necessário a utilização de técnicas estatísticas informações em dados desconhecidos (ver Figura
para detectar os ruídose minimizá-los (GUREK, 1, item B). A aprendizagem semi-supervisionada
2001). é requerida quando a quantidade de dados rotu-
A fase de aplicação também chamada de lados é baixa e utilizam-se dados não rotulados
fase de mineração de dados utiliza os métodos de para compor o conjunto de treinamento (Figura
aprendizagem supervisionada,semi-supervisiona- 1, item C). Esta metodologia constitui a integra-
da e nãosupervisionada. Fazem parte desta fase: ção entre a aprendizagem não supervisionada e a
o conjunto de dados que passou pela fase de pré- aprendizagem supervisionada (YIPet al., 2013).
-processamento, todas as ferramentas possíveis
de serem utilizadas e as formas de validação das Figura 1: Representação dos métodos de aprendizagem de máquina utilizados
na bioinformática
ferramentas e do modelo proposto (LARRAÑA-
GAet al., 2006).
A fase de Pós-processamento constitui-se
da avaliação e interpretação dos resultados obti-
dos, na qual interessantes padrões são identifica-
dos. Utiliza-se nesta fase: dados estatísticos, grá-
ficos e mapas de cores e distâncias.
Algumas ferramentas estão disponíveis
para a aplicação dos processos de mineração de
dados como no caso da ferramenta de código
aberto LIBSVM (CHANG; LIN, 2011), que im-
plementamodelos lineares e de regressão logística
para a resolução de problemas de classificação.
Existem ainda pacotes de software que unem um
conjunto de ferramentas para aplicação, como no
caso das ferramentas Weka(FRANKet al., 2004;
1 “A”– Representação da aprendizagem supervisionada; “B”– Representação da aprendizagem não supervisionada; “C”– Representação
da aprendizagem semi-supervisionada. Em vermelho e azul estão representados o conjunto de dados já rotulados. Verde e amarelo
constituem os dados que serão rotulados após aplicação da aprendizagem de máquina não supervisionada ou semi-supervisionada.
25
dados em forma de vetores n-dimensionais. O

resultado é um cluster formado por grupos que
apresentam alguma semelhança baseada nos
atributos que caracterizam e representam esses
dados (GHAHRAMAN, 2004).
Em 2002, Taylor e colaboradores apli-
caram técnicas de aprendizagem não supervi-
sionada e métodos estatísticos nas análises do
genótipo de plantas. Os perfis metabolômicos
foram traçados e posteriormente comparados
por meio de estatísticas descritivas. Em segui-
da, foi aplicado o método de redes neurais para
discriminar entre os genótipos presentes nas
amostras e foi descoberto que possivelmente
estes perfis metabólicos tenham se originado de
duas diferentes linhagens. Através dos métodos
de agrupamento hierárquico e PCA foi possível
separar e compreender as diferenças encontra-
das em cada perfil. Os resultados encontrados
foram confirmados através de dados experi-
mentais, onde foramverificadas diferenças en-
tre os genótipos de mitocôndrias e cloroplastos
presentes nos dados submetidos ás análises
de aprendizagem de máquina. Golub e outros
(1999) foram os pioneiros na utilização de ferra-
mentas diversificadas para analisar uma grande
quantidade de dados biológicos. Neste trabalho
foram utilizados os métodos de aprendizagem
não supervisionada, agrupamento hierárquico e
self organized maps, e métodos de aprendiza-
gem supervisionada, os preditores multiclasses.
Fonte: Adaptado de (YIP et al., 2013). Com a junção destas ferramentas foi possível
agrupar e classificar os dados de pacientes com
3 APRENDIZAGEM NÃO câncer, diferenciando-os entre a leucemia mie-
lóide aguda e leucemia linfoblástica aguda. A
SUPERVISIONADA partir das análises de Golub e outros, outras
A aprendizagem de máquina não supervi- ferramentas e análises foram sendo elucidadas
e diferentes métodos de aprendizagem de má-
sionada se caracteriza por receber dados do tipo
quina, principalmente os métodos de aprendi-
{x1, x2.. xn}, e extrair associações ou caracterís-
zagem supervisionada passaram a ser aplicados
ticas destes dados. Os métodos muito utilizados
em problemas biológicos.
são os métodos de análises de componentes
principais(PCA), modelos baseados em distân-
cias como k-means e modelos de agrupamentos
4 APRENDIZAGEM SUPERVISIONADA
hierárquicos (do inglês Hierarchical Clustering) Os métodos de aprendizagem supervisio-
(LÄNGKVIST; KARLSSON; LOUTFI, 2014).A nada se caracterizam por receber dados rotu-
análise de agrupamento pode ser entendida lados do tipo {x1, x2.. xn}, e utilizarem estes
como o processo de reunir ou agrupar variáveis dados e a representação de seus atributos para a
similares entre si. A identificação de grupos que predição de um novo conjunto de dados desco-
se associam é um ponto de partida para a explo- nhecidos. Os métodos de aprendizagem de má-
ração dos dados e da relação entre eles. Os algo- quina supervisionada podem ser divididos em
ritmos de agrupamento recebem como entrada problemas de classificação e regressão. Os algo-
26
ritmos mais conhecidos e aplicados em bioin- de histocompatibilidade, MHC(do inglês ma-

formática são:redes neurais (WIDROW; LEHR, jor histocompatibility complex) de classe I ou
1990), árvore de decisão(QUINLAN, 1986), II (TUNG; HO, 2007). Posteriormente, este
k-nearest neighbors (COVER, 1967)emáquina mesmo grupo utilizou a mesma metodologia de
de vetor de suporte (SVM, do inglês support representação e a comparação de diferentes al-
vector machine) (CORTES; VAPNIK, 1995). goritmos para a identificação de proteínas ubi-
Além destes, existe ainda o NaiveBayes, que de quitináveis.Neste trabalho, Tung e Ho (2008)
acordo com Oguri (2006) é o classificador mais utilizaram os modelos SVM, K-nearest neighbor
utilizado em aprendizagem de máquina.Entre- e NayveBayes combinados com propriedades
tanto, o algoritmo SVM vem tomando espaço físico-químicas, identificação por aminoácidos
nas últimas décadas e sendo utilizado em dife- e informações evolutivas. O melhor resultado
rentes análises de bioinformática (LIBBRECHT; obtido foi oriundo da combinação do algoritmo
NOBLE, 2015).Isso se deve ao fato do algorit- SVM com a representação de peptídeos atra-
mo SVM constituir modelos baseados no fato vés das propriedades físico-químicas. Esta fer-
de que, para dimensões altas, todos os proble- ramenta avaliou mais de 3 mil peptídeos com
mas se tornam linearmente separáveis (TONG; 72% de recall nos resultados de validação.
KOLLER, 2001). O uso do produto internoker-
nel e a construção do hiperplano oferecem uma 5 APREDIZAGEM SEMI-SUPERVISIONADA
solução alternativa para projetar os dados em
um espaço de menor dimensão, aumentando A aprendizagem semi-supervisionada se
o desempenho domodelo de classificação. A baseia na definição de que para problemas com
representação dos dados de treinamento em pouca quantidade de dados rotulados, usa-se
forma de vetores torna isto possível, pois estes dados não rotulados para compor o conjunto
nunca aparecem isolados, mas na forma de pro- de treinamento. Desta forma, este método re-
duto interno. Quando os dados de treinamento úne características da aprendizagem supervi-
são separáveis, o hiperplano ótimo no espaço sionada e da aprendizagem não supervisionada.
característico é aquele que apresenta a máxima Em análises de sequências gênicas, o processo
margem de separação (SEMOLINI, 2002). utiliza os algoritmos de aprendizagem super-
O uso da aprendizagem de máquina su- visionadae iniciam com a construção de um
pervisionada possibilita aplicação em diversas modelo inicial formado por rótulos dos genes-
áreas do conhecimento e na bioinformática vem que constituem um subconjunto. Este modelo
sendo bastante utilizado na classificação de di- é utilizado para avaliar o genoma inteiro e ro-
ferentes sistemas. Lu e outros (2011) fizeram tular os dados experimentais, que após serem
a predição e caracterização de todo o genoma rotulados, passam a fazer parte do conjunto de
de RNAs noncodings (ncRNAs) deCaenorhab- treinamento(LIBBRECHT; NOBLE, 2015). A
ditis elegans, utilizando o algoritmo SVM com abordagem semi-supervisionada pode ser mais
os seguintes atributos: as regiões conservadas, a eficiente do que uma abordagem totalmente su-
estrutura secundária e a composição dos ácidos pervisionada, pois o modelo é capaz de aprender
nucleicos. Essas análises resultaram em 97% de a partir de um conjunto maior de dados em vez
acurácia nas análises de validação e apresenta- de apenas o subconjunto que fora identificado
ram novos ncRNAs potenciais em C. elegans, com alta confiança. Um dos fatores limitantes
fornecendo um método que pode ser adaptado deste método é o aumento de ruído e o uso de
para outros organismos. dados que direcionem ao erro. Logo é interes-
Em 2007,Tung e Ho propuseram um sante que os dados sejam oriundos de fontes
método computacional para a predição de imu- seguras e tenham outras fontes para corrobo-
nogenicidade de peptídeos. O método utiliza rar com os resultados.Le e colaboradores, 2016
números binários e propriedades físico-quími- utilizam um método de aprendizagem semi-su-
cas para a representação dos dados, algoritmos pervisionada para análise de metagenomas. O
árvore de decisão (para selecionar o conjunto de algoritmo propõe um método de agrupamento
propriedades físico-químicas mais relevantes) dos reads de acordo com as características de
e SVM para classificar os dados representados cada um. Após agrupados, cada cluster é com-
em peptídeos de ligação do complexo principal parado aos táxons depositados em bancos de
27
dados e assim atribui-se aos reads uma referên- g) LOOCV (do inglês, leave-one-out cross-
cia taxonômica. -validation), validação cruzada retirando um
dado para teste e o restante para treinamen-
6 AVALIAÇÃO DOS MODELOS to (ver Figura, item iv). Nas análises de vali-
dação cruzada feitas com as técnicas iii e iv, o
DE CLASSIFICAÇÃO procedimento é repetido diversas vezes.
O desempenho do algoritmo de aprendiza- O desempenho do classificador e os va-
gem é confirmado através dos valores estatísticos lores estatísticos são calculados após serem
dos dados de validação cruzada. A avaliação se aplica contabilizados os resultados de predição levan-
aos métodos de aprendizagem supervisionada e se- do em consideração acurácia, precisão e recall
mi-supervisionada e utiliza o conjunto de dados de obtidos (TARCAet al., 2007). Para a obtenção
treinamento para avaliar o desempenho do modelo destes valores é necessário a obtenção dos se-
(KRETSCHMANN; FLEISCHMANN;APWEILER, guintes valores:
2001). As técnicas de validação cruzada se baseiam h) verdadeiro positivo(VP): ocorre quando
no particionamento do conjunto de dados em sub- o classificador prevê uma resposta do tipo
conjuntos, utilizando posteriormente alguns destes “sim” e essa resposta está de acordo com os
subconjuntos para dados de treinamento e o restan- dados observados;
te para serem utilizados como teste (LARRAÑAGA i) verdadeiro negativo(VN): ocorre quando
et al., 2006). As técnicas mais utilizadas para ava- o classificador prevê uma resposta do tipo
liação são: “não” e essa resposta está de acordo com os
d) validação cruzada com K grupos (do inglês dados observados;
K-fold cross-validation), onde se retira um j) falso positivo(FP): ocorre quando o classi-
grupo pra teste e o restante é utilizado pra ficador prevê uma resposta do tipo ``sim’’
treinamento (ver Figura 2, item i); quando a mesma deveria ser “não”; e
e) validação cruzada com 2 grupos (do inglês k) falso negativo(FN): ocorre quando o classi-
2-fold cross-validation), onde um grupo é ficador prevê uma resposta do tipo ``não’’ e
utilizado como teste e outro como treina- ela deveria ser “sim”.
mento (ver Figura 2, item ii);
Tabela 1: Tabela de confusão utilizada para auxiliar análises estatís-
f) validação com amostras aleatórias (do inglês ticas de metodologias de aprendizagem de máquina supervisionado e
repeated random sub-sampling validation) semi-supervisionado
quando é retirado por n-vezes do conjunto Valor Verdadeiro
de treinamento um subconjunto para teste Positivo Negativo

Valor Predito
(ver Figura 2, item iii); e Positivo

VP FP
Verdadeiro Positivo Falso Positivo
Figura 2: Representação esquemática das técnicas de validação cruzada
FN VN
Negativo
Falso Negativo Verdadeiro Netivo
Fonte: Adaptado de(Fawcett, Tom; 2006).
Desta forma pode-se montar uma tabe-

la caracterizada como “tabela de confusão” (ver
Tabela 1), de onde é possível realizar as seguin-
tes avaliações(ver Equações 1, 2 e 3).
Equação 1: Recall: Avalia o quanto
um classificador pode reconhecer exemplos
positivos
VP/(VP+FN) (1)
Equação 2: Acurácia: Avalia o quanto

um classificador pode reconhecer exemplos
negativos
VN/(FP+VN) (2)
Fonte: Adaptado de (Sudhir Varma e Richard Simon, 2006).
28
Equação 3: Precisão: Avalia o quanto análise de correlação pode ajudar a solucionar

das classificações positivas estão corretas. Re- este problema. A segunda particularidade a ser
laciona-se com a qualidade e uniformidade do observada é quanto ao underfitting, caracteriza-
método do quando o modelo não se ajusta bem aos da-
dos de treinamento. Nestes casos existem duas
VP/ (VP+FP) (3)
possibilidades: a primeira está condicionada ao
aumento do conjunto de treinamento e a se-
7 CONCLUSÕES gunda se define pela adição de novos atributos
A escolha do método e modelo de apren- na representação do conjunto de dados. Além
dizagem de máquina depende de uma diversida- disso, existem ainda os casos de dados desba-
de de fatores. A primeira observação é quanto a lanceados, quando apenas uma classe apresen-
origem dos dados e as características que estes ta grande quantidade de dados. Nesses casos,
apresentam. Quando não se tem nenhuma in- o uso de aprendizagem semi-supervisionada
formação prévia dos dados, a escolha é limita- pode auxiliar no enriquecimento de dados para
da somente a aplicação de métodos de apren- a classe que possui menor quantidade de dados.
dizagem não supervisionada. Neste contexto, O ajuste do modelo utilizado nos mé-
diversas análises estatísticas são requeridas todos de aprendizagem de máquina é um dos
para avaliar e extrair associações entre os da- pontos cruciais para o bom desempenho do
dos. Uma outra abordagem para os métodos de classificador e esta se torna uma medida essen-
aprendizagem não supervisionada é sua aplica- cial para a construção de modelos eficientes ao
ção em um conjunto de dados rotulados e ex- serem utilizadas metodologias de aprendizagem
perimentalmente validados. Esta aplicação per- de máquina.
mite a extração de associações e relações entre
os dados e pode corroborar com a descoberta de 8 CONSIDERAÇÕES FINAIS
padrões em novos dados. Logo, a aprendizagem
não supervisionada pode auxiliar os métodos de Neste artigo foi apresentada uma vi-
aprendizagem supervisionada e semi-supervi- são geral dos conceitos de aprendizagem de
sionada, enriquecendo as informações obtidas máquina.A imersão de técnicas de aprendiza-
através destas técnicas. gem de dados na resolução de sistemas bioló-
Quando disponibilizamos de dados com gicos se tornou uma ferramenta eficaz e inova-
características representáveis, é possível pro- dora. Para cada problema existem algoritmos e
por o uso dos métodos de aprendizagem super- técnicas, com características próprias e conside-
visionada e/ou semi-supervisionada, porém a rações favoráveis e desfavoráveis que variam de
utilização destas ferramentas atrelada a origem acordo com a natureza do problema, a limitação
dos dados implica algumas particularidades. A computacional e a qualidade dos dados. Discu-
primeira delas é o overfitting,termo utilizado tir as ferramentas e os problemas já descritos
para caracterizar modelos que se ajustam bem vem corroborar para o avanço de técnicas com-
ao conjunto de treinamento, mas não é condi- putacionais e suas aplicações na biologia. Este
zente com os dados reais. Um dos motivos para fato permite agregar e enriquecer a área da bioin-
este fator é a redundância entre os atributos que formática, pois abre portas para áreas ainda não
representam os dados. Atributos redundantes exploradas,além de contribuir para o avanço das
geram overfitting e na maioria dos casos uma ferramentas e a amplitude de suas aplicações.
29
REFERÊNCIAS BIBLIOGRÁFICAS
–– GUREK, E. L.Aquisição de conhecimento em ban-
–– ALPAYDIN, E. Introduction to machine learning. cos de dados. 2001. 98 f. Trabalho de Conclusão de
Cambrige: MIT Press, 2004. Curso(Tecnólogo em Processamento de Dados) –
Universidade Tuiuti do Paraná,Santo Inácio, 2001.
–– ARBEX, W. A.Modelos computacionais para iden-
tificação de informação genômica associada à re- –– HALL, M. et al.The WEKA data mining software:
sistência ao carrapato bovino. 2009. 200 f. Tese an update. SIGKDD Explorations, New York, v. 11,
(Doutorado em Engenharia de Sistemas e Compu- n. 1,p. 10-18, 2009.
tação)– Universidade Federal do Rio de Janeiro,Rio
de Janeiro, 2009. –– HUSSAIN, F. et al. Exception rule mining with a
relative interestingness measure. In: TERANO, T.;
–– CAPON, T.J.M.; DUNNE, P.E. Argumentation in LIU, H.; CHEN, A. L. P. Knowledge discovery and
artificial intelligence.Artificial Intelligence, Irvine, data mining. Berlin: Springer, 2000. p. 86-96.
v. 171, n. 10/15, p. 619-641, 2007.
–– RAZA, K.Application of data mining in Bioinfor-
–– CARVALHO, L. A. V. Datamining: a mineração de matics.Indian Journal of Computer Science and En-
dados no marketing, medicina, economia, engenha- gineering, New Delhi, v. 1, n. 2, p. 114-118, 2010.
ria e administração. Rio de Janeiro: Ciência Moder-
na, 2005. –– KRETSCHMANN, E.; FLEISCHMANN, W.;
–– CHANG, C.C.; LIN, C.J.LIBSVM:a library for su- APWEILER, R. Automatic rule generation for pro-
pport vector machines. Taipei: ACM Transactions tein annotation with the C4.5 data mining algo-
on Intelligent Systems and Technology,2011. rithm applied on SWISS-PROT. Bioinformatics,
Oxford, v. 17, n. 10, p. 920-926, 2001.
–– CHAPELLE, O.; ZIEN, A.; OLKOPF, B.S. Semi-
-supervised learning. London: MIT Press, 2006. –– LÄNGKVIST, M.; KARLSSON, L.; LOUTFI, A. A
review of unsupervised feature learning and deep
–– CORTES, C.; VAPNIK, V.N.Support-vector ne- learning for time-series modeling. Pattern Recogni-
tworks. Machine Learning, Boston, v. 20, p. 273- tion Letters,Uppsala, v.42, p. 11-24, 2014.
297, 1995.
–– LARRAÑAGA,P. et al. Machine learning in bioin-
–– COVER, T.M.Nearest neighbor pattern classifica-
formatics. Brief Bioinformatics, Oxford, v. 7, n. 1, p.
tion. IEEE Transactionson InformationTheory, Pis-
86-112, 2006.
cataway, v. 13, n. 1, p. 21-27, 1967.
–– LIBBRECHT, M. W.; NOBLE, W. S. Machine lear-
–– FAWCETT, TOM. An Introduction to ROC Analy-
ning applications in genetics and genomics. Nature
sis. Pattern Recognition Letters. V. 27 p. 861 – 874,
Reviews Genetics,London, v. 16,n. 6, p. 321-332,
2006.
2015.
–– FRANK, E. et al. Data mining in bioinformatics
–– LU, Z.J. et al. Prediction and characterization of
using Weka. Bioinformatics, Oxford, v. 20, n. 15, p.
2479-2481, 2004 noncoding RNAs in C. elegans by integrating con-
servation, secondary structure, and high-throughput
–– FUJISAWA, K.; FUKUDA, M.; NAKATA, sequencing and array data. Genome Research, New
K.Preprocessing sparse semidefinite programs via York, v. 21, n. 2, p. 276-285, 2011.
matrix completion.SIAM Journal on Optimization,
Philadelphia, v. 11, n. 3, p. 647-674, 2000. –– MANILLA, H. et al. Finding interesting rules from
large sets of discovered association rules.In: INTER-
–– GHAHRAMAN, I. Unsupervised learning. In: NATIONAL CONFERENCE ON INFORMATION
BOUSQUET, O.; RAETSCH, G. Luxburg, U. von. AND KNOWLEDGE MANAGEMENT, 3., 1994,
(Org.).Advanced lectures on machine learning. Ber- Maryland.Proceedings… Maryland: [s.n.], 1994. p.
lin: Springer-Verlag, 2004. p. 72-112. 401-407.
–– GOLUB, T. R. et al. Molecular classification of –– MITCHELL, T.Machine learning.New York: Mc-

cancer: class discovery and class prediction by gene Graw-Hill, 1997.
expression monitoring. Science,New York, v. 286,n.
5439, p. 531-537, 1999. –– OGURI, P.Aprendizado de máquina para o proble-
ma de sentiment classification. 2006. 54f. Disserta-
30
ção (Mestrado em Ciências da Computação) – Pon- couver, v. 2, p. 45-66, 2001.

tifícia Universidade Católica do Rio de Janeiro, Rio
de Janeiro, 2006. –– TUNG, C. W.; HO, S.Y. Computational identifica-
tion of ubiquitylation sites from protein sequences.
–– PEROU, C. M. et al. Molecular portraits of human BMC Bioinformatics, Bari, v. 9, n. 310, p. 310-317,
breast tumours. Nature,London, v. 406, n. 6797, p. 2008.
747-752, 2000.
–– TUNG, C.W.; HO, S.Y. POPI: predicting immu-
–– QUINLAN, J. R.Induction of decision trees. Ma- nogenicity of MHC class I binding peptides by
chine Learning, Boston, v. 1, p. 81-106, 1986. mining informative physicochemical properties.
Bioinformatics,Oxford, v. 23, n. 8, p. 942-949, 2007.
–– REICH, M. et al.GenePattern 2.0. Nature Gene-

tics, London, v. 38, p. 500-501, 2006. –– WIDROW, B.; LEHR, M.A.30 years of adaptive
neural networks: perceptron, Madaline, and back-
–– SEMOLINI, R.Support vector machines, inferência propagaion. Proceedings of the IEEE, Raleigh, v. 78,
transdutiva e o problema de classificação. 2002. 142 f. n. 9, p. 1415-1442, 1990.
Dissertação (Mestrado em Engenharia Elétrica) – Uni-
versidade Estadual de Campinas,Campinas, 2002. –– WITTEN, I. H.; FRANK, E. Data mining: prac-
tical machine learning tools and techniques with
–– SMOLA, A.J.; SCHÖLKOPF, B. Learning with ker- java implementations. São Francisco: Morgan Kau-
nels: support vector machines, regularization, opti- fmann, 2000.
mization, and beyond.Cambridge:MIT Press, 1998.
–– YIP, K.Y. et al. Machine learning and genome an-
–– SMOLA, A. J.;VISHWANATHAN, S.V.N.;LE, notation: a match meant to be?.Genome Biology,
Q. V. Bundle methods for machine learning. London, v.14, n. 205, p. 205- 217, 2013.
In:ADVANCES IN NEURAL INFORMATION PRO-
CESSING SYSTEMS,20., 2007, Cambridge.Procee- –– VARMA, SUDHIR, and RICHARD SIMON. Bias
dings… Cambridge: MIT Press,2007. p. 1-8. in Error Estimation When Using Cross-Validation
for Model Selection. BMC Bioinformatics v. 7, n. 91,
–– TARCA, A.L. et al. Machine learning and its 2006.
applications to biology. PLoS Computational
Biology,California, v. 3, n. 6,p. 953-963, 2007. AGRADECIMENTOS
–– TAYLOR, J. et al. Application of metabolomics to À Coordenação de Aperfeiçoamento de
plant genotype discrimination using statistics and Pessoal de Nível Superior (CAPES) e ao Conse-
machine learning. Bioinformatics, Oxford, v. 18, n.
lho Nacional de Desenvolvimento Científico e
2, p. 241–248, 2002.
Tecnológico (CNPq).
–– TONG, S.; KOLLER, D. Support vector machine
active learning with applications to text classifica- Recebido em 15 de julho de 2016.
tion. Journal of Machine Learning Research, Van- Aceito em 20 de agosto de 2016.
31
32
33
34
35
36
37

Aaprendizado de Máquina e Suas Aplicações em Bioinfo

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aaprendizado de Máquina e Suas Aplicações em Bioinfo

Enviado por

Direitos autorais:

Formatos disponíveis

http://dx.doi.org/10.15202/10.15202/1981-996X.

APRENDIZADO DE MÁQUINA E SUAS

Maria Fernanda Ribeiro Dias

Pedro Geraldo Pascutti

Manuela Leal da Silva

Palavras chave: Sistemas biológicos. Keywords: Biological systems. Machine

1 INTRODUÇÃO os dados de modo a permitir a descoberta de

dados em forma de vetores n-dimensionais. O

ritmos mais conhecidos e aplicados em bioin- de histocompatibilidade, MHC(do inglês ma-

quando é retirado por n-vezes do conjunto Valor Verdadeiro

de treinamento um subconjunto para teste Positivo Negativo

(ver Figura 2, item iii); e Positivo

Desta forma pode-se montar uma tabe-

Equação 2: Acurácia: Avalia o quanto

Equação 3: Precisão: Avalia o quanto análise de correlação pode ajudar a solucionar

–– GOLUB, T. R. et al. Molecular classification of –– MITCHELL, T.Machine learning.New York: Mc-

ção (Mestrado em Ciências da Computação) – Pon- couver, v. 2, p. 45-66, 2001.

–– REICH, M. et al.GenePattern 2.0. Nature Gene-

Você também pode gostar