Você está na página 1de 22

Página 1

Um estudo comparativo de aprendizado de


máquina
e algoritmos de aprendizagem profunda para
classificar
tipos de câncer com base no gene microarray
dados de expressão
Reinel Tabares-Soto 1, Simon Orozco-Arias 2, 3, Victor Romero-Cano 4,
Vanesa Segovia Bucheli5 , José Luis Rodríguez-Sotelo 1 e
Cristian Felipe Jiménez-Varón6
1 Departamento de Eletrônica e Automação, Universidad Autónoma de Manizales, Manizales,
Caldas, Colômbia
2 Departamento de Ciência da Computação, Universidad Autónoma de Manizales, Manizales,
Caldas, Colômbia
3 Departamento de Sistemas e Informática, Universidad de Caldas, Manizales, Caldas, Colômbia
4 Departamento de Automática e Eletrônica, Universidad Autónoma de Occidente, Cali,
Valle del Cauca, Colômbia
5 Instituto Internacional de Biomedicina e Genoma de Izmir, Universidade Dokuz Eylül, Izmir, Turquia
6 Departamento de Física e Matemática, Universidad Autónoma de Manizales, Manizales,
Caldas, Colômbia
ABSTRATO
A classificação do câncer é um tema de grande interesse na medicina, pois permite
diagnóstico preciso e eficiente e facilita um resultado de sucesso na área médica
tratamentos. Estudos anteriores classificaram tumores humanos usando uma escala grande
Criação de perfis de RNA e algoritmos de aprendizado de máquina supervisionados (ML) para construir
uma classificação de base molecular de células de carcinoma da mama, bexiga,
adenocarcinoma, colorretal, gastro esôfago, rim, fígado, pulmão, ovário,
pâncreas e tumores de próstata. Esses conjuntos de dados são conhecidos coletivamente como o
Banco de dados 11_tumor, embora este banco de dados tenha sido usado em vários trabalhos em
campo ML, nenhum estudo comparativo de diferentes algoritmos pode ser encontrado em
a literatura. Por outro lado, os avanços em hardware e software
tecnologias promoveram melhorias consideráveis na precisão de
soluções que usam ML, como Deep Learning (DL). Neste estudo, comparamos
os algoritmos mais amplamente usados em ML e DL clássicos para classificar os tumores
descrito no banco de dados 11_tumor. Obtivemos a identificação do tumor
precisões entre 90,6% (regressão logística) e 94,43% (convolucional
Redes Neurais) usando validação cruzada k -fold. Além disso, mostramos como um ajuste
processo pode ou não melhorar significativamente a precisão dos algoritmos.
Nossos resultados demonstram um método de classificação eficiente e preciso
com base na expressão gênica (dados de microarray) e algoritmos ML / DL,
o que facilita a previsão do tipo de tumor em um cenário de múltiplos tipos de câncer.
Disciplinas Bioinformática, Inteligência Artificial, Mineração de Dados e Aprendizado de Máquina
Palavras-chave Aprendizado de Máquina, Aprendizado Profundo, Classificação do Câncer, Expressão do gene Microarray,
11_ banco de dados de tumor, bioinformática
Como citar este artigo Tabares-Soto R, Orozco-Arias S, Romero-Cano V, Segovia Bucheli V, Rodríguez-Sotelo JL, Jiménez-Varón CF.
2020. Um estudo comparativo de aprendizado de máquina e algoritmos de aprendizado profundo para classificar tipos de câncer com base na expressão do gene de microarray
dados. PeerJ Comput. Sci. 6: e270 DOI 10 .7717 / peerj-cs.270
Enviado em 17 de setembro de 2019
Aceito em 8 de março de 2020
Publicado em 13 de abril de 2020
Autores correspondentes
Reinel Tabares-Soto,
rtabares@autonoma.edu.co
Simon Orozco-Arias,
simon.orozco.arias@gmail.com
Editor acadêmico
Diego amâncio
Informações Adicionais e
As declarações podem ser encontradas em
página 18
DOI 10.7717 / peerj-cs.270
direito autoral
2020 Tabares-Soto et al.
Distribuído em
Creative Commons CC-BY 4.0

Página 2
INTRODUÇÃO
O câncer é uma das doenças mais mortais na saúde humana causada por doenças anormais
proliferação de células, levando a malformações malignas ou tumores com diferentes
características da patologia ( Varadhachary, 2007) A classificação do tipo de câncer é crítica para
aumentando as taxas de sobrevivência dos pacientes. As análises genéticas moleculares descobriram
alterações, ou assinaturas, com diferentes características biológicas que permitem discernir o
respostas a vários tratamentos ( Greller & Tobin, 1999) Isso permite o diagnóstico precoce e
um tratamento preciso; portanto, garantindo a eficácia e redução dos efeitos colaterais
(toxicidade) do tratamento (Wang et al., 2005)
A expressão gênica prejudicada é uma característica das células carcinogênicas ( Su et al., 2001 ).
Consequentemente, os dados de expressão do gene microarray de células tumorais fornecem um importante
fonte de informação para melhorar o diagnóstico do câncer de forma econômica, permitindo que o
utilização desta estratégia nos países em desenvolvimento. Uma vez que conjuntos de dados de microarray contêm
milhares
de diferentes genes a serem analisados, uma forma precisa e eficiente de analisar este
quantidade de dados é feita por algoritmos de aprendizado de máquina (ML) e aprendizado profundo (DL)
( Motieghader et al., 2017 ). Em particular, esses algoritmos foram aplicados em outros
áreas biológicas, incluindo regras de associação ( Orozco-Arias et al., 2019b) Estudos anteriores
demonstrar o uso de ML e DL na expressão de genes de microarray para inferir a expressão de
genes alvo com base na expressão gênica de referência (Chen et al., 2016), na seleção de recursos
com o objetivo de encontrar um subconjunto informativo de expressão gênica ( Sharma, Imoto & Miyano,
2012 ), e no diagnóstico e classificação dos tipos de câncer ( Fakoor et al., 2013 ).
Um banco de dados bem conhecido de microarrays de genes relacionados ao câncer é o banco de dados
11_Tumors
( Su et al., 2001), que está disponível em https://github.com/simonorozcoarias/ML_DL_
microArrays / blob / master / data11tumors2.csv . Este conjunto de dados é um bom exemplo da maldição
da dimensionalidade devido ao elevado número de características e poucos registros deste
base de dados. Portanto, a maioria dos estudos o usa para testar técnicas específicas de ciência de dados,
tais como métodos de seleção de recursos ( Bolón-Canedo et al., 2014; Wang e Wei, 2017 ; Han &
Kim, 2018; Perera, Chan e Karunasekera, 2018), redução de dimensão ( Araújo et al.,
2011 ), métodos de agrupamento (Sardana e Agrawal, 2012 ; Sirinukunwattana et al., 2013 ;
Li et al., 2017 ), técnicas de pré-processamento ( Liu et al., 2019), entre outros. Os 11_Tumores
banco de dados também foi usado na seleção de genes para classificação de câncer ( Moosa et al.,
2016 ; Alanni et al., 2019) Embora os autores tenham alcançado alta precisão nestes
publicações, eles usaram apenas alguns algoritmos de ML, uma estratégia de pré-processamento e um
técnica de aprendizagem (supervisionada ou não supervisionada), o que poderia adicionar viés aos seus
metodologia. Além disso, até o momento, nenhum estudo comparativo sobre a aplicação do ML em
conjuntos de dados de microarray são encontrados na literatura.
Em vários estudos de ML, DL provou ser uma técnica robusta para analisar em grande escala
conjuntos de dados ( Bengio, Courville & Vincent, 2013) Com esses avanços, DL alcançou
desempenho de ponta em uma ampla gama de aplicações, incluindo bioinformática e
genômica ( Min, Lee & Yoon, 2016 ; Yue & Wang, 2018 ), análise de amostras metagenômicas
( Ceballos et al., 2019 ), identificação de elementos transponíveis somáticos em câncer de ovário
( Tang et al., 2017), identificação e classificação de retrotransposons em plantas
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
22/02

Página 3
( Orozco-Arias, Isaza & Guyot, 2019) e classificação de câncer usando o componente principal
Analysis (PCA) ( Liu, Cai & Shao, 2011 ). Trabalho recente de Guillen & Ebalunode (2016)
demonstraram resultados promissores para a aplicação de DL na expressão gênica de microarray.
Em geral, existem duas tarefas diferentes que os algoritmos de ML podem enfrentar: supervisionado
e aprendizagem não supervisionada. Na aprendizagem supervisionada, o objetivo é prever o rótulo
(classificação) ou resposta (regressão) de cada ponto de dados usando um conjunto fornecido de
exemplos de treinamento rotulados. Na aprendizagem não supervisionada, como agrupamento e principal
análise de componentes, o objetivo é aprender padrões inerentes aos dados ( Zou et al., 2018)
O principal objetivo de qualquer tarefa de ML é otimizar o desempenho do modelo não apenas no
dados de treinamento, mas também em conjuntos de dados adicionais. Quando um modelo aprendido exibe este
comportamento,
é considerado generalizar bem. Com este objetivo, os dados em um determinado banco de dados são
aleatoriamente
dividido em pelo menos dois subconjuntos: treinamento e validação ( Zou et al., 2018 ). Então, um modelo
o mais complexo possível é aprendido (conjunto de treinamento), ajustado (conjunto de validação) e testado para
desempenho de generalização no conjunto de validação. Este processo é crucial para evitar
overfitting ou underfitting. Portanto, um algoritmo de aprendizagem de som deve alcançar um
equilíbrio apropriado entre a flexibilidade do modelo e a quantidade de dados de treinamento. Excessivamente
modelo simples não se ajusta e faz previsões inadequadas, enquanto um modelo
modelo flexível se ajustará demais a padrões espúrios nos dados de treinamento e não generalizará
( Zou et al., 2018 ).
Neste estudo, comparamos o desempenho do ML e DL mais comumente usado
algoritmos em bioinformática ( Orozco-Arias et al., 2019a ) na tarefa de classificação por
técnicas supervisionadas e não supervisionadas. Usamos o banco de dados 11_Tumor e aplicamos
diferentes estratégias de pré-processamento. Nossa avaliação detalhada e comparação ilustram o
alta precisão desses algoritmos para identificação de tumor em um tipo de câncer múltiplo
cenário e a influência das estratégias de pré-processamento e processos de ajuste nestes
precisões.
MATERIAIS E MÉTODOS
As técnicas de ML e DL podem aprender as características de um determinado problema de um certo
quantidade de dados. Esses dados são geralmente subdivididos aleatoriamente em dois grupos: treinamento e
validação. Um conjunto de dados de treinamento é usado para calibrar os parâmetros do modelo, e um
conjunto de dados de validação é utilizado para avaliar o desempenho do modelo (Eraslan et al., 2019 ).
Neste artigo, comparamos os resultados obtidos da classificação de 11 tumores diferentes
aulas por meio de diferentes abordagens de ML e DL. Começamos avaliando dois
métodos não supervisionados; o primeiro método é o popular algoritmo K -means, em que um
determinado número de amostras de protótipos, também conhecidos como centros de cluster, são estimados por
atribuir iterativamente pontos de dados para amostras de protótipo e atualizá-los como a média de
as amostras atribuídas. O segundo método testado é o clustering hierárquico, que é melhor
adequado para formas irregulares do que K- significa. Depois, testamos oito classificações diferentes
algoritmos. O mais popular, e a linha de base padrão em problemas de classificação, é
K-Nearest Neighbours (KNN), onde as decisões de classificação são feitas por meio de uma votação
O treinamento do mecanismo e do modelo armazena o conjunto de dados de forma que as consultas possam ser
feitas
eficientemente. Outra família de métodos de classificação compreende os chamados modelos lineares,
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
22/03

Página 4
para o qual um algoritmo de aprendizagem estima tantos pesos quanto características dos dados de treinamento
então a previsão de classificação é feita em função do produto escalar entre os pesos
e uma amostra de teste. Os modelos lineares são rápidos para treinar, prever e também escalar bem para
conjuntos de dados em que o número de recursos é grande em comparação com o número de amostras. o
os métodos lineares que testamos são Linear Support Vector Classifier (SVC), Logistic Regression
(LR), Análise Discriminante Linear (LDA), Classificador Bayesiano Naive (NB) e Multi-
Camada Perceptron (MLP).
Também incluímos métodos de árvore de decisão (DT), como Random Forests (RF). Ao contrário
modelos lineares, DTs e RFs são invariáveis para o dimensionamento de dados e funcionam bem com recursos em
escalas diferentes. Finalmente, aplicamos Deep Neuronal Networks (DNN), como totalmente
redes neurais conectadas, também conhecidas como Multi-Layer Perceptron (MLP) e
Redes Neurais Convolucionais (CNNs). MLPs são adequados para dados não lineares,
considerando que as CNNs automatizam a custosa tarefa de recursos de engenharia; uma tarefa inevitável em
abordagens clássicas de ML. Os algoritmos acima são amplamente explicados em Michie,
Spiegelhalter & Taylor (1994) e Chollet (2007).
Conjuntos de dados
Os conjuntos de dados usados representam medições de expressão gênica usando microarrays de câncer
e biópsias normais (Statnikov et al., 2005 ; Bolón-Canedo et al., 2014), e são
consolidado na “base de dados 11 Tumores”, disponível gratuitamente online em ( https: //
github.com/simonorozcoarias/ML_DL_microArrays/blob/master/data11tumors2.csv ).
Este banco de dados consiste em 174 amostras com 12.533 microarrays de expressão gênica para 11
diferentes tipos de câncer. Os 12.533 microarrays de expressão genética são inteiros com
valores positivos e negativos; esses valores representam as características que permitem a
Algoritmos de ML e DL para aprender a classificar por tipo de câncer. Os tipos de câncer e o
número de pacientes para cada tipo são mostrados na Tabela 1. As classes de cada tipo de câncer são
desequilibrado e assim permaneceu na experimentação.
Preparando os dados
Para os experimentos, dividimos as informações em dois grupos; o primeiro grupo
corresponde às características (X) e o segundo grupo às classes (Y). As características
compõem uma matriz de tamanho m × n e as classes são um vetor de tamanho n × 1, onde m é o
número de amostras e n é o número de genes para cada classe (12533). O conjunto de dados,
contendo 174 amostras, é subdividido aleatoriamente em dois subconjuntos (80% de treinamento e 20%
validação), incluindo 139 amostras para treinamento e 35 amostras para validação. Inicial
a calibração dos algoritmos ML e DL (treinamento) foi feita usando o conjunto de treinamento; então,
o ajuste de hiperparâmetros foi realizado com o conjunto de validação e mediu o
precisão dos algoritmos. Calculamos a precisão de cada algoritmo usando
hiperparâmetros com validação cruzada k -fold ek = 10 para evitar sobreajuste.
O conjunto de dados usado neste artigo tem a maldição da dimensionalidade, pois o número de
características (12.533) é maior do que o número de amostras (174) ( Powell, 2007 ).
Portanto, os dados são dispersos e os resultados não são estatisticamente estáveis ou confiáveis,
afetando diretamente a precisão alcançada pelos algoritmos ML e DL. Dois pré-processamento
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
22/04

Página 5
técnicas foram utilizadas para resolver este problema: dimensionamento ( Géron, 2017 ) e principal
análise de componentes (PCA) (Wold, Esbensen & Geladi, 1987) A primeira técnica
garante que os dados estão em uma faixa de valores adequados para calibrar o modelo. Com o
segunda técnica, a significância estatística é melhorada e o ruído introduzido por
características irrelevantes durante o treinamento do modelo diminui. Neste artigo, trabalhamos com
várias combinações das técnicas de pré-processamento mencionadas acima para encontrar o melhor
desempenho.
Quatro conjuntos de dados diferentes foram criados para o treinamento e validação de cada ML ou DL
algoritmo. Para o primeiro conjunto de dados, não aplicamos nenhuma operação de pré-processamento; para o
em segundo lugar, realizamos um processo de dimensionamento; para o terceiro, aplicamos PCA com um retido
variância de 96% para reduzir a dimensionalidade dos dados, obtendo uma redução dimensional de
12.533 a 83 recursos. Por fim, para o último conjunto de dados, aplicamos escala e PCA,
obter uma redução dimensional de 12.533 para 113 recursos (componentes principais).
Experimentos de aprendizagem não supervisionados
O desempenho da classificação está altamente correlacionado com o grau de separabilidade de um conjunto de
dados;
portanto, analisamos o desempenho usando técnicas de agrupamento. Com base em rótulos de dados,
podemos obter uma visão a priori do algoritmo que funciona melhor na distribuição do
conjunto de dados de microarray de expressão gênica.
Antes de aplicar os algoritmos de classificação (aprendizagem supervisionada), realizamos um
análise hierárquica para entender melhor o conjunto de dados. Este agrupamento hierárquico usado
diferentes métricas de distância, como ala, média, única, completa, ponderada, centróide e
mediana. Além disso, como entrada, usamos um conjunto de dados sem pré-processamento. Essas métricas de
distância
servem para capturar as diferenças entre as amostras de dados e variam em sua capacidade de
lidar com grandes valores discrepantes (ou seja, entre métricas ponderadas, centróides e medianas) ou se eles
permitem escolher o número de clusters a considerar (por exemplo, Ward) (Foss, Markatou & Ray,
2019 ). Após esse agrupamento, testamos todos os conjuntos de dados criados na etapa anterior
para determinar a melhor metodologia de pré-processamento. Finalmente, um dendrograma e um mapa de calor
Tabela 1 Cancro Tipo de classi fi cação no banco de dados 11_tumor.
Classe
Tipo de câncer
Número de pacientes
0
Ovário
27
1
Bexiga / Ureter
8
2
Seio
26
3
Colorretal
23
4
Gastroesôfago
12
5
Rim
11
6
Fígado
7
7
Próstata
26
8
Pâncreas
6
9
Adenocarcinoma
14
10
Carcinoma de células escamosas de pulmão
14
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
22/05

Página 6
foram usados para ilustrar o atributo separabilidade de nosso conjunto de dados. Além disso, realizamos um
análise de agrupamento usando o algoritmo K -means com k valores de um a onze clusters usando
todos os conjuntos de dados. Traçamos o comportamento em termos de precisão e como uma matriz de confusão.
Aprendizagem supervisionada
Avaliamos o desempenho de algoritmos de classificação de ML bem conhecidos, incluindo
KNN, SVC, LR, LDA, NB, MLP, RF e DT. Posteriormente, avaliamos as arquiteturas DL,
como redes neurais totalmente conectadas (FNNs) e redes neurais convolucionais
(CNNs).
Arquitetura de rede neural
Dois tipos de redes foram usados para DL; o primeiro é uma rede neural totalmente conectada e
a segunda é uma rede neural convolucional. O FNN consiste em três totalmente conectados
camadas de 100 neurônios cada e a função de ativação do Softsign; então, uma camada final de
11 neurônios são gerados com a função de ativação sigmóide para gerar a probabilidade de
o tipo de câncer. O CNN consiste em três camadas convolucionais com 128 filtros cada,
com um tamanho de kernel de 3 e uma função de ativação linear; seguido por uma camada de 100 totalmente
neurônios conectados com a função de ativação Softsign e, finalmente, uma camada de 11 neurônios
com a função de ativação do Softmax para gerar a probabilidade do tipo de câncer.
A Figura 1 mostra as arquiteturas usadas para o experimento, em que o esquema superior é um
FNN e o esquema inferior é um CNN.
Ajustando os algoritmos
Vários algoritmos foram testados variando ou ajustando os valores dos parâmetros para encontrar o melhor
desempenho (mesa 2) Com esses resultados, traçamos os valores de precisão usando todos os conjuntos de dados
criadas nos processos de treinamento e validação e também criadas matrizes de confusão.
Finalmente, fizemos uma validação cruzada de cada algoritmo para encontrar a precisão que era menor
afetados pelo viés. Além disso, em FNNs e CNNs, realizamos uma pesquisa de hiperparâmetros
com um método de pesquisa em grade (GridSearchCV) do módulo sklearn, considerando o
variáveis mostradas na Tabela 3 . Devido ao grande número de parâmetros, o processo de ajuste
FNNs e CNNs envolveram escolher os valores dos parâmetros que alcançaram a melhor precisão
e, então, usar esses valores para encontrar outros. O processo de encontrar o melhor parâmetro
os valores são apresentados da seguinte forma: (1) tamanho do lote e épocas (2) otimização do treinamento
Dados de entrada
(174x113)
Denso
100 neurônios
Softsign
Denso
100 neurônios
Softsign
Denso
100 neurônios
Softsign
Denso
11 neurônios
Sigmóide
Classe
probabilidades
tipo de
Câncer
FNN
CNN
Dados de entrada
(174x113)
Conv 1D
Filtros = 128
Tamanho do kernel = 3
Linear
Conv 1D
Filtros = 128
Tamanho do kernel = 3
Linear
MaxPooling
(1)
Conv 1D
Filtros = 128
Tamanho do kernel = 3
Linear
Flatten
Denso
100 neurônios
Softsing
Denso
11 neurônios
Softmax

A Figura 1 Arti fi cial neurais arquiteturas de rede usados para classi cancro fi catião.
Tamanho real

DOI: 10.7717 / peerj-cs.270 / fig-1
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
22/06

Página 7
algoritmo (3) taxa de aprendizagem e momentum (4) inicialização do peso da rede (5) neurônio
função de ativação (6) regularização de dropout e (7) número de neurônios no oculto
camadas.
Testes de significância
Realizamos um teste de diferença em proporções para determinar se a diferença
entre as precisões dos algoritmos é significativo. Calculamos as diferenças entre
as precisões observadas e esperadas com base no pressuposto de uma distribuição normal.
Dado o número de previsões de teste corretas x e o número de instâncias de teste N ,
a precisão é definida da seguinte forma:
Acc i ¼
x
N
H 0 : Acc i À Acc j ¼ 0
H 1 : Acc i À Acc j 6¼ 0
Este teste permitiu determinar se a precisão do algoritmo muda significativamente
após o processo de ajuste e também se houver diferenças significativas entre os dois
algoritmos com as maiores precisões médias. Com base nisso, avaliamos se o
o ajuste dos parâmetros dos algoritmos era necessário ou se o algoritmo de ML usado era mais
relevante.
Tabela 2 Parâmetros do algoritmo testado.
Parâmetro de Algoritmo
Alcance
Degrau
Descrição
KNN
n_neighbors
1-99
1
Número de vizinhos
SVC
C, gama
C: 10–100, gama: 1e − 9 a 1e − 4
C: 10, gama: 10
Parâmetro de penalidade C do e
termo rror. Gamma é o grátis
parâmetro do radial gaussiano
função de base
LG
C
0,1-1
0,1
Inverso da força de regularização
LDA
N/D
N/D
N/D
N/D
NB
N/D
N/D
N/D
N/D
MLP
solver = 'lbfgs', alfa = 0,5,
hidden_layer_sizes
50-1.050
50
Número de neurônios em camadas ocultas.
Neste estudo, usamos o solver lbfgs
e alfa 0,5
RF
n_estimators, max_depth,
min_samples_split,
max_features
n_estimators: 1–91, max_depth: 1–91,
min_samples_split: 10–100,
max_features: 10–90
10 para todos os parâmetros N / A
DT
profundidade máxima,
min_samples_split,
max_features
max_depth: 1–91,
min_samples_split: 10–100,
max_features: 10–90
10 para todos os parâmetros N / A
K significa
n_clusters, random_state = 0 1-17
1
Número de clusters. neste estudo
usamos estado aleatório igual a zero
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
22/07
Página 8
Ferramentas
Os algoritmos foram executados usando a linguagem de programação Python e bibliotecas scikit-learn
( Pedregosa et al., 2011 ), que são explicados em Komer, Bergstra & Eliasmith (2014) para ML
algoritmos. As transformações e escalonamento de PCA foram executados com a decomposição
e módulos de pré-processamento do scikit-learn. Além disso, DNNs foram implementados usando Keras
( Chollet, 2015 ). Todas as imagens foram criadas com matplotlib ( Hunter, 2007 ). O significado
os testes foram realizados usando o software R ( Material Suplementar 1) Os algoritmos usados
aqui estão disponíveis em https://github.com/simonorozcoarias/ML_DL_microArrays.
RESULTADOS
Análise hierárquica
Antes de avaliar os algoritmos de classificação, visualizamos os agrupamentos intrínsecos no
dados e determinou como esses grupos são influenciados pelos diferentes pré-processamento
metodologias aplicadas aos nossos dados ( Fig. 2 ). Usando os dados brutos baixados, criamos um
gráfico hierárquico (aprendizagem não supervisionada) usando diferentes metodologias ( Fig. S1 ) e
Tabela 3 Parâmetros ajustados em DNNs.
Parâmetro
Valores
Descrição
Tamanho do batch
10, 20, 30, 40, 50, 60, 70, 80, 90, 100
Número de exemplos de treinamento utilizados
em uma iteração
Épocas
10, 50, 100, 200
Número de vezes que a aprendizagem
algoritmo funcionará através do
todo o treinamento
Algoritmo de otimização de treinamento
SGD, RMSprop, Adagrad, Adadelta, Adam,
Adamax, Nadam
Ferramentas que atualizam os parâmetros do modelo
e minimizar o valor da perda
função, conforme avaliado no
conjunto de treinamento
Taxa de Aprendizagem
0,001, 0,01, 0,1, 0,2, 0,3
Hiperparâmetro que controla como
quanto os pesos estão sendo ajustados
com respeito ao gradiente de perda
Momentum
0,0, 0,2, 0,4, 0,6, 0,8, 0,9
Valor entre 0 e 1 que aumenta
o tamanho dos passos dados para
o mínimo tentando pular
de um mínimo local
Inicialização de peso de rede
uniforme, lecun_uniform, normal, zero, glorot_normal,
glorot_uniform, he_normal, he_uniform
Inicialização de pesos em ocultos
camadas da rede
Função de ativação do neurônio
softmax, softplus, softsign, relu, tanh, sigmóide,
hard_sigmoid, linear
Como a saída do neurônio é ativada
com base em suas entradas
Regularização de abandono
0,0, 0,1, 0,2, 0,3, 0,4, 0,5, 0,6, 0,7, 0,8, 0,9
Processo de desistência aleatória
nós durante o treinamento
Restrição de peso
1, 2, 3, 4, 5
Valor que introduz uma penalidade para o
função de perda ao treinar um sistema neural
rede para encorajar a rede a
use pesos pequenos
Número de neurônios nas camadas ocultas
1, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100
Quantidade de neurônios que compõem
cada camada oculta da rede
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
22/08

Página 9
concluiu que o método de Ward produziu os clusters mais equilibrados (Fig. 3) Então, usando
apenas o método de Ward, realizamos análises adicionais usando diferentes conjuntos de dados, incluindo
dados brutos, dados escalados, dados transformados pelo PCA e dados escalados e transformados por
PCA. Finalmente, criamos um dendrograma e um mapa de calor para descobrir se os dados podem ser
agrupados em grupos sem qualquer classe com os melhores resultados. A Figura 4 mostra quatro
grupos bem separados, mas o mapa de calor demonstrou outros grupos bem conservados, que
pode indicar que os quatro clusters principais podem ser divididos em subgrupos.
O método de Ward criou quatro grupos, enquanto os outros métodos agruparam os indivíduos
em menos grupos e, na maioria dos casos, esses grupos são amplamente desequilibrados. No outro
Por outro lado, os dados brutos e os dados transformados pelo PCA tiveram um melhor desempenho na hierarquia
análise de agrupamento. Empregando esses conjuntos de dados, conseguimos obter quatro e cinco clusters,
respectivamente. Finalmente, os mapas de calor plotados na Fig. 4 mostraram um grupo muito distante
dos outros (verde na Fig. 4A e azul claro na Fig. 4B ). Por outro lado, o outro
Figura 2 Mapas hierárquicos usando Ward como método de agrupamento e (A) dados brutos (B) dados escalados, (C) dados reduzidos
por PCA e (D) dados
dimensionado e reduzido pelo PCA. Devido ao grande número de características do conjunto de dados, é recomendado que você transforme o
conjunto de dados para usar
apenas as variáveis mais relevantes e informativas, que é chamada de etapa de pré-processamento.
Tamanho real

DOI: 10.7717 / peerj-cs.270 / fig-2
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
22/09

Página 10
os clusters apresentaram baixas distâncias intra-cluster, o que é uma característica ideal na classificação
problemas (azul claro na Fig. 4A e verde na Fig. 4B)
Com base no conhecimento a priori de que o número de tipos de câncer é onze (11), estávamos
interessado em determinar como o algoritmo de clustering hierárquico criou o cluster
atribuições. Portanto, aplicamos os melhores parâmetros encontrados anteriormente (clustering
Figura 3 hierárquica mapeia usando Ward ' método s como o critério para a escolha do par de conjuntos de intercalação em cada passo.
Este mapa hierárquico
foi gerado por dados sem transformação e exclusão de seus rótulos. As abordagens de agrupamento demonstram se os dados contêm
padrões de agrupamento.
Tamanho real

DOI: 10.7717 / peerj-cs.270 / fig-3
UMA
B

Figura 4 Análise hierárquica e de mapa de calor utilizando (A) dados brutos e (B) dados processados por PCA.
Esses mapas de calor mostram quão semelhantes (perto de zero) ou diferentes (cerca de 200.000) os indivíduos nos aglomerados
está. Um cluster é interessante quando seus membros são muito semelhantes e muito diferentes dos indivíduos em
outros grupos.
Tamanho real

DOI: 10.7717 / peerj-cs.270 / fig-4
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
22/10

Página 11
método: ala e entrada: dados brutos e dados reduzidos pelo PCA). Os resultados mostrados na Fig. 5
e as Tabelas 4 e 5 demonstram que, embora o algoritmo de agrupamento hierárquico
exibe um bom desempenho, não agrupa os dados no número correto de grupos.
Outra avaliação de aprendizagem não supervisionada envolveu a implementação do
Algoritmo K significa. Usamos todos os conjuntos de dados e alteramos o número de clusters de forma iterativa
Figura 5 Composição de clusters usando (A) dados brutos e (B) dados processados pelo PCA. Clustering era
executado usando Ward como o algoritmo de distância. O rótulo corresponde ao número do cluster previsto por
o algoritmo e pode não corresponder aos rótulos da Tabela 1. Tamanho real

DOI: 10.7717 / peerj-cs.270 / fig-5
Tabela 4 Composição do cluster e número original de indivíduos de cada classe de câncer.
Classe
Numero original
Clustering usando
dados não tratados
Clustering usando dados
processado por PCA
0
27
47
47
1
8
29
28
2
26
16
39
3
23
4
4
4
12
31
25
5
11
25
10
6
7
6
6
7
26
1
1
8
6
4
4
9
14
2
1
10
14
9
9
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
22/11

Página 12
de um para onze, aumentando em um cluster de cada vez. Então, calculamos a precisão em
cada iteração e uma matriz de confusão foram plotadas com os melhores resultados ( Fig. 6 ).
Além disso, calculamos outras métricas, como precisão, recall e pontuação f1 para cada
classe. No geral, os melhores resultados foram obtidos por meio de K usando 11 clusters com dados de entrada
processado por PCA, alcançando uma precisão de 68,34% (conjunto de validação, usando o hold-out
método de divisão). Além disso, as classes 6, 7 e 9 mostraram precisões de 100% e a classe 5 de 91%
( Tabela 5 ).
Tabela 5 Métricas obtidas por K- médias para cada tipo de câncer.
Classe
Precisão
Recall
Pontuação F1
0
0,74
0,68
0,71
1
0
0
0
2
0,45
0.9
0,6
3
0,68
1
0,81
4
0
0
0
5
0,91
1
0,95
6
1
0,4
0,57
7
1
0,95
0,98
8
0
0
0
9
1
0,11
0,2
10
0,53
0,89
0,67

B
UMA
Figura 6 (A) Comportamento de Precisão em termos de número de clusters e (B) matriz de confusão com melhores resultados (clusters =
11) usando K- médias
algoritmo. Os resultados mostrados em (A) são a precisão usando o conjunto de dados de validação que corresponde a 20% de todos os dados.
Tamanho real

DOI: 10.7717 / peerj-cs.270 / fig-6
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
22/12

Página 13
Ajuste de algoritmo
Os algoritmos foram ajustados definindo vários parâmetros entre um determinado intervalo de valores
( Tabela 2) para encontrar o melhor comportamento usando todos os conjuntos de dados. Com isso, pretendemos
calcular
os melhores hiperparâmetros para cada algoritmo e determinar qual conjunto de dados pode ser o
mais apropriado. Os resultados das maiores precisões de validação são mostrados na Tabela 6 .
Para avaliar overfitting ou underfitting, plotamos os valores de precisão do treinamento e
processos de validação em todos os conjuntos de dados descritos acima (Fig. 7) RF e DT não foram plotados
já que mais de um hiperparâmetro foi ajustado. Os melhores resultados foram obtidos usando
LG e dados brutos. Também calculamos uma matriz de confusão para esses resultados, achando muito bom
taxas de classificação (Fig. 8)
Validação cruzada
KNN, SVC, LG, MLP, K-MEANS, LDA, NB, RF e DT foram treinados e validados
com a mesma fração de dados e cada experimento foi repetido 10 vezes para obter o
desvios padrão usando a função de validação cruzada do sklearn com k = 10 (Komer,
Bergstra e Eliasmith, 2014) Usamos todo o conjunto de dados (174) para este procedimento. o
os resultados de precisão e desvio padrão são mostrados na Tabela 7 .
Redes neurais profundas
O método de pesquisa em grade mostrou os valores de hiperparâmetros que forneceram o melhor
precisão nas arquiteturas FNN e CNN (Tabela 8 ). As Figuras 9 e 10 mostram o treinamento
resultados de ambas as arquiteturas, demonstrando como a função de perda diminui quando
a maioria das épocas são usadas até que um número específico de épocas seja alcançado (80 para FNN e 8 para
CNN). Da mesma forma, a precisão aumenta nos dados de treinamento e validação até
atingindo o mesmo número de épocas mencionadas para a função perda. Depois deste numero
de épocas, nenhuma mudança significativa foi observada para os valores de perda e precisão. Usando
estes parâmetros e validação cruzada com k = 10, FNN e CNN alcançaram precisões de
91,43% e 94,43%, respectivamente.
Testes de significância
Realizamos um teste de diferenças significativas, com um nível de confiança de 95%, entre os
dois algoritmos de ML de melhor desempenho (LG e CNN). Assim, não encontramos nenhuma
diferenças entre as precisões desses dois algoritmos ( p- valor = 0,447).
DISCUSSÃO
Neste trabalho, mostramos a aplicação de abordagens de aprendizagem supervisionada e não supervisionada
de ML e DL para a classificação de 11 tipos de câncer com base em um conjunto de dados de microarray.
Observamos que os melhores resultados médios usando os dados de treinamento e validação são
obtido usando o conjunto de dados bruto e o algoritmo LR, produzindo um valor de precisão de
100% (conjunto de validação, usando o método de divisão de hold-out). Pode-se supor que existe
overfitting visto que a matriz de confusão apresentou um comportamento extremamente bom; No entanto, o
comparação das precisões de treinamento e validação entre os parâmetros usando todo o
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
13/22

Página 14
Tabela 6 Hiperparâmetros de ajuste dos melhores resultados dos algoritmos testados.
Algoritmo
Condições no conjunto de dados
Parâmetros de ajuste
% Precisão
Resultados nos dados de validação (o melhor resultado)
Vizinhos mais próximos
Qualquer
Vizinhos = 1
88,57
Dimensionamento
Vizinhos: 1
71,43
PCA
Vizinhos: 1
82,86
Dimensionamento + PCA
Vizinhos: 4
48,57
Classificador de vetores de suporte
Qualquer
C = 10
8,57
Dimensionamento
C = 70
94,29
PCA
C = 10
8,57
Dimensionamento + PCA
C = 40
91,43
Regressão logística
Qualquer
C = 0,1
100,00
Dimensionamento
C = 0,1
97,14
PCA
C = 0,1
94,29
Dimensionamento + PCA
C = 0,1
94,29
Análise discriminante linear
Qualquer
Padrão
91,43
Dimensionamento
Padrão
91,43
PCA
Padrão
97,14
Dimensionamento + PCA
Padrão
82,86
Gaussian NB
Qualquer
Padrão
85,71
Dimensionamento
Padrão
85,71
PCA
Padrão
80,00
Dimensionamento + PCA
Padrão
71,43
Floresta aleatória
Qualquer
n_estimators = 81, max_depth = 91, min_samples_split = 10,
max_features = 50
97,14
Dimensionamento
n_estimators = 91, max_depth = 81, min_samples_split = 10,
max_features = 60
97,14
PCA
n_estimators = 91, max_depth = 21, min_samples_split = 10,
max_features = 30
94,28
Dimensionamento + PCA
n_estimators = 61, max_depth = 11, min_samples_split = 10,
max_features = 20
85,71
Árvore de decisão
Qualquer
max_depth = 71, min_samples_split = 10, max_features = 40
68,57
Dimensionamento
max_depth = 51, min_samples_split = 10, max_features = 60
68,57
PCA
max_depth = 81, min_samples_split = 10, max_features = 30
82,85
Dimensionamento + PCA
max_depth = 51, min_samples_split = 20, max_features = 60
74,28
Perceptron multicamadas
Qualquer
Neurônios = 800
85,71
Dimensionamento
Neurônios = 50
91,43
PCA
Neurônios = 300
97,14
Dimensionamento + PCA
Neurônios = 50
91,43
K significa
Qualquer
Clusters = 16
76,97
Dimensionamento
Clusters = 14
68,34
PCA
Clusters = 16
73,38
Dimensionamento + PCA
Clusters = 11
58,99
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
14/22

Página 15
B
UMA
D
C
E
Figura 7 Comparação da precisão de treinamento e validação entre os parâmetros usando todos os conjuntos de dados e (A) KNN, (B)
SVC, (C) LG, (D) MLP e
(E) K- significa. O algoritmo não está presente nesta figura; ele aparece na Tabela 6 como padrão na coluna “Parâmetros de ajuste”.
Tamanho real

DOI: 10.7717 / peerj-cs.270 / fig-7
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
15/22

Página 16
conjunto de dados pode indicar precisão perfeita em conjuntos de dados de treinamento e validação.
Testes adicionais com dados independentes devem ser feitos para descartar o potencial sobreajuste.
Por outro lado, MLP e LDA mostraram um valor de alta precisão de 97,14% no
conjunto de dados de validação. Esta melhoria na precisão foi obtida através da otimização de vários
parâmetros (número de neurônios em MLP) e pré-processamento do conjunto de dados com PCA.
Depois de sintonizar quatro parâmetros, RF obteve resultados elevados, com uma precisão máxima de
85,71%. Em contraste, o DT obteve 51,14% de precisão, demonstrando que o DT não
funcionam corretamente para os conjuntos de dados usados neste estudo, apesar de ajustar vários parâmetros (em
nosso
caso, três).
Figura 8 Matriz de confusão dos resultados do algoritmo LG.
Tamanho real

DOI: 10.7717 / peerj-cs.270 / fig-8
Tabela 7 Validação cruzada de KNN, SVC, LG, MLP, K-Means, LDA, NB, RF e DT antes e depois do processo de ajuste.
Algoritmo
Antes de afinar
Depois de afinar
Signi fi ca diferença
% precisão
Desvio padrão
% precisão
Desvio padrão
Resultados da validação cruzada (10 divisões)
KNN
78,3
12,71
82,03
10,19
NÃO
SVC
10,82
6,65
81,98
13,7
SIM
Regressão logística
90,6
7,93
90,6
5,94
NÃO
Perceptron multicamadas
79,89
20,62
83,40
13,64
NÃO
K significa
10,16
9,36
68,34
9,26
SIM
Análise discriminante linear
83,4
11,62
N/D
N/D
N/D
Gaussian NB
84,12
12,78
N/D
N/D
N/D
Floresta aleatória
66,75
13,79
72,69
15,85
NÃO
Árvore de decisão
69,78
14,9
66,04
15,45
NÃO
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
16/22
Página 17
Nossos resultados demonstram que os vários algoritmos funcionam melhor por pré-processamento do
conjuntos de dados de forma diferente. Nossos resultados mostram que MLP, DT e LDA melhoraram no
desempenho se
O PCA foi aplicado antecipadamente. No entanto, LG, KNN, NB, RF e K significam que funcionaram melhor
usando nenhum pré-processamento. Apenas o SVC melhorou ao usar o dimensionamento e, curiosamente, nenhum
dos outros algoritmos mostraram melhores resultados usando escala e PCA nos conjuntos de dados.
O ajuste de parâmetro pode melhorar a precisão do algoritmo usado ( Tabela 7) Para
exemplo, o SVC obteve uma baixa precisão de 10,82% antes do pré-processamento, mas aumentou para
81,98% após o ajuste. Embora a maioria dos algoritmos tenham melhorado suas precisões após o
processo de ajuste, apenas dois deles (SVC e K- média) apresentaram alterações significativas.
Concluímos que LG é o melhor algoritmo de ML para o conjunto de dados de teste neste estudo, fornecendo
Figura 9 Resultados obtidos pela arquitetura FNN em treinamento usando 100 épocas. (A) Valor perdido e
(B) Precisão. Função perdida e precisão são plotadas em conjuntos de dados de treinamento e validação, a fim de
observar o comportamento. Quando ambos os conjuntos de dados mostram resultados muito distantes, a arquitetura pode estar
superdimensionada.
Tamanho real

DOI: 10.7717 / peerj-cs.270 / fig-9
Tabela 8 Melhor valor de hiperparâmetros ajustados em redes neurais profundas.
Parâmetro
Melhor valor
FNN
CNN
Tamanho do batch
20
10
Épocas
100
10
Algoritmo de otimização de treinamento
Adagrad
SGD
Taxa de aprendizagem
0,2
0,1
Momentum
0
0
Inicialização de peso de rede
Normal
Glorot_normal
Função de ativação do neurônio
Softsign
Linear
Restrição de peso
3
1
Regularização de abandono
0
0,4
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
17/22

Página 18
uma precisão de 90,6% com uma variação padrão de 5,94 da análise de validação cruzada
com base em dez vezes. No entanto, recomendamos usá-lo com moderação. No outro
Por outro lado, para arquiteturas DL, CNN obteve a melhor precisão com 94,43% (Fig. 10 ). o
A técnica de pesquisa de grade permitiu o ajuste de parâmetros e melhorou os resultados, permitindo-nos
propor novas arquiteturas DNN (ou seja, as arquiteturas mostradas na Fig. 1 ). Finalmente, encontramos
nenhuma diferença significativa entre as acurácias obtidas por LG e CNN.
CONCLUSÕES
Prevê-se que o câncer se torne a doença mais mortal para os humanos no futuro ( Dagenais
et al., 2019); portanto, o diagnóstico precoce, a identificação e o tratamento são necessários para controlar
a doença. As técnicas de ML e DL são ferramentas promissoras para a classificação do câncer
tipos usando conjuntos de dados complexos, como microarrays. Neste estudo, obtivemos previsões
com precisões de até 93,52% e 94,46%, o que permitirá que os pacientes com estes
tipos de patologias para receber uma detecção precoce e precisa de sua doença, e
também contribuem para a descoberta de novos fármacos seletivos para o tratamento desses tipos
de tumores.
INFORMAÇÕES ADICIONAIS E DECLARAÇÕES
Financiamento
Simon Orozco-Arias é apoiado por um Ph.D. concessão do Ministerio de Ciencia, Tecnología
e Innovación de Colombia (Minciencias), Convocatoria 785/2017 e Universidad
Autónoma de Manizales, Manizales, Colômbia apoiou e cobriu as taxas de publicação
sob o projeto 589-089. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta de dados e
análise, decisão de publicar ou preparação do manuscrito.
B
UMA
Figura 10 Resultados obtidos pela arquitetura CNN em treinamento usando 10 épocas. (A) Valor perdido e
(B) Precisão. Função perdida e precisão são plotadas em conjuntos de dados de treinamento e validação, a fim de
observar o comportamento. Quando ambos os conjuntos de dados mostram resultados muito distantes, a arquitetura pode estar
superdimensionada.
Tamanho real

DOI: 10.7717 / peerj-cs.270 / fig-10
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
18/22

Página 19
Divulgações de concessão
As seguintes informações da concessão foram divulgadas pelos autores:
Ministerio de Ciencia, Tecnología e Innovación de Colombia (Minciencias), Convocatoria:
785/2017.
Universidad Autónoma de Manizales, Manizales, Colômbia: 589-089.
Interesses competitivos
Os autores declaram não ter interesses conflitantes.
Contribuições do autor
Reinel Tabares-Soto concebeu e projetou os experimentos, realizou o
experimentos, realizado o trabalho de computação, figuras e / ou tabelas preparadas, autoria
ou revisou os rascunhos do artigo e aprovou o rascunho final.
Simon Orozco-Arias concebeu e projetou os experimentos, realizou o
experimentos, realizado o trabalho de computação, figuras e / ou tabelas preparadas, autoria
ou revisou os rascunhos do artigo e aprovou o rascunho final.
Victor Romero-Cano concebeu e projetou os experimentos, analisou os dados,
preparou figuras e / ou tabelas, criou ou revisou rascunhos do artigo e aprovou
o esboço final.
Vanesa Segovia Bucheli analisou os dados, foi autora ou revisou rascunhos do artigo e
aprovou o esboço final.
José Luis Rodríguez-Sotelo analisou os dados, foi autor ou revisou as minutas do artigo,
e aprovou a versão final.
Cristian Felipe Jiménez-Varón analisou os dados, executou o trabalho de computação,
preparou figuras e / ou tabelas, criou ou revisou rascunhos do artigo e aprovou
o esboço final.
Disponibilidade de dados
As seguintes informações foram fornecidas sobre a disponibilidade de dados:
Os dados estão disponíveis no GitHub: https://github.com/simonorozcoarias/ML_DL_
microArrays.
Informação complementar
Informações suplementares para este artigo podem ser encontradas online em http://dx.doi.org/10.7717/
peerj-cs.270 # Supplemental-information .
REFERÊNCIAS
Alanni R, Hou J, Azzawi H, Xiang Y. 2019. Um novo algoritmo de seleção de genes para câncer
classificação usando conjuntos de dados de microarray. BMC Medical Genomics 12 (1) : 10
DOI 10.1186 / s12920-018-0447-6.
Araújo D, Neto AD, Martins A, Melo J. 2011. Estudo comparativo sobre redução dimensional
técnicas para análise de cluster de dados de microarray. In: A Conferência Internacional Conjunta de 2011 sobre
Neural Networks , 31 de julho - 5 de agosto, San Jose, CA, EUA. 1835–1842.
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
19/22

Página 20
Bengio Y, Courville A, Vincent P. 2013. Aprendizagem de representação: uma revisão e novas perspectivas.
IEEE Transactions on Pattern Analysis and Machine Intelligence 35 (8) : 1798-1828
DOI 10.1109 / TPAMI.2013.50.
Bolón-Canedo V, Sánchez-Marono N, Alonso-Betanzos A, Benítez JM, Herrera F. 2014.
Uma revisão de conjuntos de dados de microarray e métodos de seleção de recursos aplicados. Ciências da Informação
282 : 111–135 DOI 10.1016 / j.ins.2014.05.042.
Ceballos D, López-Álvarez D, Isaza G, Tabares-Soto R, Orozco-Arias S, Ferrin C. 2019.
Um pipeline baseado em aprendizado de máquina para a classificação de CTX-M em amostras metagenômicas.
Processos 7 (4) : 235 DOI 10.3390 / pr7040235.
Chen Y, Li Y, Narayan R, Subramanian A, Xie X. 2016. Inferência de expressão gênica com profundidade
Aprendendo. Bioinformática 32 (12) : 1832–1839DOI 10.1093 / bioinformática / btw074 .
Chollet F. 2007. Aprendizagem profunda com python . Ilha do Abrigo: Manning.
Chollet F. 2015. Keras, GitHub. Disponível em https://github.com/fchollet/keras .
Dagenais GR, Leong DP, Rangarajan S, Lanas F, Lopez-Jaramillo P, Gupta R, Diaz R,
Avezum A, Oliveira GBF, Wielgosz A, Parambath SR, Mony P, Alhabib KF, Temizhan A,
Ismail N, Chifamba J, Yeates K, Khatib R, Rahman O, Zatonska K, Kazmi K, Wei L, Zhu J,
Rosengren A, Vijayakumar K, Kaur M, Mohan V, Yusufali AH, Kelishadi R, Teo KK,
Joseph P, Yusuf S. 2019. Variações em doenças comuns, internações hospitalares e mortes em
adultos de meia-idade em 21 países de cinco continentes (PURE): um estudo de coorte prospectivo.
Lancet 395 (10226) : 785-794DOI 10.1016 / S0140-6736 (19) 32007-0 .
Eraslan G, Avsec Ž , Gagneur J, Theis FJ. 2019. Aprendizado profundo: nova modelagem computacional
técnicas para genômica. Nature Reviews Genetics 20 (7) : 389-403
DOI 10.1038 / s41576-019-0122-6.
Fakoor R, Ladhak F, Nazi A, Huber M. 2013. Usando aprendizagem profunda para melhorar o diagnóstico de câncer
e classificação em Transforming Healthcare. In: Proceedings of the ICML Workshop on the
Papel do aprendizado de máquina na transformação da saúde . Atlanta: JMLR.
Foss AH, Markatou M, Ray B. 2019. Métricas de distância e métodos de agrupamento para dados de tipo misto.
International Statistical Review 87 (1) : 80–109 DOI 10.1111 / insr.12274.
Géron A. 2017. Aprendizado de máquina prático com scikit-learn e tensor fl ow: conceitos, ferramentas e
técnicas para construir sistemas inteligentes . Newton: O'Reilly Media, Inc ..
Greller LD, Tobin FL. 1999. Detecção da expressão seletiva de genes e proteínas. Genoma
Research 9 : 282–296.
Guillen P, Ebalunode J. 2016. Classificação do câncer com base em dados de expressão gênica de microarray
usando aprendizado profundo. In: 2016 Conferência Internacional sobre Ciência da Computação e
Computational Intelligence Cancer , 15 - 17 de dezembro. Las Vegas, NV, EUA. 208–216.
Han D, Kim J. 2018. Clustering simultâneo unificado e seleção de recursos para não rotulado e
dados rotulados. Transações IEEE em Redes Neurais e Sistemas de Aprendizagem 29 (12) : 6083-6098
DOI 10.1109 / TNNLS.2018.2818444.
Hunter JD. 2007. Matplotlib: um ambiente gráfico 2D. Computação em ciência e engenharia
9 (3) : 90-95DOI 10.1109 / MCSE.2007.55 .
Komer B, Bergstra J, Eliasmith C. 2014. Hyperopt-sklearn: hiperparâmetro automático
configuração do scikit-learn. In: Proceedings of the 13th Python in Science Conference (SCIPY
2014). 33–39.
Li J, Liu R, Zhang M, Li Y. 2017. Algoritmos de agrupamento multi-objetivo baseados em conjunto para genes
conjuntos de dados de expressão. In: 2017 Congresso IEEE em Computação Evolucionária (CEC) , 5 - 8 de junho de
San Sebastian, Espanha. 333–340.
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
20/22

Página 21
Liu J, Cai W, Shao X. 2011. Classificação do câncer com base em dados de expressão de genes de microarray usando um
método de acumulação do componente principal. Science China Chemistry 54 (5) : 802–811
DOI 10.1007 / s11426-011-4263-5.
Liu S, Zhang J, Xiang Y, Zhou W, Xiang D. 2019. Um estudo de técnicas de pré-processamento de dados para
classificação desequilibrada de dados biomédicos. Disponível em http://arxiv.org/abs/1911.00996 .
Michie ED, Spiegelhalter DJ, Taylor CC. 1994. Aprendizado de máquina, neural e estatístico
classificação. Technometrics 37 (4) : 459DOI 10.2307 / 1269742.
Min S, Lee B, Yoon S. 2016. Aprendizado profundo em bioinformática. Brie fi ngs em Bioinformática
31 (3) : bbw068 DOI 10.1093 / bib / bbw068 .
Moosa JM, Shakur R, Kaykobad M, Rahman MS. 2016. Seleção de genes para classificação de câncer
com a ajuda de abelhas. BMC Medical Genomics 9 (S2) : 47 DOI 10.1186 / s12920-016-0204-7 .
Motieghader H, Naja fi A, Sadeghi B, Masoudi-Nejad A. 2017. Um algoritmo de seleção de gene híbrido
para classificação de câncer microarray usando algoritmo genético e autômatos de aprendizagem. Informática
in Medicine Unlocked 9 : 246-254DOI 10.1016 / j.imu.2017.10.004.
Orozco-Arias S, Isaza G, Guyot R. 2019. Retrotransposons em genomas de plantas: estrutura,
identificação e classificação por meio de bioinformática e aprendizado de máquina. Internacional
Journal of Molecular Sciences 20 (15) : 3837 DOI 10.3390 / ijms20153837.
Orozco-Arias S, Isaza G, Guyot R, Tabares-soto R. 2019a. Uma revisão sistemática do aplicativo
de aprendizagem de máquina na detecção e classificação de elementos transponíveis. Peerj
7 (10) : 1–29DOI 10.7717 / peerj.8311 .
Orozco-Arias S, Núñez-Rincón AM, Tabares-Soto R, López-Álvarez D. 2019b. No mundo todo
análise de co-ocorrência de 17 espécies do gênero Brachypodium usando mineração de dados. PeerJ 6 (1) :
e6193 DOI 10.7717 / peerj.6193.
Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, Blondel M,
Prettenhofer P, Weiss R, Dubourg V, Vanderplas J, Passos A, Cournapeau D, Brucher M,
Perrot M, Duchesnay E. 2011. Scikit-learn: machine learning in python. Journal of Machine
Learning Research 12 : 2825–2830.
Perera K, Chan J, Karunasekera S. 2018. Seleção de recursos para dados binários multiclasse. Dentro:
Paci fi c-Asia Conference on Descoberta de Conhecimento e Mineração de Dados Parte III , 3 - 6 de junho de Melbourne,
Austrália. Cham: Springer, 52-63.
Powell WB. 2007. Programação dinâmica aproximada: resolvendo as maldições da dimensionalidade .
Hoboken: John Wiley & Sons.
Sardana M, Agrawal RK. 2018. Um estudo comparativo de métodos de agrupamento para genes relevantes
seleção em dados de microarray. In: Wyld D, Zizka J, Nagamalai D, eds. Avanços no Computador
Ciência, Engenharia e Aplicações . Berlin: Springer, 789–797.
Sharma A, Imoto S, Miyano S. 2012. Um algoritmo de seleção de recursos top-r para gene microarray
dados de expressão. Transações IEEE / ACM em Biologia Computacional e Bioinformática (TCBB)
9 (3) : 754-764DOI 10.1109 / TCBB.2011.151.
Sirinukunwattana K, Savage RS, Bari MF, Snead DRJ, Rajpoot NM. 2013. Hierárquico bayesiano
agrupamento para estudar dados de expressão de genes de câncer com estatísticas desconhecidas. PLOS ONE
8 (10) : e75748DOI 10.1371 / journal.pone.0075748.
Statnikov A, Tsamardinos I, Dosbayev Y, Aliferis CF. 2005. GEMS: um sistema para automatizado
diagnóstico de câncer e descoberta de biomarcadores a partir de dados de expressão gênica de microarray. Internacional
Journal of Medical Informatics 74 (7 - 8) : 491–503 DOI 10.1016 / j.ijmedinf.2005.05.002.
Su AI, Welsh JB, Sapinoso LM, Kern SG, Dimitrov P, Lapp H, Schultz PG, Powell SM,
Moskaluk CA, Frierson HF, Hampton GM. 2001. Classificação molecular de humanos
carcinomas pelo uso de assinaturas de expressão gênica. Cancer Research 61 : 7388–7393.
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
21/22

Página 22
Tang Z, Steranka JP, Ma S, Grivainis M, Rodic N, Huang CRL, Shih IM, Wang TL, Boeke JD,
Fenyo D, Burns KH, Rodi ć N, Huang CRL, Shih IM, Wang TL, Boeke JD, Fenyö D,
Burns KH. 2017. Perfil de inserção de transposon humano: análise, visualização e
identificação de inserções somáticas de LINE-1 no câncer de ovário. Proceedings of the National
Academia de Ciências dos Estados Unidos da América 114 (5) : E733 – E740
DOI 10.1073 / pnas.1619797114.
Varadhachary GR. 2007. Carcinoma de origem primária desconhecida. Câncer gastrointestinal
Research: GCR 1 : 229–235.
Wang Y, Makedon FS, Ford JC, Pearlman J. 2005. HykGene: uma abordagem híbrida para selecionar
genes marcadores para classificação de fenótipo usando dados de expressão de genes de microarray. Bioinformática
21 (8) : 1530–1537DOI 10.1093 / bioinformática / bti192.
Wang S, Wei J. 2017. Seleção de recursos com base na medição da capacidade de classificar subproblemas.
Neurocomputação 224 : 155-165DOI 10.1016 / j.neucom.2016.10.062.
Wold S, Esbensen K, Geladi P. 1987. Análise de componente principal. Quimiometria e Inteligente
Laboratory Systems 2 (1 - 3) : 37–52 DOI 10.1016 / 0169-7439 (87) 80084-9 .
Yue T, Wang H. 2018. Aprendizado profundo para genômica: uma visão geral concisa. Disponível em
http://arxiv.org/abs/1802.00810.
Zou J, Huss M, Abid A, Mohammadi P, Torkamani A, Telenti A. 2018. Uma cartilha em profundidade
aprendizagem em genômica. Nature Genetics 51 (1) : 12–18 DOI 10.1038 / s41588-018-0295-5 .
Tabares-Soto et al. (2020), PeerJ Comput. Sci. , DOI 10.7717 / peerj-cs.270
22/22

Você também pode gostar