Você está na página 1de 15

Biomarcadores sanguíneos da doença de Alzheimer associados à neuroinflamação como alvos

terapêuticos para intervenção personalizada precoce

Sher Li Oh1,2 ,Meikun Zhou3 ,Eunice WM Queixo1 ,Gautami Amarnath1 , Chee Hoe Cheah
1 ,Kok Pin Ng1,4,5 , Nagaendran Kandiah 1 ,Eyleen LK Goh1 * eKeng-Hwee Chiam3 *

1 Lee Kong Chian School of Medicine, Nanyang Technological University, Cingapura, Cingapura

2 IGP-Neuroscience, Programa de Pós-Graduação Interdisciplinar, Universidade Tecnológica de


Nanyang, Cingapura, Cingapura

3 Instituto de Bioinformática, A * STAR, Cingapura, Cingapura

4 Departamento de Neurologia, Instituto Nacional de Neurociência, Cingapura, Cingapura

5 Duke-NUS Medical School, Cingapura, Cingapura

O diagnóstico definitivo da doença de Alzheimer (DA) sem a necessidade de confirmação


neuropatológica continua sendo um desafio na pesquisa da doença hoje, apesar dos esforços
para descobrir os fundamentos moleculares e biológicos do processo da doença. Além disso, o
potencial de intervenção terapêutica é limitado no início dos sintomas, fornecendo motivação
para estudar e tratar o comprometimento cognitivo leve (CCL) precursor da DA, o estágio
prodrômico da DA. Aplicando a classificação de aprendizado de máquina a dados
transcriptômicos de pacientes de controle MCI, AD e cognitivamente normais (CN),
identificamos genes diferencialmente expressos que servem como biomarcadores para a
caracterização e classificação de indivíduos em grupos MCI ou AD. Os modelos preditivos que
empregam esses genes biomarcadores exibiram bons desempenhos de classificação para CN,
MCI e AD, significativamente acima do acaso. As vias de sinalização PI3K-Akt, IL-17, JAK-STAT,
TNF e Ras também foram enriquecidas nesses genes biomarcadores, indicando seu potencial
diagnóstico e papéis fisiopatológicos em CCL e DA. Esses achados podem ajudar no
reconhecimento do risco de MCI e DA em ambientes clínicos, permitir o rastreamento da
progressão da doença ao longo do tempo em indivíduos como parte de uma abordagem
terapêutica e fornecer possíveis alvos de medicamentos personalizados para intervenção
precoce de MCI e DA.

Introdução

A Doença de Alzheimer (DA) é uma das doenças neurodegenerativas mais amplamente


estudadas e está associada à atrofia cerebral generalizada e ao declínio cognitivo. Caracteriza-
se clinicamente por déficits de memória e os pacientes desenvolvem sintomas
neuropsiquiátricos progressivos, como apatia, delírios e agitação ( 1 ). A Organização Mundial
da Saúde (OMS) estima que a DA seja a forma mais comum de demência e que seja a sétima
causa de morte em idosos em todo o mundo. A neuropatologia da DA está amplamente
associada ao acúmulo de placas beta-amilóide (Aβ) e emaranhados neurofibrilares no cérebro,
e o diagnóstico definitivo de DA só é possível pelo exame microscópico post-mortem dos
tecidos cerebrais ( 2 ).). Embora as alterações neuropatológicas estejam bem correlacionadas
com o declínio cognitivo na DA ( 3 ), permanece inviável examinar o tecido cerebral para o
diagnóstico da DA em contextos clínicos.
As abordagens diagnósticas para DA historicamente envolvem a interpretação de dados de
neuroimagem, testes neuropsicológicos e exames laboratoriais ( 4 ). Embora muito progresso
tenha sido feito no diagnóstico da DA, a metodologia do diagnóstico depende fortemente das
interpretações dos médicos dos resultados laboratoriais e testes neuropsicológicos para
detectar déficits cognitivos ( 5 ), com biomarcadores do líquido cefalorraquidiano, como a tau
fosforilada, apenas recentemente sendo incluídos como considerações para diagnóstico clínico
( 6). No entanto, a confiabilidade do diagnóstico de DA permanece variável devido a vários
fatores de confusão, como interpretação humana, idade e educação. Por exemplo, o Mini-
Exame do Estado Mental (MMSE) é amplamente utilizado por médicos para a triagem de
demência, administrando um questionário de 30 pontos para avaliar as habilidades de
orientação, memória, atenção, linguagem e compreensão de um sujeito. Embora o MEEM seja
uma forma rápida de avaliar o declínio cognitivo dos indivíduos, seu uso no monitoramento da
progressão da DA é limitado devido à sua baixa sensibilidade a condições intermediárias, como
comprometimento cognitivo leve (CCL) ( 7). A complexidade devido às diferentes variantes da
DA também exige que os médicos avaliem a condição de um sujeito confiando em uma
combinação de outros fatores não quantitativos para o diagnóstico, que podem incluir, mas
não se limitam a, o histórico médico dos pacientes, neuroimagem e entrevistar parentes dos
pacientes ( 8 ). Essa combinação complexa de fatores diagnósticos geralmente leva à
variabilidade no diagnóstico por diferentes médicos, portanto, uma abordagem diagnóstica
baseada em medidas quantitativas do processo biológico da DA será útil para fornecer uma
triagem da DA mais oportuna e precisa.

Avanços recentes na tecnologia de sequenciamento de genoma contribuíram para melhorar a


acessibilidade de grandes conjuntos de dados transcriptômicos, levando a maiores
oportunidades para identificar biomarcadores associados a doenças complexas e raras ( 9 ). A
quantificação de biomarcadores de perfis de expressão gênica pode ser uma possível
abordagem diagnóstica para DA que reduz a confiança na experiência dos médicos, reduzindo
assim o erro humano e eliminando a subjetividade no diagnóstico. Perfis de expressão gênica
de vários estudos descobriram padrões valiosos em pacientes com DA, ou seja, a presença de
Aβ e tau hiperfosforilada no cérebro ( 10 ). Infelizmente, tais abordagens ainda enfrentam a
limitação do uso de tecido cerebral a partir de biópsias, o que acarreta o risco de complicações
( 11), e pode não ser traduzível para todos os ambientes clínicos. Alternativamente, os perfis
de expressão gênica no sangue podem ser úteis na triagem de DA com redução significativa de
riscos e maior acessibilidade ao tecido. Dois conjuntos de dados de expressão de genes
sanguíneos em larga escala foram conduzidos nos últimos anos com o objetivo de detectar
biomarcadores para diagnóstico precoce de DA: a Iniciativa de Neuroimagem da Doença de
Alzheimer [ADNI; ( 12 )] e AddNeuroMed ( 13 , 14 )), que incluem indivíduos da América do
Norte e Europa, respectivamente Ambos os estudos incluem protocolos e modalidades de
dados semelhantes, ou seja, testes clínicos e cognitivos, transcriptômica do sangue e
neuroimagem, embora o ADNI inclua dados adicionais de imagens de tomografia por emissão
de pósitrons e de estudos genéticos no líquido cefalorraquidiano biomarcadores de DA ( 15 ).

Neste estudo, identificamos perfis de expressão gênica associados à inflamação, demência


vascular, MCI, DA, acidente vascular cerebral e outras doenças cerebrovasculares em uma
coorte de MCI e DA de Cingapura. O foco em um conjunto amplamente inflamatório de genes
decorre de trabalhos anteriores sugerindo que a neuroinflamação na DA está intimamente
ligada à neurodegeneração, cuja gravidade pode ser observada como alterações na
hiperintensidade da substância branca por meio de neuroimagem. Pretendemos, assim,
identificar potenciais biomarcadores que possam predizer alterações neuroinflamatórias antes
da neurodegeneração grave e irreversível na DA, ou mesmo no CCL, de modo a proporcionar
uma intervenção precoce. Nossas descobertas foram então validadas usando dados de
expressão gênica no sangue da ADNI.

No entanto, os estudos de expressão de genes no sangue são limitados por duas desvantagens
principais. Em primeiro lugar, os perfis de expressão gênica são geralmente difíceis de
interpretar devido aos dados serem altamente variáveis ( 16 ). Em segundo lugar, a grande
proporção de genes para uma pequena proporção de indivíduos cria um obstáculo estatístico
na busca de potenciais biomarcadores. Os avanços tecnológicos nos últimos anos forneceram
vários modelos supervisionados e não supervisionados para as aplicações na extração de
características de grandes conjuntos de dados de expressão ( 17 ). Modelos de aprendizado de
máquina supervisionados, como Random Forests (RF), são particularmente úteis em tais
aplicações devido à sua flexibilidade em estudos de classificação e regressão. A RF também
tem a vantagem de lidar com a natureza não linear dos perfis de expressão gênica (18 ). Neste
estudo, empregamos um pipeline de aprendizado de máquina em vários estágios para a
exploração da seleção de genes expressos diferencialmente (DEGs) em indivíduos com DA e
MCI. O pipeline de análise foi construído sobre Boruta, um método de aprendizado de
máquina estatisticamente orientado, que diferenciava os genes importantes do ruído após
iterações rigorosas de modelos de RF ( 19 ). Mostramos que as técnicas de aprendizado de
máquina podem ser úteis na descoberta de potenciais biomarcadores para detecção de AD e
MCI no grande conjunto de dados de expressões gênicas do sangue.

Materiais e métodos

Esta seção discute a metodologia usada para o processamento de conjuntos de dados, bem
como o pipeline de aprendizado de máquina usado para extrair os genes de interesse e
construir um modelo de classificação. A estrutura geral é ilustrada em um diagrama
simplificado conforme mostrado na Figura 1 .

Figura 1

www.frontiersin.org

FIGURA 1 . Uma ilustração da estrutura geral para estudar biomarcadores da expressão de


genes no sangue.

Assuntos de estudo e conjuntos de dados

Este estudo foi realizado em conjuntos de dados de expressão de genes sanguíneos que
consistem em um conjunto de amostras clínicas recrutadas na clínica de memória do Instituto
Nacional de Neurociências em Cingapura (NNI) e no conjunto de dados ADNI publicamente
disponível ( 12 ). A distribuição dos sujeitos de cada conjunto de dados é apresentada na
Tabela 1 .

Tabela 1

www.frontiersin.org

TABELA 1 . Pontuações de Demografia e Mini-Exame do Estado Mental (MMSE) de controles


cognitivamente normais (CN), comprometimento cognitivo leve (MCI) e doença de Alzheimer
(DA) nos conjuntos de dados da Iniciativa de Neuroimagem da Doença de Alzheimer (ADNI) e
do Instituto Nacional de Neurociência (NNI) .

Nesta investigação, o conjunto de dados NNI foi usado como coorte de descoberta para a
identificação de genes diferencialmente expressos como potenciais biomarcadores para MCI e
AD e suas respectivas vias biológicas entre indivíduos CN, MCI e AD. A aplicabilidade desses
genes para a identificação de indivíduos MCI e AD foi então avaliada no conjunto de dados
ADNI.

As amostras clínicas do NNI foram coletadas durante um período de 3 anos, de 2013 a 2016. O
consentimento informado foi obtido para todos os sujeitos. Os participantes foram submetidos
à avaliação clínica do desempenho psicológico e cognitivo, utilizando o MEEM, o Montreal
Cognitive Assessment (MoCA) e a ressonância magnética (RM). Indivíduos de controle saudável
(CN) foram ainda obrigados a não ter queixas cognitivas, defeitos cognitivos significativos e
uma classificação de demência clínica (CDR) de 0. O diagnóstico de MCI foi baseado nos
critérios do National Institute on Aging–Alzheimer's Association (NIA -AA) Estrutura de
Pesquisa ( 20), a apresentação clínica de sintomas cognitivos e déficits neuropsicológicos sem
comprometimento funcional significativo e uma pontuação CDR de 0,5. Indivíduos com DA
foram diagnosticados usando critérios do Instituto Nacional de Distúrbios Neurológicos e
Comunicativos e Derrame (NINCDS) e da Associação de Doenças de Alzheimer e Distúrbios
Relacionados (ADRDA). De acordo com os critérios do NINCDS-ADRDA, pacientes com DA leve
apresentam sintomas e déficits cognitivos de acordo com a avaliação neuropsicológica, com
comprometimento funcional importante ( 4 ). Os pacientes com DA leve também foram
definidos como tendo uma pontuação CDR de 1. Os dados do NNI, portanto, constituem 254
indivíduos (99 CN, 61 MCI e 94 AD, listados na Tabela 1 ).

Isolamento e quantificação de RNA para dados NNI

Sangue venoso sem jejum foi coletado por punção venosa antecubital. O RNA foi isolado de 1
ml de sangue total usando o QIAamp RNA Blood Mini Kit (QIAGEN nº 52304). O RNA total dos
indivíduos foi extraído do sangue total no mesmo dia da coleta de sangue. O RNA isolado foi
armazenado a -80°C. O DNA complementar (cDNA) foi obtido por transcrição reversa de 10 ng
de RNA total (Fluidigm nº 100-6298). Cento e oitenta e dois genes-alvo foram selecionados a
partir de uma pesquisa na literatura de genes associados à resposta inflamatória, demência
vascular, MCI, DA, acidente vascular cerebral e outras doenças cerebrovasculares ( Tabela
Suplementar 1 ). Primers para os alvos do gene foram projetados usando Primer3 ( 21) ou com
referência ao banco de dados OriGene, e validado por reação em cadeia da polimerase
quantitativa em tempo real (qPCR) usando RNA isolado de células linfoblastóides humanas
induzidas por lipopolissacarídeos. O 96,96 Dynamic Array Integrated Fluidic Circuits (IFC) para
expressão gênica foi usado para quantificar o RNA para cada gene. Os dados foram coletados
usando o BioMark HD Image Capture System para análise posterior.

Preparação e pré-processamento de dados

Os dados de expressão do gene no sangue de NNI foram normalizados contra o gene de


manutenção RP2 para obter valores de expressão relativa de cada gene. As réplicas de
amostras foram calculadas em média para obter um único valor de expressão de gene por
gene. Os genes com mais de 25% de valores ausentes foram removidos da análise. Para os
demais genes, a imputação do valor perdido foi realizada pelo método adaptativo LSimpute
utilizando o pacote missMethods (v.0.4.0) em R (v.4.1.1), baseado no princípio dos mínimos
quadrados e correlações entre genes e entre arrays ( 22-24 ) . _ Isso resultou em dados de
expressão de 176 genes para análise no conjunto de dados NNI ( Tabela Suplementar 1 ).

Da mesma forma, os valores de expressão gênica relativa para o conjunto de dados ADNI
foram obtidos normalizando todos os valores de expressão gênica, que foram obtidos por
microarray, pelo de RP2 para cada indivíduo respectivo, e os valores de expressão relativa para
amostras replicadas foram calculados para obter um gene relativo final valor de expressão
para cada assunto. Um subconjunto do conjunto de dados ADNI contendo 151 genes em
comum com NNI foi usado para análise. Para ambos os conjuntos de dados, gráficos de
aproximação e projeção de variedade uniforme (UMAP) foram construídos e visualizados
usando o pacote umap (v.0.2.7.0) e a biblioteca de gráficos de plotagem em R,
respectivamente ( 25 , 26 ).

Para verificar se os dados do NNI não foram fortemente influenciados pela idade e sexo dos
sujeitos, foram construídos modelos preliminares de regressão florestal aleatória para
regressão de idade e para classificação de masculino vs. feminino, e para CN vs. MCI, CN vs. AD
, e MCI vs AD, usando o pacote randomForest (v.4.7.1) em R ( 27 ). Os 30 principais genes com
maior importância variável, quantificados por sua influência no erro de previsão para cada
modelo, foram denotados como variáveis dependentes da idade, dependentes do sexo ou
dependentes do diagnóstico. As variáveis dependentes da idade e dependentes do sexo foram
comparadas com as variáveis dependentes do diagnóstico para determinar a proporção de
genes cujos valores de expressão são potencialmente confundidos por idade e sexo.

Em preparação para a seleção de recursos, os dados NNI foram divididos em conjuntos de


dados de treinamento e teste. As divisões de dados foram realizadas usando o pacote caTools
em R (v.1.17), de modo que cada divisão preserva as distribuições relativas originais de sujeitos
CN, MCI e AD nos dados de treinamento e teste. Para a identificação de genes
diferencialmente expressos, 80% dos dados do NNI foram usados para treinamento, enquanto
os 20% restantes foram reservados como dados de teste para validação interna. Uma divisão
de treinamento/teste de 80/20 também foi realizada nos dados ADNI em preparação para
validação externa.

A distribuição desigual de indivíduos CN, MCI e AD em cada conjunto de dados apresentou


riscos potenciais de maior viés durante a seleção e classificação de recursos. Isso foi
particularmente pertinente para os dados ADNI usados na validação externa, onde o
desequilíbrio de classe causado pela maior proporção de pacientes com MCI e número
relativamente menor de pacientes com DA poderia ter levado a métricas de precisão
enganosamente altas se os dados fossem empregados diretamente. Para superar isso, a
Synthetic Minority Oversampling Technique (SMOTE) foi aplicada nos dados de treinamento e
teste de NNI e ADNI ( 28), empregando funções do pacote smotefamily em R (v.1.3.1). SMOTE
superamostra grupos sub-representados gerando repetidamente um novo ponto de dados
entre um ponto de dados real selecionado aleatoriamente e um ponto selecionado
aleatoriamente entre seus k vizinhos mais próximos. Para equilibrar nossos dados de
treinamento e teste, para cada grupo sub-representado, novos pontos de dados foram
gerados pelo SMOTE para igualar o número de pontos de dados do grupo majoritário, de
modo que cada classe continha o mesmo número de pontos de dados em cada seleção de
recursos ou etapa de classificação.

Seleção de recursos para genes expressos diferencialmente

Os genes expressos diferencialmente (DEGs) foram identificados para cada comparação de


pares, especificamente CN vs. MCI, CN vs. AD e MCI vs. AD. Boruta foi empregado para extrair
DEGs dos dados NNI de treinamento balanceado com base em várias iterações do classificador
de RF ( 19). O classificador RF foi selecionado por seu desempenho rápido e imparcialidade na
classificação por votação majoritária. O método Boruta seleciona DEGs por meio de uma
abordagem estatisticamente rigorosa, comparando os recursos de entrada com as variáveis de
sombra, derivadas da randomização dos valores das variáveis de entrada, e agrupando as
variáveis que têm maior importância de recurso do que o recurso de sombra de melhor
desempenho para classificação de assunto em cada execução , denotado como um "acerto"
para essa variável para essa execução. Em várias execuções, o número de acertos para cada
variável compõe uma distribuição binomial, a partir da qual a lista de genes importantes pode
ser determinada. Para eliminar ainda mais a variabilidade, para cada comparação de pares, até
1.000 execuções foram realizadas em cada rodada de Boruta, e o próprio Boruta foi realizado
10 vezes.

Validação e Avaliação de Biomarcadores

A validação foi conduzida construindo modelos classificadores de RF usando os DEGs de Boruta


para cada comparação de pares, que foram treinados em dados balanceados SMOTE derivados
dos dados de treinamento de 80% de cada conjunto de dados e testados nos dados de teste de
20% reservados, que também foram balanceado por SMOTE. Além da validação interna nos
dados NNI, para validar ainda mais que os DEGs identificados a partir dos dados NNI eram
generalizáveis como biomarcadores para MCI e AD, a validação externa foi realizada através da
construção de modelos classificadores de RF dos NNI DEGs que também estavam presentes
nos dados ADNI, e avaliar o desempenho desses modelos em dados ADNI.

Na validação interna e externa, as mais altas acurácias de 10 iterações de avaliação consistindo


em 30 modelos classificadores de RF cada, foram registradas e comparadas com 50% de
precisão para cada comparação de pares usando testes t de Student unicaudais.

As redes de associação proteína-proteína foram construídas com base em DEGs de Boruta


usando o banco de dados Search Tool for the Retrieval of Interacting Genes/Proteins (STRING)
[v.11.5; ( 29 )].

Análise de enriquecimento do conjunto de genes

Os papéis dos DEGs em uma paisagem biológica mais ampla foram explorados anotando esses
genes com suas vias da Enciclopédia de Genes e Genomas de Kyoto (KEGG) ( 30 ), usando o
pacote richR (v.3.0) em R ( 31 , 32 ). As vias KEGG que se sobrepõem entre as três comparações
de pares foram de particular interesse, pois podem representar processos biológicos
implicados durante as transições de CN para MCI para AD.

Resultados

Heterogeneidade na Doença de Alzheimer

A heterogeneidade na DA apresenta dificuldades para diagnóstico e desenvolvimento de


tratamentos medicamentosos ( 33 ). Essa heterogeneidade foi observada mesmo no nível
transcriptômico, conforme ilustrado pelos gráficos UMAP dos conjuntos de dados NNI e ADNI (
Figura 2 ).

Figura 2

www.frontiersin.org

FIGURA 2 . Gráficos de aproximação e projeção de variedade uniforme (UMAP) de conjuntos


de dados usados para análise. (A ) Dados do National Neuroscience Institute (NNI) coloridos
por diagnóstico. Cada ponto representa dados de 176 genes de um único sujeito. (B) Dados da
Iniciativa de Neuroimagem da Doença de Alzheimer (ADNI) coloridos por diagnóstico. Cada
ponto representa dados de 20.092 genes de um único sujeito. NC, cognitivamente normal;
CCL, comprometimento cognitivo leve; DA, Doença de Alzheimer.

Não houve separação clara entre os indivíduos CN, MCI e AD nos conjuntos de dados NNI e
ADNI ( Figuras 2A,B ). Isso sugere que não há um conjunto claro de genes que caracterizam
MCI e AD para diferenciá-los dos indivíduos CN. Esse padrão foi mantido mesmo depois que os
conjuntos de dados NNI e ADNI foram divididos em conjuntos de treinamento/teste e
ajustados para desequilíbrio de classe usando SMOTE, demonstrando que a falta de clusters
claros não é um efeito do desequilíbrio de classe e as diferenças entre cada grupo de sujeitos
não podem ser facilmente resolvido ( Figura Suplementar 1 ).

A falta de delineamentos claros de definição entre grupos de indivíduos complica ainda mais o
diagnóstico para essas condições e demonstra como não existe uma abordagem “tamanho
único” para o tratamento da DA, enfatizando a necessidade de tratamentos personalizados
com base no perfil único da doença. Portanto, empregamos o algoritmo de Boruta para
identificar genes diferencialmente expressos e biomarcadores potenciais dentro deste
conjunto de dados complexo.

Genes expressos diferencialmente identificados como potenciais biomarcadores

De acordo com modelos de regressão de floresta aleatória para variáveis dependentes de


idade e modelos de classificação para condições de diagnóstico por sexo e pares, mais de 82%
das variáveis dependentes de diagnóstico não eram dependentes de idade e 80% das variáveis
dependentes de diagnóstico não eram dependentes de gênero, sugerindo que a maioria dos
genes expressos diferencialmente ao longo do diagnóstico neste estudo refletem mudanças ao
longo da doença, em vez de diferenças de idade e gênero entre os indivíduos.

A partir da seleção de recursos nos dados de treinamento NNI balanceados pelo SMOTE, 17
DEGs foram identificados entre indivíduos CN e MCI, 10 genes identificados entre indivíduos
CN e AD e 16 genes identificados entre indivíduos MCI e AD, de um total de 176 genes no
inicial conjunto de dados ( Tabela 2 ).

Mesa 2

www.frontiersin.org

TABELA 2 . Genes expressos diferencialmente a partir de comparações de pares usando dados


do National Neuroscience Institute (NNI).

Esses potenciais genes de biomarcadores foram usados para construir modelos de RF


preditivos para classificar os 20% restantes de dados do conjunto de dados NNI balanceados
pelo SMOTE, bem como indivíduos do ADNI. Usando a lista de DEGs como recursos preditivos
para classificar os indivíduos do conjunto de dados ADNI, as maiores precisões médias obtidas
foram 59,55, 55,96 e 56,65% para as comparações pareadas CN vs. MCI, CN vs. AD e MCI vs.
AD, respectivamente ( Tabela 3). As acurácias de classificação usando a lista de DEGs como
biomarcadores foram significativamente maiores do que a classificação aleatória de 50% para
todas as três comparações pareadas. Da mesma forma, os modelos de RF construídos usando
a lista de DEGs avaliados em dados NNI classificados entre indivíduos de cada comparação de
pares, ou seja, CN vs. MCI, CN vs. AD e MCI vs. AD, com precisão máxima significativamente
maior do que a classificação aleatória ( Suplementar Tabela 2 ).
Tabela 3

www.frontiersin.org

TABELA 3 . A mais alta precisão de previsão para dados da Iniciativa de Neuroimagem da


Doença de Alzheimer (ADNI) usando genes expressos diferencialmente de dados do National
Neuroscience Institute (NNI) como recursos preditivos.

Vários estudos publicados anteriormente com o objetivo de identificar biomarcadores


sanguíneos para DA concentram-se na distinção entre estados saudáveis e de doença e
demonstram variações nos DEGs entre os estudos, dependendo dos métodos de análise
empregados ( 34 , 35 ). Em contrapartida, além de identificar os DEGs associados apenas à DA,
esta investigação visa identificar genes que se expressam diferencialmente no MCI, em relação
ao CN e à DA, especificamente no contexto de genes inflamatórios. No entanto, avaliamos o
desempenho dos GDEs de Li et al. (34 , 35)em classificações pareadas de CN vs. MCI, CN vs. AD
e MCI vs. AD, em comparação com os três conjuntos de DEGs deste estudo. Os DEGs
identificados neste estudo tiveram desempenho semelhante aos de estudos anteriores na
classificação entre indivíduos CN e AD ( Tabela Complementar 3 ). Nossos DEGs identificados
tiveram melhor desempenho na classificação de indivíduos CN vs. MCI e MCI vs. AD. No geral,
a classificação de pares usando DEGs identificados neste estudo é provavelmente mais
representativa da expressão diferencial em CN, MCI e AD, em comparação com genes em
estudos anteriores que se concentram na classificação de AD.

As redes de associação proteína-proteína obtidas por STRING demonstraram que a maioria dos
DEGs nas três comparações de pares mostraram ou hipotetizaram compartilhar funções de
proteínas em estudos anteriores, particularmente para genes de CN vs. AD e MCI vs. AD
( Figura 3 ). Isso indica que os DEGs identificados por Boruta estão funcionalmente
relacionados, apoiando assim a possibilidade de que a regulação biológica das redes de
proteínas envolvendo esses genes seja afetada durante o desenvolvimento de MCI e DA.

Figura 3

www.frontiersin.org

FIGURA 3 . Redes de associação proteína-proteína construídas usando o banco de dados


Search Tool for the Retrieval of Interacting Genes/Proteins (STRING). As proteínas exibidas são
expressas a partir de genes identificados por Boruta a partir de comparações de pares entre
(A ) controle cognitivamente normal (CN) e comprometimento cognitivo leve (MCI), (B) CN e
doença de Alzheimer (AD) e (C) indivíduos MCI e AD.

Caminhos expressos diferencialmente em MCI e AD

Em nossa análise das anotações gênicas de cada conjunto de genes obtidos a partir de análises
de Boruta pareadas, estávamos interessados em vias de sinalização que foram encontradas na
interseção entre as três comparações pareadas. Essas regiões sobrepostas indicam anotações
de genes que podem estar implicadas durante a transição entre o desenvolvimento de CN, MCI
e AD e podem apresentar potenciais alvos terapêuticos. A partir das anotações da via KEGG,
identificamos cinco dessas vias, a saber, as vias de sinalização PI3K-Akt, IL-17, JAK-STAT, TNF e
Ras ( Figura 4 ).

Figura 4

www.frontiersin.org

FIGURA 4 . As 20 principais vias da Enciclopédia de Genes e Genomas de Kyoto (KEGG) da


análise de enriquecimento do conjunto de genes de genes expressos diferencialmente de cada
comparação de pares. Todas as vias mostradas têm um p < 0,05 ajustado a partir da análise de
enriquecimento do conjunto de genes. As vias consideradas como potenciais vias de
biomarcadores, especificamente as vias de sinalização PI3K-Akt, IL-17, JAK-STAT, TNF e Ras, são
mostradas em vermelho. NC, cognitivamente normal; CCL, comprometimento cognitivo leve;
DA, Doença de Alzheimer.

A localização de cada via no diagrama de Venn na Figura 4 indica o estágio em que a via está
implicada na transição entre as condições. As vias no centro do diagrama de Venn, onde todas
as três comparações em pares se sobrepõem, provavelmente sofrem alterações de expressão
no nível transcriptômico ao longo do desenvolvimento de CN, MCI e AD. As vias que se
sobrepõem entre CN vs. MCI e CN vs. AD provavelmente sofrerão alterações durante o MCI,
que são retidas no AD, enquanto as vias que se sobrepõem entre CN vs. MCI e MCI vs. AD
provavelmente sofrem alterações que são mais detectáveis durante o MCI mas não
necessariamente AD. As vias que se sobrepõem entre CN vs. AD e MCI vs. AD indicam
alterações que provavelmente serão mais representativas de AD, em vez de MCI.

Discussão

A visualização do perfil de expressão gênica do sangue usando UMAP não mostrou


agrupamentos distintos de AD, MCI e CN, ilustrando a natureza heterogênea da AD. A
visualização sob UMAP também demonstrou que a estrutura subjacente de detecção de
biomarcadores na DA não pode ser resolvida facilmente, mesmo usando abordagens não
lineares. Portanto, as abordagens convencionais de classificação provavelmente serão
ineficazes e um algoritmo robusto de aprendizado de máquina será necessário para uma
identificação mais precisa de biomarcadores. Nesse sentido, RF foi escolhido por suas
aplicações versáteis em classificação e regressão, e Boruta foi empregado para aumentar ainda
mais a robustez. Neste estudo, empregamos um pipeline de aprendizado de máquina para a
identificação de genes relacionados à DA,

Reconhecemos que a ambiguidade da verdadeira condição de um paciente, sob a classificação


de MCI, pode influenciar a seleção de características, pois nem todos os pacientes com MCI
evoluem para DA, e alguns indivíduos podem até reverter para NC. Isso sugere que a
progressão da doença de CCL para DA não é linear, como sugerido anteriormente na literatura
( 34). O diagnóstico clínico de MCI, do qual nosso algoritmo de seleção de características
depende, também é desafiador devido à falta de sintomas distintivos claros. Além disso, o
agravamento do CCL pode evoluir para outras formas de demência além da DA. No entanto, a
associação entre o CCL e o desenvolvimento da DA fornece motivação para estudar ambos em
conjunto. Ao considerar MCI e AD como condições diferentes, nosso objetivo é identificar não
apenas potenciais biomarcadores sanguíneos para diagnóstico de DA, mas também
biomarcadores para diagnóstico de MCI, com o objetivo de fornecer intervenção precoce para
DA pela detecção de indivíduos com MCI antes que eles progridam para DA. A detecção
precoce de indivíduos com MCI e o tratamento podem aliviar seus sintomas nos estágios
iniciais e reduzir a probabilidade de pacientes com MCI progredirem para DA.

Os genes identificados neste estudo são capazes de classificar os indivíduos como


pertencentes aos grupos CN, MCI ou AD, com precisão maior que aleatória, apoiando assim
sua aplicação potencial em painéis de biomarcadores para fins de diagnóstico em ambientes
clínicos. No entanto, as acurácias de classificação observadas neste estudo também sugerem
que o CCL e a DA são altamente complexos e heterogêneos. Isso pode ter sido o resultado da
paisagem de expressão gênica entre grupos saudáveis e doentes sendo relativamente
semelhante em geral ( 35 , 36). Para reduzir a variabilidade resultante do desequilíbrio de
classe em nossos dados durante a seleção e avaliação de recursos, realizamos SMOTE em
nossos dados de treinamento e teste e empregamos várias iterações de Boruta, com votação
majoritária para reduzir a probabilidade de falsos positivos serem incluídos em nosso conjunto
final de DEGs. A validação e investigação adicionais desses DEGs como biomarcadores
clinicamente relevantes para MCI e AD serão idealmente conduzidas no futuro usando um
conjunto de dados muito maior (do que os dados NNI atuais usados neste estudo), que
também é apoiado por biomarcadores comuns de AD, como amiloide e tau.

Apesar da coorte de descoberta ser relativamente pequena, nossos modelos de classificação


usando DEGs identificados a partir de dados NNI também classificaram indivíduos com
precisão maior do que aleatória quando validados em dados ADNI externos, com precisões de
previsão comparáveis em todas as três comparações pareadas de CN vs. MCI, CN vs. AD e MCI
vs. AD. Portanto, nossos DEGs podem ser generalizados para diferentes coortes de sujeitos de
diferentes regiões geográficas e métodos de coleta de dados.

As cinco vias (sinalização de PI3K-Akt, IL-17, JAK-STAT, TNF e Ras) identificadas a partir da
análise de enriquecimento gênico dos DEGs representam mudanças potenciais na sinalização
bioquímica ao longo de diferentes estágios de início e desenvolvimento de MCI e AD. É
provável que todas as cinco vias sofram alguma desregulação durante o curso do
desenvolvimento de CCL e progressão da DA. A descoberta de vias inflamatórias na análise de
expressão gênica diferencial não é particularmente surpreendente, uma vez que o conjunto
inicial de genes NNI também foi associado a vários processos inflamatórios. Apesar disso, a
localização dos diferentes caminhos para diferentes regiões do diagrama de Venn na Figura
4indica que em diferentes estágios de progressão da doença, diferentes vias podem sofrer
alterações transcriptômicas mais detectáveis. Isso tem aplicações na prática diagnóstica e na
medicina personalizada – embora o MCI esteja associado ao aumento da inflamação sistêmica
em geral ( 37 ), uma maior desregulação de vias específicas pode fornecer indicações de
estágios da doença em cada paciente e fornecer alvos potenciais para esse estágio da doença.

Desafios adicionais ainda precisam ser abordados em relação aos transcriptomas sanguíneos
como biomarcadores para o diagnóstico de doenças. Relacionar a dinâmica da expressão
gênica no cérebro com o sangue pode ser confundido por mudanças na disponibilidade de
RNA, em vez de desregulação específica da via, como a possibilidade de que a morte neuronal
extensa em ambientes altamente inflamatórios possa levar a alterações de RNA menos
detectáveis em estágios posteriores da DA ( 38 ). ). Portanto, seria prudente considerar se as
alterações transcricionais observadas detectadas estavam de fato associadas à progressão da
doença.

Cada uma das cinco vias identificadas neste estudo foi individualmente implicada no
comprometimento cognitivo, particularmente quando estão alteradas no sistema nervoso
central, mesmo em condições neurológicas não diretamente ligadas à DA ( 39 – 43 ). Caso seus
níveis de expressão no sangue ajudem a identificar com precisão os indivíduos com
comprometimento cognitivo, a desregulação dessas vias seriam possíveis biomarcadores para
CCL. Uma associação entre os níveis cerebrais e sanguíneos de sua expressão, com
corroboração de estudos comportamentais, apoiaria ainda mais a utilidade dessas vias como
ferramentas para avaliar os riscos dos pacientes de desenvolver CCL e início de DA, oferecendo
oportunidades para intervenção terapêutica.

As cinco vias inflamatórias observadas a partir do enriquecimento de genes foram associadas à


DA, embora geralmente no contexto da desregulação da via no cérebro. É digno de nota que a
IL-17A demonstra uma forte correlação com a patogênese da DA, e a evidência de IL-17A
elevada foi observada em pacientes com DA ( 44 ). Estudos realizados em roedores com
neurodegeneração induzida por Aβ demonstraram função de memória melhorada após
tratamento com anticorpos IL-17 ( 45 ). Isso fornece fortes evidências de que a inibição de IL-
17 reduz os efeitos degenerativos de Aβ nas células gliais, prevenindo complicações adicionais
em pacientes com DA.

Outra via que tem potencial no tratamento da DA é a via de sinalização do TNF. Numerosos
estudos descreveram a elevação de TNF-α em pacientes com DA ( 46 , 47 ) e a intervenção
desta via demonstrou aliviar a patologia cerebral em modelos de roedores ( 48 ). Além disso, o
papel da via de sinalização do TNF é apoiado por um recente estudo de associação genômica
ampla, que sugere que a regulação dessa via e suas interações com outras vias de sinalização
podem estar implicadas no desenvolvimento e neuropatologia da DA ( 49 ).). Várias drogas
têm sido propostas para atingir diferentes partes da via de sinalização do TNF e há algumas
evidências clínicas relatadas sugerindo que a intervenção dessa via reduz a neuropatologia da
DA ( 50 ). Atualmente, existem alguns medicamentos aprovados pela FDA que visam as vias de
sinalização de IL-17A e TNF. Alguns exemplos de drogas incluem Secukinumab, um anticorpo
que se liga e neutraliza seletivamente IL-17A, e Etanercept, um antagonista biológico do TNF-
α, que demonstrou em um estudo piloto melhorar a função cognitiva ( 51 ). Esta informação
pode ser aplicável no tratamento de pacientes com CCL, se a detecção precoce e o diagnóstico
forem realizados por meio de exames de sangue de rotina, para prevenir o potencial
desenvolvimento de DA.

Além disso, as vias de sinalização JAK-STAT e PI3K-Akt foram expressas diferencialmente entre
AD, MCI e CN, servindo como base potencial para futuras pesquisas ou alvos de drogas.
Embora o mecanismo por trás de como essas vias levam ao desenvolvimento de AD não seja
claro, investigações anteriores encontraram correlações entre a atividade alterada dessas vias
e o desenvolvimento de AD. A via de sinalização JAK-STAT foi encontrada ativada em astrócitos
reativos presentes em modelos de roedores ( 52 ), embora o mecanismo de como JAK-STAT
está envolvido na DA não tenha sido estudado extensivamente. As vias de sinalização PI3K-Akt
foram inibidas por Aβ, levando à morte neuronal .), mas o mecanismo de como isso ocorre
ainda não é bem compreendido. O envolvimento dessas duas vias na fisiopatologia da DA
poderia ser explorado em novas pesquisas, com a possibilidade de serem alvos terapêuticos.

A sinalização Ras/ERK e sua via de sinalização MAPK associada também têm sido amplamente
investigadas em contextos de doenças devido aos seus diversos papéis regulatórios em
processos como sobrevivência celular, migração, proliferação e diferenciação. Na DA, acredita-
se que as proteínas ERK desempenhem um papel na mediação da hiperfosforilação de Tau e na
expressão de β-secretase que influencia a agregação de Aβ ( 54 ). A sinalização Ras/ERK
também mostrou ser ativada por Aβ, com a sinalização aberrante resultante levando à
neurodegeneração na DA ( 41 ). Portanto, a detecção precoce e o tratamento direcionado para
a desregulação da sinalização Ras podem fornecer um meio para prevenir a agregação prolífica
de Aβ e a neurodegeneração no início da DA.

A expressão diferencial nessas cinco vias indica que essas vias são desreguladas em diferentes
estágios de desenvolvimento da doença sobre MCI e DA, embora deva-se notar que a
complexa relação entre a expressão sanguínea e cerebral dificulta a interpretação da
expressão gênica do sangue, especificamente na compreensão de como diferencial A
expressão no sangue é indicativa de padrões de transcrição no cérebro. A assinatura
transcricional de alguns módulos gênicos no cérebro, particularmente aqueles com papéis em
processos celulares básicos, como regulação da expressão gênica e infecção, foi observada
preservada no sangue de indivíduos saudáveis .). Em pacientes com DA, especialmente em
estágios avançados da doença, foi observada forte correlação sangue-cérebro para transcrição,
incluindo genes específicos do cérebro e genes associados à inflamação ( 56 ). No entanto, a
correlação transcricional sangue-cérebro em indivíduos com CCL ainda não foi estabelecida.
Embora mais investigações sejam necessárias antes que se possa concluir se esses padrões de
desregulação refletem definitivamente alterações neurofisiológicas no cérebro, as descobertas
de estudos anteriores em humanos e animais sugerem que o transcriptoma do sangue e do
cérebro está correlacionado a algumas vias, incluindo genes inflamatórios como aqueles
estudados aqui, especialmente na neurodegeneração ( 57 ).
Outro desafio na identificação de biomarcadores sanguíneos da doença está relacionado à
heterogeneidade populacional. Biomarcadores altamente generalizáveis raramente estão
disponíveis, devido à heterogeneidade entre os indivíduos, mesmo dentro da população
controle saudável – o transcriptoma sanguíneo é altamente dinâmico e os processos
inflamatórios podem variar em resposta à idade, doença subjacente, infecção viral ou mesmo
mudanças sazonais ( 16 ).

Isso não apenas apresenta uma oportunidade para a medicina personalizada, mas também
destaca sua importância no diagnóstico de CCL e DA. Como a expressão dessas vias
inflamatórias é dinâmica e altamente variável mesmo em indivíduos saudáveis, existe o risco
de falsos positivos no diagnóstico de CCL e DA se considerarmos apenas as diferenças nos
níveis de expressão dos genes nas cinco vias entre os indivíduos. Consequentemente, ao
avaliar o risco de MCI e DA de um indivíduo, pode ser benéfico rastrear mudanças
longitudinais na expressão das cinco vias para cada sujeito, em vez de fazer um diagnóstico
com base em dados de um único ponto de tempo.

Existem vários estudos publicados anteriormente que visam identificar biomarcadores


sanguíneos de DA usando dados de expressão gênica no sangue ( 14 , 34 – 36 , 58 – 60 ). Vários
desses estudos empregaram dados disponíveis publicamente do AddNeuroMed para
descoberta e avaliação de biomarcadores, embora os diferentes métodos para seleção e
classificação de características empregados para cada estudo resultassem em características
diferencialmente expressas entre indivíduos com DA e CN ( 14 , 34 , 35 , 59 , 60). Para superar
variações em genes individuais expressos diferencialmente, os pesquisadores podem
empregar modelos de classificação baseados em vias ( 14 , 36 ), que também incluímos em
nossa investigação. Por meio da análise de vias, há mais consenso entre os estudos – por
exemplo, a via JAK-STAT que identificamos nesta investigação também foi mencionada como
uma via de interesse por Li et al. (35) . Aqui, nosso estudo difere do trabalho publicado
anteriormente, pois nos concentramos em biomarcadores de MCI como indicadores de risco
de DA e nas vias que estão implicadas no desenvolvimento de MCI e DA, em vez de apenas
expressão diferencial em cada estágio em comparação com CN.

Os resultados deste estudo fornecem potenciais genes de biomarcadores sanguíneos e vias


para avaliar o risco de MCI e AD em indivíduos. No entanto, a complexa paisagem molecular
do MCI e DA apresenta oportunidades para novas pesquisas, com o objetivo de fazer
diagnósticos definitivos com base no RNA extraído do sangue. Por exemplo, a relação entre os
níveis de RNA no sangue e os níveis de RNA e proteína no cérebro podem ser mais exploradas
para determinar como as diferenças observadas no sangue entre as condições estão ligadas a
mudanças fisiológicas no cérebro durante a progressão da DA. Outro aspecto que pode ser
considerado é como os biomarcadores identificados neste estudo se comparam com
biomarcadores sanguíneos para outras doenças, especialmente condições inflamatórias.

Conclusões
Um pipeline de aprendizado de máquina empregando Boruta identifica efetivamente DEGs na
DA, que podem classificar os indivíduos como pacientes com MCI ou DA. Esses genes são
enriquecidos em cinco vias – as vias de sinalização PI3K-Akt, IL-17, JAK-STAT, TNF e Ras – que
possivelmente estão desreguladas no MCI e na DA. Essas vias também são biomarcadores
potenciais que classificam pacientes com CCL e DA com razoável precisão. Nosso estudo
demonstra o potencial de fazer uso desses biomarcadores descobertos para o diagnóstico
precoce de pacientes com MCI e DA por meio de exames de sangue de rotina, fornecendo
assim insights biológicos para a intervenção precoce por meio do desenvolvimento de
tratamento medicamentoso direcionado para prevenir a deterioração da DA.

Você também pode gostar