Escolar Documentos
Profissional Documentos
Cultura Documentos
Sher Li Oh1,2 ,Meikun Zhou3 ,Eunice WM Queixo1 ,Gautami Amarnath1 , Chee Hoe Cheah
1 ,Kok Pin Ng1,4,5 , Nagaendran Kandiah 1 ,Eyleen LK Goh1 * eKeng-Hwee Chiam3 *
1 Lee Kong Chian School of Medicine, Nanyang Technological University, Cingapura, Cingapura
Introdução
No entanto, os estudos de expressão de genes no sangue são limitados por duas desvantagens
principais. Em primeiro lugar, os perfis de expressão gênica são geralmente difíceis de
interpretar devido aos dados serem altamente variáveis ( 16 ). Em segundo lugar, a grande
proporção de genes para uma pequena proporção de indivíduos cria um obstáculo estatístico
na busca de potenciais biomarcadores. Os avanços tecnológicos nos últimos anos forneceram
vários modelos supervisionados e não supervisionados para as aplicações na extração de
características de grandes conjuntos de dados de expressão ( 17 ). Modelos de aprendizado de
máquina supervisionados, como Random Forests (RF), são particularmente úteis em tais
aplicações devido à sua flexibilidade em estudos de classificação e regressão. A RF também
tem a vantagem de lidar com a natureza não linear dos perfis de expressão gênica (18 ). Neste
estudo, empregamos um pipeline de aprendizado de máquina em vários estágios para a
exploração da seleção de genes expressos diferencialmente (DEGs) em indivíduos com DA e
MCI. O pipeline de análise foi construído sobre Boruta, um método de aprendizado de
máquina estatisticamente orientado, que diferenciava os genes importantes do ruído após
iterações rigorosas de modelos de RF ( 19 ). Mostramos que as técnicas de aprendizado de
máquina podem ser úteis na descoberta de potenciais biomarcadores para detecção de AD e
MCI no grande conjunto de dados de expressões gênicas do sangue.
Materiais e métodos
Esta seção discute a metodologia usada para o processamento de conjuntos de dados, bem
como o pipeline de aprendizado de máquina usado para extrair os genes de interesse e
construir um modelo de classificação. A estrutura geral é ilustrada em um diagrama
simplificado conforme mostrado na Figura 1 .
Figura 1
www.frontiersin.org
Este estudo foi realizado em conjuntos de dados de expressão de genes sanguíneos que
consistem em um conjunto de amostras clínicas recrutadas na clínica de memória do Instituto
Nacional de Neurociências em Cingapura (NNI) e no conjunto de dados ADNI publicamente
disponível ( 12 ). A distribuição dos sujeitos de cada conjunto de dados é apresentada na
Tabela 1 .
Tabela 1
www.frontiersin.org
Nesta investigação, o conjunto de dados NNI foi usado como coorte de descoberta para a
identificação de genes diferencialmente expressos como potenciais biomarcadores para MCI e
AD e suas respectivas vias biológicas entre indivíduos CN, MCI e AD. A aplicabilidade desses
genes para a identificação de indivíduos MCI e AD foi então avaliada no conjunto de dados
ADNI.
As amostras clínicas do NNI foram coletadas durante um período de 3 anos, de 2013 a 2016. O
consentimento informado foi obtido para todos os sujeitos. Os participantes foram submetidos
à avaliação clínica do desempenho psicológico e cognitivo, utilizando o MEEM, o Montreal
Cognitive Assessment (MoCA) e a ressonância magnética (RM). Indivíduos de controle saudável
(CN) foram ainda obrigados a não ter queixas cognitivas, defeitos cognitivos significativos e
uma classificação de demência clínica (CDR) de 0. O diagnóstico de MCI foi baseado nos
critérios do National Institute on Aging–Alzheimer's Association (NIA -AA) Estrutura de
Pesquisa ( 20), a apresentação clínica de sintomas cognitivos e déficits neuropsicológicos sem
comprometimento funcional significativo e uma pontuação CDR de 0,5. Indivíduos com DA
foram diagnosticados usando critérios do Instituto Nacional de Distúrbios Neurológicos e
Comunicativos e Derrame (NINCDS) e da Associação de Doenças de Alzheimer e Distúrbios
Relacionados (ADRDA). De acordo com os critérios do NINCDS-ADRDA, pacientes com DA leve
apresentam sintomas e déficits cognitivos de acordo com a avaliação neuropsicológica, com
comprometimento funcional importante ( 4 ). Os pacientes com DA leve também foram
definidos como tendo uma pontuação CDR de 1. Os dados do NNI, portanto, constituem 254
indivíduos (99 CN, 61 MCI e 94 AD, listados na Tabela 1 ).
Sangue venoso sem jejum foi coletado por punção venosa antecubital. O RNA foi isolado de 1
ml de sangue total usando o QIAamp RNA Blood Mini Kit (QIAGEN nº 52304). O RNA total dos
indivíduos foi extraído do sangue total no mesmo dia da coleta de sangue. O RNA isolado foi
armazenado a -80°C. O DNA complementar (cDNA) foi obtido por transcrição reversa de 10 ng
de RNA total (Fluidigm nº 100-6298). Cento e oitenta e dois genes-alvo foram selecionados a
partir de uma pesquisa na literatura de genes associados à resposta inflamatória, demência
vascular, MCI, DA, acidente vascular cerebral e outras doenças cerebrovasculares ( Tabela
Suplementar 1 ). Primers para os alvos do gene foram projetados usando Primer3 ( 21) ou com
referência ao banco de dados OriGene, e validado por reação em cadeia da polimerase
quantitativa em tempo real (qPCR) usando RNA isolado de células linfoblastóides humanas
induzidas por lipopolissacarídeos. O 96,96 Dynamic Array Integrated Fluidic Circuits (IFC) para
expressão gênica foi usado para quantificar o RNA para cada gene. Os dados foram coletados
usando o BioMark HD Image Capture System para análise posterior.
Da mesma forma, os valores de expressão gênica relativa para o conjunto de dados ADNI
foram obtidos normalizando todos os valores de expressão gênica, que foram obtidos por
microarray, pelo de RP2 para cada indivíduo respectivo, e os valores de expressão relativa para
amostras replicadas foram calculados para obter um gene relativo final valor de expressão
para cada assunto. Um subconjunto do conjunto de dados ADNI contendo 151 genes em
comum com NNI foi usado para análise. Para ambos os conjuntos de dados, gráficos de
aproximação e projeção de variedade uniforme (UMAP) foram construídos e visualizados
usando o pacote umap (v.0.2.7.0) e a biblioteca de gráficos de plotagem em R,
respectivamente ( 25 , 26 ).
Para verificar se os dados do NNI não foram fortemente influenciados pela idade e sexo dos
sujeitos, foram construídos modelos preliminares de regressão florestal aleatória para
regressão de idade e para classificação de masculino vs. feminino, e para CN vs. MCI, CN vs. AD
, e MCI vs AD, usando o pacote randomForest (v.4.7.1) em R ( 27 ). Os 30 principais genes com
maior importância variável, quantificados por sua influência no erro de previsão para cada
modelo, foram denotados como variáveis dependentes da idade, dependentes do sexo ou
dependentes do diagnóstico. As variáveis dependentes da idade e dependentes do sexo foram
comparadas com as variáveis dependentes do diagnóstico para determinar a proporção de
genes cujos valores de expressão são potencialmente confundidos por idade e sexo.
Os papéis dos DEGs em uma paisagem biológica mais ampla foram explorados anotando esses
genes com suas vias da Enciclopédia de Genes e Genomas de Kyoto (KEGG) ( 30 ), usando o
pacote richR (v.3.0) em R ( 31 , 32 ). As vias KEGG que se sobrepõem entre as três comparações
de pares foram de particular interesse, pois podem representar processos biológicos
implicados durante as transições de CN para MCI para AD.
Resultados
Figura 2
www.frontiersin.org
Não houve separação clara entre os indivíduos CN, MCI e AD nos conjuntos de dados NNI e
ADNI ( Figuras 2A,B ). Isso sugere que não há um conjunto claro de genes que caracterizam
MCI e AD para diferenciá-los dos indivíduos CN. Esse padrão foi mantido mesmo depois que os
conjuntos de dados NNI e ADNI foram divididos em conjuntos de treinamento/teste e
ajustados para desequilíbrio de classe usando SMOTE, demonstrando que a falta de clusters
claros não é um efeito do desequilíbrio de classe e as diferenças entre cada grupo de sujeitos
não podem ser facilmente resolvido ( Figura Suplementar 1 ).
A falta de delineamentos claros de definição entre grupos de indivíduos complica ainda mais o
diagnóstico para essas condições e demonstra como não existe uma abordagem “tamanho
único” para o tratamento da DA, enfatizando a necessidade de tratamentos personalizados
com base no perfil único da doença. Portanto, empregamos o algoritmo de Boruta para
identificar genes diferencialmente expressos e biomarcadores potenciais dentro deste
conjunto de dados complexo.
A partir da seleção de recursos nos dados de treinamento NNI balanceados pelo SMOTE, 17
DEGs foram identificados entre indivíduos CN e MCI, 10 genes identificados entre indivíduos
CN e AD e 16 genes identificados entre indivíduos MCI e AD, de um total de 176 genes no
inicial conjunto de dados ( Tabela 2 ).
Mesa 2
www.frontiersin.org
www.frontiersin.org
As redes de associação proteína-proteína obtidas por STRING demonstraram que a maioria dos
DEGs nas três comparações de pares mostraram ou hipotetizaram compartilhar funções de
proteínas em estudos anteriores, particularmente para genes de CN vs. AD e MCI vs. AD
( Figura 3 ). Isso indica que os DEGs identificados por Boruta estão funcionalmente
relacionados, apoiando assim a possibilidade de que a regulação biológica das redes de
proteínas envolvendo esses genes seja afetada durante o desenvolvimento de MCI e DA.
Figura 3
www.frontiersin.org
Em nossa análise das anotações gênicas de cada conjunto de genes obtidos a partir de análises
de Boruta pareadas, estávamos interessados em vias de sinalização que foram encontradas na
interseção entre as três comparações pareadas. Essas regiões sobrepostas indicam anotações
de genes que podem estar implicadas durante a transição entre o desenvolvimento de CN, MCI
e AD e podem apresentar potenciais alvos terapêuticos. A partir das anotações da via KEGG,
identificamos cinco dessas vias, a saber, as vias de sinalização PI3K-Akt, IL-17, JAK-STAT, TNF e
Ras ( Figura 4 ).
Figura 4
www.frontiersin.org
A localização de cada via no diagrama de Venn na Figura 4 indica o estágio em que a via está
implicada na transição entre as condições. As vias no centro do diagrama de Venn, onde todas
as três comparações em pares se sobrepõem, provavelmente sofrem alterações de expressão
no nível transcriptômico ao longo do desenvolvimento de CN, MCI e AD. As vias que se
sobrepõem entre CN vs. MCI e CN vs. AD provavelmente sofrerão alterações durante o MCI,
que são retidas no AD, enquanto as vias que se sobrepõem entre CN vs. MCI e MCI vs. AD
provavelmente sofrem alterações que são mais detectáveis durante o MCI mas não
necessariamente AD. As vias que se sobrepõem entre CN vs. AD e MCI vs. AD indicam
alterações que provavelmente serão mais representativas de AD, em vez de MCI.
Discussão
As cinco vias (sinalização de PI3K-Akt, IL-17, JAK-STAT, TNF e Ras) identificadas a partir da
análise de enriquecimento gênico dos DEGs representam mudanças potenciais na sinalização
bioquímica ao longo de diferentes estágios de início e desenvolvimento de MCI e AD. É
provável que todas as cinco vias sofram alguma desregulação durante o curso do
desenvolvimento de CCL e progressão da DA. A descoberta de vias inflamatórias na análise de
expressão gênica diferencial não é particularmente surpreendente, uma vez que o conjunto
inicial de genes NNI também foi associado a vários processos inflamatórios. Apesar disso, a
localização dos diferentes caminhos para diferentes regiões do diagrama de Venn na Figura
4indica que em diferentes estágios de progressão da doença, diferentes vias podem sofrer
alterações transcriptômicas mais detectáveis. Isso tem aplicações na prática diagnóstica e na
medicina personalizada – embora o MCI esteja associado ao aumento da inflamação sistêmica
em geral ( 37 ), uma maior desregulação de vias específicas pode fornecer indicações de
estágios da doença em cada paciente e fornecer alvos potenciais para esse estágio da doença.
Desafios adicionais ainda precisam ser abordados em relação aos transcriptomas sanguíneos
como biomarcadores para o diagnóstico de doenças. Relacionar a dinâmica da expressão
gênica no cérebro com o sangue pode ser confundido por mudanças na disponibilidade de
RNA, em vez de desregulação específica da via, como a possibilidade de que a morte neuronal
extensa em ambientes altamente inflamatórios possa levar a alterações de RNA menos
detectáveis em estágios posteriores da DA ( 38 ). ). Portanto, seria prudente considerar se as
alterações transcricionais observadas detectadas estavam de fato associadas à progressão da
doença.
Cada uma das cinco vias identificadas neste estudo foi individualmente implicada no
comprometimento cognitivo, particularmente quando estão alteradas no sistema nervoso
central, mesmo em condições neurológicas não diretamente ligadas à DA ( 39 – 43 ). Caso seus
níveis de expressão no sangue ajudem a identificar com precisão os indivíduos com
comprometimento cognitivo, a desregulação dessas vias seriam possíveis biomarcadores para
CCL. Uma associação entre os níveis cerebrais e sanguíneos de sua expressão, com
corroboração de estudos comportamentais, apoiaria ainda mais a utilidade dessas vias como
ferramentas para avaliar os riscos dos pacientes de desenvolver CCL e início de DA, oferecendo
oportunidades para intervenção terapêutica.
Outra via que tem potencial no tratamento da DA é a via de sinalização do TNF. Numerosos
estudos descreveram a elevação de TNF-α em pacientes com DA ( 46 , 47 ) e a intervenção
desta via demonstrou aliviar a patologia cerebral em modelos de roedores ( 48 ). Além disso, o
papel da via de sinalização do TNF é apoiado por um recente estudo de associação genômica
ampla, que sugere que a regulação dessa via e suas interações com outras vias de sinalização
podem estar implicadas no desenvolvimento e neuropatologia da DA ( 49 ).). Várias drogas
têm sido propostas para atingir diferentes partes da via de sinalização do TNF e há algumas
evidências clínicas relatadas sugerindo que a intervenção dessa via reduz a neuropatologia da
DA ( 50 ). Atualmente, existem alguns medicamentos aprovados pela FDA que visam as vias de
sinalização de IL-17A e TNF. Alguns exemplos de drogas incluem Secukinumab, um anticorpo
que se liga e neutraliza seletivamente IL-17A, e Etanercept, um antagonista biológico do TNF-
α, que demonstrou em um estudo piloto melhorar a função cognitiva ( 51 ). Esta informação
pode ser aplicável no tratamento de pacientes com CCL, se a detecção precoce e o diagnóstico
forem realizados por meio de exames de sangue de rotina, para prevenir o potencial
desenvolvimento de DA.
Além disso, as vias de sinalização JAK-STAT e PI3K-Akt foram expressas diferencialmente entre
AD, MCI e CN, servindo como base potencial para futuras pesquisas ou alvos de drogas.
Embora o mecanismo por trás de como essas vias levam ao desenvolvimento de AD não seja
claro, investigações anteriores encontraram correlações entre a atividade alterada dessas vias
e o desenvolvimento de AD. A via de sinalização JAK-STAT foi encontrada ativada em astrócitos
reativos presentes em modelos de roedores ( 52 ), embora o mecanismo de como JAK-STAT
está envolvido na DA não tenha sido estudado extensivamente. As vias de sinalização PI3K-Akt
foram inibidas por Aβ, levando à morte neuronal .), mas o mecanismo de como isso ocorre
ainda não é bem compreendido. O envolvimento dessas duas vias na fisiopatologia da DA
poderia ser explorado em novas pesquisas, com a possibilidade de serem alvos terapêuticos.
A sinalização Ras/ERK e sua via de sinalização MAPK associada também têm sido amplamente
investigadas em contextos de doenças devido aos seus diversos papéis regulatórios em
processos como sobrevivência celular, migração, proliferação e diferenciação. Na DA, acredita-
se que as proteínas ERK desempenhem um papel na mediação da hiperfosforilação de Tau e na
expressão de β-secretase que influencia a agregação de Aβ ( 54 ). A sinalização Ras/ERK
também mostrou ser ativada por Aβ, com a sinalização aberrante resultante levando à
neurodegeneração na DA ( 41 ). Portanto, a detecção precoce e o tratamento direcionado para
a desregulação da sinalização Ras podem fornecer um meio para prevenir a agregação prolífica
de Aβ e a neurodegeneração no início da DA.
A expressão diferencial nessas cinco vias indica que essas vias são desreguladas em diferentes
estágios de desenvolvimento da doença sobre MCI e DA, embora deva-se notar que a
complexa relação entre a expressão sanguínea e cerebral dificulta a interpretação da
expressão gênica do sangue, especificamente na compreensão de como diferencial A
expressão no sangue é indicativa de padrões de transcrição no cérebro. A assinatura
transcricional de alguns módulos gênicos no cérebro, particularmente aqueles com papéis em
processos celulares básicos, como regulação da expressão gênica e infecção, foi observada
preservada no sangue de indivíduos saudáveis .). Em pacientes com DA, especialmente em
estágios avançados da doença, foi observada forte correlação sangue-cérebro para transcrição,
incluindo genes específicos do cérebro e genes associados à inflamação ( 56 ). No entanto, a
correlação transcricional sangue-cérebro em indivíduos com CCL ainda não foi estabelecida.
Embora mais investigações sejam necessárias antes que se possa concluir se esses padrões de
desregulação refletem definitivamente alterações neurofisiológicas no cérebro, as descobertas
de estudos anteriores em humanos e animais sugerem que o transcriptoma do sangue e do
cérebro está correlacionado a algumas vias, incluindo genes inflamatórios como aqueles
estudados aqui, especialmente na neurodegeneração ( 57 ).
Outro desafio na identificação de biomarcadores sanguíneos da doença está relacionado à
heterogeneidade populacional. Biomarcadores altamente generalizáveis raramente estão
disponíveis, devido à heterogeneidade entre os indivíduos, mesmo dentro da população
controle saudável – o transcriptoma sanguíneo é altamente dinâmico e os processos
inflamatórios podem variar em resposta à idade, doença subjacente, infecção viral ou mesmo
mudanças sazonais ( 16 ).
Isso não apenas apresenta uma oportunidade para a medicina personalizada, mas também
destaca sua importância no diagnóstico de CCL e DA. Como a expressão dessas vias
inflamatórias é dinâmica e altamente variável mesmo em indivíduos saudáveis, existe o risco
de falsos positivos no diagnóstico de CCL e DA se considerarmos apenas as diferenças nos
níveis de expressão dos genes nas cinco vias entre os indivíduos. Consequentemente, ao
avaliar o risco de MCI e DA de um indivíduo, pode ser benéfico rastrear mudanças
longitudinais na expressão das cinco vias para cada sujeito, em vez de fazer um diagnóstico
com base em dados de um único ponto de tempo.
Conclusões
Um pipeline de aprendizado de máquina empregando Boruta identifica efetivamente DEGs na
DA, que podem classificar os indivíduos como pacientes com MCI ou DA. Esses genes são
enriquecidos em cinco vias – as vias de sinalização PI3K-Akt, IL-17, JAK-STAT, TNF e Ras – que
possivelmente estão desreguladas no MCI e na DA. Essas vias também são biomarcadores
potenciais que classificam pacientes com CCL e DA com razoável precisão. Nosso estudo
demonstra o potencial de fazer uso desses biomarcadores descobertos para o diagnóstico
precoce de pacientes com MCI e DA por meio de exames de sangue de rotina, fornecendo
assim insights biológicos para a intervenção precoce por meio do desenvolvimento de
tratamento medicamentoso direcionado para prevenir a deterioração da DA.