Você está na página 1de 19

Machine Translated by Google

www.nature.com/scientificreports

ABRIR Novas funções de aprendizado


de máquina e pontuação baseadas
em física para descoberta de medicamentos
IsabellaA. Guedes1,3, André MS Barreto1 , Diogo , Eduardo Krempser2 ,
,
Marinho1 MélaineA. Kuenemann3 Olivier Sperandio3,4, Laurent E. Dardenne1* & MariaA. Miteva3,5

As funções de pontuação são essenciais para a moderna descoberta de medicamentos in silico. No entanto, a
previsão precisa da afinidade de ligação por funções de pontuação continua sendo uma tarefa desafiadora. O
desempenho das funções de pontuação é muito heterogêneo entre as diferentes classes-alvo. As funções de
pontuação baseadas em descritores físicos precisos que melhor representam o processo de reconhecimento de
proteína-ligante são fortemente necessárias. Desenvolvemos um conjunto de novas funções de pontuação
empíricas, denominadas DockTScore, contabilizando explicitamente termos baseados em física combinados
com aprendizado de máquina. As funções de pontuação específicas do alvo foram desenvolvidas para dois
importantes alvos de drogas, proteases e interações proteína-proteína, representando uma classe original de
moléculas para a descoberta de drogas. Regressão linear múltipla (MLR), máquina de vetores de suporte e
algoritmos de floresta aleatória foram empregados para derivar funções de pontuação gerais e específicas de
alvo envolvendo termos de campo de força MMFF94S otimizados, termos de solvatação e interações lipofílicas
e um termo melhorado para contabilizar a contribuição da entropia de torção do ligante para ligação do ligante. As
funções de pontuação DockTScore demonstraram ser competitivas com as funções de pontuação atuais mais
bem avaliadas em termos de previsão de energia de ligação e classificação em quatro conjuntos de dados DUD-
E e serão úteis para o design de drogas in silico para diversas proteínas, bem como para alvos específicos, como proteases e i

O design de drogas baseado em estrutura e a triagem virtual tornaram-se abordagens comuns para a descoberta de drogas. O desempenho
preditivo das funções de pontuação é essencial para tais metodologias1–3 . No entanto, a previsão precisa da afinidade de ligação proteína-
ligante continua sendo um grande desafio para as funções de pontuação atuais. Apesar da melhoria nos últimos anos de funções de
pontuação empíricas, de campo de força ou baseadas em conhecimento, a maioria delas ainda mostra correlação insatisfatória com a
afinidade de ligação experimental ou é baseada em descrições sem sentido de interações proteína-ligante exibindo precisões superestimadas
em alguns casos4 –6 .
As funções de pontuação empíricas são baseadas em um conjunto de contribuições individuais ou descritores de interação calibrados
por regressão ou abordagens estatísticas usando um conjunto de treinamento de dados experimentais de afinidade para complexos
proteína-ligante7,8 . A melhoria das funções de pontuação pode ser alcançada desenvolvendo novos termos, treinando em conjuntos de
dados maiores de alta qualidade ou usando algoritmos sofisticados baseados em aprendizado de máquina para análise de regressão, por exemplo
Abordagens de reforço XGBoost e LightGBM9–13. Em seguida, as contribuições de solvatação e entropia são essenciais para a ligação do
ligante14–20. Embora várias funções de pontuação anteriores tenham considerado tais efeitos14,15,17,19 , as limitações comuns das
funções de pontuação estão relacionadas a muitas vezes negligenciá -las10,21–23. Novas funções de pontuação baseadas em descritores
físicos mais precisos para melhor representar o processo de reconhecimento de proteína-ligante são necessárias. Além disso, vários
estudos demonstraram que o desempenho das funções de pontuação é muito heterogêneo entre diferentes classes-alvo22–26. As funções
de pontuação específicas do alvo demonstraram alcançar um melhor desempenho de previsão de afinidade do que as funções de
pontuação gerais treinadas em diversas famílias de proteínas21–23,27–29.
Neste trabalho, desenvolvemos um conjunto de novas funções de pontuação empíricas, denominadas DockTScore, para estimar a
afinidade de ligação entre proteínas e ligantes, contabilizando explicitamente os termos de interação baseados na física que contribuem
para a energia livre de ligação. Nossos modelos são baseados no campo de força MMFF94S e treinados e validados em grandes
conjuntos de dados de alta qualidade devidamente selecionados. As funções de pontuação do DockTScore incorporam termos clássicos
de van der Waals e energia eletrostática, termos otimizados para solvatação, interações proteína-ligante lipofílicas e uma estimativa
aprimorada da contribuição da entropia de torção do ligante para a ligação do ligante para uma melhor descrição

1 Laboratório Nacional de Computação Científica, Petrópolis 25651ÿ075, Brasil. 2 Fundação Oswaldo Cruz, Rio de Janeiro 21040-361,
Brasil. 3 Inserm U973, Université Paris Diderot, Paris, França. 4 Unidade de Bioinformática Estrutural,
5
Inserm U1268 “Medicinal Chemistry and Translational
CNRS UMR3528, Institut Pasteur, 75015 Paris, França.
Research”, CiTCoM, UMR 8038, CNRS, Université de Paris, 75006 Paris, França. *e-mail: dardenne@lncc.br;
maria.mitev@inserm.fr

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 1

Vol.:(0123456789)
Machine Translated by Google
www.nature.com/scientificreports/

Proteína (nome curto) Afinidades totais (kcal molÿ1) Treinamentob Testec


Bcl2-like/BAX 10 ÿ12.636d , ÿ5.244e 7 3

Bromodomínio2/Histona 2 ÿ9.968, ÿ8.561 2 0

Bromodomínio4/Histona 11 ÿ9.931, ÿ6.145 9 2

K-Ras/SOS1 1 ÿ4.712 1 0

Tipo MDM2/P53 20 ÿ12.768, ÿ6.737 14 6

menin 1 ÿ10.404 0 1

Xiap/Smac 7 ÿ11.278, ÿ5.378 6 1

E1/E2 1 ÿ10.051 1 0

IL2/IL2R 1 ÿ6.910 1 0

LEDGF/Integrase 4 ÿ10.490, ÿ6.676 2 2

ZipA/fsZ 2 ÿ6.685, ÿ5.544 2 0

Total 60 45 15

Tabela 1. Conjunto de dados Te iPPIs. a Número total de complexos proteína-ligando no conjunto de dados. bNúmero de complexos c
de treinamento. Número de complexos no conjunto de teste aleatório. dAfinidade de ligação da proteína mais forte – no conjunto
interações de ligantes. e Afinidade de ligação do complexo proteína-ligando mais fraco.

de reconhecimento proteína-ligando. Em primeiro lugar, empregamos regressão linear múltipla (MLR)30,31 para garantir uma interpretação
física da contribuição do termo individual. Dez, desenvolvemos funções de pontuação não lineares mais sofisticadas usando a máquina de
vetor de suporte (SVM) para regressão (chamada “SMOReg”)32 e algoritmos de floresta aleatória (RF)33 usando os termos baseados em
física inspirados na teoria selecionados da análise MLR inicial. O desenvolvimento de funções de pontuação usando descritores baseados
em física que representam o processo de reconhecimento de proteína-ligante, juntamente com a avaliação da precisão de diferentes modelos
lineares e não lineares, são importantes para evitar superestimações irrealistas da precisão das funções de pontuação devido a alguns vieses
conhecidos, especialmente ao treinar não lineares modelos4,6,34,35.

Além das funções gerais de pontuação apropriadas para diversos alvos proteicos, desenvolvemos funções de pontuação MLR, SMOReg
e RF para duas classes específicas de proteínas: proteases e interações proteína-proteína (PPIs) a serem direcionadas por inibidores de
moléculas pequenas (iPPIs). As proteases são os principais alvos de medicamentos, para os quais já foram desenvolvidas funções de
pontuação focadas (por exemplo, alvos como a protease do HIV-135). Curiosamente, apenas um trabalho foi relatado até agora com o
objetivo de desenvolver uma função de pontuação linear para prever a afinidade de ligação de inibidores de IBPs36 usando um conjunto de
treinamento de 27 complexos de IBPs. Nosso MLR DockTScore para iPPIs forneceu novos insights sobre os fatores determinantes que
contribuem para a inibição de PPIs por pequenas moléculas. Além disso, relatamos aqui as primeiras funções de pontuação não linear com
foco em iPPIs e desenvolvidas em 60 estruturas complexas de PPI cuidadosamente selecionadas e selecionadas. Avaliamos a precisão da
previsão de afinidade e o sucesso da triagem virtual para discriminar entre compostos ativos e iscas de nossas funções de pontuação em
quatro conjuntos de dados DUD-E.

Métodos
Conjuntos de dados. Conjuntos de dados de diversos complexos proteína-ligante para funções gerais de pontuação. Treinamos e testamos
as funções gerais de pontuação apropriadas para diversos alvos de proteína com base no conjunto refned PDBbind v2013 (http://www.pdbbind-
cn.org/, versão 2013), que é composto por 2.959 complexos proteína-ligante com ligação dados de afinidade coletados manualmente de sua
fonte original37–40. PDBbind é conhecido como o maior conjunto de dados de estruturas de alta qualidade disponíveis para o desenvolvimento
e validação de métodos de docking-scoring. O conjunto definido foi construído de acordo com vários critérios relativos (i) à qualidade das
estruturas, (ii) aos dados de afinidade de ligação e (iii) à natureza do complexo. As afinidades de ligação em PDBbind compreendem um
grande intervalo de valores, variando de 1,2 pM (1,2 × 10ÿ12 M) a 10 mM (1,0 × 10ÿ3 M). Convertemos as constantes de ligação originais
para a unidade de energia em kcal molÿ1.

O conjunto principal do PDBbind, um subconjunto do conjunto refinado amplamente usado como dados de benchmarking para avaliação
de métodos de pontuação de docking, foi usado aqui para avaliar o desempenho de nossas funções gerais de pontuação apenas como um
conjunto de teste externo, não sendo usado durante a etapa de treinamento. A versão 2013 do conjunto principal é composta por 195
complexos proteína-ligante cuidadosamente coletados do conjunto refinado para estudos comparativos de funções de pontuação38–40.

Conjuntos de dados para funções de pontuação específicas de destino. Selecionamos um subconjunto aleatório do conjunto refned PDBbind
v2013 de acordo com faixas específicas do número EC, (Número de comissão enzimática (número EC) é um sistema de nomenclatura
enzimática que classifica numericamente as enzimas com base na reação química catalisada.) variando de 3,4. 11.0 a 3.4.25.69, para criar
um conjunto de dados para treinar e testar a função de pontuação focada para proteases, resultando em um subconjunto composto por 783
estruturas (Tabela S1).
Para criar o conjunto de dados para inibidores de interações proteína-proteína (iPPIs), pegamos o conjunto de dados iPPIs baseado em
raios-X previamente descrito em Kuenemann e colegas41, que era composto de 85 complexos proteína-ligante. Aqui, coletamos os dados
de afinidade de ligação das fontes originais e preparamos manualmente cada complexo usando o Assistente de preparação de proteínas da
Maestro (Maestro, versão 9.7, Schrödinger, LLC, Nova York, NY, 2014). Do conjunto de dados inicial de 85 iPPIs, 25 complexos foram
removidos devido à sua baixa resolução (valor superior a 2,5 Å), presença de ligantes ligados covalentemente ou ausência de dados de
afinidade. As 60 estruturas restantes foram adequadas para treinar e testar as funções de pontuação específicas para iPPIs (Tabela 1).

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 2

Vol:.(1234567890)
Machine Translated by Google
www.nature.com/scientificreports/

Conjuntos de treinamento e teste. Todos os conjuntos de dados foram separados aleatoriamente em um conjunto de treinamento
com 75% das estruturas e um conjunto de teste independente com as estruturas restantes de 25% (Tabela S1). Para as funções
gerais de pontuação, o conjunto central (N=195) foi extraído do conjunto refino, contendo inicialmente 2.959 complexos. Assim, a
seleção aleatória dos complexos para os conjuntos independentes de teste e treinamento foi realizada exclusivamente com os
2.764 complexos restantes. Os 75% aleatórios dos 2.764 complexos usados para treinar as funções gerais de pontuação são
chamados de conjunto de treinamento “Geral::aleatório” (N=2.073, Tabela S1. Além disso, testamos a influência do tamanho do
conjunto de dados de treinamento na capacidade preditiva para as funções gerais de pontuação. Assim, também treinamos
funções gerais de pontuação usando todos os 2.764 complexos proteína-ligante (chamados aqui de "General::all", Tabela S1).
Nesse caso, o desempenho preditivo foi avaliado apenas no núcleo v2013 conjunto (N=195).
Para as proteases, o conjunto de treinamento foi composto por 587 complexos e o conjunto de teste por 196 complexos
distintos, não sendo utilizados durante a etapa de treinamento. Dado o tamanho menor do conjunto de dados iPPI, caracterizamos
a composição dos conjuntos de treinamento e teste de acordo com as famílias de proteínas e a faixa dos dados de afinidade de
ligação (Tabela 1). Complexos de MDM2-like/P53 interagindo com pequenos ligantes são os mais frequentes com 20 estruturas
disponíveis, seguidos pelos complexos de Bromodomain4/Histone (11 complexos) e Blc2-like/BAX (10 complexos).

Preparação das estruturas. Os complexos proteína-ligando do conjunto v2013 refned consistem na unidade completa retirada do
Protein Data Bank (PDB)42 (rcsb.org) e estão disponíveis como estruturas preparadas seguindo um procedimento automático
com alguma inspeção manual realizada por Li e colegas38. Originalmente, os complexos proteína-ligando foram preparados
seguindo um esquema simples de protonação considerando um pH neutro: (i) todos os grupos ácido carboxílico e fosfato foram
desprotonados, e (ii) todos os grupos amina alifática, guanidina e amidina foram protonados. Como bem conhecido, a atribuição
correta dos estados de protonação/tautoméricos de proteínas e ligantes é crucial para o modo de ligação correto e previsões de
afinidade, mas é uma tarefa muito demorada para um grande número de ligantes43–45. Neste trabalho, aplicamos um protocolo
aprimorado para a preparação das estruturas do conjunto v2013 refned usando o Protein Creation Wizard da Maestro (Maestro,
versão 9.7, Schrödinger, LLC, Nova York, NY, 2014). Atribuição de protonação e otimização de ligação de hidrogênio foram
realizadas usando ProtAssign e PROPKA46 considerando a presença do ligante ligado. A protonação e os estados tautoméricos
do ligante foram calculados usando Epik47 (Epik, versão 2.7, Schrödinger, LLC, Nova York, NY, 2014). Os íons metálicos foram
considerados como cofatores, e todas as águas foram removidas das estruturas. Finalmente, a minimização de energia foi
realizada para otimizar as posições dos átomos de hidrogênio. Uma atenção especial foi dada à preparação do core set devido à
sua importância para os estudos de benchmarking. Os estados de protonação/tautoméricos dos resíduos do sítio de ligação e o
ligante ligado do core set foram posteriormente inspecionados visualmente e as correções apropriadas foram feitas guiadas pela
referência original correspondente à respectiva estrutura cristalográfica e ao programa Protoss48.

O conjunto central curado (proteína, ligante e cofatores) está disponível gratuitamente no Material Suplementar. Todas as
estruturas dos conjuntos de dados iPPIs e as proteases de DUD-E foram preparadas usando o mesmo protocolo adotado para o
conjunto principal.

Termos de interação baseados em física. Neste trabalho, implementamos e avaliamos vários termos físico-químicos que
contribuem para a energia livre de ligação para obter descritores pertinentes para a derivação das funções de pontuação
empíricas: interações eletrostáticas proteína-ligando (Ecoul), interações de van der Waals (EvdW), interações de contato
lipofílicas (Elipo), contribuições de solvatação polar (Epolar_solv) e apolar (Enp_solv) e contribuição de entropia torcional do
ligante (Eentropia).

Interações eletrostáticas e de van der Waals proteína-ligante. As interações eletrostáticas proteína-ligando e van der Waals são
calculadas usando o campo de força MMFF94S49,50 . O campo de força MMFF94S foi parametrizado usando dados de mecânica
quântica ab initio de alta qualidade e demonstrou reproduzir com precisão a geometria de ligação proteína-ligante em estudos de
docking51,52. A interação eletrostática Ecoul foi calculada usando:

332.0716qiqj
Ecoul
= ÿ Rij + ÿelec

onde qi e qj são as cargas parciais dos átomos i e j, ÿ é a constante dielétrica, Rij é a distância entre os centros dos átomos i e j
e ÿelec = 0,05 é a constante de buffer eletrostática. As cargas parciais qi e qj são calculadas através de um método de incremento
de carga de ligação a partir de uma carga formal inicial do átomo i (q0 ) e adicionando as contribuições de incremento de carga
de ligação (ÿki), que refletem a polaridade das ligações covalentes dos átomos i e k:
eu

qi = q0i+ÿki

Neste trabalho, avaliamos duas funções dielétricas dependentes da distância sigmoidal para considerar a blindagem
eletrostática devido ao meio dielétrico de complexos proteína-ligante. O primeiro desenvolvido por Hingerty e colegas53 está
atualmente implementado na forma funcional MMFF94S usada pelo programa DockTor para docking proteína-ligando51,52
(disponível como um servidor web em https://www.dockthor.lncc.br):

r 2 er/2,5
ÿ(r) = 78 ÿ 77 2
2.5 er/2,5 ÿ 1

onde r é a separação internuclear entre os átomos i e j.

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 3

Vol.:(0123456789)
Machine Translated by Google
www.nature.com/scientificreports/

A segunda função dielétrica foi formulada por Ramstein e Lavery, permitindo alterar tanto o valor máximo da constante
dielétrica (D) quanto o valor limite do dielétrico (Di) quando a distância interatômica se aproxima de 0 (ÿ(r) ÿ Di quando r ÿ 0)54.
Aqui, testamos os valores de Di de 1 e 4 para simular o dielétrico relativamente baixo no interior dos sítios de ligação de
proteínas55.

D ÿ Di
ÿ(r) = D ÿ (rs) 2 + 2rs + 2 e-rs
2

r é a separação internuclear entre os átomos i e j, s = 0,16 é a inclinação do segmento sigmoidal e D = 78.

Potencial de Te van der Waals (EvdW) conforme implementado no campo de força MMFF94S representando um “Bufered
14–7” form50 inclui constantes de buffer específicas ÿvdW e ÿ = 0,12:

eu j
7(1 + ÿ )Rÿ7 eu j

EvdW = ÿij(1 + ÿvdW )Rÿ ÿ2


R7 + ÿ Rÿ7 ij
Rij + ÿvdW Rÿ eu j eu j

onde Rij é a distância interatômica (Å), ÿij é a profundidade do poço (kcal molÿ1) e Rÿ é a separação de energia mínima (Å),
eu j

que depende dos tipos MMFF94S dos átomos i e j. A constante de buffer original ÿvdW = 0,07 foi substituída neste trabalho por
ÿvdW = 0,67, que foi obtida empiricamente para produzir uma versão mais suavizada do potencial de van der Waals conhecido
como EvdWS.

Interações lipofílicas proteína-ligante. Desenvolvemos dois descritores Elipo para calcular as interações lipofílicas de contato
efeitas Elipo somando todos os pares de átomos hidrofóbicos entre o ligante e a proteína seguindo as formas funcionais
propostas anteriormente nas funções de pontuação ChemScore56 e X-Score57 . Para cada um deles, os átomos considerados
para contatos lipofílicos foram: (i) todos os átomos de carbono, ou (ii) qualquer átomo não hidrogênio com carga parcial MMFF94S
q no intervalo ÿ0,4 < q < +0,4 . Estimamos empiricamente essa faixa de cargas parciais por meio da análise de vários complexos
proteína-ligante parametrizados com o campo de força MMFF94S. O descritor Elipo para cada contato lipofílico seguindo, por
exemplo, o ChemScore é calculado por:

ÿ 1, d ÿ dvdW + 0,5Å
1ÿ dÿdvdW +0,5
Elipo = 3 , dvdW + 0,5Å < d ÿ dvdW + 3,5Å
ÿÿ

ÿÿ
0, d > dvdW + 3,5Å

onde d é a distância entre os pares de átomos e dvdW é a soma de seus raios de van der Waals.

Contribuições de solvatação polares e apolares. Neste trabalho, a contribuição de solvatação foi calculada usando um termo de
solvatação polar, que leva em conta a perda de interações polares dos grupos carregados tanto da proteína quanto do ligante
com o solvente, e um termo de solvatação apolar, que refete a dessolvatação da proteína hidrofóbica e grupos de ligantes devido
à ligação. O termo de solvatação polar Epolar_solv foi calculado somando o número de átomos carregados que ficaram
enterrados após a formação do complexo e não interagindo com um átomo carregado no complexo proteína-ligante. Neste termo,
dois átomos carregados foram considerados como interagindo se a distância entre eles (d) fosse igual ou menor que dvdW +
1,0Å, onde dvdW é a soma de seus raios de van der Waals. Um átomo carregado foi definido como um átomo não-hidrogênio e
um átomo não-carbono com uma carga parcial q > 0,8.
A solvatação apolar Enp_solv foi calculada com base na perda total da área de superfície acessível ao solvente (SAS) da
proteína e do ligante devido à ligação convertida em energia (Enp_solv em kcal molÿ1) seguindo Kuhn e Kollman58. O SAS dos
átomos nos estados livre e complexo foi calculado com o programa MSMS59.

Enp_solv = Gnpcomplex ÿ Gnpproteína + Gnpligande livre

onde Gnp é calculado por:

Gnp = 0,0092 ÿ SAS + 0,82

Contribuição da entropia torcional do ligante. Revisitamos aqui o termo entropia de torção do ligante com base no componente
conformacional da entropia do ligante e decorrente da perda dos graus de liberdade de torção para um ligante flexível após a
ligação. Em vez de uma aproximação bruta baseada no número total de todas as ligações rotativas14-17,19, propomos uma
estimativa melhorada da liberdade de torção perdida do ligante, considerando apenas as ligações rotativas, que se tornam
“congeladas” devido à ligação. Abordagens semelhantes foram adotadas anteriormente para aproximar as contribuições
entrópicas da cadeia lateral da proteína15,60.
As ligações são consideradas “congeladas” com base na alteração das áreas de superfície acessíveis ao solvente dos átomos
do ligante diretamente envolvidos em cada ligação rotatável, visando penalizar apenas os diedros que não conseguem girar após
a formação do complexo.
Primeiramente, cada ligação rotativa do ligante (Fig. 1A) é dividida em dois lados para os dois átomos i e j (Fig. 1B,C). Cada
lado é composto por (i) o átomo i, que está diretamente envolvido na ligação (símbolo *), e (ii) os primeiros vizinhos do átomo i
(símbolo+). O mesmo procedimento é aplicado ao outro lado (átomo j). A variação do SAS (ÿSAS) para cada lado na ligação é
calculada levando em consideração todos os átomos do lado. Se SAS

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 4

Vol:.(1234567890)
Machine Translated by Google
www.nature.com/scientificreports/

Figura 1. Ilustração do algoritmo para cálculo do termo de entropia torcional do ligante. (A) Seleção das ligações
rotativas no ligante. (B e C). Cada ligação rotativa é dividida em dois lados (i em amarelo e j em laranja) e a raiz (*)
e os átomos vizinhos (+) são detectados. (D) Uma ligação rotativa é considerada congelada se ambos os lados
ficarem enterrados com mais de 50% devido à ligação (caso 1). Se pelo menos um lado não ficar enterrado com mais de
50% devido à ligação, a ligação rotativa não é considerada (caso 2).

diminui ÿ50% para os dois lados, a ligação rotativa é considerada congelada devido à ligação. Consideramos que um
ocultamento de uma ligação rotatable em mais de 50% é significativo para a flexibilidade do ligante e, portanto, crítico para
a alteração da entropia do ligante devido à ligação. De fato, o receptor de proteína é mantido rígido durante o docking e
pequenos movimentos de proteína podem compensar uma pequena mudança no SAS de uma ligação rotativa de ligante.
Assim, levamos em consideração apenas as ligações que se tornaram congeladas devido à ligação para a estimativa da
contribuição da entropia torcional do ligante (Fig. 1D).

Derivação de funções de pontuação linear. Realizamos a seleção dos descritores com base na suposição de
que as maiores contribuições para a energia livre de ligação são as interações intermoleculares, representadas
pelas interações de van der Waals e eletrostáticas entre a proteína e o ligante, e a solvatação e as mudanças de
entropia devido ao enlace. Desenvolvemos, assim, descritores independentes que levam em consideração van der
Waals e interações eletrostáticas, contatos lipofílicos proteína-ligante, mudança da entropia conformacional do
ligante e contribuição de solvatação polar/não polar para a ligação (consulte sua definição em “Termos de
interação baseados em física” ). Dez, selecionamos os melhores descritores (veja abaixo), garantindo que todas
as classes de interações acima mencionadas estejam presentes nas funções de pontuação finais, em vez de usar
uma seleção combinatória ou sequencial de descritores.
Aplicamos regressão linear múltipla (MLR) garantindo uma interpretação física das contribuições dos termos individuais.
Uma validação cruzada de dez vezes foi usada para selecionar os descritores baseados em física com melhor desempenho.
Essa seleção inicial do descritor foi aplicada apenas para a derivação da função de pontuação geral, uma vez que foi
treinada com o maior conjunto de treinamento contendo diversos complexos proteína-ligante. Começamos com a função
básica FMMFF contendo o termo eletrostático com a função dielétrica de Ramstein tendendo para 4, Di=4, (Ecoul4) e o
termo sof van der Waals (EvdWS) baseado no campo de força MMFF94S original. Esses dois termos foram selecionados
porque alcançaram a melhor correlação entre as quatro combinações testadas para os termos eletrostático e vdW (consulte a Tabela S2)
Dez, cada um dos descritores baseados em física restantes (contatos lipofílicos, entropia, solvatação polar e solvatação
apolar) foi adicionado individualmente à função básica FMMFF , um de cada vez, para encontrar a melhor variação para
cada um deles levando à melhor correlação em experimentos de validação cruzada. Assim, as combinações aqui avaliadas
foram: FMMFF + contatos lipofílicos (4 variantes), FMMFF + entropia, FMMFF + solvatação polar e FMMFF+solvatação
apolar. As correlações obtidas para todas as combinações estão presentes no Material Suplementar (Tabelas S3 e S4).
Consideramos a melhor variação de cada termo específico para finalmente combiná-los na função de pontuação geral
(Ffnal=FMMFF+ contatos lipofílicos+entropia conformacional do ligante+solvação polar+solvatação apolar). Em seguida, a
melhor combinação de termos da função de pontuação geral foi aplicada às funções de pontuação específicas da classe e
também foi usada para os descritores no desenvolvimento de funções de pontuação não lineares com métodos de
aprendizado de máquina.

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 5

Vol.:(0123456789)
Machine Translated by Google
www.nature.com/scientificreports/

Derivação de funções de pontuação não lineares. Neste trabalho, também desenvolvemos funções de pontuação não
linear usando os algoritmos Support Vector Machine for Regression (SMOReg) e Random Forest (RF). Essas funções de
pontuação foram treinadas usando os mesmos descritores baseados em física selecionados para as funções de pontuação lineares finais.
Support Vector Machine (SVM) visa encontrar o hiperplano que maximiza a margem de separação entre as classes de dados.
Em particular, no aplicativo do kernel, os dados separáveis não lineares originais podem ser transformados em um problema
separável de hiperplano linear em um espaço de dimensão superior61. O SMOReg usa a otimização sequencial mínima (SMO) para
treinar modelos de máquinas de vetor de suporte (SVM) em problemas de regressão. Em problemas de regressão, todos os erros
de predição menores que um valor de ÿ são ignorados (função de perda insensível)30,62. Essa estratégia reduz o risco de overftting
no conjunto de treinamento e é controlada pelo parâmetro de complexidade C, que é definido pelo usuário juntamente com ÿ.

As Florestas Aleatórias (RF) foram introduzidas por Breiman em 2001 como uma estratégia poderosa para aprendizado
conjunto33. O RF combina várias árvores aleatórias (numTrees) em um modelo bagging ensemble, muitas vezes levando a
excelentes resultados em diversos problemas de classificação33,62. A variável de saída de um modelo de RF é geralmente um
valor médio das predições das árvores de regressão (como usado neste trabalho), onde a divisão dos nós é realizada usando um
subconjunto finito de recursos escolhidos aleatoriamente (numFeatures).
Todos os procedimentos de aprendizado de máquina foram realizados usando o pacote Weka v3.8.330. Exploramos diversas
configurações de SMOReg e RF em um procedimento de validação cruzada de dez vezes. Para SMOReg, variamos o parâmetro
de complexidade C, tolerância na função de perda epsilon (ÿ), kernel (puk ou rbf), gama (ÿ) do kernel rbf e sigma (ÿ) e ômega (ÿ) do
kernel puk . No treinamento de RF, exploramos o número de árvores (numTrees) e o número de recursos que são escolhidos
aleatoriamente para dividir o nó pai (numFeatures).
Os parâmetros de aprendizagem testados e seus valores ótimos encontrados estão presentes nas Tabelas S5 e S6,
respectivamente (ver Informações de Apoio).

Validação das funções de pontuação. Precisão de afinidade de ligação. O melhor modelo de cada algoritmo de aprendizado de
máquina foi selecionado de acordo com o coeficiente de correlação de Pearson (R) usando a estratégia de validação cruzada de
dez vezes. Dez, aplicamos as funções de pontuação aos respectivos conjuntos de teste para validar sua previsibilidade de afinidade
de acordo com R e a raiz do erro quadrático médio (RMSE). Ambos R e RMSE foram calculados usando a energia livre de ligação
experimental e prevista (ÿGbind):

N
i=1 yi ÿ y ti ÿ t
R=
N 2 N 2
i=1 yi ÿ y i=1 ti ÿ t

onde yi e ti são respectivamente as afinidades de ligação previstas e experimentais para o i-ésimo complexo, y e t são os valores
médios aritméticos para y e t e N é o número de pontos no conjunto de dados.

N
1 2
RMSE = yi ÿ ti
N
i=1

onde N é o número de pontos no conjunto de dados, yi é a afinidade de ligação prevista e ti é a afinidade de ligação experimental.

Experimentos de triagem virtual. A fim de avaliar o sucesso de nossas funções de pontuação para discriminar compostos ativos e
chamarizes, realizamos experimentos de docking usando o programa de docking de proteína-ligante DockTor51,52 e reavaliação
com DockTScore no conjunto principal e os conjuntos de dados DUD-E63 para as proteases FA7 (fator de coagulação VII, código
PDB 1W7X), RENI (renina, código PDB 3G6Z), TRYB1 (triptase ÿ1, código PDB 2ZEC) e UROK (ativador de plasminogênio do tipo
uroquinase, código PDB 1SQT) e as quinases AKT2 (serina/ quinase de proteína treonina AKT2, código PDB 3D0E), KIT (receptor
do fator de crescimento de células-tronco, código PDB 3G0E) e MK01 (MAP quinase ERK2, código PDB 2OJG). As proteases foram
selecionadas para avaliar o sucesso da triagem das funções de pontuação DockTScore geral e alvo-específica treinadas no conjunto
refinado PDBbind devido ao grande tamanho do conjunto de treinamento usado para calibrar as funções de pontuação focadas para
proteases. Os conjuntos de dados de protease e quinase de DUD-E foram escolhidos de acordo com os seguintes critérios: (i)
nenhum íon metálico interagindo com o ligante, e (ii) ligante cocristalizado reencaixado com sucesso com a solução de alta energia
com RMSDÿ2,0 Å.
Para PPIs, construímos conjuntos de dados de triagem para sistemas Bcl2-like/BAX e MDM2/p53 compostos por ativos retirados do
banco de dados iPPI-DB64 (https://ippidb.pasteur.fr/) e compostos inativos retirados da biblioteca química BDM disponível em
ChemREST (https://chem-rest.pasteur.fr/#?&versioned_sources=8&used_flters=).
O iPPI-DB é um banco de dados que contém a estrutura, algumas características físico-químicas, os dados farmacológicos e o perfl
de cerca de 2.000 moduladores de interações proteína-proteína. Contém exclusivamente moléculas pequenas e, portanto, nenhum
peptídeo. Compostos BDM demonstraram ser negativos nas interações MDM2 e Bcl2 por meio de ensaios de polarização de
fuorescência65. Para os conjuntos de dados de triagem de PPIs, selecionamos apenas os compostos sem centros quirais e com
apenas um estado de protonação/tautômero conforme previsto por Epik. Após a construção dos conjuntos DUD-E, selecionamos
aleatoriamente 50 inativos para cada composto ativo para manter um equilíbrio adequado entre ativos e inativos para avaliar o
desempenho das funções de pontuação em experimentos de triagem virtual. Os códigos PDB 3QKD e 4IPF foram usados para as
estruturas dos receptores da proteína Bcl-2-like 1 e MDM2, respectivamente.

As poses de docking foram geradas com o programa DockTor para docking proteína-ligante disponível gratuitamente como um
servidor web em https://dockthor.lncc.br). O programa DockTor usa uma caixa de grade para definir o espaço de pesquisa, o
algoritmo genético DMRTS como o algoritmo de pesquisa e uma função de pontuação baseada em MMFF94S para pose

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 6

Vol:.(1234567890)
Machine Translated by Google
www.nature.com/scientificreports/

funções de pontuação Ecoul4 EvdWS Elipo Entropia Epolar_solv Enp_solv c0


Geral::randoma 0,0039 0,0386 ÿ0,0111 0,0560 0,1025 0,0169 ÿ5.5197

Geral::allb 0,0045 0,0343 ÿ0,0104 0,0605 0,0987 0,1180 ÿ5,5178

Tabela 2. Coefcientes dos termos obtidos para as funções gerais de pontuação treinadas com MLR. uma função de pontuação
treinada com o conjunto de treinamento aleatório (N=2073). bFunção de pontuação treinada com o conjunto refnado menos o
conjunto básico (N=2764).

previsão51,52. A configuração do espaço de busca de cada proteína-alvo foi determinada automaticamente de acordo com o ligante
de referência: (i) o centro de coordenadas foi definido como o centro de coordenadas do ligante, (ii) o tamanho da grade foi definido
como o maior valor do eixo de o ligante mais uma tolerância de 6 Å em cada dimensão, (iii) a discretização (ou seja, espaçamento
entre dois pontos da grade) foi definida para o valor padrão de 0,25 Å, exceto para os casos em que o tamanho da grade era maior
que 26 Å. Os parâmetros do algoritmo de busca foram definidos da seguinte forma para experimentos de redocking: (i) 24 docking
runs, (ii) 1.000.000 avaliações em cada docking run, (iii) população inicial de 1.000 indivíduos. A função de pontuação baseada em
MMFF94S para classificar as poses de ancoragem (Etotal) consiste em (i) os termos potenciais de torção, eletrostática e Buf-14–7
van der Waals para a energia interna e (ii) os termos eletrostáticos e Buf-14– 7 termos potenciais de van der Waals para as
interações intermoleculares. As poses de encaixe são agrupadas usando nossa ferramenta interna dtstatistic usando um critério de
diversidade igual a 2,0 Å.
Os experimentos de triagem foram realizados usando as facilidades computacionais fornecidas pela plataforma de alto
desempenho SINAPAD (Sistema Nacional de Alto Desempenho, https://www.lncc.br/sinapad/) brasileiro e o Supercomputer
SDumont. Usamos um conjunto de parâmetros do GA chamado “screening virtual” para os experimentos de triagem usados para
reduzir o custo computacional, consistindo em 12 execuções de docking, 500.000 avaliações do GA e população inicial de 750
indivíduos. A pose de acoplamento de energia superior classificada pelo Etotal de energia total foi selecionada para os experimentos
de triagem virtual e previsões de afinidade de ligação.
O sucesso da triagem foi avaliado de acordo com a área sob a curva para as características de operação do receptor (ROC
AUC), o fator de enriquecimento a 1% das bibliotecas rastreadas (ou seja, EF1%) e a discriminação aprimorada de Boltzmann dos
valores ROC (ÿ =20 e ÿ=100, respectivamente BEDROC20 e BEDROC100)66 usando a ferramenta de código aberto para análise
de triagem virtual Rocker67.

Resultados
Desempenho de termos baseados em física para as funções de pontuação. A melhor correlação entre as afinidades preditas e
experimentais (R = 0,493) usando validação cruzada de dez vezes no conjunto de treinamento geral:: aleatório (N = 2.073) com MLR
para uma função de pontuação contabilizando apenas EvdW e Ecoul foi obtida com nosso software suavizado versão do potencial
Buf-14-7 van der Waals (EvdWS, com ÿvdW = 0,67) e o termo eletrostático usando a função dielétrica sigmoidal de Ramstein e
Lavery58 com Di = 4 (Tabela S2), anotado aqui como Ecoul4. A função de pontuação composta apenas pelos termos EvdWS e
Ecoul4 é apontada neste trabalho como a “função de pontuação básica”
FMMFF. Nenhuma correlação foi obtida em experimentos de validação cruzada (R = 0,053) usando apenas os dois termos originais
do campo de força MMFF94S EvdW Buf-14–7 (com ÿvdW = 0,07) e Ecoul (Di = 1). É interessante notar que a melhor correlação foi
obtida com a versão suavizada EvdWS , o que é esperado porque nenhuma minimização de energia das estruturas complexas foi
realizada. Potenciais Sof vdW são mais permissivos para pequenos choques que podem estar presentes, em particular em estruturas
geradas por docking molecular sem minimização de energia subseqüente. Para estruturas derivadas de raios-X, distâncias átomo-
átomo não ligadas mais curtas podem estar presentes quando comparadas a estruturas com energia minimizada por meio de
otimizações clássicas de campos de força. De fato, quando se trata de estruturas não otimizadas como as utilizadas em modelos de
raios-X, é indicado suavizar o potencial Buf-14-7 aumentando a constante de buffer ÿvdW50 . O termo de contato lipofílico Elipo
forneceu melhores resultados quando átomos apolares foram definidos com base nas cargas parciais MMFF94S em vez de
considerar apenas átomos de carbono, alcançando aqui uma correlação de Pearson de R = 0,538 quando adicionado à função de
pontuação básica FMMFF (Tabela S3). Este resultado indicou que nossa descrição dos tipos de átomos de acordo com suas cargas
atômicas parciais, específicas para o campo de força MMFF94S, é relevante. Adicionar nosso termo original e simples para a
solvatação polar também melhorou a precisão da função de pontuação básica FMMFF (R=0,514). Da mesma forma, adicionar o
termo de solvatação não polar ao FMMFF melhorou a correlação em experimentos de validação cruzada dez vezes (R = 0,503). Na
mesma linha, nosso termo melhorado proposto para a contribuição da entropia torcional do ligante demonstrou ser importante para
a previsão de afinidade quando associado à função de pontuação básica, melhorando sua correlação em experimentos de validação
cruzada (R=0,507). A melhoria observada devido aos nossos termos individuais baseados na física permitiu sua validação para
treinamento adicional das funções de pontuação empíricas gerais e específicas do alvo.

Funções gerais de pontuação. Os coeficientes MLR obtidos para as funções de pontuação geral considerando todos os seis
termos validados são apresentados na (Tabela 2). Conforme esperado, os coeficientes estão de acordo com o significado físico dos
termos correspondentes (ou seja, contribuição favorável ou desfavorável). Termos de energia como van der Waals, solvatação
eletrostática e apolar aumentam a afinidade de ligação quando os coeficientes associados têm valores positivos e as interações
correspondentes para Ecoul e Enp_solv são favoráveis para a ligação. O termo empírico relacionado à contagem dos pares de
átomos lipofílicos tem uma contribuição favorável, pois o coeficiente associado tem valor negativo. A solvatação polar e os termos
de entropia são desfavoráveis, pois os coeficientes são positivos.

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 7

Vol.:(0123456789)
Machine Translated by Google
www.nature.com/scientificreports/

Figura 2. Gráfico de correlação das afinidades de ligação experimentais e previstas pelas funções de pontuação geral MLR (esquerda) e RF
(direita). Modelos treinados no conjunto refned PDBbind v2013 (N=2764) e avaliados no conjunto principal v2013 com curadoria
(N=195). R é o coeficiente de correlação de Pearson e RMSE é a raiz do erro quadrático médio dado em kcal molÿ1.

A função de pontuação geral MLR treinada com o conjunto de treinamento aleatório (N = 2.073) exibiu um bom desempenho em
experimentos de validação cruzada dez vezes (R = 0,548) e no conjunto central curado (R = 0,602) e um desempenho inferior no aleatório
conjunto de teste (R=0,494) (Tabela S7). Nossa função de pontuação geral MLR tem capacidade preditiva comparável às melhores funções de
pontuação linear avaliadas, com desempenho próximo ao X-Score:HMScore (R=0,614) e X=Score::SAS (R=0,606) relatado no benchmark v2013
do conjunto principal papel39.
De acordo com a validação cruzada de dez vezes no conjunto de treinamento geral aleatório (N=2073), vê-se que os modelos SMOReg e RF
superaram o modelo MLR, proporcionando desempenhos significativamente melhores com R=0,653 e R=0,655, respectivamente (Tabela S7 ).
Esses resultados confirmam descobertas anteriores de que a regressão não linear pode prever melhor as afinidades de ligação do que a MLR e
que a suposição aditiva adotada nas funções de pontuação linear pode ser muito restritiva68. Usando dois conjuntos de treinamento de tamanhos
diferentes, o General::all one (N=2764) e o General::random one (N=2073) não alteraram o desempenho preditivo do modelo MLR (R=0,601 vs
R=0,602), enquanto o um conjunto de treinamento maior melhorou o desempenho preditivo dos modelos SMOReg e RF no conjunto principal
(Fig. 2 e Tabela S7), respectivamente RSMOReg=0,668 vs RSMOReg=0,687 e RRF=0,678 vs RRF=0,705.

Esses resultados são consistentes com outros estudos avaliando a influência do tamanho do treinamento, indicando que as funções de
pontuação não lineares aumentam o desempenho quando mais dados são incluídos no conjunto de treinamento, enquanto os modelos lineares
parecem ser menos sensíveis ao tamanho do conjunto de treinamento69,70 .

Funções de pontuação específicas do alvo. Proteases. A função de pontuação linear para proteases exibiu bom
desempenho nos experimentos de validação cruzada (R=0,614) e no conjunto de teste independente (R=0,653) (Fig. 3).
Todos os coeficientes foram muito semelhantes aos obtidos para a função de pontuação geral e seus sinais estavam de acordo com o significado
físico dos termos correspondentes (Tabela 3). Da mesma forma que os resultados observados para a função de pontuação geral, os modelos não
lineares para proteases exibiram melhorias significativas na capacidade de predição tanto para o experimento de validação cruzada de dez
vezes ( RSMOReg=0,749 e RRF=0,735) quanto para o conjunto de teste independente (RSMOReg=0,730 e RRF =0,723).

Interações proteína-proteína (PPI). Para a função de pontuação linear iPPI, a representação da solvatação como dois termos independentes leva
a uma contribuição favorável inesperada da solvatação polar em vez de penalizar os átomos carregados enterrados não envolvidos nas interações
carga-carga (Tabela 4). Assim, decidimos considerar um único termo para solvatação polar e apolar (chamado “oneSolv”), que tem a mesma
forma funcional do termo apolar, mas levando em consideração todos os átomos pesados, ou seja, tanto polares quanto apolares. O termo de
solvatação “oneSolv” teve um desempenho ligeiramente melhor para a função de pontuação específica do PPI na validação cruzada do que o
uso de dois termos de solvação (R=0,552 versus R=0,545). Comparando a magnitude dos coeficientes no modelo “oneSolv”, os termos
entrópicos e eletrostáticos apresentaram uma contribuição significativamente maior para iPPIs (Tabela 4). Tem sido amplamente demonstrado
que os iPPIs têm maior hidrofobicidade, aromaticidade e peso molecular em comparação com os inibidores enzimáticos, pois geralmente
interagem em sítios de ligação mais gordos, maiores e mais hidrofóbicos do que os sítios catalíticos da enzima41,71,72 . Diante disso, espera-se
que o efeito hidrofóbico devido à ligação representada aqui pelos termos de contato lipofílico e solvatação “oneSolv” exiba uma contribuição
fortemente favorável para esta classe de complexos. A contribuição desfavorável do termo EvdWS pode ser devido a alguma sobreposição com
o contato lipofílico e os termos de solvatação “oneSolv”. Além disso, um conjunto de dados maior permitiria avaliar melhor a contribuição da
solvatação para a inibição do PPI.

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 8

Vol:.(1234567890)
Machine Translated by Google
www.nature.com/scientificreports/

Figura 3. Gráfico de correlação das afinidades de ligação experimentais e previstas pelas funções de pontuação específicas
de MLR (esquerda) e SMOReg (direita) para proteases. As funções de pontuação foram avaliadas no conjunto de teste
independente para proteases (N = 196). R é o coeficiente de correlação de Pearson e RMSE é a raiz do erro quadrático médio
dado em kcal molÿ1.

funções de pontuação
Ecoul4 EvdWS Elipo Entropia Epolar_solv Enp_solv c0

Proteases 0,0089 0,0399 ÿ0,1120 0,0153 0,0515 0,0809 ÿ4,8954

Tabela 3. Coefcientes dos termos obtidos para as funções de pontuação específicas de protease treinadas com MLR.

funções de pontuação
Ecoul4 EvdWS Elipo Entropia Epolar_solv Enp_solv c0

iPPIs 0,0505 0,0024 ÿ0,0130 0,1967 ÿ0,1698 1.0569 ÿ0,7898

iPPIs-oneSolv 0,0335 ÿ0,0207 ÿ0,0153 0,2038 1.1227 ÿ1,1397

Tabela 4. Coefcientes dos termos obtidos para as funções de pontuação específicas do iPPI treinadas com MLR.

Em relação à entropia do ligante, ela é claramente desfavorável para a ligação. Esperamos que nosso termo entrópico
aprimorado penalizando apenas títulos rotativos congelados em vez de todos os títulos rotativos seja particularmente importante
para a classe PPI, levando em consideração o grande tamanho dos iPPIs e, portanto, um número possivelmente maior de títulos
rotativos. Para confirmar essa hipótese, avaliamos a função de pontuação linear para iPPIs em dez experimentos de validação
cruzada usando o número total comumente usado de ligações rotativas em vez do número de torções congeladas, e obtivemos
uma correlação ligeiramente reduzida (R = 0,515). Nesse contexto, nosso termo entrópico demonstrou ser mais apropriado para
iPPIs do que o número total de ligações rotativas.
Como esperado, as funções de pontuação não linear específicas para iPPIs, principalmente o modelo SMOReg, melhoraram
o desempenho preditivo quando comparadas com o modelo MLR (Fig. 4), obtendo correlações de RSMOReg=0,600 e RRF=0,666
na validação cruzada de dez vezes, e RSMOReg=0,613 e RRF=0,478 no conjunto de teste. Curiosamente, apesar do RF ter
melhor desempenho na validação cruzada de dez vezes, o modelo SMOReg obteve uma melhora real no conjunto de teste.

Triagem virtual. Em geral, as funções DockTScore tiveram um bom desempenho em experimentos de triagem virtual para as
proteases (Tabela 5 e Fig. 5). De acordo com os resultados, os melhores modelos atingiram valores de AUC ROC melhores que
0,70 na maioria dos casos, enquanto o reconhecimento precoce de compostos ativos de acordo com os valores de EF1% e
BEDROC foi variável entre as diferentes proteases estudadas, lembrando que BEDROC100 é muito exigente para o
reconhecimento precoce de ativos. Seguindo a mesma tendência observada para a previsão de afinidade de ligação, os modelos
não lineares geralmente tiveram melhor desempenho do que os modelos MLR em termos de sucesso de triagem. Os melhores
resultados foram obtidos ao usar as funções de pontuação específicas para proteases com o modelo SMOreg sendo a função de
pontuação de melhor desempenho para distinguir ativos de chamarizes. Como exceção, as funções de pontuação geral e
específica do alvo exibiram baixo desempenho preditivo para o alvo TRYB1, com valores de AUC ROC inferiores a 0,651, um
EF1% máximo de apenas 8, BEDROC20 de 0,203, BEDROC100 de 0,167.
Neste caso, a precisão é muito baixa, levando em consideração que, dependendo do tamanho da biblioteca, muitas vezes pode-
se rastrear experimentalmente cerca de 1% dos compostos rastreados in silico. O TRYB1 é um caso particular, sua vinculação

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 9

Vol.:(0123456789)
Machine Translated by Google
www.nature.com/scientificreports/

Figura 4. Gráfico de correlação de afinidade de ligação prevista e prevista por MLR (esquerda) e SMOReg (direita)
funções de pontuação específicas para iPPIs usando um termo de solvatação avaliado no conjunto de teste independente
para iPPIs (N=15). R é o coeficiente de correlação de Pearson e RMSE é a raiz do erro quadrático médio dado em kcal mol-1.

SFs gerais SFs específicos de protease

Alvo Métricas MLR SMOreg RF MLR SMOreg RF


FA7 AUC 0,789 0,860 0,875 0,818 0,893 0,869

ac=112 EF1% (max=52,973) 8,979 9.876 8.979 12.570 17.059 17.059

dez=5.821 BEDROC20 0,299 0,346 0,328 0,350 0,478 0,397

tot=5.933 BEDROC100 0,181 0,181 0,165 0,230 0,333 0,310

RENI AUC 0,786 0,769 0,763 0,807 0,771 0,782

ac=73 EF1% (max=86,425) 16,462 20,577 10.975 17.834 16.462 8.231

dez=6.236 BEDROC20 0,300 0,334 0,271 0,349 0,346 0,268

tot=6.309 BEDROC100 0,253 0,281 0,155 0,283 0,207 0,119

TRYB1 AUC 0,619 0,649 0,614 0,651 0,651 0,633

ac=147 EF1% (máx=51,633) 1,359 1.359 2.038 4.076 7.473 8.153

dez=7.443 BEDROC20 0,099 0,103 0,080 0,141 0,203 0,169

tot=7.590 BEDROC100 0,037 0,040 0,046 0,080 0,167 0,167

UROK AUC 0,740 0,774 0,775 0,762 0,814 0,788

ac=129 EF1% (max=69,837) 7,760 8.536 6.208 11.640 14.743 10.088

dez=8.880 BEDROC20 0,262 0,306 0,295 0,295 0,352 0,283

tot=9.009 BEDROC100 0,123 0,147 0,118 0,179 0,232 0,182

Tabela 5. Sucesso de triagem das funções de pontuação gerais e específicas de alvo treinadas com MLR, SMOreg e RF
para os conjuntos de dados FA7, RENI, TRYB1 e UROK de DUD-E. ac, dec e tot são o número de compostos chamarizes
ativos e o número total de moléculas no conjunto de dados final (ou seja, compostos que foram encaixados e pontuados
novamente com DockTor e DockTScore, respectivamente). Apenas o estado de protonação com maior pontuação de
um composto de acordo com cada função de pontuação (SF) foi mantido.

local é notavelmente exposto ao solvente. Ele está localizado na interface dos dois monômeros TRYB1 pertencentes ao
tetrâmero ativo8, compartilhando assim propriedades semelhantes ao PPI. O ligante cocristalizado está ligado a apenas uma
ligação rotativa “congelada” no dímero de quatro ligações rotativas (Fig. 6). Portanto, também avaliamos o desempenho das
funções de pontuação específicas do DockTScore PPI no alvo TRYB1 (Fig. 7). Curiosamente, a função de pontuação MLR
específica de PPI superou as outras funções de pontuação avaliadas (ou seja, geral e específica de protease, linear e não
linear), alcançando uma curva AUC ROC de 0,762 (SMOregprotease foi 0,651), EF1% = 15,626 ( SMOregprotease foi 7,473 ),
BEDROC20=0,291 (SMOregprotease foi 0,203) e BEDROC100=0,272 (SMOregprotease foi 0,167).
A triagem de ativos e inativos nos dois conjuntos de dados de PPIs resultou em valores de AUC melhores que 0,70 para
os dois alvos para quase todas as funções de pontuação (Tabela 6 e Fig. 8), enquanto o problema de reconhecimento precoce
foi resolvido com sucesso apenas para o tipo Bcl2 sistema, alcançando altos valores de BEDROC de 0,474 (ÿ=20) para
SMOreg e 0,539 (ÿ=100) para MLR. Para o sistema Bcl2-like protein/BAX, as funções de pontuação SMOreg geralmente

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 10

Vol:.(1234567890)
Machine Translated by Google
www.nature.com/scientificreports/

Figura 5. Curvas AUC ROC das funções de pontuação gerais (esquerda) e específicas de protease (direita) treinadas com
MLR, SMOreg e RF para os conjuntos de dados FA7 (A), RENI (B) e UROK (C) de DUD-E .

superou os outros métodos de aprendizado de máquina, enquanto as funções de pontuação específicas do PPI melhoraram o
EF1% e o BEDROC para todos os algoritmos. Curiosamente, a função de pontuação linear específica do PPI, com um valor
AUC ROC satisfatório de 0,709, obteve o melhor valor de EF1% e o maior valor de BEDROC100 de 0,539. No caso do alvo
MDM2, as funções de pontuação gerais não lineares superaram os modelos específicos em termos de AUC ROC, enquanto as
baseadas em RF obtiveram o melhor desempenho geral de triagem. No entanto, para este alvo todos os métodos exibiram
capacidade de reconhecimento precoce insuficiente de acordo com os valores de EF1% e BEDROC.
Além dos alvos de proteases e PPIs, também avaliamos o desempenho de nossas funções gerais de pontuação treinadas
com MLR, SMOreg e RF em três conjuntos de dados de proteínas quinases retirados de DUD-E. As quinases são consideradas
alvos desafiadores principalmente devido à flexibilidade do sítio de ligação, o que frequentemente leva a efeitos de ft induzidos
devido à ligação do ligante. Embora o DockTScore não seja desenvolvido para lidar com a flexibilidade do receptor, nossas
funções de pontuação exibiram desempenhos satisfatórios para duas das três quinases em experimentos de triagem virtual, com

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 11

Vol.:(0123456789)
Machine Translated by Google
www.nature.com/scientificreports/

Figura 6. Representação da superfície dos locais de ligação das proteases (A) FA7, (B) UROK, (C) RENI e (D)
TRYB1 colorido por corrente. O ligante cocristalizado é representado como bastões.

Figura 7. Curvas AUC ROC das funções de pontuação específicas de protease (esquerda) e específicas de PPI (direita)
treinadas com MLR, SMOreg e RF para os conjuntos de dados TRYB1 de DUD-E.

Valores de AUC ROC superiores a 0,745 (Tabela 7 e Fig. 9). É interessante notar que para os alvos AKT2 e MK01, a função MLR
apresentou melhores valores para as métricas iniciais de reconhecimento (por exemplo, EF, BEDROC20 e BEDROC100) do que
as funções não lineares SMOreg (AKT2 e MK01) e RF (somente para MK01). No entanto, para o KIT target todas as funções
obtiveram desempenho insuficiente para todas as métricas avaliadas. É importante notar que nos experimentos de triagem, usamos
uma versão suavizada do campo de força MMFF94S Buf-14-7 para contabilizar implicitamente

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 12

Vol:.(1234567890)
Machine Translated by Google
www.nature.com/scientificreports/

SFs gerais SFs específicos de PPI

Alvo Métricas MLR SMOreg RF MLR SMOreg RF

Proteína semelhante a Bcl2/BAX AUC 0,755 0,838 0,740 0,709 0,801 0,716

ac=98 EF1% (max=51,510) 22,664 20,604 20.604 29.876 23.695 22.664

inac=4.950 BEDROC20 0,370 0,375 0,330 0,471 0,474 0,418

total = 5.048 BEDROC100 0,386 0,368 0,378 0,539 0,445 0,430

MDM2/p53 AUC 0,741 0,791 0,794 0,736 0,654 0,553

ac=114 EF1% (max=50,991) 4,400 4.400 6.154 2.637 1.758 5.275

inac=5.699 BEDROC20 0,204 0,251 0,262 0,163 0,114 0,117

total = 5.813 BEDROC100 0,010 0,112 0,124 0,068 0,042 0,090

Tabela 6. Sucesso de triagem das funções de pontuação gerais e específicas de PPI treinadas com MLR, SMOreg e RF
avaliadas nos conjuntos de dados de proteína tipo Bcl2/BAX e MDM2/p53. ac, inac e tot são o número de compostos ativos
e inativos e o número total de moléculas no conjunto de dados final (ou seja, compostos que foram encaixados e pontuados
novamente com DockTor e DockTScore, respectivamente). Apenas o estado de protonação mais pontuado de cada
composto de acordo com cada função de pontuação (SF) foi mantido.

Figura 8. Curvas AUC ROC das funções de pontuação gerais (esquerda) e específicas de PPI (direita) treinadas com
MLR, SMOreg e RF para os conjuntos de dados Bcl2-like/BAX ( A) e MDM2/p53 (B) .

para a flexibilidade da proteína, de certa forma, permitindo explicitamente pequenos confrontos, reduzindo a energia repulsiva
entre os átomos da proteína-ligante. No entanto, o uso de estratégias que respondem por grandes movimentos do sítio de
ligação, como o docking do ensemble com mais de uma estrutura representativa da proteína, pode ser necessário para obter
melhores resultados de triagem em sistemas altamente flexíveis, como as quinases.

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 13

Vol.:(0123456789)
Machine Translated by Google
www.nature.com/scientificreports/

SFs gerais

Alvo Métricas MLR SMOreg RF

AKT2 AUC 0,769 0,800 0,814

ac=116 EF1% (max=60,414) 24.166 15.535 13.809

dez=6.892 BEDROC20 0,421 0,378 0,379

total = 7.008 BEDROC100 0,394 0,288 0,269

KIT AUC 0,640 0,635 0,657

ac=166 EF1% (max=63,934) 3.016 2.413 5.428

dez=10.447 BEDROC20 0,148 0,146 0,176

total = 10.613 BEDROC100 0,063 0,043 0,090

MK01 AUC 0,786 0,766 0,745

ac=78 EF1% (max=59,308) 10.314 12.893 7.736

dez=4.548 BEDROC20 0,352 0,364 0,340

total = 4,626 BEDROC100 0,153 0,220 0,193

Tabela 7. Sucesso de triagem das funções de pontuação geral treinadas com MLR, SMOreg e RF avaliadas nos conjuntos de
dados AKT2, KIT e MK01 de DUD-E. ac, dec e tot são o número de compostos chamarizes ativos e o número total de moléculas
no conjunto de dados final (ou seja, compostos que foram encaixados e pontuados novamente com DockTor e DockTScore,
respectivamente). Apenas o estado de protonação mais pontuado de cada composto de acordo com cada função de pontuação
(SF) foi mantido.

Figura 9. Curvas AUC ROC para as funções gerais de pontuação treinadas com MLR, SMOreg e RF avaliadas nos conjuntos
de dados AKT2, KIT e MK01 quinase de DUD-E.

Discussão Nós
validamos nossos termos baseados em física para as funções gerais de pontuação usando MLR. Apesar de sua forma mais
simples, o MLR tem a vantagem de fornecer informações práticas sobre as relações entre a afinidade de ligação prevista e a
contribuição individual de cada termo específico para a função de pontuação. Neste trabalho, todas as decisões referentes à
seleção de termos e algoritmos de aprendizado de máquina foram feitas com base em experimentos de validação cruzada no
conjunto de treinamento. A estratégia de selecionar conjuntos de testes aleatórios e independentes, conforme empregada aqui, é
particularmente importante para evitar a superestimação do desempenho. O desempenho da previsão de afinidade de ligação
das funções gerais de pontuação DockTScore é comparável com outras funções de pontuação empíricas bem conhecidas
também testadas no conjunto principal v2013 PDBBind, por exemplo, X-score::HMScore (R= 0,644)57, Surfex-Dock ( R= 0,388)73,
VinaRF20 (R=0,686)74 e RF::VinaElem (R=0,752) (Fig. 10). Obtivemos melhor desempenho no conjunto central cuidadosamente
preparado em comparação com o conjunto de teste aleatório. Uma razão é que a seleção dos complexos para formar o conjunto
principal garantiu que todas as famílias de proteínas neste conjunto de referência também estivessem presentes no conjunto de
treinamento. Além disso, acreditamos que uma preparação correta do sistema, como a atribuição do estado de protonação feita
para o conjunto principal, é importante para a previsão adequada da energia de ligação e uma avaliação confiável das funções
de pontuação com base em uma descrição mais sofisticada das interações proteína-ligante.
Curiosamente, o RF-Score::VinaElem (R=0,752)78, uma função de pontuação não linear baseada em 36 contagens de
distância elemento-elemento, os cinco termos de energia da função de pontuação Vina e o número de ligações rotativas no
ligante, mostrou o melhor desempenho em comparação com outras funções de pontuação bem estabelecidas e validadas no mesmo

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 14

Vol:.(1234567890)
Machine Translated by Google
www.nature.com/scientificreports/

Figura 10. Poder de pontuação dos modelos lineares e não lineares DockTScore em comparação com as funções de
pontuação avaliadas no core set 2013. Performances coletadas da literatura: BT-Score75, CompSPA76 ,
AutoDockHybrid23 e as demais foram recalculadas a partir de dados brutos no trabalho recente de T. Gaillard77.
Os modelos não lineares são destacados com uma estrela. As funções de pontuação com coeficientes de correlação de Pearson
maiores ou iguais a 0,7 são coloridas em roxo e as menores ou iguais a 0,4 são coloridas em vermelho.

conjunto básico v201339 . Por outro lado, foi sugerido recentemente que as funções de pontuação linear, que podem ser menos
precisas para a previsão de afinidade de ligação, mas são compostas de termos significativos de interação proteína-ligante, podem
ser mais robustas do que as funções de pontuação não lineares baseadas apenas em elemento-elemento distância conta4 .
Definitivamente, as abordagens de pares elemento-elemento são menos sensíveis à preparação adequada do conjunto de dados,
descartando a necessidade da tarefa demorada de uma atribuição cuidadosa dos estados de protonação e tipos de átomos. No
entanto, as funções de pontuação com base no cálculo de termos de energia de ligação baseados na física podem capturar mudanças
de energia livre decorrentes de mudanças sutis na interação proteína-ligante, úteis principalmente para otimização hit-to-lead.
É amplamente reconhecido que as funções de pontuação específicas do alvo aumentam a eficiência dos exercícios de triagem
virtual21,24,27. Diferentes estratégias de pontuação de ancoragem direcionadas foram empregadas durante a última década. Alguns
estudos recentes focados na combinação de pontuação e filtragem de farmacóforo/impressão digital mostraram melhorar a seleção
de pose/ligante específica do alvo22,79,80. Decidimos desenvolver novas funções de pontuação específicas do alvo para duas
classes de proteínas para melhorar diretamente a previsão da afinidade de ligação, considerando os termos de interação proteína-
ligante baseados na física. Obtivemos uma melhoria notável para a melhor função de pontuação não linear específica para PPIs (ou
seja, o modelo SMOReg) em comparação com a função de pontuação geral, alcançando um desempenho significativamente maior
R=0,613 contra R=0,431 obtido pela função de pontuação geral SMOReg. Para protease, essa comparação direta não é confiável,
pois a maioria dos complexos de protease presentes no respectivo conjunto de teste também estavam presentes no conjunto de
treinamento usado para derivar as funções de pontuação geral. Funções de pontuação específicas já foram desenvolvidas para alvos
chave de protease bem estabelecidos, como a protease do HIV-128, e seus desempenhos são comparáveis com nossos modelos
SMOreg. A vantagem de nossas funções de pontuação direcionadas para proteases em comparação com os estudos citados acima
é a interpretabilidade física dos termos que descrevem as interações proteína-ligante e bons desempenhos em experimentos de
triagem virtual avaliados com métricas AUC ROC, EF1% e BEDROC para a avaliação de triagem .

Apesar da precisão insuficiente exibida por nossa função de pontuação linear específica para iPPIs no conjunto de teste
independente, ela serviu de base para o desenvolvimento de modelos não lineares usando técnicas SMOReg e RF.
Como esperado, a função de pontuação não linear específica para iPPIs, em particular SMOReg, mostrou uma melhora significativa
do desempenho preditivo quando comparada com o modelo MLR em termos de previsão de afinidade de ligação. No entanto,
analisando as métricas de triagem virtual para o alvo Bcl2, observamos resultados distintos.

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 15

Vol.:(0123456789)
Machine Translated by Google
www.nature.com/scientificreports/

Os valores de AUC obtidos usando as funções específicas do SMOReg são melhores do que os valores obtidos usando os específicos
do MLR, mas a função específica do MLR superou seguindo as métricas de reconhecimento iniciais (principalmente para EF1% e
BEDROC 100). Assim, tanto a previsão de afinidade quanto a classificação de compostos são importantes para avaliar adequadamente
o desempenho das funções de pontuação. Nossas funções de pontuação específicas do PPI foram treinadas com 45 complexos PPI
diferentes, cobrindo assim um espaço de interação PPI maior do que o usado anteriormente para a única função de pontuação linear
relatada específica para iPPIs HADDOCK2P2I36. As duas funções de pontuação específicas do PPI, SMOReg e HADDOCK2P2I,
parecem ter um desempenho semelhante em termos de previsão da afinidade de ligação, embora os estudos tenham sido feitos em
diferentes alvos do PPI. Até onde sabemos, o presente SMOReg DockTScore é a primeira função de pontuação não linear relatada
adaptada para a classe iPPI que facilita a otimização adicional dos termos e do algoritmo de aprendizado de máquina usado para
treinamento. Além disso, os resultados de triagem obtidos para os dois sistemas PPI indicam que nossa função de pontuação
específica para PPI treinada com MLR é suficientemente robusta para ser usada em experimentos de triagem virtual, apesar de ser
treinada com um pequeno conjunto de treinamento. Levando em consideração as poucas funções de pontuação dedicadas a pontuar
adequadamente os inibidores de PPI, as funções de pontuação HADDOCK2P2I e Dock TScore podem ser muito úteis, por exemplo,
para estratégias de pontuação de consenso. Além disso, o crescimento do número de estruturas iPPI derivadas experimentalmente
disponíveis com dados de afinidade associados permite o desenvolvimento de funções de pontuação mais robustas específicas para
PPIs.
Os desempenhos variáveis alcançados pelos modelos DockTScore na validação de triagem para as três diferentes classes de
proteínas (por exemplo, proteases, PPIs e quinases) estão de acordo com outros trabalhos publicados na literatura mostrando que a
precisão das funções de pontuação é fortemente alvo-dependente . Além disso, embora nossas funções de pontuação considerem a
maioria das interações chave para a ligação do ligante, ainda não levamos em consideração algumas contribuições como a entropia
vibracional16 ou casos particulares como moléculas de água presentes no bolso de ligação. A entropia vibracional está fortemente
relacionada com a flexibilidade da proteína e com a entropia do solvente, e sua estimativa precisa não é evidente para ser incluída
nas funções clássicas de pontuação. Outras abordagens como dinâmica molecular ou análise de modo normal podem ajudar a
resolver tais problemas, porém são impraticáveis para um grande número de ligantes e, portanto, estão fora do escopo deste trabalho.
As quinases são conhecidas por serem proteínas muito flexíveis e, em nosso estudo, KIT é a proteína quinase para a qual nossos
modelos exibiram os desempenhos mais baixos em AUC ROC e capacidade de reconhecimento precoce avaliada por EF1% e
BEDROC. A conformação proteica de KIT fornecida pelo banco de dados DUD-E e usada aqui como estrutura de referência é
complexada com o inibidor de quinase sunitinibe. O estado Tat KIT corresponde a uma conformação mais fechada do sítio de ligação
do ATP. A superposição do complexo KIT autoinibido com sunitinib (código PDB 3G0E) e o complexo KIT-ponatinib (código PDB
4U0I), sendo o ponatinib maior que o sunitinib, mostra uma conformação DFG-out inativa induzida da enzima, ilustrando assim duas
possíveis conformações distintas adotada pela enzima devido a diferentes ligantes (Figura S1).

Tais resultados reforçam a importância de uma seleção criteriosa da conformação do receptor a ser utilizada para campanhas de
triagem virtual e a consideração da flexibilidade da proteína até certo ponto81.
Em seguida, muitos inibidores de proteases como TRYB1 e UROK são conhecidos por deslocar moléculas de água interagindo
com resíduos catalíticos do sítio de ligação, porém, em alguns casos tais moléculas podem servir como uma ponte entre o receptor e
o ligante. A análise dos nove complexos experimentais utilizados nos experimentos de triagem virtual mostrou que alguns deles
contêm ligantes capazes de deslocar moléculas de água (por exemplo, as proteases) e/ou conter águas ponte na estrutura
experimental da proteína utilizada na triagem virtual experimentos (por exemplo, FA7, TRYB1 e MDM2). No caso da proteína do tipo
MDM2, existe uma rede complexa de moléculas de água mediando ligações de hidrogênio com o receptor importante para a ligação
do ligante. Tais dados suportam a importância das contribuições entálpicas e entrópicas das moléculas de água no bolso de ligação
para a energia de ligação. A consideração da contribuição decorrente de moléculas de água em ponte é um problema complexo
geralmente tratado com métodos mais sofisticados que levam em conta a flexibilidade de todo o sistema e moléculas de água
explícitas. Desenvolvemos anteriormente o servidor da web AMMOS282, que permite levar em consideração a presença de moléculas
de água explícitas no bolso de ligação para otimizar as interações proteína-ligante previstas.

O melhor desempenho de nossa função de pontuação MLR específica para PPIs no conjunto de dados da protease TRYB1 indica
que ela pode ser aplicada em alvos com perfis semelhantes aos observados para interfaces PPI, como aqueles com locais de ligação
altamente expostos ao solvente. Recentemente, relatamos observações semelhantes ao analisar ligantes cocristalizados expostos a
solventes para apoiar o projeto de novos inibidores de interação proteína-proteína83. Nossa função de pontuação específica para
PPIs também reforça o fato de que funções de pontuação não lineares são mais dependentes de conjuntos de treinamento maiores,
enquanto modelos lineares robustos podem ser desenvolvidos mesmo quando dados escassos para treinamento estão disponíveis.
O crescimento futuro de dados para novas interfaces de PPI, incluindo interfaces de dímeros, permitirá desenvolver funções de
pontuação não lineares mais robustas, específicas para alvos de proteínas com perfis de locais de ligação semelhantes aos encontrados em PPIs.

Conclusão
Neste trabalho, desenvolvemos funções de pontuação gerais e específicas de alvo usando recursos baseados em física para prever
afinidades de ligação de complexos proteína-ligante. As funções de pontuação específicas do alvo foram derivadas para contabilizar
as características de ligação específicas para uma classe alvo de interesse, focando aqui nas proteases e nas interações proteína-
proteína (PPIs). Com relação ao crescente interesse em direcionar PPIs por inibidores de moléculas pequenas, aqui relatamos a
primeira função de pontuação baseada em SVM com bom desempenho, específica para sítios de ligação de PPI, que pode servir
como uma ferramenta valiosa para descobrir novos iPPIs. Os termos aprimorados de solvatação e entropia de torção do ligante foram
implementados no DockTScore para uma representação confiável da ligação do ligante. As funções de pontuação do DockTScore
demonstraram ser competitivas com funções de pontuação de última geração em estudos de benchmarking relatados. Como esperado,
as funções de pontuação não linear geralmente tiveram um desempenho melhor do que os respectivos modelos MLR. Por fim,
demonstramos que as funções de pontuação desenvolvidas neste trabalho também exibiram bons desempenhos em experimentos
de triagem virtual para distinguir compostos ativos de inativos/chamariz para vários alvos proteicos.

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 16

Vol:.(1234567890)
Machine Translated by Google
www.nature.com/scientificreports/

As funções do DockTScore são independentes do software de encaixe e podem ser usadas para previsão de afinidade ou pontuação
de consenso para melhorar o desempenho de abordagens de pontuação de encaixe em experimentos de triagem virtual. Atualmente,
as previsões MLR DockTScore são fornecidas para o dockTor no servidor web DockTor-VS (disponível em www.dockthor.lncc.br).
Todas as funções de pontuação desenvolvidas neste trabalho estão em implementação em um servidor web dedicado.

Disponibilidade de
dados O conjunto central curado do PDBbind v2013, preparado manualmente para garantir os estados de protonação corretos dos
complexos proteína-ligante, está disponível gratuitamente em www.dockthor.lncc.br.

Recebido: 2 de novembro de 2020; Aceito: 20 de janeiro de 2021

Referências 1. Li,
J., Fu, A. & Zhang, L. Uma visão geral das funções de pontuação usadas para interações proteína-ligante em docking molecular. Interdiscip.
ciência Comput. Ciência da Vida. 11, 320–328 (2019).
2. Adeshina, YO, Deeds, EJ & Karanicolas, J. A classificação de aprendizado de máquina pode reduzir falsos positivos na triagem virtual baseada em estrutura. Proc.
Nacional Acad. ciência 117, 18477–18488 (2020).
3. Guedes, IA, de Magalhães, CS & Dardenne, LE Docking molecular receptor-ligando. Biophys. Rev. 6, 75–87 (2014).
4. Gabel, J., Desaphy, J. & Rognan, D. Cuidado com funções de pontuação baseadas em aprendizado de máquina — sobre o perigo de desenvolver caixas pretas.
J. Chem. Inf. Modelo. 54, 2807-2815 (2014).
5. Wang, Z. et al. Avaliação abrangente de dez programas de ancoragem em um conjunto diversificado de complexos proteína-ligante: a precisão da previsão do poder de
amostragem e poder de pontuação. Phys Chem Chem Phys 18, 12964-12975 (2016).
6. Sieg, J., Flachsenberg, F. & Rarey, M. Precisando de controle de viés: avaliando dados químicos para aprendizado de máquina em triagem virtual baseada em estrutura.
J. Chem. Inf. Modelo. 59, 947–961 (2019).
7. Guedes, IA, Pereira, FSS & Dardenne, LE Funções de pontuação empíricas para triagem virtual baseada em estrutura: aplicações,
aspectos críticos e desafios. Frente. Pharmacol. 9, 1–18 (2018).
8. Pason, LP & Sotrifer, CA Funções de pontuação empíricas para previsão de afinidade de complexos proteína-ligante. Mol. Informar. 35,
541–548 (2016).
9. Wójcikowski, M., Ballester, PJ & Siedlecki, P. Desempenho de funções de pontuação de aprendizado de máquina em virtual baseado em estrutura
triagem. ciência Rep. 7, 46710 (2017).
10. Yan, Y., Wang, W., Sun, Z., Zhang, JZH & Ji, C. Componentes empíricos de interação proteína-ligante para triagem virtual. J. Chem.
Inf. Modelo. 57, 1793–1806 (2017).
11. Jiménez Luna, J., Skalic, M., Martinez-Rosell, G. & De Fabritiis, G. KDEEP: previsão de afinidade absoluta de ligação proteína-ligando via
Redes neurais 3D-convolucionais. J. Chem. Inf. Modelo. https://doi.org/10.1021/acs.jcim.7b00650 (2018).
12. Li, H. et al. As funções clássicas de pontuação para docking são incapazes de explorar grandes volumes de dados estruturais e de interação. Bioinforma.
Oxf. Engl. 35, 3989–3995 (2019).
13. Zhao, Q., Ye, Z., Su, Y. & Ouyang, D. Prevendo o desempenho de complexação entre ciclodextrinas e moléculas convidadas por inte
aprendizado de máquina ralado e técnicas de modelagem molecular. Acta Pharm. Pecado. B 9, 1241–1252 (2019).
14. Böhm, HJ Te desenvolvimento de uma função de pontuação empírica simples para estimar a constante de ligação para um complexo proteína-ligante
de estrutura tridimensional conhecida. J. Comput. Mol ajudado. Des. 8, 243-256 (1994).
15. Schapira, M., Totrov, M. & Abagyan, R. Previsão da energia de ligação para pequenas moléculas, peptídeos e proteínas. J. Mol. Reconhecer.
JMR 12, 177–190 (1999).
16. Chang, CA, Chen, W. & Gilson, MK Ligand confgurational entropy and protein binding. Proc. Nacional Acad. ciência 104, 1534–1539
(2007).
17. Huey, R., Morris, GM, Olson, AJ & Goodsell, DS Uma força de energia livre semiempírica felds com dessolvatação baseada em carga. j.
Comput. Chem. 28, 1145–1152 (2007).
18. Chen, J., Brooks, CL & Khandogin, J. Avanços recentes em métodos baseados em solventes implícitos para simulações biomoleculares. atual
Opin. Estrutura. Biol. 18, 140-148 (2008).
19. Huang, S.-Y. & Zou, X. Inclusão de solvatação e entropia na função de pontuação baseada em conhecimento para interações proteína-ligante.
J. Chem. Inf. Modelo. 50, 262–273 (2010).
20. Kar, P., Lipowsky, R. & Knecht, V. Importância da solvatação polar e entropia confguracional para o desenho de medicamentos antirretrovirais
visando a protease do HIV-1. J. Phys. Chem. B 117, 5793–5805 (2013).
21. Seifert, MHJ Otimização robusta de funções de pontuação para uma classe alvo. J. Comput. Mol ajudado. Des. 23, 633-644 (2009).
22. Politi, R., Convertino, M., Popov, K., Dokholyan, NV & Tropsha, A. Acoplar e pontuar com classificador de pose de alvo específico é bem-sucedido na identificação de
pose semelhante à nativa, mas não vincula a previsão de afinidade no CSAR 2014 exercício de referência. J. Chem. Inf.
Modelo. 56, 1032–1041 (2016).
23. Ericksen, SS et al. A pontuação de consenso de aprendizado de máquina melhora o desempenho entre os alvos na triagem virtual baseada em estrutura.
J. Chem. Inf. Modelo. 57, 1579–1590 (2017).
24. Seifert, MHJ Funções de pontuação direcionadas para triagem virtual. Descoberta de Drogas Hoje 14, 562–569 (2009).
25. Palacio-Rodríguez, K., Lans, I., Cavasotto, CN & Cossio, P. A classificação de consenso exponencial melhora o resultado no docking e no docking do conjunto de
receptores. ciência Rep. 9, 5142 (2019).
26. Su, M., Feng, G., Liu, Z., Li, Y. & Wang, R. Tocando na caixa preta: como o poder de pontuação de uma função de pontuação de aprendizado de máquina depende do
conjunto de treinamento? . J. Chem. Inf. Modelo. https://doi.org/10.1021/acs.jcim.9b00714 (2020).
27. Wang, D. et al. Melhorando a capacidade de triagem virtual de funções de pontuação específicas de destino usando métodos de aprendizado profundo. Frente.
Pharmacol. 10, (2019).
28. Wang, W.-J., Huang, Q., Zou, J., Li, L.-L. & Yang, S.-Y. O TS-chemscore, uma função de pontuação específica do alvo, melhora significativamente o desempenho da
pontuação na triagem virtual. Chem. Biol. Droga Des. 86, 1–8 (2015).
29. Logean, A., Sette, A. & Rognan, D. Funções de pontuação personalizadas versus universais: aplicação à ligação MHC-peptídeo de classe I
previsões de energia livre. Bioorg. Med. Chem. Deixe 11, 675–679 (2001).
30. Witten, IH, Frank, E., Hall, MA & Pal, CJ Mineração de dados: ferramentas e técnicas práticas de aprendizado de máquina. (2017).
31. Lai, TL, Robbins, H. & Wei, CZ Forte consistência de estimativas de mínimos quadrados em regressão múltipla. Proc. Nacional Acad. ciência EUA
75, 3034–3036 (1978).
32. Shevade, SK, Keerthi, SS, Bhattacharyya, C. & Murthy, KK Melhorias no algoritmo SMO para regressão SVM. IEEE
Trans. Rede Neural Publ. Rede Neural IEEE. Conselho 11, 1188–1193 (2000).
33. Breiman, L. Florestas aleatórias. Mach. Aprender. 45, 5–32 (2001).
34. Réau, M., Langenfeld, F., Zagury, J.-F., Lagarde, N. & Montes, M. Seleção de chamarizes em conjuntos de dados de benchmarking: visão geral e por
perspectivas. Frente. Pharmacol. 9, 11 (2018).

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 17

Vol.:(0123456789)
Machine Translated by Google
www.nature.com/scientificreports/

35. Pintro, VO & de Azevedo, WF Fluxo de trabalho de triagem virtual otimizado: em direção a funções de pontuação polinomial baseadas em alvo para
protease do HIV-1. Pentear. Chem. Tela de alto rendimento. 20, 820–827 (2017).
36. Kastritis, PL, Rodrigues, JPGLM & Bonvin, AMJJ HADDOCK 2P2I : Um modelo biofísico para prever a afinidade de ligação de inibidores de interação proteína-
proteína. J. Chem. Inf. Modelo. 54, 826-836 (2014).
37. Liu, Z. et al. Coleção de dados de ligação em todo o PDB: status atual do banco de dados PDBbind. Bioinformática 31, 405–412 (2015).
38. Li, Y. et al. Avaliação comparativa das funções de pontuação em um benchmark atualizado: 1. Compilação do conjunto de teste. J. Chem. Inf.
Modelo. 54, 1700-1716 (2014).
39. Li, Y., Han, L., Liu, Z. & Wang, R. Avaliação comparativa de funções de pontuação em um benchmark atualizado: 2. Métodos de avaliação e resultados gerais.
J. Chem. Inf. Modelo. 54, 1717-1736 (2014).
40. Li, Y. et al. Avaliando as funções de pontuação da interação proteína-ligante com o benchmark CASF-2013. Nat. Protoc. 13, 666–680
(2018).
41. Kuenemann, MA, Bourbon, LML, Labbé, CM, Villoutreix, BO & Sperandio, O. Quais características tridimensionais
fazer inibidores eficientes de interações proteína-proteína?. J. Chem. Inf. Modelo. 54, 3067–3079 (2014).
42. Burley, SK et al. Banco de dados de proteínas RCSB: estruturas macromoleculares biológicas que possibilitam a pesquisa e o ensino no ensino fundamental
biologia, biomedicina, biotecnologia e energia. Res. de Ácidos Nucleicos. 47, D464–D474 (2019).
43. Sastry, GM, Adzhigirey, M., Dia, T., Annabhimoju, R. & Sherman, W. Proteína e preparação de ligantes: parâmetros, protocolos e influência em enriquecimentos
de triagem virtual. J. Comput. Mol ajudado. Des. 27, 221–234 (2013).
44. Liu, Z. et al. Forjando a base para o desenvolvimento de funções de pontuação de interação proteína-ligante. Acc. Chem. Res. 50, 302–309 (2017).
45. Su, M. et al. Avaliação comparativa de funções de pontuação: a atualização CASF-2016. J. Chem. Inf. Modelo. 59, 895–913 (2019).
46. Olsson, MHM, Søndergaard, CR, Rostkowski, M. & Jensen, JH PROPKA3: tratamento consistente de resíduos internos e superficiais em previsões empíricas
de pKa. J. Chem. Computação Teórica. 7, 525–537 (2011).
47. Shelley, JC et al. Epik: um programa de software para predição de pKa e geração de estado de protonação para moléculas semelhantes a drogas. J. Comput.
Mol ajudado. Des. 21, 681-691 (2007).
48. Bietz, S., Urbaczek, S., Schulz, B. & Rarey, M. Protoss: uma abordagem holística para prever tautômeros e estados de protonação em proteínas
complexos de ligantes. J. Cheminformatics 6, 12 (2014).
49. Halgren, TA Merck campo de força molecular. I. Base, forma, escopo, parametrização e desempenho do MMFF94. J. Comput. Chem.
17, 490-519 (1996).
50. Halgren, TA Representação de interações de van der Waals (vdW) em campos de força de mecânica molecular: forma potencial, com
regras de binação e parâmetros vdW. Geléia. Chem. Sociedade 114, 7827–7843 (1992).
51. dos Santos, KB, Guedes, IA, Karl, ALM & Dardenne, L. Docking de ligando altamente flexível: benchmarking do programa DockTor no conjunto de dados de
peptídeos de proteína LEADS-PEP. J. Chem. Inf. Modelo. acs.jcim.9b00905 (2020) doi:https://doi.org/10.1021/acs.jcim.9b00905.

52. de Magalhães, CS, Almeida, DM, Barbosa, HJC & Dardenne, LE Uma estratégia dinâmica de algoritmo genético de niching para docking
ligantes altamente flexíveis. Inf. ciência 289, 206-224 (2014).
53. Hingerty, BE, Ritchie, RH, Ferrell, TL & Turner, JE Efeitos dielétricos em biopolímeros: a teoria da saturação iônica revisitada.
Biopolímeros 24, 427-439 (1985).
54. Ramstein, J. & Lavery, R. Acoplamento energético entre a flexão do DNA e a abertura do par de bases. Proc. Nacional Acad. ciência EUA 85, 7231-
7235 (1988).
55. Gilson, MK & Honig, BH Te constante dielétrica de uma proteína dobrada. Biopolímeros 25, 2097–2119 (1986).
56. Eldridge, MD, Murray, CW, Auton, TR, Paolini, GV & Mee, RP Funções de pontuação empíricas: I. Te desenvolvimento de uma função de pontuação empírica
rápida para estimar a afinidade de ligação de ligantes em complexos receptores. J. Comput. Mol ajudado. Des. 11, 425-445 (1997).

57. Wang, R., Lai, L. & Wang, S. Desenvolvimento e validação de funções de pontuação empíricas para previsão de afinidade de ligação baseada em estrutura. J.
Comput. Mol ajudado. Des. 16, 11–26 (2002).
58. Kuhn, B. & Kollman, PA Ligação de um conjunto diversificado de ligantes para avidina e estreptavidina: uma previsão quantitativa precisa de suas afinidades
relativas por uma combinação de mecânica molecular e modelos de solvente contínuo. J. Med. Chem. 43, 3786–3791 (2000).
59. Sanner, MF, Olson, AJ & Spehner, J.-C. Computação rápida e robusta de superfícies moleculares. em 406–407 (ACM Press, 1995).
doi: https://doi.org/10.1145/220279.220324.
60. Abagyan, R. & Totrov, M. Probabilidade tendenciosa Monte Carlo pesquisas conformacionais e cálculos eletrostáticos para peptídeos e
proteínas. J. Mol. Biol. 235, 983–1002 (1994).
61. Bennett, KP & Campbell, C. Máquinas de vetores de suporte: exagero ou aleluia?. ACM SIGKDD Explorar. Newsl. 2, 1–13 (2000).
62. Witten, IH & Frank, E. Mineração de dados: ferramentas e técnicas práticas de aprendizado de máquina. (Morgan Kaufman, 2005).
63. Mysinger, MM, Carchia, M., Irwin, John. J. & Shoichet, BK Diretório de chamarizes úteis, aprimorado (DUD-E): melhores ligantes e
chamarizes para melhor benchmarking. J. Med. Chem. 55, 6582-6594 (2012).
64. Labbé, CM et al. iPPI-DB: um banco de dados online de moduladores de interações proteína-proteína. Res. de Ácidos Nucleicos. 44, D542–D547
(2016).
65. Reynès, C. et al. Projetando bibliotecas químicas focadas enriquecidas em inibidores de interação proteína-proteína usando aprendizado de máquina
métodos. Computação PLOS. Biol. 6, e1000695 (2010).
66. Truchon, J.-F. & Bayly, CI Avaliando métodos de triagem virtual: métricas boas e ruins para o problema de “reconhecimento precoce”. j.
Chem. Inf. Modelo. 47, 488-508 (2007).
67. Lätti, S., Niinivehmas, S. & Pentikäinen, OT Rocker: ferramenta de código aberto e fácil de usar para AUC e cálculos de enriquecimento e
Visualização ROC. J. Cheminformatics 8, 45 (2016).
68. Williams, DH & Bardsley, B. Estimando constantes de ligação: o efeito hidrofóbico e cooperatividade. Perspectiva. Descoberta de Drogas Des.
17, 43–59 (1999).
69. Ain, QU, Aleksandrova, A., Roessler, FD & Ballester, PJ Funções de pontuação de aprendizado de máquina para melhorar a previsão de afinidade de ligação
baseada em estrutura e triagem virtual: SFs de aprendizado de máquina para melhorar a previsão de afinidade de ligação baseada em estrutura e triagem
virtual . Wiley Interdiscip. Rev. Comput. Mol. ciência n/an/a (2015) doi:https://doi.org/10.1002/wcms.1225.
70. Fresnais, L. & Ballester, PJ Te impacto do tamanho da biblioteca composta no desempenho de funções de pontuação para estrutura baseada
triagem virtual. Apresentação. bioinform. https://doi.org/10.1093/bib/bbaa095 (2020).
71. Lagorce, D., Douguet, D., Miteva, MA & Villoutreix, BO Análise computacional de cálculo físico-químico e ADMET
propriedades dos inibidores de interação proteína-proteína. ciência Rep. 7, (2017).
72. Morelli, X., Bourgeas, R. & Roche, P. Lições químicas e estruturais de sucessos recentes na inibição da interação proteína-proteína (2P2I). atual Opin. Chem.
Biol. 15, 475–481 (2011).
73. Cheng, T., Li, X., Li, Y., Liu, Z. & Wang, R. Avaliação comparativa de funções de pontuação em um conjunto de teste diversificado. J. Chem. Inf. Modelo.
49, 1079-1093 (2009).
74. Wang, C. & Zhang, Y. Melhorando os poderes de triagem de encaixe de pontuação de funções de pontuação de ligante de proteína usando floresta aleatória. j.
Comput. Chem. 38, 169–177 (2017).
75. Ashtawy, HM & Mahapatra, NR Funções de pontuação específicas da tarefa para prever poses de ligação de ligantes e afinidade e para enriquecimento de
triagem. J. Chem. Inf. Modelo. 58, 119–133 (2018).
76. Yan, Z. & Wang, J. Otimizando a afinidade e especificidade da ligação do ligante com a inclusão do efeito de solvatação. Estrutura das Proteínas.
Função Bioinforma. 83, 1632-1642 (2015).

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 18

Vol:.(1234567890)
Machine Translated by Google
www.nature.com/scientificreports/

77. Gaillard, T. Avaliação do AutoDock e do AutoDock Vina no Benchmark CASF-2013. J. Chem. Inf. Modelo. 58, 1697-1706 (2018).
78. Li, H., Leung, K.-S., Wong, M.-H. & Ballester, P. Dados estruturais e de interação de baixa qualidade melhoram a previsão da afinidade de ligação
via floresta aleatória. Moléculas 20, 10947–10962 (2015).
79. Kooistra, AJ et al. Triagem virtual de função específica para ligantes de GPCR usando um método de pontuação combinado. ciência Rep. 6, (2016).
80. Martin, EJ & Sullivan, DC Surrogate AutoShim: predocking em um receptor de quinase de conjunto universal para tridimensional
previsão de atividade, muito rapidamente, sem uma estrutura cristalina. J. Chem. Inf. Modelo. 48, 873-881 (2008).
81. Cleves, AE & Jain, AN Estrutura e triagem virtual baseada em ligante em DUD-E+: dependência de desempenho em aproximações
para o bolso de encadernação. J. Chem. Inf. Modelo. 60, 4296–4310 (2020).
82. Labbé, CM et al. AMMOS2: um servidor web para refino de complexos proteína-ligante-água via mecânica molecular. Nucleic Acids Res 45, W350–
W355 (2017).
83. Trisciuzzi, D. et al. Análise de ligantes co-cristalizados expostos a solvente e enterrados: um estudo de caso para apoiar o design de novos
inibidores da interação proteína-proteína. Droga descoberta hoje. 24, 551–559 (2019).

Agradecimentos Os autores
agradecem ao CNPq (Grant 308202/2016-3), Faperj (Grant E-26/010.001229/2015), PCI-LNCC (Grant 300463/2019-7 e
312604/2016-5), à agência francesa ANR (Grant ToxME), Instituto INSERM e Universidade de Paris pelo apoio financeiro.
Agradecemos o apoio do Sistema Nacional de Processamento de Alto Desempenho (SINAPAD) e a disponibilidade dos
recursos computacionais fornecidos pelo Supercomputador SDumont (LNCC/MCTIC).

Contribuição dos autores


Conceituação: MAM, IAG e LED; metodologia, MAM, IAG, AMSB e LED; software, IAG, EK, DM e LED; validação e
análise, IAG e LED; investigação, IAG, MAM e LED; recursos, MAK, SO, LED; curadoria de dados, IAG, MAK, OS, redação
—preparação do rascunho original, IAG, LED e MAM.; redação-revisão e edição, IAG, OS, LED e MAM Todos os autores
leram e concordaram com a versão publicada do manuscrito.

Financiamento Esta pesquisa foi financiada pelo CNPq, bolsas 307634/2019-1 e 306894/2019-0; pela FAPERJ, bolsas
de números E-26/010.001229/2015 e E-26/210.935/2019; pelas bolsas PCI-LNCC números 300463/2019-7 e
312604/2016-5, pela agência francesa ANR (grant ToxME), pelo instituto INSERM e pela Universidade de Paris.

Interesses conflitantes Os
autores declaram não haver interesses conflitantes.

Informações adicionais
Informações complementares A versão online contém material complementar disponível em https://doi. org/10.1038/
s41598-021-82410-1.

Correspondência e pedidos de materiais devem ser endereçados ao LED ou MAM

Informações sobre reimpressões e permissões estão disponíveis em www.nature.com/reprints.

Nota do editor A Springer Nature permanece neutra em relação a reivindicações jurisdicionais em mapas publicados e afiliações
institucionais.

Acesso Aberto Este artigo está licenciado sob uma Licença Internacional Creative Commons Attribution 4.0, que
permite o uso, compartilhamento, adaptação, distribuição e reprodução em qualquer meio ou formato, desde que
você dê o devido crédito ao(s) autor(es) original(is) e à fonte, forneça um link para a licença Creative Commons e indique se foram
feitas alterações. As imagens ou outro material de terceiros neste artigo estão incluídos na licença Creative Commons do artigo,
a menos que indicado de outra forma em uma linha de crédito para o material. Se o material não estiver incluído na licença
Creative Commons do artigo e seu uso pretendido não for permitido pela regulamentação estatutária ou exceder o uso permitido,
você precisará obter permissão diretamente do detentor dos direitos autorais. Para ver uma cópia desta licença, visite http://
creativecommons.org/licenses/by/4.0/.

© Te Autor(es) 2021 See More

Relatórios Científicos | (2021) 11:3198 | https://doi.org/10.1038/s41598-021-82410-1 19

Vol.:(0123456789)

Você também pode gostar