Escolar Documentos
Profissional Documentos
Cultura Documentos
Química Computacional Aplicada A QSAR - Prof. João Paulo Martins - CENAPAD 2010
Química Computacional Aplicada A QSAR - Prof. João Paulo Martins - CENAPAD 2010
CENAPAD-SP
SUMÁRIO 2
Sumário
1 Introdução 5
3 Prática 1 17
3.1 Desenhar moléculas . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 Converter formato de arquivo . . . . . . . . . . . . . . . . . . 18
3.3 Otimização de geometria utilizando GAMESS . . . . . . . . . 18
3.4 Cálculo de energia e cargas CHELPG usando DFT . . . . . . 20
3.5 Montando a tabela de descritores . . . . . . . . . . . . . . . . 22
3.5.1 Cargas atômicas . . . . . . . . . . . . . . . . . . . . . . 22
3.5.2 Energias . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.5.3 Descritores de lipofilia e solubilidade . . . . . . . . . . 26
3.5.4 Descritores topológicos e constitucionais . . . . . . . . 28
5 Prática 2 36
5.1 Construindo modelos QSAR . . . . . . . . . . . . . . . . . . . 36
5.1.1 Corte pela correlação . . . . . . . . . . . . . . . . . . . 36
5.1.2 Seleção de variáveis com OPS . . . . . . . . . . . . . . 36
5.2 Validação Leave-N-Out . . . . . . . . . . . . . . . . . . . . . . 38
5.3 Validação y-randomization . . . . . . . . . . . . . . . . . . . . 38
6 Descritores LQTA-QSAR 40
6.1 Metodologia LQTA-QSAR . . . . . . . . . . . . . . . . . . . . 41
CENAPAD-SP
LISTA DE FIGURAS 3
7 Prática 3 43
7.1 Criando arquivos de topologia . . . . . . . . . . . . . . . . . . 43
7.2 Dinâmica molecular usando o GROMACS . . . . . . . . . . . 45
7.3 Executando os alinhamentos . . . . . . . . . . . . . . . . . . . 47
7.4 Rodando o programa LQTAgrid . . . . . . . . . . . . . . . . . 48
Lista de Figuras
1 Moléculas a serem desenhadas . . . . . . . . . . . . . . . . . . 17
2 Otimização usando o programa ChemSketch . . . . . . . . . . 18
3 Convertendo formato de arquivo com OpenBabel . . . . . . . 19
4 Selecionando base . . . . . . . . . . . . . . . . . . . . . . . . . 20
5 Tipo de cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . 20
6 Escolhendo conjunto de base . . . . . . . . . . . . . . . . . . . 21
7 Tipo de cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . 22
8 Reservando memória . . . . . . . . . . . . . . . . . . . . . . . 22
9 Escolha do funcional . . . . . . . . . . . . . . . . . . . . . . . 23
10 Selecionando cargas CHELPG na saı́da do GAMESS . . . . . 24
11 Colando cargas CHELPG no arquivo mol2 . . . . . . . . . . . 24
12 Observando momentos de dipolo . . . . . . . . . . . . . . . . . 25
13 Visualizando cargas atômicas com o programa Chimera . . . . 25
14 Energia total . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
15 Calor de formação . . . . . . . . . . . . . . . . . . . . . . . . 27
16 Número de orbitais ocupados . . . . . . . . . . . . . . . . . . 27
17 Energias dos orbitais HOMO e LUMO . . . . . . . . . . . . . 28
18 Calculando valores de logP e logS . . . . . . . . . . . . . . . . 29
19 Calculando descritores com o programa pclient . . . . . . . . . 29
20 Programa QSAR modeling . . . . . . . . . . . . . . . . . . . . 37
21 Exemplo de gráfico para Leave-N-Out . . . . . . . . . . . . . . 38
22 Exemplo de gráfico para y-randomization . . . . . . . . . . . . 39
23 Caixa 3D (grid) gerada pelo programa LQTA grid . . . . . . . 42
24 Adicionando cargas com o programa Chimera . . . . . . . . . 43
25 Escolhendo modelo de cargas . . . . . . . . . . . . . . . . . . 44
26 Escolhendo método . . . . . . . . . . . . . . . . . . . . . . . . 44
27 Salvando arquivo como mol2 . . . . . . . . . . . . . . . . . . . 45
28 Editando arquivo itp . . . . . . . . . . . . . . . . . . . . . . . 46
29 Editando arquivo lig.top . . . . . . . . . . . . . . . . . . . . . 47
30 Exemplo de arquivo de entrada para o LQTAgrid . . . . . . . 49
31 Programa LQTAgrid . . . . . . . . . . . . . . . . . . . . . . . 49
CENAPAD-SP
LISTA DE TABELAS 4
Lista de Tabelas
1 Parâmetros estatı́sticos calculados durante a validação cruzada. 34
CENAPAD-SP
1 Introdução 5
1 Introdução
Um ramo da Quı́mica de grande interesse atualmente é o planejamento de
fármacos com o auxı́lio do computador. A possibilidade de projetar com-
postos com propriedades bem definidas evitando os custos da sı́ntese expe-
rimental exploratória de grande número de substâncias tem impulsionado
muita pesquisa nessa área. Os fundamentos necessários para um projeto efe-
tivo nessa área estão na relação estrutura atividade quantitativa (QSAR1 ).
Nas técnicas utilizadas em QSAR considera-se que existe uma relação en-
tre as propriedades de uma molécula e sua estrutura e tentam-se estabelecer
relações matemáticas simples para descrever e, em seguida, prever uma dada
propriedade para um conjunto de compostos, geralmente pertencentes a uma
mesma famı́lia quı́mica. O estudo de QSAR compreende também a definição
dos descritores moleculares capazes de caracterizar satisfatoriamente conjun-
tos moleculares diferentes e o tratamento estatı́stico que pode ser aplicado a
esses descritores a fim de melhorar sua capacidade preditiva.
As técnicas utilizadas em QSAR surgiram desde 1863 quando Cros, da
universidade de Estrasburgo, observou que a toxicidade de álcoois em ma-
mı́feros aumentava quando suas solubilidades em água diminuı́am. Crum-
Brown e Fraser postularam em 1868 que uma relação entre as atividades
fisiológicas e as estruturas quı́micas existiam. Mais tarde, Richet propôs que
a toxicidade de alguns álcoois e éteres era inversamente proporcional à suas
solubilidades em água. Por volta de 1900, Meyer e Overton, trabalhando in-
dependentemente, estabeleceram relações lineares entre a ação narcótica de
alguns compostos orgânicos e uma distribuição de coeficientes de solubilidade
em água e em lipı́dios, descrevendo um parâmetro que pode ser considerado
como um precursor do atual log P, o coeficiente de partição octanol-água.
Em 1939, Ferguson estudou o comportamento de propriedades diversas (so-
lubilidade em água, partição, capilaridade, e pressão de vapor) em relação à
atividade tóxica de diferentes séries homólogas de compostos [13].
Mesmo considerando estes procedimentos como as raı́zes do atual QSAR,
no final da década de 30 Hammett propôs o primeiro procedimento meto-
dológico de propósito geral. Hammett verificou que as constantes de equilı́brio
de ionização dos ácidos benzóicos meta e para substituı́dos estavam relacio-
nadas. Esta relação levou à definição da chamada constante de Hammett σ.
Este parâmetro tornou-se um descritor capaz de caracterizar a atividade de
muitos conjuntos de moléculas. Utilizando esta abordagem como um passo
inicial, outros descritores foram propostos, mas sem a mesma relevância da
constante de Hammett.
1
do inglês quantitative structure-activity relationship
CENAPAD-SP
1 Introdução 6
CENAPAD-SP
1 Introdução 7
CENAPAD-SP
2 Geração de descritores em QSAR 2D 8
CENAPAD-SP
2.1 Desenho e otimização de geometria 9
• Cada campo de força apresenta bons resultados para uma classe limi-
tada de moléculas;
CENAPAD-SP
2.1 Desenho e otimização de geometria 10
h̄2 d2 Ψ(x)
− + V (x)Ψ(x) = EΨ(x) (4)
2m dx2
ou simplesmente
ĤΨ = EΨ (5)
2
h̄ d2
onde Ĥ = − 2m dx2
+ V (x) é o operador Hamiltoniano e E é a energia do
sistema.
Para uma partı́cula em um sistema de coordenadas de três dimensões o
operador Hamiltoniano tem a seguinte forma
h̄2 2
Ĥ = − ∇ + V (x, y, z) (6)
2m
∂ 2 ∂ ∂ 2 2
onde ∇2 = ∂x 2 + ∂y 2 + ∂z 2 .
CENAPAD-SP
2.1 Desenho e otimização de geometria 11
N N
h̄2 2 h̄2 X 2 0 X Ze2 X X e2
− ∇ (A) − ∇ (i ) − + (7)
2M 2M i=1 i=1
ri r
i<j ij
CENAPAD-SP
2.1 Desenho e otimização de geometria 12
b
X
φi = csi χs
s=1
X b
X
csi F̂ χs = i csi χs
s=1 s=1
b
X
csi (Frs − i Srs ) = 0 ; r = 1, 2, · · · , b
s=1
D E
Frs = χr F̂ χs ; Srs = hχr |χs i
det(Frs − i Srs ) = 0 (9)
CENAPAD-SP
2.1 Desenho e otimização de geometria 13
conjunto de cinco funções (1s, 2s, 2px , 2py , 2pz ) para os átomos de lı́tio
até o neônio. Cada uma das funções de base na representação STO-3G é
expandida em termos de três funções Gaussianas, sendo que os valores
dos expoentes Gaussianos e os coeficientes lineares são determinados
pelo método dos quadrados mı́nimos para melhor se ajustar a funções
do tipo Slater (exponenciais).
3-21G e 6-31G: Uma outra abordagem utilizada na construção de um con-
junto de base é fazer uma separação entre os elétrons mais internos e
os elétrons de valência. Assim, os elétrons mais internos seriam repre-
sentados por um único conjunto de funções e os elétrons de valência
seriam representados por dois conjuntos de funções.
Dentre os conjuntos de base mais simples que separam os elétrons de
valência estão os conjuntos 3-21G e 6-31G. Os orbitais atômicos para
os elétrons internos no conjunto de base 3-21G é representado por uma
única função, que por sua vez é escrita em função de três funções Gaus-
sianas, enquanto que os elétrons de valência mais internos e mais ex-
ternos são representados, respectivamente, pela expansão de 2 funções
Gaussianas e 1 função Gaussiana. O Conjunto de base 6-31G é cons-
truı́do de maneira similar, tendo os orbitais mais externos representados
em termos de seis funções Gaussianas e os orbitais de valência divididos
em três e um componente Gaussianos.
Conjuntos de base de polarização: A representação de átomos mais pe-
sados exige a introdução de orbitais do tipo d. Um conjunto de base
de polarização representa os orbitais atômicos mais internos por um
único conjunto de funções e os orbitais atômicos de valência por dois
(ou mais) conjuntos de funções e inclui um conjunto de funções de po-
larização do tipo d para os elementos mais pesados e um conjunto do
tipo p de funções de polarização para o hidrogênio.
Entre os conjuntos de base de polarização mais simples estão 6-31G*
e 6-311G*, construı́dos a partir dos conjuntos 6-31G e 6-311G, respec-
tivamente, adicionando-se seis funções Gaussianas do tipo d para cada
átomo pesado. O conjunto de base 6-31G** é idêntico ao conjunto 6-
31G*, exceto pelo fato de que no primeiro temos funções de polarização
do tipo p para o hidrogênio.
CENAPAD-SP
2.1 Desenho e otimização de geometria 14
• Coupled Cluster
CENAPAD-SP
2.2 Descritores em QSAR 2D 15
CENAPAD-SP
2.2 Descritores em QSAR 2D 16
CENAPAD-SP
3 Prática 1 17
3 Prática 1
3.1 Desenhar moléculas
• Abra o programa ChemSketch e desenhe as moléculas indicadas na
Figura 1.
CENAPAD-SP
3.2 Converter formato de arquivo 18
CENAPAD-SP
3.3 Otimização de geometria utilizando GAMESS 19
• Vá em “File”, “Open” e abra a molécula que você salvou como entrada
do GAMESS quando usou o OpenBabel.
CENAPAD-SP
3.4 Cálculo de energia e cargas CHELPG usando DFT 20
CENAPAD-SP
3.4 Cálculo de energia e cargas CHELPG usando DFT 21
CENAPAD-SP
3.5 Montando a tabela de descritores 22
CENAPAD-SP
3.5 Montando a tabela de descritores 23
• Com o mesmo editor abra o arquivo mol2 que você acabou de converter
e cole as cargas CHELPG (Figura 11).
• Observe quais átomos são comuns às suas moléculas (“esqueleto” básico),
anote as cargas na ordem correta e monte uma tabela (Figura 13).
CENAPAD-SP
3.5 Montando a tabela de descritores 24
CENAPAD-SP
3.5 Montando a tabela de descritores 25
CENAPAD-SP
3.5 Montando a tabela de descritores 26
3.5.2 Energias
• No arquivo de saı́da do GAMESS procure pela energia total (Figura
14).
CENAPAD-SP
3.5 Montando a tabela de descritores 27
CENAPAD-SP
3.5 Montando a tabela de descritores 28
CENAPAD-SP
3.5 Montando a tabela de descritores 29
CENAPAD-SP
3.5 Montando a tabela de descritores 30
CENAPAD-SP
4 Quimiometria aplicada a QSAR 31
y = β0 1 + Xk βk + εk (10)
onde y é um vetor n-dimensional contendo as propriedades ou atividades da
famı́lia molecular estudada, 1 é o vetor unidade, X(k) é a matriz de descri-
tores (n x k) e εk é um erro normalmente distribuı́do tendo valor esperado
zero e matriz de dispersão 1σ 2 . Os estimadores β são calculados usando
uma técnica de quadrados mı́nimos. Para simplificar o modelo preditivo é
necessário construir regressões envolvendo o mı́nimo de descritores. Diversos
descritores diferentes podem ser usados como parâmetros.
Quando se usa a matriz de descritores (X) diretamente na equação 10,
o método de regressão é conhecido como regressão linear múltipla (MLR3 ).
No entanto, pode-se usar no lugar da matriz X outras matrizes contendo
combinações lineares das variáveis em X. Os principais métodos que usam
desse expediente são a regressão de componentes principais (PCR4 ) e a re-
gressão de quadrados mı́nimos parciais (PLS5 ). Nesses métodos a matriz X
é decomposta em duas outras matrizes
X = TLt (11)
onde a matriz T é conhecida como matriz de escores e a matriz L é conhecida
como matriz de pesos ou “loadings”. Na matriz de escores cada coluna é uma
combinação linear dos descritores da matriz X e a regressão passa a ser feita
com a matriz T.
3
do inglês Multiple Linear Regression
4
do inglês Principal Components Regression
5
do inglês Partial Least Squares
CENAPAD-SP
4.2 Pré-processamento 32
4.2 Pré-processamento
Antes de se aplicar qualquer método matemático à tabela de dados (ma-
triz X) que contém os descritores é necessário aplicar um pré-processamento
adequado. Os principais métodos de pré-processamento usados em QSAR
são:
• Centrar na média
• Autoescalar
CENAPAD-SP
4.3 Validação cruzada 33
4.2.2 Autoescalar
Autoescalar consiste em, além de centrar na média, dividir todos os elementos
de uma coluna pelo desvio padrão dessa coluna (equação 13).
Xij − X̄j
Xij (a) = (13)
σj
onde σj é o desvio padrão dos valores para o descritor j.
Costuma-se autoescalar os dados quando os descritores são de natureza
diferente ou apresentam faixas de valores bem diferentes. Em geral, o auto-
escalamento é o pré-processamento utilizado em QSAR.
4.4 Outliers
A qualidade das amostras presentes em um conjunto de treinamento pode ser
avaliada calculando-se o erro no cálculo da atividade prevista pelo modelo
construı́do. Se o valor absoluto da diferença entre o valor real da atividade
CENAPAD-SP
4.5 Seleção de variáveis com o algoritmo OPS 34
Parâmetro Equação
Pi=I
P RESScv i=1 (y(i) − ycv (i))2
Pi=I
P RESScal i=1 (y(i) − ycal (i))2
Pi=I
i=1 (y(i)−ȳ)(ycv (i)−ȳcv )
Rcv σy σycv
Pi=I
i=1 (y(i)−ȳ)(ycal (i)−ȳcal )
Rcal σy σycal
P RESScv
q2 1− Pi=I
i=1 (y(i)−ȳ)
r2 1 − PPi=I
RESScal
q i=1 (y(i)−ȳ)
P RESScv
RM SECV I
q
P RESScal
RM SEC I
q
P RESScv
SP RESS I−nV L−1
biológica e o valor previsto pelo modelo for superior a duas vezes o desvio
padrão da atividade biológica, provavelmente essa amostra será um outlier.
A remoção de um outlier pode melhorar a qualidade estatı́stica de um
modelo. No entanto, deve-se evitar ao máximo a remoção de um outlier, pois
em estudos de QSAR geralmente a quantidade de amostras é muito pequena
quando comparada ao que se tem disponı́vel em outros estudos envolvendo
análise multivariada. Caso isso seja inevitável, é importante tentar achar uma
explicação quı́mica ou biológica para o fato de o composto ser classificado
como um outlier.
CENAPAD-SP
4.6 Validação externa 35
CENAPAD-SP
4.8 y-randomization 36
4.8 y-randomization
Uma limitação da validação cruzada é que ela não fornece uma significância
estatı́stica do poder de predição estimado. Para obter uma estimativa da
significância de um valor de q 2 obtido para um dado modelo, deve-se desen-
volver modelos paralelos com os valores dos descritores originais mantidos
(matriz X) e os valores da variável dependente (vetor y) permutados entre
as amostras.
Assim, o valor real de q 2 deve ser bem maior que os valores obtidos para
os modelos paralelos. Esse procedimento, chamado de y-randomization, é
extremamente útil para assegurar que o modelo QSAR não foi obtido ao
acaso. Recomenda-se que os modelos com os valores de y permutados não
apresentem valor de r2 superior a 0,4 e valor de q 2 superior a 0,05 [19].
5 Prática 2
5.1 Construindo modelos QSAR
5.1.1 Corte pela correlação
• Abra o programa QSAR modeling (Figura 20)
• Abra o arquivo “Set1.dat” (matriz com descritores) e “yset1.dat” (vetor
contendo as atividades biológicas).
• Em “Executar” selecione “Corte pela correlação”.
• Escolha o valor de 0.4 para o corte e salve a matriz.
CENAPAD-SP
5.1 Construindo modelos QSAR 37
CENAPAD-SP
5.2 Validação Leave-N-Out 38
CENAPAD-SP
5.3 Validação y-randomization 39
CENAPAD-SP
6 Descritores LQTA-QSAR 40
CENAPAD-SP
6.1 Metodologia LQTA-QSAR 41
CENAPAD-SP
6.1 Metodologia LQTA-QSAR 42
CENAPAD-SP
7 Prática 3 43
7 Prática 3
7.1 Criando arquivos de topologia
• Otimize a geometria de sua molécula usando um programa como Gaus-
sian ou Gamess.
• Clique em OK.
CENAPAD-SP
7.1 Criando arquivos de topologia 44
CENAPAD-SP
7.2 Dinâmica molecular usando o GROMACS 45
• Copie a pasta contendo todos esses arquivos para a sua área no ambi-
ente CENAPAD.
CENAPAD-SP
7.2 Dinâmica molecular usando o GROMACS 46
CENAPAD-SP
7.3 Executando os alinhamentos 47
• Agora edite o arquivo dinamica nas linhas que não começam com #
substituindo
grompp -f st.mdp -c lig h2o.gro -p lig.top -o st.tpr
por
grompp -f st.mdp -c st.gro -p lig.top -o st.tpr
• Essa substituição só deve ser feita se o seu sistema for um ı́on.
CENAPAD-SP
7.4 Rodando o programa LQTAgrid 48
• Use o script PAC ref make para alinhar os átomos de todas as con-
formações da trajetória na pasta ref/, que será usada como referencia
para os outros alinhamentos.
• Ao final da execução do script você terá duas saı́das: PAC ref.gro, que
será usado como entrada para o programa LQTAgrid e PAC ref.pdb que
pode ser usado para inspeção visual do alinhamento quando aberto em
um programa de visualização como o Chimera.
• Você terá duas saı́das: PAC done.gro, que será usado como entrada
para o programa LQTAgrid e PAC done.pdb que pode ser usado para
inspeção visual do alinhamento quando aberto em um programa de
visualização como o Chimera.
• Abra o arquivo texto que você criou no primeiro item dessa seção no
menu Arquivo.
CENAPAD-SP
7.4 Rodando o programa LQTAgrid 49
CENAPAD-SP
7.4 Rodando o programa LQTAgrid 50
• Esse arquivo está pronto para ser usado pelo programa QSARmodeling
para a construção e validação do modelo QSAR.
CENAPAD-SP
REFERÊNCIAS 51
Referências
[1] Alogps2.1. http://www.vcclab.org/lab/alogps/.
CENAPAD-SP
REFERÊNCIAS 52
[22] E. Lindahl, B. Hess, and D. van der Spoel. Gromacs 3.0: a package
for molecular simulation and trajectory analysis. Journal of Molecular
Modeling, 7:306–317, 2001.
CENAPAD-SP