Química Computacional Aplicada A QSAR - Prof. João Paulo Martins - CENAPAD 2010

Quı́mica computacional aplicada a QSAR
João Paulo Ataide Martins

Março 2010
Centro Nacional de Processamento

de Alto Desempenho em São Paulo
CENAPAD-SP
SUMÁRIO 2
Sumário
1 Introdução 5
2 Geração de descritores em QSAR 2D 8

2.1 Desenho e otimização de geometria . . . . . . . . . . . . . . . 8
2.1.1 Mecânica molecular . . . . . . . . . . . . . . . . . . . . 8
2.1.2 Mecânica Quântica . . . . . . . . . . . . . . . . . . . . 9
2.2 Descritores em QSAR 2D . . . . . . . . . . . . . . . . . . . . 15
3 Prática 1 17
3.1 Desenhar moléculas . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 Converter formato de arquivo . . . . . . . . . . . . . . . . . . 18
3.3 Otimização de geometria utilizando GAMESS . . . . . . . . . 18
3.4 Cálculo de energia e cargas CHELPG usando DFT . . . . . . 20
3.5 Montando a tabela de descritores . . . . . . . . . . . . . . . . 22
3.5.1 Cargas atômicas . . . . . . . . . . . . . . . . . . . . . . 22
3.5.2 Energias . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.5.3 Descritores de lipofilia e solubilidade . . . . . . . . . . 26
3.5.4 Descritores topológicos e constitucionais . . . . . . . . 28
4 Quimiometria aplicada a QSAR 31

4.1 Construção do modelo matemático . . . . . . . . . . . . . . . 31
4.2 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2.1 Centrar na média . . . . . . . . . . . . . . . . . . . . . 32
4.2.2 Autoescalar . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3 Validação cruzada . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.4 Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.5 Seleção de variáveis com o algoritmo OPS . . . . . . . . . . . 34
4.6 Validação externa . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.7 Avaliação da robustez do modelo com leave-N-out . . . . . . . 35
4.8 y-randomization . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5 Prática 2 36
5.1 Construindo modelos QSAR . . . . . . . . . . . . . . . . . . . 36
5.1.1 Corte pela correlação . . . . . . . . . . . . . . . . . . . 36
5.1.2 Seleção de variáveis com OPS . . . . . . . . . . . . . . 36
5.2 Validação Leave-N-Out . . . . . . . . . . . . . . . . . . . . . . 38
5.3 Validação y-randomization . . . . . . . . . . . . . . . . . . . . 38
6 Descritores LQTA-QSAR 40
6.1 Metodologia LQTA-QSAR . . . . . . . . . . . . . . . . . . . . 41
CENAPAD-SP
LISTA DE FIGURAS 3
7 Prática 3 43
7.1 Criando arquivos de topologia . . . . . . . . . . . . . . . . . . 43
7.2 Dinâmica molecular usando o GROMACS . . . . . . . . . . . 45
7.3 Executando os alinhamentos . . . . . . . . . . . . . . . . . . . 47
7.4 Rodando o programa LQTAgrid . . . . . . . . . . . . . . . . . 48
Lista de Figuras
1 Moléculas a serem desenhadas . . . . . . . . . . . . . . . . . . 17
2 Otimização usando o programa ChemSketch . . . . . . . . . . 18
3 Convertendo formato de arquivo com OpenBabel . . . . . . . 19
4 Selecionando base . . . . . . . . . . . . . . . . . . . . . . . . . 20
5 Tipo de cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . 20
6 Escolhendo conjunto de base . . . . . . . . . . . . . . . . . . . 21
7 Tipo de cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . 22
8 Reservando memória . . . . . . . . . . . . . . . . . . . . . . . 22
9 Escolha do funcional . . . . . . . . . . . . . . . . . . . . . . . 23
10 Selecionando cargas CHELPG na saı́da do GAMESS . . . . . 24
11 Colando cargas CHELPG no arquivo mol2 . . . . . . . . . . . 24
12 Observando momentos de dipolo . . . . . . . . . . . . . . . . . 25
13 Visualizando cargas atômicas com o programa Chimera . . . . 25
14 Energia total . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
15 Calor de formação . . . . . . . . . . . . . . . . . . . . . . . . 27
16 Número de orbitais ocupados . . . . . . . . . . . . . . . . . . 27
17 Energias dos orbitais HOMO e LUMO . . . . . . . . . . . . . 28
18 Calculando valores de logP e logS . . . . . . . . . . . . . . . . 29
19 Calculando descritores com o programa pclient . . . . . . . . . 29
20 Programa QSAR modeling . . . . . . . . . . . . . . . . . . . . 37
21 Exemplo de gráfico para Leave-N-Out . . . . . . . . . . . . . . 38
22 Exemplo de gráfico para y-randomization . . . . . . . . . . . . 39
23 Caixa 3D (grid) gerada pelo programa LQTA grid . . . . . . . 42
24 Adicionando cargas com o programa Chimera . . . . . . . . . 43
25 Escolhendo modelo de cargas . . . . . . . . . . . . . . . . . . 44
26 Escolhendo método . . . . . . . . . . . . . . . . . . . . . . . . 44
27 Salvando arquivo como mol2 . . . . . . . . . . . . . . . . . . . 45
28 Editando arquivo itp . . . . . . . . . . . . . . . . . . . . . . . 46
29 Editando arquivo lig.top . . . . . . . . . . . . . . . . . . . . . 47
30 Exemplo de arquivo de entrada para o LQTAgrid . . . . . . . 49
31 Programa LQTAgrid . . . . . . . . . . . . . . . . . . . . . . . 49
CENAPAD-SP
LISTA DE TABELAS 4
Lista de Tabelas
1 Parâmetros estatı́sticos calculados durante a validação cruzada. 34
CENAPAD-SP
1 Introdução 5
1 Introdução
Um ramo da Quı́mica de grande interesse atualmente é o planejamento de
fármacos com o auxı́lio do computador. A possibilidade de projetar com-
postos com propriedades bem definidas evitando os custos da sı́ntese expe-
rimental exploratória de grande número de substâncias tem impulsionado
muita pesquisa nessa área. Os fundamentos necessários para um projeto efe-
tivo nessa área estão na relação estrutura atividade quantitativa (QSAR1 ).
Nas técnicas utilizadas em QSAR considera-se que existe uma relação en-
tre as propriedades de uma molécula e sua estrutura e tentam-se estabelecer
relações matemáticas simples para descrever e, em seguida, prever uma dada
propriedade para um conjunto de compostos, geralmente pertencentes a uma
mesma famı́lia quı́mica. O estudo de QSAR compreende também a definição
dos descritores moleculares capazes de caracterizar satisfatoriamente conjun-
tos moleculares diferentes e o tratamento estatı́stico que pode ser aplicado a
esses descritores a fim de melhorar sua capacidade preditiva.
As técnicas utilizadas em QSAR surgiram desde 1863 quando Cros, da
universidade de Estrasburgo, observou que a toxicidade de álcoois em ma-
mı́feros aumentava quando suas solubilidades em água diminuı́am. Crum-
Brown e Fraser postularam em 1868 que uma relação entre as atividades
fisiológicas e as estruturas quı́micas existiam. Mais tarde, Richet propôs que
a toxicidade de alguns álcoois e éteres era inversamente proporcional à suas
solubilidades em água. Por volta de 1900, Meyer e Overton, trabalhando in-
dependentemente, estabeleceram relações lineares entre a ação narcótica de
alguns compostos orgânicos e uma distribuição de coeficientes de solubilidade
em água e em lipı́dios, descrevendo um parâmetro que pode ser considerado
como um precursor do atual log P, o coeficiente de partição octanol-água.
Em 1939, Ferguson estudou o comportamento de propriedades diversas (so-
lubilidade em água, partição, capilaridade, e pressão de vapor) em relação à
atividade tóxica de diferentes séries homólogas de compostos [13].
Mesmo considerando estes procedimentos como as raı́zes do atual QSAR,
no final da década de 30 Hammett propôs o primeiro procedimento meto-
dológico de propósito geral. Hammett verificou que as constantes de equilı́brio
de ionização dos ácidos benzóicos meta e para substituı́dos estavam relacio-
nadas. Esta relação levou à definição da chamada constante de Hammett σ.
Este parâmetro tornou-se um descritor capaz de caracterizar a atividade de
muitos conjuntos de moléculas. Utilizando esta abordagem como um passo
inicial, outros descritores foram propostos, mas sem a mesma relevância da
constante de Hammett.
1
do inglês quantitative structure-activity relationship
CENAPAD-SP
1 Introdução 6
Em 1964, Free e Wilson postularam que para uma série de compostos

similares, diferindo entre si apenas pela presença de certos substituintes,
a contribuição destes substituintes para a atividade biológia seria aditiva
e dependeria apenas do tipo e da posição do substituinte. O modelo Free-
Wilson, no entanto, não pode ser aplicado a moléculas cujos substituintes não
são combinações lineares daqueles existentes no conjunto de treinamento.
A sistematização das análises em QSAR deve ser associada ao trabalho de
Hansch e Fujita surgido em 1964. As bases para o modelo de Hansch-Fujita
é considerar que a atividade biológica observada é o resultado da contri-
buição de diferentes fatores que comportam-se de maneira diferente. Cada
contribuição para a atividade é representada por um descritor estrutural, e a
atividade biológica de um conjunto de compostos é ajustada em um modelo
multilinear. Os descritores mais utilizados nas primeiras análises de QSAR
foram o coeficiente de partição octanol/água (log P), a constante de Ham-
mett σ agindo como um descritor eletrônico e o parâmetro de lipofilicidade
π, definido em analogia ao descritor eletrônico. Juntamente com esses des-
critores empı́ricos, os modelos clássicos empregam outras propriedades fı́sico-
quı́micas como parâmetros , algumas das quais derivam de cálculos mecânico-
quânticos, por exemplo, cargas parciais, energias do HOMO, do LUMO, etc.
Nos casos em que a relação estrutura-atividade é muito complexa para ser
caracterizada com estes descritores, outros fatores são utilizados.
Uma outra aproximação ao problema da relação estrutura-atividade tem
sido baseada nos conceitos de topologia molecular. Esta perspectiva, desen-
volvida principalmente por Wiener [29], Kier e Hall [18] e Randic [24], repre-
senta numericamente as caracterı́sticas topológicas das moléculas através dos
chamados ı́ndices de conectividade e de distância. Estes ı́ndices topológicos
também têm sido aplicados com sucesso em QSAR.
Em 1988, técnicas de QSAR sofreram uma grande transformação devido
à introdução dos chamados parâmetros moleculares tridimensionais, que le-
vam em conta a influência de diferentes confôrmeros, estereoisômeros ou
enantiômeros. Este tipo de modelo, conhecido como QSAR 3D, também
implica no alinhamento das estruturas moleculares de acordo com um far-
macóforo comum, derivado do conhecimento da interação fármaco-receptor.
O primeiro modelo publicado possuindo estas caracterı́sticas foi a análise
comparativa de campo molecular (CoMFA2 ), proposta por Cramer [17], que
é atualmente uma das metodologias mais empregadas em QSAR. No forma-
lismo CoMFA, os descritores de campo ou propriedades tridimensionais são
determinados em uma caixa 3D virtual ou grade (grid) que abrange todas as
estruturas moleculares alinhadas. Outras abordagens diferentes em QSAR
2
do inglês Comparative Molecular Field Analysis
CENAPAD-SP
1 Introdução 7
3D vêm sendo propostas desde o aparecimento da CoMFA, algumas delas as-

sociadas aos conceitos de similaridade entre diferentes aspectos moleculares.
Em 1997, Hopfinger e colaboradores propuseram uma nova metodologia
de QSAR chamada de 4D-QSAR [16]. A análise em QSAR 4D incorpora
liberdade conformacional ao desenvolvimento de modelos de QSAR 3D fa-
zendo com que a mudança de estado molecular constitua a quarta dimensão.
Os descritores em QSAR 4D são representados pelas medidas de ocupação
de cada célula do grid pelos átomos que formam as moléculas do conjunto de
treinamento. Os descritores de ocupação das células do grid, GCODs (grid
cell occupancy descriptors), podem ser gerados a partir de diferentes tipos
de átomos, que em QSAR 4D são chamados de IPEs (interaction pharma-
cophore elements).
Recentemente, Martins e colaboradores [23] desenvolveram uma nova me-
todologia de QSAR 4D, chamada de LQTA-QSAR que incorpora as princi-
pais vantagens observadas nos métodos CoMFA e 4D-QSAR. A nova meto-
dologia calcula os descritores de campo, a exemplo do acontece em CoMFA,
para um perfil de amostragem conformacional, assim como o utilizado em
4D-QSAR.
Além dos métodos de QSAR citados, diversas outras abordagens vêm
sendo utilizadas em estudos de QSAR. Dentre elas destacam-se CoMSIA,
HQSAR, MIA-QSAR entre outras.
CENAPAD-SP
2 Geração de descritores em QSAR 2D 8
2 Geração de descritores em QSAR 2D

Um estudo de QSAR se inicia com a definição do conjunto de moléculas com
atividade biológica conhecida. Dentro desse conjunto as moléculas devem
ser similares estruturalmente e as atividades biológicas devem ser medidas
usando o mesmo protocolo de ensaio. Outro fator importante é a variação da
atividade biológica em unidades logarı́tmicas. Quanto maior for essa variação
e melhor a distribuição desses valores, maiores as chances de se obter um bom
modelo. Uma outra discussão importante que surge em estudos de QSAR
é sobre o tamanho do conjunto de treinamento. Atualmente, para que se
possa obter um bom modelo QSAR deve-se ter pelo menos 20 moléculas no
conjunto de treinamento.
2.1 Desenho e otimização de geometria

Escolhido o conjunto que será objeto de estudo, o primeiro passo é otmimizar
as geometrias das moléculas do conjunto escolhido. Para isso, pode-se partir
de estruturas cristalográficas iguais ou semelhantes às moléculas estudadas
que podem ser obtidas a partir de bancos de dados como o Cambridge Struc-
tural Database (CSD)[12] ou o Protein Data Bank (PDB)[10]. Caso nenhuma
estrutura cristalográfica sememelhante seja conhecida, pode-se simplesmente
desenhar as moléculas com base em suas fórmulas estruturais. Alguns exem-
plos de programas usados para editar e desenhar as moléculas são: Gauss-
view, HyperChem, Spartan, Titan, Molden, Ghemical, Chemsketch, Marvin,
WxMacMolPlt. Os quatro primeiros são pagos, enquanto que os últimos são
gratuitos.
Desenhadas as moléculas, o próximo passo é a otimização de geometria
propriamente dita. Essa otimização pode ser feita usando-se mecânica mole-
cular ou mecânica quântica.
2.1.1 Mecânica molecular

Os métodos baseados na Mecânica Molecular usam as leis da fı́sica clássica
para predizer propriedades estruturais e moleculares[14]. O que diferencia
dois modelos de mecânica molecular é o número e a natureza especı́fica dos
termos que eles incorporam e os detalhes de sua parametrização. O conjunto
de equações empı́ricas e parâmetros usados em cada esquema de mecânica
molecular é chamado de campo de força. Um campo de força pode ser escrito
como:
CENAPAD-SP
2.1 Desenho e otimização de geometria 9
ligacoes angulos de ligacao

X X
E total
= Eiestiramento + Eidef ormacao
i i
angulos diedros atomos nao ligados
X X X
+ Eitorsao + Eijnao ligantes (1)
i i j
Algumas vantagens e desvantagens dos métodos de MM podem ser des-

tacadas de maneira bem geral:
• Os cálculos de MM são computacionalmente baratos;
• Cada campo de força apresenta bons resultados para uma classe limi-
tada de moléculas;
• Por desprezarem as interações eletrônicas, os métodos não podem tratar

problemas quı́micos onde efeitos eletrônicos sejam predominantes;
• Dependem da disponibilidade de parâmetros para cada tipo de átomo.
Em estudos de QSAR, os métodos de MM são usados como ponto de

partida para otimização de geometria, em buscas conformacionais ou em
dinâmicas moleculares envolvendo solvente ou proteı́nas.
2.1.2 Mecânica Quântica

No final do século XVII, Isaac Newton propôs um conjunto de leis do movi-
mento dos objetos macroscópicos que fundamentaram o que hoje se denomina
mecânica clássica ou mecânica newtoniana. No inı́cio do século XX, os fı́sicos
descobriram que a mecânica clássica não descreve corretamente o compor-
tamento de partı́culas muito pequenas, tais como os elétrons e núcleos dos
átomos; o comportamento de tais partı́culas é descrito por outro conjunto de
leis conhecido como Mecânica Quântica. A mecânica quântica é particu-
larmente importante para a quı́mica pela descrição que pode fazer de átomos
e moléculas [21].
Para descrever o estado de um sistema na mecânica quântica, postula-
se a existência de uma função de coordenadas chamada de função de onda
ou função de estado Ψ. O conceito da função de onda e a equação que
governa as suas mudanças com o tempo foram propostos em 1926 pelo fı́sico
austrı́aco Erwin Schrödinger (1887-1961). Para uma partı́cula em um sistema
unidimensional postulou-se a seguinte equação
CENAPAD-SP
h̄ ∂Ψ(x, t) h̄2 ∂ 2 Ψ(x, t)

− =− + V (x, t)Ψ(x, t) (2)
i ∂t 2m ∂x2
onde a constante h̄ é definida como
h
h̄ = (3)
2π
Nesta equação, conhecida como a equação de Schrödinger √ depen-
dente do tempo (ou equação de onda de Schrödinger), i = −1, m é a
massa da partı́cula e V (x, t) é a função da energia potencial do sistema.
Felizmente, para grande parte das aplicações da mecânica quântica na
quı́mica, não é necessário utilizar a equação de Schrödinger dependente do
tempo. A equação de Schrödinger independente do tempo, mais simples,
pode ser utilizada.
h̄2 d2 Ψ(x)
− + V (x)Ψ(x) = EΨ(x) (4)
2m dx2
ou simplesmente
ĤΨ = EΨ (5)
2
h̄ d2
onde Ĥ = − 2m dx2
+ V (x) é o operador Hamiltoniano e E é a energia do
sistema.
Para uma partı́cula em um sistema de coordenadas de três dimensões o
operador Hamiltoniano tem a seguinte forma
h̄2 2
Ĥ = − ∇ + V (x, y, z) (6)
2m
∂ 2 ∂ ∂ 2 2
onde ∇2 = ∂x 2 + ∂y 2 + ∂z 2 .
A descrição mecânico-quântica difere da descrição da mecânica clássica

sendo esta última um caso limite da primeira. A função de onda que des-
creve um sistema contém todas as informações sobre o mesmo, porém a sua
interpretação tem caráter probabilı́stico, diferindo da mecânica clássica de
caráter determinista.
Método Hartree-Fock A equação de Schrödinger só pode ser resolvida

exatamente para átomos hidrogenóides (sistemas com apenas um núcleo e
um elétron). Para átomos multieletrônicos, o Hamiltoniano tem a seguinte
forma
CENAPAD-SP
N N
h̄2 2 h̄2 X 2 0 X Ze2 X X e2
− ∇ (A) − ∇ (i ) − + (7)
2M 2M i=1 i=1
ri r
i<j ij
onde (A), (i0 ), (10 ), (20 ), (N 0 ), indicam as coordenadas do núcleo A e dos

elétrons i, 1, 2 e N respectivamente. O primeiro termo da equação anterior
indica a energia cinética do núcleo, o segundo termo indica a energia cinética
dos elétrons, o terceiro termo indica a energia potencial de atração entre o
núcleo e os elétrons e o quarto termo indica a energia potencial de repulsão
entre os elétrons. Boa parte da complicação matemática da equação é de-
vida ao quarto termo, o que impossibilita a resolução exata da equação de
Schrödinger para esse tipo de sistema.
A idéia do método Hartree-Fock é reduzir o problema de N elétrons para
um problema de um elétron que interage com os núcleos e a nuvem eletrônica
dos demais elétrons. A interação elétron-elétron é introduzida de uma forma
média. Hartree propôs a separação em n equações monoeletrônicas enquanto
que Fock introduziu o conceito de antissimetrização nas equações de Hartree
pela utilização do determinante de Slater. As equações de Hartree-Fock po-
dem ser estendidas para sistemas moleculares utilizando-se a aproximação de
Born-Oppenheimer. Essa aproximação considera que os núcleos dos átomos
estão em posições fixas e separa a equação de onda em uma parte nuclear e
uma parte eletrônica.
Este conjunto de equações pode ser resolvido de modo aproximado através
do método variacional. O teorema variacional diz que dado um sistema
cujo operador Hamiltoniano Ĥ é independente do tempo e cujo autovalor de
menor energia é E1 , se φ é qualquer função das coordenadas das partı́culas
do sistema, bem comportada, normalizada e que satisfaz as condições de
contorno do problema, então
Z
φ∗ Ĥφ ≥ E1 (8)
O teorema variacional nos permite calcular um limite superior para a

energia do sistema no estado fundamental.
Deste modo os orbitais variacionais Ψi (1) são as autofunções de um ope-
rador de um elétron, o operador de Fock, F̂ (1) , que pode ser considerado
como um Hamiltoniano efetivo para cada elétron no seu ambiente. Os valo-
res das energias orbitais são dados por εi . Assim, a resolução desta última
equação é feita por um processo iterativo, até atingir a autoconsistência,
ou seja, até que as funções Ψi utilizadas para definir F̂ sejam realmente as
autofunções de F̂ : é o método do campo autoconsistente (mais conhecido
como SCF, do inglês self-consistent field). As soluções desta equação são os
CENAPAD-SP
orbitais de Hartree-Fock e só podem ser obtidos numericamente. Através da

aproximação de Hartree-Fock, a equação de Schrödinger pode então ser sepa-
rada em n equações de um elétron de um átomo hidrogenóide, cuja solução
pode ser obtida.
As equações de Roothaan-Hall As equações de Hartree-Fock utilizando

determinante de Slater para antissimetrização foram resolvidas utilizando
combinações lineares de conjuntos de funções de base que não eram mo-
dificados. Roothaan e Hall propuseram que as modificações ocorressem nos
coeficientes de combinação das bases através de método autoconsistente. As-
sim, um orbital atômico é dado por uma combinação linear de finções de
base. Inicialmente foram utilizados Slater Type Orbitals (STO) para montar
os conjuntos de base. Boys propôs a utilização de Gaussian Type Orbitals
(GTO) na década de 50. A expansão proposta por Roothaan dos orbitais em
conjuntos de base tem a forma da expressão matemática da equação 9. Os
conjuntos de base podem ser substituı́dos na equação de Hartree-Fock como
mostrado nas equações. O sistema linear de b equações homogêneas descreve
o orbital molecular φi . Uma solução não trivial deve ser obtida calculando o
determinante das equações, como mostrado. As equações de Hartree-Fock-
Roothaan devem ser resolvidas por processo iterativo, já que as integrais Frs
dependem dos orbitais φi , que por sua vez dependem dos coeficientes csi .
b
X
φi = csi χs
s=1
X b
X
csi F̂ χs = i csi χs
s=1 s=1
b
X
csi (Frs − i Srs ) = 0 ; r = 1, 2, · · · , b
s=1
D E
Frs = χr F̂ χs ; Srs = hχr |χs i
det(Frs − i Srs ) = 0 (9)
Funções de base Os principais conjuntos de base usados em QSAR são:
STO-3G: A representação mais simples de um orbital atômico é chamada

de conjunto de base mı́nimo. Esta representação compreende apenas as
funções de base necessárias para acomodar todos os elétrons do átomo.
Na prática, envolve uma função 1s para o hidrogênio e para o hélio e um
CENAPAD-SP
conjunto de cinco funções (1s, 2s, 2px , 2py , 2pz ) para os átomos de lı́tio
até o neônio. Cada uma das funções de base na representação STO-3G é
expandida em termos de três funções Gaussianas, sendo que os valores
dos expoentes Gaussianos e os coeficientes lineares são determinados
pelo método dos quadrados mı́nimos para melhor se ajustar a funções
do tipo Slater (exponenciais).
3-21G e 6-31G: Uma outra abordagem utilizada na construção de um con-
junto de base é fazer uma separação entre os elétrons mais internos e
os elétrons de valência. Assim, os elétrons mais internos seriam repre-
sentados por um único conjunto de funções e os elétrons de valência
seriam representados por dois conjuntos de funções.
Dentre os conjuntos de base mais simples que separam os elétrons de
valência estão os conjuntos 3-21G e 6-31G. Os orbitais atômicos para
os elétrons internos no conjunto de base 3-21G é representado por uma
única função, que por sua vez é escrita em função de três funções Gaus-
sianas, enquanto que os elétrons de valência mais internos e mais ex-
ternos são representados, respectivamente, pela expansão de 2 funções
Gaussianas e 1 função Gaussiana. O Conjunto de base 6-31G é cons-
truı́do de maneira similar, tendo os orbitais mais externos representados
em termos de seis funções Gaussianas e os orbitais de valência divididos
em três e um componente Gaussianos.
Conjuntos de base de polarização: A representação de átomos mais pe-
sados exige a introdução de orbitais do tipo d. Um conjunto de base
de polarização representa os orbitais atômicos mais internos por um
único conjunto de funções e os orbitais atômicos de valência por dois
(ou mais) conjuntos de funções e inclui um conjunto de funções de po-
larização do tipo d para os elementos mais pesados e um conjunto do
tipo p de funções de polarização para o hidrogênio.
Entre os conjuntos de base de polarização mais simples estão 6-31G*
e 6-311G*, construı́dos a partir dos conjuntos 6-31G e 6-311G, respec-
tivamente, adicionando-se seis funções Gaussianas do tipo d para cada
átomo pesado. O conjunto de base 6-31G** é idêntico ao conjunto 6-
31G*, exceto pelo fato de que no primeiro temos funções de polarização
do tipo p para o hidrogênio.
Métodos de correlação eletrônica O método Hartree-Fock gera soluções

da equação de Schrödinger, nas quais as interações elétron-elétron são subs-
tituı́das por uma interação média. No entanto, os movimentos dos elétrons
estão relacionados entre si e isto é chamado de correlação eletrônica. O valor
CENAPAD-SP
mı́nimo de energia que pode ser atingido utilizando a aproximação do ope-

rador monoeletrônico no método de HF é chamado de limite Hartree-Fock.
Este limite de energia é o melhor que se pode fazer aumentando o conjunto
de base utilizado para o cálculo até a completude e aumentando a exatidão
dos limites de convergência por densidade e energia. As energias calculadas
pelo método de Hartree-Fock geralmente apresentam um erro de 0,5% a 1%,
o que pode ser importante dependendo do fenômeno estudado. A energia
de correlação é a diferença entre a energia exata não-relativı́stica e a energia
de Hartree-Fock. Existem vários métodos de correlação eletrônica, dentre os
quais destacam-se:
• Teoria de perturbação de Møller Plesset (MPn)
• Teoria do Funcional de densidade (DFT)
• Configuration Interaction (CI)
• Multi-Configuration Self-Consistent Field (MCSCF)
• Coupled Cluster
Dentre os métodos usados em QSAR merece destaque a teoria do funci-

onal de densidade.
Teoria do funcional de densidade (DFT) A teoria do funcional de

densidade é um método ab initio originalmente desenvolvido para sólidos. O
método utiliza-se da densidade eletrônica ρ(r) para descrever um sistema,
ao invés de uma função de onda. Utilizando-se DFT a energia de correlação
pode ser incluı́da de forma direta nos cálculos através dos funcionais de troca
e correlação. Em relação aos métodos Hartree-Fock e pós HF há economia
de recursos computacionais. Em relação aos métodos semi-empı́ricos a van-
tagem é que o Hamiltoniano em DFT é bem definido, não sendo necessárias
aproximações injustificáveis. Nas derivações das equações em DFT nenhum
parâmetro precisa ser ajustado [20].
As soluções das equações propostas em DFT geram orbitais de uma ma-
neira análoga aos obtidos no método HF. As funções obtidas para esses or-
bitais, porém, são diferentes. Eles são chamados de orbitais de Kohn-Sham.
O método DFT é bastante usado em QSAR, por incluir correlação eletrô-
nica e ser barato computacionalmente. Em QSAR o funcional mais utilizado
é o hı́brido B3LYP, por estar consolidado como um funcional que fornece
bons resultados para a análise de energia e geometria molecular.
CENAPAD-SP
2.2 Descritores em QSAR 2D 15
Métodos semi-empı́ricos Os métodos semi-empı́ricos seguem diretamente

do modelo Hartree-Fock. O tamanho do problema é reduzido restringindo-se
o tratamento aos elétrons de valência. Em seguida, o conjunto de base é
restrito à mı́nima representação. Para os elementos representativos ela com-
preende uma única função do tipo s, um conjunto de funções do tipo p para
elementos do primeiro perı́odo e um conjunto de funções do tipo d, uma
função s e um conjunto de funções do tipo p para metais de transição. O
hidrogênio é representado por uma única função 1s.
A principal aproximação utilizada para reduzir o tempo computacional
nos principais métodos semi-empı́ricos utilizados atualmente é a chamada
aproximação NDDO (Neglect of Diatomic Differential Overlap). Nesta apro-
ximação considera-se que orbitais atômicos que residem em átomos diferentes
não se relacionam e as integrais envolvendo estes dois centros diferentes são
iguais a zero.
Aproximações adicionais são introduzidas para simplificar os cálculos
e ainda prover uma estrutura adequada para a introdução de parâmetros
empı́ricos. Com exceção dos modelos feitos para metais de transição, a para-
metrização dos métodos semi-empı́ricos é feita reproduzindo-se dados expe-
rimentais, incluindo geometrias de equilı́brio, calores de formação, momentos
de dipolo e potenciais de ionização. Parâmetros para o método PM3 para
metais de transição são baseados apenas na reprodução de geometrias de
equilı́brio. Os métodos AM1 e PM3 são os mais usados atualmente e apre-
sentam essencialmente as mesmas aproximações, mas diferem entre si pela
parametrização[25, 26].
Métodos semi-empı́ricos podem ser aplicados para moléculas com até
cerca de 200 átomos com sucesso relativo para o cálculo das geometrias de
equilı́brio, incluindo as geometrias de compostos orgânicos e inorgânicos con-
tendo metais de transição e sucesso moderado para o cálculo de geometrias de
estado de transição. No entanto, os métodos semi-empı́ricos não apresentam
resultados satisfatórios para cálculos cinéticos ou termoquı́micos.
Atualmente, vários trabalhos em QSAR continuam sendo desenvolvidos
com sucesso utilizando métodos semi-empı́ricos.
2.2 Descritores em QSAR 2D

As estruturas quı́micas não contêm a informação relacionada à atividade
biológica de maneira explı́cita. Esta informação deve ser extraı́da das es-
truturas na forma de descritores moleculares que acentuem diferentes pro-
priedades quı́micas implı́citas na estrutura da molécula. Tais propriedades,
que vão desde parâmetros fı́sico-quı́micos, eletrônicos ou mecânico-quânticos
a caracterı́sticas geométricas e topológicas das moléculas, podem ser então
CENAPAD-SP
2.2 Descritores em QSAR 2D 16
correlacionadas diretamente com a atividade [28].

Tecnicamente, os descritores moleculares convertem a estrutura à forma
de conjuntos de valores numéricos bem definidos para serem usados na análise
estatı́stica dos dados representando várias propriedades moleculares que são
consideradas importantes para explicar a atividade biológica
Os descritores bidimensionais (2D) possuem a propriedade comum de se-
rem independentes da orientação tridimensional da molécula. Estes descrito-
res vão de simples medidas das entidades constituintes da estrutura quı́mica,
de suas propriedades geométricas e topológicas, métodos de contagem de
fragmentos, até descritores eletrônicos calculados por métodos mecânico-
quânticos. Os principais descritores 2D podem ser classificados como:
• Descritores Constitucionais: capturam propriedades da molécula que

são relacionadas aos elementos constituintes de sua estrutura. São des-
critores que podem ser calculados rápida e facilmente. Exemplos in-
cluem massa molecular, número total de átomos na molécula e número
de átomos de identidades diferentes. Informações relacionadas a ligações
são também consideradas, como números totais de ligações simples, du-
plas, triplas ou aromáticas, assim como número de anéis aromáticos.
Podem ser calculados facilmente com programas gratuitos como ChemS-
ketch [2], Marvin [7] ou AlogPS2.1 [1].
• Descritores Geométricos: dependem do arranjo espacial dos átomos

constituintes da molécula. Representam, por exemplo, informações
sobre a superfı́cie molecular, obtida das áreas de van der Waals dos
átomos, assim como sobre o volume molecular. Podem ser calculados
facilmente com programas gratuitos como ChemSketch [2] e Marvin [7]
ou programas pagos como o HyperChem.
• Descritores Eletrônicos: Estimados a partir de cálculos mecânico-quân-

ticos, esses parâmetros descrevem as propriedades eletrônicas das mo-
léculas, bem como a influência de certos grupos ou substituintes na
densidade de distribuição eletrônica. Como exemplo, temos: cargas
atômicas, momentos de dipolo, quadrupolo, energias dos orbitais de
fronteira, potencial de ionização, afinidade eletrônica, eletronegativi-
dade, energia eletrônica e calor de formação. Além destes, incluem-se
parâmetros de polarizabilidade e refratividade molar, que indicam o
modo pelo qual eventuais alterações nos substituintes de uma estru-
tura podem modificar a distribuição de cargas como um todo. Podem
ser calculados com programas como Gamess (gratuito), Gaussian, Hy-
perChem, Spartan e Titan.
CENAPAD-SP
3 Prática 1 17
• Descritores Topológicos: tratam a estrutura da molécula como um

grafo, tendo os átomos como vértices e as ligações covalentes como
arestas. Com base nesta abordagem, muitos ı́ndices quantificando a
conectividade molecular são definidos, como o ı́ndice de Wiener, de
Balaban e de Schultz. Informações sobre elétrons de valência podem
ser incluı́das em descritores topológicos, como ı́ndices de Kier e Hall
ou ı́ndices topológicos de carga de Gálvez. Podem ser calculados com
programas gratuitos como marvin [7], pclient [9] e e-dragon [4].
• Descritores de Lipofilia e Solubilidade: especificamente, o logaritmo

do coeficiente de partição (log P) definido como sendo o logaritmo da
razão entre a solubilidade de uma substância em um solvente orgânico
e a solubilidade da mesma em água e o logaritmo da solubilidade em
água (log S). Estes parâmetros estão relacionados principalmente com
a distribuição do fármaco no organismo. Podem ser calculados com os
programas AlogPS2.1 [1] e Marvin [7].
3 Prática 1
3.1 Desenhar moléculas
• Abra o programa ChemSketch e desenhe as moléculas indicadas na
Figura 1.
Figura 1: Moléculas a serem desenhadas
• Clique em “otimizar” como indicado na Figura 2.
CENAPAD-SP
3.2 Converter formato de arquivo 18
Figura 2: Otimização usando o programa ChemSketch
• Em seguida vá em “Arquivo”, “exportar” e salve a molécula no formato

MDL (extensão mol).
3.2 Converter formato de arquivo

• Abra o programa OpenBabel [8] para converter o formato da molécula
desenhada.
• Em “INPUT FORMAT” escolha a opção “mol – MDL MOL format”.
• Abra o arquivo com a sua molécula.
• Em “OUTPUT FORMAT” escolha a opção “inp – GAMESS input”

se for usar o GAMESS ou “com – Gaussian 98/03 input” se for usar o
gaussian.
• Escolha um nome para seu arquivo de saı́da e clique em “Convert” para

converter os formatos (Figura 3).
3.3 Otimização de geometria utilizando GAMESS

• Abra o programa WxMacMolPlt [6].
CENAPAD-SP
3.3 Otimização de geometria utilizando GAMESS 19
Figura 3: Convertendo formato de arquivo com OpenBabel
• Vá em “File”, “Open” e abra a molécula que você salvou como entrada
do GAMESS quando usou o OpenBabel.
• Vá em “Subwindow”, “Input Builder”
• Em “Basis” selecione AM1 em “Basis Set” (Figura 4).
• Em “Control” selecione “Optimization” em “Run Type” (Figura 5).
• Clique em “Write File” e salve o arquivo.
• Utilizando um programa de SCP copie o arquivo que você acabou de

salvar para a sua área criada no ambiente CENAPAD.
• Rode seu cálculo utilizando o GAMESS com o comando

/usr/local/gamess 11 APR 2008 R1/rungms nomedoarquivo.inp >& no-
medoarquivo.log&
• Confira se seu cálculo convergiu. Caso contrário aumente o número de

“steps” em “Input Builder”, “Stat. Point”.
CENAPAD-SP
3.4 Cálculo de energia e cargas CHELPG usando DFT 20
Figura 4: Selecionando base
Figura 5: Tipo de cálculo
3.4 Cálculo de energia e cargas CHELPG usando DFT

• Utilizando o programa WxMacMolPlt abra o arquivo de saı́da do cálculo
rodado com o GAMESS.
CENAPAD-SP
3.4 Cálculo de energia e cargas CHELPG usando DFT 21
• Utilizando o “Input Builder” escolha a base 3-21G em “Basis” (Figura

6).
Figura 6: Escolhendo conjunto de base
• Em “Control” selecione “Energy” em “Run Type” e marque “Use

DFT” (Figura 7).
• Em “System” disponibilize 2000000.00 palavras para memória (Figura

8).
• Em DFT escolha o funcional B3LYP (Figura 9)
• Clique em “Write File” e salve o arquivo.
• Abra o arquivo que você salvou em um editor de texto e copie as linhas

$ELPOT IEPOT=1 WHERE=PDC $END
$PDC PTSEL=CHELPG CONSTR=CHARGE $END
logo antes da seção “DATA”.
• Copie o arquivo para a sua área no ambiente CENAPAD e rode seu

cálculo usando o GAMESS.
CENAPAD-SP
3.5 Montando a tabela de descritores 22
Figura 7: Tipo de cálculo
Figura 8: Reservando memória
3.5 Montando a tabela de descritores

3.5.1 Cargas atômicas
• Converta o arquivo de saı́da do GAMESS para o formato mol2 usando
o programa OpenBabel.
CENAPAD-SP
Figura 9: Escolha do funcional
• Com o editor TextPad [11] abra o arquivo de saı́da do GAMESS, clique

com o botão direito e selecione o modo de seleção em bloco
• Copie as cargas CHELPG calculadas (Figura 10).
• Com o mesmo editor abra o arquivo mol2 que você acabou de converter
e cole as cargas CHELPG (Figura 11).
• No mesmo arquivo de saı́da do GAMESS você também pode encontrar

os momentos de dipolo nas direções X, Y e Z, assim como o momento
de dipolo total e usá-los como descritores (Figura 12).
• Com o programa Chimera [3] abra o seu arquivo mol2
• Selecione “Actions”, “Color”, “by element” para diferenciar os átomos

pela cor.
• Selecione “Actions”, Label, “other” e em “Label with atribute” seleci-

one “charge”.
• Observe quais átomos são comuns às suas moléculas (“esqueleto” básico),
anote as cargas na ordem correta e monte uma tabela (Figura 13).
CENAPAD-SP
Figura 10: Selecionando cargas CHELPG na saı́da do GAMESS
Figura 11: Colando cargas CHELPG no arquivo mol2
CENAPAD-SP
Figura 12: Observando momentos de dipolo
Figura 13: Visualizando cargas atômicas com o programa Chimera
CENAPAD-SP
3.5.2 Energias
• No arquivo de saı́da do GAMESS procure pela energia total (Figura
14).
Figura 14: Energia total
• Calor de formação na saı́da do cálculo AM1 (Figura 15).
• Energia dos orbitais de fronteira (HOMO e LUMO).

Abra o arquivo de saı́da em um editor de texto e procure pelo
número de orbitais ocupados (Figura 16).
Em seguida abra o arquivo de saı́da com o WxMacMolPlt
Em “Subwindow”, “Surfaces”, selecione “3D Orbital”.
Procure pela energia do último orbital ocupado (HOMO) e do pri-
meiro desocupado (LUMO) (Figura 17).
3.5.3 Descritores de lipofilia e solubilidade

Esses descritores podem ser calculados com o programa online AlogPS2.1.
CENAPAD-SP
Figura 15: Calor de formação
Figura 16: Número de orbitais ocupados
CENAPAD-SP
Figura 17: Energias dos orbitais HOMO e LUMO
• Converta suas moléculas otimizadas para o formato SMILES com o

programa open babel.
• Abra o programa AlogPS2.1 [1]
• Cole o código SMILES no programa AlogPS2.1 e clique em “submit”

(Figura 18).
• Monte uma tabela com os resultados obtidos.
3.5.4 Descritores topológicos e constitucionais

Esses descritores podem ser calculados com os programas online pclient e
e-dragon.
• Converta suas moléculas otimizadas para o formato SMILES com o

programa OpenBabel.
• Abra o programa pclient [9]
• Em “Task”, “New”, crie uma nova tarefa.
CENAPAD-SP
Figura 18: Calculando valores de logP e logS
• Cole os códigos SMILES de suas moléculas na janela da sua tarefa

(Figura 19).
Figura 19: Calculando descritores com o programa pclient
CENAPAD-SP
OBS: Os descritores topológicos e constitucionais, assim como os descri-

tores de lipofilia podem ser calculados com o programa Marvin.
CENAPAD-SP
4 Quimiometria aplicada a QSAR 31
4 Quimiometria aplicada a QSAR

Em um estudo de QSAR o principal objetivo é encontrar relações quantitati-
vas entre a estrutura quı́mica, isto é, propriedades fı́sico-quı́micas, estruturais
e conformacionais, e a resposta biológica através de um modelo matemático.
Estas relações ajudam a entender e explicar o mecanismo de ação de fármacos
em nı́vel molecular e permitem o planejamento e desenvolvimento de novos
compostos que exibam propriedades biológicas desejáveis.
4.1 Construção do modelo matemático

A relação entre os descritores moleculares e as propriedades fı́sico-quı́micas
ou biológicas pode ser feita de maneira linear. Desse modo, a equação obtida
é
y = β0 1 + Xk βk + εk (10)
onde y é um vetor n-dimensional contendo as propriedades ou atividades da
famı́lia molecular estudada, 1 é o vetor unidade, X(k) é a matriz de descri-
tores (n x k) e εk é um erro normalmente distribuı́do tendo valor esperado
zero e matriz de dispersão 1σ 2 . Os estimadores β são calculados usando
uma técnica de quadrados mı́nimos. Para simplificar o modelo preditivo é
necessário construir regressões envolvendo o mı́nimo de descritores. Diversos
descritores diferentes podem ser usados como parâmetros.
Quando se usa a matriz de descritores (X) diretamente na equação 10,
o método de regressão é conhecido como regressão linear múltipla (MLR3 ).
No entanto, pode-se usar no lugar da matriz X outras matrizes contendo
combinações lineares das variáveis em X. Os principais métodos que usam
desse expediente são a regressão de componentes principais (PCR4 ) e a re-
gressão de quadrados mı́nimos parciais (PLS5 ). Nesses métodos a matriz X
é decomposta em duas outras matrizes
X = TLt (11)
onde a matriz T é conhecida como matriz de escores e a matriz L é conhecida
como matriz de pesos ou “loadings”. Na matriz de escores cada coluna é uma
combinação linear dos descritores da matriz X e a regressão passa a ser feita
com a matriz T.
3
do inglês Multiple Linear Regression
4
do inglês Principal Components Regression
5
do inglês Partial Least Squares
CENAPAD-SP
4.2 Pré-processamento 32
Quando se usa MLR, enfrenta-se o problema que não se pode existir

descritores muito correlacionados, pois isso resulta em uma matriz mal con-
dicionada que pode levar a problemas numéricos. Além disso, tem-se pelo
mesmo motivo, a limitação de que o número de descritores deve ser menor
que o número de amostras (em QSAR usa-se a convenção que a matriz deve
ter um descritor para cada 5 ou 6 amostras). Já os métodos PCR e PLS pro-
jetam as variáveis originais em um espaço de dimensão menor, formado por
variáveis não colineares (geralmente ortogonais), chamadas de componentes
principais (PCR) ou variáveis latentes (PLS). Isso faz com que o número de
descritores e a existência de correlações entre eles deixe de ser um problema.
O método PLS apresenta uma vantagem sobre o PCR porque chega a re-
sultados semelhantes com um número menor de variáveis latentes, pois ele
leva em conta a informação existente na variável dependente na construção
do modelo. Assim, o método PLS vem sendo bastante usado em análise
multivariada, especialmente em QSAR [15].
4.2 Pré-processamento
Antes de se aplicar qualquer método matemático à tabela de dados (ma-
triz X) que contém os descritores é necessário aplicar um pré-processamento
adequado. Os principais métodos de pré-processamento usados em QSAR
são:
• Centrar na média
• Autoescalar
4.2.1 Centrar na média

Centrar uma matriz na média consiste em calcular a média de cada coluna
da matriz e, em seguida, subtrair esse valor de todos os elementos da coluna
(equação 12).
Xij (cm) = Xij − X̄j (12)

onde Xij é o valor do descritor j para o composto i e X̄j é a média dos valores
para o descritor j.
Costuma-se centrar os dados na média quando os descritores são de
mesma natureza ou apresentam faixas de valores semelhantes (Ex: QSAR
4D)
CENAPAD-SP
4.3 Validação cruzada 33
4.2.2 Autoescalar
Autoescalar consiste em, além de centrar na média, dividir todos os elementos
de uma coluna pelo desvio padrão dessa coluna (equação 13).
Xij − X̄j
Xij (a) = (13)
σj
onde σj é o desvio padrão dos valores para o descritor j.
Costuma-se autoescalar os dados quando os descritores são de natureza
diferente ou apresentam faixas de valores bem diferentes. Em geral, o auto-
escalamento é o pré-processamento utilizado em QSAR.
4.3 Validação cruzada

Em estudos de QSAR é comum se utilizar um processo de validação interna
chamado de validação cruzada para se determinar o número de variáveis la-
tentes no modelo PLS. Na validação cruzada, o conjunto de treinamento é
dividido em um certo número de grupos e diversos modelos, com o mesmo
número de variáveis latentes, são construı́dos sempre deixando um dos gru-
pos de fora da análise. A variável dependente é então prevista pelo modelo
construı́do para as amostras que foram deixadas de fora do modelo e esse pro-
cesso é repetido até que todos os grupos tenham ficado de fora da análise uma
vez. Esse procedimento é bastante importante para que se tenha uma idéia
da capacidade preditiva e da robustez do modelo construı́do. Na validação
cruzada pode-se utilizar da estratégia leave-N-out onde diversos números de
amostras podem ser retirados durante o processo de construção de modelos.
No entanto, em QSAR costuma-se empregar a estratégia leave-one-out. Na
validação cruzada costuma-se calcular os parâmetros estatı́sticos mostrados
na Tabela 1 para avaliar a qualidade do modelo obtido.
Os parâmetros mais usados em QSAR são os valores de q 2 e r2 . Bons
modelos de QSAR devem apresentar valor de q 2 superior a 0,5 e de r2 superior
a 0,6. No entanto, quanto mais próximos de 1 forem esses valores, melhor
a qualidade do modelo obtido. Além disso, um modelo robusto não pode
apresentar uma diferença entre os valores r2 e q 2 superior a 0,3 [19].
4.4 Outliers
A qualidade das amostras presentes em um conjunto de treinamento pode ser
avaliada calculando-se o erro no cálculo da atividade prevista pelo modelo
construı́do. Se o valor absoluto da diferença entre o valor real da atividade
CENAPAD-SP
4.5 Seleção de variáveis com o algoritmo OPS 34
Tabela 1: Parâmetros estatı́sticos calculados durante a validação cruzada.
Parâmetro Equação
Pi=I
P RESScv i=1 (y(i) − ycv (i))2
Pi=I
P RESScal i=1 (y(i) − ycal (i))2
Pi=I
i=1 (y(i)−ȳ)(ycv (i)−ȳcv )
Rcv σy σycv
Pi=I
i=1 (y(i)−ȳ)(ycal (i)−ȳcal )
Rcal σy σycal
P RESScv
q2 1− Pi=I
i=1 (y(i)−ȳ)
r2 1 − PPi=I
RESScal
q i=1 (y(i)−ȳ)
P RESScv
RM SECV I
q
P RESScal
RM SEC I
q
P RESScv
SP RESS I−nV L−1
biológica e o valor previsto pelo modelo for superior a duas vezes o desvio
padrão da atividade biológica, provavelmente essa amostra será um outlier.
A remoção de um outlier pode melhorar a qualidade estatı́stica de um
modelo. No entanto, deve-se evitar ao máximo a remoção de um outlier, pois
em estudos de QSAR geralmente a quantidade de amostras é muito pequena
quando comparada ao que se tem disponı́vel em outros estudos envolvendo
análise multivariada. Caso isso seja inevitável, é importante tentar achar uma
explicação quı́mica ou biológica para o fato de o composto ser classificado
como um outlier.
4.5 Seleção de variáveis com o algoritmo OPS

Em QSAR, normalmente o número total de variáveis disponı́veis é muito
maior do que o número que será efetivamente incluı́do nos modelos. Portanto
existe a necessidade de lançar-se mão de algum tipo de procedimento de
seleção para a composição dos modelos de QSAR. O processo de seleção
consiste em encontrar combinações de k variáveis, dentre as m disponı́veis,
capazes de produzir modelos matemáticos que descrevam adequadamente os
valores observados da atividade biológica. Existem diversos algoritmos de
seleção de variáveis disponı́veis na literatura. Dentre eles, os mais usados em
CENAPAD-SP
4.6 Validação externa 35
QSAR são a busca sistemática e os algoritmos genéticos.

Recentemente, um algoritmo de seleção de variáveis de propósito geral,
chamado de OPS6 , foi desenvolvido e vem sendo usado com sucesso em estu-
dos de QSAR [27]. Este algoritmo atribui uma importância a cada descritor
de acordo com um vetor informativo. Em seguida a matriz de descritores é re-
arranjada de modo que os descritores mais importantes sejam representados
pelas primeiras colunas da matriz. Finalmente, uma quantidade inicial de
descritores é escolhida e diversos modelos PLS são construı́dos aumentando-
se a quantidade de descritores. Dentre os modelos construı́dos escolhe-se
aquele que apresentar melhor qualidade segundo algum dos parâmetros da
Tabela 1.
4.6 Validação externa

A validação externa consiste em escolher um conjunto de amostras que não
fará parte da construção do modelo. Esse conjunto é chamado de test set.
Assim, constrói-se um modelo com as moléculas do conjunto de treinamento
e a atividade biológica das amostras do test set é calculada pelo modelo
construı́do.
Como a atividade biológica real das amostras do test set é conhecida,
pode-se fazer uma comparação entre o valor previsto pelo modelo e o valor
real utilizando-se parâmetros estatı́sticos similares aos utilizados na validação
cruzada. No entanto, o processo de validação externa é muito mais confiável
para assegurar a capacidade preditiva do modelo quando comparado com a
validação cruzada, pois em nenhum momento as amostras do test set parti-
cipam da construção do modelo. Atualmente é obrigatório que se faça uma
validação externa em trabalhos de QSAR.
4.7 Avaliação da robustez do modelo com leave-N-out

Se o processo de validação cruzada leave-N-out for feito repetidas vezes para
diferentes valores de N, diferentes modelos serão construı́dos. Além disso,
ainda que para um mesmo valor de N (desde que esse valor não seja 1), di-
ferentes execuções do procedimento leave-N-out também levarão a diferentes
modelos, pois a formação dos grupos no processo de validação cruzada é feita
de maneira aleatória.
A construção de diferentes modelos faz com que diferentes valores para os
parâmetros estatı́sticos da Tabela 1 sejam obtidos, em especial para o valor
de q 2 . No entanto, esses valores não podem ser muito diferentes entre si
6
do inglês Ordered Predictors Selection
CENAPAD-SP
4.8 y-randomization 36
(apresentar pouca oscilação) pois, como o modelo é construı́do com objetivo

de prever a atividade de novas amostras, ele não pode ser muito sensı́vel às
amostras que são retiradas no processo de validação cruzada.
Assim, para avaliar se um modelo é robusto, recomenda-se fortemente que
se faça um teste com repetições da validação cruzada leave-N-out. Modelos
robustos não devem apresentar oscilação no valor de q 2 superior a 0,1 para
valores de N que representem até 25% do número de amostras (leave-25%-
out) [19].
4.8 y-randomization
Uma limitação da validação cruzada é que ela não fornece uma significância
estatı́stica do poder de predição estimado. Para obter uma estimativa da
significância de um valor de q 2 obtido para um dado modelo, deve-se desen-
volver modelos paralelos com os valores dos descritores originais mantidos
(matriz X) e os valores da variável dependente (vetor y) permutados entre
as amostras.
Assim, o valor real de q 2 deve ser bem maior que os valores obtidos para
os modelos paralelos. Esse procedimento, chamado de y-randomization, é
extremamente útil para assegurar que o modelo QSAR não foi obtido ao
acaso. Recomenda-se que os modelos com os valores de y permutados não
apresentem valor de r2 superior a 0,4 e valor de q 2 superior a 0,05 [19].
5 Prática 2
5.1 Construindo modelos QSAR
5.1.1 Corte pela correlação
• Abra o programa QSAR modeling (Figura 20)
• Abra o arquivo “Set1.dat” (matriz com descritores) e “yset1.dat” (vetor
contendo as atividades biológicas).
• Em “Executar” selecione “Corte pela correlação”.
• Escolha o valor de 0.4 para o corte e salve a matriz.
5.1.2 Seleção de variáveis com OPS

• Abra a matriz que você salvou no corte pela correlação.
• Selecione o pré-processamento “Autoescalar”.
CENAPAD-SP
5.1 Construindo modelos QSAR 37
Figura 20: Programa QSAR modeling
• Clique em “Executar”, “Validação cruzada”.

• Selecione o mı́nimo entre o número de linhas e o número de colunas
para o número de variáveis latentes e 1 amostra (leave-one-out) a retirar
na validação cruzada.
• Construa um gráfico com os valores de RMSECV e procure pelo número
de variáveis latentes em que esses valores passam a ficar estáveis.
• Execute o OPS avançado e no número de variáveis latentes para o OPS
digite o número de variáveis latentes que você observou no gráfico de
RMSECV.
• Para escolher o número de variáveis latentes para o modelo, divida o
número de amostras por 5 ou 6.
• Escolha os valores de janela, incremento e porcentagem de variáveis
de acordo com o tamanho de sua matriz. Para uma matriz muito
grande os valores de janela e incremento devem ser mais altos e o valor
da porcentagem de variáveis deve ser mais baixo, enquanto que para
matrizes menores você pode fazer o oposto.
• Selecione todos os vetores e q 2 como critério para classificar os modelos.
Caso sua matriz seja muito grande você pode selecionar menos vetores
para efetuar seu cálculo de maneira mais rápida.
• Repita esse procedimento até que você tenha um bom modelo com um
número razoável de descritores que possibilite uma boa interpretação.
CENAPAD-SP
5.2 Validação Leave-N-Out 38
5.2 Validação Leave-N-Out

• Utilizando a matriz já com as variáveis selecionadas clique em “Execu-
tar”, “Leave-N-Out”.
• Utilize o mesmo número de variáveis latentes que você selecionou para

o seu modelo.
• Para o número máximo de amostras a retirar na validação cruzada

utilize de 25% a 30% do número total de amostras.
• Normalmente se utiliza 3 repetições (triplicata) para cada validação

cruzada e o q 2 para avaliar o modelo.
• Construa um gráfico para avaliar as oscilações no valor de q 2 (Exemplo

na Figura 21).
Figura 21: Exemplo de gráfico para Leave-N-Out
5.3 Validação y-randomization

• Utilizando a matriz já com as variáveis selecionadas clique em “Execu-
tar”, “y-randomization”.
• Utilize o mesmo número de variáveis latentes que você selecionou para

o seu modelo.
CENAPAD-SP
5.3 Validação y-randomization 39
• Utilize o mesmo número de amostras que você retirou na construção

de seu modelo (geralmente 1 amostra).
• Escolha o número de aleatorizações que você deseja fazer (geralmente

50 é um bom número).
• Construa um gráfico de q 2 versus r2 (Exemplo na Figura 22).
Figura 22: Exemplo de gráfico para y-randomization
OBS: A última linha da tabela de resultados contém os valores de q 2 e r2

para o modelo verdadeiro.
CENAPAD-SP
6 Descritores LQTA-QSAR 40
6 Geração de descritores utilizando a meto-

dologia 4D LQTA-QSAR
Desde que Cramer e colaboradores [17] apresentaram o método de análise
comparativa de campos moleculares - CoMFA (Comparative Molecular Fi-
eld Analysis), em 1988, tal metodologia foi difundida e muito utilizada por
quı́micos medicinais e cientistas de áreas correlatas, tornando-se uma ferra-
menta fundamental em estudos QSAR-3D. Nesta metodologia, PLS [15] é o
método de regressão usado para modelar a relação entre a atividade biológica
de um conjunto de compostos com um alinhamento especı́fico e seus campos
de energia 3D (eletrônica, espacial, hidrofóbica e de ligações de hidrogênio).
Estes campos são determinados em um grid que contém todas as estruturas
quı́micas alinhadas. A etapa de um projeto racional de um fármaco que uti-
liza QSAR 3D pode ser dividida em três partes: alinhamento das moléculas,
geração de campos moleculares e regressão com um ou mais parâmetros de
atividades biológicas como resposta.
Em primeiro lugar, as conformações de mais baixa energia das moléculas
são alinhadas por superposição de pontos de possı́veis interações, átomos em
moléculas, por exemplo, com uma proteı́na que seria um receptor alvo.
Um campo molecular é um grid tridimensional suficientemente grande
para conter todas as moléculas alinhadas, onde em cada ponto do grid as
interações entre uma sonda e cada molécula são calculadas. Assim, cada
ponto no grid corresponde a uma variável.
A análise em QSAR 4D proposta por Hopfinger e colaboradores [16], em
1997, incorpora liberdade conformacional ao desenvolvimento de modelos de
QSAR 3D fazendo com que a mudança de estado molecular constitua a quarta
dimensão. Os descritores em QSAR 4D são representados pelas medidas de
ocupação de cada célula do grid pelos átomos que formam as moléculas do
conjunto de treinamento. Os descritores de ocupação das células do grid,
GCODs (grid cell occupancy descriptors), podem ser gerados a partir de
diferentes tipos de átomos, que em QSAR 4D são chamados de IPEs (in-
teraction pharmacophore elements). A idéia em uma análise de QSAR 4D
é que diferenças em dados de atividades biológicas estão relacionadas a di-
ferenças existentes na distribuição espacial média de Boltzmann da forma
molecular em relação aos IPEs. Uma única conformação ativa pode ser pos-
tulada para cada composto no conjunto de treinamento e, quando combinada
com o alinhamento ótimo, pode ser usada posteriormente em aplicações de
planejamento molecular incluindo outros métodos de QSAR 3D.
A análise QSAR 4D, através do uso dos IPEs, permite que cada um
dos compostos em um conjunto de treinamento possa ser particionado em
CENAPAD-SP
6.1 Metodologia LQTA-QSAR 41
conjuntos de classes com respeito a possı́veis interações com um receptor

comum. Os GCODs, definidos pelos IPEs, são simultaneamente mapeados
em um grid comum.
Uma metodologia de QSAR 4D recentemente desenvolvida, chamada de
LQTA-QSAR [23], inclui o cálculo de descritores de campo para um conjunto
de compostos. Porém, essa metodologia considera um perfil de amostragem
conformacional (PAC) para cada composto na análise QSAR, ao invés de
uma única conformação, reunindo assim as principais caracterı́sticas dos pa-
radigmas CoMFA e QSAR-4D proposto por Hopfinger e colaboradores. Esta
nova metodologia faz uso do pacote gratuito GROMACS [22, 5] para rodar as
simulações de dinâmica molecular (DM) e estimar o PAC gerado para cada
composto ou ligante. Uma nova ferramenta gratuita, chamada de LQTAgrid,
gera os descritores 3D e o programa QSAR modeling pode ser usado para a
construção e validação de modelos PLS.
6.1 Metodologia LQTA-QSAR

Assim como acontece na metodologia CoMFA, as moléculas são alinhadas
em um grid que é percorrido por uma ou mais sondas, que podem ser de na-
turezas diferentes. Durante tal processo, as interações eletrostáticas e de van
der Waals entre a sonda e os átomos das moléculas do conjunto investigado
são calculadas de acordo com as equações 14 e 15. No entanto, diferente do
método CoMFA, onde apenas uma conformação é analisada, no LQTAGrid
são consideradas as interações entre a sonda e os átomos de todas as con-
formações de cada molécula do conjunto investigado, geradas em simulações
de DM, como ilustrado na Figura 23. Isso explica o fator 1/n nas equações.
Neste último aspecto, o programa LQTAGrid agrega a caracterı́stica de li-
berdade conformacional da metodologia QSAR-4D.
1 q i qj
Eele = (14)
n 4πε0 rij
(12) (6)
Cij Cij
EvdW = 12
− 6 (15)
rij rij
onde
r
(12) 1 (12) (12)
Cij = C Cjj
n ii
r
(6) 1 (6) (6)
Cij = C C (16)
n ii jj
CENAPAD-SP
6.1 Metodologia LQTA-QSAR 42
Figura 23: Caixa 3D (grid) gerada pelo programa LQTA grid
O programa LQTAGrid usa como entrada os resultados de simulações de

DM, que devem ser desenvolvidas para as moléculas do conjunto investigado.
As simulações de DM devem ser calculadas com o software livre GROMACS.
Este programa gera como saı́da os cálculos de DM para cada molécula do
conjunto.
Depois de executadas as dinâmicas, já no programa LQTAgrid, escolhe-se
a posição inicial de cada coordenada do grid e também o tamanho do caixa
em cada eixo, de modo a abranger, de forma adequada, todas as moléculas
do conjunto analisado. Finalmente, escolhe-se as sondas para percorrer o
grid.
A saı́da gerada pelo programa LQTAGrid é uma matriz de descritores
calculados durante a execução do programa. Esta matriz pode ser utilizada
posteriormente por qualquer programa que realize calibração multivariada,
processo necessário para a construção de um modelo QSAR.
CENAPAD-SP
7 Prática 3 43
7 Prática 3
7.1 Criando arquivos de topologia
• Otimize a geometria de sua molécula usando um programa como Gaus-
sian ou Gamess.
• Converta o formato de arquivo de sua molécula otimizada para mol2

usando o programa OpenBabel.
• Abra o arquivo mol2 no programa chimera e adicione cargas, como

mostrado nas Figuras 24, 25 e 26.
Figura 24: Adicionando cargas com o programa Chimera
• Clique em OK.
• Coloque a carga formal da molécula, selecione AM1-BCC e clique OK.
• Salve o arquivo como mol2 (Figura 27)
CENAPAD-SP
7.1 Criando arquivos de topologia 44
Figura 25: Escolhendo modelo de cargas
Figura 26: Escolhendo método
• Execute o programa topolbuild.sh. O programa vai pedir o caminho

para o mol2 sem a extensão. Se o arquivo estiver na pasta que estiver
executando o comando basta digitar o respectivo nome do arquivo.
• Se os arquivo mol2 vierem do Windows dê o comando dos2unix *mol2.
• Agrupe os arquivos de saı́da do topolbuild em uma pasta separada para

cada molécula.
• Se o nome do arquivo for nomedoarquivo.mol2 por exemplo, então as

saı́das serão: ffnomedoarquivo.itp, ffnomedoarquivonb.itp, nomedoar-
quivoMOL.mol2, nomedoarquivo.top, nomedoarquivo.gro, posrenome-
doarquivo.itp e nomedoarquivo.log.
• Copie os arquivos contidos em dinamica.zip para a pasta onde foram

concentrados todos os arquivos de saı́da do topolbuild.
CENAPAD-SP
7.2 Dinâmica molecular usando o GROMACS 45
Figura 27: Salvando arquivo como mol2
7.2 Dinâmica molecular usando o GROMACS

• Edite o arquivo ffnomedoarquivo.itp retirando a linha #include “ffu-
sernb.itp”
• Inspecione o arquivo nomedoarquivo.top para ver se não há campos

faltantes não preenchidos com os parâmetros do campo de força (ver
arquivo nomedoarquivo.log, procure por asteriscos).
• Ainda no arquivo nomedoarquivo.top substitua #include “gaff spce.itp”

por #include “gaff tip3p.itp”.
• Adicione as linhas no arquivo ion water.itp ao arquivo ffnomedoarqui-

vonb.itp (Figura 28).
• Troque o nome dos arquivos nomedoarquivo.top e nomedoarquivo.gro

para lig.top e lig.gro respectivamente.
• Copie a pasta contendo todos esses arquivos para a sua área no ambi-
ente CENAPAD.
CENAPAD-SP
7.2 Dinâmica molecular usando o GROMACS 46
Figura 28: Editando arquivo itp
• Dê o comando: editconf -bt cubic -f lig.gro -o lig box.gro -d 1.0
• Esse comando define que o tamanho da caixa tenha 10 Å de distância

no mı́nimo dos átomos do soluto até a borda da caixa cúbica.
• Em seguida adicione moléculas de água tip3p pelo comando:

genbox -cp lig box.gro -cs tip3p.gro -o lig h2o.gro -p lig.top
• Agora é preciso conferir se a carga total do sistema é nula, ou se a

molécula se encontra em um estado ionizado e qual seria essa carga
com o seguinte comando:
grompp -f st.mdp -c lig h2o.gro -p lig.top -o st.tpr
• Se o aviso “System has non-zero total charge: 1.000e+00” for exibido

significa que temos excesso de carga +1. Portanto, devemos adicionar
um ı́on Cl- ao sistema para neutralizar a carga. Não aparecendo esse
aviso ignore esse item.
• O comando para adicionar o ı́on é: genion -s st.tpr -nn 1 -o st.gro
• O flag –nn indica número de negativos seguido de 1. Ou seja, será

removida uma molécula de água e adicionado um ı́on Cl-. Se quiser
colocar Na+ basta dar o mesmo comando com o flag –np seguido do
número de ı́ons que deseja trocar.
• Selecione o grupo 2 (SOL) para trocar uma molécula de solvente pelo

ı́on que você deseja adicionar.
• Agora edite o arquivo lig.top no fim do arquivo (Figura 29).
CENAPAD-SP
7.3 Executando os alinhamentos 47
Figura 29: Editando arquivo lig.top
• Agora edite o arquivo dinamica nas linhas que não começam com #
substituindo
grompp -f st.mdp -c lig h2o.gro -p lig.top -o st.tpr
por
grompp -f st.mdp -c st.gro -p lig.top -o st.tpr
• Essa substituição só deve ser feita se o seu sistema for um ı́on.
• Dê o comando chmod a+x dinamica e em seguida ./dinamica&
7.3 Executando os alinhamentos

• Para cada molécula do seu conjunto de treinamento defina uma pasta
que deve conter seus respectivos arquivos top e gro gerados depois da
execução da seção anterior, além dos arquivos disponibilizados em “di-
namica.zip”.
• Escolha uma molécula para ser a referência do alinhamento e chame

sua pasta de “ref”.
• Visualize a molécula de referência com algum programa de visualização

(chimera, por exemplo) e anote os números dos átomos que deverão ser
alinhados em ordem correta.
• Edite o arquivo PAC atoms.ndx
• Coloque os átomos para o alinhamento na segunda linha.
• Repita o processo para todas as pastas (moléculas) observando sempre

os mesmos átomos e na ordem correta.
CENAPAD-SP
7.4 Rodando o programa LQTAgrid 48
• Use o script PAC ref make para alinhar os átomos de todas as con-
formações da trajetória na pasta ref/, que será usada como referencia
para os outros alinhamentos.
• Execute o script com o comando “./PAC ref make”.
• Escolha 20 ps para o tempo inicial para o alinhamento.
• Selecione o grupo 0 (System).
• Escolha como número máximo de frames o número do último frame

obtido.
• Ao final da execução do script você terá duas saı́das: PAC ref.gro, que
será usado como entrada para o programa LQTAgrid e PAC ref.pdb que
pode ser usado para inspeção visual do alinhamento quando aberto em
um programa de visualização como o Chimera.
• Carregue as demais pastas e execute “./PAC make” agora para alinhar

as trajetórias das demais moléculas com sua molécula de referência.
• Você terá duas saı́das: PAC done.gro, que será usado como entrada
para o programa LQTAgrid e PAC done.pdb que pode ser usado para
inspeção visual do alinhamento quando aberto em um programa de
visualização como o Chimera.
7.4 Rodando o programa LQTAgrid

• Crie um arquivo texto que aponte para cada um dos arquivos lig.top
e PAC done.gro (logicamente também PAC ref.gro) para usar como
entrada para o LQTAgrid (Exemplo na Figura 30).
• Observe os tipos de átomos presentes nos arquivos ff*nb.itp e copie-os

para o arquivo ffcargasnb.itp dentro da pasta do programa LQTAgri-
dAFF.
• Não repita os tipos de átomos.
• Execute o comando “java –jar LQTAgridAFF.jar” para rodar o pro-

grama LQTAgrid (Figura 31).
• Abra o arquivo texto que você criou no primeiro item dessa seção no
menu Arquivo.
• Selecione uma sonda (exemplo NH3+).
CENAPAD-SP
Figura 30: Exemplo de arquivo de entrada para o LQTAgrid
Figura 31: Programa LQTAgrid
• Escolha o tamanho do grid e a coordenada inicial com base em um de

seus arquivos pdb. Para fazer isso observe qual é, aproximadamente, a
maior e a menor coordenada em cada eixo em uma das conformações
e dê uma folga de aproximadamente 5Å no inı́cio e no fim da caixa.
• Clique em gerar grid e, ao termino dos cálculos, salve o arquivo com os

descritores.
CENAPAD-SP
• Esse arquivo está pronto para ser usado pelo programa QSARmodeling
para a construção e validação do modelo QSAR.
CENAPAD-SP
REFERÊNCIAS 51
Referências
[1] Alogps2.1. http://www.vcclab.org/lab/alogps/.
[2] Chemsketch. http://www.acdlabs.com/download/chemsketch/.
[3] Chimera. http://www.cgl.ucsf.edu/chimera/.
[4] E-dragon. http://www.vcclab.org/lab/edragon/.
[5] Gromacs. http://www.gromacs.org/.
[6] Macmolplt. http://www.scl.ameslab.gov/ brett/macmolplt/.
[7] Marvin. http://www.chemaxon.com/marvin/download-user.html.
[8] Openbabel. http://openbabel.org/wiki/get open babel.
[9] Parameter client. http://www.vcclab.org/lab/pclient/.
[10] Protein data bank. http://www.rcsb.org/pdb/home/home.do.
[11] Textpad. http://www.textpad.com/.
[12] Cambridge structural database software version 5.29, 2007. Cambridge

Crystallographic Data Centre, Inglaterra.
[13] R Carbó-Dorca, D Robert, Ll Amat, X Gironés, and E Besalú. Molecular

Quantum Similarity in QSAR and Drug Design. University of Girona,
2000.
[14] Charles F Cooper. Molecular mechanics-modeling molecular structure

and energetics: the 2002 benjamin franklin medal in chemistry presented
to norman allinger. Journal of the Franklin Institute, 340:191–203, 2003.
[15] Martens H and Naes T. Multivariate Calibration. Wiley, New York,

1989.
[16] A. J. Hopfinger, S. Wang, J. S. Tokarski, B. Jin, M. Albuquerque, P. J.

Madhav, and C. Duraiswami. Construction of 3d-qsar models using the
4d-qsar analysis formalism. J. Am. Chem. Soc., 119(43):10509–10524,
1997.
[17] R D Cramer III, D E Paterson, and J D Bunce. Comparative molecular

field analysis (comfa). 1. effect of shape on binding of steroids to carrier
proteins. J. Am. Chem. Soc., 110:5959–5967, 1988.
CENAPAD-SP
REFERÊNCIAS 52
[18] L B Kier, L H Hall, W J Murray, and M Randic. Molecular connectivity.

i: Relationship to nonspecific local anaesthesia. J. Pharm. Sci., 64:1971–
1974, 1975.
[19] R. Kiralj and M. M. C. Ferreira. Basic validation procedures for regres-

sion models in qsar and qspr studies: Theory and application. J. Braz.
Chem. Soc., 20(4):770–787, 2009.
[20] W Koch and M C Holthausen. A Chemist’s Guide to Density Functional

Theory. Wiley VCH, 2 edition, 2002.
[21] I. N. Levine. Quantum Chemistry. Prentice Hall, 5th edition, 2000.
[22] E. Lindahl, B. Hess, and D. van der Spoel. Gromacs 3.0: a package
for molecular simulation and trajectory analysis. Journal of Molecular
Modeling, 7:306–317, 2001.
[23] J. P. A. Martins, E. G. Barbosa, K. F. M. Pasqualoto, and M. M. C.

Ferreira. Lqta-qsar: A new 4d-qsar methodology. J. Chem. Inf. Model.,
49(6):1428–1436, 2009.
[24] M Randic. On characterization of molecular branching. J. Am. Chem.

Soc., 97:6609–6615, 1975.
[25] J J P Stewart. Optimization of parameters for semiempirical methods

i. J. Comput. Chem., 10(2):209–220, 1989.
[26] J J P Stewart. Optimization of parameters for semiempirical methods

ii. applications. J. Comput. Chem., 10(2):221–264, 1989.
[27] R. F. Teofilo, J. P. A. Martins, and M. M. C. Ferreira. Sorting varia-

bles by using informative vectors as a strategy for feature selection in
multivariate regression. J. Chemometrics, 23:32–48, 2009.
[28] K. C. Weber. Modelagem molecular de compostos arilpiperazı́nicos e

suas interações com o receptor 5 − HT1a . PhD thesis, IQSC-USP, São
Carlos-SP, 2008.
[29] H Wiener. Structural determination of paraffin boiling points. J.

Chem.Phys, 69:17–20, 1947.
CENAPAD-SP

Química Computacional Aplicada A QSAR - Prof. João Paulo Martins - CENAPAD 2010

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Química Computacional Aplicada A QSAR - Prof. João Paulo Martins - CENAPAD 2010

Enviado por

Direitos autorais:

Formatos disponíveis

Quı́mica computacional aplicada a QSAR

João Paulo Ataide Martins

Centro Nacional de Processamento

2 Geração de descritores em QSAR 2D 8

4 Quimiometria aplicada a QSAR 31

Em 1964, Free e Wilson postularam que para uma série de compostos

3D vêm sendo propostas desde o aparecimento da CoMFA, algumas delas as-

2 Geração de descritores em QSAR 2D

2.1 Desenho e otimização de geometria

2.1.1 Mecânica molecular

ligacoes angulos de ligacao

Algumas vantagens e desvantagens dos métodos de MM podem ser des-

• Os cálculos de MM são computacionalmente baratos;

• Por desprezarem as interações eletrônicas, os métodos não podem tratar

• Dependem da disponibilidade de parâmetros para cada tipo de átomo.

Em estudos de QSAR, os métodos de MM são usados como ponto de

2.1.2 Mecânica Quântica

h̄ ∂Ψ(x, t) h̄2 ∂ 2 Ψ(x, t)

A descrição mecânico-quântica difere da descrição da mecânica clássica

Método Hartree-Fock A equação de Schrödinger só pode ser resolvida

onde (A), (i0 ), (10 ), (20 ), (N 0 ), indicam as coordenadas do núcleo A e dos

O teorema variacional nos permite calcular um limite superior para a

orbitais de Hartree-Fock e só podem ser obtidos numericamente. Através da

As equações de Roothaan-Hall As equações de Hartree-Fock utilizando

Funções de base Os principais conjuntos de base usados em QSAR são:

STO-3G: A representação mais simples de um orbital atômico é chamada

Métodos de correlação eletrônica O método Hartree-Fock gera soluções

mı́nimo de energia que pode ser atingido utilizando a aproximação do ope-

• Teoria de perturbação de Møller Plesset (MPn)

• Teoria do Funcional de densidade (DFT)

• Configuration Interaction (CI)

• Multi-Configuration Self-Consistent Field (MCSCF)

Dentre os métodos usados em QSAR merece destaque a teoria do funci-

Teoria do funcional de densidade (DFT) A teoria do funcional de

Métodos semi-empı́ricos Os métodos semi-empı́ricos seguem diretamente

2.2 Descritores em QSAR 2D

correlacionadas diretamente com a atividade [28].

• Descritores Constitucionais: capturam propriedades da molécula que

• Descritores Geométricos: dependem do arranjo espacial dos átomos

• Descritores Eletrônicos: Estimados a partir de cálculos mecânico-quân-

• Descritores Topológicos: tratam a estrutura da molécula como um

• Descritores de Lipofilia e Solubilidade: especificamente, o logaritmo

Figura 1: Moléculas a serem desenhadas

• Clique em “otimizar” como indicado na Figura 2.

Figura 2: Otimização usando o programa ChemSketch

• Em seguida vá em “Arquivo”, “exportar” e salve a molécula no formato

3.2 Converter formato de arquivo

• Em “INPUT FORMAT” escolha a opção “mol – MDL MOL format”.

• Abra o arquivo com a sua molécula.

• Em “OUTPUT FORMAT” escolha a opção “inp – GAMESS input”

• Escolha um nome para seu arquivo de saı́da e clique em “Convert” para

3.3 Otimização de geometria utilizando GAMESS

Figura 3: Convertendo formato de arquivo com OpenBabel

• Vá em “Subwindow”, “Input Builder”

• Em “Basis” selecione AM1 em “Basis Set” (Figura 4).

• Em “Control” selecione “Optimization” em “Run Type” (Figura 5).

• Clique em “Write File” e salve o arquivo.

• Utilizando um programa de SCP copie o arquivo que você acabou de

• Rode seu cálculo utilizando o GAMESS com o comando

• Confira se seu cálculo convergiu. Caso contrário aumente o número de

Figura 4: Selecionando base

Figura 5: Tipo de cálculo

3.4 Cálculo de energia e cargas CHELPG usando DFT