Você está na página 1de 52

Quı́mica computacional aplicada a QSAR

João Paulo Ataide Martins


Março 2010

Centro Nacional de Processamento


de Alto Desempenho em São Paulo

CENAPAD-SP
SUMÁRIO 2

Sumário
1 Introdução 5

2 Geração de descritores em QSAR 2D 8


2.1 Desenho e otimização de geometria . . . . . . . . . . . . . . . 8
2.1.1 Mecânica molecular . . . . . . . . . . . . . . . . . . . . 8
2.1.2 Mecânica Quântica . . . . . . . . . . . . . . . . . . . . 9
2.2 Descritores em QSAR 2D . . . . . . . . . . . . . . . . . . . . 15

3 Prática 1 17
3.1 Desenhar moléculas . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 Converter formato de arquivo . . . . . . . . . . . . . . . . . . 18
3.3 Otimização de geometria utilizando GAMESS . . . . . . . . . 18
3.4 Cálculo de energia e cargas CHELPG usando DFT . . . . . . 20
3.5 Montando a tabela de descritores . . . . . . . . . . . . . . . . 22
3.5.1 Cargas atômicas . . . . . . . . . . . . . . . . . . . . . . 22
3.5.2 Energias . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.5.3 Descritores de lipofilia e solubilidade . . . . . . . . . . 26
3.5.4 Descritores topológicos e constitucionais . . . . . . . . 28

4 Quimiometria aplicada a QSAR 31


4.1 Construção do modelo matemático . . . . . . . . . . . . . . . 31
4.2 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2.1 Centrar na média . . . . . . . . . . . . . . . . . . . . . 32
4.2.2 Autoescalar . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3 Validação cruzada . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.4 Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.5 Seleção de variáveis com o algoritmo OPS . . . . . . . . . . . 34
4.6 Validação externa . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.7 Avaliação da robustez do modelo com leave-N-out . . . . . . . 35
4.8 y-randomization . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5 Prática 2 36
5.1 Construindo modelos QSAR . . . . . . . . . . . . . . . . . . . 36
5.1.1 Corte pela correlação . . . . . . . . . . . . . . . . . . . 36
5.1.2 Seleção de variáveis com OPS . . . . . . . . . . . . . . 36
5.2 Validação Leave-N-Out . . . . . . . . . . . . . . . . . . . . . . 38
5.3 Validação y-randomization . . . . . . . . . . . . . . . . . . . . 38

6 Descritores LQTA-QSAR 40
6.1 Metodologia LQTA-QSAR . . . . . . . . . . . . . . . . . . . . 41

CENAPAD-SP
LISTA DE FIGURAS 3

7 Prática 3 43
7.1 Criando arquivos de topologia . . . . . . . . . . . . . . . . . . 43
7.2 Dinâmica molecular usando o GROMACS . . . . . . . . . . . 45
7.3 Executando os alinhamentos . . . . . . . . . . . . . . . . . . . 47
7.4 Rodando o programa LQTAgrid . . . . . . . . . . . . . . . . . 48

Lista de Figuras
1 Moléculas a serem desenhadas . . . . . . . . . . . . . . . . . . 17
2 Otimização usando o programa ChemSketch . . . . . . . . . . 18
3 Convertendo formato de arquivo com OpenBabel . . . . . . . 19
4 Selecionando base . . . . . . . . . . . . . . . . . . . . . . . . . 20
5 Tipo de cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . 20
6 Escolhendo conjunto de base . . . . . . . . . . . . . . . . . . . 21
7 Tipo de cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . 22
8 Reservando memória . . . . . . . . . . . . . . . . . . . . . . . 22
9 Escolha do funcional . . . . . . . . . . . . . . . . . . . . . . . 23
10 Selecionando cargas CHELPG na saı́da do GAMESS . . . . . 24
11 Colando cargas CHELPG no arquivo mol2 . . . . . . . . . . . 24
12 Observando momentos de dipolo . . . . . . . . . . . . . . . . . 25
13 Visualizando cargas atômicas com o programa Chimera . . . . 25
14 Energia total . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
15 Calor de formação . . . . . . . . . . . . . . . . . . . . . . . . 27
16 Número de orbitais ocupados . . . . . . . . . . . . . . . . . . 27
17 Energias dos orbitais HOMO e LUMO . . . . . . . . . . . . . 28
18 Calculando valores de logP e logS . . . . . . . . . . . . . . . . 29
19 Calculando descritores com o programa pclient . . . . . . . . . 29
20 Programa QSAR modeling . . . . . . . . . . . . . . . . . . . . 37
21 Exemplo de gráfico para Leave-N-Out . . . . . . . . . . . . . . 38
22 Exemplo de gráfico para y-randomization . . . . . . . . . . . . 39
23 Caixa 3D (grid) gerada pelo programa LQTA grid . . . . . . . 42
24 Adicionando cargas com o programa Chimera . . . . . . . . . 43
25 Escolhendo modelo de cargas . . . . . . . . . . . . . . . . . . 44
26 Escolhendo método . . . . . . . . . . . . . . . . . . . . . . . . 44
27 Salvando arquivo como mol2 . . . . . . . . . . . . . . . . . . . 45
28 Editando arquivo itp . . . . . . . . . . . . . . . . . . . . . . . 46
29 Editando arquivo lig.top . . . . . . . . . . . . . . . . . . . . . 47
30 Exemplo de arquivo de entrada para o LQTAgrid . . . . . . . 49
31 Programa LQTAgrid . . . . . . . . . . . . . . . . . . . . . . . 49

CENAPAD-SP
LISTA DE TABELAS 4

Lista de Tabelas
1 Parâmetros estatı́sticos calculados durante a validação cruzada. 34

CENAPAD-SP
1 Introdução 5

1 Introdução
Um ramo da Quı́mica de grande interesse atualmente é o planejamento de
fármacos com o auxı́lio do computador. A possibilidade de projetar com-
postos com propriedades bem definidas evitando os custos da sı́ntese expe-
rimental exploratória de grande número de substâncias tem impulsionado
muita pesquisa nessa área. Os fundamentos necessários para um projeto efe-
tivo nessa área estão na relação estrutura atividade quantitativa (QSAR1 ).
Nas técnicas utilizadas em QSAR considera-se que existe uma relação en-
tre as propriedades de uma molécula e sua estrutura e tentam-se estabelecer
relações matemáticas simples para descrever e, em seguida, prever uma dada
propriedade para um conjunto de compostos, geralmente pertencentes a uma
mesma famı́lia quı́mica. O estudo de QSAR compreende também a definição
dos descritores moleculares capazes de caracterizar satisfatoriamente conjun-
tos moleculares diferentes e o tratamento estatı́stico que pode ser aplicado a
esses descritores a fim de melhorar sua capacidade preditiva.
As técnicas utilizadas em QSAR surgiram desde 1863 quando Cros, da
universidade de Estrasburgo, observou que a toxicidade de álcoois em ma-
mı́feros aumentava quando suas solubilidades em água diminuı́am. Crum-
Brown e Fraser postularam em 1868 que uma relação entre as atividades
fisiológicas e as estruturas quı́micas existiam. Mais tarde, Richet propôs que
a toxicidade de alguns álcoois e éteres era inversamente proporcional à suas
solubilidades em água. Por volta de 1900, Meyer e Overton, trabalhando in-
dependentemente, estabeleceram relações lineares entre a ação narcótica de
alguns compostos orgânicos e uma distribuição de coeficientes de solubilidade
em água e em lipı́dios, descrevendo um parâmetro que pode ser considerado
como um precursor do atual log P, o coeficiente de partição octanol-água.
Em 1939, Ferguson estudou o comportamento de propriedades diversas (so-
lubilidade em água, partição, capilaridade, e pressão de vapor) em relação à
atividade tóxica de diferentes séries homólogas de compostos [13].
Mesmo considerando estes procedimentos como as raı́zes do atual QSAR,
no final da década de 30 Hammett propôs o primeiro procedimento meto-
dológico de propósito geral. Hammett verificou que as constantes de equilı́brio
de ionização dos ácidos benzóicos meta e para substituı́dos estavam relacio-
nadas. Esta relação levou à definição da chamada constante de Hammett σ.
Este parâmetro tornou-se um descritor capaz de caracterizar a atividade de
muitos conjuntos de moléculas. Utilizando esta abordagem como um passo
inicial, outros descritores foram propostos, mas sem a mesma relevância da
constante de Hammett.
1
do inglês quantitative structure-activity relationship

CENAPAD-SP
1 Introdução 6

Em 1964, Free e Wilson postularam que para uma série de compostos


similares, diferindo entre si apenas pela presença de certos substituintes,
a contribuição destes substituintes para a atividade biológia seria aditiva
e dependeria apenas do tipo e da posição do substituinte. O modelo Free-
Wilson, no entanto, não pode ser aplicado a moléculas cujos substituintes não
são combinações lineares daqueles existentes no conjunto de treinamento.
A sistematização das análises em QSAR deve ser associada ao trabalho de
Hansch e Fujita surgido em 1964. As bases para o modelo de Hansch-Fujita
é considerar que a atividade biológica observada é o resultado da contri-
buição de diferentes fatores que comportam-se de maneira diferente. Cada
contribuição para a atividade é representada por um descritor estrutural, e a
atividade biológica de um conjunto de compostos é ajustada em um modelo
multilinear. Os descritores mais utilizados nas primeiras análises de QSAR
foram o coeficiente de partição octanol/água (log P), a constante de Ham-
mett σ agindo como um descritor eletrônico e o parâmetro de lipofilicidade
π, definido em analogia ao descritor eletrônico. Juntamente com esses des-
critores empı́ricos, os modelos clássicos empregam outras propriedades fı́sico-
quı́micas como parâmetros , algumas das quais derivam de cálculos mecânico-
quânticos, por exemplo, cargas parciais, energias do HOMO, do LUMO, etc.
Nos casos em que a relação estrutura-atividade é muito complexa para ser
caracterizada com estes descritores, outros fatores são utilizados.
Uma outra aproximação ao problema da relação estrutura-atividade tem
sido baseada nos conceitos de topologia molecular. Esta perspectiva, desen-
volvida principalmente por Wiener [29], Kier e Hall [18] e Randic [24], repre-
senta numericamente as caracterı́sticas topológicas das moléculas através dos
chamados ı́ndices de conectividade e de distância. Estes ı́ndices topológicos
também têm sido aplicados com sucesso em QSAR.
Em 1988, técnicas de QSAR sofreram uma grande transformação devido
à introdução dos chamados parâmetros moleculares tridimensionais, que le-
vam em conta a influência de diferentes confôrmeros, estereoisômeros ou
enantiômeros. Este tipo de modelo, conhecido como QSAR 3D, também
implica no alinhamento das estruturas moleculares de acordo com um far-
macóforo comum, derivado do conhecimento da interação fármaco-receptor.
O primeiro modelo publicado possuindo estas caracterı́sticas foi a análise
comparativa de campo molecular (CoMFA2 ), proposta por Cramer [17], que
é atualmente uma das metodologias mais empregadas em QSAR. No forma-
lismo CoMFA, os descritores de campo ou propriedades tridimensionais são
determinados em uma caixa 3D virtual ou grade (grid) que abrange todas as
estruturas moleculares alinhadas. Outras abordagens diferentes em QSAR
2
do inglês Comparative Molecular Field Analysis

CENAPAD-SP
1 Introdução 7

3D vêm sendo propostas desde o aparecimento da CoMFA, algumas delas as-


sociadas aos conceitos de similaridade entre diferentes aspectos moleculares.
Em 1997, Hopfinger e colaboradores propuseram uma nova metodologia
de QSAR chamada de 4D-QSAR [16]. A análise em QSAR 4D incorpora
liberdade conformacional ao desenvolvimento de modelos de QSAR 3D fa-
zendo com que a mudança de estado molecular constitua a quarta dimensão.
Os descritores em QSAR 4D são representados pelas medidas de ocupação
de cada célula do grid pelos átomos que formam as moléculas do conjunto de
treinamento. Os descritores de ocupação das células do grid, GCODs (grid
cell occupancy descriptors), podem ser gerados a partir de diferentes tipos
de átomos, que em QSAR 4D são chamados de IPEs (interaction pharma-
cophore elements).
Recentemente, Martins e colaboradores [23] desenvolveram uma nova me-
todologia de QSAR 4D, chamada de LQTA-QSAR que incorpora as princi-
pais vantagens observadas nos métodos CoMFA e 4D-QSAR. A nova meto-
dologia calcula os descritores de campo, a exemplo do acontece em CoMFA,
para um perfil de amostragem conformacional, assim como o utilizado em
4D-QSAR.
Além dos métodos de QSAR citados, diversas outras abordagens vêm
sendo utilizadas em estudos de QSAR. Dentre elas destacam-se CoMSIA,
HQSAR, MIA-QSAR entre outras.

CENAPAD-SP
2 Geração de descritores em QSAR 2D 8

2 Geração de descritores em QSAR 2D


Um estudo de QSAR se inicia com a definição do conjunto de moléculas com
atividade biológica conhecida. Dentro desse conjunto as moléculas devem
ser similares estruturalmente e as atividades biológicas devem ser medidas
usando o mesmo protocolo de ensaio. Outro fator importante é a variação da
atividade biológica em unidades logarı́tmicas. Quanto maior for essa variação
e melhor a distribuição desses valores, maiores as chances de se obter um bom
modelo. Uma outra discussão importante que surge em estudos de QSAR
é sobre o tamanho do conjunto de treinamento. Atualmente, para que se
possa obter um bom modelo QSAR deve-se ter pelo menos 20 moléculas no
conjunto de treinamento.

2.1 Desenho e otimização de geometria


Escolhido o conjunto que será objeto de estudo, o primeiro passo é otmimizar
as geometrias das moléculas do conjunto escolhido. Para isso, pode-se partir
de estruturas cristalográficas iguais ou semelhantes às moléculas estudadas
que podem ser obtidas a partir de bancos de dados como o Cambridge Struc-
tural Database (CSD)[12] ou o Protein Data Bank (PDB)[10]. Caso nenhuma
estrutura cristalográfica sememelhante seja conhecida, pode-se simplesmente
desenhar as moléculas com base em suas fórmulas estruturais. Alguns exem-
plos de programas usados para editar e desenhar as moléculas são: Gauss-
view, HyperChem, Spartan, Titan, Molden, Ghemical, Chemsketch, Marvin,
WxMacMolPlt. Os quatro primeiros são pagos, enquanto que os últimos são
gratuitos.
Desenhadas as moléculas, o próximo passo é a otimização de geometria
propriamente dita. Essa otimização pode ser feita usando-se mecânica mole-
cular ou mecânica quântica.

2.1.1 Mecânica molecular


Os métodos baseados na Mecânica Molecular usam as leis da fı́sica clássica
para predizer propriedades estruturais e moleculares[14]. O que diferencia
dois modelos de mecânica molecular é o número e a natureza especı́fica dos
termos que eles incorporam e os detalhes de sua parametrização. O conjunto
de equações empı́ricas e parâmetros usados em cada esquema de mecânica
molecular é chamado de campo de força. Um campo de força pode ser escrito
como:

CENAPAD-SP
2.1 Desenho e otimização de geometria 9

ligacoes angulos de ligacao


X X
E total
= Eiestiramento + Eidef ormacao
i i
angulos diedros atomos nao ligados
X X X
+ Eitorsao + Eijnao ligantes (1)
i i j

Algumas vantagens e desvantagens dos métodos de MM podem ser des-


tacadas de maneira bem geral:

• Os cálculos de MM são computacionalmente baratos;

• Cada campo de força apresenta bons resultados para uma classe limi-
tada de moléculas;

• Por desprezarem as interações eletrônicas, os métodos não podem tratar


problemas quı́micos onde efeitos eletrônicos sejam predominantes;

• Dependem da disponibilidade de parâmetros para cada tipo de átomo.

Em estudos de QSAR, os métodos de MM são usados como ponto de


partida para otimização de geometria, em buscas conformacionais ou em
dinâmicas moleculares envolvendo solvente ou proteı́nas.

2.1.2 Mecânica Quântica


No final do século XVII, Isaac Newton propôs um conjunto de leis do movi-
mento dos objetos macroscópicos que fundamentaram o que hoje se denomina
mecânica clássica ou mecânica newtoniana. No inı́cio do século XX, os fı́sicos
descobriram que a mecânica clássica não descreve corretamente o compor-
tamento de partı́culas muito pequenas, tais como os elétrons e núcleos dos
átomos; o comportamento de tais partı́culas é descrito por outro conjunto de
leis conhecido como Mecânica Quântica. A mecânica quântica é particu-
larmente importante para a quı́mica pela descrição que pode fazer de átomos
e moléculas [21].
Para descrever o estado de um sistema na mecânica quântica, postula-
se a existência de uma função de coordenadas chamada de função de onda
ou função de estado Ψ. O conceito da função de onda e a equação que
governa as suas mudanças com o tempo foram propostos em 1926 pelo fı́sico
austrı́aco Erwin Schrödinger (1887-1961). Para uma partı́cula em um sistema
unidimensional postulou-se a seguinte equação

CENAPAD-SP
2.1 Desenho e otimização de geometria 10

h̄ ∂Ψ(x, t) h̄2 ∂ 2 Ψ(x, t)


− =− + V (x, t)Ψ(x, t) (2)
i ∂t 2m ∂x2
onde a constante h̄ é definida como
h
h̄ = (3)

Nesta equação, conhecida como a equação de Schrödinger √ depen-
dente do tempo (ou equação de onda de Schrödinger), i = −1, m é a
massa da partı́cula e V (x, t) é a função da energia potencial do sistema.
Felizmente, para grande parte das aplicações da mecânica quântica na
quı́mica, não é necessário utilizar a equação de Schrödinger dependente do
tempo. A equação de Schrödinger independente do tempo, mais simples,
pode ser utilizada.

h̄2 d2 Ψ(x)
− + V (x)Ψ(x) = EΨ(x) (4)
2m dx2
ou simplesmente

ĤΨ = EΨ (5)
2
h̄ d2
onde Ĥ = − 2m dx2
+ V (x) é o operador Hamiltoniano e E é a energia do
sistema.
Para uma partı́cula em um sistema de coordenadas de três dimensões o
operador Hamiltoniano tem a seguinte forma

h̄2 2
Ĥ = − ∇ + V (x, y, z) (6)
2m
∂ 2 ∂ ∂ 2 2
onde ∇2 = ∂x 2 + ∂y 2 + ∂z 2 .

A descrição mecânico-quântica difere da descrição da mecânica clássica


sendo esta última um caso limite da primeira. A função de onda que des-
creve um sistema contém todas as informações sobre o mesmo, porém a sua
interpretação tem caráter probabilı́stico, diferindo da mecânica clássica de
caráter determinista.

Método Hartree-Fock A equação de Schrödinger só pode ser resolvida


exatamente para átomos hidrogenóides (sistemas com apenas um núcleo e
um elétron). Para átomos multieletrônicos, o Hamiltoniano tem a seguinte
forma

CENAPAD-SP
2.1 Desenho e otimização de geometria 11

N N
h̄2 2 h̄2 X 2 0 X Ze2 X X e2
− ∇ (A) − ∇ (i ) − + (7)
2M 2M i=1 i=1
ri r
i<j ij

onde (A), (i0 ), (10 ), (20 ), (N 0 ), indicam as coordenadas do núcleo A e dos


elétrons i, 1, 2 e N respectivamente. O primeiro termo da equação anterior
indica a energia cinética do núcleo, o segundo termo indica a energia cinética
dos elétrons, o terceiro termo indica a energia potencial de atração entre o
núcleo e os elétrons e o quarto termo indica a energia potencial de repulsão
entre os elétrons. Boa parte da complicação matemática da equação é de-
vida ao quarto termo, o que impossibilita a resolução exata da equação de
Schrödinger para esse tipo de sistema.
A idéia do método Hartree-Fock é reduzir o problema de N elétrons para
um problema de um elétron que interage com os núcleos e a nuvem eletrônica
dos demais elétrons. A interação elétron-elétron é introduzida de uma forma
média. Hartree propôs a separação em n equações monoeletrônicas enquanto
que Fock introduziu o conceito de antissimetrização nas equações de Hartree
pela utilização do determinante de Slater. As equações de Hartree-Fock po-
dem ser estendidas para sistemas moleculares utilizando-se a aproximação de
Born-Oppenheimer. Essa aproximação considera que os núcleos dos átomos
estão em posições fixas e separa a equação de onda em uma parte nuclear e
uma parte eletrônica.
Este conjunto de equações pode ser resolvido de modo aproximado através
do método variacional. O teorema variacional diz que dado um sistema
cujo operador Hamiltoniano Ĥ é independente do tempo e cujo autovalor de
menor energia é E1 , se φ é qualquer função das coordenadas das partı́culas
do sistema, bem comportada, normalizada e que satisfaz as condições de
contorno do problema, então
Z
φ∗ Ĥφ ≥ E1 (8)

O teorema variacional nos permite calcular um limite superior para a


energia do sistema no estado fundamental.
Deste modo os orbitais variacionais Ψi (1) são as autofunções de um ope-
rador de um elétron, o operador de Fock, F̂ (1) , que pode ser considerado
como um Hamiltoniano efetivo para cada elétron no seu ambiente. Os valo-
res das energias orbitais são dados por εi . Assim, a resolução desta última
equação é feita por um processo iterativo, até atingir a autoconsistência,
ou seja, até que as funções Ψi utilizadas para definir F̂ sejam realmente as
autofunções de F̂ : é o método do campo autoconsistente (mais conhecido
como SCF, do inglês self-consistent field). As soluções desta equação são os

CENAPAD-SP
2.1 Desenho e otimização de geometria 12

orbitais de Hartree-Fock e só podem ser obtidos numericamente. Através da


aproximação de Hartree-Fock, a equação de Schrödinger pode então ser sepa-
rada em n equações de um elétron de um átomo hidrogenóide, cuja solução
pode ser obtida.

As equações de Roothaan-Hall As equações de Hartree-Fock utilizando


determinante de Slater para antissimetrização foram resolvidas utilizando
combinações lineares de conjuntos de funções de base que não eram mo-
dificados. Roothaan e Hall propuseram que as modificações ocorressem nos
coeficientes de combinação das bases através de método autoconsistente. As-
sim, um orbital atômico é dado por uma combinação linear de finções de
base. Inicialmente foram utilizados Slater Type Orbitals (STO) para montar
os conjuntos de base. Boys propôs a utilização de Gaussian Type Orbitals
(GTO) na década de 50. A expansão proposta por Roothaan dos orbitais em
conjuntos de base tem a forma da expressão matemática da equação 9. Os
conjuntos de base podem ser substituı́dos na equação de Hartree-Fock como
mostrado nas equações. O sistema linear de b equações homogêneas descreve
o orbital molecular φi . Uma solução não trivial deve ser obtida calculando o
determinante das equações, como mostrado. As equações de Hartree-Fock-
Roothaan devem ser resolvidas por processo iterativo, já que as integrais Frs
dependem dos orbitais φi , que por sua vez dependem dos coeficientes csi .

b
X
φi = csi χs
s=1
X b
X
csi F̂ χs = i csi χs
s=1 s=1
b
X
csi (Frs − i Srs ) = 0 ; r = 1, 2, · · · , b
s=1
D E
Frs = χr F̂ χs ; Srs = hχr |χs i
det(Frs − i Srs ) = 0 (9)

Funções de base Os principais conjuntos de base usados em QSAR são:

STO-3G: A representação mais simples de um orbital atômico é chamada


de conjunto de base mı́nimo. Esta representação compreende apenas as
funções de base necessárias para acomodar todos os elétrons do átomo.
Na prática, envolve uma função 1s para o hidrogênio e para o hélio e um

CENAPAD-SP
2.1 Desenho e otimização de geometria 13

conjunto de cinco funções (1s, 2s, 2px , 2py , 2pz ) para os átomos de lı́tio
até o neônio. Cada uma das funções de base na representação STO-3G é
expandida em termos de três funções Gaussianas, sendo que os valores
dos expoentes Gaussianos e os coeficientes lineares são determinados
pelo método dos quadrados mı́nimos para melhor se ajustar a funções
do tipo Slater (exponenciais).
3-21G e 6-31G: Uma outra abordagem utilizada na construção de um con-
junto de base é fazer uma separação entre os elétrons mais internos e
os elétrons de valência. Assim, os elétrons mais internos seriam repre-
sentados por um único conjunto de funções e os elétrons de valência
seriam representados por dois conjuntos de funções.
Dentre os conjuntos de base mais simples que separam os elétrons de
valência estão os conjuntos 3-21G e 6-31G. Os orbitais atômicos para
os elétrons internos no conjunto de base 3-21G é representado por uma
única função, que por sua vez é escrita em função de três funções Gaus-
sianas, enquanto que os elétrons de valência mais internos e mais ex-
ternos são representados, respectivamente, pela expansão de 2 funções
Gaussianas e 1 função Gaussiana. O Conjunto de base 6-31G é cons-
truı́do de maneira similar, tendo os orbitais mais externos representados
em termos de seis funções Gaussianas e os orbitais de valência divididos
em três e um componente Gaussianos.
Conjuntos de base de polarização: A representação de átomos mais pe-
sados exige a introdução de orbitais do tipo d. Um conjunto de base
de polarização representa os orbitais atômicos mais internos por um
único conjunto de funções e os orbitais atômicos de valência por dois
(ou mais) conjuntos de funções e inclui um conjunto de funções de po-
larização do tipo d para os elementos mais pesados e um conjunto do
tipo p de funções de polarização para o hidrogênio.
Entre os conjuntos de base de polarização mais simples estão 6-31G*
e 6-311G*, construı́dos a partir dos conjuntos 6-31G e 6-311G, respec-
tivamente, adicionando-se seis funções Gaussianas do tipo d para cada
átomo pesado. O conjunto de base 6-31G** é idêntico ao conjunto 6-
31G*, exceto pelo fato de que no primeiro temos funções de polarização
do tipo p para o hidrogênio.

Métodos de correlação eletrônica O método Hartree-Fock gera soluções


da equação de Schrödinger, nas quais as interações elétron-elétron são subs-
tituı́das por uma interação média. No entanto, os movimentos dos elétrons
estão relacionados entre si e isto é chamado de correlação eletrônica. O valor

CENAPAD-SP
2.1 Desenho e otimização de geometria 14

mı́nimo de energia que pode ser atingido utilizando a aproximação do ope-


rador monoeletrônico no método de HF é chamado de limite Hartree-Fock.
Este limite de energia é o melhor que se pode fazer aumentando o conjunto
de base utilizado para o cálculo até a completude e aumentando a exatidão
dos limites de convergência por densidade e energia. As energias calculadas
pelo método de Hartree-Fock geralmente apresentam um erro de 0,5% a 1%,
o que pode ser importante dependendo do fenômeno estudado. A energia
de correlação é a diferença entre a energia exata não-relativı́stica e a energia
de Hartree-Fock. Existem vários métodos de correlação eletrônica, dentre os
quais destacam-se:

• Teoria de perturbação de Møller Plesset (MPn)

• Teoria do Funcional de densidade (DFT)

• Configuration Interaction (CI)

• Multi-Configuration Self-Consistent Field (MCSCF)

• Coupled Cluster

Dentre os métodos usados em QSAR merece destaque a teoria do funci-


onal de densidade.

Teoria do funcional de densidade (DFT) A teoria do funcional de


densidade é um método ab initio originalmente desenvolvido para sólidos. O
método utiliza-se da densidade eletrônica ρ(r) para descrever um sistema,
ao invés de uma função de onda. Utilizando-se DFT a energia de correlação
pode ser incluı́da de forma direta nos cálculos através dos funcionais de troca
e correlação. Em relação aos métodos Hartree-Fock e pós HF há economia
de recursos computacionais. Em relação aos métodos semi-empı́ricos a van-
tagem é que o Hamiltoniano em DFT é bem definido, não sendo necessárias
aproximações injustificáveis. Nas derivações das equações em DFT nenhum
parâmetro precisa ser ajustado [20].
As soluções das equações propostas em DFT geram orbitais de uma ma-
neira análoga aos obtidos no método HF. As funções obtidas para esses or-
bitais, porém, são diferentes. Eles são chamados de orbitais de Kohn-Sham.
O método DFT é bastante usado em QSAR, por incluir correlação eletrô-
nica e ser barato computacionalmente. Em QSAR o funcional mais utilizado
é o hı́brido B3LYP, por estar consolidado como um funcional que fornece
bons resultados para a análise de energia e geometria molecular.

CENAPAD-SP
2.2 Descritores em QSAR 2D 15

Métodos semi-empı́ricos Os métodos semi-empı́ricos seguem diretamente


do modelo Hartree-Fock. O tamanho do problema é reduzido restringindo-se
o tratamento aos elétrons de valência. Em seguida, o conjunto de base é
restrito à mı́nima representação. Para os elementos representativos ela com-
preende uma única função do tipo s, um conjunto de funções do tipo p para
elementos do primeiro perı́odo e um conjunto de funções do tipo d, uma
função s e um conjunto de funções do tipo p para metais de transição. O
hidrogênio é representado por uma única função 1s.
A principal aproximação utilizada para reduzir o tempo computacional
nos principais métodos semi-empı́ricos utilizados atualmente é a chamada
aproximação NDDO (Neglect of Diatomic Differential Overlap). Nesta apro-
ximação considera-se que orbitais atômicos que residem em átomos diferentes
não se relacionam e as integrais envolvendo estes dois centros diferentes são
iguais a zero.
Aproximações adicionais são introduzidas para simplificar os cálculos
e ainda prover uma estrutura adequada para a introdução de parâmetros
empı́ricos. Com exceção dos modelos feitos para metais de transição, a para-
metrização dos métodos semi-empı́ricos é feita reproduzindo-se dados expe-
rimentais, incluindo geometrias de equilı́brio, calores de formação, momentos
de dipolo e potenciais de ionização. Parâmetros para o método PM3 para
metais de transição são baseados apenas na reprodução de geometrias de
equilı́brio. Os métodos AM1 e PM3 são os mais usados atualmente e apre-
sentam essencialmente as mesmas aproximações, mas diferem entre si pela
parametrização[25, 26].
Métodos semi-empı́ricos podem ser aplicados para moléculas com até
cerca de 200 átomos com sucesso relativo para o cálculo das geometrias de
equilı́brio, incluindo as geometrias de compostos orgânicos e inorgânicos con-
tendo metais de transição e sucesso moderado para o cálculo de geometrias de
estado de transição. No entanto, os métodos semi-empı́ricos não apresentam
resultados satisfatórios para cálculos cinéticos ou termoquı́micos.
Atualmente, vários trabalhos em QSAR continuam sendo desenvolvidos
com sucesso utilizando métodos semi-empı́ricos.

2.2 Descritores em QSAR 2D


As estruturas quı́micas não contêm a informação relacionada à atividade
biológica de maneira explı́cita. Esta informação deve ser extraı́da das es-
truturas na forma de descritores moleculares que acentuem diferentes pro-
priedades quı́micas implı́citas na estrutura da molécula. Tais propriedades,
que vão desde parâmetros fı́sico-quı́micos, eletrônicos ou mecânico-quânticos
a caracterı́sticas geométricas e topológicas das moléculas, podem ser então

CENAPAD-SP
2.2 Descritores em QSAR 2D 16

correlacionadas diretamente com a atividade [28].


Tecnicamente, os descritores moleculares convertem a estrutura à forma
de conjuntos de valores numéricos bem definidos para serem usados na análise
estatı́stica dos dados representando várias propriedades moleculares que são
consideradas importantes para explicar a atividade biológica
Os descritores bidimensionais (2D) possuem a propriedade comum de se-
rem independentes da orientação tridimensional da molécula. Estes descrito-
res vão de simples medidas das entidades constituintes da estrutura quı́mica,
de suas propriedades geométricas e topológicas, métodos de contagem de
fragmentos, até descritores eletrônicos calculados por métodos mecânico-
quânticos. Os principais descritores 2D podem ser classificados como:

• Descritores Constitucionais: capturam propriedades da molécula que


são relacionadas aos elementos constituintes de sua estrutura. São des-
critores que podem ser calculados rápida e facilmente. Exemplos in-
cluem massa molecular, número total de átomos na molécula e número
de átomos de identidades diferentes. Informações relacionadas a ligações
são também consideradas, como números totais de ligações simples, du-
plas, triplas ou aromáticas, assim como número de anéis aromáticos.
Podem ser calculados facilmente com programas gratuitos como ChemS-
ketch [2], Marvin [7] ou AlogPS2.1 [1].

• Descritores Geométricos: dependem do arranjo espacial dos átomos


constituintes da molécula. Representam, por exemplo, informações
sobre a superfı́cie molecular, obtida das áreas de van der Waals dos
átomos, assim como sobre o volume molecular. Podem ser calculados
facilmente com programas gratuitos como ChemSketch [2] e Marvin [7]
ou programas pagos como o HyperChem.

• Descritores Eletrônicos: Estimados a partir de cálculos mecânico-quân-


ticos, esses parâmetros descrevem as propriedades eletrônicas das mo-
léculas, bem como a influência de certos grupos ou substituintes na
densidade de distribuição eletrônica. Como exemplo, temos: cargas
atômicas, momentos de dipolo, quadrupolo, energias dos orbitais de
fronteira, potencial de ionização, afinidade eletrônica, eletronegativi-
dade, energia eletrônica e calor de formação. Além destes, incluem-se
parâmetros de polarizabilidade e refratividade molar, que indicam o
modo pelo qual eventuais alterações nos substituintes de uma estru-
tura podem modificar a distribuição de cargas como um todo. Podem
ser calculados com programas como Gamess (gratuito), Gaussian, Hy-
perChem, Spartan e Titan.

CENAPAD-SP
3 Prática 1 17

• Descritores Topológicos: tratam a estrutura da molécula como um


grafo, tendo os átomos como vértices e as ligações covalentes como
arestas. Com base nesta abordagem, muitos ı́ndices quantificando a
conectividade molecular são definidos, como o ı́ndice de Wiener, de
Balaban e de Schultz. Informações sobre elétrons de valência podem
ser incluı́das em descritores topológicos, como ı́ndices de Kier e Hall
ou ı́ndices topológicos de carga de Gálvez. Podem ser calculados com
programas gratuitos como marvin [7], pclient [9] e e-dragon [4].

• Descritores de Lipofilia e Solubilidade: especificamente, o logaritmo


do coeficiente de partição (log P) definido como sendo o logaritmo da
razão entre a solubilidade de uma substância em um solvente orgânico
e a solubilidade da mesma em água e o logaritmo da solubilidade em
água (log S). Estes parâmetros estão relacionados principalmente com
a distribuição do fármaco no organismo. Podem ser calculados com os
programas AlogPS2.1 [1] e Marvin [7].

3 Prática 1
3.1 Desenhar moléculas
• Abra o programa ChemSketch e desenhe as moléculas indicadas na
Figura 1.

Figura 1: Moléculas a serem desenhadas

• Clique em “otimizar” como indicado na Figura 2.

CENAPAD-SP
3.2 Converter formato de arquivo 18

Figura 2: Otimização usando o programa ChemSketch

• Em seguida vá em “Arquivo”, “exportar” e salve a molécula no formato


MDL (extensão mol).

3.2 Converter formato de arquivo


• Abra o programa OpenBabel [8] para converter o formato da molécula
desenhada.

• Em “INPUT FORMAT” escolha a opção “mol – MDL MOL format”.

• Abra o arquivo com a sua molécula.

• Em “OUTPUT FORMAT” escolha a opção “inp – GAMESS input”


se for usar o GAMESS ou “com – Gaussian 98/03 input” se for usar o
gaussian.

• Escolha um nome para seu arquivo de saı́da e clique em “Convert” para


converter os formatos (Figura 3).

3.3 Otimização de geometria utilizando GAMESS


• Abra o programa WxMacMolPlt [6].

CENAPAD-SP
3.3 Otimização de geometria utilizando GAMESS 19

Figura 3: Convertendo formato de arquivo com OpenBabel

• Vá em “File”, “Open” e abra a molécula que você salvou como entrada
do GAMESS quando usou o OpenBabel.

• Vá em “Subwindow”, “Input Builder”

• Em “Basis” selecione AM1 em “Basis Set” (Figura 4).

• Em “Control” selecione “Optimization” em “Run Type” (Figura 5).

• Clique em “Write File” e salve o arquivo.

• Utilizando um programa de SCP copie o arquivo que você acabou de


salvar para a sua área criada no ambiente CENAPAD.

• Rode seu cálculo utilizando o GAMESS com o comando


/usr/local/gamess 11 APR 2008 R1/rungms nomedoarquivo.inp >& no-
medoarquivo.log&

• Confira se seu cálculo convergiu. Caso contrário aumente o número de


“steps” em “Input Builder”, “Stat. Point”.

CENAPAD-SP
3.4 Cálculo de energia e cargas CHELPG usando DFT 20

Figura 4: Selecionando base

Figura 5: Tipo de cálculo

3.4 Cálculo de energia e cargas CHELPG usando DFT


• Utilizando o programa WxMacMolPlt abra o arquivo de saı́da do cálculo
rodado com o GAMESS.

CENAPAD-SP
3.4 Cálculo de energia e cargas CHELPG usando DFT 21

• Utilizando o “Input Builder” escolha a base 3-21G em “Basis” (Figura


6).

Figura 6: Escolhendo conjunto de base

• Em “Control” selecione “Energy” em “Run Type” e marque “Use


DFT” (Figura 7).

• Em “System” disponibilize 2000000.00 palavras para memória (Figura


8).

• Em DFT escolha o funcional B3LYP (Figura 9)

• Clique em “Write File” e salve o arquivo.

• Abra o arquivo que você salvou em um editor de texto e copie as linhas


$ELPOT IEPOT=1 WHERE=PDC $END
$PDC PTSEL=CHELPG CONSTR=CHARGE $END
logo antes da seção “DATA”.

• Copie o arquivo para a sua área no ambiente CENAPAD e rode seu


cálculo usando o GAMESS.

CENAPAD-SP
3.5 Montando a tabela de descritores 22

Figura 7: Tipo de cálculo

Figura 8: Reservando memória

3.5 Montando a tabela de descritores


3.5.1 Cargas atômicas
• Converta o arquivo de saı́da do GAMESS para o formato mol2 usando
o programa OpenBabel.

CENAPAD-SP
3.5 Montando a tabela de descritores 23

Figura 9: Escolha do funcional

• Com o editor TextPad [11] abra o arquivo de saı́da do GAMESS, clique


com o botão direito e selecione o modo de seleção em bloco

• Copie as cargas CHELPG calculadas (Figura 10).

• Com o mesmo editor abra o arquivo mol2 que você acabou de converter
e cole as cargas CHELPG (Figura 11).

• No mesmo arquivo de saı́da do GAMESS você também pode encontrar


os momentos de dipolo nas direções X, Y e Z, assim como o momento
de dipolo total e usá-los como descritores (Figura 12).

• Com o programa Chimera [3] abra o seu arquivo mol2

• Selecione “Actions”, “Color”, “by element” para diferenciar os átomos


pela cor.

• Selecione “Actions”, Label, “other” e em “Label with atribute” seleci-


one “charge”.

• Observe quais átomos são comuns às suas moléculas (“esqueleto” básico),
anote as cargas na ordem correta e monte uma tabela (Figura 13).

CENAPAD-SP
3.5 Montando a tabela de descritores 24

Figura 10: Selecionando cargas CHELPG na saı́da do GAMESS

Figura 11: Colando cargas CHELPG no arquivo mol2

CENAPAD-SP
3.5 Montando a tabela de descritores 25

Figura 12: Observando momentos de dipolo

Figura 13: Visualizando cargas atômicas com o programa Chimera

CENAPAD-SP
3.5 Montando a tabela de descritores 26

3.5.2 Energias
• No arquivo de saı́da do GAMESS procure pela energia total (Figura
14).

Figura 14: Energia total

• Calor de formação na saı́da do cálculo AM1 (Figura 15).

• Energia dos orbitais de fronteira (HOMO e LUMO).


Abra o arquivo de saı́da em um editor de texto e procure pelo
número de orbitais ocupados (Figura 16).
Em seguida abra o arquivo de saı́da com o WxMacMolPlt
Em “Subwindow”, “Surfaces”, selecione “3D Orbital”.
Procure pela energia do último orbital ocupado (HOMO) e do pri-
meiro desocupado (LUMO) (Figura 17).

3.5.3 Descritores de lipofilia e solubilidade


Esses descritores podem ser calculados com o programa online AlogPS2.1.

CENAPAD-SP
3.5 Montando a tabela de descritores 27

Figura 15: Calor de formação

Figura 16: Número de orbitais ocupados

CENAPAD-SP
3.5 Montando a tabela de descritores 28

Figura 17: Energias dos orbitais HOMO e LUMO

• Converta suas moléculas otimizadas para o formato SMILES com o


programa open babel.

• Abra o programa AlogPS2.1 [1]

• Cole o código SMILES no programa AlogPS2.1 e clique em “submit”


(Figura 18).

• Monte uma tabela com os resultados obtidos.

3.5.4 Descritores topológicos e constitucionais


Esses descritores podem ser calculados com os programas online pclient e
e-dragon.

• Converta suas moléculas otimizadas para o formato SMILES com o


programa OpenBabel.

• Abra o programa pclient [9]

• Em “Task”, “New”, crie uma nova tarefa.

CENAPAD-SP
3.5 Montando a tabela de descritores 29

Figura 18: Calculando valores de logP e logS

• Cole os códigos SMILES de suas moléculas na janela da sua tarefa


(Figura 19).

Figura 19: Calculando descritores com o programa pclient

CENAPAD-SP
3.5 Montando a tabela de descritores 30

OBS: Os descritores topológicos e constitucionais, assim como os descri-


tores de lipofilia podem ser calculados com o programa Marvin.

CENAPAD-SP
4 Quimiometria aplicada a QSAR 31

4 Quimiometria aplicada a QSAR


Em um estudo de QSAR o principal objetivo é encontrar relações quantitati-
vas entre a estrutura quı́mica, isto é, propriedades fı́sico-quı́micas, estruturais
e conformacionais, e a resposta biológica através de um modelo matemático.
Estas relações ajudam a entender e explicar o mecanismo de ação de fármacos
em nı́vel molecular e permitem o planejamento e desenvolvimento de novos
compostos que exibam propriedades biológicas desejáveis.

4.1 Construção do modelo matemático


A relação entre os descritores moleculares e as propriedades fı́sico-quı́micas
ou biológicas pode ser feita de maneira linear. Desse modo, a equação obtida

y = β0 1 + Xk βk + εk (10)
onde y é um vetor n-dimensional contendo as propriedades ou atividades da
famı́lia molecular estudada, 1 é o vetor unidade, X(k) é a matriz de descri-
tores (n x k) e εk é um erro normalmente distribuı́do tendo valor esperado
zero e matriz de dispersão 1σ 2 . Os estimadores β são calculados usando
uma técnica de quadrados mı́nimos. Para simplificar o modelo preditivo é
necessário construir regressões envolvendo o mı́nimo de descritores. Diversos
descritores diferentes podem ser usados como parâmetros.
Quando se usa a matriz de descritores (X) diretamente na equação 10,
o método de regressão é conhecido como regressão linear múltipla (MLR3 ).
No entanto, pode-se usar no lugar da matriz X outras matrizes contendo
combinações lineares das variáveis em X. Os principais métodos que usam
desse expediente são a regressão de componentes principais (PCR4 ) e a re-
gressão de quadrados mı́nimos parciais (PLS5 ). Nesses métodos a matriz X
é decomposta em duas outras matrizes

X = TLt (11)
onde a matriz T é conhecida como matriz de escores e a matriz L é conhecida
como matriz de pesos ou “loadings”. Na matriz de escores cada coluna é uma
combinação linear dos descritores da matriz X e a regressão passa a ser feita
com a matriz T.
3
do inglês Multiple Linear Regression
4
do inglês Principal Components Regression
5
do inglês Partial Least Squares

CENAPAD-SP
4.2 Pré-processamento 32

Quando se usa MLR, enfrenta-se o problema que não se pode existir


descritores muito correlacionados, pois isso resulta em uma matriz mal con-
dicionada que pode levar a problemas numéricos. Além disso, tem-se pelo
mesmo motivo, a limitação de que o número de descritores deve ser menor
que o número de amostras (em QSAR usa-se a convenção que a matriz deve
ter um descritor para cada 5 ou 6 amostras). Já os métodos PCR e PLS pro-
jetam as variáveis originais em um espaço de dimensão menor, formado por
variáveis não colineares (geralmente ortogonais), chamadas de componentes
principais (PCR) ou variáveis latentes (PLS). Isso faz com que o número de
descritores e a existência de correlações entre eles deixe de ser um problema.
O método PLS apresenta uma vantagem sobre o PCR porque chega a re-
sultados semelhantes com um número menor de variáveis latentes, pois ele
leva em conta a informação existente na variável dependente na construção
do modelo. Assim, o método PLS vem sendo bastante usado em análise
multivariada, especialmente em QSAR [15].

4.2 Pré-processamento
Antes de se aplicar qualquer método matemático à tabela de dados (ma-
triz X) que contém os descritores é necessário aplicar um pré-processamento
adequado. Os principais métodos de pré-processamento usados em QSAR
são:

• Centrar na média

• Autoescalar

4.2.1 Centrar na média


Centrar uma matriz na média consiste em calcular a média de cada coluna
da matriz e, em seguida, subtrair esse valor de todos os elementos da coluna
(equação 12).

Xij (cm) = Xij − X̄j (12)


onde Xij é o valor do descritor j para o composto i e X̄j é a média dos valores
para o descritor j.
Costuma-se centrar os dados na média quando os descritores são de
mesma natureza ou apresentam faixas de valores semelhantes (Ex: QSAR
4D)

CENAPAD-SP
4.3 Validação cruzada 33

4.2.2 Autoescalar
Autoescalar consiste em, além de centrar na média, dividir todos os elementos
de uma coluna pelo desvio padrão dessa coluna (equação 13).

Xij − X̄j
Xij (a) = (13)
σj
onde σj é o desvio padrão dos valores para o descritor j.
Costuma-se autoescalar os dados quando os descritores são de natureza
diferente ou apresentam faixas de valores bem diferentes. Em geral, o auto-
escalamento é o pré-processamento utilizado em QSAR.

4.3 Validação cruzada


Em estudos de QSAR é comum se utilizar um processo de validação interna
chamado de validação cruzada para se determinar o número de variáveis la-
tentes no modelo PLS. Na validação cruzada, o conjunto de treinamento é
dividido em um certo número de grupos e diversos modelos, com o mesmo
número de variáveis latentes, são construı́dos sempre deixando um dos gru-
pos de fora da análise. A variável dependente é então prevista pelo modelo
construı́do para as amostras que foram deixadas de fora do modelo e esse pro-
cesso é repetido até que todos os grupos tenham ficado de fora da análise uma
vez. Esse procedimento é bastante importante para que se tenha uma idéia
da capacidade preditiva e da robustez do modelo construı́do. Na validação
cruzada pode-se utilizar da estratégia leave-N-out onde diversos números de
amostras podem ser retirados durante o processo de construção de modelos.
No entanto, em QSAR costuma-se empregar a estratégia leave-one-out. Na
validação cruzada costuma-se calcular os parâmetros estatı́sticos mostrados
na Tabela 1 para avaliar a qualidade do modelo obtido.
Os parâmetros mais usados em QSAR são os valores de q 2 e r2 . Bons
modelos de QSAR devem apresentar valor de q 2 superior a 0,5 e de r2 superior
a 0,6. No entanto, quanto mais próximos de 1 forem esses valores, melhor
a qualidade do modelo obtido. Além disso, um modelo robusto não pode
apresentar uma diferença entre os valores r2 e q 2 superior a 0,3 [19].

4.4 Outliers
A qualidade das amostras presentes em um conjunto de treinamento pode ser
avaliada calculando-se o erro no cálculo da atividade prevista pelo modelo
construı́do. Se o valor absoluto da diferença entre o valor real da atividade

CENAPAD-SP
4.5 Seleção de variáveis com o algoritmo OPS 34

Tabela 1: Parâmetros estatı́sticos calculados durante a validação cruzada.

Parâmetro Equação
Pi=I
P RESScv i=1 (y(i) − ycv (i))2
Pi=I
P RESScal i=1 (y(i) − ycal (i))2
Pi=I
i=1 (y(i)−ȳ)(ycv (i)−ȳcv )
Rcv σy σycv
Pi=I
i=1 (y(i)−ȳ)(ycal (i)−ȳcal )
Rcal σy σycal
P RESScv
q2 1− Pi=I
i=1 (y(i)−ȳ)

r2 1 − PPi=I
RESScal

q i=1 (y(i)−ȳ)
P RESScv
RM SECV I
q
P RESScal
RM SEC I
q
P RESScv
SP RESS I−nV L−1

biológica e o valor previsto pelo modelo for superior a duas vezes o desvio
padrão da atividade biológica, provavelmente essa amostra será um outlier.
A remoção de um outlier pode melhorar a qualidade estatı́stica de um
modelo. No entanto, deve-se evitar ao máximo a remoção de um outlier, pois
em estudos de QSAR geralmente a quantidade de amostras é muito pequena
quando comparada ao que se tem disponı́vel em outros estudos envolvendo
análise multivariada. Caso isso seja inevitável, é importante tentar achar uma
explicação quı́mica ou biológica para o fato de o composto ser classificado
como um outlier.

4.5 Seleção de variáveis com o algoritmo OPS


Em QSAR, normalmente o número total de variáveis disponı́veis é muito
maior do que o número que será efetivamente incluı́do nos modelos. Portanto
existe a necessidade de lançar-se mão de algum tipo de procedimento de
seleção para a composição dos modelos de QSAR. O processo de seleção
consiste em encontrar combinações de k variáveis, dentre as m disponı́veis,
capazes de produzir modelos matemáticos que descrevam adequadamente os
valores observados da atividade biológica. Existem diversos algoritmos de
seleção de variáveis disponı́veis na literatura. Dentre eles, os mais usados em

CENAPAD-SP
4.6 Validação externa 35

QSAR são a busca sistemática e os algoritmos genéticos.


Recentemente, um algoritmo de seleção de variáveis de propósito geral,
chamado de OPS6 , foi desenvolvido e vem sendo usado com sucesso em estu-
dos de QSAR [27]. Este algoritmo atribui uma importância a cada descritor
de acordo com um vetor informativo. Em seguida a matriz de descritores é re-
arranjada de modo que os descritores mais importantes sejam representados
pelas primeiras colunas da matriz. Finalmente, uma quantidade inicial de
descritores é escolhida e diversos modelos PLS são construı́dos aumentando-
se a quantidade de descritores. Dentre os modelos construı́dos escolhe-se
aquele que apresentar melhor qualidade segundo algum dos parâmetros da
Tabela 1.

4.6 Validação externa


A validação externa consiste em escolher um conjunto de amostras que não
fará parte da construção do modelo. Esse conjunto é chamado de test set.
Assim, constrói-se um modelo com as moléculas do conjunto de treinamento
e a atividade biológica das amostras do test set é calculada pelo modelo
construı́do.
Como a atividade biológica real das amostras do test set é conhecida,
pode-se fazer uma comparação entre o valor previsto pelo modelo e o valor
real utilizando-se parâmetros estatı́sticos similares aos utilizados na validação
cruzada. No entanto, o processo de validação externa é muito mais confiável
para assegurar a capacidade preditiva do modelo quando comparado com a
validação cruzada, pois em nenhum momento as amostras do test set parti-
cipam da construção do modelo. Atualmente é obrigatório que se faça uma
validação externa em trabalhos de QSAR.

4.7 Avaliação da robustez do modelo com leave-N-out


Se o processo de validação cruzada leave-N-out for feito repetidas vezes para
diferentes valores de N, diferentes modelos serão construı́dos. Além disso,
ainda que para um mesmo valor de N (desde que esse valor não seja 1), di-
ferentes execuções do procedimento leave-N-out também levarão a diferentes
modelos, pois a formação dos grupos no processo de validação cruzada é feita
de maneira aleatória.
A construção de diferentes modelos faz com que diferentes valores para os
parâmetros estatı́sticos da Tabela 1 sejam obtidos, em especial para o valor
de q 2 . No entanto, esses valores não podem ser muito diferentes entre si
6
do inglês Ordered Predictors Selection

CENAPAD-SP
4.8 y-randomization 36

(apresentar pouca oscilação) pois, como o modelo é construı́do com objetivo


de prever a atividade de novas amostras, ele não pode ser muito sensı́vel às
amostras que são retiradas no processo de validação cruzada.
Assim, para avaliar se um modelo é robusto, recomenda-se fortemente que
se faça um teste com repetições da validação cruzada leave-N-out. Modelos
robustos não devem apresentar oscilação no valor de q 2 superior a 0,1 para
valores de N que representem até 25% do número de amostras (leave-25%-
out) [19].

4.8 y-randomization
Uma limitação da validação cruzada é que ela não fornece uma significância
estatı́stica do poder de predição estimado. Para obter uma estimativa da
significância de um valor de q 2 obtido para um dado modelo, deve-se desen-
volver modelos paralelos com os valores dos descritores originais mantidos
(matriz X) e os valores da variável dependente (vetor y) permutados entre
as amostras.
Assim, o valor real de q 2 deve ser bem maior que os valores obtidos para
os modelos paralelos. Esse procedimento, chamado de y-randomization, é
extremamente útil para assegurar que o modelo QSAR não foi obtido ao
acaso. Recomenda-se que os modelos com os valores de y permutados não
apresentem valor de r2 superior a 0,4 e valor de q 2 superior a 0,05 [19].

5 Prática 2
5.1 Construindo modelos QSAR
5.1.1 Corte pela correlação
• Abra o programa QSAR modeling (Figura 20)
• Abra o arquivo “Set1.dat” (matriz com descritores) e “yset1.dat” (vetor
contendo as atividades biológicas).
• Em “Executar” selecione “Corte pela correlação”.
• Escolha o valor de 0.4 para o corte e salve a matriz.

5.1.2 Seleção de variáveis com OPS


• Abra a matriz que você salvou no corte pela correlação.
• Selecione o pré-processamento “Autoescalar”.

CENAPAD-SP
5.1 Construindo modelos QSAR 37

Figura 20: Programa QSAR modeling

• Clique em “Executar”, “Validação cruzada”.


• Selecione o mı́nimo entre o número de linhas e o número de colunas
para o número de variáveis latentes e 1 amostra (leave-one-out) a retirar
na validação cruzada.
• Construa um gráfico com os valores de RMSECV e procure pelo número
de variáveis latentes em que esses valores passam a ficar estáveis.
• Execute o OPS avançado e no número de variáveis latentes para o OPS
digite o número de variáveis latentes que você observou no gráfico de
RMSECV.
• Para escolher o número de variáveis latentes para o modelo, divida o
número de amostras por 5 ou 6.
• Escolha os valores de janela, incremento e porcentagem de variáveis
de acordo com o tamanho de sua matriz. Para uma matriz muito
grande os valores de janela e incremento devem ser mais altos e o valor
da porcentagem de variáveis deve ser mais baixo, enquanto que para
matrizes menores você pode fazer o oposto.
• Selecione todos os vetores e q 2 como critério para classificar os modelos.
Caso sua matriz seja muito grande você pode selecionar menos vetores
para efetuar seu cálculo de maneira mais rápida.
• Repita esse procedimento até que você tenha um bom modelo com um
número razoável de descritores que possibilite uma boa interpretação.

CENAPAD-SP
5.2 Validação Leave-N-Out 38

5.2 Validação Leave-N-Out


• Utilizando a matriz já com as variáveis selecionadas clique em “Execu-
tar”, “Leave-N-Out”.

• Utilize o mesmo número de variáveis latentes que você selecionou para


o seu modelo.

• Para o número máximo de amostras a retirar na validação cruzada


utilize de 25% a 30% do número total de amostras.

• Normalmente se utiliza 3 repetições (triplicata) para cada validação


cruzada e o q 2 para avaliar o modelo.

• Construa um gráfico para avaliar as oscilações no valor de q 2 (Exemplo


na Figura 21).

Figura 21: Exemplo de gráfico para Leave-N-Out

5.3 Validação y-randomization


• Utilizando a matriz já com as variáveis selecionadas clique em “Execu-
tar”, “y-randomization”.

• Utilize o mesmo número de variáveis latentes que você selecionou para


o seu modelo.

CENAPAD-SP
5.3 Validação y-randomization 39

• Utilize o mesmo número de amostras que você retirou na construção


de seu modelo (geralmente 1 amostra).

• Escolha o número de aleatorizações que você deseja fazer (geralmente


50 é um bom número).

• Construa um gráfico de q 2 versus r2 (Exemplo na Figura 22).

Figura 22: Exemplo de gráfico para y-randomization

OBS: A última linha da tabela de resultados contém os valores de q 2 e r2


para o modelo verdadeiro.

CENAPAD-SP
6 Descritores LQTA-QSAR 40

6 Geração de descritores utilizando a meto-


dologia 4D LQTA-QSAR
Desde que Cramer e colaboradores [17] apresentaram o método de análise
comparativa de campos moleculares - CoMFA (Comparative Molecular Fi-
eld Analysis), em 1988, tal metodologia foi difundida e muito utilizada por
quı́micos medicinais e cientistas de áreas correlatas, tornando-se uma ferra-
menta fundamental em estudos QSAR-3D. Nesta metodologia, PLS [15] é o
método de regressão usado para modelar a relação entre a atividade biológica
de um conjunto de compostos com um alinhamento especı́fico e seus campos
de energia 3D (eletrônica, espacial, hidrofóbica e de ligações de hidrogênio).
Estes campos são determinados em um grid que contém todas as estruturas
quı́micas alinhadas. A etapa de um projeto racional de um fármaco que uti-
liza QSAR 3D pode ser dividida em três partes: alinhamento das moléculas,
geração de campos moleculares e regressão com um ou mais parâmetros de
atividades biológicas como resposta.
Em primeiro lugar, as conformações de mais baixa energia das moléculas
são alinhadas por superposição de pontos de possı́veis interações, átomos em
moléculas, por exemplo, com uma proteı́na que seria um receptor alvo.
Um campo molecular é um grid tridimensional suficientemente grande
para conter todas as moléculas alinhadas, onde em cada ponto do grid as
interações entre uma sonda e cada molécula são calculadas. Assim, cada
ponto no grid corresponde a uma variável.
A análise em QSAR 4D proposta por Hopfinger e colaboradores [16], em
1997, incorpora liberdade conformacional ao desenvolvimento de modelos de
QSAR 3D fazendo com que a mudança de estado molecular constitua a quarta
dimensão. Os descritores em QSAR 4D são representados pelas medidas de
ocupação de cada célula do grid pelos átomos que formam as moléculas do
conjunto de treinamento. Os descritores de ocupação das células do grid,
GCODs (grid cell occupancy descriptors), podem ser gerados a partir de
diferentes tipos de átomos, que em QSAR 4D são chamados de IPEs (in-
teraction pharmacophore elements). A idéia em uma análise de QSAR 4D
é que diferenças em dados de atividades biológicas estão relacionadas a di-
ferenças existentes na distribuição espacial média de Boltzmann da forma
molecular em relação aos IPEs. Uma única conformação ativa pode ser pos-
tulada para cada composto no conjunto de treinamento e, quando combinada
com o alinhamento ótimo, pode ser usada posteriormente em aplicações de
planejamento molecular incluindo outros métodos de QSAR 3D.
A análise QSAR 4D, através do uso dos IPEs, permite que cada um
dos compostos em um conjunto de treinamento possa ser particionado em

CENAPAD-SP
6.1 Metodologia LQTA-QSAR 41

conjuntos de classes com respeito a possı́veis interações com um receptor


comum. Os GCODs, definidos pelos IPEs, são simultaneamente mapeados
em um grid comum.
Uma metodologia de QSAR 4D recentemente desenvolvida, chamada de
LQTA-QSAR [23], inclui o cálculo de descritores de campo para um conjunto
de compostos. Porém, essa metodologia considera um perfil de amostragem
conformacional (PAC) para cada composto na análise QSAR, ao invés de
uma única conformação, reunindo assim as principais caracterı́sticas dos pa-
radigmas CoMFA e QSAR-4D proposto por Hopfinger e colaboradores. Esta
nova metodologia faz uso do pacote gratuito GROMACS [22, 5] para rodar as
simulações de dinâmica molecular (DM) e estimar o PAC gerado para cada
composto ou ligante. Uma nova ferramenta gratuita, chamada de LQTAgrid,
gera os descritores 3D e o programa QSAR modeling pode ser usado para a
construção e validação de modelos PLS.

6.1 Metodologia LQTA-QSAR


Assim como acontece na metodologia CoMFA, as moléculas são alinhadas
em um grid que é percorrido por uma ou mais sondas, que podem ser de na-
turezas diferentes. Durante tal processo, as interações eletrostáticas e de van
der Waals entre a sonda e os átomos das moléculas do conjunto investigado
são calculadas de acordo com as equações 14 e 15. No entanto, diferente do
método CoMFA, onde apenas uma conformação é analisada, no LQTAGrid
são consideradas as interações entre a sonda e os átomos de todas as con-
formações de cada molécula do conjunto investigado, geradas em simulações
de DM, como ilustrado na Figura 23. Isso explica o fator 1/n nas equações.
Neste último aspecto, o programa LQTAGrid agrega a caracterı́stica de li-
berdade conformacional da metodologia QSAR-4D.
1 q i qj
Eele = (14)
n 4πε0 rij
(12) (6)
Cij Cij
EvdW = 12
− 6 (15)
rij rij
onde
r
(12) 1 (12) (12)
Cij = C Cjj
n ii
r
(6) 1 (6) (6)
Cij = C C (16)
n ii jj

CENAPAD-SP
6.1 Metodologia LQTA-QSAR 42

Figura 23: Caixa 3D (grid) gerada pelo programa LQTA grid

O programa LQTAGrid usa como entrada os resultados de simulações de


DM, que devem ser desenvolvidas para as moléculas do conjunto investigado.
As simulações de DM devem ser calculadas com o software livre GROMACS.
Este programa gera como saı́da os cálculos de DM para cada molécula do
conjunto.
Depois de executadas as dinâmicas, já no programa LQTAgrid, escolhe-se
a posição inicial de cada coordenada do grid e também o tamanho do caixa
em cada eixo, de modo a abranger, de forma adequada, todas as moléculas
do conjunto analisado. Finalmente, escolhe-se as sondas para percorrer o
grid.
A saı́da gerada pelo programa LQTAGrid é uma matriz de descritores
calculados durante a execução do programa. Esta matriz pode ser utilizada
posteriormente por qualquer programa que realize calibração multivariada,
processo necessário para a construção de um modelo QSAR.

CENAPAD-SP
7 Prática 3 43

7 Prática 3
7.1 Criando arquivos de topologia
• Otimize a geometria de sua molécula usando um programa como Gaus-
sian ou Gamess.

• Converta o formato de arquivo de sua molécula otimizada para mol2


usando o programa OpenBabel.

• Abra o arquivo mol2 no programa chimera e adicione cargas, como


mostrado nas Figuras 24, 25 e 26.

Figura 24: Adicionando cargas com o programa Chimera

• Clique em OK.

• Coloque a carga formal da molécula, selecione AM1-BCC e clique OK.

• Salve o arquivo como mol2 (Figura 27)

CENAPAD-SP
7.1 Criando arquivos de topologia 44

Figura 25: Escolhendo modelo de cargas

Figura 26: Escolhendo método

• Execute o programa topolbuild.sh. O programa vai pedir o caminho


para o mol2 sem a extensão. Se o arquivo estiver na pasta que estiver
executando o comando basta digitar o respectivo nome do arquivo.

• Se os arquivo mol2 vierem do Windows dê o comando dos2unix *mol2.

• Agrupe os arquivos de saı́da do topolbuild em uma pasta separada para


cada molécula.

• Se o nome do arquivo for nomedoarquivo.mol2 por exemplo, então as


saı́das serão: ffnomedoarquivo.itp, ffnomedoarquivonb.itp, nomedoar-
quivoMOL.mol2, nomedoarquivo.top, nomedoarquivo.gro, posrenome-
doarquivo.itp e nomedoarquivo.log.

• Copie os arquivos contidos em dinamica.zip para a pasta onde foram


concentrados todos os arquivos de saı́da do topolbuild.

CENAPAD-SP
7.2 Dinâmica molecular usando o GROMACS 45

Figura 27: Salvando arquivo como mol2

7.2 Dinâmica molecular usando o GROMACS


• Edite o arquivo ffnomedoarquivo.itp retirando a linha #include “ffu-
sernb.itp”

• Inspecione o arquivo nomedoarquivo.top para ver se não há campos


faltantes não preenchidos com os parâmetros do campo de força (ver
arquivo nomedoarquivo.log, procure por asteriscos).

• Ainda no arquivo nomedoarquivo.top substitua #include “gaff spce.itp”


por #include “gaff tip3p.itp”.

• Adicione as linhas no arquivo ion water.itp ao arquivo ffnomedoarqui-


vonb.itp (Figura 28).

• Troque o nome dos arquivos nomedoarquivo.top e nomedoarquivo.gro


para lig.top e lig.gro respectivamente.

• Copie a pasta contendo todos esses arquivos para a sua área no ambi-
ente CENAPAD.

CENAPAD-SP
7.2 Dinâmica molecular usando o GROMACS 46

Figura 28: Editando arquivo itp

• Dê o comando: editconf -bt cubic -f lig.gro -o lig box.gro -d 1.0

• Esse comando define que o tamanho da caixa tenha 10 Å de distância


no mı́nimo dos átomos do soluto até a borda da caixa cúbica.

• Em seguida adicione moléculas de água tip3p pelo comando:


genbox -cp lig box.gro -cs tip3p.gro -o lig h2o.gro -p lig.top

• Agora é preciso conferir se a carga total do sistema é nula, ou se a


molécula se encontra em um estado ionizado e qual seria essa carga
com o seguinte comando:
grompp -f st.mdp -c lig h2o.gro -p lig.top -o st.tpr

• Se o aviso “System has non-zero total charge: 1.000e+00” for exibido


significa que temos excesso de carga +1. Portanto, devemos adicionar
um ı́on Cl- ao sistema para neutralizar a carga. Não aparecendo esse
aviso ignore esse item.

• O comando para adicionar o ı́on é: genion -s st.tpr -nn 1 -o st.gro

• O flag –nn indica número de negativos seguido de 1. Ou seja, será


removida uma molécula de água e adicionado um ı́on Cl-. Se quiser
colocar Na+ basta dar o mesmo comando com o flag –np seguido do
número de ı́ons que deseja trocar.

• Selecione o grupo 2 (SOL) para trocar uma molécula de solvente pelo


ı́on que você deseja adicionar.

• Agora edite o arquivo lig.top no fim do arquivo (Figura 29).

CENAPAD-SP
7.3 Executando os alinhamentos 47

Figura 29: Editando arquivo lig.top

• Agora edite o arquivo dinamica nas linhas que não começam com #
substituindo
grompp -f st.mdp -c lig h2o.gro -p lig.top -o st.tpr
por
grompp -f st.mdp -c st.gro -p lig.top -o st.tpr

• Essa substituição só deve ser feita se o seu sistema for um ı́on.

• Dê o comando chmod a+x dinamica e em seguida ./dinamica&

7.3 Executando os alinhamentos


• Para cada molécula do seu conjunto de treinamento defina uma pasta
que deve conter seus respectivos arquivos top e gro gerados depois da
execução da seção anterior, além dos arquivos disponibilizados em “di-
namica.zip”.

• Escolha uma molécula para ser a referência do alinhamento e chame


sua pasta de “ref”.

• Visualize a molécula de referência com algum programa de visualização


(chimera, por exemplo) e anote os números dos átomos que deverão ser
alinhados em ordem correta.

• Edite o arquivo PAC atoms.ndx

• Coloque os átomos para o alinhamento na segunda linha.

• Repita o processo para todas as pastas (moléculas) observando sempre


os mesmos átomos e na ordem correta.

CENAPAD-SP
7.4 Rodando o programa LQTAgrid 48

• Use o script PAC ref make para alinhar os átomos de todas as con-
formações da trajetória na pasta ref/, que será usada como referencia
para os outros alinhamentos.

• Execute o script com o comando “./PAC ref make”.

• Escolha 20 ps para o tempo inicial para o alinhamento.

• Selecione o grupo 0 (System).

• Escolha como número máximo de frames o número do último frame


obtido.

• Ao final da execução do script você terá duas saı́das: PAC ref.gro, que
será usado como entrada para o programa LQTAgrid e PAC ref.pdb que
pode ser usado para inspeção visual do alinhamento quando aberto em
um programa de visualização como o Chimera.

• Carregue as demais pastas e execute “./PAC make” agora para alinhar


as trajetórias das demais moléculas com sua molécula de referência.

• Você terá duas saı́das: PAC done.gro, que será usado como entrada
para o programa LQTAgrid e PAC done.pdb que pode ser usado para
inspeção visual do alinhamento quando aberto em um programa de
visualização como o Chimera.

7.4 Rodando o programa LQTAgrid


• Crie um arquivo texto que aponte para cada um dos arquivos lig.top
e PAC done.gro (logicamente também PAC ref.gro) para usar como
entrada para o LQTAgrid (Exemplo na Figura 30).

• Observe os tipos de átomos presentes nos arquivos ff*nb.itp e copie-os


para o arquivo ffcargasnb.itp dentro da pasta do programa LQTAgri-
dAFF.

• Não repita os tipos de átomos.

• Execute o comando “java –jar LQTAgridAFF.jar” para rodar o pro-


grama LQTAgrid (Figura 31).

• Abra o arquivo texto que você criou no primeiro item dessa seção no
menu Arquivo.

• Selecione uma sonda (exemplo NH3+).

CENAPAD-SP
7.4 Rodando o programa LQTAgrid 49

Figura 30: Exemplo de arquivo de entrada para o LQTAgrid

Figura 31: Programa LQTAgrid

• Escolha o tamanho do grid e a coordenada inicial com base em um de


seus arquivos pdb. Para fazer isso observe qual é, aproximadamente, a
maior e a menor coordenada em cada eixo em uma das conformações
e dê uma folga de aproximadamente 5Å no inı́cio e no fim da caixa.

• Clique em gerar grid e, ao termino dos cálculos, salve o arquivo com os


descritores.

CENAPAD-SP
7.4 Rodando o programa LQTAgrid 50

• Esse arquivo está pronto para ser usado pelo programa QSARmodeling
para a construção e validação do modelo QSAR.

CENAPAD-SP
REFERÊNCIAS 51

Referências
[1] Alogps2.1. http://www.vcclab.org/lab/alogps/.

[2] Chemsketch. http://www.acdlabs.com/download/chemsketch/.

[3] Chimera. http://www.cgl.ucsf.edu/chimera/.

[4] E-dragon. http://www.vcclab.org/lab/edragon/.

[5] Gromacs. http://www.gromacs.org/.

[6] Macmolplt. http://www.scl.ameslab.gov/ brett/macmolplt/.

[7] Marvin. http://www.chemaxon.com/marvin/download-user.html.

[8] Openbabel. http://openbabel.org/wiki/get open babel.

[9] Parameter client. http://www.vcclab.org/lab/pclient/.

[10] Protein data bank. http://www.rcsb.org/pdb/home/home.do.

[11] Textpad. http://www.textpad.com/.

[12] Cambridge structural database software version 5.29, 2007. Cambridge


Crystallographic Data Centre, Inglaterra.

[13] R Carbó-Dorca, D Robert, Ll Amat, X Gironés, and E Besalú. Molecular


Quantum Similarity in QSAR and Drug Design. University of Girona,
2000.

[14] Charles F Cooper. Molecular mechanics-modeling molecular structure


and energetics: the 2002 benjamin franklin medal in chemistry presented
to norman allinger. Journal of the Franklin Institute, 340:191–203, 2003.

[15] Martens H and Naes T. Multivariate Calibration. Wiley, New York,


1989.

[16] A. J. Hopfinger, S. Wang, J. S. Tokarski, B. Jin, M. Albuquerque, P. J.


Madhav, and C. Duraiswami. Construction of 3d-qsar models using the
4d-qsar analysis formalism. J. Am. Chem. Soc., 119(43):10509–10524,
1997.

[17] R D Cramer III, D E Paterson, and J D Bunce. Comparative molecular


field analysis (comfa). 1. effect of shape on binding of steroids to carrier
proteins. J. Am. Chem. Soc., 110:5959–5967, 1988.

CENAPAD-SP
REFERÊNCIAS 52

[18] L B Kier, L H Hall, W J Murray, and M Randic. Molecular connectivity.


i: Relationship to nonspecific local anaesthesia. J. Pharm. Sci., 64:1971–
1974, 1975.

[19] R. Kiralj and M. M. C. Ferreira. Basic validation procedures for regres-


sion models in qsar and qspr studies: Theory and application. J. Braz.
Chem. Soc., 20(4):770–787, 2009.

[20] W Koch and M C Holthausen. A Chemist’s Guide to Density Functional


Theory. Wiley VCH, 2 edition, 2002.

[21] I. N. Levine. Quantum Chemistry. Prentice Hall, 5th edition, 2000.

[22] E. Lindahl, B. Hess, and D. van der Spoel. Gromacs 3.0: a package
for molecular simulation and trajectory analysis. Journal of Molecular
Modeling, 7:306–317, 2001.

[23] J. P. A. Martins, E. G. Barbosa, K. F. M. Pasqualoto, and M. M. C.


Ferreira. Lqta-qsar: A new 4d-qsar methodology. J. Chem. Inf. Model.,
49(6):1428–1436, 2009.

[24] M Randic. On characterization of molecular branching. J. Am. Chem.


Soc., 97:6609–6615, 1975.

[25] J J P Stewart. Optimization of parameters for semiempirical methods


i. J. Comput. Chem., 10(2):209–220, 1989.

[26] J J P Stewart. Optimization of parameters for semiempirical methods


ii. applications. J. Comput. Chem., 10(2):221–264, 1989.

[27] R. F. Teofilo, J. P. A. Martins, and M. M. C. Ferreira. Sorting varia-


bles by using informative vectors as a strategy for feature selection in
multivariate regression. J. Chemometrics, 23:32–48, 2009.

[28] K. C. Weber. Modelagem molecular de compostos arilpiperazı́nicos e


suas interações com o receptor 5 − HT1a . PhD thesis, IQSC-USP, São
Carlos-SP, 2008.

[29] H Wiener. Structural determination of paraffin boiling points. J.


Chem.Phys, 69:17–20, 1947.

CENAPAD-SP

Você também pode gostar