Você está na página 1de 55

Universidade Federal de Mato Grosso

Quimiometria

Quimioinformática como
ferramenta no desenvolvimento
de novas substâncias

Prof. Dr. Ricardo Stefani


ICET/CUA
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Informática vs. Computação

Informática: Tratamento automatizado da informação

Computação: Resolução de problemas numéricos ou não numéricos


através de algoritmos

Algoritmo: Sequência de passos lógicos para a


resolução de um problema
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Quimioinformática

Segundo Brown (1999):

“Quimioinformática é o uso da informática para a resolução de problemas


Envolvendo química”

Área Interdisciplinar: Química, informática, matemática,


Ciência da Computação

Bioinformática: Uso da informática para resolver problemas envolvendo


Macromoléculas biológicas
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Quimioinformática
Muitas vezes chamada de técnica in silico

Principais usos:
1. Descoberta de novas drogas (Drug Design and Discovery)
2. Entendimento da relação entre estrutura e atividade biológica (QSAR)
3. Entendimento entre a relação entre estrutura e propriedades físico-
químicas (QSPR)
4. Desenvolvimento de bibliotecas de substâncias químicas
5. Prospecção virtual (virtual screening)
6. Planejamento racional de novas moléculas
7. Reduzir necessidade de testes in vivo e in vitro
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Quimioinformática
O que a Quimioinformática não é ?

• Química Computacional
• Química Quântica
• Bioinformática
• Bioinformática lida com macromoléculas biológicas
• Quimioinformática lida com micromoléculas (mesmo as biológicas) e
macromoléculas sintéticas
• Estatística
• Inteligência artificial aplicada à química
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Quimioinformática
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Tópicos
Descritores Moleculares
Espaço químico
Diversidade molecular
Similaridade Molecular
Classificação e seleção de substâncias
Aprendizagem por máquina
Desenvolvimento de bibliotecas
QSPR
Prospecção virtual
Desenvolvimento de novos materiais
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Descritores moleculares
“Estrutura determina a propriedade”
“Uma propriedade da molécula depende de outras”

Descritor molecular é a descrição numérica de certa propriedade da molécula

Tipos:
0D (Ponto de fusão, ebulição, peso e volume molecular, etc.)
1D (Numero de ligações, de átomos, cargas totais, momento de dipolo.etc.)
2D (distância entre átomos, número de grafos, conectividade,etc)
3D (Volume molecular, raio de van der Waals, TPSA, WASA, SAA, etc.)
4D (volume do sítio ativos, número de interações intermoleculares, etc.)
5D (Tipos de interações com o sistema)
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Espaço Químico
Banco que contém as moléculas e os dados a serem analisados.
Bons dados geram boas análises

Gera-se descritores moleculares para cada molécula no ChemSpace

Molecule i : M (i ) = å1 d j (i )
j
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Descritores Moleculares
Cada tipo de problema requer uma classe de descritor diferente, ou mesmo vários
tipos de descritores
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Descritores Moleculares
Cada tipo de problema requer uma classe de descritor diferente, ou mesmo vários
tipos de descritores
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Descritores Moleculares
Descritores Consititucionais
Descritores Topológicos
Descritores geométricos
Descritores eletrostáticos
Descritores quânticos
Descritores Termodinâmicos
Descritores de reatividade
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

O O O

Topological * CH2 CH2 O CH2 CH2 NH CH CH2 O


n
*

O
2-D (Kier & Hall indices)
O

CH2

OH

Geometric
3-D (I, SA, Molecular
Volume)

Quantum-chemical
Molecular orbital structure (HOMO-
LUMO energies, dipole moment)

Electrostatic
Charge distribution (partial
charges, H-bond
donors/acceptors)
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Descritores Constitucionais
vNúmero total de átomos
vNúmero total ou relativo de certos elementos na
molécula (C, H, N, O, F, etc.)
vNúmero total ou relativo de certos grupos funcionais na
molécula (C=O, -NH, -OH, etc.)
vTipo e total de ligações na molécula
vTamanho e número total de anéis na molécula
vTipo de anéis presentes na molécula
vPeso molecular
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Descritores Topológicos
vÍndice de conectividade
v Índice de valência
vÍndice de formas
vÍndice de flexibilidade
vÍndices topológicos eletrônicos
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Descritores Geométricos
vÁrea de superfície
vSuperfície acessível ao solvente
vVolume molecular
vÍndice gravitacional (RDF)
vÁreas de sombra da molécula
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Descritores Eletrostáticos
Cargas parciais atômicas
Parâmetros de polaridade
Momento de dipolo
Polarizabilidade
Potenciais eletrostáticos na superfície molecular
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Descritores Quânticos
Energia total da molécula
Energia de repulsão eletron-eletron
Energia de ressonância
Cinética eletrônica
Energia total de cinética
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Problemas com descritores


•Substâncias com descritores semelhantes
deveriam mostrar propriedades semelhantes
• O fato é que elas podem ser semelhantes em
um contexto e totalmente diferente em outro
•É difícil encontrar linearidade entre os
descritores
•Como comparar diversos tipos de descritores
e encontrar uma relação entre eles ?
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Problemas com descritores


•Quanto maior a similaridade estrutural entre as
moléculas, mais próximas serão as suas
propriedades
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Geração de descritores
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Similaridade Molecular
•Quanto maior a similaridade estrutural entre as
moléculas, mais próximas serão as suas
propriedades
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Medidas de similaridade
Medidas Quantitativas
• numéricas
• Descritores moleculares, impressão digital, bits, etc

Sequencia de vetores ou bits que podem ser comparadas por funções


geométricas de distância.

n B( x & y )
T ( x, y ) =
å (x - yi )
2
E ( x, y ) = i
i =1
B( x) + B( y ) - B( x & y )
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Tanimoto (padrão)
DTanimoto ( x, y ) =
å x -y
i i
=1-
i å min( x , y )
i i i

å max( x , y )
i i å x + å y - å min( x , y )
i i i i i i i i

DEuclidean ( x, y ) = (
å i i
x - y )2

DTanimoto ( , ) = 0.68
DEuclidean ( , ) = 21.93
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso


Impressão digital (bits)
Codificar a conectividade bit-a-bit
• Permite a comparação rápida de duas moléculas

• Construção:
•Encontrar todos os caminhos do grafo
•Gerar um vetor de bits para cada caminho
•Gerar apenas um vetor através da operação OU
length walk bit array
H H
0 C 1010000000
H C C O H 1 C–H 0001010000
1 C–C 0001000100
H H 2 C–C–H 0001000010
2 C–C–O 0100010000
3 C–C–O–H 0000011000
ALL 1111011110
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Impressão digital (bits)

0100010100010100010000000001101010011010100000010100000000100000

0100010100010100010000000001101010011010100000000100000000100000
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Pequenas diferenças estruturais podem alterar


muito as propriedades
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Como descobrir os melhores descritores ?

e.g. Comparação de
faces requer a
identificação de
características
chaves.
Como as
identificamos?
O mesmo se aplica a
moléculas.
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Quais as características (descritores) mais


relevantes ?
•Ninguém sabe. Depende do problema a
ser abordado
•Os descritores ideais dependem do
contexto. Muitas vezes um descritor 0D é
melhor para resolver um problema do que
um 3D.
•Para selecionar descritores pode-se usar
IA
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Seleção de descritores (variáveis)

•Análise de regressão linear e criação de


modelo matemático. NADA DE RETA !!!!!
–R2 >= 0,3 e <= 0,95
•Descritores pouco correlacionados: levam
a um modelo matemático não confiável
•Descritores muito correlacionados:
Sobrecarga do modelo. Falsos positivos e
modelo “viciado”
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Seleção de descritores (variáveis) por IA

•Quando existe milhares de descritores,


análise estística pode levar a erros.
•Usa-se técnicas de IA para a seleção de
descritores
–Reconhecimento de padrões
–Supoort Vector Machines
–Algoritmos genéticos
–Redes neurais
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Seleção de descritores (variáveis) por IA

•Assim IA facilita a seleção de descritores


Exemplo: Clustering
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Rede Neural Artificial (ANN)

Input
Camada escondida Saída
Input
Input
Input
Input
Input
Input
Input
Funções Previsão
Input

Parâmetros
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Suport Vector Machines (SVM)


Método supervisionado de aprendizado de
máquina
Classificação em dois grupos
Classificação de múltiplas classes não é uma
limitação, pois pode-se construir uma SVM para
cada classe
Apresenta resultados melhores que muitos
métodos populares de classificação
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Suport Vector Machines (SVM)


1968: base matemática
Teoria de Lagrange
[Vapnik et al, 1992] Primeiro artigo
[Vapnik et al, 1998] Definição detalhada
Última década
Série de artigos com aplicações de SVM
Série de artigos com otimizações de SVM
SMO, por exemplo
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Suport Vector Machines (SVM)


SVM são utilizadas em diversas áreas:
Quimio- e Bioinformática
Reconhecimento de assinaturas
Classificação de texto e imagens
Identificação de spams
Reconhecimento de padrões diversos
Identificação de dados replicados
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Motivação da SVM
Como separar as duas Como separar as duas
classes? classes?
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Conceitos de SVM
Qual o hiperplano ótimo?
Menor erro de classificação
Maior margem
Distância entre vetores de suporte e o hiperplano
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Conceitos de SVM
Qual o hiperplano ótimo?
Menor erro de classificação
Maior margem
Distância entre vetores de suporte e o hiperplano
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Virtual Screening
Seleção
biblioteca
de substâncias

Triagem virtual

Substâncias
ótimas

protótipos
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Método: Virtual Screening

1D Filtering 2D Filtering 3D Filtering 3D Fitting

e.g. MW 200-500
Lipinsky
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Quantitative Structure-Properties-
Relationship (QSPR)
Encontrar correlações entre
estrutura química e determinadas
propriedades

Predizer a característica de novas


moléculas e materiais a partir de
substâncias conhecidas
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Quantitative Structure-Properties
Relationship (QSPR)
Dados Extrair e organizar descritores

SUBSTANCE NMA Descriptors (Xi)


3
"Y" Mol. Vol. (Å ) LogP Hydrophilicity
HO

O 2HC
1 32 420 3.31 0.14
2 52 332 3.92 0.11
HO C O HC
2H
HN

2HC

2HC

3 2 498 4.57 0.07


O

4 75 467 2.93 0.16


O

2HC

2HC

5 16 359 3.68 0.12


etc. etc. etc. etc. etc.
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Construindo modelos QSPR


D(propriedades) µ D(Descritores)
Y = f(Xi)

Simple (Univariate) Linear Regression Hammett, 1939

pKi = ao + a1 (Mol Voli)


Hansch, 1969
Multiple Linear Regression (MLR)

pKi = ao + a1 (Mol Voli) + a2 (logP) + a3 (µi) + ...

Partial Least-Squares (PLS) Regression Wold, et al. 1984

pKi = ao + a1 (PC1) + a2 (PC2) + a3 (PC3) + ...


Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Quantitative Structure-Performance Relationship (QSPR) Models

Conjunto de polímeros

In vitro/In vivo Data (Y) µ Molecular Descriptors (Xi)

QSPR
Y = f(Xi)

Predição Interpretação
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Biblioteca
diacid component

combinatória
O O O
C Y C O CH2 CH2 C NH CH CH2 O
C O
O
R
2500
n
diphenol component
2500
O O

Explosão
HO C Y C OH
2000
HO2C HO2C CO2H HO2C O CO2H
CO2H
Glutaric Acid Diglycolic Acid

Combinatória
Succinic Acid

Size of library
HO2C
1500
HO2C
CO2H CO2H
Adipic Acid 3-Methyl-Adipic Acid

HO2C HO2C O
CO2H O CO2H
Suberic Acid Dioxaoctanedioic Acid

HO2C
Sebacic Acid
CO2H 1000
O
HO CH2 C NH CH CH2 OH
400
n=1,2 C

OR
O
500
OH OH
25 100
OH OH
OH OH

0
Methanol Ethanol Isopropanol Butanol iso-Butanol sec-Butanol

O Y or R
5 10 20 50
OH OH O OH
Hexanol Octanol 2-(2-Ethoxyethoxy)ethanol

OH

OH

Dodecanol Benzyl Alcohol


Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso

Planejamento racional de moleculas

Gerar biblioteca virtual


Gerar subconjunto de moléculas representativas

Construir os modelos computacionais


Prever as propriedades desejadas

Fazer previsões para toda a biblioteca e além


Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso
HO

O 2HC

HO C
2H
O HC

HN
Molecular Good
O
volume diversity
2HC

2HC

Rotatabl
Dipol e bonds
O
e
O

2HC

2HC
Moment Poor
of inertia
O

diversity
Density
Double bonds

Synthesis->
Predict

value

Biol. testing-
ed

> QSPR
model

Cluster representatives
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso
1
Dos modelos para o
planejamento racional e síntese
Do modelo QSPR,
selecionar os
melhores descritos
e valores que se
relacionam com a 2
propriedade
desejada

Sintesizar diacid component


polímeros CO Y O
CO
O
CH2 CH2 C NHCH CH2
CO
O
conhecidos e O
R 3
diphenol component n
testar HO
O
C Y
O
C OH

HO2C HO2C CO2H HO2C O CO2H


CO2H
Succinic Acid Glutar ic Acid Diglycolic Acid

HO2C HO2C
CO2H CO2H
Adipic Acid 3-Methyl-A dipic Acid

HO2C HO2C O

Planejar e
CO2H O CO2H
Suberic Acid Dioxaoctanedioic Acid

HO2C
CO2H
Sebacic Acid

sintestizar HO CH2

n=1,2
O
C NH CH

C O
CH2 OH

novos
OR

OH OH

OH OH
OH OH
Methanol Ethanol Isopr opanol Butanol iso-Butanol sec -Butanol

polímeros
O
OH OH O OH
Hexanol Octanol 2-( 2-Ethoxyethoxy)ethanol

OH

OH

Dodecanol Benzyl Alcohol


Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso
1
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso
1

Ferramentas:

ChemAxon: http://www.chemaxon.com

Virtual Chemistry Lab: http://www.vcclab.org

Weka: www.cs.waikato.ac.nz/ml/weka/

libSVM: An integrated and easy-to-use tool for support vector classification


and regression.
www.csie.ntu.edu.tw/~cjlin/libsvm/

ADRIANA: http://www.molecular-networks.com/products/adrianacode

THERESA: http://www.molecular-networks.com/products/theresa
Programa de Pós-graduação em Ciências de Materiais (PPGMAt)
Universidade Federal de Mato Grosso
1

Referências

Comp. Mat. Sci, 2009, 45, 52-59.

Biosensors and Bioeletronics, 2009, 25, 543-52.

Biomaterials, 2007, 28, 4171-4177.

Adv. Matr., 2001, 13, 1713-1717.

Você também pode gostar