Escolar Documentos
Profissional Documentos
Cultura Documentos
CDU 575.112
Esta obra foi licenciada sob uma Licença
Creative Commons Atribuição-Não Comercial-Sem Derivados 3.0 Não Adaptada.
Elaboração de imagens
Pablo Ricardo Arantes
pablitoarantes@gmail.com
Revisão de texto
Liana Guimarães Sachett
lianasachett@gmail.com
Conteúdos
Apresentação ............................................................................................................. vi
Autores ........................................................................................................................ viii
Agradecimentos ........................................................................................................ ix
Capítulo 1: O que é bioinformática? ..................................................................... 1
Capítulo 2: Níveis de informação biológica ......................................................... 13
Capítulo 3: Alinhamentos ........................................................................................ 38
Capítulo 4: Projetos genoma .................................................................................. 62
Capítulo 5: Filogenia ................................................................................................ 80
Capítulo 6: Biologia de sistemas ............................................................................ 115
Capítulo 7: Modelos tridimensionais ..................................................................... 147
Capítulo 8: Dinâmica molecular ............................................................................. 172
Capítulo 9: Atracamento .......................................................................................... 188
Capítulo 10: Dicroismo circular .............................................................................. 209
Capítulo 11: Infravermelho ..................................................................................... 220
Capítulo 12: RMN ...................................................................................................... 236
Capítulo 13: Cristalografia ...................................................................................... 251
Apresentação
A ideia deste livro surgiu a partir da minha experiência pessoal com duas disciplinas
em bioinformática, uma para o curso de graduação em Biomedicina e uma para o
Programa de Pós-Graduação em Biologia Celular e Molecular do Centro de
Biotecnologia, ambos na Universidade Federal do Rio Grande do Sul.
MORGON, Nelson H.; COUTINHO, K. Métodos de Química Teórica e Modelagem Molecular. São
Paulo: Editora Livraria da Física, 2007.
Nesta visão, de certa forma holística, buscamos abordar não somente ácidos nu-
cleicos e proteínas, mas carboidratos e membranas biológicas. À exceção do último,
todos são agrupados como biopolímeros buscando facilitar a construção de relações
entre monômeros formadores, suas conexões e as características dos polímeros re-
sultantes. Afinal de contas, todas as células possuem membranas, e 2/3 das proteí-
nas de eucariotos são glicosiladas. Assim, busca-se oferecer ao leitor uma percep-
ção mais próxima da importância de todas estas biomoléculas para a vida e, em
muitos casos, sua participação em processos patológicos.
A linguagem escolhida para este material foi focada nas áreas biológicas e da saúde,
tendo em vista que estas compreendem talvez o maior volume de problemas alvo
abordados por estas técnicas. Adicionalmente, destaque foi dado na aplicação das
ferramentas em detrimento do esmiuçamento de teoria, códigos, metodologias e
implementações, para as quais um grande número de livros mais avançados e
específicos está disponível. Em contrapartida, esta linguagem pode contribuir para
que alunos de cursos de áreas não-biológicas visualizem o problema por um foco
distinto, aproximando-os assim do problema alvo.
Embora tenhamos nos dedicado a empregar uma linguagem geral e acessível, creio
que este esforço estivesse fadado a ser incompleto desde seu início em decorrência
da amplitude de áreas que compõe a bioinformática. Assim, alguns capítulos serão
de leitura mais fácil para alunos de cursos com maior formação em bioquímica, ou-
tros em biologia molecular, ou ainda em programação. Vejo este esforço de cons-
trução de uma linguagem comum para a área como uma obra em constante
desenvolvimento e, caso o material seja de proveito para vocês, certamente nos
dedicaremos a evoluí-lo em uma próxima edição.
Todo o livro foi organizado para ser aproveitado de forma digital, principalmente em
tablets. Fontes maiores foram empregadas para que a leitura fosse mais fácil e me-
nos cansativa nestas telas. E a distribuição do material, gratuita, para um acesso o
mais democrático possível entre os estudantes.
Por fim, ao esperar que estes megabytes de texto e fotos possam lhe ser úteis,
contribuindo para sua aproximação à bioinformática, quiçá incentive-os a se apro-
fundarem na área, agradeço a todos os que contribuiram para a elaboração deste
material. Sem eles, seu tempo, dedicação, excelência e experiência, todo este es-
forço não seria possível.
Hugo Verli
Autores
Bruno César Feltes Ivarne L. S. Tersariol
Centro de Biotecnologia, UFRGS Departamento de Bioquímica, Unifesp
Hugo Verli
Centro de Biotecnologia, UFRGS
Isabella A. Guedes
Laboratório Nacional de Computação Científica
Agradecimentos
O esforço de elaboração deste livro não seria possível sem a dedicação de todos os
autores. Por isso agradeço inicialmente a todos que contribuíram para este material
e acreditaram na proposta de um material gratuito e digital, em sua origem. Tal
esforço implicou em meses de trabalho gratuito, para o benefício dos alunos.
1.2. Origens
O que apresentaremos neste livro como
bioinformática pode ser separado em duas Figura 1-1: Watson e Crick em frente a um
grandes vertentes: modelo da hélice de DNA. Cavendish
i) a bioinformática tradicional, ou clás- Laboratory, Universidade de Cambridge, 1953.
sica (pela primazia do nome bioinfor-
mática), que aborda principalmente tacam-se os trabalhos de Linus Pauling e
problemas relacionados a sequências de Robert Corey, no início da década de 1950, e
nucleotídeos e aminoácidos, e de Gopalasamudram N. Ramachandran, no
ii) a bioinformática estrutural, que a- início da década de 1960, que ofereceram as
borda questões biológicas de um ponto bases para a compreensão da estrutura tridi-
de vista tridimensional, abrangendo a mensional de proteínas.
maior parte das técnicas compreendidas Desde estes trabalhos até a primeira
pela química computacional ou modela- vez em que se relatou o uso de programas de
gem molecular. computadores para visualizar estruturas tri-
dimensionais de moléculas passaram-se mais
Podemos traçar como momento chave de 10 anos quando, em 1966, Cyrus Levinthal
para ambas as vertentes da bioinformática o publica na revista Scientific American o tra-
início da década de 1950, quando a revista balho desenvolvido no Massachusetts
Nature publicou o trabalho clássico sobre a Institute of Technology por John Ward e
estrutura em hélice da molécula de DNA por Robert Stotz (Figura 2-1).
James Watson e Francis Crick (Figura 1-1). Ainda nesta década se dá o primeiro es-
Neste momento, as bases moleculares para o forço de sistematização do conhecimento
entendimento estrutural da replicação e tra- acerca da estrutura tridimensional dos efeto-
dução do material genético foram apresenta- res da informação genética, as proteínas, em
das, permitindo-nos entender como aquela 1965, com o Atlas of Protein Sequence and
"sequência de letras" (as bases do DNA) se Structure, organizado por diversos autores,
organizam tridimensionalmente. dentre os quais destacaremos Margaret
Este trabalho, contudo, deve ser visto Dayhoff.
como parte de um momento histórico, com- Este destaque se deve ao fato do papel-
posto por diversas contribuições fundamen- chave exercido pela Dra. Dayhoff na forma-
tais para o nosso entendimento de moléculas ção das raízes do que entendemos hoje por
biológicas e suas funções. Dentre estas des- bioinformática, tanto em sua faceta voltada
1. O que é Bioinformática?
cos se desenvolvem (e podem ser tratados) e são observáveis nos experimentos usuais ca-
como as enzimas exercem suas funções ca- pazes de determinar estruturas com resolu-
talíticas. Tomemos este último caso como ção atômica, embora através de simulações
exemplo. por dinâmica molecular tenham suas estru-
Com o entendimento de como proteínas turas descritas com elevada fidelidade.
se enovelam, será possível construir novas Outro caso em que os métodos compu-
proteínas, capazes de adotar formas que a tacionais parecem possuir vantagens em re-
natureza não previu até o momento, enzimas lação aos experimentais envolve os
aptas a catalizar reações de importância eco- carboidratos. Embora sejam moléculas em
nômica, com menor toxicidade, o que terá por vários aspectos mais complexos que proteí-
si impacto ambiental. Ainda, abre-se a possi- nas, carboidratos biológicos não parecem so-
bilidade de planejamento racional de enzimas frer enovelamento nem adotar tipos de
e proteínas envolvidas na detoxificação de estrutura 2ária em solução (embora o façam
áreas. Esta linha de pesquisa está em seu iní- em ambiente cristalino), o que os torna na
cio, e o número de grupos de pesquisa dedi- prática um problema estrutural mais simples
cados ao redor do mundo para trabalhar na que proteínas. De fato, vem sendo possível
engenharia de proteínas vem aumentando prever a estrutura de glicanas com graus va-
gradativamente. Mas, infelizmente, ainda não riados de complexidade com grande precisão,
possuimos uma base teórica que nos permita um campo no qual os métodos experimentais
entender e prever, com precisão e de forma possuem grandes dificuldades em abordar.
ampla, a estrutura 3D de proteínas.
Contudo, esta problemática vem sendo Validação experimental
abordada a cada ano com maior sucesso. Pa-
ra proteínas com no mínimo em torno de Em linhas gerais, métodos computacio-
30% de identidade com outras proteínas de nais devem ser comparados a dados experi-
estrutura 3D já determinada, podem ser obti- mentais para validação. Esta afirmação,
dos modelos de qualidade próxima àquela de embora tomada geralmente como um axio-
métodos experimentais. Em outros casos, ma, é bastante simplista, e não expressa cla-
estruturas cristalográficas podem ser refina- ramente a complexidade e desafio nesta
das por métodos computacionais, agregando tarefa. Alguns pontos específicos incluem:
explicitamente informações ausentes nos ex- i) nem sempre há dados experimentais
perimentos (como a flexibilidade molecular). disponíveis para validar os cálculos e si-
Outro exemplo é a construção de alças flexí- mulações realizados. Por exemplo, este
veis, de difícil observação experimental mas é o caso com frequência para alinha-
que podem ser abordadas por diferentes mé- mentos de sequências, para relações fi-
todos computacionais. logenéticas, para predições ab initio da
Para ácidos nucleicos, a construção estrutura de proteínas e para a descri-
computacional de estruturas 3D de moléculas ção da flexibilidade de biomoléculas ob-
de DNA é tarefa relativamente simples, que tidas por dinâmica molecular. Nem
usualmente não requer os custos associados sempre há fósseis ou outras evidências
a experimentos de cristalografia e ressonân- arqueológicas para validar antepassa-
cia magnética. Para moléculas de RNA, con- dos evidenciados por estudos filogené-
tudo, a elevada flexibilidade traz consigo ticos. Por outro lado, não há métodos
desafios adicionais. Mesmo assim, em diver- experimentais com resolução atômica e
sos casos as estratégias computacionais temporal, de forma que a validação de
possuem vantagens em lidar com moléculas simulações por dinâmica molecular é
muito flexíveis. Talvez o caso mais emblemá- em grande medida indireta (uma estru-
tico neste sentido sejam as membranas bio- tura obtida por cristalografia é única,
lógicas. Estas macromoléculas biológicas não sem variação temporal, enquanto os
1. O que é Bioinformática?
Hugo Verli
Figura 3-2: Estrutura dos aminoácidos codificados no genoma, organizados segundo as propri-
edades de suas cadeias laterais. No topo o esqueleto peptídico é representado como encontra-
do dentro de uma proteína, tanto em sua forma 2D quanto 3D. Nesta última, o grupo R (cadeia
lateral) está apresentado como uma esfera amarela, enquanto a continuação da cadeia poli-
peptídica como esferas verde-escuras. As cadeias laterais estão apresentadas em sua ionização
mais comum, plasmática.
grupo amino, pelo grupo ácido carboxílico e À exceção da glicina, todos os aminoácidos são qui-
pelo átomo de carbono que liga estes dois rais, em decorrência da presença de quatro substiuin-
grupos, denominado carbono α (Cα). A dife- tes diferentes ligados ao Cα. Salvo casos específicos,
rença entre estes resíduos está no grupa- todos os aminoácidos quirais são encontrados em so-
mento ligado ao Cα, chamado cadeia lateral mente uma forma enantiomérica, L. Como conse-
(Figura 3-2). quência, todas as proteínas são quirais, e isto tem
Enantiômeros são compostos que, diferindo so- implicações importantes em fenômenos bioquímicos e
mente no arranjo de seus átomos no espaço (como no na prática terapêutica.
caso de L-Ser e D-Ser), correspondem um à imagem Dois enantiômeros interagem de forma idêntica
especular do outro (isto é, uma é o reflexo em um es- com compostos que não sejam quirais. Por exemplo, a
pelho da outra). interação de L-Ser e D-Ser com a água é idêntica. Em
2. Níveis de Informação Biológica
monossacarídeo, o carbono anomérico pode ser en- agregados moleculares de lipídeos anfipáticos
contrado em duas possíveis configurações, α e β (Figu- organizando uma bicamada (Figura 8-2).
ra 5-2). Assim, uma ligação glicosídica entre o carbono Apresentam papel fundamental à vida, com-
anomérico (C1) de uma manose e o átomo C3 de outra partimentalizando a célula, definindo seus li-
manose poderia ocorrer de duas formas, α-Man-(1→3)- mites, propriedades e organizando estruturas
Man ou β-Man-(1→3)-Man. No caso de glicoproteínas, celulares.
contudo, a forma α é aquela usualmente encontrada É importante ter em mente que mem-
para o resíduo de manose (para outros resíduos, a for- branas são muito mais do que simples "pare-
ma anomérica preferencial pode ser diferente). des" delimitadoras da célula. Os
Tomando como exemplo o tetrassacarídeo α-Man- componentes de membranas são variados,
(1→2)-α-Man-(1→2)-α-Man-(1→3)-Man, comumente incluídos diferentes tipos de lipídeos, proteí-
encontrado em glicoproteínas do tipo oligomanose, o nas e carboidratos. A presença e localização
primeiro resíduo de manose (denominada extremidade destes componentes pode ser modulada de
não-redutora) possui seu carbono anomérico ocupado forma dinâmica em função de necessidades
na ligação glicosídica, tendo sua configuração (neste da célula, tecido ou organismo, sinalizando e
exemplo α) fixa. Em contrapartida, o quarto resíduo de modulando cadeias de eventos e definindo
manose possui seu carbono anomérico livre. Esta por- regiões da célula com propriedades específi-
ção é denominada redutora, e tem a configuração do cas (a chamada polaridade celular).
carbono anomérico variável, isto é, pode estar tanto na Moléculas anfipáticas apresentam como
forma α quanto β. característica a presença simultânea de uma
região polar, também chamada de cabeça po-
Membranas lar (hidrofílica ou lipofóbica) e de uma região
apolar, também chamada de cauda hidrofóbi-
Diferentemente dos ácidos nucleicos, ca (hidrofóbica ou lipofílica). Assim, membra-
proteínas e carboidratos, membranas não se nas celulares possuem superfícies polares e
constituem em polímeros biológicos, mas em interiores apolares. As características destas
2. Níveis de Informação Biológica
mente pequeno de tipos, de forma que a es- Tabela 1-2: Tipos de alças mais comuns
trutura tridimensional de biomoléculas pode encontrados em proteínas.
ser descrita como uma combinação de con-
juntos destes elementos. Tipo Tamanho
Diferentes composições de estrutura (n de resíduos)
o
Figura 10-2: Representação dos tipos mais comuns de estrutura 2ária encontrados em proteínas.
Em verde estão as hélices α (A), em azul as hélices 310 (B), em salmão as hélices π (C), em ciano
as folhas β paralelas (D) e roxo as antiparalelas (E). As ligações de hidrogênio entre átomos do
esqueleto peptídico estão apresentadas como linhas tracejadas em marrom. As estruturas são
partes que compõe as proteínas descritas pelos códigos PDB 18D8, 1ABB, 2QD1, 1EE6 e 1PC0, e
para cada uma duas diferentes orientações são apresentadas. Note que as cadeias laterais
apontam para fora do eixo das hélices e, para as folhas, para cima e para baixo do plano
definido pelas fitas.
fundidade das fendas maior e menor e na dis- giões de bases pareadas, alças de grampos,
posição e orientação dos grupos fosfato, pro- alças internas, bojos (do inglês bulge) e jun-
priedades estas que, por sua vez, estão ções. Quando o RNA se dobra sobre si, ele
diretamente relacionadas à especificidade da forma pareamentos entre bases complemen-
interação do DNA com proteínas e fármacos. tares de forma análoga àquelas vistas no
A forma B do DNA pode assumir dois sub-estados, DNA. Quando uma das fitas no RNA pareado
denominados BI e BII, definidos por diferenças em tor- apresenta bases que não possuem uma con-
ções na parte sacarídica e no grupo fosfato (ver adian- trapartida para formar um par A-U ou C-G,
te). Essa região, formada por carboidrato e fosfato, é forma-se uma protuberância ou bojo.
também denominada de esqueleto do DNA, em analo- Estes bojos, isto é, bases não pareadas em uma du-
gia ao esqueleto peptídico. A lógica é a mesma: o es- pla-fita, também podem ser encontradas em folhas β.
queleto é composto pela região comum a todos os Neste caso, resíduos de aminoácidos de uma fita dei-
monômeros formadores do biopolímero. Adicional- xam de interagir com a fita vizinha, dando origem a es-
mente, outras formas de DNA já foram identificadas te outro tipo de estrutura 2ária de proteínas.
(alguns autores afirmam inclusive que poucas letras As alças de grampos em moléculas de
do alfabeto sobram para nomear novas formas de RNA são análogas às voltas observadas em
DNA que por ventura venham a ser identificadas), em- proteínas, conectando duas fitas β por um
bora muitas ainda não tenham papel biológico claro. pequeno segmento de poucos resíduos. No
A maioria dos genomas eucarióticos está sujeita a RNA, quando a fita dobra-se sobre si mesma,
um fenômeno de metilação do DNA, que consiste na deixa alguns resíduos (no mínimo 4) projeta-
adição de um grupo metila no átomo de carbono na dos para fora, formando uma alça. Neste tipo
posição 5 dos resíduos de citosina. Como uma modifi- de estrutura 2ária, a alça está vizinha a so-
cação estrutural epigenética envolvida na regulação do mente uma região de pareamento de bases,
potencial regulatório e transcricional do DNA, deve-se enquanto que há duas regiões, a cada lado do
estar atento à necessidade de incluir tal modificação na bojo, de bases pareadas.
descrição deste ácido nucleico. As alças internas podem ser entendidas
Não somente o DNA, mas também o como uma dupla fita de DNA em que, no seu
RNA possui estrutura 2ária. Contudo, ao con- meio, as bases não são complementares e,
trário do DNA, que é uma molécula contendo por isso, não pareiam. Assim, ambas as fitas
duas fítas de ácidos nucleicos, na maioria das apresentam bases que não estão pareadas, o
situações o RNA é uma molécula composta que a diferencia do bojo. Por fim, as junções
por uma única fita. Assim, enquanto no DNA conectam 3 ou mais regiões de bases parea-
os pareamentos entre bases que dão origem das.
à estrutura 2ária surgem da interação de mo- O terceiro tipo de biopolímero constitu-
léculas (fitas) diferentes e complementares, inte de biomacromoléculas, os carboidratos
no RNA a estutura 2ária surge de interações podem, similarmente a proteínas e ácidos
na própria fita, que dobra-se sobre si mesma. nucleicos, adotar padrões repetitivos de or-
As estruturas 2árias de RNA incluem re- ganização de suas unidades formadoras, mo-
2. Níveis de Informação Biológica
Figura 11-2: Representação dos tipos mais comuns de estrutura 2ária encontrados no DNA, ilus-
tradas para sequências de 12 nucleotídeos. Em vermelho estão as hélices B (A), em azul as
hélices A (B) e em magenta as hélices Z (C). As estruturas pelos códigos PDB 3BSE, 3V9D e
279D. Para cada uma duas diferentes orientações são apresentadas, e o esqueleto das
moléculas de DNA está representado como fitas.
nossacarídeos, isto é, em elementos de es- Esta é uma condição adequada à descrição, por exem-
trutura 2ária. plo, da quitina, polissacarídeo encontrado na natureza
Polissacarídeos lineares desenvolvem em condições semelhantes. Contudo, quando estes po-
estruturas de hélices, similarmente à proteí- lissacarídeos são transpostos para soluções biológicas,
nas e ácidos nucleicos. No caso destas molé- estas moléculas adotam uma elevada flexibilidade e,
culas, contudo, a variabilidade de por conseguinte, grande variação conformacional. Não
organizações possíveis é muito maior, de for- raramente, perdemos a capacidade de identificar for-
ma que não há definição específica para um mas repetitivas, e a denominação de alças desordena-
ou alguns tipos de hélices, como vimos ante- das pode também ser aplicada a polissacarídeos.
riormente. Ao invés disto, cada tipo de polis- Adicionalmente, carboidratos não se apresentam
sacarídeo apresentará um número de somente como polissacarídeos lineares, mas como oli-
resíduos por volta, elevação por resíduo e go- ou polissacarídeos ramificados. Esta ramificação
elevação por volta, assim como seu sentido agrega um grau adicional de complexidade na descri-
para a direita ou para a esquerda (vide tabela ção da forma destes compostos. Mesmo assim, ainda é
2-3). possível descrever a forma destes compostos, caso a
Estas características, contudo, são normalmente caso, como veremos adiante.
determinadas experimentalmente através de difração
de raios-X, na qual a amostra está na fase cristalina.
2. Níveis de Informação Biológica
Tipo de pb / Elevação / Elevação / Fenda maior (Å) Fenda menor (Å) Direção
hélice volta pb (Å) volta (Å) Largura Profundidade Largura Profundidade
DNA A 11 2,9 32 2,7 13,5 11,0 2,8 direita
DNA B 10 3,4 34 11,7 8,5 5,7 7,5 direita
DNA Z 12 3,8 45 - convexa 4 9 esquerda
Estrutura 3ária 3ária que nenhuma outra biomolécula possui.
Isso faz todo o sentido, tendo em vista que
A importância do conhecimento da es- são as proteínas os principais efetores da in-
trutura 2ária de biomoléculas reside, principal- formação gênica. Em proteínas, o enovela-
mente, no fato de que estes elementos se mento envolve a aproximação mútua de
organizam no espaço tridimensional, dando resíduos hidrofóbicos, que buscam se escon-
origem ao que chamamos de estrutura 3ária. der da água (também chamado de colapso
Em outras palavras, a estrutura 3ária de uma hidrofóbico), ocasionando a expulsão deste
dada biomolécula corresponde à montagem solvente da região central da proteína.
dos seus elementos de estrutura 2ária. Por Simultaneamente, os resíduos polares
outro lado, é a estrutura 3ária (ou a 4ária, que são expostos ao solvente, e interações inter-
veremos a seguir) que irá exercer a função resíduo são estabelecidas. Assim, a estrutura
biológica da molécula em questão. enovelada, nativa, terá uma quantidade míni-
Os diversos elementos de estrutura 2ária ma de moléculas de água em seu interior e
de uma dada molécula se organizam em uma um número máximo de contatos inter-resíduo
estrutura 3ária através de um fenômeno de- (Figura 12-2).
nominado enovelamento (também chamado A ideia de ambiente molecular para o enovelamento
em português de dobramento, do termo em ou para que uma dada biomolécula exerça sua função é
inglês folding). Neste processo, uma combi- mais complexa do que parece à primeira vista. Embora
nação de forças converge para que a biomo- a ideia usual seja de que o meio aquoso seja predomi-
lécula adote uma conformação mais estável nante, diversos tipos de ambientes aquosos podem ser
no meio biológico alvo. encontrados dentro de um organismo, tecido ou célula.
O termo conformação é usado para descrever a Por exemplo, o pH pode apresentar grandes variações
forma de uma dada molécula, como já empregado entre vacúolos lisossomais, citoplasma, plasma, se-
neste capítulo. Contudo, deve-se adotar uma distinção creção gástrica ou duodenal. Por outro lado, a força
entre conformação e estrutura, importante para o en- iônica da solução pode mudar drasticamente na proxi-
tendimento de propriedades moleculares. Estrutura se midade de membranas com diferentes cargas.
refere a uma única forma, bem definida e conhecida. Outro tipo de ambiente molecular que deve ser
Conformação se refere a uma forma dentre múltiplas destacado é definido pelas membranas biológicas.
possíveis, em um determinado meio ou ambiente mo- Membranas são fluidos, e moléculas inseridas em
lecular. Assim, é comum nos referirmos a estrutura membranas estão solvatados pelas moléculas de fos-
cristalina de uma dada proteína, pois no cristal temos folipídeos. Assim, sendo o interior de membranas apo-
uma única forma 3D, como uma foto única que compõe lar (ou seja, lipofílico), o colapso hidrofóbico pode
um filme. Em solução, contudo, há diversas formas si- acontecer ao inverso, com a exposição de resíduos
multaneamente co-existindo. Neste caso, cada forma apolares para o solvente (neste caso, a membrana).
pode ser denominada de conformação. Podemos, de Ambientes mais específicos para o enovelamento de
forma mais precisa, dizer que a forma de uma biomo- proteínas podem ainda ser criados por outras proteí-
lécula, determinada por cristalografia de raios-X, é nas, denominadas chaperonas. Como um barril, chape-
uma conformação cristalográfica. ronas podem isolar uma proteína do meio aquoso,
O processo de enovelamento é mais es- levando a formação de interações inter-resíduo que
tudado para proteínas, biopolímeros que não seriam observáveis de forma significativa em sua
apresentam uma versatilidade de estrutura ausência. Por conseguinte, podem contribuir direta-
2. Níveis de Informação Biológica
mente na formação de estruturas 3árias. químicas, enzimáticas e, por fim, pode tam-
bém exercer papel importante em suas fun-
ções biológicas.
A glicosilação de proteínas ocorre em mais de 70%
das proteínas de eucariotos. Diversos aminoácidos po-
dem estar envolvidos na ligação a carboidratos, mais
comumente resíduos de asparagina ou serina, embora
também possam participar resíduos de treonina, hidro-
xiprolina, tirosina, arginina, triptofano e cisteína. De-
pendendo do aminoácido, a parte sacarídica pode estar
ligada a átomos de nitrogênio, oxigênio, carbono ou en-
xofre, dando origem às glicosilações chamadas de N-,
O-, P-, C- ou S-ligadas.
Estrutura 4ária
A despeito da função de um gene ser
Figura 12-2: Representação 2D do exercida por uma proteína com estrutura 3D,
enovelamento de uma proteína hipotética, envolvendo a transmissão de informação de
com o direcionamento de resíduos uma estrutura 1ária para uma estrutura 3ária,
hidrofóbicos (círculos pretos) para o interior ainda há um quarto e último nível de organi-
da proteína e dos resíduos hidrofílicos para zação de biomacromoléculas, denominado de
sua superfície (círculos brancos). Reproduzida estrutura 4ária. Nem todas as biomoléculas,
de Tomixdf, 2008 (Creative Commons). contudo, apresentam este grau de organiza-
ção.
Além de interações não covalentes en- A estrutura 4ária é constituída por agre-
tre os resíduos de aminoácidos de uma dada gados macromoleculares, principalmente de
proteína (ou as bases de um ácido nucleico e proteínas. Estas biomoléculas podem adotar
os monossacarídeos de um polissacarídeo) e estados oligoméricos, sejam estes compostos
destes com o solvente, o enovelamento de por 2 (dímeros), 3 (trímeros), 4 (tetrâmeros),
proteínas também é influenciado por intera- 5 (pentâmeros), 6 (hexâmeros) ou mais su-
ções covalentes, associadas a modificações bunidades necessárias à realização de deter-
co- ou pós-traducionais. minada função em condições nativas. No caso
Durante ou após a síntese proteica (tra- de ácidos nucleicos, a estrutura 4ária também
dução), podem ser formadas ligações dissul- pode ser observada, por exemplo, em com-
feto entre grupamentos sulfidrila (SH) de plexos entre DNA e proteínas, como histonas.
resíduos de cisteína, cofatores como o gru- Não é porque uma proteína se mostra como um
pamento heme podem ser adicionados ou oligômero em ambiente cristalino que em solução a
mesmo processos reversíveis podem ocorrer, mesma organização, necessariamente, será observada.
nos quais reações como N-acetilação ou fos- Mesmo in vivo, diferentes ambientes fisiológicos po-
forilação podem ser observadas de forma dem acarretar em mudanças no estado oligomérico de
transiente. Mas o tipo mais abundante de mo- uma proteína. Por exemplo, um peptídeo que se mostra
dificação co- ou pós-traducional na natureza é como monômero no plasma pode formar tetrâmeros
a glicosilação de proteínas, ou seja, a adição quando inserido em membranas.
de uma estrutura oligossacarídica a um de- Portanto, assim como no caso da estrutura 3ária, a
terminado aminoácido. Assim, a adição destas estrutura 4ária frequentemente se constitui em uma
ligações covalentes e grupamentos altera não complexa combinação de múltiplas possibilidades que
somente a forma 3D da proteína, mas sua podem ser modificadas ou reguladas em função de
flexibilidade e múltiplas propriedades fisico- inúmeras variáveis químicas e biológicas. Reproduzir
2. Níveis de Informação Biológica
com precisão este comportamento dinâmico é um dos favorecidas correspondem às estruturas 2árias
principais desafios para a bioinformática. de proteínas que nós conhecemos e ofere-
cem, assim, uma medida quantitativa para
2.4. Descritores de forma definir hélices, fitas, alças e voltas. O gráfico
que combina os valores de ângulos φ e ψ para
O uso dos conceitos de níveis hierár- um determinado dipeptídeo ficou assim sendo
quicos nos permite entender as organizações conhecido como mapa de Ramachandran (Fi-
básicas da estrutura 3D de macromoléculas. gura 13-2).
Estes níveis, contudo, nos oferecem defini- O uso de ângulos de torção para descrever a estru-
ções qualitativas, gerais, que não abordam tura e a conformação molecular não se limita somente
nuances ou variações dentro dos níveis. Por a proteínas, mas também pode ser aplicado a ácidos
exemplo, definir uma região da proteína como nucleicos e carboidratos. Em cada caso, o número de
uma hélice α não nos informa se esta hélice ângulos de torção é definido pelas características das
apresenta ou não algum grau de deformação. ligações entre os monômeros, isto é, se é uma ligação
Similarmente, podemos saber que uma de- peptídica, glicosídica ou fosfodiéster.
terminada sequência de nucleotídeos de DNA Para a descrição da forma de uma ligação peptídica
assume uma hélice do tipo B, mas esta clas- em uma proteína são empregados três ângulos: ω, ψ e
sificação simplemsente não avalia a defor- φ. Os ângulos ψ e φ são aqueles descritos no mapa de
mação provocada nesta hélice por um Ramachandran, localizando-se antes e depois do Cα
fármaco intercalador do DNA. (porções N- e C- terminais da ligação, respectivamen-
Portanto, em acréscimo aos níveis hie- te). O ângulo ω, por sua vez, corresponde ao grupa-
rárquicos de classificação da estrutura de mento amida, ou seja, a ligação entre os grupamentos
macromoléculas, há a necessidade de intro- N-H e C=O (Figura 14-2).
duzir medidas quantitativas da forma destes A ligação glicosídica pode ser descrita por dois ou
compostos. Podemos, assim, calcular preci- três ângulos torcionais. Em analogia à ligação peptídi-
samente formas associadas a determinados ca, podem ser empregados os ângulos φ e ψ (porção
eventos biológicos (como a regulação da ex- não-redutora e porção redutora, respectivamente). A
pressão de um gene) e, por conseguinte, in- exceção é quando descrevem-se ligações envolvendo o
terferir nestes processos de forma racional átomo de carbono na posição 6 de piranoses (como
(como no desenho de novos fármacos capa- glicose, manose, fucose e etc.) e na posição 5 de fura-
zes de inibirem a expressão deste gene). noses (como na ribose e na desoxirribose). Nestes ca-
Considerando que proteínas, carboidra- sos, há a necessidade de se considerar um terceiro
tos e ácidos nucleicos são biopolímeros, suas ângulo torsional, denominado ω.
formas tridimensionais são definidas, basica- O terceiro caso de biopolímeros usualmente des-
mente, pelas conectividades entre seus mo- critos por ângulos torcionais, os ácidos nucleicos, con-
nômeros constituintes (isto é, aminoácidos, sistem em um caso à parte. Como podemos observar
monossacarídeos e bases nitrogenadas, res- na Figura 14-2, o grupamento fosfato agrega grande
pectivamente). flexibilidade à cadeia, exigindo assim sete ângulos tor-
Esta forma de compreender a estrutura sionais para sua adequada caracterização, a saber: α, β,
de biomacromoléculas foi proposta inicial- γ (na região 5'), δ (entre os átomos 3' e 4' da pentose), ε
mente em 1963 por Gopalasamudram e ζ (na porção 3'). Há, ainda, o ângulo χ, formado entre
Narayan Ramachandran. Neste trabalho, G. N. o carbono 1' da pentose e a base nitrogenada.
Ramachandran descreve a forma de dois Ângulos torsionais não são, contudo, a
aminoácidos vizinhos como fruto dos ângulos única forma de descrever e avaliar a forma de
de torção ao redor do Cα (Figura 13-2), deno- biomacromoléculas. A despeito de serem bi-
minados φ e ψ. Assim, em função das cadeias opolímeros, proteínas, carboidratos e ácidos
laterais de cada aminoácido, algumas combi- nucleicos apresentam suas particularidades,
nações de ângulos φ e ψ seriam favorecidas, exigindo assim descritores específicos, capa-
enquanto outras proibidas. As combinações zes de lidar com as propriedades fisico-quí-
2. Níveis de Informação Biológica
Figura 13-2: Mapas de Ramachandran para casos gerais (resíduos que não sejam prolina ou
glicina), para resíduos de glicina e para resíduos de prolina. Os pontos correspondem às
distribuições de ângulos φ e ψ de cerca de 100 mil resíduos componentes de 500 estruturas
proteicas obtidas em alta resolução. As regiões onde se localizam as estruturas secundárias
típicas estão destacadas nos mapas. [Figura baseada em LOVELL, Simon C. et al. Structure
Validation by Cα Geometry: φ, ψ and Cβ Deviation. Proteins, 50, 437-450, 2003; e Hollingsworth,
Scott A. & Karplus, P. Andrew. A fresh look at the Ramachandran plot and the occurrence of
standard structures in proteins. Biomol. Concepts, 1, 271–283, 2010].
torna-se necessário caracterizá-las estrutu- do grau de compactação das moléculas que constitu-
ralmente. Isto pode ser feito através de di- em uma membrana, ou seja, uma área menor indica
versas medidas, tais como a área por lipídeo, uma membrana mais compacta. Isto, por sua vez, su-
espessura da membrana e coeficientes de di- gere uma interação mais intensa entre os componentes
fusão lateral de lipídeos ou proteínas embe- da membrana.
bidas na membrana, dentre outros (Figura Embora proteínas inseridas em membranas adap-
8-2). tem-se a este meio, são as membranas que fazem a
A área por lipídeo nos oferece informações acerca maior parte do ajuste em sua estrutura para receber
Figura 16-2: Exemplos de motivos proteicos, coloridos por cada elemento de estrutura 2ária. São
apresentados barris compostos por fitas-β, em A a proteína verde fluorescente (do inglês green
fluorescent protein, GFP, código PDB 1EMG), em D a porina OMP32 (código PDB 2FGQ) e em G o
transportador FECA (código PDB 1KMO); feixes de hélices α, em B a bacteriorodopsina (código
PDB 1AP9), em E a proteína SERCA1 (código PDB 1WPG) e em H parte do sistema fotossintético
de uma cianobactéria (código PDB 1JB0); e ferraduras compostas por hélices α, em C um inibidor
de crescimento tumoral (código PDB 1BD8), em F uma repetição rica em resíduos de leucina,
associada à fixação de nitrogênio (código PDB 1LRV) e em H a lipovitelina (código PDB 1LSH).
Partes das estruturas foram omitidas buscando maior clareza na imagem. Adaptado de "The
Protein Chart", de Richard C. Garratt e Christine A. Orengo, 2008, Wiley-VCH.
2. Níveis de Informação Biológica
as proteínas (esse processo está relacionado às dife- nucleotídeos, aminoácidos ou monossacarídeos não
renças de compressibilidade entre estas biomoléculas). nos ofereça muitos artifícios visuais, devemos nos
Como consequência, a inserção de proteínas em mem- lembrar que as formas apresentadas na Figura 17-2
branas biológicas promove uma perturbação na orga- não informam o leitor facilmente sobre quais resíduos
nização da bicamada lipídica, podendo tanto aumentar compõe a nossa macromolécula. É difícil distinguir, em
quanto reduzir a espessura desta na região ao redor da representações de arames, bastões ou esferas, uma Ile
proteína. de uma Leu, e mesmo impossível em cartoon ou su-
perfície. Portanto, pode ser muito útil combinar estas
2.5. Formas de visualização representações tridimensionais a alinhamentos de se-
quências da região de interesse.
O corolário uma imagem fala mais do O mesmo vale para a apresentação de sequências
que mil palavras também se aplica ao estudo isoladas de estruturas. Enquanto uma mutação em um
de moléculas. E, de fato, o desafio de repre- único nucleotídeo pode interferir na função proteica, is-
sentar graficamente proteínas vem acompa- so não é feito pela troca de uma letra por outra na se-
nhando os pesquisadores desde o início dos quência, mas por mudanças que esta troca acarretam
estudos da estrutura destas moléculas. Os na estrutura da proteína. O entendimento deste pro-
primeiros relatos do uso de representações cesso pode depender simplesmente da nossa imagina-
em cartoon para proteínas datam da década ção ou da visualização da respectiva mudança na
de 1960. Atualmente, múltiplas representa- proteína.
ções estão à nossa disposição, com qualidade Existem diversas formas de apresentar
gráfica a cada momento superior, e gerados estruturas tridimensionais de macromolécu-
através de ferramentas gratuitas (Figura 17- las, e escolher entre estas formas envolve
2). tanto escolhas metodológicas quanto pesso-
Podemos definir hélices de proteínas ais. Algumas propriedades são mais facil-
por suas características geométricas, nomes mente observadas em alguns tipos de
ou pelos pares de ângulos φ e ψ. Mas visuali- visualização. Por exemplo, o volume da ca-
zar uma hélice proteica, tridimensionalmente, deia lateral de um resíduo de Val é muito mais
não deixa dúvidas quanto ao seu significado. facilmente observável enquanto seus átomos
Portanto, o cuidado com a maneira pela qual
iremos apresentar, visualmente, os aspectos
estruturais que estudamos e tenhamos rela-
cionados a alguma função biológica, é uma
parte fundamental no trabalho do bioinfor-
mata.
Formas de visualização, contudo, são representa-
ções muitas vezes incapazes de descreverem detalhes
sobre a molécula em estudo. É difícil distinguir visual-
mente uma hélice α de uma hélice 310 ou de uma hélice
π. Por outro lado, estas hélices podem apresentar de-
formações importantes, também de difícil visualização.
Assim, a combinação de representações visuais, quali-
tativas, com medidas precisas, quantitativas, da estru-
tra molecular é uma estratégia bastante útil no estudo
de macromoléculas.
A ideia de combinar múltiplas estratégias na apre-
sentação de um determinado aspecto molecular não Figura 17-2: Exemplo das formas de
se limita somente às formas de descrever visualmente visualização mais comumente empregadas na
ou numericamente a estrutura molecular. Embora a vi- descrição de biomoléculas, aplicadas a uma
sualização de estruturas 1árias, isto é, de sequências de proteína.
2. Níveis de Informação Biológica
são apresentados como esferas do que como mas não no sentido oposto. Envolve prin-
bastões ou arames (Figura 17-2). Diferentes cipalmente os fenômenos de replicação,
tipos de moléculas, similarmente, se benefi- transcrição e tradução.
ciam de algumas formas de visualização. Por
exemplo, a forma de cartoon é a mais comum Enovelamento: processo segundo o qual uma
para descrever proteínas, mas é pouco útil na sequência polipeptídica adquire sua estru-
descrição de carboidratos ou membranas. tura tridimensional nativa, isto é, equiva-
Em muitos casos poderemos empregar lente àquela observada em seu local
combinações destas formas, como na descri- biológico de ação e funcional. Também
ção por cartoon de uma proteína e de sua es- chamado por alguns autores de dobra-
trutura de glicosilação como bastões. mento.
Carbono α: átomo de carbono do esqueleto Estrutura 1ária: sequência de letras que compõe
peptídico no qual a cadeia lateral de cada biomoléculas (principalmente DNA, RNA e
aminoácido está ligada (referindo-se aos proteínas, mas também carboidratos).
20 aminoácidos codificados no genoma
para síntese proteica). É o primeiro átomo Estrutura 2ária: padrões estruturais definidos pe-
de carbono vizinho ao grupo carbonila. la organização das unidades monoméricas
(isto é, nucleotídeos, aminoácidos e mo-
Conformação em bote torcido: forma adotada nossacarídeos) de cada biomolécula em
pelo anel de alguns monossacarídeos. formas tridimensionais. Estes padrões po-
dem classificados segundo suas diferentes
Conformação em cadeira: forma adotada pelo formas.
anel de alguns monossacarídeos, seme-
lhante a uma cadeira quanto vista de lado. Estrutura 3ária: estrutura 3D completamente
enovelada.
Conformação em envelope: forma adotada pelo
anel de alguns monossacarídeos, destaca- Estrutura 4ária: organização definida pela agre-
damente as furanoses. gação de múltiplas estruturas 3árias.
Dogma central da biologia molecular: represen- Furanoses: monossacarídeos cujo anel é com-
tação do fluxo de informação em sistemas posto por 5 átomos, quatro de carbono e
biológicos, começando na molécula de um de oxigênio. O nome vem da seme-
DNA e culminando na síntese proteica - lhança deste anel com o composto furano.
2. Níveis de Informação Biológica
idênticos ou similares em cada uma das se- acumulou diferentes variações ao longo do
quências integrem a mesma coluna. A ideia processo evolutivo. O termo homologia é uti-
central destes algoritmos é minimizar as dife- lizado frequentemente para definir estes
renças entre as sequências, buscando um ali- eventos onde, através da relação de ances-
nhamento ótimo. Comumente, a similaridade tralidade, dois indivíduos distintos possuem
entre as sequências envolvidas é expressa regiões em seu DNA (incluindo regiões codifi-
pelo termo identidade, que quantifica a por- cantes) herdadas de um ancestral comum.
centagem de caracteres idênticos entre duas Neste caso, a similaridade deve-se à descen-
sequências. dência comum e, portanto, as sequências en-
A relevância e abrangência do uso do volvidas na análise são ditas homólogas.
método tornam os procedimentos de alinha- Cabe ressaltar que a homologia não re-
mento o cerne para diferentes campos dentro quer necessariamente alta identidade de ca-
da grande área da bioinformática. Além de racteres entre as sequências, uma vez que a
fundamentais em pesquisas de filogenética e maior ou menor identidade entre elas depen-
análise evolutiva, os alinhamentos são exigi- derá da taxa de evolução do organismo ou da
dos em estudos de inferência estrutural e espécie (consultar capítulo 5). Ainda, a simi-
funcional de proteínas, análises de similarida- laridade entre sequências pode ser gerada
de e identificação de sequências e em estudos não somente por descendência, mas por
aplicados ao campo da genômica. pressão seletiva de um determinado ambien-
Através dos métodos de alinhamento, é te. Nestes casos, teremos regiões similares
possível obter informações a respeito da re- na sequência de nucleotídeos (ou aminoáci-
lação evolutiva entre organismos, indivíduos, dos) que surgiram de maneira independente,
genes ou entre sequências diversas (Figura sem qualquer relação de descendência, e
2a-3). Se duas sequências distintas podem evoluíram por convergência, não sendo por-
ser alinhadas com certo grau de similaridade, tanto homólogas. Assim, não é possível
é possível inicialmente assumir que elas com- quantificar a homologia entre as sequências
partilharam, em algum momento do tempo envolvidas, somente dizer se há ou não.
passado, um ancestral comum e, por isso, Quando identificamos quantos caracteres se
são evolutivamente relacionadas. A partir da repetem nas mesmas posições entre duas ou
separação destas sequências de seu ances- mais sequências estamos, de fato, verificando
tral comum, individualmente cada uma delas a identidade entre estas, e não a homologia.
3. Alinhamentos
têm grande importância para a análise de ge- entre tais estruturas. É importante destacar
nes e genomas. Com o aumento da disponibi- também a diferença entre alinhamento e so-
lidade de sequências nucleotídicas de breposição de estruturas. Apesar desses ter-
genomas completos, e mesmo com o surgi- mos ainda serem empregados na literatura
mento de modernas técnicas de biologia mo- como sinônimos, eles se referem a procedi-
lecular, como o microarray e deep mentos diferentes. Conforme mencionado
sequencing, os métodos de comparação per- acima, enquanto o alinhamento de estruturas
mitiram o entendimento a respeito da variabi- busca identificar equivalências entre pares de
lidade genética de indivíduos e populações. aminoácidos nas estruturas a serem sobre-
A comparação entre genomas de dife- postas, a sobreposição necessita desse co-
rentes espécies, ou até mesmo de indivíduos nhecimento prévio sobre as equivalências.
da mesma espécie, possibilita a análise de va- Sendo assim, a sobreposição estrutural busca so-
riações (mutações ou polimorfismos) nas se- lucionar um problema muito mais simples, ou seja, mi-
quências e, em alguns casos, permite a nimizar a distância entre dois resíduos já reconhecidos
identificação de relações entre variações no como equivalentes. Isso se dá por encontrar transfor-
DNA e susceptibilidade a determinadas doen- mações que satisfazem o menor desvio médio quadrá-
ças, beneficiando o campo da genética e áreas tico (RMSD) ou as equivalências máximas dentro de um
relacionadas. Adicionalmente, como um re- valor limite para o RMSD.
curso para a caracterização de eventos evo- Considerando que a estrutura das pro-
lutivos, os alinhamentos permitem análises teínas é mais conservada que a sequência, o
comparativas entre genomas. A abrangência alinhamento de estruturas confere maior es-
e importância evolutiva dos eventos de que- pecificidade ao alinhamento de sequências
bra e reparo de DNA, ou mesmo dos eventos quando comparado ao alinhamento de se-
de recombinação, inversões e translocações, quências independente de estrutura. A maio-
tem sido desvendados, primariamente, atra- ria dos métodos de sobreposição de
vés dos métodos de alinhamento. estruturas é adequado para identificar simi-
Além do alinhamento de sequências, o laridades entre estruturas proteicas. O ali-
alinhamento de estruturas constitui outra im- nhamento de duas ou mais estruturas,
portante ferramenta em estudos de bioinfor- porém, constitui uma tarefa mais difícil, e sua
mática. A metodologia é bastante diferente precisão depende tanto do método usado
daquela empregada em alinhamentos de se- quanto do objetivo do usuário.
quências, pois passamos de um problema uni-
dimensional para um problema 3.2. Alinhando sequências
tridimensional. Sua utilização passou a ser di-
fundida a partir de 1978, com o trabalho de À primeira vista, o processo de alinha-
Rossmann e Argos, comparando os sítios ati- mento entre diferentes sequências parece
vos de enzimas cujas estruturas eram conhe- simples e não sujeito a qualquer tipo de erro.
cidas até aquele momento. Os métodos de No entanto, esta afirmativa só é verdadeira
sobreposição simples de estruturas estão em casos onde os organismos envolvidos
disponíveis há mais tempo, tendo sido pro- possuem uma baixa taxa evolutiva (Figura 3a-
postos a partir da década de 1970, enquanto 3). Quando consideramos sequências homó-
os métodos de comparação e alinhamento se logas amostradas de organismos com alta
desenvolveram posteriormente, principal- taxa evolutiva, ou até mesmo sequências si-
mente a partir da década de 1990. milares, porém não homólogas, nos depara-
A comparação de estruturas se refere à mos com casos particulares que tornam o
análise de similaridades e diferenças entre processo de alinhamento complexo e, muitas
duas ou mais estruturas, enquanto o alinha- vezes, sujeito a uma interpretação especial-
mento de estruturas se refere à determina- mente subjetiva por parte do usuário (Figura
ção de quais aminoácidos seriam equivalentes 3b-3).
3. Alinhamentos
da análise. Contudo, até o momento não exis- e aplicadas para os mais diversos casos de
tem programas capazes de lidar com as lacu- comparação entre sequências de aminoácidos
nas de forma coerentemente biológica. (Figura 4b-3).
Apesar de sabermos que se tratam de even-
tos evolutivos comuns e bem caracterizados,
as incertezas sobre o número de eventos e
sua intensidade tornam as lacunas, em gran-
de parte dos casos, um fator de confusão pa-
ra análises de alinhamento.
Conforme mostrado na Figura 3-3, dife-
rentes alinhamentos são possíveis para um
mesmo grupo de sequências. A pergunta que
se segue é: como reconhecer o melhor resul-
tado quando nos deparamos com diversos Figura 4-3: Matrizes de custo utilizadas no
alinhamentos possíveis para um mesmo con- cálculo de pontuação dos alinhamentos. a)
junto de dados? Buscou-se resolver este pro- Matriz de custo exemplo utilizada para
blema através da criação de um sistema de cálculos de pontuação em alinhamentos de
pontuação para comparar os resultados de nucleotídeos. b) Matriz de custo BLOSUM62
diferentes alinhamentos. Caracteres idênticos utilizada para cálculo da pontuação em
em sequências diferentes representam igual- alinhamentos de aminoácidos.
dades ou correspondências (matches) e, por
serem resultados preferenciais durante o Ainda, é necessário que as lacunas de
processo de alinhamento, são pontuados po- alinhamentos recebam determinadas pontu-
sitivamente. Pelo contrário, caracteres não ações, pois são frequentemente encontradas
idênticos que ocupam a mesma coluna são em alinhamentos de dados biológicos. Se la-
chamados de desigualdades, ou mismatches, cunas podem ser adicionadas em qualquer
e recebem atribuições negativas. Como resul- posição sem qualquer restrição, tanto nas
tado, o melhor alinhamento possível para du- extremidades quanto no interior das sequên-
as sequências é aquele que maximiza a cias, é possível gerar alinhamentos com mais
pontuação total, somando os valores de lacunas do que propriamente caracteres a
matches e debitando os valores de serem comparados (Figura 3b-3, alinhamento
mismatches. 2). Com o intuito de prevenir inserção exces-
Do ponto de vista biológico, as mudan- siva, a adição de lacunas é penalizada durante
ças entre as bases nitrogenadas nas sequên- a atribuição da pontuação de uma sequência,
cias de nucleotídeos não ocorrem com a conforme um conjunto de parâmetros, cha-
mesma probabilidade (Figura 4a-3). Sendo mado de penalidades por lacuna (gap
assim, podemos atribuir valores de penalties, PL). A abrangência da lacuna é
mismatches diferentes às transições (trocas pontuada pelo respectivo número de indels
de purinas por purinas ou pirimidinas por piri- presentes no alinhamento. A fórmula mais
midinas) e às transversões (trocas de purinas comum para cálculo destas penalizações se-
por pirimidinas ou pirimidinas por purinas). gue abaixo:
Para sequências de aminoácidos, é necessário
escolher ativamente uma matriz de pontua- PL = g + e (L – 1)
ção específica. Essas matrizes são resultados
diretos de estudos de variação proteica e es- onde L é o tamanho da lacuna (número de
tão diretamente relacionadas à probabilidade indels presentes na lacuna), g é a penalidade
de substituição de um aminoácido por outro pela abertura da lacuna (necessária para evi-
(matrizes BLOSUM e PAM). Atualmente, as tar que os alinhamentos contenham lacunas
matrizes BLOSUM são as mais disseminadas desnecessárias) e e é a penalidade atribuída a
3. Alinhamentos
cada indel (novamente para evitar grandes enumerar todas as possibilidades. Os alinha-
lacunas sem necessidade). Os valores de pe- mentos gerados por estes programas são
nalidade por lacuna são desenhados para re- chamados heurísticos, e compreendem mé-
duzir a pontuação de um alinhamento quando todos aproximados de busca pelo resultado
este possui uma quantidade de indels desne- ótimo. Diferentes métodos foram criados pa-
cessária. Apesar da disseminação deste con- ra diferentes tipos de alinhamento (Figura 6-
ceito, não há qualquer relação matemática ou 3). Entre estes, devido à eficiência e à rapidez
biológica sustentando este cálculo. É impor- de processamento das informações de um
tante destacar que, através da propriedade de alinhamento, incluindo o cálculo de pontua-
“alinhamento livre de colunas em branco” (ou ção, os algoritmos de programação dinâmica
seja, gaps não são alinhados), as penalizações são, atualmente, os mais utilizados para este
ainda impedem o alinhamento de indels entre fim, tanto em alinhamentos simples como in-
as sequências envolvidas na análise. Assim, o tegrado aos algoritmos de alinhamentos
melhor alinhamento entre as sequências será múltiplos.
dado por um valor que resulta da soma dos É fundamental assumirmos, para a mai-
valores associados a cada um dos matches, or parte dos problemas em bioinformática, o
mismatches e lacunas, de acordo com um alinhamento como um modelo de relação
critério pré-definido (Figura 5-3). evolutiva entre as sequências envolvidas. E
O método de pontuação foi a solução como modelo, está sujeito à presença de cer-
encontrada para avaliar e classificar diferen- tos problemas na explicação dos eventos
tes alinhamentos em busca da melhor expli- evolutivos reais. Portanto, os alinhamentos
cação para a relação evolutiva entre as devem ser avaliados com extrema cautela. A
sequências. O próximo problema encontrado facilidade e a aparente simplicidade na análise
foi enumerar todas as possibilidades de ali- dos programas tornam o processo mecânico
nhamentos para um grupo de dados. Assu- e desvinculado de análises críticas pela maior
mindo-se duas sequências com tamanho de parte dos usuários. A associação dos méto-
100 caracteres cada, poderíamos enumerar dos de alinhamento a outras análises de bio-
até 1077 possíveis alinhamentos, diferentes informática tende a desvincular a real
entre si. A extensão de possibilidades inviabi- importância desta técnica e a coloca apenas
liza a enumeração de todos os casos devido como um procedimento, e não formalmente
ao tempo e ao requerimento de enorme pro- como uma técnica sujeita à análise crítica. Isto
cessamento destes dados. Apesar da exigên- pode ocasionar na obtenção de modelos in-
cia computacional, alguns algoritmos são corretos ou mesmo de falsos positivos.
capazes de realizar tal tarefa e ainda aplicar o
método de pontuação para cada um dos ca- 3.3. Tipos de alinhamento
sos, em busca do melhor resultado. No en-
tanto, estes algoritmos não são capazes de Em estudos de bioinformática, é comum
lidar com sequências que contenham mais compararmos moléculas de dois ou mais in-
que algumas dezenas de caracteres. Em vir- divíduos, sejam eles da mesma espécie ou de
tude da capacidade de explorar todas as so- espécies diferentes. Quanto maior o número
luções do problema, o processo realizado por de sequências comparadas, maior o tempo
estes algoritmos é chamado de “alinhamento exigido para conclusão do alinhamento e, de-
ótimo”. pendendo das sequências envolvidas, maior a
Contudo, em virtude da inerente demora dificuldade dos algoritmos em encontrar o
do processo, foi necessário desenvolver al- melhor resultado. Conforme a quantidade de
goritmos que acelerassem a busca de um ali- sequências envolvidas, podemos dividir os
nhamento capaz de explicar de maneira ótima alinhamentos em dois tipos: alinhamentos
os processos evolutivos para um determina- simples, ou par-a-par, e alinhamentos múlti-
do grupo de sequências sem, no entanto, plos, ou de múltiplas sequências (Figura 7-3).
3. Alinhamentos
Figura 7-3: Diferenças entre alinhamento local e global. a) Duas sequências de nucleotídeos de
tamanhos diversos são amostradas e alinhadas por algoritmos diferentes. b) No alinhamento
local, a prioridade é encontrar as regiões altamente similares, independentemente do tamanho
desta região. Neste caso, porções da sequência que não foram alinhadas com alta similaridade
foram excluídas do resultado final. c) No alinhamento global, as duas sequências são alinhadas
por completo, independentemente do número de lacunas que tenham que ser inseridas.
3. Alinhamentos
milaridade entre elas pode ser computado, um esquema de pontuação, seja ele referente
apresentamos três dos principais algoritmos a nucleotídeos ou aminoácidos. Da mesma
desenvolvidos para este fim: algoritmos de forma, é necessário fornecer um valor de pe-
programação dinâmica, análise de matriz de nalidade para a abertura e extensão das la-
pontos (dot matrix) e método de palavra ou k- cunas. A partir destas informações, o
tuple. algoritmo calculará uma relação entre todos
A programação dinâmica é, atualmente, os caracteres das sequências e fornecerá o
o método mais utilizado por programas para melhor alinhamento como resultado final.
realizar o alinhamento de sequências. Em ca- Como exemplo, consideraremos a Figu-
sos simples (par-a-par), é capaz de encontrar ra 8-3. São dadas duas sequências, sequência
o melhor alinhamento para duas sequências 1 e sequência 2, um esquema de pontuação e,
através da aplicação da pontuação de simila- para facilitar o entendimento do cálculo, um
ridades. É, portanto, um método de execução valor único de penalidade por lacuna de -8. O
relativamente rápida nos computadores mo- algoritmo toma as sequências e transforma a
dernos, requerendo um tempo e memória de relação entre elas em uma tabela, onde as li-
processamento proporcional ao produto do nhas são definidas pelos caracteres da se-
tamanho das duas sequências envolvidas. quência 01, e as colunas pelos caracteres da
O método é baseado no princípio de oti- sequência 02. A fim de permitir lacunas no
mização de Bellmann, e propõe a solução de início do alinhamento, o algoritmo impõe a in-
problemas complexos através da resolução serção de uma coluna e de uma linha iniciais
dos seus diversos subproblemas. Os subpro- contendo o símbolo de indel. A partir deste
blemas são resolvidos e seus resultados são ponto, para cada um dos elementos da ma-
armazenados pelo algoritmo. A vantagem triz, o algoritmo calculará a melhor pontua-
funcional da resolução em partes é que, ge- ção dos subcaminhos associados ao
ralmente, problemas complexos combinam alinhamento: uma substituição, uma inserção
uma série de subproblemas. Como o algorit- na sequência 01 ou uma inserção na sequência
mo acumula os resultados dos diferentes 2. Assim, o melhor subcaminho será calcula-
subproblemas, acelera a resolução do pro- do segundo uma função de pontuação, con-
blema complexo. Assim, a designação “pro- forme abaixo:
gramação” nada tem a ver com programação
de computadores, mas com a organização
dos resultados já solucionados para resolu-
ção de um problema maior. A partir do elemento (1,1) da matriz e ao
Conforme discutimos anteriormente, em longo da primeira linha, apenas a terceira
determinados casos, duas sequências podem condição é satisfeita (valor da célula à es-
apresentar diferentes alinhamentos. Se não querda + valor da penalidade por lacuna). Na
há indels e as sequências são similares, o ali- primeira coluna, apenas a segunda condição é
nhamento é rápido e não deixa dúvidas. No satisfeita. Para outros elementos, as três
entanto, quando existe certa diversidade en- condições devem ser calculadas e aquela que
tre as sequências envolvidas e uma quantida- resultar no maior valor é escolhida para for-
de suficiente de indels, a solução para o mar a matriz. Além disso, os procedimentos
alinhamento é menos óbvia visualmente. dos algoritmos de programação dinâmica po-
Nestes casos, os algoritmos de programação dem ser representados por pequenas setas
dinâmica buscarão solucionar os subproble- para indicar qual subcaminho obteve o melhor
mas envolvidos e fornecerão o melhor resul- valor (Figura 8-3).
tado. Outro método importante na área de
Para cálculo do melhor alinhamento en- alinhamento de sequências é a análise de ma-
tre duas sequências, o algoritmo de progra- triz de pontos ou matriz dot. É um método
mação dinâmica necessita da especificação de simples e bastante eficiente em análises de
3. Alinhamentos
forem menores serão descartadas. Considerando o ex- regiões de correspondência exata com distância menor
emplo anterior, se T = 13, PEG será mantida, enquanto que A na mesma diagonal serão unidas como uma nova
PQA será abandonada. região, mais extensa. Posteriormente, essas regiões
iv. Organizar as palavras de alta pontu- são estendidas da mesma maneira como ocorre no
ação. BLAST original, com os HSPs sendo pontuados com
As palavras remanescentes, com alta pontuação, base em uma matriz de substituição.
são organizadas em uma árvore de busca. Isso permite
que o programa compare as palavras com as sequên-
cias do banco de dados de maneira rápida.
v. Repetir os passos iii e iv para cada
palavra de k-letras originadas da se-
quência de busca.
vi. Varrer as sequências do banco de
dados em busca de correspondências
com as palavras remanescentes.
O BLAST realiza uma varredura das sequências de-
positadas no banco de dados, buscando pelas palavras
de alta pontuação (como PEG, no exemplo anterior). Se
uma correspondência exata for encontrada, ela será
empregada para nuclear um possível alinhamento sem Figura 12-3: Esquema da extensão de zonas
lacunas (gaps) entre a sequência de busca e a deposi- de correspondência entre sequências
tada no banco de dados. identificadas pelo BLAST.
vii. Estender as correspondências exa-
tas entre pares de segmentos de alta viii. Listar todos os HSPs do banco de
pontuação. dados cuja pontuação seja alta o sufici-
A versão original do BLAST estende o alinhamento ente.
para a esquerda e para a direita de onde ocorre uma Nessa etapa são listados todos os pares de seg-
correspondência exata. A extensão é parada apenas mentos cuja pontuação seja maior que um determina-
quando a pontuação acumulada pelo HSP começa a di- do ponto de corte S. A distribuição de pontuações
minuir (um exemplo pode ser visto na Figura 11-3). obtidas por alinhamento de sequências aleatórias é a
base para determinação desse ponto de corte.
ix. Avaliar a significância da pontuação
dos HSPs.
A avaliação estatística de cada par de segmentos de
alta pontuação explora a Distribuição de Valores Extre-
mos de Gumbel. O valor de confiança estatística e
apresentado pelo BLAST, chamado de valor de expec-
tativa, reflete o número de vezes que uma sequência
não relacionada presente no banco de dados pode ob-
ter, ao acaso, um valor maior que S (ponto de corte).
Figura 11-3: Exemplo do esquema de Ou seja, o e reflete o número de falsos positivos entre
pontuação empregado pelo BLAST. os resultados de similaridade encontrados. Para p < 0,1,
o valor e se aproxima da distribuição de Poisson (ver
Para acelerar o processo, a versão atual do BLAST item 4.8).
(BLAST2 ou Gapped BLAST) emprega um limiar mais x. Transformar duas ou mais regiões de
baixo para a vizinhança das palavras, mantendo a sen- HSP em um alinhamento maior.
sibilidade na detecção de similaridade de sequências. Em alguns casos, duas ou mais regiões de HSP po-
Assim, a lista de possíveis correspondências obtidas na dem ser combinadas em um trecho maior de alinha-
etapa iii é maior. Como observado na Figura 12-3, as mento (uma evidência adicional da relação entre a
3. Alinhamentos
Figura 13-3: Exemplo de um resultado de busca realizada pelo BLAST. Diferentes informações
são apresentadas: 1) representação gráfica de domínios conservados identificados na
sequência; 2) representação gráfica de matches, indicando qualidade do alinhamento e
cobertura das sequências identificadas; 3) informações estatísticas dos resultados encontrados,
incluindo identidade e valor e; 4) alinhamento de cada sequência encontrada com a sequência de
busca (query).
nhamento simplesmente levando em consi- a homologia destas sequências, dado que se-
deração as razões de chance de alinhamento quências não relacionadas podem conter si-
entre nucleotídeos quaisquer. Para isso, se- milaridades devido à evolução convergente.
quências de nucleotídeos ou aminoácidos são
geradas aleatoriamente, alinhadas em con- 3.9. Alinhamento de 2 estruturas
junto e avaliadas, segundo um determinado
esquema de pontuação. Para alinhamentos O alinhamento de estruturas é um pro-
globais, pouco se sabe a respeito destas dis- blema matematicamente complexo que só
tribuições randômicas. No entanto, felizmen- pode ser resolvido por algoritmos heurísticos.
te, estas técnicas são bem entendidas para A Figura 14-3 apresenta um exemplo de ali-
casos de alinhamentos locais e, atualmente, nhamento estrutural simples. Diferentes al-
são amplamente utilizadas para a avaliação goritmos oferecem resultados diferentes
de similaridade, especialmente em bancos de para o alinhamento, e algumas vezes essas
dados que comportam grande quantidade de diferenças são grandes. Por esse motivo é
sequências. importante testar diferentes programas de
Para analisar a probabilidade associada alinhamento estrutural. Cada um deles tem
a determinado alinhamento é necessário, ini- pontos fortes e fracos, que podem ser explo-
cialmente, gerar um modelo aleatório das se- rados a partir da leitura dos artigos que os
quências em análise. Esses novos propuseram originalmente.
alinhamentos serão pontuados seguindo um
determinado esquema de pontuação. Neste
contexto, será calculada a probabilidade de se
obter aleatoriamente uma pontuação pelo
menos igual à pontuação do alinhamento ori-
ginal. O valor associado aos múltiplos testes
realizados é chamado de valor e (e-value).
Para banco de dados, este valor corresponde
ao número de distintos alinhamentos, com
uma pontuação igual ou melhor, que são es-
perados ocorrer na busca por sequências si-
milares simplesmente por razões de chance
(aleatórios). Estes cálculos estatísticos levam
em consideração a pontuação do alinhamento
e o tamanho do banco de dados. Quanto me-
nor o valor e, menor o número de chances de
uma determinada sequência ser alinhada ale-
atoriamente com outras e, portanto, mais
significante é o resultado. Por exemplo, um Figura 14-3: Exemplo de alinhamento de duas
valor e de 1e-3 (1x10-3 ou 0,001) significa que estruturas proteicas, oriundas de diferentes
há a chance de 0,001 de que a sequência alvo organismos: hemoglobina humana e
seja alinhada com uma sequência aleatória do mioglobina de elefante-asiático.
banco de dados. Por exemplo, em um banco
de dados que contém 10.000 sequências, Existem três etapas essenciais para as
neste caso, esperaríamos encontrar até 10 diferentes estratégias de alinhamento estru-
outras sequências que alinharão significativa- tural: a representação, a otimização e a pon-
mente com a sequência alvo. É importante tuação. A representação se refere às
ressaltar que o fato de encontrarmos um va- maneiras de representar as estruturas de
lor e próximo de zero na comparação entre uma forma que não seja dependente de coor-
duas sequências não necessariamente denota denadas espaciais e que seja adequada ao ali-
3. Alinhamentos
obtida por um algoritmo baseado em programação di- CE-MC: realiza o refinamento de um conjunto de ali-
nâmica. A significância estatística não é calculada pelo nhamentos de pares de estruturas empregando uma
SALIGN e o usuário obtém apenas os valores da pontu- técnica de otimização de Monte Carlo. O algoritmo mo-
ação de dissimilaridade. O programa fornece, entre- difica o alinhamento múltiplo aleatoriamente, e as mo-
tanto, um valor adicional de qualidade, apresentado dificações são aceitas se houver melhoria na
como porcentagem de Cα cuja distância é menor que pontuação do alinhamento. O processo encerra quando
3,5 Å entre os pares de estruturas alinhadas. o alinhamento múltiplo não puder mais ser melhorado
por modificações aleatórias.
MAMMOTH-Mult: essa extensão do MAMMOTH gera
inicialmente todos os alinhamentos de estruturas aos
3.10. Alinhamento de >2 estruturas pares. Um procedimento de organização por médias é
empregado para agrupar as estruturas com base em
A maior parte dos métodos disponíveis suas similaridades aos pares, gerando uma árvore. O
para o alinhamento múltiplo de estruturas alinhamento múltiplo é gerado por reorganização des-
inicia-se estabelecendo todos os alinhamentos sa árvore, onde ramos similares vão sendo agrupados
entre pares de estruturas e, então, emprega- aos pares, iterativamente.
os para estabelecer um alinhamento consen- SALIGN: pode realizar alinhamentos múltiplos de
so entre todas as estruturas. A Figura 15-3 duas maneiras, baseado em uma árvore ou por alinha-
apresenta um exemplo de alinhamento estru- mento progressivo. O primeiro caso é muito similar ao
tural múltiplo. Os métodos para obter o ali- MAMMOTH-Mult. No alinhamento progressivo, as es-
nhamento consenso variam entre os truturas são alinhadas na ordem em que são forneci-
programas de alinhamento. A seguir apre- das para o programa. A vantagem desse método é o
sentamos as características específicas de de seu custo computacional ser menor que o do méto-
alguns dos métodos mais utilizados para o do baseado em uma árvore.
alinhamento de estruturas múltiplo.
3.11. Alinhamento flexível
O alinhamento de estruturas conside-
rando sua flexibilidade está se tornando cada
vez mais importante devido à melhor com-
preensão do enovelamento proteico. Cada vez
mais, percebe-se que não existem enovela-
mentos estanques, mas sim um gradiente
densamente populado por variantes confor-
macionais. Desta forma, torna-se mais difícil
definir domínios proteicos, sendo mais ade-
quado descrever as estruturas como conjun-
tos de estruturas supra-secundárias. Com
base nessa proposta, a diferença entre prote-
ínas relacionadas reside na orientação relativa
desses subdomínios. A Figura 16-3 demonstra
as diferenças que podem ser observadas ao
alinhar um par de estruturas de maneira rígi-
da ou flexível. A seguir apresentamos as ca-
Figura 15-3: Exemplo de alinhamento de racterísticas específicas de alguns dos
múltiplas estruturas proteicas, oriundas de métodos mais utilizados para este tipo de ali-
diferentes organismos (histonas H3 de nhamento de estruturas.
levedura, mosca-da-fruta, homem, frango, FATCAT: o algoritmo adiciona “torções” entre pares
sapo-de-garras). de fragmentos proteicos alinhados, que são tratados
3. Alinhamentos
3.12. Conceitos-chave
Algoritmo: sequência lógica de instruções ne-
cessárias para executar uma tarefa.
Figura 16-3: Comparação entre alinhamento Alinhamento Simples: alinhamento que envolve
estrutural rígido e flexível. A estrutura da apenas duas sequências ou estruturas.
proteína HasA (um captador bacteriano de
grupamentos heme) foi obtida para suas BLAST: Basic Local Alignment Search Tool (Fer-
formas intra- e extra-celular. Observe que o ramenta de Busca por Alinhamento Local
alinhamento rígido identifica similaridade Básico), empregado para buscar sequên-
parcial entre as estruturas, enquanto o cias em bancos de dados com base em
alinhamento flexível detecta o rearranjo sua similaridade.
espacial de parte da proteína, evidenciando
sua identidade. Homologia: é um termo essencialmente qualita-
tivo que denota uma ancestralidade co-
como corpos rígidos. De maneira geral, o programa mum de determinada sequência.
permite a inclusão dessas torções quando elas diminu-
em o valor final do RMSD, refletindo em um melhor HSP: pares de segmentos de alta pontuação
alinhamento estrutural. O alinhamento final é obtido (high-scoring segment pairs), zonas de
por programação dinâmica e se baseia na matriz de si- similaridade entre sequências identificadas
milaridade entre os fragmentos pareados, obtidos na pelo BLAST.
primeira etapa do cálculo.
FLEXPROT: mantém uma das proteínas rígida, en- Identidade: Porcentagem de caracteres similares
quanto a outra pode sofrer alterações em busca de entre duas sequências (excluindo-se as
maior similaridade estrutural. As regiões potencial- lacunas).
mente flexíveis da proteína são detectadas automati-
camente e empregadas nas alterações Indels: identifica inserções e deleções de carac-
conformacionais. teres ao longo do processo evolutivo.
ALADYN: alinha pares de estruturas com base em
sua dinâmica interna e similaridade entre seus movi- Lacunas: regiões identificadas por hifens que
mentos de grande escala. O posicionamento ótimo en- representam a inserção/deleção de carac-
tre as proteínas é encontrado ao maximizar as teres ao longo do processo evolutivo.
similaridades entre os padrões de flutuação estrutural,
que são calculados pelo modelo de redes elásticas. Matches: regiões que apresentam caracteres
POSA: uma variante do FATCAT para o alinhamento idênticos entre diferentes sequências.
múltiplo flexível de estruturas. Emprega uma metodo-
logia combinada, introduzindo grafos de ordem parcial Mismatches: regiões que apresentam caracteres
para visualizar e agrupar regiões similares entre as es- não idênticos entre diferentes sequências.
truturas.
3. Alinhamentos
programas de montagem atuais utilizam grafos de so- Tabela 1-4: Principais programas utilizados na
breposição ou grafos de Bruijn. Estes grafos identifi- montagem de genomas e transcriptomas.
cam reads com possibilidade de compartilharem Nome Análise
trechos de sobreposição entre si utilizando uma estra- ABySS grandes genomas
tégia baseada no alinhamento em sementes.
ALLPATHS-LG grandes genomas
Com esta abordagem, pequenos fragmentos de
comprimento fixo obtido de cada read, os k-mers, são Celera WGS Assembler grandes genomas
usados como um índice, e apenas pares de leituras que CLC Genomics genomas e
partilham uma semente são posteriormente avaliados. Workbench trancriptomas
Os grafos de Bruiijn baseiam-se na decomposição de Geneious genomas
reads em k-mers (por exemplo dodecâmeros, ou seja Newbler genomas e
fragmentos de 12 nucleotídeos), os quais são utilizados transcriptomas
como nodos destes grafos. Uma ligação direta entre os genomas e
Phrap
nodos indica que estes k-mers ocorrem consecutiva-
transcriptomas
mente em um ou mais reads.
SOAPdenovo genomas e
Uma série de programas foram desen-
transcriptomas
volvidos para a montagem de genomas, utili-
Staden gap4 package genomas pequenos e
zando diferentes algoritmos (Tabela 1-4). No
transcriptomas
caso de sequenciamento de genomas proca-
Trans-ABySS transcriptomas
rióticos, ao final do processo é esperada a
obtenção de uma sequência única, a qual re- Velvet genomas pequenos e
presenta toda a sequência nucleotídica do transcriptomas
cromossomo. Sabe-se, todavia, que plasmí-
deos podem ser encontrados em diversos mais de 3 bilhões de pares de base (ca-
micro-organismos. Assim o número de so do genoma humano).
contigs será dependente do número de plas-
mídeos e, em casos menos frequentes, do Para sobrepujar estas dificuldades, pas-
número de cromossomos presentes naquela sos intermediários se tornam necessários,
bactéria. como a construção de sub-bibliotecas genô-
Ao ser analisado o genoma de organis- micas. Cada uma destas sub-bibliotecas é se-
mos eucariotos, nos quais se encontra uma quenciada, de forma a gerar contigs. O
grande variação no número de cromossomos, conjunto de diferentes contigs oriundos de di-
um número maior de contigs é esperado. Te- ferentes sub-bibliotecas será utilizado para a
oricamente, cada cromossomo deveria ser geração de scaffolds (Figura 1-4). Geralmen-
representado por um contig. Entretanto, nos te, são necessários passos adicionais de clo-
passos iniciais de montagem de genomas são nagens de regiões específicas do genoma e
observados dezenas a centenas de contigs, posterior sequenciamento destas para o “fe-
dependendo da complexidade do organismo chamento” do genoma.
cujo genoma esta sendo sequenciado. Os ge- Um dos maiores desafios, entretanto, para o se-
nomas de eucariotos, em especial de eucari- quenciamento de genomas reside na adequada monta-
otos superiores, possuem pelo menos duas gem de regiões repetitivas. No genoma humano, por
características que tornam o processo de exemplo, existem pelo menos seis classes de sequên-
montagem mais complexo: cias repetitivas:
i) uma quantidade considerável de se- i) minissatélites, microssatélites ou satélites;
quências repetitivas que dificulta o pro- ii) SINEs (elementos nucleares pequenos inter-
cesso de montagem devido a calados);
alinhamentos de alto escore com diver- iii) LINEs (elementos nucleares longos intercala-
sas sequências; dos);
ii) o seu tamanho, podendo chegar a iv) transposons;
4. Projetos Genoma
cDNA, obtido a partir de transcrição reversa lação à porção do genoma que contém um gene. Al-
de RNA. A grande maioria dos trabalhos se dá guns dos programas para este tipo de mapeamento in-
em torno de RNAm mas, cada vez mais, RNAs cluem Bowtie, Tophat e SOAP, dentre outros. Como
não codificantes, com possível papel regula- resultado, uma determinada sequência do genoma é
tório, estão sendo avaliados por esta meto- representada por um grande número de reads, no caso
dologia (ver abaixo). O pool de cDNAs pode de genes mais expressos, ou um baixo número de
então ser subclonado e ser submetido ao se- reads, no caso de genes menos expressos.
quenciamento pela metodologia de Sanger ou Deve ser levado em consideração, entretanto, que
diretamente fragmentado e ser submetido ao quanto maior o tamanho do gene mais se espera en-
sequenciamento NGS. Uma grande lista de contrar reads associados a este gene. Desta forma, a
reads é então obtida, os quais podem ser uti- maneira mais comum para se calcular a expressão re-
lizados para realizar a montagem do trans- lativa de um determinado gene é o RPKM (reads per ki-
criptoma de novo ou ser ancorados a lobase of transcript per million mapped reads – reads
sequência de um genoma para ajudar na por kilobase de transcrito por milhões de reads mape-
identificação de sequências codificantes e de ados). Esta abordagem permite uma análise compara-
extremidades éxon/íntron. tiva baseada em uma série de análises estatísticas para
No caso da montagem de novo, os comparação de transcritos com diferentes RPKMs de
reads são alinhados e aqueles que apresen- diferentes amostras biológicas ou diferentes tempos
tam alinhamento positivo são fusionados, de tratamento, por exemplo.
dando origem a contigs. Entretanto, diferen- Quando são considerados organismos cujo genoma
temente da análise de genomas, muitos ainda não foi determinado, uma construção do trans-
contigs são gerados, cada um possivelmente criptoma a partir de dados de RNAseq é realizada (de
representando um mRNA maduro. novo). A partir das sequências dos transcritos gerados,
Adicionalmente, alguns programas po- é possível então fazer o cálculo do RPKM de cada
dem, além de realizar a montagem de trans- transcrito identificado.
criptomas ou alinhamento a genomas, fazer
uma análise da representatividade de cada 4.4. Identificação/anotação gênica
transcrito dentro do conjunto total de RNA
analisado, por meio do cálculo da frequência A anotação de genomas é o passo se-
relativa de cada transcrito identificado. Com guinte à montagem dos genomas. Trata-se de
estes cálculos é possível realizar análises de um conjunto de protocolos e fluxos de traba-
expressão diferencial de genes. Dentre os pa- lho utilizados para delimitar, em uma deter-
cotes de programas utilizados, podem ser ci- minada sequência genômica, possíveis genes
tados Cufflinks-Cuffdiff, DegSeq, DESeq, e predizer a sua função com base na similari-
EdgeR, entre outros. dade com sequências conservadas. Basica-
A análise desta expressão relativa de transcritos mente, existem dois grande grupos de genes
pode ser realizada com base em duas estratégias prin- avaliados nestas metodologias. O primeiro
cipais: grupo se refere àqueles cujo produto é reco-
i) mapeamento a uma sequência genômica pre- nhecido pelos ribossomos e dará origem a
viamente conhecida; uma proteína (ou seja, RNAm). Já o segundo
ii) análise de novo, independente da sequência engloba os genes cujo produto terá funções
genômica e baseada na montagem dos transcri- estruturais e funcionais dependentes da pró-
tos diretamente a partir dos reads. pria molécula de RNA, como RNAt e RNAr. Di-
ferentes abordagens são utilizadas para
Na primeira estratégia, os reads são mapeados ao identificar as sequências de cada um destes
genoma, ou seja, as regiões de identidade nucleotídica grupos de genes, como será visto abaixo.
são ancoradas à sequência genômica, sendo identifica-
das por metodologias de sequenciamento que levam
em consideração o número de reads mapeados em re-
4. Projetos Genoma
Figura 3-4: A simples procura de ORFs pode gerar resultados falso positivos na procura de
genes em organismos procarióticos. Como exemplo, uma sequência de DNA de 2357 pb da
bactéria E. coli HS (nucleotídeos 3027764 ao 3030120 – Código de Acesso junto ao NCBI
NC_009800.1), o qual contém o gene xdhA, foi avaliada quanto à presença de ORFs com mais
de 150 pb com o programa ORF Finder. A sequência anotada do gene encontra-se em vermelho,
ao passo que as possíveis ORFs estão demarcadas em azul.
4. Projetos Genoma
cleotídeos que compõem as extremidades cer sequências codificantes. Com base nos
conservadas 5’ e 3’ do íntron, mais comu- mecanismos discutidos acima, dois principais
mente GT e AG (ver abaixo). sistemas para procura de genes em genomas
Já os detectores de conteúdo classifi- de eucariotos foram construídos, denomina-
cam a sequência de DNA em codificante e dos empírico e ab initio.
não-codificante. Como região não-codificante
entendem-se íntrons, regiões intergênicas e Procura empírica de genes
regiões não traduzidas dos genes. Os detec-
tores de conteúdo podem ainda ser subdividi- A predição empírica ou baseada em evi-
dos em detectores extrínsecos e detectores dência leva em consideração buscas por si-
intrínsecos. Os detectores de conteúdo ex- milaridade com outros bancos de dados
trínsecos se baseiam no fato de que regiões (genômicos, transcritômicos ou proteômicos)
codificantes são mais conservadas em rela- para identificar e delimitar as sequências gê-
ção às não-codificantes propiciando, desta nicas. Métodos de identificação de genes ba-
forma, a identificação de éxons conservados seados em similaridade são considerados de
com base em procuras por homologia. alta confiabilidade para localizar e construir
O mecanismo básico desta busca é modelos gênicos, desde que existam relatos
através do programa BLAST (ver capítulo 3). prévios de estruturas gênicas do próprio or-
Contudo, uma limitação nesta metodologia se ganismo (como, por exemplo, sequências de
refere à avaliação adequada da presença de RNAm) ou baseado em análises de conserva-
ortólogos diretos. Desta forma, a distância fi- ção provenientes de alinhamentos de geno-
logenética (isto é, evolutiva, ver capítulo 5) mas de espécies filogeneticamente
entre o organismo cujo genoma está sendo relacionadas.
analisado e aqueles organismos cujas se- Especialmente para o caso de organis-
quências estão depositadas nos bancos de mos eucarióticos, alinhamentos de sequências
dados pode influenciar diretamente no resul- oriundas de bancos de dados de proteínas ou
tado. de transcritos contra o genoma em anotação
Detectores de conteúdo intrínseco, por permitem aferir que, geralmente, os gaps
sua vez, tem como foco principal algumas constituem os íntrons. Esta premissa é fre-
características inatas do DNA, as quais per- quentemente acompanhada pela observação
mitem a predição do potencial de uma se- de que as sequências limítrofes dos íntrons
quência codificar ou não uma proteína. Como identificados constituem os dinucleotídeos
exemplos de características avaliadas em de- consenso GT e AG, característicos sítios 5’ e
tectores intrínsecos podem ser citados: 3’ dos íntrons. Estes alinhamentos geram
i) em muitos organismos há uma prefe- forte evidência dos componentes das estru-
rência das bases G ou C em relação às turas dos genes, muitas vezes definindo
bases A ou T na terceira posição do có- completamente a localização de cada éxon e
don; cada íntron (Figura 4-4).
ii) a utilização diferencial de códons si-
nônimos, ou seja, diferentes códons que Procura ab initio de genes
codificam para o mesmo aminoácido;
iii) frequência de distintas sequências A predição ab initio, por sua vez, depen-
nucleotídicas hexaméricas; de tanto da informação de detectores de si-
iv) a periodicidade de ocorrência de ba- nais quanto de conteúdo para delimitar a
ses, dentre outros. sequência gênica. Para tal, os algoritmos que
se valem desta estratégia utilizam redes neu-
Estes caracteres são utilizados, por rais, transformadas de Fourier e, mais comu-
exemplo, em modelos de Markov para a mente, modelos de Markov. Para realizar
construção de modelos capazes de reconhe- estas detecções, os algoritmos são treinados
4. Projetos Genoma
Figura 4-4: Identificação de genes baseada em evidência. Utilizando BLASTn com base em dados
de transcritoma (cDNA, em azul), pode ser alcançada uma aproximação da sequência do gene
(vermelho), inclusive permitindo a delimitação de éxons e íntrons. As regiões de identidade
estão delimitadas por traços verticais. Com base na sequência de íntrons (quadros na porção
inferior), é possível construir modelos para sua predição. Modelo construído com base no gene
F10E9.5 de Caenorhabditis elegans (código de acesso NCBI NC_003281).
4. Projetos Genoma
ção de fluxos de trabalho que integram dife- ficantes - RNAnc (RNAt, RNAr, dentre outros)
rentes ferramentas para analisar o resultado ainda não apresenta um grande número de
da predição de cada gene, conferindo uma programas quando comparada às estratégias
anotação geral (Figura 7-4). disponíveis para anotação de genes codifican-
tes de proteínas. Isto se deve, principalmente,
4.5. Identificação/anotação RNAnc à grande heterogeneidade e à pequena con-
servação dos RNAnc quando comparados a
Considerando o dogma central da biolo- sequências de proteínas. Ao contrário de ge-
gia molecular, no processo de síntese proteica nes codificantes de proteínas, RNAnc geral-
(tradução) há a participação direta de pelo mente não apresentam conservação de
menos três classes distintas de RNAs: sequência 1ária, dificultando a detecção destes
i) o RNA mensageiro, que servirá de genes.
molde para síntese da proteína; Um dos mecanismos mais utilizados na
ii) o RNA ribossômico que, como indica o busca de RNAt em genomas é o tRNAscan-SE.
nome, é um componente estrutural e Este algoritmo se baseia em uma série de
funcional dos ribossomos; cálculos estatísticos que avaliam, entre ou-
iii) o RNA transportador, que funciona tros parâmetros, o potencial local para for-
como adaptador, carreando aminoáci- mação das estruturas 2árias típicas de tRNAs
dos para serem incorporados na cadeia em forma de trevo, assim como a presença
nascente da proteína durante o proces- de bases invariantes que definem regiões
so de tradução. conservadas presentes nos promotores des-
tes genes. Outro mecanismo de busca de
A anotação de genes de RNAs não codi- RNAts se refere ao algoritmo ARAGORN. A
4. Projetos Genoma
car as classes distintas: não codificam proteí- nhar um papel funcional, regulando a expres-
nas (apesar de alguns serem originados de são gênica em vários níveis. Devido ao papel
regiões codificadoras), possuem tamanho va- de forte regulador da expressão gênica, muita
riando entre poucas dezenas de nucleotídeos, atenção tem sido dada aos pequenos RNAs,
suas rotas de biogênese e seus papéis funcio- com um número crescente de trabalhos sen-
nais. do feitos relacionando estes com patologias e
Os pequenos RNAs fazem parte de um controlando processos básicos do desenvol-
grupo de pequenas moléculas, sendo conhe- vimento.
cidos há décadas, e inicial e erroneamente O RNAi, algumas vezes denominado de
creditados como produtos de degradação de “silenciamento gênico”, é um mecanismo que
RNA, não possuindo um papel biológico espe- induz a diminuição da expressão gênica de um
cífico. Com a identificação do fenômeno de si- transcrito alvo através da clivagem do trans-
lenciamento gênico (RNAi) foi observado que crito alvo e sua posterior degradação, ou
pequenos RNAs poderiam, de fato, desempe- através da repressão da maquinaria de tra-
dução. Estes mecanismos são denominados
também de Silenciamento Gênico Pós-Trans-
cricional (PTGS – no inglês) (Figura 8-4). Exis-
tem adicionalmente alguns pequenos RNAs
que induzem silenciamento gênico em nível
transcricional, ligando-se em regiões de DNA,
impedindo sua transcrição. Este mecanismo é
denominado de Silenciamento Gênico Trans-
cricional (TGS – no inglês).
As metodologias de sequenciamento de
alta eficiência tem auxiliado de maneira con-
tundente na caracterização de pequenos
RNAs, sendo que variações de protocolos
também possibilitaram validar alvos (técnica
de degradoma) e identificar pequenos RNAs
associados com proteínas específicas (se-
quenciamento de ácidos nucleicos associados
a proteínas imunoprecipitadas).
Existe uma grande diversidade de pe-
quenos RNAs em células eucarióticas, sendo
os principais listados na Tabela 4-4. Dentre
estas, os microRNAs são a classe de peque-
nos RNAs melhor descrita. Caracterizam-se
por serem transcritos a partir de genes MIR,
geralmente intergênicos, por uma RNA poli-
merase II, resultando em um pri-miRNA, o
qual recebe um 5'-CAP e um 3'-poli-A. Este
pri-miRNA é processado por um complexo
proteico, denominado D-body, o qual é or-
questrado por uma enzima classicamente de-
nominada DICER ou DROSHA (RNAses classe
III), resultando na liberação do pré-miRNA.
Este apresenta estrutura em forma de gram-
Figura 7-4: Um fluxo de trabalho genérico po devido à alta complementaridade que suas
para anotação de genes. extremidades 5' e 3' possuem. O pré-miRNA é
4. Projetos Genoma
novamente processado por uma enzima sário uma RNA polimerase dependente de
DICER, liberando o microRNA maduro, dupla- RNA, a qual utiliza o microRNA como iniciador
fita, de aproximadamente 20 nucleotídeos de da transcrição e a sequência transcrito alvo
comprimento, o qual é reconhecido por uma como molde. O longo RNA dupla-fita resul-
enzima ARGONAUTA e direcionado ao PTGS tante é reconhecido também por uma enzima
(Figura 9-4). DICER, a qual cliva o tasiRNA, resultando na
Outra classe bastante estudada se re- sua forma madura (aproximadamente 20 nt).
fere aos siRNA (small interfering RNAs), os Os siRNAs são reconhecidos por enzi-
quais tem a biogênese bastante variada, po- mas argonautas e podem tanto induzir o si-
dendo ser derivados de regiões de sobreposi- lenciamento gênico por PTGS, mas também o
ção de genes em orientação inversa remodelamento de cromatina, controlando a
natsiRNAs (natural anti-sense small expressão gênica em nível trancricional (TGS).
interfering RNAs). A transcrição de ambos A interação entre microRNAs e transcrito alvo
transcritos resulta em uma região de dupla- é a melhor caracterizada, não sendo neces-
fita complementar, a qual é reconhecida por sário uma complementariedade perfeita entre
uma enzima DICER que cliva o natsiRNA, re- o microRNA e transcrito alvo, apesar disto ser
sultando na sua forma madura (aproximan- mais comum em plantas. Em animais existe
damente 24 nt). uma região de maior complementariedade
Existem também os tasiRNA (trans- denominada seed a qual se localiza entre a 2a
acting small interfering RNAs), derivados do e 7a bases no microRNA, e está relacionada à
processamento do transcrito alvo de um mi- especificidade do microRNA com seu trans-
croRNAs. Para a síntese de tasiRNA, é neces- crito alvo. Outra característica é o fato de ha-
Figura 8-4: Mecanismo de PTGS. A) clivagem: 1, uma proteína argonauta reconhece uma fita do
pequeno RNA; 2, O microRNA associado com uma argonauta reconhece um transcrito alvo; 3,
ocorre a clivagem do transcrito alvo na posição medial do microRNA; 4, degradação do
transcrito alvo clivado por nucleases. B) repressão da tradução: 1, uma proteína argonauta
reconhece uma fita do pequeno RNA; 2, o microRNA associado com uma argonauta reconhece
um transcrito alvo; 3, ocorre repressão da maquinaria de tradução.
4. Projetos Genoma
ver pareamento guanina – uracila (G-U), tam- bastante comum laboratórios que pesquisam
bém denominado de wobble entre o transcri- pequenos RNAs desenvolverem suas próprias
to alvo e o microRNA (Figura 9-4). ferramentas.
Existem dois desafios principais no em- Já os programas de predição de alvos de
prego da bioinformática a pequenos RNAs. O microRNAs e siRNAs podem ser baseadas em
primeiro é relativo à identificação da região, ferramentas como o BLAST, procurando re-
ou precursor, que dá origem ao pequeno RNA. giões complementares ao pequeno RNA. O
O segundo envolve a identificação dos genes problema é que esta técnica gera um número
alvos regulados por estes. As metodologias muito grande de falsos-positivos. Com isso,
de identificação da região que resulta no pe- algumas ferramentas começaram a utilizar
queno RNA variam com a classe de pequenos outros aspectos envolvidos na interação entre
RNAs e estão intimamente relacionadas às pequenos RNAs e transcritos alvos, tais como
suas biogêneses. características energéticas, a presença da re-
Os microRNAs são a classe melhor ca- gião seed (em humanos), o pareamento per-
racterizada, de forma que há uma maior dis- feito entre 10-11 pares de base do microRNA
ponibilidade de ferramentas para identificação (válido somente para PTGS, por clivagem) e a
destes, como os algoritmos miRTools, conservação de microRNAs e transcritos alvo
miRDeep, miRExpress, miRAnalyser e miRCat. em organismos diferentes.
A funcionalidade geral destes programas se Mesmo assumindo estas regras, exis-
baseia na análise de reads de sequenciamento tem muitas interações entre microRNA e
de bibliotecas de pequenos RNAs e na delimi- transcrito alvo que são excluídas, e muitas
tação das regiões de ancoramento com o ge- falsas que são incluídas, fazendo como que
noma. Com base no conjunto de sequências seja necessário a validação experimental
ancoradas, são realizados cálculos para ava- desta interação. Especialmente para organis-
liação da estabilidade da possível estrutura mos modelo, existem bancos de dados pró-
em forma de grampo gerado pelo transcrito. prios que disponibilizam, baseados em
Para as demais classes, não existe uma ferramentas de predição, os possíveis alvos
metodologia padrão, sendo que variações da para um determinado miRNA. Um importante
ferramenta BLAST são geralmente utilizadas. banco de dados é o microRNA.org, cujas pre-
Para a identificar siRNAs, por exemplo, pode- dições foram realizadas pelo algoritmo
se empregar a ferramenta SiLoCo. Mas é miRanda.
4. Projetos Genoma
nâmico e mudou muito desde sua primeira são usadas para descrever a dinâmica das
definição. Além disso, genes podem sofrer di- mudanças em uma linhagem ao longo de vá-
ferentes processos evolutivos que alteram rias gerações.
sua estrutura e/ou função, como mutações e As taxas evolutivas são empregadas
rearranjos, ou ainda duplicações e perdas de quando se buscam estimativas temporais pa-
função. Esses fatores fazem com que a rela- ra datação de eventos evolutivos. Normal-
ção 1:1 entre gene e organismo seja perdida. mente, se assume que as mudanças nas
Por exemplo, uma mesma leguminosa pode sequências se acumulam a uma taxa mais ou
possuir duas cópias do gene para a proteína menos constante ao longo do tempo. Esse
leghemoglobina (genes parálogos). Além dis- conceito é chamado de Hipótese do Relógio
so, muitas sequências do genoma não che- Molecular. Entretanto, é conhecido que as ta-
gam à etapa de tradução, podendo conter xas evolutivas são dependentes de vários fa-
elementos regulatórios ou transponíveis. Tais tores, tais como o tempo de geração, o
variações aumentam a complexidade e difi- tamanho da população e do próprio metabo-
cultam a interpretação das relações de des- lismo, o que normalmente viola o modelo es-
cendência. trito de relógio molecular. Com base nestas
informações, diversos modelos foram pro-
5.2. Aplicações postos para lidar com desvios no comporta-
mento temporal de diferentes linhagens
Ao classificarmos os organismos, atri- moleculares e, hoje em dia, são referidos co-
buímo-lhes uma história evolutiva. Essa his- mo relógios moleculares relaxados.
tória, entretanto, é frequentemente Atualmente, a inferência filogenética é
desconhecida. Sendo assim, é necessário in- um campo de pesquisa à parte das outras ci-
ferir a sequência de mudanças que levaram ências. Tornou-se uma ferramenta comple-
ao surgimento de um novo organismo ou pro- mentar para diversas áreas e indispensável
teína. Contudo, existe apenas uma história para outras. Apesar de ter sido idealizada pa-
verdadeira, que talvez jamais seja conhecida. ra desvendar apenas as relações evolutivas
Assim, ao empregarmos as técnicas filogené- entre organismos, atualmente a filogenética
ticas, o objetivo é coletar e analisar dados ca- molecular é aplicada a problemas muito mais
pazes de fornecer a melhor estimativa para diversos que este. Com o advento do relógio
chegarmos à filogenia verdadeira. De certa molecular estrito, foi possível aplicar a esti-
forma, a obtenção de filogenias lembra a atu- mativa de tempo às filogenias e datar surgi-
ação de um historiador. Baseando-se em da- mento de espécies, disseminação de
dos disponíveis no presente (tais como organismos e, até mesmo, entender grandes
organismos vivos, fósseis e sequências mole- eventos biológicos que ocorreram no passa-
culares), tenta-se obter uma imagem de co- do. Com a abordagem relaxada do relógio
mo teria sido o passado. molecular, iniciou-se a utilização de modelos
Quando analisamos sequências de nu- de dinâmica populacional que comportam os
cleotídeos ou aminoácidos para inferir uma fi- eventos coletivos de grupos específicos. Ain-
logenia, utilizamos informações derivadas das da, com o avanço da capacidade de processa-
taxas evolutivas para determinar a sequência mento computacional, vem sendo possível
de eventos que levaram ao surgimento de no- criar algoritmos capazes de reconstruir ge-
vos organismos. A taxa de evolução molecu- nomas ancestrais. Também a partir da filoge-
lar refere-se à velocidade na qual os nética molecular desenvolveu-se o campo da
organismos acumulam diferenças genéticas filogeografia. Segundo esta área do conheci-
ao longo do tempo. Essa taxa é frequente- mento, as filogenias podem ser utilizadas pa-
mente definida pelo número de substituições ra verificar a distribuição geográfica de
por sítio (ou posição no alinhamento de se- indivíduos. Neste contexto, outras técnicas,
quências) por unidade de tempo e, portanto, além das filogenias, são incorporadas às aná-
5. Filogenia Molecular
Figura 7-5: Representação esquemática das recombinações que originaram o vírus Influenza
envolvido no surto de gripe suína em 2009. Diferentes linhas representam diferentes regiões
do genoma do vírus. Observe a interação entre vírus de origens aviária, suína e humana em
eventos que datam, pelo menos, desde 1990. Os eventos de recombinação e as análises
temporais foram baseadas em análises filogenéticas (Adaptado de Smith e colaboradores,
Origins and evolutionary genomics of the 2009 swine-origin H1N1 influenza A epidemic. Nature,
459, 1122-1125, 2009).
ainda não é factível colocá-los como compo- as mudanças nas sequências de nucleotídeos
nentes de modelos que expliquem inteira- de forma independente (Figura 8-5). Uma
mente o processo evolutivo. medida tradicional para expressar o número
Assim, devido à grande relevância dos de substituições de nucleotídeos que se acu-
mecanismos de substituição para a evolução mularam nas sequências desde a divergência
dos genomas em diferentes organismos e da é chamada de distância genética. Esta infor-
disponibilidade de modelos de probabilidade mação é uma medida quantitativa da dissimi-
estatística que expliquem este processo, as laridade genética entre diferentes OTUs, e
trocas têm sido o principal alvo para o de- permite estabelecer uma estimativa relativa
senvolvimento de modelos matemáticos e da quantidade de mudanças que ocorreram
compõem a base de diversos métodos de in- desde a divergência.
ferência filogenética. A distância é também um importante
Após a divergência de duas sequências a conceito na construção de filogenias, pois está
partir de seu ancestral comum, de forma di- diretamente relacionada com a relação evo-
cotômica, fenômenos evolutivos garantirão lutiva entre duas OTUs: uma menor distância
5. Filogenia Molecular
parâmetros utilizados para explicar estas substitui- cria as variáveis α e β para representar, respectiva-
ções. Devido à influência do modelo de substituição na mente, as taxas de transição e de transversão. Apesar
inferência de filogenias, a escolha de um método parti- da inclusão de dois parâmetros, as frequências de
cular deve ser justificada. A estratégia mais simples é equilíbrio se mantêm constantes em ¼ para cada nu-
utilizar os modelos que comportam o maior número de cleotídeo. Em 1981, Kimura adiciona um terceiro parâ-
variáveis, embora a complexidade não esteja direta- metro (γ) ao modelo já proposto, passando a ser
mente relacionada à melhor qualidade de análise das identificado como K3P. A atualização do modelo permi-
sequências. Com o aumento de parâmetros, o sistema tiu dividir as taxas de transversão em duas variáveis.
se torna mais complexo, aumentando a probabilidade Alguns genomas apresentam uma grande quanti-
de erro e exigindo um maior processamento computa- dade de guaninas e citosinas em relação a timinas e
cional. Assim, é necessário verificar os alinhamentos adeninas. Se algumas bases são mais frequentes que
caso-a-caso para atribuir o melhor modelo de substi- outras, será esperado que algumas substituições
tuição na inferência filogenética. ocorram com mais frequência que outras. O modelo
A substituição de nucleotídeos ou aminoácidos em criado por Felseinstein (F81) acomoda essas observa-
uma sequência é usualmente modelada sob a forma de ções e permite que as proporções individuais de cada
um processo quase aleatório. Devido ao caráter dinâ- nucleotídeo (frequência estacionária) sejam diferentes
mico desta aleatoriedade, é necessário enquadrar as de ¼. É importante ressaltar que este modelo conside-
substituições, seguindo certos pressupostos. Assim, as rará a mesma proporção de bases em todas as se-
substituições são descritas por um processo de Mar- quências envolvidas no alinhamento. Se diferentes
kov homogêneo, onde a probabilidade de substituição sequências possuem diferente composição de bases, a
de um nucleotídeo X pelo Y não depende do estado pressuposição principal do modelo será violada.
prévio do nucleotídeo X. O modelo HKY85, proposto por Hasegawa, Kishino
As probabilidades de mudança de um nucleotídeo e Yano, essencialmente mistura os modelos K2P e F81.
para outro (ou de um aminoácido para outro) são es- Além de supor que a frequência das bases é variável,
pecificadas através de uma matriz 4x4 das taxas de este modelo permite que transições e transversões
substituição (ou 20x20 no caso dos aminoácidos) que ocorram com taxas diferentes.
especificam com qual taxa cada um dos nucleotídeos Posteriormente, o modelo GTR (generalised time-
ou aminoácidos poderá mudar para outro. É necessário reversible), o mais complexo dos modelos aqui apre-
assumir também que os eventos de substituição sejam sentados, foi desenvolvido a partir do HKY85 com o in-
independentes ao longo dos sítios das sequências, e tuito de acomodar diferentes taxas de substituição e
ainda, possuam um caráter reversível. Além disso, de- diferentes frequências de bases. Este modelo requer
vem especificar a frequência estacionária dos nucleotí- seis parâmetros para taxa de substituição e quatro pa-
deos, ou frequência de equilíbrio, onde será atribuída a râmetros para a frequência das bases, misturando to-
provável proporção de cada um dos caracteres na se- dos os modelos aqui descritos.
quência. Atualmente, além destes mais de 200 modelos de
Para sequências de nucleotídeos, o modelo de substituição podem ser aplicados a alinhamentos de
substituição mais simples foi proposto por Jukes e nucleotídeos. Alguns programas, como Modeltest e
Cantor em 1969 (JC69). Segundo este modelo, as mu- Jmodeltest, são capazes de selecionar o modelo de
danças entre os nucleotídeos podem ocorrer com a substituição que melhor se ajusta a um dado alinha-
mesma probabilidade, assumindo uma frequência es- mento.
tacionária igual para todos (cada nucleotídeo tem 25% Uma importante extensão desses modelos de
de chance de ocorrer na sequência). substituição incorpora a possibilidade de variação nas
Com o advento da publicação das primeiras se- taxas evolutivas entre os sítios, permitindo ao modelo
quências de genoma mitocondrial, na década de 1980, mais realismo. Assim, para cada sítio no DNA será atri-
se observou que as transições eram muito mais co- buída uma probabilidade de evolução a uma taxa conti-
muns que as transversões. Devido à uniformidade do da em um intervalo discreto de probabilidades. O
método proposto por Jukes e Cantor, foi necessário método que garante a heterogeneidade de taxas evo-
criar um modelo que acomodasse essas diferenças. lutivas é modelado através de uma distribuição gama
Assim, o modelo proposto por Kimura (K80 ou K2P) (Γ), que considera um número específico de taxas de
5. Filogenia Molecular
vores, aquela que explica as relações evoluti- ao tempo e à exigência computacional, os métodos
vas de forma mais precisa. heurísticos são preferidos aos exatos. No entanto,
Assim, os métodos qualitativos envol- qualquer um deles pode ser aplicado aos métodos
vem algoritmos que atribuem um critério de qualitativos de inferência filogenética. Como desvanta-
otimização para escolher a melhor filogenia. gem dos métodos qualitativos, repetidos processos de
Nestes métodos, diversas filogenias são procura em um mesmo conjunto de sequências podem
construídas e, seguindo um critério definido levar a resultados diferentes, dependendo da árvore
pelo algoritmo utilizado, uma filogenia será que é construída inicialmente pelo algoritmo.
identificada como a que melhor explica a re- Os métodos exatos buscam todas as filogenias
lação evolutiva entre os OTUs. O critério é possíveis para um grupo de sequências. O funciona-
utilizado para atribuir um valor a cada filoge- mento destes métodos geralmente envolve a seleção
nia e ordená-las segundo este valor. aleatória inicial de três OTUs para a construção de uma
Estes métodos têm a vantagem de re- árvore filogenética não enraizada. Por tentativa, um a
querer uma função explícita para escolha das um, novas OTUs, também tomadas aleatoriamente do
filogenias, sendo portanto independente da alinhamento, são inseridas em diferentes posições na
escolha do operador. No entanto, devido ao árvore. Esse procedimento é repetido até todos os tá-
caráter de sua análise, são métodos mais re- xons serem inseridos, garantindo que todas as filogeni-
finados e intrinsecamente mais demorados as possíveis para o alinhamento dado sejam geradas.
computacionalmente. Três critérios de otimi- A partir da aplicação de um critério de otimização
zação são tradicionalmente empregados na (dado pelo método qualitativo) para classificar as filo-
inferência de filogenias: (a) Máxima Parcimô- genias e ordená-las segundo este valor, é possível or-
nia, (b) Máxima Verossimilhança e (c) Inferên- ganizar um espaço virtual que contém todas as
cia Bayesiana. filogenias possíveis para o alinhamento empregado. É
Por se tratarem de métodos que buscam uma única importante lembrar que, tomando poucas sequências,
filogenia entre diversas árvores, os métodos qualitati- milhões de árvores podem ser geradas. Este conjunto
vos exigem algoritmos que vasculhem o maior número total de filogenias é comumente chamado de espaço
possível de filogenias em busca da melhor árvore. Dois amostral. Como exemplo, podemos organizar o espaço
grupos de algoritmos são destacados: os algoritmos amostral de filogenias originadas a partir de um ali-
exatos e os algoritmos heurísticos. Atualmente, devido nhamento de dez sequências em um gráfico bidimensi-
5. Filogenia Molecular
onal baseado no valor atribuído pelo critério de otimi- computacionalmente, estes métodos não garantem
zação a cada árvore (Figura 9-5). Nestas condições, que a filogenia correta seja encontrada, pois apenas al-
será possível observar que algumas árvores possuem gumas árvores do espaço amostral total serão consi-
valores maiores que outras, formando picos que agru- deradas. Ainda assim, estes métodos tem mostrado
pam as melhores filogenias. Da mesma forma, entre grande eficiência.
diferentes picos existem vales representados por ár- Atualmente, os principais métodos qualitativos de
vores com valores menores e, portanto, menos con- inferência filogenética incorporam algoritmos de busca
sistentes. heurística para amostrar as filogenias do espaço
amostral virtual. Usualmente, estes algoritmos de
busca são executados em dois passos. Primeiramente,
diferentes árvores são construídas e, após encontrar a
melhor árvore guiada por um critério de otimização,
aplica-se um algoritmo para modificar aleatoriamente
o arranjo dos ramos. Este método permite testar se
outros arranjos são ou não mais consistentes.
Devido ao grande número de métodos
para inferência filogenética, a decisão quanto
ao uso de cada um é de grande importância
para a interpretação do resultado final: a filo-
genia. Ao escolher um método, é fundamental
verificar o poder (tamanho e quantidade de
sequências necessária para resolver a filoge-
Figura 9-5: Descrição de parte do espaço nia), a eficiência (habilidade de estimar a filo-
amostral das possíveis filogenias para um genia correta com um número limitado de
determinado sistema, ordenadas segundo um dados), a consistência (habilidade de estimar a
valor atribuído pelo critério de otimização. filogenia correta com um número de dados
Cada ponto no gráfico representa uma ilimitado) e a robustez (habilidade de estimar
topologia diferente inferida a partir de um a filogenia correta quando certos pressupos-
conjunto de dez sequências homólogas. O tos da análise são violados).
espaço amostral, neste caso, é definido por Até o momento, não existe um método
2.027.025 filogenias e apresenta, segundo o que apresente todas estas características si-
critério de otimização, dois máximos locais e multaneamente e garanta a reconstrução fi-
um máximo global, que contém as melhores logenética correta. É importante, sobretudo,
filogenias. Em destaque, algumas filogenias conhecer a biologia do organismo (ou dos or-
exemplificando as possibilidades de arranjo ganismos) em questão para que a escolha do
dos ramos. A seta indica a mudança de método tenha, além de tudo, uma justificativa
topologia da filogenia e o consequente biológica.
aumento de seu valor dado pelo critério de
otimização. 5.6. Abordagens quantitativas
Os métodos de busca exaustiva construirão um es- UPGMA
paço amostral de árvores através de métodos especí-
ficos de modificação das filogenias. Por acumularem O método baseado em distâncias
um grande número de resultados, estes métodos exi- UPGMA (unweighted pair-group method using
gem um tempo computacional muito elevado, por ve- arithmetic averages, ou método de agrupa-
zes tornando-se proibitivos. mento par a par usando médias aritméticas
Os algoritmos de busca heurística procuram pela não ponderadas) foi proposto por Sneath e
melhor filogenia em um subconjunto de todas as filo- Sokal, em 1973, e é o método mais simples
genias possíveis. Apesar de serem muito mais rápidos para reconstrução filogenética. O UPGMA
5. Filogenia Molecular
parte do pressuposto de que todas as linha- uma nova sequência composta. O mesmo
gens evoluem a uma taxa constante (hipótese procedimento é repetido até que existam
do relógio molecular). apenas duas sequências a serem agrupadas
No UPGMA, uma medida de distância (comumente, uma sequência simples e uma
evolutiva é computada para todos os pares de entidade composta).
sequências utilizando um modelo evolutivo. Ao empregar sequências de DNA ou
Após, estas distâncias são organizadas na proteína proximamente relacionadas, o
forma de uma matriz, conforme ilustrado UPGMA pode construir duas ou mais “árvores
abaixo: empatadas” (tie trees). Essas árvores surgem
Sequências 1 2 3 4 quando dois ou mais valores de distância na
matriz se mostram idênticos. É possível re-
2 d1,2 presentar todas as árvores empatadas, mas
essa abordagem é pouco útil, uma vez que
3 d1,3 d2,3 tais árvores são muito semelhantes e surgem
por erros de estimativa das distâncias. Para
4 d1,4 d2,4 d3,4 tais casos, sugere-se apresentar uma única
árvore, geralmente a árvore consenso do
5 d1,5 d2,5 d3,5 d4,5 bootstrap (ver seção 5.8).
Por se basear na hipótese do relógio
O agrupamento das sequências é inicia- molecular, o UPGMA pode levar à obtenção de
do pelo par com menor distância. Supondo topologias falsas quando tal hipótese não for
que d1,2 seja a menor distância no exemplo satisfeita pelos dados. Sabe-se que o método
acima, as sequências 1 e 2 são agrupadas é muito sensível a variações nas taxas evolu-
com um ponto de ramificação na metade tivas entre linhagens, fato este que levou a
dessa distância (d1,2/2). As sequências 1 e 2 são proposição de métodos onde as variações são
então combinadas em uma entidade compos- ajustadas para a obtenção de sequências que
ta, agora denominada y, e a distância entre satisfaçam o relógio molecular. Apesar disso,
esta entidade y e as outras sequências é devido ao surgimento de métodos mais ro-
computada (observe abaixo). bustos e mais eficientes em lidar com dados
não uniformes, o UPGMA encontra-se prati-
Sequências y(1,2) 3 4
camente abandonado como alternativa para
3 dy,3 reconstrução filogenética.
Figura 10-5: Começando com uma árvore em estrela (a), a matriz de distâncias é calculada para
identificar o par de nós a ser unido (nesse caso, f e g). Estes são unidos ao novo nó u (b). A
porção em vermelho é fixada e não será mais alterada. As distâncias do nó u até os nós a-e são
calculadas e usadas para unir o próximo vizinho. No caso, u e e são unidos ao recém criado nó v
(c). Mais duas etapas de cálculo levam à árvore em (d) e então à árvore em (e), que está
totalmente resolvida, encerrando o algoritmo.
5. Filogenia Molecular
Figura 12-5: Determinação dos custos de substituição pelo método de parcimônia para um sítio
do alinhamento de nucleotídeos. (a) Topologia da filogenia proposta para quatro táxons (ver
adiante). (b) Alinhamento de nucleotídeos de quatro sequências homólogas. Destacados em
cinza estão os sítios informativos para o método de parcimônia. Os demais sítios são
considerados não informativos e serão descartados durante os cálculos. (c) Cálculo dos custos
para os dois clados presentes na filogenia proposta em “a”. O método supõe que a posição “Y”
possa ser ocupada por qualquer um dos quatro nucleotídeos. (d) Exemplo do procedimento
adotado pelo método, supondo que a posição “X” na filogenia foi ocupada pelo nucleotídeo A. É
necessário considerar todas as possibilidades de caracteres nos sítios ancestrais e calcular os
respectivos custos. (e) Arranjo de menor custo para a posição 28 do alinhamento de
nucleotídeos.
5c, a posição “Y” da filogenia necessariamen- liza 8. O mesmo procedimento será repetido
te foi ocupada por um dos quatro nucleotíde- considerando os outros três nucleotídeos na
os. Em cada uma das proposições (A, C, G ou posição “Y”.
T), o custo associado à substituição é consul- Após o cálculo dos custos para as posi-
tado na matriz. No primeiro caso, a hipótese ções “Y” e “Z”, é necessário verificar os cus-
para ocupação da posição “Y” é A. O custo da tos de substituição de “X” para “Y” e “X” para
substituição em cada um dos ramos deve ser “Z”. A Figura 12-5d apresenta a primeira hi-
verificado e somado. Por exemplo, a substi- pótese para ocupação da posição “X”: o nu-
tuição de A por T possui custo 4. Como a cleotídeo A. Aqui, o algoritmo somará os
mesma substituição ocorreu em dois ramos custos de substituição de todos os ramos,
diferentes, somamos o custo total, que tota- novamente considerando cada um dos quatro
5. Filogenia Molecular
modelo, a hipótese (topologia da árvore, mo- lhança desta filogenia será necessário utilizar
delo de substituição e comprimento dos ra- um modelo evolutivo, que será importante
mos) é avaliada pela capacidade de predizer para atribuir valores e parâmetros às substi-
os dados observados (alinhamento de se- tuições e ajudará no cálculo da probabilidade
quências homólogas). Sendo assim, a veros- de que uma sequência X mude para uma se-
similhança de uma árvore é proporcional à quência Y ao longo de um segmento da árvo-
probabilidade de explicar os dados do alinha- re.
mento. Aquela árvore que com maior proba- Dado um determinado modelo evolutivo
bilidade, entre as outras árvores possíveis, (JC69, K2P, F81, HKY ou GTR, por exemplo), e
produz o conjunto de sequências do alinha- assumindo que cada sítio do alinhamento
mento, é a árvore que reflete a história evo- evolui de maneira independente dos demais,
lutiva mais próxima da realidade, mais podemos calcular o valor de verossimilhança
verossímil e, por isso, de máxima verossimi- para cada um destes sítios e, posteriormente,
lhança. multiplicar os valores de cada sítio para en-
É importante ressaltar que diferentes contrar a verossimilhança da árvore dada (Fi-
filogenias podem explicar um determinado gura 13-5 e a Figura 14-5). Sítios que
conjunto de sequências, algumas com maior apresentam deleções serão eliminados da
probabilidade e, outras, com menor probabi- análise.
lidade. No entanto, a soma das verossimi- Como os nós internos destas árvores,
lhanças de todas as árvores possíveis para geradas a partir de cada sítio do alinhamento,
um determinado conjunto de sequências nun- são a representação de OTUs não amostra-
ca resultará em 1, pois não estamos lidando dos (isto é, ancestrais) e, por conseguinte, não
com as probabilidades de que estas filogenias se conhecem suas sequências de nucleotíde-
estejam corretas, mas avaliando a probabili- os, será necessário considerar a ocorrência
dade de explicarem o alinhamento que foi de todos os nucleotídeos (A, T, C e G) nestas
fornecido. posições da árvore (Figura 13-5c).
Se, por exemplo, aplicássemos o méto- Por certo, alguns cenários são mais
do de máxima verossimilhança para inferir a prováveis que outros; no entanto, todos de-
árvore filogenética de um grupo de sequênci- vem ser considerados durante os cálculos de
as homólogas que incluem porções recombi- verossimilhança, pois apresentam alguma
nantes, encontraríamos uma árvore probabilidade de terem gerado as sequências
filogenética com um determinado valor de dadas no alinhamento. Adicionalmente, além
verossimilhança. A utilização do método, por de calcular a probabilidade de todas as mu-
si só, garantiria como resultado a inferência danças possíveis para cada um dos sítios do
de uma filogenia. No entanto, sabemos que alinhamento (Figura 13-5c), a expressão ma-
esta árvore, apesar de ser a mais plausível temática da verossimilhança ainda incluirá o
para explicar o alinhamento dado, não tem tamanho dos ramos, dentre outros elementos
qualquer relação com a realidade evolutiva do do modelo de substituição, como um fator
organismo, já que eventos de recombinação determinante para o cálculo (Figura 13-5d).
aconteceram no decorrer do tempo e impe- A probabilidade de ocorrência de cada um dos qua-
dem a explicação sob a forma dicotômica de tro nucleotídeos no nó mais interno da árvore será
uma filogenia. igual à respectiva frequência estacionária dada pelo
A aplicação do método de máxima ve- modelo de substituição, já que este parâmetro especi-
rossimilhança exige a construção de uma fi- fica a proporção esperada de cada um dos quatro nu-
logenia inicial, geralmente obtida por métodos cleotídeos. No modelo de Jukes e Cantor, por exemplo,
quantitativos. Como exemplo, considere a ár- assume-se que os quatro nucleotídeos ocorrem em
vore filogenética proposta inicialmente e o proporções iguais de 25%.
respectivo alinhamento de nucleotídeos da Conforme o exemplo da Figura 13-5d, a equação
Figura 13-5. Para calcularmos a verossimi- utilizada para calcular a verossimilhança da filogenia
5. Filogenia Molecular
proposta no sítio 28, inicialmente, leva em considera- culo computacional, os algoritmos aplicados à inferên-
ção a frequência estacionária do nucleotídeo G, já que cia filogenética (baseados no princípio de Pulley) auto-
este é o nucleotídeo que está sendo considerado como maticamente estimarão o tamanho de cada ramo de
presente no nó mais ancestral da árvore. A probabili- modo que este maximize o valor da verossimilhança da
dade de este G ser substituído por um A (PGA), ou per- árvore filogenética em construção. Nestes casos, o al-
manecer G (PGG) será dada pelo modelo de substituição goritmo atribui diversos valores de distância para um
escolhido. Da mesma forma, serão os casos PGT, PAC ramo e, a cada valor, verifica a verossimilhança da ár-
(repetido duas vezes cada pelo fato de existirem dois vore, buscando aqueles valores que resultam na filo-
ramos terminais com o mesmo nucleotídeo). genia com a maior verossimilhança.
O tamanho dos ramos entre dois nós será multipli- A probabilidade de observar os dados em um sítio
cado pelas probabilidades de substituição dos nucleotí- particular é a soma das probabilidades de todos os
deos, levando em conta variações em parâmetros do possíveis nucleotídeos que poderiam ser observados
modelo de substituição. Apesar da dificuldade de cál- nos nós internos da árvore (Figura 13-5c). O número de
Figura 13-5: Esquema do cálculo da verossimilhança para uma filogenia e seu respectivo
alinhamento de nucleotídeos. (a) Árvore filogenética proposta inicialmente para o alinhamento
em “b”. (b) Para cada posição do alinhamento é destacada a organização dos quatro sítios do
alinhamento na árvore proposta em “a”. Como exemplo, apenas o sítio do alinhamento
destacado em cinza será considerado para o cálculo da verossimilhança. Os quadrados pretos,
azuis, verdes e vermelhos nos ramos terminais das filogenias representam, respectivamente,
os nucleotídeos guanina, citosina, adenina e timina. (c) Probabilidade de cada uma das 64
possíveis combinações de nucleotídeos nos nós internos da árvore, já que estes representam os
sítios de táxons ancestrais não amostrados (PXY, PYT, PXZ, PZC). (d) O esquema para o cálculo da
máxima verossimilhança leva em conta a multiplicação do tamanho dos ramos (t1, t2, t3, t4, t5 e t6)
pelas respectivas probabilidades de transição (PGG, PGT, PGA e PAC), além da frequência
estacionária dos quatro nucleotídeos no nó mais ancestral (πX).
5. Filogenia Molecular
ser distribuições de números prováveis (míni- milhança, é ainda necessário considerar também todos
mo e máximo), e não números exatos. Quan- os tópicos já discutidos na seção anterior. O denomina-
do estes valores não são conhecidos ou dor L(D) é uma integração sobre todas as possibilida-
quando, por exemplo, não se quer atribuir des de topologias, tamanhos de ramo e valores para os
maior probabilidade a uma determinada to- parâmetros do modelo evolutivo, o que garante que a
pologia, o parâmetro terá uma distribuição soma da probabilidade posterior para todos eles seja 1.
uniforme de probabilidades. O denominador atuará como um normalizador para o
Na maioria dos aplicativos que lidam numerador. Reescrevendo, temos:
com inferência Bayesiana existem distribui-
ções uniformes associadas às probabilidades
anteriores que assumem que todos os valo-
res possíveis são dados pela mesma probabi- onde o termo filogenia descreve a topologia da árvore,
lidade. o modelo de substituição e o comprimento dos ramos.
Além das probabilidades anteriores, a Assim, através da multiplicação das probabilidades an-
inferência Bayesiana é baseada nas proba- teriores pela verossimilhança, divididos pelo fator de
bilidades posteriores de um parâmetro como, normalização, o método busca a hipótese (topologia da
por exemplo, a topologia. Através da proba- árvore, o modelo de substituição e o comprimento dos
bilidade posterior é possível verificar a pro- ramos) em que a probabilidade posterior é máxima.
babilidade de cada uma das hipóteses O objetivo da inferência Bayesiana é cal-
(árvores filogenéticas). Sendo assim, ao final cular a probabilidade posterior para cada fi-
das análises, é possível estabelecer uma esti- logenia proposta. No entanto, para cada
mativa da probabilidade dos eventos retrata- árvore diversos parâmetros devem ser espe-
dos por uma determinada filogenia, ou seja, a cificados pelo usuário, incluindo topologia, ta-
probabilidade de cada filogenia. As probabili- manho dos ramos, parâmetros do modelo de
dades posteriores são calculadas utilizando a substituição, parâmetros populacionais, reló-
fórmula de Bayes: gio molecular, taxa evolutiva, etc. Dada uma
filogenia, todos os parâmetros terão sua pro-
babilidade posterior calculada. Se dadas 1000
filogenias, teremos 1000 valores de probabi-
O termo L(H | D) é chamado de distribuição de pro- lidade posterior para cada parâmetro.
babilidades posteriores, e é dado pela probabilidade da Devido à impossibilidade de construção
hipótese (topologia da árvore, modelo de substituição e de todas as filogenias possíveis para a maioria
comprimento dos ramos) a partir dos dados disponí- dos alinhamentos, a análise Bayesiana se
veis (alinhamento de sequências). O termo L(D | H) aproveita de técnicas de amostragem para
descreve o cálculo de máxima verossimilhança, en- estimar os valores esperados de cada parâ-
quanto o multiplicador L(H) é a probabilidade anterior. metro.
Para o termo que envolve a função de máxima verossi- Neste sentido, os métodos de inferência
5. Filogenia Molecular
ração com dados de fósseis, eventos geológi- porte, semelhante ao guaxinim. Com o em-
cos, dados históricos e, até mesmo, análises prego de diferentes dados, incluindo fósseis,
de dados comportamentais. anatomia de mamíferos atuais, distribuição
Um exemplo da combinação de análises geográfica, sequências de DNA de diferentes
filogenéticas com dados históricos veio na porções do genoma, sequências de aminoáci-
confirmação da origem e disseminação hu- dos de diferentes proteínas e mapeamento
mana a partir da África. Através da utilização cromossômico, foi possível estabelecer uma
de dados histórico-antropológicos (como história evolutiva plausível, capaz de descre-
vestígios materiais de hominídeos ancestrais), ver a origem evolutiva do panda-gigante (Fi-
fósseis de hominídeos e análises de DNA mi- gura 21-5).
tocondrial de representantes de diferentes Por meio dessa análise combinada de
etnias, os pesquisadores puderam traçar as dados, se propôs que o panda-gigante, um
rotas de disseminação humana a partir da urso, derivou do ancestral comum dos ursos
África. há cerca de 24 milhões de anos, muito antes
Outro exemplo está na solução de um das derivações que originaram todos os ou-
enigma que perturbou zoólogos por um longo tros ursos existentes hoje. Além disso, ob-
período: a posição taxônomica do panda-gi- servou-se que os ursos e os procionídeos
gante entre os mamíferos carnívoros. Apesar (grupo que inclui o guaxinim e o panda-ver-
de esta espécie ser fisicamente muito similar melho) possuem um ancestral comum que
a um urso, outras características, como den- deu origem às duas linhagens há aproximada-
tição e anatomia das patas, levaram à propo- mente 30 milhões de anos.
sição de uma hipótese antes não imaginada. A filogenia molecular é uma ferramenta
Tal hipótese propunha que o panda-gi- útil quando empregada isoladamente, mas
gante (Ailuropoda melanoleuca) seria proxi- que pode se beneficiar de diferentes tipos de
mamente relacionado ao o panda-vermelho dados para propor uma história evolutiva. Em
(Ailurus fulgens), um mamífero de pequeno última análise, a decisão sobre que tipos de
dados (além dos moleculares) serão empre- que inclui todas as filogenias possíveis
gados na análise filogenética dependerá da (com raiz ou sem raiz) para um determi-
pergunta a ser respondida com essa técnica. nado alinhamento.
Não existem regras pré-estabelecidas, e as
estratégias analíticas precisam ser propostas Frequência de equilíbrio: ponto em que não
caso a caso. existe mais alteração nas frequências dos
alelos.
5.10. Conceitos-chave
Grupos irmãos: clados que dividem um ancestral
Ancestral: organismo ou sequência que originou comum.
novo(s) organismo(s) ou sequência(s). Em
alguns casos pode ser considerado o mes- Homologia: similaridade originada por ancestra-
mo que primitivo. lidade comum.
Apomórfico: refere-se a um caractere novo ad- Inferência filogenética Bayesiana: método qua-
quirido ao longo do processo evolutivo, litativo de inferência filogenética baseado
uma inovação. Uma apomorfia pode servir na estatística Bayesiana. Através da Ca-
de diagnóstico para separação de clados. deia de Markov Monte Carlo este método
buscará as árvores mais prováveis dentro
Aproximação dos vizinhos: neighbor joining das filogenias amostradas.
(NJ), método de inferência filogenética
quantitativo baseado em distância genéti- Máxima Parcimônia: método qualitativo de infe-
ca. rência filogenética que busca a árvore que
minimiza o número total de substituição
Autapomorfias: apomorfias específicas e restri- de nucleotídeos.
tas a um clado.
Máxima Verossimilhança: método qualitativo de
Bootstrap: método de reamostragem que per- inferência filogenética que busca a árvore
mite verificar a confiabilidade dos ramos com a máxima verossimilhança.
de uma filogenia.
Monofilia: associação entre o ancestral comum e
Cadeias de Markov Monte Carlo: método utiliza- todos os seus descendentes, formando um
do pela estatística Bayesiana para amos- clado monofilético.
trar as probabilidades de distribuição de
diferentes parâmetros das filogenias. Múltiplas Substituições: eventos múltiplos de
substituição de nucleotídeo localizado em
Clado: grupo formado por um ancestral e todos um mesmo sítio do DNA.
seus descendentes, um ramo único em
uma árvore filogenética. Modelos de Substituição: modelos matemáticos
utilizados para descrever o processo evo-
Derivado: que se originou de um ancestral e é lutivo ao longo do tempo, podendo ser
mais recente no tempo evolutivo (nota: aplicados ao alinhamento de nucleotídeos
deve-se evitar o termo “mais evoluído” e, ou aminoácidos.
em seu lugar, empregar “derivado”).
Ortólogo: genes homólogos em diferentes orga-
Distância Genética: medida quantitativa da di- nismos e que mantém a mesma função.
vergência genética entre organismos.
OTU: unidade taxonômica operacional, folha ou
Espaço Amostral de Filogenias: espaço teórico nó terminal em uma árvore filogenética.
5. Filogenia Molecular
Edgar Morin & Jean-Louis Le Moigne for necessário para resolvê-lo de maneira
mais parcimoniosa.
6.1. Introdução É neste contexto que emerge a divisão
disciplinar no estudo da natureza. Desde os
6.2. Biologia de Sistemas tempos da escola até a universidade, o co-
nhecimento a ser ensinado manifesta-se na
6.3. Estrutura de redes separação das disciplinas. Por exemplo, no
meio acadêmico observamos a biologia com-
6.4. Propriedades de rede partimentada em botânica, zoologia, ecologia,
genética, biologia celular e essas, por sua vez,
6.5. Tipos de redes subdivididas em outras áreas. Como aspecto
positivo, o estudo das partes forma especia-
6.6. Perturbação de conectores listas e divide o trabalho, facilitando o enten-
dimento de suas partes componentes.
6.7. Conceitos-chave Contudo, neste processo tem-se uma redução
da complexidade característica dos fenôme-
nos naturais, o que pode comprometer nossa
capacidade de entendê-los.
6.1. Introdução De fato, a complexidade é inerente à bi-
ologia, ao funcionamento do nosso organismo
Uma das posturas metodológicas mais e à natureza. Há a necessidade, assim, da
significativas do pensamento científico con- construção de uma abordagem que inclua es-
temporâneo consiste em reduzir ta complexidade, de forma sis-
o todo a suas partes componen- têmica; que interligue as
tes. Por exemplo, entendemos o diversas interações presentes e
funcionamento de um organismo que, ao confrontá-las, consiga
como fruto da ação de órgãos. encontrar relações mais infor-
Estes por sua vez, são compos- mativas e completas.
tos por tecidos, que são com- A partir desta premissa,
postos por células. As células emergem na década de 1950 as
têm como componentes molé- primeiras concepções sobre a
culas que, por fim, são compos- Biologia de Sistemas (BS). Essa
tas por átomos. área, pautada nos conceitos de
Esta abordagem, especial- sistema e de complexidade, en-
mente importante e difundida na volve um estudo sistemático de
área biológica, é fruto das idéias interações em um sistema bio-
introduzidas pelo filósofo René lógico.
Descartes em meados do século XVII, indican- O conceito de sistema é entendido como
do que cada problema encontrado deve ser um conjunto de partes ou elementos que
dividido em tantas pequenas partes quanto possuem relações entre si, relações estas
6. Biologia de Sistemas
que diferem-se daquelas realizadas com ou- veis e os bancos de dados e ferramentas de
tros elementos, fora do sistema. Já a idéia de análise adaptaram-se ao volume crescente de
complexidade é definida como a condição de informações, permitindo construir modelos
elementos de um sistema e a relação entre mais amplos, capazes de lidar com aspectos
esses elementos em um determinado mo- e fenômenos inacessíveis até então. Assim
mento. em 2000, quando o Instituto de Biologia de
Um sistema complexo, por conseguinte, Sistemas foi fundado, a biologia de sistemas
é um sistema composto de partes interco- emergiu como um campo próprio, estimulado
nectadas que, como um todo, exibe uma ou pelo aumento de dados “ômicos” e pelos
mais propriedades que não seriam observa- avanços da parte experimental e da bioinfor-
das a partir das propriedades dos componen- mática visando o entendimento sistemático
tes individuais, possibilitando assim a da biologia. Desde então, grupos de pesquisas
observação de novos fenômenos. Portanto, a dedicados à BS têm sido formados em todo o
BS é um campo que investiga as interações mundo.
entre os componentes de um sistema biológi- Para tal, a BS depende de ferramentas
co, buscando contribuir no entendimento de interdisciplinares para obter, integrar e anali-
como estas interações influenciam a função e sar diversos tipos de dados, exemplificados
o comportamento do sistema. na Tabela 1-6. Essa abordagem requer novas
A busca da compreensão da biologia em técnicas de análise, ferramentas de informá-
nível de sistema é um tema recorrente na co- tica, métodos experimentais e uma nova pos-
munidade científica. Norbert Wiener, em tura metodológica, articulando partes
1948, foi um dos proponentes da abordagem normalmente estudadas separadamente.
sistemática que levou ao nascimento da ci-
bernética, ou biocibernética, consolidada com 6.2. Biologia de Sistemas
os estudos do médico neurologista, William
Ross Ashby (1903-1972). A partir de 1959, Em suas análises, a BS relaciona partes
Robert Rosen, sob orientação do professor individuais de um sistema como representa-
Nicolas Rashevsky, propôs uma metodologia ções gráficas de conjuntos de nós ou vértices
baseada na “biologia relacional”, onde o mais (V), conectados entre si por conectores ou
importante na biologia era o estudo da vida arestas (E, do inglês edge). Os nós podem re-
em si. Após 20 anos, Ludwig von Bertalanffy presentar indivíduos, proteínas ou mesmo lu-
(1901-1972) criou a teoria geral dos sistemas, gares, enquanto que os conectores
tornando-se o precursor da BS. Em 1966 foi representam a conexão que está presente
formalizado o estudo da BS, com o lança- entre cada par de nós. Esta representação
mento da disciplina “Teoria e Biologia de Sis- gráfica é denominada de rede.
temas” pelo teórico de sistemas Mihajlo Muitos exemplos de rede podem ser ci-
Mesarovic (1928). tados, como redes de cadeia alimentar, am-
A partir do trabalho destes pesquisado- plamente aplicadas na ecologia, redes neurais
res, a teoria geral dos sistemas pode ser defi- e de interação proteica usadas na biologia e
nida como a área que estuda a organização ciências médicas, além da própria World Wide
abstrata de fenômenos, investigando todos Web, que representa uma das maiores redes
os princípios comuns a todas as entidades funcionais no mundo da comunicação e infor-
complexas (não somente biológicas) e os mo- mática.
delos que podem ser utilizados para a sua A análise matemática de redes é deno-
descrição. minada de teoria de grafos, e consiste em um
Com o avanço da biologia molecular nas dos principais objetos de estudo da matemá-
décadas que se seguiram, juntamente com o tica discreta. Desta forma, o termo “rede”
nascimento da genômica funcional, grandes representa as interações funcionais de um
quantidades de dados tornaram-se disponí- sistema, enquanto que o termo “grafo” enfa-
6. Biologia de Sistemas
tiza as análises matemáticas deste sistema. cas, porém não encontrou solução para o
Neste capítulo, contudo, usaremos ambos os problema. Contudo, a metodologia de análise
termos como sinônimos. de Euler foi um marco histórico na análise de
Historicamente, a teoria de grafos foi problemas combinatórios, além de estabele-
desenvolvida em 1736 pelo matemático suíço cer o conceito de topologia que é usado em
Leonard Euler na resolução do problema das BS (ver adiante).
sete pontes de Königsberg, atualmente co- O emprego da teoria de grafos e suas
nhecida como Kaliningrado, na Rússia. A cida- aplicações têm apresentado um crescimento
de de Königsberg é atravessada pelo Rio explosivo devido a sua multidisciplinaridade e
Pregel e consiste de duas grandes ilhas que ao seu conceito de modelo que permite estu-
eram conectadas entre si e com as margens dar um objeto específico sem negligenciar o
opostas por sete pontes (Figura 1A-6). O pro- meio em que este objeto se encontra. Por
blema apresentado a Euler consistia em des- exemplo, é possível estudar determinado
cobrir como caminhar pela cidade fármaco considerando a atividade que diver-
atravessando cada ponte apenas uma vez. A sos compostos e enzimas poderiam exercer
técnica desenvolvida pelo matemático suíço sobre ele. Nesses estudos pode-se construir
foi adaptar o mapa de Königsberg, transfor- uma rede onde os nós representam compos-
mando as margens e ilhas em nós e as pontes tos e enzimas e os conectores representam
em conectores (Figura 1B-6). Euler submeteu se há ou não relação entre eles, permitindo
a rede que desenvolveu a análises matemáti- analisar:
6. Biologia de Sistemas
E = {(a, b) | a, b V}
Figura 3-6: (A) Rede direta; (B) Representação da via de degradação ubiquitina-proteassoma, um
dos inúmeros tipos de redes direcionadas encontradas em sistemas biológicos.
ou dígrafos (Figura 3A-6). Nos conectores E = da por proteassomas, uma vez que não é
(a, b) e E = (b, c), podemos dizer que a é ante- possível reverter a degradação da proteína
cessor a b, e b é antecessor a c. Da mesma (Figura 3B-6).
forma, b é sucessor de a e c é sucessor de b. Podem também existir redes não direci-
Um dígrafo é definido por G = (V, E, f), sendo f onadas (Figura 4A-6), que apresentam co-
uma função que associa cada elemento E a nectores orientados em ambas as direções
um par ordenado de nós em V. Uma rede re- (a↔b, b↔c), não sendo possível assim esta-
presentando os mecanismos de degradação belecer antecessor ou sucessor. Um exemplo
ubiquitina-proteassoma de uma determinada típico seria a reação reversível de um subs-
proteína pode ser um exemplo de rede direta trato A para um substrato B em uma via me-
após o reconhecimento da proteína ubiquitina- tabólica como, por exemplo, a formação de
Figura 4-6: (A) Rede não direcionada; (B) Reação reversa de fosforilação e desfosforilação de
adenosina difosfato, representando um exemplo de redes não direcionadas em sistemas
biológicos.
6. Biologia de Sistemas
Figura 7-6: Representação de uma rede Figura 8-6: Representação de uma rede
ponderada descrevendo: i) diferentes tipos de bipartida, onde os nós cinzas e brancos
nós, onde cada cor representa diferentes representam diferentes grupos de uma
famílias de proteínas (por exemplo, os nós análise. Por exemplo, cada grupo pode
verdes representam serina/treonina cinases, representar duas linhagens diferentes de E.
nós azuis representam cinases dependentes coli. Para avaliar a eficiência de
de ciclinas e nós laranjas representam as transformação das linhagens, estas foram
tirosina cinases); ii) diferentes tamanhos de divididas em quatro amostras (representadas
nós, com atributo w(a), representando o pelos nós) e cada amostra foi incubada com
número de artigos w que citam a proteína a; e diferentes plasmídeos. Os conectores
iii) a espessura do conector y, representando apresentam os plasmídeos que obtiveram
a fidelidade w da interação entre duas sucesso na transformação e são comuns
proteínas distintas. entre as duas linhagens.
6. Biologia de Sistemas
Uma importante análise em uma rede suas propriedades, como veremos adiante.
consiste em caracterizá-la conforme sua dis- Por exemplo, ao analisarmos a rede de inte-
tribuição de caminhos geodésicos. Um cami- ração de uma doença contagiosa, a possibili-
nho geodésico é definido como a via mais dade desta doença até então controlada
curta dentro de uma rede entre dois nós tornar-se uma epidemia depende principal-
quaisquer (i e j), sendo representado por δ (i, mente de duas variáveis: o tipo de agente in-
j) em G. Um bom exemplo disso é o experi- feccioso e a alta densidade de conexões (rotas
mento realizado por Stanley Milgram em de transmissão). O procedimento de quaren-
1960, onde cartas foram enviadas a indivídu- tena (isolamento) quando um determinado
os aleatoriamente. A missão de cada indivíduo indivíduo apresenta os sintomas da doença é
era enviar a sua carta a alguém que conside- justamente reduzir a conectividade da rede de
rasse capaz de fazer com que as cartas che- transmissão.
gassem ao seu destino final. Alguns modelos de rede (como as redes
Essa experiência relativamente simples de livre escala e hierárquica, discutidas adi-
conclui que existem aproximadamente seis ante no item 6.5.) podem apresentar cluste-
graus de separação entre dois indivíduos rização, isto é, os nós tendem a se agrupar.
quaisquer no mundo. Da mesma forma, esse Isso significa que se um nó A se liga ao nó B, e
experimento foi a primeira demonstração o nó B se liga ao nó C, então há grandes
significativa do efeito "mundo pequeno" (ou chances de A se ligar a C também. Assim, a
do inglês, small world), que estabelece que as rede é composta de centenas de triângulos,
redes apresentam nós conectados entre si ou seja, grupos de três nós conectados entre
formando um caminho mais curto entre to- si, onde cada lateral de um triângulo pode
dos os nós. pertencer a outro triângulo.
O comprimento médio de caminhos entre os nós (i, Podemos quantificar a fração de triplos nós que
j) é definido pelo valor médio de conectores entre os apresentam um terceiro conector preenchendo um tri-
nós e pode ser calculado por: ângulo pelo coeficiente de clusterização:
assumindo-se que δmin (i, j) é o caminho mais curto en- Na equação, o número três presente no numerador
tre os nós i e j, sendo N o número total de nós. Adicio- é devido ao fato que cada lateral de um triângulo con-
nalmente, o diâmetro da rede é definido como: tribui com outros três triplos nós, além de garantir que
C seja 0 ≤ C ≤ 1. Dessa forma, o coeficiente de clusteri-
zação avalia a probabilidade dos nós i e j serem vizi-
e representa o maior comprimento entre dois nós. Es- nhos, já que ambos são vizinhos do nó h. Assim, o
tudos recentes têm revelado que redes biomolecula- coeficiente de clusterização local de um nó i pode ser
res, sociais e tecnológicas apresentam valores de determinado por:
comprimento médio de caminhos e diâmetro relativa-
mente pequenos se comparados ao tamanho da rede,
apresentando ordem de grandeza log (n) ou menor
quando o tamanho da rede é n. Da mesma forma, a onde um nó i tem k vizinhos com e conexões entre eles.
densidade de uma rede é calculada com base no nú- Contudo, pode-se também atribuir o coeficiente de
mero de conexões que cada nó possui, sendo definida clusterização média para a rede total, sendo definido
como: por:
cessos celulares ocorrerem de forma dependente da alteração será brusca. Neste caso, observa-
organização de diversos subconjuntos (clusters) de bi- se um aumento da distância entre os nós, de
omoléculas. forma que apenas poucos nós precisam ser
Em uma rede consideramos como sendo o grau de removidos para destruir a comunicação da
um nó o número de conectores k que incidem a este rede. Assim, fica claro que a Internet apre-
nó. Assim, a distribuição do grau P(k) é definida por ser senta baixa resiliência na remoção de nós
uma fração de nós com grau k dentro de uma rede. com alto grau, tornando-se vulnerável a ata-
Então sendo k = 0, 1, 2,... P(k) indica a probabilidade de ques de hackers.
determinado nó ter grau k. A distribuição de grau é de- Outro exemplo seriam as redes de inte-
finida por: ração proteína-proteína. Estas redes geral-
mente apresentam muitas proteínas com
poucas interações e algumas proteínas pos-
onde temos n nós na totalidade da rede e nk representa suindo muitas interações (chamadas de hubs,
a quantidade de nós com grau k. ver adiante). Desta forma, redes de interação
Uma rede aleatória que apresenta n nós conectados proteína-proteína são resilientes à deleção de
ou não com probabilidade p, tem uma distribuição bi- nós aleatórios, porém extremamente vulne-
nominal de grau com parâmetros N - 1 e p: ráveis a ataques em proteínas hubs.
Os nós de uma determinada rede po-
dem apresentar tendências de conexão. Em
Outras redes, no entanto, tem distribuição de grau outras palavras, duas redes completamente
bem diferente. Redes de livre escala (como a maioria diferentes topologicamente podem apresen-
das redes biológicas) apresentam distribuição do grau tar a mesma distribuição do grau. Assim, em
que segue uma Lei de Potência P(k) ~k-γ, γ >1 (ver adi- uma rede é preciso considerar o padrão de
ante). correlação do grau dos nós, onde a conectivi-
Outra estimativa numérica pode ser feita, a função dade de um nó reflete nas suas possibilidades
de distribuição cumulativa avalia a probabilidade de de ligação.
um nó ter um grau maior do que k: A tendência de conexão que uma rede
apresenta pode ser chamada de assortativi-
dade e desassortatividade. A assortatividade
significa que os nós de uma rede apresentam
Agora, o que aconteceria se, por acaso, uma tendência a interagirem com outros nós
resolvessemos excluir alguns poucos nós da semelhantes, por exemplo, nós do tipo A in-
rede? Certamente iríamos alterar o compri- teragem preferencialmente com nós também
mento de alguns caminhos e circuitos da rede do tipo A (Figura 12A-6). Vértices com alto
de forma pouco significativa. Contudo, se grau tendem a interagir com vértices que
formos excluindo mais nós, progressivamen- também apresentam alto grau. No entanto,
te, veremos que a comunicação da rede fica chamamos de desassortatividade se os nós
cada vez mais esparsa, até se tornar desco- de uma rede interagem preferencialmente
nectada. A capacidade de uma rede de tolerar com nós diferentes dele mesmo, por exem-
a deleção de nós é chamada de resiliência. plo, nós do tipo A tendem a interagir com nós
Em 2000, um estudo conduzido por Al- do tipo B. Neste caso, um nó com alto grau
bert-László Barabási e colaboradores mos- tem tendência a interagir com nós que apre-
trou que a Internet pode ser altamente sentem baixo grau (Figura 12B-6).
resiliente na remoção de nós aleatórios. Isso A correlação de grau dos nós i e j é feita por distri-
se deve ao fato de que a quantidade de nós buição de probabilidade conjunta P(ki, kj) = P(ki) P(kj).
com baixo grau de interação é maior em uma Podemos ainda calcular a assortatividade ou desas-
rede do que nós com alto grau de interação. sortatividade da rede como um todo, considerando:
Em compensação, se a remoção iniciar a par-
tir dos nós com mais alto grau de interação, a
6. Biologia de Sistemas
Figura 12-6: Ilustração representando em (A) uma rede assortativa com nós bem conectados
que apresentam conexões com outros nós também fortemente conectados. Em (B), uma rede
desassortativa, onde os poucos nós que apresentam mais conexões interagem com nós menos
conectados, resultando em uma rede menos densa.
6. Biologia de Sistemas
grupo para sua expressão. Podemos visuali- tra-módulo), ou seja, ligadas no mesmo
zar um exemplo de um módulo funcional na tempo e/ou espaço,
Figura 15A-6. ii) date hubs, que são hubs que se ligam
a diferentes proteínas em diferentes
módulos (inter-módulo), ou seja, dife-
rentes tempo e/ou espaços, conse-
quentemente apresentando um papel
global na rede (Figura 16-6). Estes ter-
mos podem ainda receber denomina-
ções específicas no contexto do
conceito de centralidades (ver adiante).
apresentam módulos, ou seja, a rede é com- 2002, que construíram um gráfico de livre
posta de subredes funcionalmente separá- escala determinístico, na qual o coeficiente de
veis. Esses componentes separáveis clusterização de um nó que possui k conexões
apresentam densa conectividade entre os segue a lei de escala C(k) ~k-1. Portanto, o
seus próprios nós, com conectividade mais modelo de rede hierárquico integra uma to-
dispersa em relação a componentes de ou- pologia livre de escala com alta modularida-
tros módulos. Isso ocorre porque cada mó- de, resultando em um coeficiente de
dulo apresenta a capacidade de executar uma clusterização independente do tamanho do
tarefa identificável, diferente de outro módu- sistema.
lo. Contudo, essa “separação” de tarefas não
significa que um módulo é independente de 6.6. Perturbação e conectores
outro, mas sim que tem funções distintas.
Dessa forma, é necessário combinar a Como visto anteriormente, um grafo
propriedade de livre escala, o alto grau de consiste de um conjunto de nós e um conjunto
agrupamento e a modularidade de uma forma de conectores que conectam esses nós. Por-
interativa, gerando a rede hierárquica. A es- tanto, os nós são as entidades de interesse e
trutura hierárquica é convencionalmente re- os conectores representam as relações entre
presentada por um dendrograma ou uma as entidades.
árvore e atua relacionando os nós mais próxi- Quando tratamos de sistemas biológi-
mos na rede, conforme Figura 25-6. Essas cos, podemos levar em consideração diferen-
redes podem ser formadas basicamente pela tes entidades como, por exemplo, DNA, RNA,
duplicação de clusters e repetidas indefinida- metabólitos, pequenas moléculas e/ou prote-
mente, integrando uma topologia livre de es- ínas. Estes componentes biológicos não atu-
cala com alta modularidade, resultando em am isoladamente, mas sim dependem da
um coeficiente de clusterização independen- interação com outros componentes. Para que
tes do tamanho do sistema. Muitas vezes, em ocorra essa interação (comunicação) é ne-
redes reais, a modularidade não apresenta cessária a presença de conectores.
um limite claro, sendo reconhecida principal- Conectores podem ser interações físi-
mente por nós altamente conectados entre si cas, bioquímicas ou funcionais. Por exemplo,
e conectados a outros módulos. em redes metabólicas, conectores podem ser
reações que convertem um metabólito em
outro ou enzimas que catalisam essas rea-
ções; em redes de regulação gênica, conecto-
res podem representar a ligação física de um
fator de transcrição nos elementos regulató-
rios; em redes de doenças, conectores podem
representar as mutações genéticas associa-
Figura 25-6: Ilustração de uma rede das à doença; e em redes proteicas, os co-
hierárquica consistindo de 55 proteínas em nectores podem ser ligações físicas entre as
modelo de dendrograma onde é possível proteínas.
observar sua modularidade intrínseca. Como apresentado anteriormente, as
redes podem ser direcionadas e não direcio-
A principal característica dessas redes nadas. Esse comportamento da rede depende
que não é compartilhada por redes aleatórias da natureza da interação e, obviamente, da
ou de livre escala é a hierarquia intrínseca, direcionalidade dos conectores (Figura 26-6).
sendo representada também na sua arquite- Em redes direcionadas, a interação entre dois
tura. Essa característica hierárquica pode ser, nós tem uma direção bem definida que repre-
ainda, analisada quantitativamente, como ob- senta, por exemplo, a direção do fluxo do
servado por Dorogovtsev e colaboradores em substrato ao produto em uma rede metabóli-
6. Biologia de Sistemas
ca. Em redes não direcionadas, a ligação não nismo de formação do complexo, incluindo o
tem uma direção definida, tal como a intera- tipo de conexão entre as proteínas, as intera-
çao física entre proteínas. ções podem ser conceitualmente separadas
em dois grupos: aquelas que são permanen-
tes e aquelas que são temporárias. E, embora
não exista um limite bem definido para essa
separação, tendências têm sido observadas
em relação a suas propriedades biológicas
(Figura 27-6).
Em relação à estrutura, por exemplo,
interações temporárias são caracterizadas
por interfaces proteicas pequenas, enquanto
que as interfaces de proteínas interagindo
permanentemente são maiores. Consequen-
temente, complexos proteicos com interfaces
maiores tendem a apresentar um maior grau
de mudança conformacional após a ligação.
Além disso, componentes de complexos per-
manentes tendem a ser co-expressos e mais
Figura 26-6: Representação de um conector estáveis. Esta estabilidade gera uma pressão
não direcionado e um direcionado. seletiva maior e em função disso, uma taxa
evolutiva mais lenta.
Na abordagem da biologia de sistemas Como será discutido adiante, interação
tão importante quanto conhecer os nós que transitória tende a ser date, isto é, as proteí-
interagem entre si em uma rede é compreen- nas podem se conectar em diferentes tempos
der, por exemplo, que tipo de interação pode e a interação permanente tende a ser party,
ocorrer na rede em questão, quais conectores isto é, conexão proteica forte e constante.
são mais relevantes à rede e qual o impacto As proteínas com conectores perma-
da perturbação de um conector. Nesta seção nentes existem somente em sua forma com-
iremos discutir os tipos de conectores entre plexada e são muito estáveis, enquanto
diferentes componentes de uma rede envol- aquelas com conectores transitórios possu-
vendo proteínas e as consequências da ruptu- em a capacidade de associação e dissociação
ra nestas conexões. in vivo. Dentre as proteínas com conectores
transitórios, há aquelas em que a associa-
Interação proteína-proteína ção/dissociação é resultante de uma conexão
com baixa afinidade, porém constante (inte-
A interação proteína-proteína é comum rações temporárias fracas) e aquelas em que
e crucial a vários processos celulares, tais a associação/dissociação é desencadeada por
como na ligação enzima-inibidor e na intera- um processo ativo (interações temporárias
ção antígeno-anticorpo. Os diferentes tipos de fortes) como, por exemplo, uma mudança
complexos proteicos têm sido definidos na li- conformacional ocorrida em consequência de
teratura como obrigatórios e não obrigatóri- um fator ligante.
os. No complexo obrigatório, as proteínas não A diferença entre as interações acima
podem funcionar separadamente, diferindo do citadas é distinguida puramente pelas propri-
complexo não obrigatório onde as proteínas edades da estrutura da interface proteica, isto
associam-se e dissociam-se dependendo de é, da superfície de contato das proteínas. Es-
fatores externos, podendo também exercer sas propriedades conferem afinidade e espe-
funções fora do complexo. cificidade, e são determinadas principalmente
De acordo com a estabilidade e o meca- por forças intermoleculares como comple-
6. Biologia de Sistemas
mentaridade estérica, força eletrostática, in- fracas e ocorrem em função da interação en-
teração hidrofóbica e ligações de hidrogênio. tre cadeias ou subunidades apolares. Os
A complementaridade estérica otimiza complexos com conexões permanentes nor-
as interações de van der Waals entre o com- malmente persistem no estado ligado, sendo
plexo. Normalmente, estas interações de fra- a força hidrofóbica mais significativa. Já em
ca energia ocorrem em função da polarização conectores transitórios, a alta hidrofobicidade
transiente de ligações carbono-hidrogênio ou se torna desfavorável, pois esses complexos
carbono-carbono e, apesar de fracas, são ex- permanecem ligados por menos tempo.
tremamente importantes para o processo de As forças de atração eletrostáticas são
reconhecimento intermolecular pois crescem aquelas resultantes da interação entre dipo-
em intensidade com a área de interação. los e/ou íons de cargas opostas e represen-
Complexos com conexões permanentes exi- tam força significativa na interação
bem alta complementaridade estérica nas proteína-proteína, podendo definir o tempo de
proteínas em contato, enquanto complexos vida do complexo.
com conexões temporárias demonstram bai- Dentre as forças intermoleculares dis-
xa complementaridade. cutidas acima, o fator dominante da interação
Como as interações de van der Waals, permanente entre proteínas consiste nas in-
as interações hidrofóbicas são pontualmente terações hidrofóbicas, enquanto várias forças
6. Biologia de Sistemas
Figura 28-6: Modos de interação proteína-proteína com a dupla hélice do DNA. A) perpendicular;
B) paralela e C) ambas as direções são observadas.
6. Biologia de Sistemas
co que se enrolam no DNA formando uma espiral, in- afinidade da proteína pelo DNA e presença de
serindo a hélice α na cavidade maior do DNA. água no meio.
Fatores de transcrição de eucariotos e procariotos Muitas proteínas são flexíveis ao ponto
também podem conter o motivo zíper de leucina, en- de alterar sua conformação quando se ligam
contrado em proteínas regulatórias. Esse motivo é ao DNA, enquanto outras são conhecidas por
formado por duas hélices α paralelas, unidas por resí- alterar a conformação do DNA após a ligação.
duos de leucina. A afinidade da interação entre o DNA e uma
A estrutura do zíper de leucina pode ser dividida em proteína tende a estar relacionada à relevân-
duas partes: a região de dimerização e a região de liga- cia funcional da proteína. Por exemplo, a afi-
ção ao DNA. A dimerização é mediada pela formação nidade de um fator de transcrição por seu
de uma estrutura enrolada na região carboxi-terminal sítio de ligação é proporcional à ativação que
de cada hélice com sete resíduos de leucina. A região ele exerce. Ainda, alguns contatos mediados
que se liga ao DNA, também conhecida como região por água foram observados entre proteínas e
básica, é encontrada na região amino-terminal da héli- o DNA, participando de redes de ligações de
ce que se projeta na cavidade maior do DNA. Embora hidrogênio que conferem estabilidade ao
motivos de diferentes famílias de DNA sejam similares complexo.
estruturalmente, pouca homologia é observada fora do
motivo. Há baixa identidade entre motivos de diferentes Interação entre proteínas e peque-
famílias de proteínas e esta variação permite, portanto, nos compostos
o reconhecimento de diferentes conjuntos de sequên-
cias de DNA. Além disso, a posição do domínio dentro Considerando-se que a interação proteí-
da cavidade maior do DNA também varia, refletindo a na-proteína normalmente envolve superfícies
necessidade funcional e estrutural de cada proteína. relativamente grandes, pode-se imaginar que
A afinidade e a especificidade na ligação moléculas menores não seriam efetivas na
de proteínas ao DNA não podem ser endere- modulação da ligação dos complexos por
çados somente a alguns resíduos de aminoá- apresentarem áreas menores e, por conse-
cidos, mas o envolvimento de toda a proteína guinte, interações menos intensas. Contudo,
deve ser considerado. Por exemplo, a maioria ao empregarmos estruturas químicas dife-
das proteínas que se ligam ao DNA possuem rentes de aminoácidos, podemos não só
domínios desordenados que contribuem para compensar esta redução na área de contato
o reconhecimento do DNA em vários níveis. mas produzir moléculas com afinidade maior
Proteínas com domínios desordenados são proteí- do que os próprios ligantes fisiológicos en-
nas que não apresentam estrutura 2ária e 3ária sob con- volvidos do processo de interesse.
dições fisiológicas e na ausência de ligantes naturais. Adicionalmente, estas moléculas de
Essas proteínas possuem alta especificidade e baixa baixa massa molecular tendem a apresentar
afinidade na interação, são capazes de interagir com muitas vantagens terapêuticas em relação a
mais de uma proteína e alvos de modificações pós-tra- proteínas, dentre as quais se destaca sua
ducionais, possuindo a capacidade de manter sua fun- maior estabilidade metabólica e consequente
ção mesmo em ambientes extremos. Na interação com maior biodisponibilidade. Podem atuar direta-
o DNA, o domínio desordenado da proteína não é cruci- mente – via inibição da interface proteína-
al à formação do complexo, mas pode influenciar o re- proteína – ou indiretamente – via ligação a um
conhecimento da sequência do DNA, conferindo sítio alostérico que induz uma mudança con-
seletividade e afinidade de ligação. formacional do alvo da proteína ou da molé-
Além da característica das cavidades na cula associada.
molécula de DNA, da presença de motivos A busca de novos fármacos deve levar
específicos nas proteínas ou ainda da ocor- em conta o tipo de complexo proteico alvo. A
rência de domínios desordenados, outros fa- formação de complexos permanentes pode
tores podem influenciar a interação do ser considerada uma continuação do enove-
DNA-proteína, tais como a flexibilidade e a lamento da proteína, sendo o dobramento fi-
6. Biologia de Sistemas
nal das subunidades parte deste processo. meiro, um estabilizador pode ligar-se a uma
Assim, esse tipo de complexo é menos pro- única proteína, na qual aumenta a afinidade de
penso à modulação farmacológica, sendo ligação mútua das proteínas do complexo de
mais interessante explorar o processo de do- um modo alostérico. Segundo, a molécula es-
bramento em si como alvo de pequenos tabilizadora liga-se à superfície do complexo
compostos. Já as interfaces das proteínas de proteico, fazendo contato com ambas as pro-
complexos temporários são alvos efetivos ao teínas ligantes e aumentando a afinidade de
planejamento de novos moduladores tera- ligação mútua entre elas. Assim, a inibição
pêuticos. estabilizadora pode ser denominada alostéri-
Para que pequenas moléculas modulem ca (ligada a uma proteína) ou direta (ligada ao
a interação proteica, estratégias têm sido es- menos a duas proteínas).
tabelecidas e dois principais mecanismos do A ativação por pequenos compostos é, normal-
controle regulatório têm sido utilizados: a ini- mente, um processo mais intrincado pois, além da liga-
bição e a estabilização (Figura 29-6). Das es- ção, é necessário o correto desencadeamento da
tratégias mais exploradas, destaca-se a cascata de ativação. Compostos que induzem a intera-
inibição da interação proteína-proteína. ção proteica são chamados de dimerizadores. Inúme-
ras vias de sinalização celular iniciam a partir da
dimerização proteína-proteína. A principal ideia do uso
de dimerizadores é a indução de interação entre duas
proteínas por pequenas moléculas que levam à ativa-
ção da via de sinalização celular. Na literatura científica
foi observado que dimerizadores podem induzir proli-
feração celular, transcrição e apoptose.
mais informativos de uma rede podem ser mínios da proteína que grosseiramente desestabiliza-
obtidas, por exemplo, pela análise da resiliên- ram a estrutura da proteína, como remoção de nó,
cia e percolação da rede, vista anteriormente. mutações com alteração em quadro de leitura que
A distinção entre modelos de remoção afetaram sítios de ligação específicos e mutações
de nó e perturbação de conectores - altera- truncadas que preservaram certos domínios da proteí-
ção interação-específica e conector-específica na como perturbação edgetic. Alelos truncados foram
(edge-specific ou “edgetic”), respectivamente menos propensos a expressar proteínas estáveis em
- pode providenciar novas pistas nos meca- comparação a alelos que alteraram o quadro de leitura,
nismos básicos de doenças humanas, tais co- podendo diferir doenças hereditárias mendelianas en-
mo diferentes classes de mutações que volvendo remoção de nó versus perturbação edgetic.
levariam a modos dominantes ou recessivos Um alelo edgetic pode ser identificado pela falta de
de herança genética. um subconjunto de interações, quando possuem defei-
Em uma rede proteica, a remoção de tos nas interações provavelmente devido a mudanças
um nó pode representar a remoção de uma específicas dentro ou próximo a sítios de ligação da
proteína, causado por uma mutação crítica no proteína ou quando fenótipos in vivo diferem daqueles
gene que desestabiliza a estrutura da proteí- causados por perturbações nulas (genótipos nulos).
na. Já a remoção de um conector pode repre- Dependendo da rede, o fenômeno de
sentar uma mudança específica em distintas perturbação de um único conector pode ser
interações bioquímicas e biofísicas, preser- mais provável do que da remoção de um nó.
vando certos domínios da proteína. Dependendo do conector rompido, o impacto
Em relação a genes envolvidos em múl- à rede pode ser maior, pois diferentes conec-
tiplas doenças, foi demonstrado que alelos tores (interações) têm diferentes níveis de
edgetic responsáveis por diferentes doenças importância (vulnerabilidade). Conectores
consistem em distintas perturbações edgetic com alto valor de edgebetweenness podem
que, por sua vez, tendem a estar localizados causar fragmentação da rede em componen-
em diferentes domínios de interação proteica, tes desconectados, caso sejam rompidos, co-
conferindo fenótipos diferenciados. mo por exemplo no caso de conectores entre
Pesquisadores analisaram cerca de 50.000 alelos clusters. Esse tipo de conector é assim cha-
mendelianos associados a doenças genéticas hereditá- mado de cut-edge. Já conectores com baixo
rias e observaram que aproximadamente a metade foi valor de edgebetweenness, quando elimina-
potencialmente edgetic. Nesta análise foram conside- dos da rede, podem ser substituídos por vias
radas deleções e mutações truncadas dentro dos do- alternativas, como por exemplo no caso de
6. Biologia de Sistemas
Circuito: sequência de nós sem repetição com Dimerizadores: compostos que induzem a di-
um conector entre cada par de nós adja- merização, neste caso a interação protei-
centes na sequência, onde o nó inicial co- ca.
incide com o nó final.
Distribuição de Poisson: distribuição aplicada a
Clique: é definido como um grafo com alta co- probabilidade de ocorrência de um evento
nectividade entre seus elementos inte- em determinado intervalo de tempo.
grantes. Sendo assim, clique também é
considerado um sinônimo de cluster. Edgebetweenness: parâmetro que indica o nú-
mero de caminhos mais curtos entre pares
Closeness: valor que indica os caminhos mais de nós que percorrem um determinado
curtos entre um nó n e todos os outros nós conector.
da rede, uma tendência de aproximação
ou isolamento de um nó. Edgetic: perturbação causada em um conector
específico, portanto em uma interação es-
Complexo proteico: grupo de proteínas formado pecífica na rede.
pela associação de duas ou mais cadeias
polipeptídicas. Forças intermoleculares: forças que mantêm as
moléculas unidas durante a interação.
Comprimento do caminho: definido pelo número
de conectores que definem o caminho, ou Gargalo (bottleneck): proteína que apresenta
então, pelo número de nós da sequência alto grau de betweenness.
6. Biologia de Sistemas
Grau de nó (node degree): parâmetro referente função, em uma rede de interação proteí-
à quantidade de nós adjacentes (direta- na-proteína, agrupar proteínas que façam
mente conectados) a outro determinado parte de um mesmo processo biológico.
nó.
Party hubs: proteínas altamente ligadas dentro
Hipergrafo: rede caracterizada pela presença de do seu próprio módulo (intra-módulo), ou
hipervértices. seja, ligação no mesmo tempo e/ou espa-
ço.
Hipervértices: Conectores que interligam nós
que apresentam propriedades distintas Pleiotrópico, efeito: proteínas pleiotrópicas são
nos hipergrafos. aquelas que apresentam múltiplos efeitos
em um sistemas biológico.
Hot spot proteico: locais essenciais da interface
com alta afinidade de ligação. Rede: representação gráfica da interação entre
nós por meio de vértices.
Inibição alostérica de uma proteína: na inibição
alostérica, pequenos compostos ligam-se Rede bipartida: existe uma partição da rede, por
a sítios diferentes, causando mudança exemplo, partição A e partição B, sendo os
conformacional suficiente para interferir na nós presentes na partição A adjacentes
ligação da proteína ligante. apenas a nós da partição B, e vice-versa.
Inibição ortostérica de uma proteína: inibição Rede direcionada: apresentam conectores que
causada pela ligação direta de uma pe- orientam o fluxo da informação em uma
quena molécula à superfície de interação direção.
da proteína ligante, interferindo direta-
mente nos hot spots críticos da interface e Rede não direcionada: os conectores desta rede
competindo com a proteína original. não apresentam uma direção orientada.
Interface proteica: área através da qual as ma- Rede ponderada: são redes que se caracterizam
cromoléculas se comunicam e exercem pela presença de atributos associados a
sua funcionalidade. conectores e nós.
“Mundo pequeno”, efeito: define que existe um Topologia de redes: estrutura e disposição de
caminho mínimo entre um nó de origem e conexões entre os nós.
um nó de destino.
Vulnerabilidade do conector: grau de importân-
Ontologia gênica: tipo de análise que tem como cia do conector.
6. Biologia de Sistemas
Priscila V. S. Z. Capriles
Raphael Trevizani
Gregório K. Rocha
Laurent E. Dardenne
Fabio Lima Custódio
Geração de múltiplos modelos para a estrutura de culas e sistemas biológicos, possam ser
uma determinada sequência de aminoácidos. abordadas com cada vez mais sucesso. Den-
tre estas áreas, a predição de estruturas tri-
7.1. Introdução dimensionais de proteínas destaca-se pela
sua importância, o que tem atraído um gran-
7.2. Estrutura 3D de proteínas de número de pesquisadores ao redor do
mundo. Um exemplo deste interesse está na
7.3. Enovelamento de proteínas criação de um encontro bianual de caráter
mundial, intitulado CASP - Critical
7.4. Predição da estrutura Assessment of Protein Structure Prediction,
com o objetivo de avaliar o estado da arte da
7.5. Modelagem comparativa capacidade de predição de diferentes meto-
dologias desenvolvidas.
7.6. Predição de enovelamento A predição de estruturas tridimensionais
de proteínas se caracteriza por possuir apli-
7.7. Métodos de novo cações práticas de grande impacto terapêuti-
co e biotecnológico. Está diretamente
7.8. Primeiros princípios relacionada a múltiplas áreas da bioinformá-
tica e modelagem molecular, tais como o
7.9. Escolhendo o modelo atracamento proteína-ligante (ver capítulo 9),
aplicado ao desenho racional de fármacos
7.10. Análise da qualidade baseado em estruturas, o desenho de novas
proteínas com funções específicas (nanotec-
7.11. Refinamento do modelo nologia e engenharia de proteínas) e a própria
elucidação de estruturas a partir de dados
7.12. Aplicações de modelos experimentais, por exemplo, de ressonância
magnética nuclear (RMN). Avanços teóricos e
7.13. Conceitos-chave metodológicos implicariam em impactos di-
retos na saúde e no bem estar da sociedade.
No entanto, apesar dos avanços realizados
nos últimos anos, o desenvolvimento de me-
7.1. Introdução todologias capazes de alcançar um elevado
grau de previsibilidade e acurácia continua
O rápido avanço na computação científi- sendo um importante desafio.
ca verificado na última década, principalmen-
te quanto ao aumento da capacidade de 7.2. Estrutura 3D de proteínas
processamento dos computadores a custos
relativamente baixos, tem permitido que clas- Proteínas
ses importantes de problemas científicos na
área da bioinformática, no estudo de biomolé- A função de uma proteína está intima-
7. Modelos Tridimensionais
mente associada à sua estrutura tridimensio- cristalografia por difração de raios-X é com-
nal. Essa é a afirmativa fundamental que ins- posto basicamente pela produção e purifica-
pira todas as buscas por um método que seja ção da proteína alvo, cristalização, coleta e
capaz de prever a estrutura nativa de uma processamento dos dados, resolução da es-
proteína a partir da sua sequência de aminoá- trutura (empregando informações sobre a
cidos. Tal método poderia ajudar na compre- sequência de aminoácidos e diferentes pro-
ensão e no melhor aproveitamento do gramas) e refinamento da estrutura.
potencial contido na grande quantidade de in- A técnica de RMN também requer o co-
formação biológica, na forma de sequências, nhecimento da sequência de aminoácidos.
que vem sendo gerada graças ao sucesso dos Contudo, não é necessário que a proteína es-
projetos genoma. teja em um estado de cristal ordenado. A
“As informações sobre a estrutura de vantagem da RMN é que a estrutura a ser de-
uma proteína estão armazenadas em uma se- terminada pode estar em solução, apesar de
quência codificada nos genes de um organis- requerer que a proteína solubilizada esteja em
mo”. Assim diz um dos principais paradigmas altas concentrações. Infelizmente, esta técni-
da biologia, postulado por Anfinsen em 1973. ca ainda está limitada a proteínas de tama-
A sequência é traduzida através de um com- nhos pequenos a médios, limitação não
plexo aparato celular em uma estrutura tridi- observada para a cristalografia. Mesmo as-
mensional funcional. Entender todos os sim, a RMN destaca-se ao revelar informa-
mecanismos e forças por traz desse proces- ções sobre o comportamento dinâmico das
so seria um enorme avanço científico que in- estruturas, incluindo mudanças conformacio-
fluenciaria praticamente todas as áreas das nais e interações com outras moléculas.
ciências da vida. Esse produto funcional da Na RMN, um forte campo magnético alinha os mo-
tradução, chamado de estrutura nativa, é mentos magnéticos dos núcleos atômicos de isótopos
uma macromolécula estável, em condições que possuem spin nuclear diferente de zero (tais como
fisiológicas, formada por ligações peptídicas 1
H, 13C, 15N, 9F e 31P). Uma fonte de radiofrequência de
entre os aminoácidos. energia variável é emitida, podendo ser absorvida pelos
Apesar de estável, a estrutura nativa núcleos atômicos invertendo o alinhamento do spin
está longe de ser uma molécula estática. Tra- nuclear em relação ao campo magnético externo apli-
ta-se de uma estrutura flexível, com movi- cado. Neste momento, parte da energia é absorvida e o
mentos específicos, muitos dos quais são espectro de absorção resultante fornece a informação
diretamente responsáveis pela função da pro- sobre a identidade do núcleo e seu ambiente químico
teína. Por esse motivo, consideramos o “esta- na vizinhança. Dados de sucessivos experimentos são
do nativo” de uma proteína não como uma coletados e um espectro de RMN é gerado contendo as
estrutura estática, mas como um conjunto de informações sobre todos os deslocamentos químicos
conformações (também chamadas de confi- de todos os isótopos analisados na proteína.
gurações) de baixa energia livre e biologica-
mente relevantes que a cadeia assume 7.3. Enovelamento de proteínas
regularmente no meio no qual exerce suas
funções. O enovelamento de proteínas é objeto
de grande interesse de diversas áreas do co-
Determinação experimental nhecimento, como mencionado acima. Dada a
presença marcante das proteínas em inúme-
As principais técnicas para a determina- ros processos biológicos, é surpreendente
ção experimental da estrutura tridimensional que ainda hoje se saiba tão pouco de como o
de macromoléculas biológicas serão apre- enovelamento ocorre, permitindo que as pro-
sentadas nos capítulos 12 e 13. Brevemente, o teínas adotem sua estrutura nativa. Estudos
processo para a obtenção da estrutura tridi- sobre o enovelamento de proteínas tratam do
mensional de uma proteína via técnica de processo pelo qual a cadeia peptídica sinteti-
7. Modelos Tridimensionais
zada adota a sua estrutura tridimensional na- da. Isso confirmou a observação de que para
tiva. Eles diferem dos estudos de predição de que uma proteína exerça a sua função, ela
estrutura de proteínas (PSP – Protein deve estar em sua conformação nativa.
Structure Prediction) por estarem mais inte- Anfinsen fez então a observação crítica
ressados no "como" e não no produto final do de que a ribonuclease desnaturada, uma vez
processo de enovelamento. Mas é justamente livre da ureia e do β-mercaptoetanol, por diá-
este “como" que nos permite conhecer mais lise, recuperava lentamente a atividade enzi-
detalhes sobre o enovelamento e, a partir mática. Ele imediatamente percebeu o
destas informações, desenvolver novos mé- significado deste achado: os resíduos de cis-
todos de predição de estruturas. De fato, a teína da cadeia eram oxidados pelo ar e a en-
maioria dos métodos de predição é inspirada zima espontaneamente se enovelava para a
em um ou mais aspectos das teorias de eno- forma cataliticamente ativa. As experiências
velamento. de Anfinsen e seus colaboradores mostraram
que a informação necessária para especificar
O postulado de Anfinsen e a hipó- a complexa estrutura tridimensional da ribo-
tese termodinâmica nuclease estava contida em sua sequência de
aminoácidos. Estudos posteriores estabele-
O trabalho laureado de Christian Anfin- ceram a generalidade desse importante prin-
sen sobre a enzima ribonuclease demonstrou cípio da biologia molecular: a sequência é um
a relação entre a sequência de aminoácidos importante determinante da conformação
de uma proteína e sua conformação. A ribo- proteica.
nuclease é uma proteína constituída de 124 Em resumo, o postulado de Anfinsen,
aminoácidos cuja atividade catalítica é a cliva- também conhecido como a hipótese termodi-
gem de moléculas de RNA. Ela possui em sua nâmica, afirma que, pelo menos para peque-
estrutura nativa quatro pontes dissulfeto. nas proteínas globulares, a estrutura nativa é
Sendo estas ligações oriundas da oxidação de determinada unicamente pela sequência de
resíduos de cisteína espacialmente próximos, aminoácidos. Isso equivale a dizer que, nas
podem ser clivadas reversivelmente por um condições do ambiente (isto é, temperatura,
agente redutor. pressão e constituição do solvente) em que o
Anfinsen e seus colaboradores, usaram enovelamento ocorre, a estrutura nativa pos-
o reagente denominado β-mercaptoetanol sui três propriedades:
(que forma dissulfetos mistos cistina-β-mer- i) A estrutura deve ser única, isto é,
captoetanol). Em grandes quantidades, este uma dada sequência não deve possuir
reagente provoca a redução completa de to- outras conformações com energia livre
dos os resíduos de cisteína. Contudo, eles no- comparável com a do estado nativo;
taram que a proteína não podia ser ii) A estrutura deve ser estável, isto é,
prontamente reduzida a menos que estivesse pequenas mudanças no ambiente ao seu
parcialmente desenovelada por agentes tais redor não devem causar mudanças no
como ureia e cloridrato de guanidina. Embora enovelamento. Isso leva à imagem de
o mecanismo não seja completamente com- que, pelo menos perto do mínimo glo-
preendido, esses agentes perturbam as inte- bal, o enovelamento de proteínas segue
rações não covalentes que estabilizam a um formato de funil, que implicaria na
estrutura da proteína, provocando o seu de- estabilidade do estado nativo;
senovelamento. iii) A estrutura deve ser cineticamente
Quando uma solução da proteína ribo- acessível, isto é, o processo pelo qual a
nuclease foi incubada com ureia a 8 M e β- forma nativa de uma dada proteína seja
mercaptoetanol, observou-se que ela perdia atingida deve ocorrer em um tempo
totalmente a sua atividade catalítica. Em ou- compatível com fenômenos biológicos.
tras palavras, a ribonuclease era desnatura- Proteínas de um único domínio se eno-
7. Modelos Tridimensionais
velam em uma escala de tempo da or- em geral, a conformação com o maior núme-
dem de microssegundo até segundos. ro dessas interações fracas é a configuração
Para satisfazer esses critérios, durante de menor energia livre.
o enovelamento, a estrutura não deve Por conseguinte, a estabilidade de uma
sofrer mudanças muito bruscas na sua proteína não é proveniente da simples soma
conformação, isto é, movimentos que das energias de suas interações não covalen-
implicam em barreiras energéticas mui- tes. Em solução, cada grupo formador de li-
to grandes. gações de hidrogênio na cadeia peptídica
estava interagindo com moléculas de água
Sequências muito diferentes podem adotar estrutu- antes da estrutura se enovelar. Então, para
ras muito parecidas. Ainda, o enovelamento é frequen- cada nova ligação de hidrogênio intramolecu-
temente influenciado ou mesmo totalmente lar formada quando a estrutura se enovela,
dependente de modificações co- ou pós-traducionais, uma ligação equivalente com o solvente é
além do ambiente molecular de destino e da participa- desfeita. Na prática, um dos principais fatores
ção de chaperonas. Ainda, observou-se que o enovela- que impulsionam o enovelamento de uma
mento de proteínas em células nem sempre termina proteína é o chamado efeito hidrofóbico. Re-
na forma nativa, o que levou ao surgimento, durante a sumidamente, o efeito hidrofóbico pode ser
evolução, de mecanismos de controle de qualidade do entendido como a tendência de resíduos de
enovelamento proteico. aminoácidos hidrofóbicos se agruparem no
interior da proteína (que se torna portanto
Origem da estabilidade estrutural apolar) e dos resíduos hidrofílicos se exporem
na superfície da mesma (que se torna por-
Podemos dizer que as proteínas são es- tanto polar).
tabilizadas pela combinação de interações Em soluções aquosas existe uma rede de ligações
não covalentes oriundas da interação entre de hidrogênio entre as moléculas de água. Moléculas
diferentes regiões da cadeia. Nesse contexto, do soluto tendem a romper ou atrapalhar a formação
estabilidade se refere à tendência em manter dessa rede. Esse efeito é mais pronunciado ao redor de
uma conformação nativa. Uma cadeia poli- moléculas hidrofóbicas, onde é formada a camada de
peptídica, em teoria, pode assumir um núme- solvatação (região onde as moléculas de água estão
ro muito grande de configurações e, por isso, altamente organizadas em um padrão ótimo de for-
o estado desenovelado (também chamado de mação de ligações de hidrogênio). O aumento da orde-
desnaturado) é caracterizado por uma alta nação das moléculas de água na camada de
entropia conformacional. Essa entropia, jun- solvatação, ao redor de solutos hidrofóbicos (não-po-
tamente com as interações (por ligações de lares) resulta em uma diminuição desfavorável da en-
hidrogênio) com o solvente, leva à estabiliza- tropia do solvente. Quando moléculas (ou partes de
ção do estado desenovelado. moléculas) não polares são agrupadas, o tamanho da
As interações que contribuem para neu- camada de solvatação é menor, uma vez que nem to-
tralizar esses efeitos e estabilizar o estado das estão expondo toda a sua superfície molecular ao
nativo são, além das pontes dissulfeto, inte- solvente (menor superfície acessível ao solvente). O
rações como ligações de hidrogênio intramo- resultado disso é um aumento favorável na entropia.
leculares e interações de van der Waals. Note Consequentemente, aminoácidos hidrofóbicos tendem
que, para se quebrar uma ligação covalente, é a se agrupar no interior de uma proteína, mantendo-se
necessário muito mais energia do que para se afastados da água.
romper interações não covalentes (aproxima- A maior parte da variação da energia li-
damente 100 vezes mais). E, embora mais vre que ocorre quando as interações intra-
fracas, essas interações são muito mais nu- moleculares são formadas é devido ao
merosas do que o principal tipo de ligação co- aumento da entropia na solução aquosa re-
valente (pontes dissulfeto) que, em algumas sultante da formação do núcleo hidrofóbico.
proteínas, estabiliza a estrutura 3ária. Assim, Isso supera a grande perda em entropia con-
7. Modelos Tridimensionais
Com os recentes avanços na área, con- dade introduzida, que torna o problema muito difícil de
tudo, pode-se notar que a separação entre ser tratado com a capacidade computacional disponí-
entes métodos é cada vez mais tênue. Além vel atualmente. Por razões práticas, a maioria dos mé-
disso, uma rápida consulta aos últimos CASP todos de predição faz uso de representações
mostra que muitos dos métodos podem ser simplificadas da proteína, assim limitando o número de
incluídos em mais de uma categoria. Por conformações a serem avaliadas (o chamado espaço
exemplo, a separação entre predição do eno- conformacional), e adotam funções de energia empíri-
velamento e modelagem comparativa é cada cas (ou semi-empíricas) ou baseadas em conhecimento
vez mais difícil, e o uso de algum tipo de in- (knowledge-based) que capturam as forças mais im-
formação estrutural/experimental é ampla- portantes que impulsionam e estabilizam o enovela-
mente observado, mesmo em metodologias mento.
ditas de primeiros princípios. Assim, hoje se As conformações que estão associadas
usa uma classificação mais ampla que é útil ao mínimo global da função de energia são
quando se deseja avaliar e comparar os mé- consideradas as prováveis conformações na-
todos objetivamente: tivas que a proteína adota em condições fisi-
i) Métodos independentes de estruturas ológicas. Dessa forma, os métodos de
molde (também chamados de métodos predição de estrutura de proteínas apresen-
template free). Incluem a predição ab tam, nas suas metodologias, as seguintes ca-
initio e a predição de novo; racterísticas em comum:
ii) Métodos baseados em estruturas i) Uma representação da estrutura da
molde (também chamados de template proteína e um conjunto de graus de li-
based). Incluem threading e modelagem berdade que define o espaço de confor-
comparativa. mações;
ii) Funções de energia compatíveis com
Com esta nova classificação, os méto- a representação;
dos ditos de novo são aqueles que utilizam al- iii) Algoritmos para realizar a busca no
gum tipo de informação estrutural, tais como espaço de conformações.
fragmentos de proteínas, predição de estru-
tura 2ária e potenciais estatísticos, oriundas de Representação da estrutura e do
proteínas não homólogas à sequência alvo. espaço de conformações
O que vai ditar a escolha do método a
ser aplicado é a presença ou não de estrutu- A representação tridimensional de uma
ras resolvidas experimentalmente, e deposi- molécula pode ser dada pela posição geomé-
tadas em bancos de estruturas como o PDB trica de seus átomos em um sistema de co-
(Protein Data Bank), que possam ser usadas ordenadas cartesianas (x, y, z) ou pelas
como molde (ou template) para a modelagem chamadas coordenadas internas (Figura 4-7).
da sequência alvo. A escolha do método está Nesta última, para cada átomo são fornecidas
intrinsecamente relacionada com a taxa de informações relativas ao comprimento de li-
identidade obtida a partir do alinhamento en- gação, ângulo de ligação e ângulo de torção
tre a sequência alvo e possíveis candidatos a (ou ângulo diedral).
molde (Figura 3-7). A representação computacional de uma
O enovelamento da proteína pode ser visto, em últi- proteína pode ser feita baseada em todos os
ma instância, como resultado das forças físicas atuan- seus átomos (modelos all-atom), em “áto-
do sobre os átomos da proteína. Sendo assim, a mos unidos” (alguns átomos de hidrogênio
formulação mais acurada para se estudar o enovela- são considerados implicitamente), e em
mento ou predizer a estrutura de proteína é baseada agrupamentos de átomos (ou coarse-grained)
em representações com todos os átomos explícitos (ver capítulo 8). Independentemente da es-
(também chamados de all-atom, ver capítulo 8). O tratégia, as formas de definição são equiva-
problema de tal representação é o nível de complexi- lentes.
7. Modelos Tridimensionais
Figura 3-7: Fluxograma para a predição da estrutura tridimensional de uma proteína. O valor de
25% é apenas uma referência e depende de outros fatores, tais como a cobertura com a
sequência alvo.
7. Modelos Tridimensionais
Figura 4-7: Exemplo de representações de uma molécula de etano. Em ambos os sistemas, cada
linha representa um átomo. Em A, temos ainda a definição do número de átomos (NATM), do
tipo do átomo (ATM), do nome do resíduo (RES), do rótulo da cadeia (CAD), do número do
resíduo (NRES) e das coordenadas em si (COORDX, COORDY, COORDZ). Para definição das
propriedades descritas em OCUP e BETA, ver capítulo 13. Em B, temos definido o elemento
químico (ATM), o comprimento da ligação (BOND), o número do átomo com o qual há a ligação
(REF1, por exemplo, o átomo 7 está ligado ao átomo 1, distando deste 1,0 Å), o valor do ângulo
de ligação (ANG), o número do átomo com o qual há a formação do ângulo (REF2, por exemplo,
o átomo 8 está ligado ao 2 e faz um ângulo de 109,5o com o átomo 1), o valor do ângulo de
diedro (TORC) e, por fim, o número do átomo com o qual está definida a torção.
Outro aspecto a ser definido nessa eta- para construir uma estrutura muito próxima à
pa são os graus de liberdade que irão definir o estrutura nativa de proteínas, de forma muito
espaço de conformações, isto é, de que for- mais simples do que lidar com o sistema de
ma será definida a flexibilidade estrutural que coordenadas cartesianas.
irá permitir construir diversas estruturas pa-
ra as sequências alvo. Tipicamente, os méto-
dos de PSP adotam geometrias de ligação
rígidas, isto é, o comprimento das ligações é
fixo em um valor de referência, assim como
os ângulos entre as ligações.
Usando uma representação em coorde-
nadas internas, os graus de liberdade para
modificação da estrutura são os ângulos de
torção, mais especificamente os ângulos die-
drais do esqueleto peptídico: φ, ψ e ω (Figura
5-7, ver também capítulo 2) além dos ângulos Figura 5-7: Ângulos de torção (diedrais) da
diedrais das cadeias laterais: χ1 até χ4 (Figura cadeia principal da proteína.
6-7). A definição desses ângulos é suficiente
7. Modelos Tridimensionais
nominados metaheuristicos (Figura 7-7). Estes méto- teína similar tem de possuir estrutura 3D re-
dos constituem-se em técnicas iterativas de otimização solvida experimentalmente, e as coordenadas
nas quais uma solução candidata vai sendo melhorada cartesianas de seus átomos devem estar de-
seguindo uma medida de qualidade. Esses métodos positadas em banco de dados de estruturas
não fazem uso de informações sobre a função de ava- como o PDB.
liação ou mesmo sobre o problema, no entanto não há A modelagem comparativa é o método
garantias de se encontrar a solução ótima. Os métodos empregado mais frequentemente, e seu limite
metaheurísticos mais comuns incluem aqueles deno- de predição está intrinsecamente relacionado
minados Monte Carlo e Algoritmos Genéticos. No en- com o grau de similaridade entre as estrutu-
tanto, alguns métodos usam metaheurísticas ras alvo e molde. Geralmente, consideram-se
combinadas a métodos determinísticos baseados no como limites mínimos de aplicabilidade do
gradiente da função, tais como o método do máximo método valores de 25 a 30% de identidade,
declive (steepest descent). Esses últimos são geral- obtidos através do alinhamento entre a es-
mente aplicados em etapas de refinamento e apenas trutura 1ária da proteína alvo e de uma ou mais
com funções de energia deriváveis. proteínas molde. A modelagem comparativa
pode ser dividida em cinco etapas descritas a
seguir e resumidas na Figura 8-7.
Identificação de referências
Tem por objetivo identificar sequências
de aminoácidos de proteínas resolvidas expe-
rimentalmente que possuam similaridade
com a sequência da proteína de interesse (se-
quência alvo), cujas estruturas serão empre-
gadas posteriormente como moldes. Essa
identificação pode ser feita através de algo-
ritmos de alinhamento, sendo selecionadas
como referências as proteínas que possuírem
os maiores índices de similaridade e identida-
Figura 7-7: Esquema de uma busca usando de (suficientes para se inferir homologia entre
metaheurística para predição de estrutura de as sequências), menores índices de gaps e a
proteína. A estrutura inicial é modificada a maior cobertura da sequência (relação entre a
cada passo e vai sendo avaliada segundo um quantidade de aminoácidos alinhados entre as
critério energético até que se obtenha uma duas sequências e o tamanho total da se-
estrutura de mínimo. Idealmente, deseja-se quência alvo).
uma estrutura de mínimo global (área em
verde) e não uma de mínimo local (área em Seleção dos moldes
vermelho).
Dentre as referências, é necessário es-
7.5. Modelagem comparativa colher uma ou mais estruturas que servirão
de molde para a construção do modelo 3D fi-
No método de modelagem comparativa, nal. Nesta etapa, é imprescindível a análise do
também chamada de modelagem por homo- papel biológico da proteína de interesse. Os
logia, a proteína de interesse (alvo) terá sua critérios de seleção podem incluir:
estrutura 3D predita usando como referência i) a proteína de interesse e o possível
a estrutura 3D de outra proteína similar molde pertencem a uma mesma família
(também chamada de molde, e na maioria das de proteínas;
vezes evolutivamente relacionada). Essa pro- ii) ambas desempenham preferencial-
7. Modelos Tridimensionais
interações que agem sobre esses fragmentos O primeiro desafio para a predição de
podem conferir-lhes estruturas diferentes estruturas usando fragmentos é montar uma
(Figura 11-7). biblioteca de fragmentos que reúna as me-
lhores estruturas candidatas a reproduzir a
região da sequência alvo, a partir de um banco
de proteínas determinadas empiricamente.
Como discutido anteriormente, pode-se usar a
similaridade entre as sequências dos frag-
mentos retirados das proteínas do banco e a
região de interesse da proteína alvo. Os pro-
gramas Rosetta e QUARK usam o PSI-BLAST
para reconhecer o quão similares são as se-
Figura 10-7: Fragmentos estruturalmente quências de um fragmento e da respectiva
semelhantes, mas que possuem sequências região da proteína.
de resíduos diferentes. Como exemplo da geração de uma bibli-
oteca de fragmentos podemos citar o pro-
Duas características devem ser levadas grama Protein Fragment Generator -
em consideração para se trabalhar com frag- Profrager. Nele, os fragmentos são extraídos
mentos de proteínas na predição de estrutu- de uma versão do PDB filtrada para eliminar
ras: a primeira é que uma mesma sequência as diversas redundâncias existentes entre as
pode levar a estruturas diferentes, e a segun- estruturas. Cada fragmento é iniciado em um
da é que duas sequências diferentes podem resíduo da proteína e se estende pelo compri-
levar à mesma estrutura. Dessa forma, se faz mento desejado. Uma biblioteca de fragmen-
necessário a construção de uma lista de frag- tos, por exemplo de 6 resíduos, compreende
mentos candidatos a reproduzir uma dada re- os resíduos das posições 1 a 6, 2 a 7, 3 a 8 e
gião da proteína alvo. assim sucessivamente. De posse dos frag-
Figura 11-7: Fragmentos de proteínas com a mesma sequência de resíduos que possuem
estruturas diferentes. Acima, as proteínas de código PDB 1F8E (fragmento destacado entre os
resíduos 243 e 247) e 1BGP (resíduos 63 a 67); abaixo, 1LM5 (2800 a 2804) e 1XS5 (121 a 125).
7. Modelos Tridimensionais
mentos extraídos do banco, o problema tor- fragmentos conterá os fragmentos que pos-
na-se então escolher os melhores para re- suem as maiores pontuações, logo, os frag-
produzir cada região. mentos mais prováveis para a reprodução da
Na Figura 12-7 está representada uma estrutura local.
biblioteca com fragmentos de 6 resíduos para Se o uso de um fragmento de uma proteína conhe-
uma dada proteína. O primeiro fragmento do cida elimina a necessidade de se modelar a região lo-
banco é alinhado à primeira posição da pro- calmente, o problema torna-se escolher a melhor
teína. Os resíduos do fragmento são compa- estrutura para cada região. De posse de uma biblioteca
rados com as entradas da matriz BLOSUM62. de fragmentos, o trabalho torna-se um problema de
Nesse exemplo, o valor da substituição de otimização, abordado por um algoritmo de busca, onde
uma valina por uma asparagina é -3, e a se procura reconstruir a proteína usando as informa-
substituição de um glutamato por uma lisina é ções trazidas pelos fragmentos, validando-se a estru-
+1. Somando os valores da comparação entre tura gerada usando uma determinada função de
todos os resíduos do fragmento com os da energia.
respectiva região da sequência alvo, temos É importante notar que, embora sejam
uma pontuação total de -8 para esse frag- dependentes de bancos de estruturas, os
mento. O segundo fragmento do banco é to- fragmentos não precisam ser provenientes de
mado, e o processo de comparação proteínas com grau elevado de identidade, o
resíduo-resíduo entre o fragmento e a se- que permite a modelagem de estruturas iné-
quência alvo é repetido. Nesse exemplo, tem- ditas. Modelos obtidos com o uso de frag-
se uma pontuação total de +11 para o segundo mentos demonstram utilidade para
fragmento. O processo ilustrado para a atri- inspirações biológicas e têm obtido sucesso
buição da pontuação é repetido para todos os nas demais áreas da modelagem de proteí-
fragmentos do banco, sempre para uma ja- nas, tais como predição de sítios ativos e
nela de leitura de 6 resíduos. Ou seja, desloca- identificação de padrões de enovelamento,
se um resíduo para a direita e reinicia-se o atracamento proteína-proteína, modelagem
processo, formando uma nova lista de frag- de voltas e até mesmo desenho de novas
mentos para esta nova posição. proteínas.
Uma lista de candidatos a reproduzir a As limitações dos métodos de novo são
sequência alvo é montada de acordo com praticamente as mesmas dos métodos por
uma pontuação. Parte dessa pontuação é o primeiros princípios. Sua aplicação é, em ge-
grau de similaridade entre a sequência do ral, limitada a sequências mais curtas (<150
fragmento e da região correspondente da se- resíduos), e alguns dos métodos podem estar
quência alvo. A outra parte da pontuação é a sujeitos a artefatos se a parametrização das
concordância da estrutura 2ária do fragmento funções estatísticas não for feita com cuida-
com a estrutura 2ária predita pelo PSIPRED do.
para a sequência alvo. Ao final, a biblioteca de
ser analisado possa ainda ser grande demais. Nesses os aspectos tridimensionais de uma
casos, faz-se uso da noção de que, sendo o estado na- molécula, a fim de se verificar a estabi-
tivo cineticamente acessível, espera-se que esse seja lidade conformacional da mesma. Nesta
atingido com mais frequência, salvo em trajetórias que análise, são detectadas regiões de ten-
terminem em mínimos locais muito profundos. Sendo são angular e torcional, impedimentos
assim, realizando um número grande de trajetórias, estéricos e quiralidades. Além destes,
aquele grupo que contém a estrutura nativa é, prova- com a análise do gráfico de Ramachan-
velmente, o maior grupo (ou seja, aquele que contém o dran é possível identificar, através da
maior número de conformações após o agrupamento). correlação entre os ângulos φ e ψ, quais
É importante ressaltar que esta hipótese só estaria te- resíduos encontram-se fora das regiões
oricamente bem fundamentada caso usasse uma fun- energeticamente favoráveis, possibili-
ção de energia realística e representativa da energética tando uma melhora no modelo final.
do processo de enovelamento. Exemplos de programas que realizam
estas análises incluem os programas
Os pacotes de PSP disponibilizam suas Procheck e Molprobity.
próprias ferramentas de agrupamento. Pode- ii) Energia: são métodos baseados em
se, ainda, usar outros programas externos minimização de funções de energia. A
com resultados semelhantes, como o análise dos valores normalizados da
maxcluster e o programa de agrupamento função (como o DOPE normalizado do
contido no pacote GROMACS (g_cluster). Modeller) ajuda a avaliar (ao menos es-
Um terceiro passo é a inspeção manual tatisticamente) quão próximo o modelo
por um operador humano de cada modelo gerado está de proteínas que possuem
resultante do segundo passo. Com a análise um mesmo perfil molecular ou até o
de especialistas treinados, é possível detectar mesmo tipo de enovelamento. Esses
possíveis erros no enovelamento e até mes- métodos podem considerar a relação
mo sugerir modificações em regiões específi- entre a estrutura 1D-3D, ponderar a
cas dos modelos. Essa etapa opcional ainda propensão de cada aminoácido estar em
não é automatizável sendo, de certa forma, a um tipo de estrutura 2ária, a probabilida-
mais custosa. de de dois resíduos estarem em contato
e até mesmo o tipo de função que a
7.10. Análise de qualidade proteína desempenha. Alguns progra-
mas bastante usados para estas análi-
A qualidade de um modelo é determina- ses incluem Verify3D, ProSa, QMEAN e
da por um conjunto de fatores, tais como PROVE.
comprimentos de ligação, planaridade das li- iii) Funcional: envolve a comparação do
gações peptídicas, planaridade dos anéis e modelo obtido com aspectos funcionais
ângulos de torção nas cadeias principal (ou ou mesmo estruturais (sem resolução
seja, esqueleto peptídico) e laterais, quirali- atomística) determinados por métodos
dade, impedimento estérico, energia e funcio- experimentais. Por exemplo, diversas
nal. Adicionalmente, nos métodos baseados famílias de proteínas possuem resíduos
no uso de estruturas moldes resolvidas ex- específicos associados à função (como a
perimentalmente, para um modelo ser consi- tríade catalítica em serino proteases ou
derado de boa qualidade é recomendado que resíduos ligadores de metais em meta-
o valor de RMSD obtido pela sobreposição da loproteínas). Assim, o modelo gerado
cadeia peptídica de regiões conservadas do deve apresentar tais resíduos nas suas
modelo gerado e da estrutura molde esteja localizações específicas para explicar
entre 1 Å e 2 Å. Dentre as análises a serem dados experimentais prévios. Ainda,
feitas, recomenda-se as seguintes: métodos como dicroismo circular (capí-
i) Estereoquímica: consiste em analisar tulo 10), infravermelho (capítulo 11) e
7. Modelos Tridimensionais
RMN (capítulo 12) podem oferecer in- ridade de sequência com o(s) molde(s)
formações importantes sobre o estado usado(s), ou não obedecem ao tipo cor-
conformacional da proteína em meio bi- reto de estrutura 2ária predita. Para cor-
ológico, validando o modelo obtido. rigir isso, é necessário refazer o modelo
Mesmo que as estratégias de análise 3D impondo ao algoritmo de construção
anteriores indiquem um modelo de ele- o uso de restrições de tipo de estrutura
vada qualidade, se o mesmo não for ca- 2ária para essas regiões.
paz de apresentar ou explicar iii) Dinâmica molecular: Os métodos de
características conhecidas previamente, simulação por dinâmica molecular (ver
não poderá ser considerado totalmente capítulo 8) têm sido empregados na
válido. melhora de modelos gerados tanto por
técnicas baseadas em modelagem
Durante o CASP a análise de qualidade dos modelos comparativa quanto por primeiros prin-
assume um caráter diferente, uma vez que os avalia- cípios. Simulações em solvente explícito
dores conhecem a estrutura nativa. Nesse caso, a mé- ajudam a acomodar a estrutura 3D do
trica empregada para comparar a estrutura nativa com modelo melhorando, principalmente, os
os modelos gerados pelos diferentes métodos é o Glo- ângulos φ e ψ de resíduos em regiões
bal Distance Test – GDT. Trata-se de uma medida po- desfavoráveis no gráfico de Ramachan-
tencialmente mais acurada, uma vez que é menos dran. O tempo de simulação é variável
sensível a discrepâncias muito grandes, oriundas de de acordo com a complexidade do sis-
regiões de voltas que são naturalmente flexíveis. tema e com o grau de refinamento que
se deseja obter. É importante destacar
7.11. Refinamento do modelo que simulações por dinâmica molecular
para estruturas transmembranares,
Após a análise do modelo, caso a quali- apesar de bastante recomendado, ne-
dade não tenha sido satisfatória, algumas es- cessitam especial atenção, pois se deve
tratégias de refinamento no melhor modelo considerar o modelo de membrana a
obtido podem ser suficientes para a obtenção ser empregado, a forma de inserção do
de um modelo final de boa qualidade. Dentre modelo 3D da proteína na membrana e
os principais tipos de refinamento podemos o tempo de equilibração do sistema
citar: costuma ser maior que em proteínas si-
i) Local: através da análise estereoquí- muladas apenas em solvente.
mica pode-se identificar qual resíduo
está violando seus valores limites den- 7.12. Aplicações de modelos
tro de sua vizinhança, o que geralmente
é resolvido com o reposicionamento de A aplicabilidade de um modelo 3D está
sua cadeia lateral. Em alguns casos, é diretamente relacionada com a acurácia com
necessário realizar etapas de otimização que este foi gerado. Esta acurácia pode ser
somente de regiões de alças, principal- avaliada pelo grau de similaridade entre as
mente de regiões ricas em glicina. É estruturas 3D da proteína predita e da proteí-
sempre importante observar violações na molde, através do cálculo do desvio médio
causadas por prolinas nas extremidades quadrático (RMSD), que mede as distâncias
de regiões de estruturas em hélice ou interatômicas. De acordo com sua acurácia,
folha. os modelos 3D gerados por métodos teóricos
ii) Imposição de restrições: após a análi- podem ser aplicados em:
se de resultados de métodos de predi- i) Estudos de predição funcional e busca
ção de estrutura 2ária, pode-se verificar por novos alvos moleculares em orga-
no modelo gerado quais regiões não nismos patogênicos;
possuem ou possuem uma baixa simila- ii) Planejamento racional de fármacos
7. Modelos Tridimensionais
Hugo Verli
8.1. Introdução
8.2. Campos de força
8.3. Minimização de energia
8.4. Simulações por DM
8.5. Estratégias de análise
8.6. Limitações atuais da DM
8.7. E outras biomoléculas?
Figura 1-8: Variação do conteúdo de estrutura
8.8. Conceitos-chave secundária da melitina, peptídeo da abelha
Apis mellifera, como função do tempo. A for-
ma inicial é encontrada no ambiente cristali-
no, enquanto a final é observada em
8.1. Introdução condições próximas às plasmáticas.
Programa Distribuição
Assim, a DM nos possibilita obter
Abalone Gratuito
modelos de moléculas muito mais próximos
da realidade biológica, pois inclui diretamente ADUN Gratuito
características como a flexibilidade molecular
AMBER Pago
(através da variação temporal de
propriedades) e a temperatura (através da Ascalaph Designer Gratuito
aceleração dos átomos). A maioria dos CHARMM Pago
fenômenos biológicos estão associados à
flexibilidade de biomoléculas, como a catálise Discovery Studio Pago
e a modulação de canais iônicos e de re- GROMACS Gratuito
ceptores acoplados à proteína G. De fato,
muitos destes processos vêm sendo GROMOS Pago
descritos com sucesso por simulações de DM GULP Gratuito
ao longo dos anos.
Outros tipos de simulação estão LAMMPS Gratuito
disponíveis, tais como o Método de Monte MDynaMix Gratuito
Carlo, a Dinâmica Estocástica e a Dinâmica
Browniana. Iremos, contudo, nos ater à DM MOE Pago
em decorrência de seu maior uso, nos últimos MOIL Gratuito
anos, no estudo de biomoléculas.
MOLDY Gratuito
Muitos programas (Tabela 1-8) estão
disponíveis para a realização de simulações NAMD Gratuito
por DM diferindo, por exemplo, quanto a seu
RedMD Gratuito
acesso (gratuito ou pago), custo
computacional (isto é, tempo necessário para TeraQuem Pago
a execução de um mesmo cálculo) e tipos de TINKER Gratuito
campos de força disponíveis (ver adiante).
YASARA Pago
8. Dinâmica Molecular
como os átomos não estão isolados, mas li- também limitações. Por exemplo, enquanto
gados a outros átomos formando moléculas um tipo de campo de força pode descrever
que, por sua vez, interagem com outras mo- com elevada fidelidade proteínas, ele pode ser
léculas, eles estão sujeitos a forças inter- bastante limitado na reprodução da ge-
atômicas e inter-moleculares. O cálculo ometria de carboidratos ou ácidos nucleicos.
destas forças é realizado por uma outra Desta forma, ao iniciarmos um estudo por
função matemática, denominada campo de DM, devemos ter em mente qual o tipo de
força. molécula com o qual pretendemos trabalhar
O campo de força, seguindo a definição e qual o melhor campo de força para descre-
da IUPAC, pode ser descrito brevemente vê-la.
como “um conjunto de funções e A escolha de um campo de força não é, contudo,
parametrização usadas em cálculos de baseada somente no tipo de molécula com o qual
mecânica molecular”. Cada campo de força queremos lidar. Diversos outros aspectos podem
estabelece um conjunto de equações influenciar esta escolha. Existem, por exemplo,
matemáticas dedicadas a reproduzir aspectos diferentes níveis de simplificação na descrição dos
do comportamento molecular, como o átomos (Figura 3-8). O campo de força pode descrever
estiramento de ligações químicas, a todos os átomos do sistema (em inglês são
deformação de um ângulo de ligação ou a denominados campos de força all atom), mas isto
torção de um diedro, como podemos implica em um maior custo computacional, o que pode
observar em um espectro de infravermelho. se tornar proibitivo no estudo de grandes sistemas
Estas equações, por sua vez, são calibradas moleculares se não temos acesso a grandes
(ou seja, parametrizadas) para reproduzir o estruturas de processamento em paralelo (os
comportamento dos compostos de interesse chamados clusters).
(Figura 2-8). Como o elemento encontrado em maior quantidade
Equações e parametrizações diferentes é o átomo de hidrogênio, uma primeira simplificação é
podem ser empregadas, dando origem a denominada de átomo unido (em inglês são
campos de força diferentes, com vantagens e denominados campos de força united atom). Neste
Figura 2-8: Representação de alguns termos que compõem o campo de força GROMOS96. Ter-
mos semelhantes são também encontrados em diversos outros campos de força.
8. Dinâmica Molecular
Figura 3-8: Representação dos 20 aminoácidos, codificados no genoma para síntese proteica,
em um campo de força descrevendo todos os átomos, em um campo de força de átomo unido e
coarse-grained.
caso, os átomos de hidrogênio apolares, ou seja, capacidade de descrever elementos de estrutura 2ária,
aqueles ligados a átomos de carbono, são unidos a mantendo-se somente a forma global da molécula em
este elemento, dando origem a um pseudoátomo estudo. Assim, em estudos onde são esperadas
representando as propriedades de grupos CH, CH2 ou mudanças no conteúdo de estrutura 2ária o método de
CH3. Exceção se dá para o grupo CH de anéis CG não é indicado. Mas, por ser muito rápido, pode
aromáticos, que tem os átomos de hidrogênio descrever movimentos entre diferentes domínios de
descritos explicitamente nos campos de força de uma dada proteína, o que é difícil de ser observado,
átomo unido mais modernos, como o GROMOS96. usualmente, nos demais campos de força. Por outro
Há, por fim, um terceiro nível de simplificação, lado, o caso dos modelos de átomo unido traz
denominado coarse-grained (CG). Neste campo de limitações como a dificuldade em se utilizar estes
força, vários átomos podem ser agregados em uma campos de força na obtenção e refinamento de
única partícula, análoga ao pseudoátomo do modelo de modelos 3D de macromoléculas a partir de dados de
átomo unido. Por exemplo, todo um aminoácido pode RMN (Capítulo 12).
ser considerado como uma única partícula, como é o Outra diferença entre os campos de
caso da alanina e da glicina no campo de força força diz respeito à descrição das moléculas
MARTINI. Em outros resíduos, este campo de força de água, o principal solvente de biomoléculas
considera o esqueleto peptídico como uma partícula e (Tabela 2-8). De fato, uma das grandes
a cadeia lateral de uma (como na cisteína, treonina e vantagens do método de DM é a capacidade
serina) a três (histidina e fenilalanina) ou quatro de incluir a presença de moléculas de água
(triptofano) partículas. nos modelos gerados, descrevendo as suas
Quanto maior a simplificação, menor custo interações, como função do tempo, com os
computacional do cálculo. Em outras palavras, compostos em estudo. Da mesma forma que
podemos simular sistemas com maior número de visto para os campos de força, existem
átomos por mais tempo em computadores mais diversos modelos para descrição de
baratos. Infelizmente, estas simplificações trazem moléculas de água, por vezes com mais de
consigo algumas limitações. No caso do CG, perde-se a uma opção para um mesmo campo de força.
8. Dinâmica Molecular
Estes organizam-se em dois grandes grupos: seguir), cada um foi construído a partir de
os modelos explícitos e os implícitos. decisões metodológicas distintas apre-
sentando, portanto, particularidades im-
Tabela 2-8: Alguns dos modelos de água mais portantes. Como consequência, normalmente
comumente empregados em simulações por os parâmetros de um campo de força não
DMa. são transferíveis para outro campo de força.
A importância de conhecermos estas
Modelo Campos de força Tipo
características, reconhecendo cada campo de
onde são emprega-
força como entidade única, reside no fato de
dos
que um grande número de compostos de
SPC interesse biológico não é descrito nos
AMBER, GROMOS,
SPC/E OPLS parâmetros atuais, o que pode limitar o seu
estudo computacional. Dentre estes
TIP3P compostos com carências de parâmetros
podemos citar aminoácidos modificados
(além dos 20 codificados no genoma),
TIP4P neurotransmissores, hormônios, fos-
AMBER, CHARMM,
folipídeos, carboidratos, produtos naturais e,
OPLS por fim, fármacos. Como simulações por DM
podem ser cálculos extremamente de-
TIP5P morados, deixar para descobrir no meio do
trabalho que seu modulador de interesse não
tem parâmetros no campo de força escolhido
pode lhe custar alguns meses de trabalho.
MARTINI Martini Em linhas gerais, tanto a distância entre 2 átomos
ligados quanto o ângulo entre 3 átomos consecutivos é
descrita a partir de Vligação/ângulo = Kn [n – no]2, onde V é a
a
Uma revisão mais completa pode ser encontrada no energia, n é a distância ou ângulo em um dado
site: www1.lsbu.ac.uk/water/models.html momento, no é a distância ou ângulo de referência e Kn
é a constante de força da mola que mantém esses
Enquanto os modelos explícitos incluem os átomos valores ao redor dos valores de referência (Figura 2-
da molécula de água, fisicamente, na simulação, os 8).
modelos implícitos (também chamados de modelos Para diedros, a função mais usualmente empregada
contínuos ou continuum models) não incluem estas é baseada em Vdiedro = Kχ [1 + cos(nχ - δ)], sendo V a
moléculas diretamente, mas indiretamente, através da energia, χ o valor do diedro e Kχ a altura da barreira de
representação das propriedades dielétricas do energia entre diferentes estados conformacionais.
solvente. Os átomos que compõem a água não Estes estados surgem porque um diedro pode rodar
participam das simulações, tornando o cálculo 360o e, ao longo desta rotação, apresentar múltiplos
extremamente rápido (usualmente, a grande maioria mínimos de energia. Assim não há, necessariamente,
dos átomos em um sistema a ser simulado por DM se uma única geometria de referência. O perfil rotacional
refere ao solvente). Infelizmente, enquanto estes dos diedros tem a adição do parâmetro n, que
modelos implícitos são bastante eficientes no estudo descreve a multiplicidade do diedro (ou seja, o número
de proteínas e ácidos nucleicos, o mesmo não vem se de mínimos de energia) e δ, que diz respeito à mudança
mostrando para carboidratos, compostos altamente de fase e à localização do máximo de energia ao longo
polares que interagem intensamente com o solvente. do perfil da rotação do diedro.
Embora os principais campos de força Apesar da semelhança nesses termos, existem
empregados atualmente (AMBER, CHARMM, diferenças importantes que devem ser consideradas. O
OPLS e GROMOS) sejam compostos por CHARMM, por exemplo, emprega uma equação
equações bastante semelhantes (ver a adicional na descrição dos ângulos de ligação, chamada
8. Dinâmica Molecular
Urey-Bradley, que busca preservar a distância entre o de raios-X (ver capítulo 13) ou de RMN (ver
primeiro e o terceiro átomos de um ângulo. Outra capítulo 12). Independente de sua origem
diferença se refere aos termos que descrevem a estas estruturas, ao serem solvatadas, criam
planaridade ou quiralidade em um conjunto de quatro interações soluto-solvente até então
átomos, o que é usualmente chamado de diedro inexistentes (seja pelo dado ser teórico obtido
impróprio (Figura 2-8). Enquanto AMBER e OPLS os no vácuo, em ambiente cristalino ou como
descrevem da mesma forma que os demais diedros uma média de diferentes conformações). Mas
(também chamados de diedros próprios), CHARMM e o solvente precisa se adaptar ao redor de seu
GROMOS aplicam uma equação diferente, que se soluto, e isto precisa ser corrigido antes que a
assemelha àquela empregada para distâncias e simulação por DM se inicie. Por exemplo,
ângulos. quando o programa insere uma molécula de
Abordar com profundidade a água, esta pode ter seu hidrogênio apontando
construção de parâmetros para campos de para um átomo de hidrogênio da cadeia
força está além do objetivo deste livro. Mas lateral de uma arginina, promovendo uma
em muitos casos há uma solução um pouco repulsão eletrostática pela proximidade de
mais simples para o problema. Uma duas cargas de sinais iguais. Se isto não for
característica importante de campos de força corrigido antes do início da DM, a liberação
é a chamada transferabilidade. Isto significa desta energia na simulação pode gerar uma
que grupos químicos semelhantes possuem explosão da simulação (Figura 4-8) ou, de
propriedades semelhantes que podem, assim, forma mais sutil (mas nem por isso menos
serem transferidas de uma molécula para perigosa para o estudo), promover mudanças
outra. Por exemplo, o grupo hidroxila de um conformacionais na proteína, ou mesmo
resíduo de Ser é equivalente ao grupo desnaturações. Em outros casos, como na
hidroxila de um resíduo de Thr. Assim, há uma obtenção de modelos teóricos para a
redução enorme na necessidade de estrutura 3D de proteínas, a construção de
construção de parâmetros para novos cadeias laterais de aminoácidos pode
compostos, se respeitarmos a semelhança aproximá-las artificialmente (e exces-
química entre eles. sivamente) de outros resíduos.
Assim, uma das principais formas de
8.3. Minimização de energia tentar eliminar estes problemas reside no
cálculo de minimização de energia (Figura 5-
Quando iniciamos um estudo baseado 8). Durante este cálculo, a energia global do
em simulações por DM, podemos empregar sistema é reduzida, alcançando por fim uma
estruturas de partida de diferentes origens, conformação mais estável para o sistema em
como modelos teóricos (ver capítulo 7) ou estudo (ou seja, um estado de mínimo de
ainda dados experimentais de cristalografia energia).
impedir isso é criar uma força que impeça as economizar custo computacional ao reduzir a
moléculas do sistema de ultrapassarem os limites quantidade de solvente excessivamente. Se a caixa for
desta esfera, o que representa a inclusão de forças pequena demais, a proteína pode interagir com suas
artificiais, não observáveis em condições biológicas. imagens, geradas pelas condições periódicas de
As formas geométricas empregadas contorno, criando uma situação artificial que
mais frequentemente em em simulações por provavelmente irá deturpar os resultados obtidos. É
DM estão relacionadas a uma estratégia importante, assim, avaliar se o corte das interações
denominada condições periódicas de contorno não ligadas (ver adiante) é menor que a distância da
(Figura 6-8). Estas formas permitem que proteína às suas imagens.
uma caixa de simulação seja replicada em
todas as suas dimensões, de forma periódica. Equilibração
Estas réplicas são idênticas à caixa
construída, de forma que um movimento A ideia de equilibração de uma
molecular em uma será idêntico ao simulação por DM se refere à estabilização de
movimento da mesma molécula na outra. suas propriedades, ou seja, que estas alcan-
Mas, agora, a face da caixa não está em con- cem um estado de equilíbrio. Considera-se
tato com o vácuo, mas com solvente. E, caso que, antes de estarem equilibradas, as
uma molécula saia da caixa central, uma de propriedades em estudo apresentam
suas imagens entrará pela face oposta, variações ou comportamentos não
mantendo o número de moléculas constante. representativos das situações de interesse.
Isto representa uma continuidade da solução, Assim, é necessário que o tempo de
nos aproximando de condições experimentais. simulação seja suficientemente longo (tama-
nho da amostragem, ver adiante) para que as
propriedades em estudo estejam ade-
quadamente equilibradas. Na Figura 1-8, por
exemplo, a simulação de um monômero de
melitina demora em torno de 4 ns para se
equilibrar.
Um dos motivos mais comuns para a necessidade
de equilibração é devido ao uso de estruturas 3D
derivadas de ambientes cristalinos, isto é, aquelas
obtidas por cristalografia de raios-X. Este ambiente
apresenta concentração de proteínas muito maior do
que aquela observada, usualmente, nas condições bio-
lógicas de interesse, por vezes em estados
oligoméricos não observados em condições bio-
lógicas. Assim, a remoção destes contatos e sua
substituição por moléculas de água, acarretará em
uma instabilidade inicial na simulação, envolvendo: 1) a
perda de contatos cristalográficos, e 2) a formação de
Figura 6-8: Representação das condições pe- interações com moléculas de água.
riódicas de contorno em uma simulação por Infelizmente, a busca por tempos de simulação
DM. Somente a caixa central é simulada, en- "suficientemente longos" para equilibração das
quanto que as réplicas garantem a continui- propriedades de interesse pode ser desafiadora, pois
dade do sistema, isto é, ausência de contato nem todas as propriedades moleculares equilibram a
das moléculas com o vácuo. uma mesma velocidade. Por exemplo, a interação de
uma proteína com o solvente equilibra usualmente
Devemos, contudo, tomar cuidado para não definir mais rapidamente do que a perda ou a formação de
uma caixa excessivamente pequena, buscando estrutura 2ária. Estas, por sua vez, equilibram mais
8. Dinâmica Molecular
Amostragem
A amostragem de uma simulação por
DM se refere a quão bem ela é capaz de des-
crever o comportamento do sistema molecu-
lar em estudo. Idealmente, a amostragem de
uma simulação deve ser longa o bastante pa-
ra descrever os fenômenos de interesse.
Contudo, a simulação de sistemas complexos
como aqueles envolvendo biomoléculas fre-
quentemente esbarra em amostragens ainda
inalcançáveis em decorrência de seu elevado
custo computacional.
A maneira mais simples de se entender a amostra-
gem é considerando o tamanho da simulação em uma
escala de tempo. Um maior tempo de simulação impli-
ca em uma maior amostragem. Contudo, diversos as-
pectos podem interferir neste entendimento. O
aumento do número de moléculas e átomos no siste-
ma aumenta o número de possíveis conformações a
serem adotadas. Por outro lado, o uso de campos de
força do tipo átomo unido ou ainda coarse-grained,
ao reduzir o número de átomos, reduz o número de
possíveis estados conformacionais a serem adotados
pelo sistema, tornando assim a amostragem maior em
uma mesma escala de tempo.
Tempo de integração
O cálculo de uma simulação por DM não
gera informações contínuas, mas sim é dividi-
da em pequenos passos, usualmente na es- Figura 7-8: Representação do efeito de dife-
cala de femtossegundos (fs). A sucessão rentes tempos de integração na amostragem
destes passos dará origem ao nosso entendi- de uma simulação por DM. Valores muito pe-
mento de trajetória, isto é, à evolução tem- quenos (0,5fs) descrevem fenômenos com
poral do comportamento molecular na maiores detalhes, mas mais lentamente. Va-
simulação realizada. O tamanho destas partes lores muito grandes (4,0fs) apresentam me-
é o que chamamos de tempo de integração nores custos computacionais, mas podem dar
(Figura 7-8). origem a instabilidades.
A definição de um valor apropriado para
o tempo de integração está diretamente rela- pode ser feita empregando-se diferentes va-
cionada ao tamanho da amostragem da si- lores de tempo de integração. Quanto maior
mulação e, por conseguinte, ao custo este valor, menos passos de cálculo serão
computacional da mesma. Conforme ilustra- necessários à descrição do fenômeno e, por
do na Figura 7-8, a descrição de uma deter- conseguinte, menor será o custo computaci-
minada propriedade tempo-tempendente onal associado. Quanto menor este valor,
8. Dinâmica Molecular
mais passos serão necessários e, assim, mai- putacional, tendo em vista que nenhuma interação de
or o custo computacional. Infelizmente, o uso Coulomb seria avaliada a partir desta distância. Já o uso
de tempos de integração muito elevados pode do corte b traria um maior custo computacional, in-
gerar instabilidades na trajetória, de forma cluindo as interações entre o soluto e as moléculas na
que valores intermediários são usualmente faixa cinza da figura. Contudo, ao reduzir o custo com-
empregados, no caso da Figura 7-8, 2fs. putacional, o corte a potencialmente implicará na per-
Os valores de tempo de integração mais frequente- da de informações importantes, por ser muito próximo
mente empregados em simulações baseadas em cam- do soluto. Assim, a distância b seria preferível.
pos de força atomísticos (isto é, todos os átomos são
descritos) ou de átomo unido são 1fs, 2fs ou 5fs. O uso
de 1fs é realizado quando as moléculas e suas ligações
são tratadas como flexíveis durante a simulação, en-
quanto 2fs requerem o tratamento das ligações quími-
cas como rígidas. Já para o uso de 5fs, toda a molécula
é tratada como rígida (ou seja, ângulos e diedros não
podem ser modificados), uma alternativa pouco utili-
zada no estudo de sistemas biológicos. Em algumas si-
tuações podem ser empregados tempos de integração
menores que 1fs, mantida toda a flexiblidade da molé-
cula. Em outros casos, como em simulações do tipo
coarse-grained, tempos de integração de até 40fs.
assunto em estudo, envolvem muitas vezes sistemas biológicos), o volume (no caso de
mais tempo do que a simulação computacio- simulações NVT), a densidade e a energia to-
nal em si. tal do sistema. Todas estas propriedades de-
Os tipos de análises a serem emprega- vem alcançar um patamar estável, paralelo
das estarão intrinsecamente relacionados à ao eixo x (tempo). Pode-se observar alguma
natureza do problema em estudo. Por variação no início da simulação mas, em se-
exemplo, se estamos estudando uma proteína guida, devem atingir este patamar e se man-
tentando mimetizar o ambiente nativo da ter neste nível ao longo da simulação. Estas
mesma, em princípio, ela não pode se desna- costumam ser propriedades de rápida equili-
turar durante a simulação. Por outro lado, o bração em simulações por DM.
estudo de membranas elimina esta preocu- Garantidas estas propriedades, pode-
pação mas nos traz a necessidade de avaliar mos passar à análise de aspectos mais com-
as propriedades dos lipídeos enquanto imer- plexos, como do comportamento da estrutura
sos num fluido. Adicionalmente, dados prévi- proteica ao longo da simulação. Neste grupo,
os sobre características estruturais e/ou as ferramentas mais comumente emprega-
funcionais das moléculas em estudo, obtidos das incluem o RMSD, o RMSF, o raio de giro,
tanto por métodos computacionais quanto distâncias entre átomos ou grupamentos e a
por outras ferramentas experimentais são evolução do conteúdo de estrutura 2ária como
fundamentais na concepção, preparo, execu- função do tempo.
ção e análise de estudos por DM. Esta é, fun- O RMSD (do inglês root mean square deviation ou
damentalmente, a razão pela qual este livro desvio quadrático médio) é uma das principais estraté-
traz em si diversos métodos experimentais. gias de análise empregadas no estudo por DM de pro-
Neste momento, a adequação da amos- teínas (Figura 9-8A). Indica o quanto a estrutura da
tragem às propriedades em estudo assume proteína de interesse se modifica ao longo de uma si-
importância fundamental. Se buscamos estu- mulação, em relação à estrutura de partida, normal-
dar o movimento de domínios de uma proteí- mente cristalográfica. Assim, é usual que haja um
na, simulações de dezenas de nanossegundos aumento progressivo no RMSD de uma proteína, par-
não serão suficientes, requerendo potencial- tindo de 0, até um patamar, o que pode indicar a equili-
mente tempos próximos de microssegundos, bração do sistema. Este patamar pode variar em
possivelmente inviabilizando o estudo por DM. função das características da proteína mas, como um
De forma semelhante, a observação do eno- ponto de partida, podemos considerar um valor em
velamento de proteínas por DM é impraticável torno de 3 Å quando todos os átomos do sistema são
na grande maioria dos casos, salvo em pe- empregados na medida. Valores acima deste podem
quenas proteínas ou peptídeos, de qualquer sugerir movimentos maiores de alças, em relação ao
forma, requerendo no mínimo centenas de cristal, ou perda de estrutura 2ária, enquanto valores
nanossegundos. Por outro lado, reorientação menores tendem a indicar sistemas mais semelhantes
ou refinamento de cadeias laderais de resídu- à referência cristalográfica.
os de aminoácidos ou de ligantes em comple- Uma consideração importante quando realizamos
xos fármaco-receptor podem ser observados análises de RMSD se refere ao fato de que esta análise
frequentemente em algumas dezenas de na- oferece uma medida média de um conjunto de átomos,
nossegundos. selecionados para a análise. Se todos os átomos de
As análises de simulações por DM de- uma proteína são considerados, como no exemplo aci-
vem, preferencialmente, ser realizadas ob- ma, os valores observados trazem consido influências
servando propriedades de complexidade de diferentes regiões da proteína. Por exemplo, nor-
crescente (o que costuma estar associado ao malmente conjuntos de hélices α se modificam menos
tempo requerido à equilibração desta propri- durante uma simulação do que regiões de alças. Caso
edade). Assim, as primeiras propriedades a façamos uma análise de RMSD separada para estas
serem avaliadas são normalmente a pressão regiões, veremos hélices α com valores menores e al-
(no caso de simulações NPT, mais comuns em ças com valores maiores do que aqueles considerando
8. Dinâmica Molecular
nalmente, a cada momento se mostrando co- Para ácidos nucleicos, os campos de força mais
mo capazes de atuarem em mais fenômenos amplamente utilizados são o AMBER e o CHARMM,
biológicos. Valorização semelhante vem sen- tanto para DNA quanto para RNA.
do observada para membranas e carboidra- A parametrização de carboidratos, por sua vez,
tos que, progressivamente, deixam de ter está imersa em desafios devido à sua elevada
papéis passivos, simplesmente estruturais, complexidade estrutural e conformacional, de forma
passando a desempenhar papéis ativos, sina- que uma sucessão de novos parâmetros vêm sendo
lizando diretamente múltiplas respostas em desenvolvida.
organismos. Por fim, o grupo de compostos mais
Assim, a construção de modelos computacionais desafiadores com relação à disponibilidade
para o estudo de biomoléculas deve incluir o máximo prévia de parâmetros envolve os fármacos ou
de propriedades importantes ao desenvolvimento nor- moduladores da função proteica que não es-
mal de suas funções, em condições nativas. Uma pro- tão sob uso terapêutico (genericamente cha-
teína inserida em membrana irá exigir a inclusão da mados de ligantes). Em decorrência de sua
membrana nas simulações, da mesma maneira que variedade e originalidade química, é extrema-
uma glicoproteína irá demandar a inclusão da parte sa- mente difícil ter, de antemão, parâmetros
carídica em seu estudo. próprios à sua descrição. Assim, é frequente a
Do ponto de vista da disponibilidade de necessidade de parametrização dos ligantes
parâmetros de campos de força, diferentes em estudo, seguindo as características do
classes de biomoléculas apresentam diferen- campo de força em uso.
tes disponibilidades de parâmetros. Por isso, Embora os quatro campos de força citados
é importante considerar todos os componen- possuam parâmetros para um amplo espectro de
tes do sistema molecular quando da escolha grupamentos funcionais, para casos específicos
do campo de força a ser empregado. Se a ferramentas como o servidor PRODRG (para o
nossa molécula em estudo é uma glicoproteí- GROMOS) e o GAFF (para o AMBER) são capazes de
na, não adianta empregar um campo de força gerar parâmetros, com graus variados de precisão, que
excelente para carboidratos se o mesmo não podem ser empregados no estudo de compostos
possui parâmetros para o estudo de proteí- orgânicos em geral.
nas.
Atualmente, os principais campos de força são 8.8. Conceitos-chave
capazes de descrever a grande maioria das classes de
biomoléculas. Originalmente, no entanto, o campo de Amostragem: refere-se à descrição do compor-
força AMBER foi desenvolvido para o estudo de ácidos tamento conformacional de uma dada
nucleicos e proteínas, o CHARMM para proteínas, o molécula em uma simulação.
GROMOS para lipídeos e o OPLS para líquidos e
solventes. Com o passar do tempo, cada um desses Campo de força: conjunto de equações que
parâmetros foi sendo aprimorado focando em descreve o comportamento molecular em
diferentes biomoléculas, de forma que, hoje, alguns cálculos de mecânica molecular. É ajusta-
são empregados com maior freqüência para do para cada tipo de molécula a ser estu-
determinados sistemas por melhor descreverem suas dado.
propriedades (estruturais, conformacionais ou físico-
químicas). Campo de força all atom (todos os átomos):
No caso específico de proteínas, os campos de considera todos os átomos do sistema ex-
força citados acima descrevem de forma semelhante plicitamente.
sua estrutura, conformação e dinâmica. No caso de
lipídeos, a maior parte dos estudos envolve os campos Campo de força united atom (átomo unido):
de força CHARMM e GROMOS, embora o último ofereça transforma grupos CH, CH2 e CH3 em uma
um ganho de velocidade de até nove vezes devido a sua única partícula ou pseudoátomo, reduzin-
natureza de átomo unido. do o número de átomos a ser descrito.
8. Dinâmica Molecular
Isabella A. Guedes
Camila S. de Magalhães
Laurent E. Dardenne
9.1. Introdução
9.2. Reconhecimento molecular
9.3. Métodos de atracamento
9.4. Triagem em larga escala Figura 1-9: Exemplos de complexos
moleculares: (A) chaperona GroEL (PDB ID
9.5. Considerações finais 1AON), (B) complexo DNA com proteína DMT1
(PDB ID 3PT6) e (C) complexo da enzima HIV-1
9.6. Conceitos-chave protease com o inibidor indinavir (PDB ID
1HSG). As versões menores em B e C estão
em escala com A.
Figura 3-9: Graus de flexibilidade do receptor: (A) mobilidade do esqueleto peptídico da enzima
protease do HIV-1, (B) diversas conformações de alça no sítio de ligação do ATP à enzima MAP
cinase p38, e (C) mudança conformacional da cadeia lateral de resíduo na enzima cinase JNK3,
influenciada por diferentes inibidores.
9. Atracamento Molecular
Interação Linear (LIE, do inglês Linear Interac- cas conformacionais das moléculas intera-
tion Energy), a qual trata de estimar as ener- gentes são alguns dos maiores desafios para
gias livres a partir de simulações de dinâmica o desenvolvimento das metodologias de
molecular utilizando um campo de força mo- atracamento molecular.
lecular clássico. Os cálculos de energia livre
com esta metodologia envolvem simulações 9.3. Métodos de atracamento
somente nos estados inicial (ligante em solu-
ção) e final (complexo receptor/ligante), po- O problema de atracamento molecular
dendo reduzir desta maneira os problemas de pode ser dividido em duas partes principais:
convergência e custo computacionais associ- i) investigação e predição da confor-
ados às técnicas PEL e IT. A ideia principal é mação e orientação de uma molécula
considerar as contribuições polares e não po- ligante no seu sítio de complexação;
lares separadamente. A parte polar ou ele- ii) predição da afinidade em um com-
trostática pode ser tratada usando a plexo receptor-ligante, isto é, a energia
aproximação de resposta linear, enquanto que livre de ligação (normalmente chamado
a não polar é calculada usando uma fórmula na literatura de função scoring).
empírica calibrada sobre um conjunto de da-
dos experimentais: Atualmente existem diversos progra-
mas de atracamento molecular disponíveis
∆Glig=α VLJ lig - VLJ livre + β Vel lig - Vel livre (Tabela 1-9), distinguindo-se principalmente
pelo método de busca e pela função de avali-
onde α é o fator empírico que surge das inte- ação de afinidade empregada. Podem ainda
rações não polares e β é o correspondente às diferir quanto à possibilidade de serem utili-
interações eletrostáticas. V representa os va- zados através de portais ou localmente, de
lores médios da energia de interação entre o utilização gratuita ou paga, na necessidade de
ligante e o meio circundante, tanto para o ter- registro e na integração com bancos de ligan-
mo eletrostático (el) como para o de Lennard- tes e proteínas.
Jones (LJ). O método de Energia de Interação
Linear tem sido aplicado com sucesso em sis- Tabela 1-9: Portais de acesso para alguns
temas complexos, o que o torna um método programas de atracamento molecular.
eficiente e mais rápido para a determinação
de energias livres de ligação, mas com um Portal Programa de
custo computacional suficientemente grande atracamento
para torná-lo praticamente inviável para estu- SwissDock EADock DSS
dos envolvendo várias dezenas ou centenas
DockingServer AutoDock
de ligantes.
Outro método utilizado para se obter melhores DockThor Portal DockThor
predições para as energias livres de ligação é o MM- 1-Click Docking AutoDock Vina
PBSA (Molecular Mechanics Poisson-Boltzmann DOCK Blaster DOCK
Surface Area) e MM-GBSA (Molecular Mechanics
Docking At UTMB AutoDock Vina
Generalized-Born Surface Area). Estes métodos utili-
zam simulações de dinâmica molecular do ligante/pro- ParDOCK Método de Monte Carlo
teína livres e do complexo como base para os cálculos PATCHDOCK PatchDock
da energia potencial média e de solvatação.
MEDock MEDock
A obtenção de uma descrição suficien-
temente acurada e viável computacionalmen- Preparação do sistema
te do papel das moléculas de água no
processo de reconhecimento molecular e a Uma etapa muito importante para um
quantificação correta das variações entrópi- estudo de reconhecimento molecular proteí-
9. Atracamento Molecular
pequenos fragmentos rígidos. Em um primeiro mo- bilidade de que configurações já visitadas venham a ser
mento, um fragmento-base é ancorado no sítio recep- amostradas novamente.
tor e, posteriormente, todos os outros fragmentos são Os métodos baseados em DM podem ser utilizados
adicionados de forma incremental, até a reconstrução em uma estratégia conjunta com outros tipos de mé-
total do ligante. Cada fragmento adicionado possui uma todos de busca. Nesta estratégia, métodos sistemáti-
ligação química rotacionável com o fragmento base. A cos/incrementais/estocásticos são utilizados para
junção dos fragmentos é feita com base em uma busca gerar um conjunto de configurações proteína-ligante
conformacional, a partir de um banco de valores de prováveis. Nesta etapa, muito mais rápida, são intro-
ângulos diedrais, de maneira a investigar sistematica- duzidas restrições associadas à flexibilidade do ligante
mente a flexibilidade associada a este ângulo específi- e da proteína, e quanto à descrição do efeito solvente
co. Exemplos de programas de atracamento que (uso da aproximação de solvente implícito). Na etapa
utilizam construção incremental são DOCK, FlexX, Gli- seguinte, muito mais custosa, simulações de DM com
de, EUDOC e Surflex. solvente explícito e considerando flexibilidade total do
Nos métodos de busca determinística, receptor e do ligante são realizadas tomando-se como
dado um mesmo estado inicial de entrada, é ponto de partida as melhores configurações geradas
obtido sempre o mesmo resultado de saída. na etapa anterior.
Métodos de simulação por dinâmica molecu- Nos métodos de busca estocástica o
lar e métodos clássicos de minimização de processo de otimização envolve movimentos
energia são exemplos de métodos de busca aleatórios associados aos graus de liberdade.
determinística utilizados por programas de Este fato implica na possibilidade de se obter
atracamento molecular. diferentes resultados como saída para um
Uma das grandes vantagens dos métodos de atra- mesmo estado inicial de entrada. A maioria
camento baseados em dinâmica molecular é que tanto dos métodos desta classe não possui garantia
a influência do solvente explícito quanto de todos os de convergência. Portanto, em estudos de
graus de liberdade do complexo proteína-ligante são atracamento molecular, várias execuções in-
explorados de forma mais natural. Entretanto, estes dependentes do algoritmo são necessárias
métodos possuem um custo computacional elevado e, para se realizar uma boa investigação do sis-
dependendo da altura das barreiras de energia encon- tema. Monte Carlo, Recozimento Simulado
tradas, podem ficar presos em configurações associa- (Simulated Annealing) e Algoritmos Evolucio-
das a mínimos locais do sistema. nistas são exemplos de métodos de busca
Para tentar superar esta limitação, é possível utili- estocástica mais comumente utilizados por
zar algumas estratégias como, por exemplo, aumentar programas de atracamento receptor-ligante.
a temperatura de simulação, suavizar a superfície de Glide, ICM, Prodock, AutoDock e LigandFit são
energia potencial e simular diferentes partes do siste- exemplos de programas que utilizam os mé-
ma proteína-ligante com diferentes temperaturas, todos estocásticos de Monte Carlo e Simula-
além de iniciar os cálculos de dinâmica molecular com ted Annealing.
o ligante em distintas conformações. O programa No método de Monte Carlo padrão (MC) é gerada
CDOCKER é um exemplo de programa que utiliza DM aleatoriamente uma conformação inicial do ligante e,
em conjunto com a geração de várias configurações do em seguida, tomando esta configuração como refe-
ligante para serem utilizadas como pontos de partida rência, é gerada uma nova configuração. Se a configu-
em simulações com altas temperaturas e potenciais ração gerada possuir energia menor que a
suavizados. configuração de referência (ΔV<0), a nova configuração
Ainda, uma técnica que tem sido utilizada com bas- é imediatamente aceita e tomada como referência para
tante sucesso no estudo de interações ligante-receptor a próxima iteração. Caso contrário (ΔV≥0), o critério de
é a metadinâmica. Nesta técnica, uma força adicional é Metropólis é utilizado para decidir se a nova configura-
calculada durante a simulação de DM. Esta força de- ção será aceita ou não. Esse processo é repetido até
pende do próprio histórico da simulação, e tem a fun- que o número desejado de configurações seja obtido.
ção de facilitar a amostragem do espaço O critério de Metropólis consiste em se gerar um
configuracional do sistema, tentando diminuir a proba- número aleatório entre 0 e 1 e compará-lo com o fator
9. Atracamento Molecular
“útil” na população, ou seja, incentiva a preservação de funções de avaliação, que variam principal-
múltiplas soluções de alta aptidão na população ao mente no número e tipo de termos, na sua
mesmo tempo em que aumenta a probabilidade de se complexidade matemática e na forma de pa-
encontrar o mínimo global. rametrização. Para reduzir o custo computa-
Os programas MolDock, PRO_LEADS, SODOCK, cional, uma função mais simples costuma ser
PSO@Autodock, FIPSDOCK e Autodock Vina são utilizada durante a avaliação das conforma-
exemplos de programas de atracamento que utilizam ções geradas pelo método de busca. Já nas
estratégias de otimização estocástica. O MolDock utili- etapas finais do atracamento molecular, uma
za um algoritmo de evolução diferencial. Os programas função de avaliação mais complexa e sofisti-
SODOCK, PSO@Autodock e FIPSDock utilizam variantes cada é empregada de forma a obter uma
do algoritmo de otimização por enxame de partículas maior acurácia na predição do correto modo
(particle swarm). O PRO_LEADS utiliza um algoritmo de ligação e na predição da afinidade do li-
de busca Tabu. O programa AutoDock Vina implementa gante pelo receptor. As funções de avaliação
um algoritmo similar ao utilizado pelo programa de mais utilizadas no atracamento molecular re-
atracamento ICM. Neste algoritmo, uma sucessão de ceptor-ligante podem ser classificadas em
passos consistindo de mutação e busca local são efe- três tipos: baseadas em campo de força, em-
tuados, onde o resultado de cada passo é aceito ou não píricas e baseadas em conhecimento.
de acordo com o critério de Metrópolis. Funções de avaliação baseadas em
campos de força constituem-se em uma so-
Funções de avaliação ma de termos advindos de algum campo de
força molecular clássico, cuja parametrização
Os métodos de busca geram uma gran- pode ser feita utilizando dados experimentais
de quantidade de conformações do ligante ou provenientes de cálculos quânticos (po-
durante o atracamento molecular. As funções dendo também ser a combinação de ambos).
de avaliação são combinadas aos métodos de Os termos de energia são divididos em ter-
busca para avaliar a qualidade destas confor- mos não-ligados (associados a interações de
mações de forma a ordená-las de acordo com van der Waals, eletrostáticas e ligações de hi-
a sua afinidade pelo receptor. Uma função de drogênio) e termos ligados (representando
avaliação deve ser capaz de distinguir o modo normalmente a energia associada à torção de
de ligação experimental dos outros encontra- ligações químicas). Outros termos são nor-
dos pelo método de busca (ou seja, previsão malmente utilizados para tentar incorporar
do modo de ligação). Também deve ser capaz efeitos adicionais, tais como energia de sol-
de ordenar corretamente uma lista de ligan- vatação e interações hidrofóbicas. Exemplos
tes com relação às suas afinidades pela ma- de campos de força moleculares clássicos
cromolécula receptora (triagem virtual) e são GROMOS, AMBER, CHARMM e MMFF94.
prever as respectivas energias livres de liga- As funções empíricas são aquelas de-
ção (predição de afinidade). Sendo assim, o senvolvidas utilizando complexos receptor-li-
desempenho de uma função de avaliação está gante com estruturas tridimensionais e
diretamente relacionado à sua capacidade de afinidades conhecidas. A partir destes dados,
predição do correto modo de interação do li- seus termos são automaticamente ajustados
gante e da sua afinidade pelo receptor alvo. de forma a reproduzir os dados experimentais
Estas funções são modelos matemáti- de afinidade de ligação com a maior acurácia
cos, geralmente lineares, formados por dife- possível. Neste sentido, estas funções se ba-
rentes termos relacionados às propriedades seiam na ideia de que a energia livre de liga-
físico-químicas envolvidas na interação de ção pode ser relacionada através do
uma pequena molécula ligante com seu sítio somatório de variáveis não correlacionadas.
de ligação a um receptor. De acordo com o Cada variável possui um fator relativo de es-
objetivo e a etapa do estudo de atracamento calonamento, parametrizado de forma a ma-
molecular, podem ser utilizadas diferentes ximizar a correlação com os dados
9. Atracamento Molecular
processo de encaixe induzido fazem isso ge- grama ICM/IFREDA utiliza o método de Monte
rando diversas conformações da proteína Carlo seguido de minimização de energia para
concomitantemente com o processo de busca otimizar cadeias laterais e/ou partes flexíveis
conformacional do ligante dentro do sítio de do esqueleto peptídico. Os programas
ligação. Essa abordagem implica em selecio- AutoDock4 e GOLD utilizam algoritmos gené-
nar graus de liberdade adicionais que sejam ticos para introduzir flexibilidade nas cadeias
representativos da flexibilidade da proteína laterais de resíduos. O programa
durante o processo de encaixe-induzido. Nor- ROSETTALIGAND utiliza um método de Monte
malmente, são selecionados graus de liber- Carlo para explorar simultaneamente os
dade associados a cadeias laterais de graus de liberdade associados ao ligante, às
resíduos importantes no sítio receptor e, em cadeias laterais dos resíduos e ao esqueleto
alguns casos, a regiões específicas do esque- peptídico da proteína.
leto peptídico da proteína, tais como alças Os métodos que se baseiam no meca-
flexíveis que estejam próximas do sítio e que nismo de conjunto-de-conformações fazem
possam interagir diretamente com os ligan- uso de um número discreto de conformações
tes. representativas da flexibilidade da proteína ao
O problema com esta abordagem é que invés de considerar a flexibilidade da proteína
a complexidade do processo de busca cresce explicitamente durante o processo de atraca-
a cada grau de liberdade adicionado, aumen- mento molecular (Figura 7-9). Estas confor-
tando o custo computacional e diminuindo a mações podem ser obtidas de distintos
probabilidade do algoritmo encontrar o míni- experimentos, utilizando as técnicas de difra-
mo global da superfície de energia. É neces- ção de raios-X e/ou RMN. Também podem ser
sário que o modelador faça uma escolha obtidas a partir de modelos gerados por téc-
criteriosa de quais cadeias laterais deve con- nicas de predição de estruturas de proteínas,
siderar flexíveis. No caso de cadeias laterais a partir de simulações de dinâmica molecular
de resíduos de aminoácidos, a busca confor- ou utilizando a técnica de modos normais. Há
macional pode ser feita pela investigação evidências significativas na literatura de que o
exaustiva dos ângulos torcionáveis da cadeia uso de múltiplas conformações aumenta sig-
ou através de uma busca discreta entre con- nificativamente a probabilidade de obter su-
formações preferenciais através da utilização cesso em estudos de atracamento molecular.
do uso de bibliotecas de rotâmeros. É impor- Três questões importantes que se colo-
tante ressaltar que mesmo com a utilização cam a respeito destas abordagens e que dife-
destas bibliotecas, a inclusão da flexibilidade renciam os diversos métodos descritos na
de várias cadeias laterais pode facilmente le- literatura: i) como utilizar as diversas confor-
var a uma explosão combinatorial que preju- mações da proteína; ii) como gerar e selecio-
dica o desempenho dos algoritmos de nar as conformações da proteína; e iii) como
atracamento. ordenar os compostos considerando os atra-
Outra estratégia comumente utilizada camentos dos ligantes nas diversas confor-
para introduzir certa acomodação proteína-li- mações da proteína.
gante no processo de atracamento envolve o Com relação ao modo de utilização das
emprego de um algoritmo de otimização lo- conformações, a forma mais simples e usual
cal, tais como aqueles baseados na minimiza- é considerar cada conformação da proteína
ção do gradiente ou em Monte Carlo, para como rígida e realizar um estudo de atraca-
reinvestigar as configurações ligante-proteína mento molecular para cada conformação se-
geradas durante o processo de busca. O pro- lecionada, embora o custo computacional
grama Prodock é um exemplo que utiliza a cresça proporcionalmente ao número de
minimização por gradiente durante o proces- conformações da proteína selecionadas. Uma
so de busca para incorporar a flexibilidade em metodologia de pré-seleção das conforma-
regiões da cadeia principal da proteína. O pro- ções que reduza significativamente o seu nú-
9. Atracamento Molecular
mero, sem grande perda da informação sobre melhor solução encontrada nos experimentos de atra-
a flexibilidade do receptor (por exemplo, camento onde cada ligante é atracado em cada uma
através de agrupamento por semelhança ou das conformações representativas da flexibilidade da
construção de clusters), é algo extremamen- proteína.
te desejável. A metodologia de grade é uma estratégia utilizada
Outra forma possível é o uso de grades de energia para aproximar o cálculo das energias eletrostáticas e
(Figura 8-9) combinadas. Os métodos de grade de de van der Waals (outros termos da função energia
energia combinada consistem na combinação ou junção também podem ser utilizados), reduzindo drastica-
de diversas estruturas/conformações rígidas de uma mente o custo computacional do cálculo da energia de
mesma proteína, em uma única grade de energia. A interação intermolecular proteína-ligante. Uma grade
combinação das grades de energia pode ser realizada de energia pode ser representada como uma malha de
de várias maneiras. Geralmente, a média ou a média pontos tridimensional, em que cada ponto armazena o
ponderada entre estas grades é calculada, gerando potencial total eletrostático e de van der Waals. Os va-
uma única grade. O programa DOCK foi o primeiro a lores da energia são obtidos através da interpolação
implementar conjuntos de grades de energia para a in- dos valores armazenados nos oito pontos que definem
clusão da flexibilidade da molécula receptora. uma célula cúbica da grade. O espaçamento entre os
Osterberg e colaboradores compararam vários pontos da grade (discretização, ) determina o nível da
métodos de grade combinada no programa AutoDock. aproximação: quanto maior a discretização, menor a
Um deles utilizava a média entre as grades, outro o va- precisão no cálculo da energia de interação intermole-
lor mínimo e os outros dois utilizavam médias ponde- cular. O tamanho e formato da grade de energia é dado
radas. Os resultados obtidos demonstram que a em função das suas três dimensões ( , e ). O
utilização de médias ponderadas é melhor do que a uti- centro da grade de energia pode ser definido de diver-
lização da média e do mínimo. O programa FlexE apre- sas formas, como por exemplo centralizar no átomo
senta um método semelhante, onde a principal de um resíduo de aminoácido específico do sítio ativo
diferença reside na forma de tratamento das regiões ou de um ligante de referência. Exemplos de programa
dissimilares das estruturas do receptor. Os resultados que utilizam grade de energia são GOLD, Glide,
obtidos pelo programa FlexE são de qualidade similar à AutoDock Vina e DockThor.
Figura 8-9: Representação de uma grade de energia cúbica centrada no sítio de ligação do
inibidor indinavir da protease do HIV-1, com as dimensões de cada eixo ( , e ). Em
destaque está representada a indexação dos oito pontos de uma célula e a discretização da
grade (r). As energias de interação são obtidas da interpolação dos valores, de cada termo da
energia, pré-armazenados nos oitos pontos da célula cúbica que contém um determinado
átomo do ligante.
Com relação à geração das conforma- um ligante) ou na sua forma holo (complexada a um li-
ções, as técnicas de simulação de dinâmica gante). Resultados descritos na literatura indicam que
molecular e modos normais são as mais utili- simulações na forma holo produzem resultados me-
zadas. Associada ao uso destas técnicas, está lhores, dando uma descrição mais adequada do sítio de
a importante questão de qual a amplitude de ligação. Na realidade, para não se obter um viés para
movimentos do receptor proteico é necessá- um determinado modo de ligação de um ligante espe-
ria considerar. Ou seja, se estamos tratando cífico, a estratégia recomendada é a de se realizar vári-
da flexibilidade local de um receptor (como o as simulações com ligantes distintos. Estes modos de
movimento de uma alça) ou de movimentos ligação podem ser obtidos de resultados experimentais
de mais larga escala (como movimentos de ou a partir de resultados obtidos de simulações de
domínios da proteína). Esta importante ques- atracamento molecular considerando vários ligantes e
tão está diretamente relacionada com a ca- o receptor rígido.
pacidade de amostragem do espaço de A questão do número de conformações
configurações do receptor por parte da técni- e de como selecionar aquelas representativas
ca de simulação utilizada. do processo em estudo é ainda uma questão
Um exemplo de metodologia que usa a técnica de em aberto e possivelmente dependente do ti-
dinâmica molecular é o Relaxed Complex Scheme, que po de sistema avaliado. Uma das metodologi-
utiliza simulações longas de dinâmica molecular consi- as mais populares busca capturar a
derando todos os átomos do sistema ligante-proteína- diversidade estrutural presente na simulação
solvente. A escala de tempo das simulações variam de utilizando o agrupamento de configurações a
2 ns a 0,5 µs. Uma questão importante a respeito des- partir do valor de RMSD (Root-Mean-Square
ta técnica é se as simulações devem ser realizadas Deviation). É importante ressaltar que, neste
com a proteína na sua forma apo (não complexada a processo, ao invés de se utilizar a estrutura
9. Atracamento Molecular
de toda a proteína, são normalmente utiliza- os quais se espera estarem associados aos movimen-
das as informações relativas a alguns resídu- tos funcionais de larga escala da proteína. A partir da
os chave no sítio de ligação da proteína. diagonalização da matriz Hessiana, obtida das deriva-
Normalmente, por questões associadas ao das segundas da função energia potencial associada a
custo computacional, procura-se selecionar um campo de força clássico, obtém-se as direções de
um conjunto entre 5-10 conformações. movimento dos átomos (associadas aos autovetores
A questão de como ordenar os com- da matriz) e as frequências de vibração (associadas aos
postos levando-se em conta os atracamentos respectivos autovalores). Versões mais simplificadas
do ligante nas diversas conformações da da técnica de modos normais têm sido desenvolvidas
proteína também não é uma questão fácil de nos sentido de permitir o uso da técnica em sistemas
ser respondida. Uma solução é simplesmente muito grandes. O método conhecido como Elastic
utilizar a média das energias dos ligantes com Normal Mode simplifica o sistema molecular de tal
relação às múltiplas conformações da proteí- modo que apenas os carbonos alfa da proteína, conec-
na. Outra possibilidade é considerar a me- tados por potenciais harmônicos, sejam considerados.
lhor/menor energia obtida por um ligante ao Já a técnica PCA utiliza as configurações geradas
interagir com determinada conformação. por uma DM para identificar os graus de liberdade co-
Existem estudos na literatura que mostram a letivos da proteína. Esta técnica também implica na di-
importância de se considerar ligantes que se agonalização de uma matriz, nesta caso, a matriz de
ligam fortemente a um conjunto específico (e correlação dos movimentos dos átomos da proteína,
muitas vezes de baixa probabilidade de ocor- sendo que os autovetores associados aos maiores au-
rência) de configurações da proteína. São jus- tovalores se referem aos movimentos de mais larga
tamente estes casos os mais interessantes, escala.
pois abrem oportunidades de desenvolvimen- Dependendo do sistema em estudo é
to de novos fármacos associados a modos de desejável que seja feita uma combinação das
ligação não usuais. técnicas anteriormente descritas. Neste sen-
Outra abordagem utilizada é a reavalia- tido, conformações geradas utilizando a téc-
ção da energia de ligação utilizando metodo- nica de Modos Normais para refletir
logias mais sofisticadas. Um dos grandes movimentos amplos da proteína podem servir
problemas com esta técnica é o custo com- de base para estudos de DM relativamente
putacional das simulações de dinâmica mole- curtas. Estas irão refletir o arranjo local das
cular. Este problema se torna ainda mais cadeias laterais associado àquela região do
importante quando estão envolvidos movi- espaço de configurações.
mentos de larga escala da proteína. Nestes Estas configurações utilizadas no con-
casos é possível que técnicas como DM ace- texto da técnica de conjunto de conformações
lerada, tais como Replica Exchange, metadi- podem ser investigadas com métodos de
nâmica e DM utilizando a aproximação para atracamento baseados no mecanismo de en-
solvente implícito possam ser utilizadas para caixe induzido ou em uma abordagem utili-
se obter uma melhor amostragem do espaço zando grades de energia combinada.
das configurações.
O uso das técnicas de Análise de Modos 9.4. Triagem em larga escala
Normais e Análise de Componentes Principais
(PCA, Principal Component Analysis) para in- Cada vez mais as indústrias farmacêuti-
vestigar movimentos de larga escala de pro- cas e os grupos de pesquisa que trabalham na
teínas talvez sejam as melhores opções para busca de moléculas candidatas a novos fár-
obter uma boa amostragem de conformações macos necessitam de metodologias mais rá-
em estudos de atracamento envolvendo a pidas, eficazes e de baixo custo. Neste
técnica de conjunto de conformações. cenário, a triagem virtual (virtual screening,
A técnica de Análise de Modos Normais procura ca- em inglês) tem se destacado como uma im-
racterizar os modos de vibração de baixa frequência, portante ferramenta na busca de compostos
9. Atracamento Molecular
ro geralmente pequeno de compostos ativos conheci- Alguns destes aspectos são a consideração
dos. O estudo de atracamento molecular é realizado, e da rugosidade e forma da superfície de ener-
então o EF é usado para medir a capacidade da função gia associada ao complexo receptor-ligante, a
ordenar, nas primeiras posições, determinada fração estimativa das entropias associadas ao pro-
de compostos ativos frente aos inativos. cesso de ligação, a consideração não só de
O desempenho dos diferentes protocolos de atra- múltiplas conformações (flexibilidade) do re-
camento molecular varia significativamente entre os ceptor mas também de múltiplos modos de
estudos de validação realizados, sendo influenciado di- ligação do ligante, a consideração das mu-
retamente pela metodologia empregada bem como danças na estruturação das moléculas de
pela composição do conjunto de de dados utilizado água no sítio receptor e da solvatação/de-
(classe dos receptores e perfil dos ligantes incluídos). solvatação do ligante e a consideração de
Quando o número de compostos ativos e inativos é si- efeitos de mudança de estados de protonação
milar, o método AUC (area under the receiver operating de resíduos do sítio receptor durante o pro-
characteristic) é mais apropriado para avaliar o de- cesso atracamento ligante-receptor.
sempenho do protocolo de triagem virtual.
Os compostos selecionados, conhecidos 9.6. Conceitos-chave
como hits, são encaminhados para as etapas
de síntese química (no caso de compostos Algoritmo: conjunto ordenado de instruções
apenas planejados ou não disponíveis para para resolver determinado problema.
compra) e estudos de atividade farmacológica
(testes in vitro e in vivo). Atracamento: método para prever o modo de li-
gação e a afinidade de ligação de uma
9.5. Considerações finais macromolécula receptora com outra mo-
lécula ligante (seja uma outra macromo-
A descoberta e planejamento de novos lécula ou uma molécula ligante pequena).
fármacos é um processo muito caro e muito
demorado. Para levar um novo fármaco ao Desenho racional de fármacos baseado em es-
mercado são necessários de 10 a 20 anos e o trutura: área de pesquisa que abrange os
custo estimado é de cerca de 800 milhões de métodos computacionais que utilizam in-
dólares. Abordagens in silico que possam re- formações da estrutura tridimensional da
duzir estes custos e acelerar o processo de molécula receptora para descoberta e/ou
descoberta e planejamento de novos fárma- desenvolvimento de novos fármacos.
cos são extremamente bem vindas e neces-
sárias. É importante ressaltar que já existem Encaixe induzido: modelo que sugere a existên-
diversos exemplos de moléculas que foram cia de mudanças conformacionais na mo-
descobertas/otimizadas utilizando técnicas lécula receptora e no ligante devido à
computacionais e que estão na fase de ensai- formação do complexo receptor-ligante.
os clínicos ou que já foram aprovadas para
uso terapêutico. Função de avaliação: função de pontuação que
É possível prever que, no futuro, meto- tem por objetivo quantificar a qualidade
dologias computacionais mais sofisticadas das soluções obtidas no atracamento mo-
terão um papel cada vez mais destacado em lecular.
estratégias de planejamento racional de fár-
macos. Neste sentido, alguns aspectos asso- Ligante: molécula que interage no sítio de liga-
ciados às metodologias de atracamento ção de uma macromolécula para formar
molecular discutidas neste capítulo necessi- um complexo, podendo induzir ou bloque-
tam de avanços teórico/metodológicos para ar determinada resposta biológica.
que se consiga obter uma melhor previsão
das constantes de afinidade receptor-ligante. Método de busca: algoritmo utilizado pelo atra-
9. Atracamento Molecular
Marcelo A. Lima
Edwin A. Yates
Ivarne L. S. Tersariol
Helena B. Nader
Representação das curvas de CD associadas a hélices cristalografia de raios-X. Isto ocorre porque o
α e folhas β. CD, ao contrário destes métodos, não possui
resolução atomística, ou seja, não é capaz de
10.1. Introdução identificar átomos específicos das moléculas
em estudo.
10.2. Luz polarizada No entanto, enquanto estruturas desor-
denadas (ou seja, desenoveladas, forma ado-
10.3. Quiralidade tada por aproximadamente a metade das
proteínas de mamíferos) tornam-se em
10.4. Instrumentação grande medida impróprias para estudos de
RMN e cristalografia de raios-X, o CD ainda é
10.5. Aplicações a biomoléculas capaz de lidar com suas estruturas. Além
disso, estudos de CD podem ser realizados
10.6. Situações práticas em solução, em condições bem próximas das
fisiológicas, fazendo deste método uma fer-
10.7. Conceitos-chave ramenta ideal para investigar as interações
entre moléculas envolvidas nos mais diversos
processos biológicos.
Por definição, espectroscopia nada mais
10.1. Introdução é do que o levantamento de dados físico-quí-
micos de um determinado sistema através da
O dicroismo circular (CD) é uma técnica transmissão, absorção ou reflexão da energia
espectroscópica utilizada para estudar uma radiante incidente. No caso do CD, a energia
grande variedade de moléculas quirais, tais incidente é a ultravioleta comumente na faixa
como fármacos, polímeros e biopolímeros, do UV próximo, 380 a 200 nm. Assim, o es-
em solução. Particularmente no caso das pectro de CD é gerado pela diferença na ca-
proteínas o CD, juntamente à cristalografia de pacidade de absorção dos componentes
raios-X (capítulo 13), o RMN (capítulo 12), o in- esquerdo e direito da luz circularmente pola-
fravermelho (capítulo 11) e métodos como a rizada (mais detalhes adiante) por moléculas
modelagem comparativa (capítulo 7) e a dinâ- quirais que possuem átomos de carbono as-
mica molecular (capítulo 8), exerce importan- simétricos e, consequentemente, diferentes
te papel na busca pelo conhecimento da atividades ópticas.
estrutura e função nucleicas. Tais informa- Esta capacidade de absorção de molé-
ções, por sua vez, são essenciais na busca culas quirais está diretamente ligada às dife-
por novos compostos com potencial terapêu- renças nos seus coeficientes de absorbância.
tico. Assim, diferentes moléculas ou partes delas
Para sistemas enovelados e estrutura- possuem CD em regiões específicas do es-
dos tridimensionalmente, como enzimas e pectro.
proteínas globulares, o CD é uma técnica de Em instrumentos de laboratório, espec-
baixa resolução quando comparado à RMN e tros de CD são normalmente registados no
10. Dicroismo Circular
querda, respectivamente.
Adicionalmente, sabemos pela lei de
Lambert-Beer que ΔA = Δεcl, onde c repre-
senta a concentração da amostra e l o com-
primento do percurso óptico. Assim, a
resultante de todas essas características da-
rão origem ao espectro de CD de uma dada
molécula.
Figura 2-10: Representação planar da luz
circularmente polarizada. 10.4. Instrumentação
10.3. Quiralidade Um espectofotômetro de CD pode ser
esquematizado segundo apresentado na Fi-
A quiralidade significa a não sobreposi- gura 4-10. A luz da fonte (L) é dispersa no
ção de sua própria imagem com aquela proje- monocromador (MC), produzindo uma banda
tada em um espelho ou, em outras palvras, estreita de comprimentos de onda que passa
são imagens que não admitem plano de sime- através de um polarizador linear (PL).
tria. Um exemplo clássico de quiralidade é a
nossa mão: se colocarmos uma delas diante
de um espelho, ela produzirá uma imagem di-
ferente dela própria. A imagem gerada da
mão direita será a da mão esquerda e vice-
versa. Contudo, as mãos não são sobreponí- Figura 4-10: Representação esquemática de
veis, ou seja, quando sobrepostas não se tor- um espectrofotômetro de CD. Fonte de luz
nam equivalentes (Figura 3-10). Esta (L); Monocromador (MC); Polarizador linear
característica é apresentadas por algumas (PL); Modulador fotoelástico (MF); Amostra
moléculas, que são chamadas assim de isô- (A); Fotomultiplicador (FM). Figura adaptada
meros ópticos ou enantiômeros (ver capítulo da Internet.
2).
No CD, quando a luz polarizada passa O polarizador divide o feixe monocro-
através de uma substância quiral, seus com- mático não polarizado em dois feixes linear-
ponentes podem ser resolvidos e absorvidos mente polarizados. Assim, um dos dois feixes
com intensidades diferentes. A diferença da linearmente polarizado passa pelo modulador
absorbância, ΔA, entre a luz polarizada para a fotoelástico (MF), que consiste de uma placa
direita e para a esquerda, ΔA = AD - AE, está transparente e opticamente isotrópica, ou
relacionada com seus respectivos coeficien- seja, de mesmo índice de refração, ligada a
tes de absorbância, Δε = εD - εE, onde εD e εE um cristal de quartzo. Quando um campo
são os coeficientes molares de adsorção da elétrico alternado é aplicado, a luz que emer-
luz circularmente polarizada à direita e à es- ge a partir dos interruptores do MF volta com
a frequência do campo elétrico aplicado.
Se a amostra (A) possui sinal de CD, a
quantidade de luz absorvida varia periodica-
mente com a polarização da luz incidente e,
portanto, a intensidade de luz que atinge o fo-
tomultiplicador (FM) apresenta variações de
intensidade sinusoidal na frequência do cam-
Figura 3-10: Representação da imagem po aplicado ao MF. Portanto, o sinal de saída
especular (A) de dois enantiômeros do do fotomultiplicador é constituído por um si-
aminoácido alanina (B). nal de corrente elétrica alternada sobreposto
10. Dicroismo Circular
Carboidratos
O CD tem aplicações importantes no
estudo de carboidratos, embora estes sejam
mais limitadas do que para as proteínas e
ácidos nucleicos. Dos cromóforos comuns
aos carboidratos, apenas o grupo amida (
açúcares N-acetilados) e grupos carboxila (
ácidos urônicos) possuem bandas de CD aci-
ma de 200 nm. Grupamentos éter, hidroxila,
acetal e cetal apresentam suas bandas de CD
próximas do limite de detecção dos espec-
Figura 5-10: Espectros de CD de estruturas trofotômetros de CD convencionais, em torno
do tipo α-hélices, folhas-β e estruturas de 190 nm. Transições de alta energia são es-
irregulares. tudadas apenas em instrumentos à vácuo,
mas sofrem fortes interferências dos solven-
rizadas em duas direções perpendiculares ao tes, fazendo com que tais estudos sejam li-
eixo da hélice. Para a hélice à direita, a banda mitados a filmes finos de sólidos.
paralela está associada a uma banda de CD Monossacarídeos têm sido extensiva-
negativa a 208 nm, e as bandas perpendicula- mente investigados, e algumas correlações
res com a uma banda positiva a 190 nm. conformacionais dos anéis podem ser extraí-
O CD de uma hélice α é, em sua maioria, das em regiões do espectro de CD por volta
independente do solvente e da sequência de de 170 nm. Mais uma vez, tais medições são
aminoácidos. Resíduos aromáticos (Phe, Tyr e limitadas, já que normalmente só podem ser
Trp) podem modificar o espectro de CD de feitas em CDs ligados a luz de síncrotron e
uma hélice α, especialmente se eles constitu- também devido a interferência dos solventes.
em uma fração considerável dos resíduos da O CD também tem sido bastante utiliza-
proteína. Em homopolímeros de aminoácidos do para estudo de carboidratos complexos
aromáticos, o espectro de CD de uma hélice α como glicosaminoglicanos, heteropolissaca-
é tão distinto que se torna irreconhecível. rídeos compostos por um açúcar aminado (D-
O CD de folhas β é bem distinto daquele glicosamina ou D-galactosamina) unido por
observado para hélices α, apresentando ape- ligação glicosídica a um ácido urônico (D-gli-
nas uma banda negativa de máxima absor- curônico ou L-idurônico). Espectros de CD pa-
bância em 217 nm e uma banda positiva na ra diferentes glicosaminoglicanos podem ser
região entre 195-200 nm como característi- observados na Figura 6-10.
cas (Figura 5-10). As características de espectros de gli-
O valor absoluto da razão entre a elipticidade do cosaminoglicanos provêm predominante-
máximo positivo a 197 nm e o máximo negativo a 217 mente das transições eletrônicas n→π* dos
nm amplia-se com o aumento de torção da folha, e é carboxilatos dos resíduos de ácido urônico e
maior para folhas paralelas do que para as folhas anti- transições π→π* dos cromóforos N-acetila
paralelas torcidas. dos resíduos de glicosamina. Em ambos os
Todos os modelos de polipeptídios com casos, a principal contribuição para as transi-
estruturas irregulares (desordenadas) possu- ções vem dos elétrons dos átomos de oxigê-
em uma forte banda negativa por volta de nio. Para o ácido urônico, envolvem a função
10. Dicroismo Circular
Ácidos nucleicos
As bases purínicas e pirimidínicas de
DNA e RNA são, em grande parte, responsá-
veis pelo espectro de CD de ácidos nucleicos
na faixa de comprimento de onda normal-
mente estuda por espectrofotômetros con-
vencionais, uma vez que os carboidratos e
grupos fosfato não absorvem significativa-
mente acima de 200 e 180 nm, respectiva-
mente.
Neste tipo de macromolécula, o CD é
empregado principalmente no estudo da ma-
nutenção da geometria relativa das bases,
pois cada uma possui um conjunto caracte-
Figura 6-10: Espectro de CD de diferentes rístico de transições π→π* entre 180 e 300
glicosaminoglicanos. C4S, condroitina 4- nm.
sulfatada; C6S, condroitina 6-sulfatada; DS, Todas as cinco bases têm uma ou duas
dermatam sulfato e heparina. bandas de intensidade moderada, por volta de
260 nm, e várias bandas mais intensas, entre
éter, a ligação glicosídica e as hidroxilas, pro- 180 e 200 nm. Além disso, cada base possui
duzindo uma banda positiva com valores má- várias transições n→π* entre 180 e 300 nm,
ximos em torno de 190 nm. Para o grupo porém de pequena absorbância. Embora po-
N-acetila e carboxilato, tem-se uma banda tencialmente fortes no CD, as faixas de n→π*
negativa com máximo em torno de 210 nm. não foram totalmente identificadas, sendo os
Como dito anteriormente, o CD pode ser espectros de CD de nucleosídeos, nucleotíde-
utilizado para estudar a conformação de car- os e polinucleotídeos dominados pelas con-
boidratos e, no caso de glicosaminoglicanos, tribuições π→π*.
os resíduos de ácido urônico (β-D-glicurônico A estrutura 2ária do DNA também pode
e α-L-idurônico) possuem bandas no espectro ser estudada por CD (ver capítulo 2). A con-
de CD de sinais opostos. Podem-se observar formação B-DNA, encontrada normalmente
na Figura 6-10 os espectros de CD para DS, em solução aquosa, tem uma banda positiva
C4S e C6S, glicosaminoglicanos que contêm próximo 275 nm e uma banda negativa de
principalmente o ácido glicurônico. magnitude similar perto de 245 nm (Figura
Os espectros destes glicosaminoglica- 7A-10). Já a conformação A-DNA é favorecida
nos são peculiares, apresentando apenas uma pela adição de solventes orgânicos, geral-
larga banda negativa de máxima em torno de mente etanol. No UV próximo, a transição B
210 nm. DS tem sua banda negativa ligeira- → A é marcada por um aumento significativo
mente deslocada à esquerda, com máxima na banda positiva e diminuição na amplitude
em torno de 207 nm. Tal fenômeno pode ser da banda de máxima em 245 nm. Outra ca-
explicado pelo fato de que ele também con- racterística é a presença de uma forte banda
tém ácido idurônico. Além disso, a ausência negativa em torno de nm 210 (Figura 7B-10).
da banda positiva de máxima em 190 nm pode O C-DNA, por sua vez, apresenta banda inten-
refletir diferenças nas ligações glicosídicas já sa negativa por volta de 240 nm (Figura 7C-
que DS, C4S e C6S apresentam β-D-galacto- 10).
samina N-acetilada (ligação β), enquanto que Com base no espectro de CD, atribui-
a heparina contém α-D-glicosamina N-acetila- ções a um dos grupos de estrutura 2ária po-
10. Dicroismo Circular
baixo peso molecular ao longo das reações de amostra em estudo é importante cole-
despolimerização química e enzimática, bem tar um branco que nada mais é que o
como diferenças nos tipos de ligação glicosí- espectro do tampão;
dica, N-acetilação, padrão de N- e O-sulfata- iv) Em experimentos comparativos, usar
ção e composição monossacarídica resultam sempre as mesmas condições experi-
em características especificas nos seus es- mentais, tais como temperatura, tam-
pectros de CD que são facilmente diferencia- pão utilizado, concentração dos
das pela análise matemática dos dados. componentes, comprimento do caminho
óptico e resolução (ou seja, frequência
Aquisição de um espectro de CD de intervalos, em nm, na qual é feita a
aquisição dos dados);
i) Evitar tampões quirais e que possuem v) Para proteínas, é importante coletar
forte absorção no UV, principalmente na espectros em diferentes concentrações
faixa entre 180-260 nm; e observar se há mudança nos sinais.
ii) Filtrar todas as soluções, inclusive a Havendo mudanças, a proteína em es-
amostra a ser estudada, evitando assim tudo está agregando;
a presença de partículas causadoras de vi) Para açúcares, é importante mantê-
espalhamento de luz; los na mesma forma catiônica, uma vez
iii) Antes de coletar o espectro para a que diferentes contra-íons produzirão
10. Dicroismo Circular
Yraima Cordeiro
Luís Maurício T. R. Lima
(menos energética do que a primeira) possui captar a luz transmitida. A fonte geradora de
um comprimento de onda de 2.000 nm. As- IV é, em geral, composta por óxidos de terras
sim, como o número de onda é diretamente raras (por exemplo, carbeto de silício), que
proporcional à energia e, portanto, à frequên- emitem radiações na região do IV quando
cia, quanto maior o valor em números de on- aquecidos a altas temperaturas (1.000 a
da, mais alta será a frequência daquela 1.800 oC).
radiação eletromagnética. Espectrômetros de IV por transformada
A energia da radiação eletromagnética é definida de Fourier contém um dispositivo chamado de
por: interferômetro. O interferômetro é um siste-
E = hv = hc/λ ma óptico capaz de fornecer uma radiação
aproximadamente monocromática na região
onde h é a constante de Planck (6,6261 x 10-34 J), c é a de 2,5 μm a 15 μm ou até 50 μm. O interferô-
velocidade da luz no vácuo (2,99792 x 108 m/s), v é a metro permite a separação e depois a re-
frequência da radiação (dada por v = hc/λ) e λ é o com- combinação do feixe de infravermelho, a
primento de onda em nanômetros. partir da passagem da luz pelo separador do
Para conversão da notação de frequências de ab- feixe (beam splitter) e a incidência de cada
sorção no IV entre nanômetros e números de onda,
considerando-se que 1 cm = 10.000.000 nm (107), en-
tão:
feixe resultante sobre um espelho fixo e um tância B - EF, os dois feixes refletidos percor-
espelho móvel. O sinal de saída é chamado de rem a mesma distância, estando totalmente
interferograma (Figura 6-11). em fase (ver adiante). Como resultado, os
O funcionamento de um interferômetro dois feixes interferem construtivamente, e o
consiste na passagem do feixe luminoso pelo detector observa um máximo de intensidade.
separador de feixe (B), e parte do feixe é re- Esta posição do espelho móvel é chamada de
fletido pelo espelho móvel (EM) e retorna ao diferença zero de caminho óptico (zero path
separador. O outro feixe é refletido do sepa- difference ou ZPD). Neste caso 2.(B - EM) =
rador e, então, pelo espelho fixo (EF), retorna 2.(B - EF). À medida que EM afasta-se do ZPD,
a B. O feixe recombinado sai do interferôme- a distância B - EM aumenta em relação à dis-
tro, passa através da amostra (A) e viaja até o tância B - EF. Quando os dois feixes estiverem
detector (D) (Figura 6-11). O sinal é captado a 180o fora de fase, e a interferência será des-
intervalos precisos, correspondentes a pas- trutiva, provocando um mínimo na resposta
sos iguais na diferença de caminho óptico (ou do detector.
seja, a distância da trajetória da luz pela O espectro resultante (dados no domí-
amostra), resultando em um sinal combinado nio de frequência) é a solução de Fourier para
de interferência destrutiva e construtiva em o sinal do interferograma (dados no domínio
função das diferenças de fases (ver abaixo), o de tempo). Espectrômetros FTIR permitem
que origina o nome do dispositivo e do sinal medidas mais rápidas do que os antigos es-
obtido. O interferograma é resultante do re- pectrômetros, denominados dispersivos (Ta-
gistro do sinal no detector em função da dife- bela 1-11).
rença de caminho entre os dois feixes. Como Para entendermos o significado de diferença de fa-
referência, é utilizado um laser de hélio-neô- se vamos tomar como exemplo duas radiações (isto é,
nio, e sua radiação monocromática de 632,8 ondas eletromagnéticas) que apresentam a mesma
nm atravessa o mesmo caminho óptico do frequência e, portanto, a mesma energia. Se ambas
feixe de IV. estão trafegando ao mesmo tempo no espaço, estas
A varredura em FTIR corresponde ao ondas estão em fase e há um somatório de suas am-
deslocamento mecânico do espelho móvel plitudes (ver Figura 7-11).
(EM). Quando a distância B - EM é igual à dis- Se há um retardo de uma das frequências em rela-
ção à outra, estas ondas estão agora fora de fase. Se
as ondas estão 180o fora de fase a interferência é des-
trutiva, pois o somatório das ondas resulta em 0. Em
contrapartida, se estão em fase a interferência é cons-
trutiva. Esta mesma definição pode ser aplicada para a
vibração das ligações químicas presentes em uma da-
da molécula, as quais podem estar vibrando em fase
ou fora de fase
a
v, frequência vibracional; b Eo, coeficiente de extinção molar.
solução, é possível analisar a amostra seca na dio (que é gerada pela maioria dos equipa-
forma de pastilha com brometo de potássio mentos de IV) sem nenhuma correção. Um
(KBr). KBr é transparente na região do infra- espectro de feixe único de uma amostra pode
vermelho médio, e é também o componente ser corrigido pelo espectro base, o que irá
do separador do feixe no interferômetro. Em gerar o espectro final de IV.
linhas gerais, mistura-se a amostra de inte- Contudo, medidas envolvendo proteínas
resse a 1% com KBr (1 mg da amostra para requerem instrumentação com sensibilidade
100 mg de KBr, por exemplo) em um gral com maior do que aquela empregada para peque-
um pistilo de quartzo e, por pressão mecâni- nas moléculas, visto que o sinal da amida é
ca, gera-se um disco da amostra com espes- mais fraco (baixa intensidade) devido à baixa
sura de 10 mm que é acondicionado ao absorção de luz no IV médio.
porta-amostras do equipamento para realiza- Antes de iniciarmos a coleta de um es-
ção da leitura. É importante realizar uma ma- pectro de IV, devemos resfriar o detector com
ceração eficiente da amostra com KBr, para nitrogênio líquido (-196 oC). Detectores MCT
resultar em uma distribuição uniforme da sua (mercúrio, cádmio e telureto) apresentam al-
amostra com o pó. ta sensibilidade e são a escolha para análise
Para a amostra seca, é ainda possível de proteínas. Estes detectores semiconduto-
realizar medidas empregando técnica de re- res de fótons no IV são refrigerados para re-
flectância total atenuada (attenuated total duzir o ruído e o vazamento de corrente
reflectance, ATR). Nesta técnica, a amostra resultante dos processos de geração térmica.
sólida é depositada sobre um cristal de índice Detectores MCT operam a temperaturas de
de refração maior que a amostra e compri- 80 a 200 K.
mida sobre esta superfície, de modo a impedir Mesmo para amostras medidas no es-
a presença de ar e água que poderiam atra-
palhar a medida. A luz IV é então refletida so-
bre esta superfície. O feixe emerge do cristal
(neste caso, é chamado de onda evanescente)
e incide sobre a amostra, havendo absorção,
refletindo de volta e sendo por fim redirecio-
nada ao detector. Existe grande popularidade
neste método devido à vantagem de não de-
mandar pastilhamento e requerer apenas al-
guns microgramas de amostra seca.
Após o preparo da amostra, coleta-se
inicialmente um espectro base (background)
na ausência de amostra. Este espectro base Figura 8-11: Janelas de fluoreto de cálcio
normalmente é chamado de espectro de feixe (esquerda) e porta-amostra (direita).
único (single-beam), pois reflete a resposta Dimensões típicas das janelas de CaF2: 32
em todas as frequências da região do IV mé- mm de diâmetro e 3 mm de espessura.
11. Infra-vermelho
Amidas A e B
Estas bandas são resultantes do estira- Figura 11-11: Espectro de absorção no IV médio
mento da ligação N-H e estão presentes na de uma amostra proteica. Observe as regiões
faixa de 3.300 e 3.170 cm-1. Esta região é de amida I (1.700 a 1.600 cm-1) e amida II
insensível à conformação da cadeia polipeptí- (1.600 a 1.450 cm-1).
dica, e sua frequência depende da força da li-
gação de hidrogênio realizada pelo plano e do estiramento da ligação C-N, com
grupamento. poucas contribuições da torção C-O no plano
e das vibrações de C-C e N-C. Como para a
Amida I amida I, esta vibração é pouco afetada pelas
vibrações das cadeias laterais, mas a corre-
Esta é a principal banda vibracional de lação entre estrutura 2ária e frequência, nesse
proteínas, pois fornece informações sobre a caso, é menos direta do que para a vibração
estrutura 2ária destas macromoléculas. A amídica I.
frequência média da amida I ocorre em torno Entretanto, a análise desta banda vibra-
de 1.650 cm-1, e resulta principalmente do es- cional fornece informações a respeito do
tiramento simétrico da carbonila (vC=O), com enovelamento proteico e sua dinâmica con-
pequenas contribuições da vibração C-N fora formacional em experimentos de troca de 1H
de fase, da deformação C-C-N e da torção N-H por 2H (troca hidrogênio – deutério), pois há
no plano. A estrutura do esqueleto polipeptí- um desvio da amida II para 1.450 cm-1 quando
dico irá determinar como as várias coordena- a proteína é diluída em 2H2O. Sendo assim, é
das internas irão contribuir para a vibração possível acompanhar a troca de hidrogênios
desta banda. A despeito de ser influenciada lábeis (como hidrogênios da ligação N-H da
pela estrutura 2ária, esta vibração é muito cadeia polipeptídica) por deutério durante
pouco afetada pela natureza das cadeias la- tratamento térmico da proteína, interação
terais. com algum ligante e aumento na pressão,
dentre outras variáveis. Átomos de hidrogênio
Amida II em regiões mais protegidas da proteína irão
demorar mais para trocar por deutério do que
A absorção da banda amida II ocorre em átomos de hidrogênio em regiões expostas
1.550 cm-1 quando o solvente utilizado no Há ainda uma terceira banda relacionada
experimento de IV é H2O. Esta vibração é a à ligação peptídica, a chamada banda de ami-
combinação fora de fase da torção N-H no da III. Esta banda, no NMA, é a combinação em
11. Infra-vermelho
fase da dobra da ligação N-H e do estiramen- teral de resíduos de Arg, que ocorre em 1.635
to da ligação C-N, principalmente. Em poli- e 1.673 cm-1, é sobreposta à absorção da
peptídeos, a composição dessa banda é mais amida I. Contudo, a troca de 1H por 2H gera
complexa, pois depende da estrutura das ca- desvios a -50 e -70 cm-1, respectivamente
deias laterais e a dobra do N-H contribui para (desvio para frequências menores), o que
várias bandas na região de 1.400 a 1.200 cm-1. permite a visualização destas bandas.
Como essas contribuições variam bastante, Há ainda uma vibração de Tyr que é fre-
esta vibração é de pouca utilidade para análi- quentemente visualizada em espectros de IV
se de estrutura 2ária. de proteínas a 1.517 cm-1. Esta frequência vi-
bracional é deslocada para 1.500 cm-1 quan-
Vibração do esqueleto peptídico do ocorre desprotonação da cadeia lateral do
resíduo de Tyr.
Esta vibração ocorre de 1.200 a 880
cm e resulta do estiramento das três liga-
-1
11.6. IV e estrutura 2ária
ções do esqueleto polipeptídico. Para o com-
posto modelo NMA, estas vibrações geram Como descrito na seção anterior, prote-
duas bandas bastante definidas, mas com ab- ínas apresentam bandas vibracionais carac-
sorção fraca no IV: uma vibração vN-Cα, pre- terísticas no IV médio. A banda da amida I é a
dominante em 1.096 cm-1, e um modo misto a região que fornece informação sobre a estru-
881 cm-1. tura 2ária destas macromoléculas.
A frequência exata da primeira vibração
Vibração de cadeias laterais (estiramento C=O) depende:
i) da natureza das ligações de hidrogênio
As cadeias laterais de resíduos de ami- que envolvem o grupamento amídico, o
noácidos de proteínas absorvem luz no IV. que é determinado pela estrutura 2ária
Entretanto, a identificação de resíduos espe- particular adotada pela proteína;
cíficos é dificultada para alta sobreposição ii) da orientação e distância dos dipolos
das suas frequências vibracionais. que interagem, o que fornece informa-
Dentre os diferentes grupamentos pre- ção sobre arranjo geométrico de grupa-
sentes em cadeias laterais, há dois tipos par- mentos peptídicos em uma cadeia
ticulares que absorvem em regiões espectrais polipeptídica.
livres de sobreposição por outros grupos e
que podem, dessa forma, ser assinalados. O O termo dipolo se refere a dois pólos. Em física, um
primeiro grupamento é a sulfidrila das cisteí- dipolo elétrico envolve a separação de cargas positivas
nas, com absorção entre 2.550 e 2.600 cm-1, e negativas (polo positivo e polo negativo). Em molé-
e o segundo é a carbonila (C=O) de grupa- culas polares, como a água, por exemplo, um dipolo é
mentos carboxílicos protonados, com absor- formado devido a uma distribuição desigual de cargas
ção entre 1.710 e 1.790 cm-1. A análise destas (elétrons) na ligação covalente (O-H), gerando uma re-
regiões pode fornecer informações tais como gião de carga parcial positiva (hidrogênios) e outra de
eventos de (des)protonação. carga parcial negativa (oxigênios).
Por exemplo, os resíduos Asp e Glu pro- Dipolos induzidos são formados quando um íon ou
tonados apresentam duas bandas fortes en- uma molécula dipolar (que apresenta um dipolo per-
tre 1.550 e 1.580 cm-1 e próximos a 1.400 manente) induz a formação de um dipolo em um átomo
cm-1. Essas bandas, contudo, são deslocadas ou molécula que antes não apresentava uma distribui-
na presença de quelantes de cátions depen- ção de cargas. Quando o oxigênio molecular (O2, não
dendo do tipo de coordenação (importante apresenta um dipolo) interage com uma molécula de
para o estudo de proteínas que ligam íons água (dipolo permanente), esta última induz um dipolo
cálcio). no O2.
Por outro lado, a absorção da cadeia la- A aplicação de FTIR para determinação
11. Infra-vermelho
cados e as bandas então aparecem mais é possível identificar (ver Tabela 3-11) e calcu-
definidas. Para a amplificação, deve-se lar a fração de cada componente de estrutura
definir um valor de FWHH (no geral de 2ária presente na proteína. O percentual de
13 a 25 cm-1, dependendo da resolução cada tipo de estrutura 2ária é então calculado
espectral e da relação sinal/ruído) e um a partir da área de cada banda corresponden-
fator de incremento, que será multipli- te a um determinado tipo de estrutura 2ária
cado ao sinal total da amida I; em comparação com a área do espectro total
iii) uma terceira abordagem é de incre- na amida I (que apresenta o valor de 100%).
mento de fine-structure; uma versão
suavizada do espectro original é multi- 11.8. Desvio de 1H para 2H
plicada por um fator pouco menor que 1
e, subsequentemente, subtraída do es- Como vimos anteriormente, os espec-
pectro original, aumentando a estrutura tros de IV de proteínas em solução são obti-
fina do espectro, similarmente a uma dos a partir de amostras diluídas em 2H2O. A
FSD. troca 1H/2H leva a pequenos desvios nos
componentes da amida I (denominada amida I´
Existem diversos problemas para a quando a proteína está dissolvida em 2H2O).
predição de estrutura 2ária por FTIR, indepen- Esses desvios de frequência são causados
dentemente do método aplicado. Não há um pela pequena contribuição da dobra N-H para
único espectro de IV para um tipo de estrutu- esta banda de vibração.
ra 2ária, e o espectro obtido também depende Para proteínas, a grandeza do desvio
de detalhes estruturais como deformações depende do tipo de estrutura 2ária. Em geral,
na hélice ou o número de fitas adjacentes em ocorre um desvio de 15 cm-1 para compo-
uma folha β. Além disso, outro problema é a nentes de baixa frequência de folhas β e vol-
absorção por cadeias laterais nesta região. É tas. Estruturas desordenadas sofrem desvio
estimado que de 10 a 30 % da absorção total de 10 cm-1, enquanto que para as outras ban-
da amida I é derivada de cadeias laterais. das o desvio é menor. A magnitude do desvio
Após a separação dos diferentes com- vai depender da extensão da contribuição da
ponentes (frequências) da amida I, utilizando vN-H para a banda amida I.
alguma das abordagens apresentadas acima, Outra causa para este desvio não ser
11. Infra-vermelho
Estrutura 3D da proteína Psd1 determinada por RMN. dos Protein Data Bank (PDB) resultam da
aplicação de uma destas técnicas. As demais
12.1. Introdução estruturas provêm, essencialmente, de mo-
delos teóricos. O número de estruturas re-
12.2. Fundamentos solvidas por cristalografia excede em 5
vezes as resolvidas por RMN, em grande par-
12.3. Deslocamento químico te devido a um limite no tamanho da proteína
passível de ter sua estrutura determinada por
12.4. Acoplamento escalar RMN (em torno de 6 kDa por técnicas bidi-
mensionais e 40 kDa por técnicas de três ou
12.5. Efeito Overhauser nuclear mais dimensões). Em contrapartida, a crista-
lografia é limitada, principalmente, pela difi-
12.6. Estrutura de proteínas culdade na obtenção de monocristais.
A primeira estrutura 3D determinada
12.7. Análise dos espectros de RMN através de RMN foi do inibidor de -amilase
tendamistat, em 1986, por Kline e colabora-
12.8. Cálculo da estrutura dores, ao passo que a primeira estrutura 3D
de proteína determinada com alta resolução
12.9. Conceitos-chave através de RMN foi da interleucina 1 , em
1991, por Clore e colaboradores.
12.2. Fundamentos
12.1. Introdução
Uma das características de um núcleo atômico é
Os concomitantes avanços em biologia sua rotação em torno do seu próprio eixo, um fenôme-
molecular e em espectroscopia por Resso- no denominado de spin. Os núcleos com spin possuem
nância Magnética Nuclear (RMN) multidimen- momento angular p que varia de forma quântica. O
sional tiveram como reflexo um aumento número máximo das componentes do momento angu-
explosivo na utilização da espectroscopia por lar de um núcleo é denominado de número quântico de
RMN a fim de obter informações estruturais e spin (I). Um núcleo possui 2I +1 estados de magneti-
dinâmicas em macromoléculas biológicas, in- zação, onde o componente do magnetismo nuclear
cluindo ácidos nucleicos, carboidratos e pro- possui valores I, I –1, I –2, ..., -I.
teínas. Em proteínas, os núcleos atômicos mais importan-
A espectroscopia por RMN em solução e tes (devido a propriedades intrínsecas que levam a ge-
a cristalografia por raios-X são, essencial- ração de um sinal plausível de ser identificado por
mente, as únicas técnicas experimentais ca- espectroscopia de RMN) são o 1H (abundância natural
pazes de fornecer informações da estrutura de 99,98%), o 13C (abundância natural de 1,11%) e o 15N
tridimensional de uma macromolécula com (abundância natural de 0,36%). O número quântico de
resolução atômica. Aproximadamente 97% spin destes núcleos é 1/2. Desta forma, estes núcleos
das estruturas depositadas no banco de da- possuem dois estados de spin (-1/2 e +1/2).
12. Ressonância Magnética Nuclear
O spin de núcleos carregados cria um campo mag- onde Nj é o número de núcleos no estado de maior
nético orientado paralelamente ao eixo do spin, que po- energia, N0 é o número de núcleos no estado de menor
de ser representado por uma quantidade vetorial µ. energia, k é a constante de Boltzmann e T é a tempera-
Este momento magnético é diretamente proporcional tura absoluta. No caso do 1H, por exemplo, em um
ao momento angular e à constante giromagnética ( ) campo magnético de 14,1 T à 293 K, esta relação é de
do núcleo. Consequentemente, os diferentes estados 0,999901, que significa um excesso de 198 ppm de
do spin dos núcleos supracitados resultam em dois es- prótons no estado de menor energia. Este excesso é
tados de magnetização, representadas pelo número representado por um vetor de magnetização resultan-
quântico magnético m, igual à +1/2 e –1/2. te M (Figura 1-12).
Para se obter um sinal de RMN destes núcleos em Através de pulsos de magnetização com vetor per-
um espectrômetro moderno, inicialmente é induzida a pendicular ao vetor B0 e na mesma frequência que a
orientação do vetor µ ao longo do vetor de um campo frequência de Larmor, é induzida uma reorientação
magnético forte gerado por um magneto (vetor B0). O (excitação) do vetor M.
vetor µ poderá estar alinhado tanto no mesmo sentido Após certo período de tempo cessa-se o pulso de
como no sentido contrário ao vetor B0, sendo que a magnetização e detecta-se o sinal ressonância de cada
quantidade de energia que envolve a transição de um núcleo enquanto seus vetores M (para cada núcleo)
núcleo entre estes dois estados é dada pela equação retornam à condição inicial, ou seja, determina-se e
frequência de precessão do vetor M de cada núcleo ao
ΔE = (γћ/2π)B0 passo que estes retomam o alinhamento paralelo com
o vetor B0. Tal fenômeno, que representa o sinal fun-
onde ћ é a constante de Planck.
Como em outras técnicas de espectroscopia, a
transição entre estes dois estados pode ser consegui-
da através da absorção ou da emissão de radiação ele-
tromagnética, em uma frequência v0 (frequência de
Larmor) que corresponde, em energia, à diferença ΔE.
Através da equação
Figura 1-12: Manipulação dos spins para se
v0 = γB0/2π obter um espectro de RMN. A) inicialmente os
núcleos atômicos apresentam vetor de
torna-se claro que a frequência da radiação envolvida campo magnético μ com orientação caótica.
na transição dos estados energéticos dos spins depen- B) Através de um campo magnético forte B0 é
de diretamente da força do campo magnético externo induzida uma orientação coerente dos vetores
e do núcleo estudado. Os espectrômetros de RMN são, μ, passando a precessar em torno de B0. Esta
em geral, classificados de acordo com a frequência de orientação resulta no vetor M (vermelho). C)
Larmor do 1H sob a força do campo magnético gerado são gerados pulsos de magnetização
pelo magneto de tal equipamento. Por exemplo, sob a perpendiculares ao vetor B0 com a mesma
influência de um campo magnético de 14,1 T, a frequên- frequência que da precessão dos spins, o que
cia de Larmor do 1H será de 600 MHz, e desta forma reorienta o vetor M (que fica perpendicular ao
tem-se um espectrômetro de 600 MHz. vetor B0 mas, dependendo da intensidade ou
Um fato importante é que os núcleos se distribuem duração do pulso de magnetização, pode ter
desigualmente entre estes dois estados energéticos, diversas orientações). D) após os pulsos,
de tal forma que existe um excesso de núcleos no es- ocorre a relaxação (perda de orientação
tado de menor energia em relação ao de maior ener- coerente) dos spins, o que é representado
gia. A relação entre o número de núcleos distribuídos pela diminuição do vetor M, assim como seu
entre os dois níveis energéticos é dada pela equação realinhamento paralelo ao vetor B0. Neste
ultimo momento é realizada a detecção do
Nj/N0 = exp(-γћB0/2πkT) sinal de ressonância dos núcleos.
12. Ressonância Magnética Nuclear
damental observado por espectroscopia de RMN, é de- Através de um espectro de RMN pode-
nominado de Free-Induction Decay (FID). Este sinal, re- se observar seletivamente o sinal de diferen-
presentado por uma onda no domínio temporal, é tes núcleos em diferentes ambientes quími-
processado, empregando-se o formalismo da trans- cos, ou ainda ligados a diferentes átomos.
formada de Fourier, e o resultado é um espectro no Como exemplificado na Tabela 1-12, no caso
domínio das frequências. da espectroscopia de proteínas por RMN de
Nas modernas técnicas de RMN não se 1
H, podem-se distinguir diversos grupos de
utiliza apenas um único pulso de excitação, átomos de hidrogênio pelo deslocamento
mas uma sequência de pulsos, que manipu- químico destes. Assim, o deslocamento quí-
lam os spins de uma forma complexa. A ma- mico é um dos mais importantes parâmetros
nipulação da magnetização dos spins pode em estudos por RMN.
revelar influências externas sob um núcleo,
como a proximidade ou ligação a outros áto- 12.4. Acoplamento escalar
mos, através de análises da largura, intensi-
dade e deslocamento químico do sinal de Um dos fatores que influencia na mag-
cada núcleo em um espectro de RMN. Desta netização de um núcleo atômico é a sua liga-
forma, através destas sequências de pulsos, ção com outros átomos. Esta interação é
podem-se obter várias informações relacio- conhecida por acoplamento escalar ou spin-
nadas com a estrutura de uma molécula, que spin, sendo representada pela constante de
podem por fim, serem “traduzidas” na forma acoplamento nJab, onde n é o número de liga-
da estrutura tridimensional de uma proteína. ções covalentes separando os núcleos a e b.
Normalmente, o acoplamento escalar se es-
12.3. Deslocamento químico tabelece entre átomos separados por até três
ligações químicas.
O deslocamento químico define a locali- A constante de acoplamento se mani-
zação de uma linha nos espectros de RMN ao
longo do eixo de frequência. Esta grandeza é Tabela 1-12: Distinção entre os átomos de
medida relativa a um composto de referência hidrogênio dos aminoácidos comuns pelo
(geralmente um composto solúvel em água deslocamento químico (adaptado de
como o 3-trimetilsililpropionato). Wüthrich, 1986).
Nos espectros de RMN a unidade do
deslocamento químico de um núcleo é nor- Tipo de átomo de Deslocamento químico
malmente representada em ppm (partes por hidrogênio (ppm)
milhão), que é uma forma de normalizar to-
dos os espectros em função da intensidade CH3 0,9 – 1,4
do campo magnético do magneto onde se fez CH2 de V, I, L, E, Q, M, P, 1,6 – 2,3
o espectro de uma amostra (como citado an- R, K
teriormente, a frequência de Larmor depende
fortemente da intensidade do campo magné- CH2 de C, D, N, F, Y, H, W 2,7 – 3,3
tico). CH2 de S, CH de T e CαH 3,9 – 4,8
Os núcleos atômicos estão sempre ro-
deados de diversos átomos e quase sempre Outros CH alifáticos 1,2 – 3,3
estão ligados a outros átomos e, assim, são CH aromático 6,5 – 7,7
rodeados por uma nuvem eletrônica. Essa nu- NH de cadeia lateral de 6,6 – 7,7
vem eletrônica gera campos magnéticos se-
N, Q, K, R
cundários que são os principais responsáveis
pela alteração do deslocamento químico de NH da ligação peptídica 8,0 – 8,8
um núcleo em uma macromolécula (efeito NH indólico 10,2
denominado de blindagem nuclear).
12. Ressonância Magnética Nuclear
de distância entre os prótons). Desta forma, próton e 15N, sendo este sinal importante para
pode-se fazer uma aproximação semi-quanti- a caracterização geral da conformação da
tativa entre a intensidade dos NOEs e a dis- proteína, assim como da qualidade da amos-
tância que separa os prótons acoplados. tra a ser estudada. Na Figura 3-12 são exem-
NOEs intensos representam prótons separa- plificados dois espectros, um de uma proteína
dos por 1,8 a 2,7 Å, NOEs de intensidade mé- bem enovelada e estável, sendo por isso pas-
dia representam prótons separados por 1,8 a sível de ter sua estrutura determinada por
3,4 Å e NOEs fracos, prótons separados por RMN em solução, assim como um de uma
1,8 a 5,0 Å. proteína desordenada e agregada.
Usando-se os dados de distância entre
prótons de uma proteína indicadas pelos Espectros de tripla ressonância
NOEs (restrições de NOE), pode-se finalmente
criar um modelo estrutural desta macromo- Em experimentos de tripla ressonância
lécula. pode-se associar a magnetização entre dife-
rentes núcleos para obter um mapeamento
Espectros 2D heteronucleares bem definido dos sinais de uma proteína. Co-
mo por exemplo, com o espectro tridimensi-
Nos experimentos bidimensionais hete- onal (3D) de HNCO, ter-se-á um sinal oriundo
ronucleares (HMQC - Heteronuclear Multiple da transferência de magnetização entre pró-
Quantum Coherence ou então HSQC - Hetero- ton amídico, nitrogênio amídico e carbono da
nuclear Single Quantum Coherence), é realiza- carbonila (Figura 4-12). Espectros mais com-
da a transferência de magnetização entre o plexos geralmente são usados para obter
spin do próton e o spin de outro núcleo atô- correlações entre os diversos núcleos de uma
mico, através de somente uma ligação quími- proteína e, assim, conseguir uma descrição
ca. Nos espectros aparecerão picos de (assinalamento) o mais completa possível da
correlação entre próton e 13C ou então entre cadeia polipeptídica. Por exemplo, pode-se
12. Ressonância Magnética Nuclear
Figura 4-12: Segmento tripeptídico de uma Figura 5-12: Segmento tripeptídico de uma
proteína hipotética com a indicação de alguns proteína hipotética com a indicação do
caminhos de transferência de magnetização caminho de transferência de magnetização
obtidos através de dois experimentos de obtido por um experimento de tripla
tripla ressonância (3D HNCO em azul e 3D ressonância 6D HNCOCANH. O sinal
HN(CO)CA em vermelho). O sinal observado observado conterá informações de
conterá informações de deslocamento deslocamento químico de cada um dos
químico de cada um dos átomos indicados, átomos indicados, em um espectro de seis
em um espectro de três dimensões (1H, 13C e dimensões (1H, 15N, 13CO, 13Cα, 15N e 1H). Note
15
N). que este tipo de espectro identifica a ligação
de um sistema de spin (aminoácido) a outro.
aminoácido, podem ocorrer sobreposições de
picos de correlação nos espectros e altera- ii) treonina, que possui um único Hβ com
ções acentuadas de deslocamento químico de deslocamento químico anormalmente
um núcleo atômico (em uma proteína bem alto ( 4 ppm contra os 2,5 ppm dos Hβ
estruturada, cada próton poderá estar locali- dos outros aminoácidos) e uma metila
zado em um ambiente químico particular e, com deslocamento químico de Hγ em
por isto, sofrer diferentes graus de blindagem 1,5 ppm e intensidade de sinal alta;
nuclear), o que dificulta a análise dos espec- iii) serina que possui dois Hβ com des-
tros de RMN no que diz respeito à identifica- locamento químico anormalmente alto
ção dos sistemas de spin. ( 4 ppm);
Em vista disto, o passo seguinte é iden- iv) alanina, que possui uma CβH3 que re-
tificar alguns sistemas de spin bem caracte- sulta em um pico de Hβ intenso com
rísticos nos espectros, levando-se em conta deslocamento químico em 1,39 ppm.
os valores de deslocamento químico médio
dos prótons dos 13C e dos 15N aos quais os A partir da identificação destes aminoá-
prótons estão ligados, das diversas proteínas cidos bem característicos, nos espectros,
já estudadas por RMN (por exemplo, note a buscam-se conectividades entre os sistemas
diferença entre os deslocamentos químicos de spin usando diversos espectros.
da alanina e glicina, Figura 7-12). Em se tratando de proteínas que não
Os aminoácidos com deslocamento quí- estão isotopicamente enriquecidas com 13C e
mico de 1H e 13C mais característicos são: 15
N, se usa espectros de NOESY para este
i) glicina, que possui dois Hα ligados a processo de atribuição das ressonâncias as-
um Cα com deslocamento químico sociados à sequência de aminoácidos da pro-
anormalmente baixo ( 45 ppm contra teína em estudo. O objetivo é buscar NOEs
60 ppm dos outros Cα do restante dos entre prótons da cadeia principal de aminoá-
aminoácidos); cidos vizinhos que estão quase sempre a me-
12. Ressonância Magnética Nuclear
nos de 5 Å de distância entre si (Figura 7-12). entre sistemas de spin também usualmente
Neste sentido, procura-se conectividade do são obtidas por intermédio de interações es-
HN do aminoácido com sistema de spin atípico calares, evidenciadas pelos espectros de tri-
identificado (na posição i da sequência da pro- pla ressonância discutidos acima
teína) com Hα, HN e, algumas vezes, Hβ do (exemplificados nas Figuras 4-12 e 5-12).
aminoácido que o precede na sequência poli- Desta forma, ou usando espectros de NOESY,
peptídica (posição i – 1), assim como conecti- obtêm-se algumas sequências tripeptídicas
vidades do Hα, HN e às vezes do Hβ do atribuídas ao longo da sequência polipeptídica
aminoácido identificado (posição i) com o HN da proteína.
do aminoácido que o sucede (posição i + 1) A partir daí continua-se a atribuição se-
(Figura 8-12). quencial, levando em conta algumas caracte-
Em se tratando de proteínas isotopica- rísticas dos aminoácidos menos atípicos em
mente enriquecidas com 13C e 15N (obtidas conjunto com a sequência 1ária da proteína. A
normalmente quando produzidas em bactéri- seguir são descritas brevemente algumas
as como Escherichia coli ou leveduras como peculiaridades dos aminoácidos menos atípi-
Pichia pastoris crescidas em meios sintéticos cos:
contendo 15NH4Cl como única fonte de nitro- v) valina, só possui um Hβ e dois CγH3
gênio e 13C-Glicose ou 13C-metanol como úni- com pico de Hγ com intensidade relati-
cas fontes de carbono), as conectividades vamente alta;
12. Ressonância Magnética Nuclear
Figura 7-12: Deslocamento químico de 1H e 13C (em ppm) dos átomos dos 20 aminoácidos
naturais encontrados em proteínas. As nomenclaturas oficiais de cada átomo são
representadas por diferentes símbolos. Valores obtidos do “Biological Magnetic Resonance Data
Bank” (http://www.bmrb.wisc.edu). As barras representam os desvios padrões.
vi) leucina, possui longa cadeia lateral, o xi) tirosina e fenilalanina, apresentam
que pode resultar em uma faixa de si- NOE entre Hβ e Hδ do anel aromático;
nais de 1H com deslocamento químico xii) triptofano, identificável por NOEs
baixo ( 1,5 ppm); entre Hβ e os Hδ1 e Hε2 do anel aromá-
vii) isoleucina, apresenta padrão muito tico (o último próton possui desloca-
semelhante ao da leucina, porém ao mento químico atípico de 10 ppm);
contrário da outra, só possui um Hβ; xiii) metionina, o intenso pico metílico Hε
viii) cisteína e aspartato, suas cadeias é facilmente identificável e sua correla-
laterais se restringem a dois Hβ; ção com o resto do sistema de spin se
ix) asparagina, através do espectro de dá somente via NOEs;
NOESY identifica-se conexão entre HN, xiv) glutamato, possui dois CH2 na ca-
Hα e Hβ com os prótons amídicos da ca- deia lateral;
deia lateral (Hδ21 e Hδ22), diferencian- xv) glutamina, além dos dois CH2 possui
do-a da cisteína e do aspartato; conectividade via NOE entre Hγ e pró-
x) histidina, pelo espectro de NOESY é tons amídicos Hε21 e Hε22 da cadeia la-
possível ver conectividade entre HN, Hα teral;
e Hβ com Hδ2 do anel aromático; xvi) arginina, identificável através dos
12. Ressonância Magnética Nuclear
Uma vez tendo todos ou quase todos madamente -140o e para 3JHNHα < 6 Hz tem-se
sistemas de spin identificados (normalmente ângulo φ de aproximadamente -60o (estes
chega-se ao ponto de identificar 95% dos ângulos são característicos para segmentos
sistemas de spin), segue-se com o cálculo da peptídicos em conformação de fita β e hélice
estrutura 3D baseada nestes sistemas e nos α, respectivamente).
sinais a serem identificados nos espectros de Os ângulos de diedro φ e ψ (este último
NOESY e transformados em restrição de dis- formado pelas ligações entre Ni+1-Ci e Cαi-Ni
tância pelo programa de cálculo de estrutura. ao longo da ligação entre Cαi-Ci do resíduo i)
No decorrer do cálculo da estrutura, podem ser inferidos a partir do índice de des-
pode-se identificar mais facilmente possíveis locamento químico dos núcleos (CSI), uma vez
12. Ressonância Magnética Nuclear
3J
HαHβ2 e 3JHαHβ3 e dos NOEs dHβ1HN, dHβ2HN, Através deste procedimento, o progra-
dHβ1Hα e dHβ2Hα. ma busca conformações da molécula que sa-
Adicionalmente, a informação de ligação tisfaçam o máximo possível às restrições
de hidrogênio inferida a partir da taxa de troca empíricas e experimentais. Finalmente é per-
de próton amídico pode ser agregada ao cál- mitida uma “relaxação” da molécula (passo
culo da estrutura. As estruturas 2árias regula- de minimização e refinamento estrutural) em
res estabilizadas por ligações de hidrogênio uma temperatura ainda baixa, porém sob
“protegem” os prótons amídicos envolvidos menor influência das restrições de NOE e de
nestas estruturas, o que se caracteriza por van der Waals, de forma a corrigir pequenas
uma baixa taxa de troca destes por prótons imperfeições conformacionais da estrutura
do solvente. como ligações excessivamente torcidas.
Para evidenciar tais prótons “protegi- Neste passo final, a “relaxação” da estrutura
dos”, dissolve-se a amostra a ser analisada é evidenciada pela diminuição da energia do
em 2H2O e faz-se um espectro bidimensional sistema (energias diretamente relacionadas
de 1H. Se o próton da molécula analisada não com o grau e número de violações das restri-
estiver “protegido” ele trocará quase que ções empíricas e experimentais).
imediatamente por deutério, proveniente da Estes passos são repetidos várias vezes,
2
H2O, desaparecendo seu sinal nos espectros de forma a obter um conjunto de estruturas
de 1H-RMN. (o deutério possui frequência de (normalmente em torno de 20 estruturas)
ressonância bem distinta do seu isótopo). A que são avaliadas, com auxílio de programas,
identificação dos prótons com baixa taxa de quanto à existência de conformações impró-
troca por deutério permite usar restrições prias ou improváveis. Esta família de estrutu-
estruturais de pontes de hidrogênio no cálculo ras determinadas por espectroscopia de RMN
da estrutura da macromolécula em estudo. representa uma estrutura tridimensional com
As restrições de distância obtidas por pequena variação do espaço conformacional,
NOEs, assim como de distância entre prótons que é representada por cada uma das estru-
envolvidos em ligações de hidrogênio inferi- turas calculadas (exemplo na Figura 10-12).
das pela taxa de troca de hidrogênio por deu- Estruturas com alta resolução obtidas por
tério e as restrições de ângulos φ, ψ e χ1, RMN geralmente possuem um desvio dos
inferidas pelas constantes de acoplamento e átomos da cadeia principal da proteína em
CSI, são então usadas em protocolos de dinâ- relação a uma estrutura média de aproxima-
mica molecular realizados por programas damente 0,6 Å.
específicos para ajustar a estrutura da prote-
ína a estas restrições, levando em conta a 12.9. Conceitos-chave
obediência à geometria ideal de ângulos e
comprimento de ligações químicas e dos raios Constante de Boltzmann: é uma constante que
de van der Waals dos átomos. relaciona energia, no nível de partícula in-
Nestes programas, as moléculas são dividual, com temperatura. Tem um valor
inicialmente submetidas a uma condição de aproximado de 1,3806 × 10-23 J/K.
alta energia cinética (temperaturas de
50.000 K). Nesta situação, as moléculas es- Constante de Planck: é uma constante de pro-
tão totalmente desprovidas de qualquer es- porcionalidade entre energia e frequência.
trutura tridimensional predominante, porém Tem um valor aproximado de 6,6261 × 10-
já agregam parâmetros estruturais providos 34
J.s.
por restrições empíricas (determinadas por
um campo de força). Gradualmente, é de- Constante giromagnética: é a razão entre o
crescida a temperatura do sistema (geral- momento de dipolo magnético e o mo-
mente até 0 K), ao passo que são adicionadas mento angular, sendo representada nor-
as restrições experimentais. malmente pelo símbolo gama (γ). Cada
12. Ressonância Magnética Nuclear
Figura 10-12: Estrutura 3D da proteína Psd1 determinada por RMN. Nesta figura é mostrada uma
sobreposição de vinte estruturas obtidas como descrito acima, usando proteína nativa, não
enriquecida isotopicamente. Em A, um desenho evidenciando as estruturas secundárias. Em B,
são mostrados apenas os átomos da cadeia principal (verde – carbono, azul – nitrogênio e
vermelho – oxigênio). Em C, são mostrados todos os átomos (cinza – hidrogênio e amarelo –
enxofre). As estruturas estão com o mesmo alinhamento.
núcleo atômico possui uma constante gi- bonos com configuração de orbital de va-
romagnética específica, sendo a principal lência tipo sp3.
razão para que cada núcleo atômico pos-
sua uma frequência de RMN distinta em Spin: em mecânica quântica e física de partícu-
um mesmo campo magnético externo. las, spin é uma forma de momento angu-
lar intrínseca de partículas elementares,
Correlação heteronuclear: se diz quando é con- incluindo o núcleo atômico, quando apli-
seguida uma relação entre núcleos de ti- cada para RMN. Em uma das formas de
pos distintos de átomos em uma molécula. representação, o spin é uma quantidade
Pode ser correlação escalar ou dipolar, ou vetorial com magnitude e direção. O spin
seja, dependente ou não dos átomos es- nuclear é identificado pelo número quân-
tarem associados por intermédio de liga- tico de spin e para existir o efeito de RMN
ções químicas. o spin deve ser diferente de zero, condição
alcançada quando o numero de prótons
Correlação homonuclear: se diz quando é con- e/ou nêutrons é ímpar.
seguida uma relação entre núcleos do
mesmo tipo atômico em uma molécula. Transformada de Fourier: é uma manipulação
Pode ser correlação escalar ou dipolar, ou matemática normalmente usada para
seja, dependente ou não dos átomos es- transformar funções temporais f(t), em
tarem associados por intermédio de liga- uma função de frequência, cuja unidade
ções químicas. geralmente é Hertz.
Fernando V. Maluf
João Renato C. Muniz
Glaucius Oliva
Rafael V. C. Guido
Topologia geral dos receptores acoplados à proteína mento, denominada biologia estrutural. A
G. biologia estrutural encontra-se na interface
entre a biologia molecular, a bioquímica e a
13.1. Introdução biofísica, e tem como foco a investigação da
estrutura de macromoléculas. A partir desta,
13.2. Obtenção de proteínas busca-se elucidar a relação entre a estrutura
e a função de uma determinada molécula. Por
13.3. Expressão exemplo, a aplicação de métodos cristalográ-
ficos em macromoléculas biológicas permitiu
13.4. Purificação o conhecimento da disposição dos átomos
que constituem a estrutura 3D das moléculas
13.5. Cristalização de DNA, RNA e proteínas. Particularmente no
caso desta última família de biomoléculas,
13.6. Coleta de dados além do entendimento do funcionamento dos
organismos e das bases moleculares para a
13.7. Refinamento, validação e usos vida, as informações oriundas da cristalogra-
fia vêm sendo extremamente importantes no
13.8. Conceitos-chave desenvolvimento de novos fármacos, como
no caso de inibidores da protease do HIV e de
moduladores de proteínas acopladas à prote-
ína G (GPCR, G protein-coupled receptor).
13.1. Introdução Os estudos cristalográficos são compo-
nentes fundamentais para o desenvolvimento
A cristalografia de raios-X é uma ciência e a aplicação de métodos em bioinformática,
dedicada ao estudo da estrutura molecular e incluindo a modelagem molecular e o plane-
cristalina, bem como das relações entre essa jamento de fármacos baseado na estrutura
estrutura e suas propriedades. A cristalogra- de receptores (SBDD, structure-based drug
fia de raios-X moderna apresenta aplicações design). De fato, diversos métodos em bioin-
amplas nas ciências dos materiais, química, formática utilizam como pré-requisito o co-
mineralogia, física, matemática e biologia. Sua nhecimento 3D detalhado da macromolécula
aplicação para determinação da estrutura 3D em estudo. Essa informação é geralmente
de biomoléculas, com destaque para as pro- adquirida a partir de estruturas depositadas
teínas, deu origem à cristalografia de proteí- em bases de dados públicos, onde podem ser
nas, caracterizada como um processo acessadas livremente, dentre os quais se
complexo que engloba uma variedade de es- destaca o PDB (Protein Data Bank).
tratégias e métodos tradicionais e modernos, Embora a estrutura 3D de macromolé-
integrando especialidades como a física, quí- culas pode ser obtida através de diversos
mica, biologia, bioquímica e computação. métodos experimentais, tais como a resso-
A cristalografia de proteínas determi- nância magnética nuclear (RMN, ver capítulo
nou a criação de uma nova área do conheci- 12) e a criomicroscopia eletrônica, a cristalo-
13. Cristalografia de proteínas
grafia de raios-X ocupa papel de destaque. Is- tudos cristalográficos com métodos bioquí-
to pode ser evidenciado, por exemplo, no fato micos, biofísicos e de química medicinal. Atu-
de que em janeiro de 2014 o PDB apresentava almente, projetos extremamente desa-
aproximadamente 97.000 estruturas de ma- fiadores em cristalografia têm como foco a
cromoléculas depositadas (incluídas proteí- determinação das estruturas de vírus, proteí-
nas, ácidos nucleicos, complexos macromo- nas de membrana e complexos multimolecu-
leculares e polissacarídeos), dentre as quais lares (por exemplo, envolvendo pro-
aproximadamente 90% tiveram sua estrutura teína-proteína, proteína–DNA e prote-
3D determinada pelo método de cristalografia ína–RNA).
de raios-X (Tabela 1-13). Já a abordagem em larga escala consis-
Os métodos e estratégias cristalográfi- te na elucidação do genoma estrutural atra-
cas para o estudo de macromoléculas evolui- vés da determinação da estrutura 3D do
ram significativamente nos últimos anos. maior número possível de proteínas consti-
Devido aos rápidos avanços tecnológicos, as tuintes de um determinado organismo. O de-
coletas de dados cristalográficos que eram senvolvimento da cristalografia em larga
realizadas exclusivamente em fontes caseiras escala (high-throughput crystallography) foi
(por exemplo, através de um ânodo rotatório) substancialmente beneficiado pelo surgimen-
passaram a ser executada em fontes de alto to de métodos automatizados para a cristali-
brilho e intensidade, tais como laboratórios de zação e coleta de dados, bem como pelo
luz síncrotron. Essa evolução tem como re- desenvolvimento de fontes de luz de alto bri-
sultado direto um crescimento exponencial no lho e intensidade (por exemplo, síncrotrons de
número de estruturas de macromoléculas 3ª geração como o European Synchrotron
determinadas anualmente, conforme verifi- Radiation Facility – ESRF, na França, o
cado pelo número de estruturas depositadas Advanced Photon Source – APS, nos EUA e o
no PDB (Figura 1-13). Além disso, esse cenário SPring-8, no Japão).
tem contribuído para o desenvolvimento de As estruturas 3D de proteínas determi-
duas abordagens distintas para o estudo de nadas por métodos cristalográficos são fre-
macromoléculas: i) tradicional e ii) larga es- quentemente o ponto de partida para a
cala. construção de modelos moleculares que vi-
A abordagem tradicional consiste em sam elucidar a estrutura e função de proteí-
resolver estruturas de um pequeno conjunto nas homólogas (como visto no capítulo 7) ou
de macromoléculas e seus complexos em um o planejamento de novas moléculas bioativas
ambiente onde há ampla integração dos es- (como visto no capítulo 9). Portanto, o co-
Híbridos 55 3 2 1 61
que 95%).
Para contornar este desafio, os projetos
pioneiros de cristalografia de macromolécu-
las (por exemplo, na cristalização da mioglo-
bina em 1958, da hemoglobina em 1960, da
lisozima em 1965 e da insulina em 1969) utili-
zaram proteínas extraídas de fonte natural
(nos casos mencionados, músculo esquelético
de baleia cachalote, sangue de cavalo, clara
de ovo de galinha, pâncreas de porco, res-
pectivamente). Entretanto, a utilização de
fontes naturais para obtenção da macromo-
lécula geralmente inclui algumas limitações,
dentre as quais destacam-se:
i) baixa concentração: a pequena quan-
tidade de proteína produzida na células,
somada à distribuição diferenciada nos
tecidos do organismo em estudo acar-
retam em baixa concentração de proteí-
Figura 1-13: Número de estruturas de na para os estudos estruturais;
macromoléculas depositadas no PDB (dados ii) isoformas e modificações pós-tradu-
1972–2014, http://www.rcsb.org). cionais: a expressão de isoformas de
uma proteína, aliada aos diferentes ní-
nhecimento dos fundamentos, vantagens e li- veis de modificações pós-traducionais,
mitações da cristalografia de raios-X é funda- aumentam a heterogeneidade da amos-
mental para a seleção criteriosa de tra e dificultam a separação dos com-
estruturas apropriadas para os estudos em ponentes da solução. Essas
bioinformática. características apresentam impacto
Adicionalmente, esse conhecimento nos significativo na obtenção de proteína
permite uma melhor compreensão e avalia- com elevado teor de pureza e, conse-
ção dos modelos 3D de macromoléculas de- quentemente, na qualidade e formação
positados nos bancos de dados. Desse modo, dos cristais.
o presente capítulo busca oferecer uma des-
crição dos métodos cristalográficos para a Apesar dessas limitações, algumas
determinação da estrutura 3D de proteínas, proteínas específicas continuam sendo obti-
explorando seus princípios e fundamentos, das a partir de fontes naturais, com destaque
com especial destaque para os critérios que para anticorpos, proteínas de membrana e
devem ser utilizados para a obtenção de uma proteínas fúngicas envolvidas no processo de
estrutura por cristalografia de raios-X, bem produção do bioetanol. Contudo, a vasta mai-
como para avaliação da qualidade do modelo oria das proteínas investigadas por métodos
estrutural construído. cristalográficos são provenientes de sistemas
heterólogos (isto é, expressão realizada em
13.2. Obtenção de proteínas organismo hospedeiro diferente do organis-
mo alvo) baseados em estratégias de ex-
Uma das etapas fundamentais da biolo- pressão que utilizam a tecnologia do DNA
gia estrutural é a obtenção do alvo molecular recombinante.
em quantidade e pureza suficiente para os O avanço das técnicas de DNA recombi-
estudos cristalográficos (em torno de mili- nante e engenharia genética, com destaque
gramas de proteína com teor de pureza maior para o desenvolvimento da reação em cadeia
13. Cristalografia de proteínas
Figura 3-13: Esquema geral do método de clonagem clássica para expressão heteróloga de
proteína.
Figura 4-13: Esquema geral do método de clonagem independente de ligação (LIC) para
expressão heteróloga de proteína.
da ou acumular-se na fração insolúvel. Assim, marcadores e das proteínas não digeridas pe-
faz-se necessário avaliar criteriosamente as la protease. Subsequentemente, uma etapa
melhores condições de lise. de cromatografia de exclusão por tamanho,
Frequentemente, a etapa seguinte con- também conhecida por gel filtração, é neces-
siste na precipitação fracionada das proteínas sária para a purificação final da amostra.
na mistura proveniente da lise celular. Esse O método de gel filtração permite ainda
procedimento é realizado através da adição a avaliação da homogeneidade da amostra em
de um sal, como o sulfato de amônio, ou de relação aos estados oligoméricos existentes
um solvente orgânico, como o etanol. Com os em solução, o que pode ter implicações im-
avanços das técnicas e métodos de expressão portante na compreensão da biologia estru-
recombinante, vetores de expressão moder- tural da proteína em estudo. Além disso,
nos permitem a inclusão de facilitadores da pode-se empregar essa técnica para realizar a
purificação. Nesse sistema, as proteínas são troca da solução tamponante para uma mais
expressas com marcadores (tags) que possi- adequada para os ensaios de cristalização.
bilitam o emprego de métodos cromatográfi- É importante mencionar que, além da
cos (particularmente cromatografias de cromatografia de afinidade e de gel filtração,
afinidade) para a captura seletiva da proteína outros métodos cromatográficos são fre-
de interesse. quentemente empregados para aumentar o
O tipo de método cromatográfico a ser teor de pureza da proteína em estudo, tais
empregado depende do marcador vinculado como a cromatografia de troca iônica e a
ao vetor do sistema de expressão. Esses cromatografia de interação hidrofóbica. Essas
marcadores variam desde oliogopeptídeos, técnicas são aplicadas à amostra proteica nos
como uma cauda de hexahistidina (6xHis), até casos em que a pureza obtida não tenha atin-
proteínas fusionadas de elevada massa mo- gido os níveis necessários para os estudos
lecular, como a glutationa-S-transferase cristalográficos.
(GST). A cromatografia de afinidade por íon O teor de pureza recomendado para
metálicos imobilizados é comumente utilizada cristalografia de proteínas é superior a 95%.
para purificação de proteínas expressas com Contudo, faz-se necessário esclarecer que a
cauda de hexahistidina. cristalização é, em si, um método de purifica-
Após a etapa de cromatografia de afini- ção, de forma que não há regra absoluta so-
dade deve-se decidir sobre a manutenção ou bre a pureza da amostra. Comumente,
remoção do marcador. Não há evidências cla- avalia-se a pureza da proteína através de
ras sobre o impacto do marcador para o pro- análise eletroforética desnaturante em gel de
cesso de cristalização, contudo, geralmente poliacrilamida (SDS-PAGE), cujo resultado
remove-se os marcadores de elevada massa ideal é a presença de uma banda única cor-
molecular e avalia-se a influência dos de pe- respondente à proteína de interesse na forma
quena massa molecular. pura (Figura 5-13). Métodos alternativos co-
A remoção do marcador ou clivagem é mo análises eletroforéticas não desnaturan-
realizada pelo tratamento da amostra com tes e ensaios de espalhamento dinâmico de
enzimas proteolíticas, como trombina, fator luz (DLS, dynamic light scaterring) são fre-
Xa, enteroquinase, TEV protease e SUMO quentemente empregados para assegurar o
protease. A seleção da enzima é determinada teor de pureza e homogeneidade da solução
pela estratégia de clonagem e vetor utilizado, em estudo.
uma vez que este contém sequências de re-
conhecimento específicas para determinadas 13.5. Cristalização
proteases.
Nesse momento, uma segunda etapa de A obtenção de cristais adequados para
cromatografia de afinidade deve ser utilizada os experimentos de difração de raios-X é fun-
para separar a proteína de interesse dos damental para a determinação da estrutura
13. Cristalografia de proteínas
variáveis. Esses métodos são geralmente o emprego de proteína com elevado teor de
aplicáveis à maioria das proteínas, DNAs, pureza.
RNAs e complexos multimoleculares. A solução de proteína inicialmente em-
Dentre os parâmetros que podem apre- pregada em ensaios de cristalização apresen-
sentar impacto direto no processo de cristali- ta concentração abaixo do limite de
zação merece destaque a temperatura, capaz solubilidade, ou seja, constitui uma solução
de alterar a curva de solubilidade da proteína insaturada. Logo para que a cristalização
e a cinética de equilíbrio e nucleação. As tem- ocorra é necessário que essa solução se tor-
peraturas amplamente empregadas para ne supersaturada (Figura 7-13). Nesse senti-
cristalização de proteínas são de 18 °C e 4 °C do, deve-se aumentar a concentração da
embora, quando possível, recomenda-se ava- solução de proteína através da remoção do
liar a influência de temperaturas alternativas. solvente e da inclusão de agentes precipitan-
No processo de cristalização, a vasta tes, capazes de reduzir a solubilidade da pro-
maioria das interações entre as moléculas de teína. O sistema então evoluirá para um
proteínas ocorrem na superfície das mesmas. estado mais concentrado, que ultrapassará o
Portanto, a presença ou ausência de algumas limite de solubilidade e constituirá uma solu-
características podem ser fundamentais para ção supersaturada.
obtenção de um cristal, destacando-se a
presença de regiões desordenadas ou muito
flexíveis e distribuição dos resíduos
superficiais que contribuem para a carga total
e entropia do sistema. A distribuição de
algumas propriedades, calculadas a partir da
sequência de aminoácidos do alvo proteico,
como número de aminoácidos, ponto
isoelétrico, tamanho da maior região
desordenada, estabilidade, presença de
domínios coiled coil, entre outras, tem sido
empregada na avaliação do potencial de
cristalização ou cristalizabilidade.
Ferramentas computacionais, como o
XtalPred, avaliam essas propriedades e as Figura 7-13: Diagrama de fase mediado por
comparam com aquelas disponíveis em banco agente precipitante e concentração proteica
de dados de proteínas cristalizadas para para a cristalização.
predizer a capacidade da proteína de interesse
de cristalizar. A análise do diagrama de fase representado na Fi-
Independentemente da origem e das gura 7-13 revela três regiões distintas:
particularidades da macromolécula em estu- i) região azul, caracterizada pela presença de solu-
do, alguns parâmetros importantes favore- ção insaturada (proteína solúvel). Nessa região não
cem a produção de cristais adequados aos há formação e crescimento de cristais;
estudos de difração de raios-X, com destaque ii) região verde, caracterizada pela solução satura-
para: i) a quantidade de proteína, necessária da metaestável, subdivida nas sub-regiões iia e iib;
para garantir amostra suficiente durante os iia) abaixo da linha central verde não haverá forma-
experimentos, e ii) a pureza da amostra. Em- ção e crescimento de cristais devido à ausência de
bora existam casos de cristalização a partir núcleos cristalinos;
de extratos brutos (como é o caso da lisozi- iib) acima da linha verde a formação de cristais tor-
ma, da ferritina e da mioglobina), a probabili- na-se favorável, pois ocorre o fenômeno de nuclea-
dade de sucesso nos experimentos de ção de maneira espontânea. Nessa região a barreira
cristalização aumenta significativamente com energética é vencida, permitindo que o sistema reti-
13. Cristalografia de proteínas
re proteína da solução e forme os núcleos cristali- processo de cristalização. Atualmente, altera-se a ca-
nos. Este processo é acompanhado pela diminuição pacidade de cristalização de proteínas através de mu-
da concentração de proteína em solução, e o siste- tações específicas de resíduos localizados na superfície
ma evoluirá para o equilíbrio que favorece o cresci- da macromolécula de forma a interferir nestes com-
mento dos cristais a partir dos núcleos formados; ponentes, favorecendo a cristalização. Exemplos
iii) região vermelha, caracterizada pela presença relevantes dessa estratégia incluem modificações de
de solução hipersaturada. Nessa região ocorre pre- resíduos de aminoácidos com termo entrópico elevado,
cipitação espontânea da proteína de forma desor- especialmente, resíduos de lisinas e ácidos glutâmicos.
denada. Estes resíduos possuem cadeias laterais longas e, por
sua disposição preferencial pela superfície proteica,
As condições favoráveis para o processo de nucle- normalmente caracterizam-se por elevada entropia
ação e crescimento de cristais devem ser avaliadas conformacional. Desta maneira, a troca por resíduos
cuidadosamente. Nesse contexto, podem-se identificar com menor entropia associada, como exemplo
condições favoráveis para o crescimento do cristal que, resíduos de alanina, minimizam a perda de entropia
contudo, não são favoráveis para a nucleação. Da mes- durante o empacotamento, favorecendo ainda mais o
ma forma, pode-se obter condições favoráveis para a processo de cristalização (∆Gcrist << 0).
nucleação intensa da proteína que, por sua vez, impe- O planejamento de mutações com objetivo de au-
dem o crescimento dos cristais. Existem diversas téc- mentar o potencial de cristalização de um alvo macro-
nicas para contornar os problemas específicos de cada molecular é auxiliado pela disponibilidade de
caso, buscando-se a obtenção de cristais adequados servidores gratuitos na internet. Um exemplo impor-
para os estudos cristalográficos. tante é o SERp da Universidade da Califórnia (UCLA).
Esse servidor emprega o método de redução da entro-
Processo físico-químico pia de superfície (SER, surface entropy reduction) que,
em linhas gerais, realiza a previsão de estrutura 2ária a
A cristalização pode ser descrita como um proces- partir da sequência de aminoácidos e, com base nesse
so físico-químico envolvendo os seguintes componen- resultado, estabelece o perfil entrópico da proteína,
tes energéticos: sugerindo resíduos cuja mutação poderia beneficiar o
processo de cristalização.
ΔGcrist = ΔHcrist - T(ΔSproteína + ΔSsolvente)
Métodos de cristalização
O termo entálpico (∆Hcrist) apresenta contribuições
modestas ao processo de cristalização, uma vez que é Uma vez obtida a proteína de interesse
proveniente de um pequeno número de interações mo- com teor de pureza adequado, tem-se diver-
leculares de baixa intensidade, estabelecidas entre as sas alternativas disponíveis para a cristaliza-
macromoléculas para a formação do cristal. ção. Em comum, estes métodos envolvem a
Paralelamente, esse processo determina a perda de mistura da solução pura de proteína com so-
liberdade de translação e rotação das macromoléculas luções de cristalização, contendo agentes
quando comparadas às suas formas livres em solução. precipitantes variados.
Perde-se ainda a flexibilidade de algumas alças devido Em seguida, mantém-se a mistura em
ao empacotamento estabelecido sendo, portanto, um um sistema fechado e isolado para estabele-
processo entropicamente desfavorável (∆Sproteína > 0). cimento do equilíbrio e consequente cristali-
Por outro lado, a cristalização da macromolécula li- zação. A seleção da estratégia de
bera uma quantidade significativa de moléculas de cristalização depende de fatores como o ob-
águas previamente ordenadas ao redor de resíduos hi- jetivo de aplicação (por exemplo, a triagem
drofóbicos e polares, o que promove um ganho entró- inicial de condições ou a otimização de cris-
pico considerável (∆Ssolvente < 0) que torna o processo de tais) e características do ensaio (como a faci-
cristalização espontâneo (∆Gcrist < 0). lidade de resgate dos cristais da gota de
A compreensão dos componentes energéticos é de cristalização, o número de experimentos e a
fundamental importância para o favorecimento do possibilidade de automação, dentre outros).
13. Cristalografia de proteínas
meável, que dificulta a difusão de vapor e, dessa precipitantes (reduzem a solubilidade da pro-
forma, isola o sistema para que se atinja o equilíbrio. teína).
Consequentemente, é favorecida a cristalização da O agente tamponante é fundamental no
macromolécula (Figura 9-13). Variantes dessa técnica processo de cristalização por manter cons-
utilizam óleos permeáveis, como silicones, que deter- tante o pH da solução e, consequentemente,
minam novas condições de equilíbrio para a formação estabilizar a distribuição de cargas dos resí-
de cristais de boa qualidade. duos na superfície da proteína. Além disso, o
A microdiálise permite a troca do solvente e do agente tamponante pode alterar a solubilida-
agente precipitante presente na solução proteica com a de da proteína favorecendo o processo de
solução do reservatório através de uma membrana cristalização quanto empregados em concen-
semipermeável, favorecendo a redução ou aumento tração adequada.
das concentrações e, consequentemente, a cristaliza- Os aditivos são compostos capazes de
ção. permitir, facilitar ou aperfeiçoar o processo
Na interfase livre de difusão a solução de proteína e de cristalização como, por exemplo, cloreto
a solução de cristalização são acondicionadas em capi- de magnésio, L-prolina, ATP e NAD. Esses
lares que permitem o contato das soluções em apenas compostos apresentam propriedades distin-
uma pequena superfície (interface de contato), de for- tas, que favorecem o processo de cristaliza-
ma que o equilíbrio é atingido após a difusão lenta de ção. Por exemplo, detergentes estabilizam a
uma solução na outra. Nesse experimento, avalia-se o estrutura e impedem a agregação de proteí-
perfil de solubilidade da proteína em gradiente de con- na, enquanto ligantes e íons metálicos podem
centração para identificação da condição mais favorá- promover contatos intermoleculares adicio-
vel para a cristalização. nais ou ainda alterar a polaridade do meio. Di-
A automatização das etapas de monta- ante da impossibilidade de prever o efeito de
gem e observação dos cristais tem favorecido determinado aditivo sobre a cristalização, de-
significativamente os experimentos de crista- ve-se avaliar a influência desses compostos
lização, propiciando: através de triagem sistemática. Para tanto, há
i) ganho de agilidade e precisão na disponíveis kits comerciais já preparados para
montagem dos cristais, particularmente aplicação.
importantes em trabalhos com proteí- Os agentes precipitantes podem ser di-
nas sensíveis e instáveis e na reproduti- vididos em duas classes: sais inorgânicos e
bilidade dos cristais; compostos orgânicos. A utilização de sais co-
ii) miniaturização; mo agentes precipitantes está relacionada a
iii) redução no custo e consequente dois fenômenos conhecidos como salting-in e
possibilidade de aumento no número de salting-out. O primeiro favorece o aumento da
ensaios realizados para o mesmo alvo; solubilidade da proteína através do acréscimo
iv) viabilização de estudos de cristaliza- de pequenas quantidades de sal, enquanto o
ção para proteínas cuja expressão seja segundo favorece a diminuição da solubilidade
bastante reduzida ao permitir a manipu- da proteína por acréscimos de quantidades
lação dos pequenos volumes envolvi- elevadas de sal. Sais como o sulfato de amô-
dos. nio, cloreto de sódio e citrato de sódio estão
entre os amplamente empregados como
Reagentes para cristalização agentes precipitantes.
Na classe dos precipitantes orgânicos
As soluções de cristalização contêm re- destacam-se os polímeros de poliálcoois, com
agentes que podem ser agrupados em clas- ênfase para o polietilenoglicol (PEG) e polieti-
ses distintas: agentes tamponantes lenoglicol monoetil éter (PEG–MME), que
(responsáveis por manter o pH adequado da apresentam comprimentos de cadeias variá-
solução de cristalização), aditivos (facilitam veis, variando de 200 a 20.000 Da de massa
e/ou otimizam o processo de cristalização) e molecular média. Os representantes mais
13. Cristalografia de proteínas
populares dessa classe são os PEGs 3.350, encontra aplicação quando a disponibilidade
4.000 e 8.000. O mecanismo de redução de de amostra restringe o número de ensaios
solubilidade por estes compostos é atribuído que podem ser conduzidos.
à competição dos substituintes hidroxilas com Devido às características do processo
os resíduos da proteína pelas moléculas de automatizado de montagem dos experimen-
água disponíveis. tos de cristalização, a estratégia mais empre-
Adicionalmente, alguns álcoois de pe- gada em triagens iniciais é a matriz esparsa,
quena massa molecular têm sido emprega- que apresenta aspectos semelhantes ao fa-
dos com sucesso como agentes precipitantes. torial incompleto. Para a elaboração dessa
Estes compostos são capazes de reduzir a estratégia, um estudo estatístico que incluiu
concentração de proteína pela alteração da mais de 500 proteínas, 480 condições de
polaridade da solução de cristalização. cristalização e mais de 500.000 experimen-
Exemplos de destaque dessa categoria inclu- tos foi conduzido pelo centro de genômica
em o isopropanol, 2-metil-2,4-pentanodiol estrutural Joint Center for Structural
(MPD), 1,6-hexanodiol e glicerol. Genomics (JCSG – San Diego, Califórnia, EUA).
Esse estudo resultou na seleção de 384 con-
Estratégias para cristalização de dições com maior probabilidade de sucesso
proteínas para a cristalização de macromoléculas.
Para a realização dos ensaios de cristalização há
Atualmente, as etapas iniciais de tria- necessidade de solução de proteína com a máxima pu-
gem para identificação de condições de cris- reza disponível e concentração adequada. A concentra-
talização promissoras empregam soluções de ção média utilizada para determinação das estruturas
cristalização isoladas ou reunidas de acordo de proteínas depositadas no PDB é de 14 mg/mL. No
com as características físico-químicas. Essas entanto, há exemplos de estruturas cristalizadas entre
soluções são produzidas e comercializadas 2 e 100 mg/mL. Como regra geral, emprega-se a con-
por empresas especializadas, tais como centração de 10 mg/mL em ensaios iniciais de cristali-
Hampton Research, Molecular Dimensions, zação.
Qiagen e Jena Biosciences. Após a montagem dos experimentos, as placas de
Dentre os formatos e estratégias dis- cristalização devem ser acondicionadas em ambiente
poníveis destaca-se a triagem em rede (grid adequado, com baixa vibração e temperatura controla-
screen), capaz de fornecer informações im- da, para que o sistema evolua em direção à condição
portantes de modo rápido, sendo por isso de equilíbrio.
amplamente aplicada em triagens iniciais. Tradicionalmente, a observação das gotas é realiza-
Nesse experimento, avaliam-se sistematica- da através de análise visual com o auxílio de uma lupa.
mente dois fatores em paralelo como, por Contudo, equipamentos modernos e programas de re-
exemplo, variações simultâneas de pH/PEG, conhecimento de padrões têm sido desenvolvidos e
pH/cloreto de sódio e pH/sulfato de amônio, aplicados na inspeção e aquisição de imagens, onde fo-
dentre outras combinações. tos de cada uma das gotas do experimento de cristali-
Uma estratégia alternativa para identifi- zação são obtidas e analisadas automaticamente.
cação de condições promissoras para a cris- Como regra geral, observa-se o experimento imediata-
talização consiste na utilização de soluções mente após sua montagem (t = 0), seguida de mais 10
fatoriais. Nessa abordagem, busca-se balan- observações ao longo do experimento, com intervalos
cear a ocorrência de algumas características menores no início e mais prolongados ao final.
principais e suas combinações durante o pro- As observações devem ser registradas adequada-
cesso de amostragem através do planeja- mente para avaliação e identificação das condições
mento fatorial. A utilização de fatoriais mais promissoras para cristalização. Os kits comerciais
incompletos reduz a quantidade de parâme- fornecem tabelas próprias com sistemas de pontuação
tros avaliados e, com isso, o número de ex- para facilitar a interpretação e análise dos resultados.
perimentos realizados. Essa alternativa Adicionalmente, programas têm sido utilizados como
13. Cristalografia de proteínas
ferramentas eficientes para avaliação dos dados e cristalização, o agente tamponante e o pH da solução, a
proposição de novos experimentos. presença de aditivos e detergentes e a cinética de equi-
O objetivo dos experimentos de cristali- líbrio, entre outros. Essa investigação se estende até a
zação é a obtenção de cristais adequados pa- identificação de condições otimizadas de cristalização,
ra os ensaios de difração de raios-X. No capazes de fornecer cristais apropriados e de boa qua-
entanto, os resultados observados podem ser lidade para os experimentos de difração de raios-X.
bastante variados, incluindo-se:
i) cristais bem formados, com arestas e 13.6. Coleta de dados
faces definidas (Figura 10A-13);
ii) cristais com crescimento em duas di- Uma vez que cristais adequados são
mensões, denominados de placas (Figu- produzidos, eles podem ser testados quanto à
ra 10B-13); sua capacidade de difração de raios-X e, em
iii) cristais com crescimento em apenas seguida, serem empregados na coleta de da-
uma dimensão, denominados de agulhas dos cristalográficos.
(Figura 10C-13); O uso da difração de raios-X na obten-
iv) precipitados leves e intensos (Figuras ção de informação sobre a estrutura de mo-
10D-13 e 10E-13, respectivamente); léculas baseia-se na propriedade do padrão
v) separações de fase (Figura 10F-13); de difração da distribuição eletrônica dos
vi) aglomerados de agulhas (Figura 10G- átomos em um objeto poder ser aproximado
13); pela transformada de Fourier do mesmo. Por
vii) microcristais (Figura 10H-13). outro lado, a transformada inversa de Fourier
do padrão de difração é a distribuição eletrô-
Com exceção de alguns casos nos quais os cristais nica dos átomos do cristal de proteína.
obtidos na etapa de triagem podem ser considerados O fenômeno de difração depende da in-
adequados para os experimentos de difração de raios- teração entre a radiação eletromagnética
X, a obtenção de uma condição promissora é seguida com a matéria do objeto e da dispersão dessa
por etapas de otimização. Embora o número de parâ- radiação ao incidir sobre este. Embora exis-
metros a serem investigados nessa etapa seja elevado, tam outros métodos de dispersão disponíveis,
costuma-se explorar a concentração dos reagentes ini- como a dispersão de nêutrons dos núcleos,
ciais (incluindo a concentração de proteína), a propor- eles constituem atualmente uma fração mui-
ção entre a solução de proteína e a solução de to pequena dos experimentos de difração.
Padrão de difração
O padrão de difração de proteínas é tri-
dimensional e reflete tanto a simetria dos ar-
ranjos cristalinos quanto a organização da
proteína na célula unitária, isto é, a unidade de
repetição que constitui o cristal). Esses ar-
ranjos são definidos em termos de grupos
espaciais e de unidades assimétricas.
A unidade assimétrica é a menor unida-
de a partir da qual uma célula unitária pode
ser construída. Além disso, a unidade assimé- Figura 11-13: Exemplo de empacotamento
trica representa o número mínimo de estru- cristalino, célula unitária (paralelogramo) e
turas independentemente determinadas em unidade assimétrica (destacada nas cores
um cristal. Por exemplo, uma unidade assi- ciano, magenta e verde). Empacotamento de
métrica pode conter desde apenas um repre- várias moléculas da proteína 6-piruvoil-
sentante da proteína em estudo até 12 ou tetrahidrobiopterina-sintase humana (PTPS).
mais representantes. Frequentemente, esses Dados processados e refinados por JRCM e
arranjos tornam possível a determinação do gentilmente cedidos pelo Structural Genomics
estado oligomérico da proteína, especialmen- Consortium, Oxford, UK.
13. Cristalografia de proteínas
menor que 100% e completeza maior que A determinação da fase nos estudos
95% (em geral, é aceitável que a completeza cristalográficos é um processo complexo, co-
seja baixa somente nas camadas de maior nhecido como “problema das fases”. É uma
resolução). etapa fundamental e de grande impacto para
A relação entre esses parâmetros de- a obtenção de mapas de densidade eletrônica
termina a qualidade final do mapa de densi- bem definidos e, por conseguinte, para a
dade eletrônica. Portanto, quanto maior a construção de modelos estruturais de quali-
qualidade dos dados cristalográficos, maior dade. De fato, um mapa de densidade eletrô-
será a probabilidade de se obter um mapa de nica calculado a partir das amplitudes de uma
densidade eletrônica bem definido e interpre- estrutura correta, mas com fases incorretas,
tável. No entanto, é importante mencionar seria impossível de se interpretar. Por outro
que a análise isolada desses parâmetros não lado, um mapa de densidade eletrônica calcu-
deve ser utilizada como um substituto para o lado a partir de amplitudes de estruturas ale-
julgamento da veracidade do modelo estru- atórias, mas com fases corretas, seria
tural. interpretável.
Os valores mencionados para os princi- A fase corresponde ao tempo relativo à
pais parâmetros cristalográficos devem ser chegada da crista de uma onda específica a
utilizados como indicativos da qualidade do um ponto de referência. Ondas de mesmo
conjunto de dados coletados. A vasta maioria comprimento e fases idênticas terão seus pi-
dos modelos estruturais depositados no PDB cos e vales em comum, somando-se em har-
foi construído a partir de conjuntos de dados monia. Ondas com fases opostas tendem a
de excelente qualidade. Contudo, há também anular umas as outras, total ou parcialmente,
exemplos de modelos incorretos, provenien- dependendo de suas amplitudes.
tes de conjuntos de dados de qualidade sim- Assim, ao somarmos todas as ondas
plesmente aceitável. Em geral, esses difratadas (a síntese de Fourier) para se re-
modelos são resultado da interpretação ina- solver uma estrutura de proteína, torna-se
dequada dos mapas de densidade eletrônica, necessário determinar as amplitudes e fases
construídos a partir de conjunto de dados de para cada uma das ondas espalhadas, ou seja,
menor resolução. Portanto, quanto maior a para cada reflexão.
resolução dos dados, menor a probabilidade Experimentalmente, a amplitude da on-
de erros no modelo estrutural da proteína em da difrata é facilmente medida utilizando-se
estudo. detectores modernos, tais como placas de
imagem, couple charged devive (CCD) e pixel
Faseamento apparatus for the SLS (PILATUS). Em um ex-
perimento de difração, as intensidades e po-
A radiação eletromagnética pode ser sições das ondas difratadas são medidas, mas
descrita pela equação de ondas, que é defini- as fases são perdidas. Isto ocorre porque os
da em termos de amplitude, comprimento de raios-X deslocam-se na velocidade da luz e,
onda e fase. Em um experimento de difração dessa maneira, o tempo relativo de chegada
de raios-X, os dois primeiros parâmetros são de todas as ondas espalhadas provenientes
medidos diretamente, ou seja, a amplitude da do cristal ao detector parece ser o mesmo.
onda é proporcional à intensidade do feixe di- Portanto, as fases deverão ser determinadas
fratado (a amplitude é igual à raiz quadrada através de métodos alternativos.
da intensidade medida para uma reflexão) e o O método mais comum de faseamento,
comprimento de onda (λ) é definido pelo especialmente para o desenvolvimento de
comprimento de onda dos raios-X utilizados. novos compostos bioativos, é o de substitui-
As fontes caseiras com ânodo rotatório de Cu ção molecular. O método baseia-se em dois
apresentam λ = 1,54178 Å, enquanto fontes de fatores: 1) na disponibilidade das coordenadas
luz síncrotrons apresentam λ = 0,8–2,5 Å. atômicas da estrutura da proteína de interes-
13. Cristalografia de proteínas
Figura 16-13: Visão geral das etapas envolvidas na determinação de uma estrutura de proteína
por métodos cristalográficos.
podem ser representados ou explicados pelo modelo vido à natureza incompleta dos dados utiliza-
estrutural. dos para o cálculo do Rlivre, este é frequen-
É importante mencionar que um modelo estrutural temente maior do que o valor do Rfator em
de boa qualidade pode apresentar pequenas falhas, cerca de 3–5%, no caso de estruturas bem
provenientes de erros durante a aquisição dos dados refinadas. Nas etapas iniciais de refinamento,
cristalográficos, da incapacidade de se modelar regiões esse número pode ser maior que 10%.
desordenadas na estrutura, de diferentes conforma- Uma vez que as moléculas de proteína
ções e de regiões flexíveis, principalmente regiões de são formas irregulares, durante o processo
alças. de formação dos cristais espaços e canais
Devido à grande influência das fases entre as cadeias polipeptídicas são preenchi-
calculadas (FC) sobre as amplitudes das re- dos com solvente e outros compostos prove-
flexões (FO) na determinação da densidade nientes da solução de cristalização,
eletrônica final, o valor de Rfator pode ser incluindo-se água, íons e agente crioprotetor,
manipulado e levar ao sobreajuste do modelo dentre outros.
estrutural. O componente mais importante do sol-
Visando-se manter a precisão e a vera- vente são as moléculas de água ligadas à
cidade do modelo estrutural, uma estratégia proteína, encontradas em localizações dis-
comumente utilizada consiste no cálculo do cretas e, geralmente, na superfície da macro-
Rfator a partir de dados que não foram utili- molécula. As moléculas de água são
zados no processo de refinamento e, portan- modeladas de acordo com um procedimento
to, não foram influenciados pelas fases que envolve a identificação de características
calculadas, o que pode ser chamado de vali- específicas das densidades eletrônicas que
dação externa ou Rlivre. não são atribuídas à proteína, tais como a al-
O Rlivre é calculado a partir de 5 a 10% tura do pico de densidade eletrônica e a posi-
das reflexões, selecionadas de modo aleatório ção da molécula de água em relação aos
e excluídas do processo de refinamento. De- átomos da proteína, com os quais poderá
13. Cristalografia de proteínas
retamente posicionadas.
Já em estruturas de alta resolução (1,0–2,0 Å), po-
de-se identificar um número significativo de moléculas
de água na superfície da proteína com boa precisão.
Contudo, é importante mencionar que a utilização de
moléculas de água em demasia em um modelo final
pode mascarar regiões da densidade eletrônica e indu-
zir a erros de interpretação, como a atribuição de
águas a densidades que correspondem a cadeias late-
rais dos resíduos, outros tipos de solventes ou ligantes.
Como o Rfator pode ser interpretado como uma
Figura 17-13: Critérios sugeridos para medida de quanto a densidade eletrônica é satisfeita,
avaliação da qualidade de modelos de moléculas de água mal posicionadas podem diminuir o
estruturas cristalográficas de valor para o Rfator, porém, sem melhorar a acurácia
macromoléculas, de adequado (verde) a ina- do modelo. Nesses casos, a comparação entre os va-
dequado (vermelho). Diferença entre o Rlivre lores de Rfator e Rlivre é fundamental para avaliar a
e Rfator > 7% indica baixa correlação entre possibilidade de sobreajuste do modelo (diferença en-
os dados experimentais e o modelo tre Rlivre e Rfator > 7%). A Tabela 4-13 apresenta va-
estrutural. Entretanto, se essa diferença for < lores representativos das estatísticas de refinamento
2% sugere-se que o conjunto de dados esteja para um bom modelo cristalográfico.
demasiadamente “preso”. Valores de RMSD Uma estratégia frequentemente em-
(ver capítulo 8) indicam a presença de erros pregada para a identificação de erros de in-
no modelo. Por outro lado, valores terpretação em modelos estruturais
excessivamente baixos de RMSD (por baseia-se nas características geométricas dos
exemplo, 0,004 Å) indicam excesso nas aminoácidos e das estruturas 2árias (como
restrições estereoquímicas, com maior peso distâncias, ângulos de ligação e diedros φ e ψ,
à otimização da geometria em detrimento dos ver capítulo 2).
dados de difração experimental durante os As distâncias interatômicas e ângulos de
ciclos de refinamento. ligação dos resíduos de aminoácidos são bem
conhecidos e empregados como guia para
formar ligações de hidrogênio. avaliação de modelos estruturais. A medida é
Frequentemente, densidades eletrônicas expressa pelo valor de RMSD para todas as
próximas à cadeia polipeptídica são atribuídas distâncias e ângulos de ligação na proteína em
a íons provenientes das soluções de cristali- estudo.
zação, como sódio, cálcio e amônio. Em geral, As relações entre os ângulos diedrais
essas densidades apresentam características para os átomos da cadeia principal que con-
específicas como formas, estado de coorde- tém estrutura 2ária foram analisadas em ter-
nação ou propriedades eletrônicas que auxili- mos de valores permitidos e proibidos em um
am a identificação correta do íon e o seu gráfico conhecido como Gráfico de Rama-
modo de ligação. chandran (Figura 18-13, ver capítulo 2).
O número de moléculas de águas que podem ser Contudo, faz-se necessário salientar que
identificadas e associadas a um determinado modelo alguns resíduos podem localizar-se fora das
estrutural irá depender da qualidade do modelo e dos regiões permitidas por diferentes razões. Por
dados cristalográficoa (ou seja, da sua resolução). Por exemplo, o resíduo de glicina, devido à ausên-
exemplo, em estruturas de média resolução (2,5 a 3,0 cia de uma cadeia lateral volumosa, pode ser
Å) o número de moléculas de água esperado é baixo, encontrado fora das regiões permitidas. Por
pois apenas aquelas moléculas que estão fortemente outro lado, o resíduo de prolina pode locali-
associadas à proteína (usualmente localizadas no sítio zar-se em regiões proibidas em função de
ativo ou em outras regiões funcionais) podem ser cor- isomeria estrutural (isto é, isômeros cis e
13. Cristalografia de proteínas
trans).
Ocasionalmente, se a resolução for alta
o suficiente para permitir uma interpretação
precisa, um resíduo pode aparecer fora dos
limites aceitáveis (Figura 18-13). Exemplos
como esse não são incomuns e, portanto, é
fortemente recomendada a inspeção criterio-
sa de todos os resíduos de uma proteína,
principalmente aqueles indicados em regiões
não favoráveis no gráfico de Ramachandran.
Figura 18-13: Gráfico de Ramachandran
Planejamento baseado na estrutura representativo para uma estrutura de boa
do receptor qualidade. Destaque para o resíduo de serina
que, apesar de localizado em um uma região
Os avanços nas ciências biomédicas vem proibida, é perfeitamente corroborado pelo
contribuindo significativamente para a identi- mapa de densidade eletrônica.
13. Cristalografia de proteínas
Cristal: sólido no qual os átomos constituintes PDB: banco de dados de proteínas de acesso li-
estão organizados num padrão tridimensi- vre em http://www.rcsb.org.
onal bem definido, que se repete no espa-
ço, formando uma estrutura com uma Raios-X: radiação eletromagnética com compri-
geometria específica. mento de onda entre 0,01-10 nm (0,1-100
Å).
Cristalização: processo de separação sólido-lí-
quido no qual há transferência de massa Refinamento: processo supervisionado de cons-
de um soluto a partir de uma solução lí- trução e ajuste do modelo estrutural aos
quida supersaturada para uma fase sólida dados de difração de raios-X.
cristalina pura.
Sistema de clonagem LIC: estratégia em biolo-
Cromatografia: método de separação e identifi- gia molecular para a clonagem indepen-
cação dos componentes em uma mistura. dente de ligação capaz de aumentar a
Ampalmente empregado para a purificação taxa de sucesso na obtenção de proteína
de proteínas. expressa na forma solúvel, com alta pure-
za e em grande quantidade.
Difração: fenômeno de interação entre a radia-
ção eletromagnética com a matéria com Solução de cristalização: solução que favorece a
consequente dispersão dessa radiação. cristalização de proteínas constituída de
componentes como agentes tamponantes,
Expressão em sistema heterólogo: expressão de aditivos que facilitam o processo de cris-
um gene (ou parte dele) em um organis- talização e agentes precipitantes.
13. Cristalografia de proteínas
MCPHERSON, A. Introduction to
Macromolecular Crystallography.
Hoboken: John Wiley & Sons, 2009.